首页> 中国专利> 一种畜牧业新闻资讯推荐系统

一种畜牧业新闻资讯推荐系统

摘要

本发明公开了一种畜牧业新闻资讯推荐系统,包括用户兴趣度建模模块、新闻资讯爬取模块、网页数据预处理模块、新闻资讯推荐模块、新闻资讯展示反馈模块和新闻资讯检索模块。每一个模块均由JAVA语言、PYTHON语言等实现,从而实现快速有效的服务器端计算、建模和挖掘。用户在互联网网页端可以使用本发明系统,在使用系统的过程中,系统自动记录用户的点击、检索等操作,通过特征分析、挖掘和协同性训练学习来确定用户兴趣度模型。本发明能够适应畜牧领域的新闻资讯推荐应用,简化用户操作并及时推荐有价值的畜牧业新闻资讯信息,节约系统资源,减少网页加载的时间,提高了用户获取畜牧新闻资讯的效率。

著录项

  • 公开/公告号CN112732995A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 云浮市物联网研究院有限公司;

    申请/专利号CN202110022281.0

  • 发明设计人 郭杰;钟淑琴;

    申请日2021-01-08

  • 分类号G06F16/951(20190101);G06F16/9535(20190101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人冯炳辉

  • 地址 527400 广东省云浮市新兴县新城镇沿江北路66号筠城国际广场金融中心10楼

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及计算机互联网数据挖掘的技术领域,尤其是指一种畜牧业新闻资讯推荐系统。

背景技术

目前,许多畜牧企业、养殖户以及肉类加工处理企业为了获得畜牧业新闻资讯,往往依赖于搜索引擎,这种方式往往需要用户主动提供检索词,不能由服务端主动推送。随着信息的海量增长,人们希望能够通过自动推荐方式来实现信息获取。目前的常用的新闻推荐系统是以向量空间模型构建的基于内容或基于协同过滤的方式来进行推荐,这种方式为了适应所有新闻对象,很难做到有针对性地对用户进行面向行业专业领域的兴趣度建模。同时,为了满足不同类别、行业或主题的新闻推荐,现有系统往往不能构建专门的新闻对象特征库,只能依赖于基于词袋模型的内容推荐或基于点击的协同过滤推荐,导致结果相对于特定细主题特别集中,或获得过多无关信息。

面对此类问题,传统的解决方法可以归为两类:一种解决方案是将候选集的细主题新闻资讯按照权重指标进行分配,但这种人工干预方式本身就没有理论依据,容易产生经验依赖,即不同的数据集需要不同的经验设定。另一种解决方案是对待推荐结果进行差异处理,即尽量在候选集中挑选主题不同的新闻资讯,但由于在传统新闻推荐方法中,用户兴趣度的不显著性将导致无关信息过多,虽然推荐列表的多样性得到了增强,但准确度仍然无法保证。

基于以上背景和传统解决方案存在的问题,针对特定行业,如畜牧业,需要提出一种对细分领域有兼容性和区分性的解决方案,并且能适应跨系统信息多元兴趣度数据融合,快速、准确、客观地获得细分领域的新闻资讯推荐结果。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提出了一种畜牧业新闻资讯推荐系统,解决现有新闻推荐系统在细分领域上推荐结果准确度不足、模型经验依赖过多以及时效性低的问题,并通过可装配的数据接口模式方便融合到各种新闻资讯平台。

为实现上述目的,本发明所提供的技术方案为:一种畜牧业新闻资讯推荐系统,包括:

用户兴趣度建模模块,用于挖掘、构建和存储用户兴趣度模型;

新闻资讯爬取模块,用于增量收集畜牧业新闻资讯;

网页数据预处理模块,用于对畜牧业新闻资讯进行预处理,包含去噪、去重和分类;

新闻资讯推荐模块,用于为给定用户提供新闻推荐列表,并自动收集其点击信息进行自我评估;

新闻资讯展示反馈模块,用于将推荐的畜牧新闻资讯以及需要推动的热点新闻资讯、广告信息展示给用户;

新闻资讯检索模块,用于给用户提供检索接口,让用户能够根据检索词和特征设定,精准找到相关的畜牧业新闻资讯信息。

进一步,所述用户兴趣度建模模块,采用多元数据来源兴趣建模,兴趣建模数据包括用户检索词、用户检索后和被推荐新闻资讯后点击关联,以及浏览的新闻资讯内容;所述用户兴趣度建模模块包括用户检索词收集子模块、用户点击新闻资讯的关联信息子模块、用户阅读新闻资讯的内容建模子模块;

所述用户检索词收集子模块根据用户使用检索系统的记录,将其使用的检索词收集起来,并按照向量空间模型进行赋权,时间越久则赋权越低;

所述用户点击新闻资讯的关联信息子模块用于构建用户和新闻资讯之间的关联,包括两类关联:用户经过检索后的点击关联和用户点击推荐新闻资讯的关联;

所述用户阅读新闻资讯的内容建模子模块用于将用户点击浏览的内容进行向量空间建模,形成向量空间模型;此外,该内容建模子模块还将浏览停留时间作为建模元素,根据新闻资讯字数作为归一化因子,停留单位字数越长时间的新闻资讯则对用户兴趣模型权重越大。

进一步,所述新闻资讯爬取模块采用增量爬取方式,每天从配置种子文件中的网页中爬取畜牧业相关新闻资讯,并对爬取后的新闻时间节点做标记,对爬取的新闻进行出版发布时间比对,发现新的发布信息,再爬取入库,对于没有获得发布时间信息的目标站点,使用LSH最小哈希方法比对入库资讯,从而达到入库前去重,第二天则从标记节点进行增量爬取。

进一步,所述网页数据预处理模块对新闻资讯内容进行不仅包括垃圾信息和噪声信息过滤、聚类整理,还包括命名实体抽取、数据清洗,具体操作如下:

对畜牧业新闻资讯进行去重、抽取命名实体、清洗的预处理,并将预处理的信息入库;去重采用最小哈希方法对入库的新闻及其爬取的新闻进行比对,发现有重复新闻资讯,则只记录其来源,做好重复性标记;命名实体的识别采用条件随机场方法,将词表中的按照词表库分类标记为命名实体,将非词表中的新词作为待入库命名实体,作为新命名实体;对数据的清洗包括3个方面:a、缺失值的清洗,对于缺失发布时间的畜牧业新闻资讯,如果入库新闻资讯有重复新闻,则读取重复新闻的发布时间,如果没有则赋值当前系统时间;b、逻辑性的清洗,对爬取的新闻资讯截取前段50个字符、中间50个字符以及最后50个字符作为新闻标记值,设定为新闻唯一标记键值,如有重复新闻,则对应增加重复性标记;c、噪声内容清洗,对少于15个字符的新闻,自动判别为噪声,有广告、概览页面标题噪声。

进一步,所述新闻资讯推荐模块具体执行以下操作:

S1、通过命名实体抽取方法,将畜牧业新闻中的关键动物词项抽取出来,并将关键畜牧业公司名称抽取出来,将其作为关键实体;

S2、根据实体特点,将实体对象分为动物实体和公司实体,并根据畜牧业新闻特点进行分类,将其分为养殖、销售、社会、政策、软文广告分类;

S3、根据每个用户阅读具体畜牧业新闻分类的统计数据,将其映射为一个排序得分,该得分位于[0,10]区间的实数,并且以5为均值进行正态分布散列,即均值μ=5,另外设定标准差σ=1,这样,形成一个用户-分类二维矩阵,矩阵中的元素是用户点击阅读某特定分类的,矩阵元素值越高,表示特定用户点击特定分类新闻次数越多;

S4、对最近时间窗口期6个月以内的新闻,使用LDA主题聚类方法,找出主题,并通过移动平均预测其热点值,对于待推荐新闻资讯i,将该新闻资讯i与主题聚类中的各类簇进行质心的欧式距离比较,归类到最近一个主题分类,进而得知该新闻资讯i的热点值h(i);

S5、假设用户u对待推荐新闻资讯i的感兴趣程度用U(u,i)效用度来表示,则:

其中,c(i)为待推荐新闻资讯i所在的簇ID号,用于区分不同的簇,j是与i不同的新闻,sim(*,*)函数表示两个向量结构的参数的相似度,这里,sim(i,j)表示i和j的相似度,sim(s

其中,r

在上面的参数求解迭代公式中,α'

S6、所有待评估参数确定后,对于每一个待推荐新闻资讯i,通过公式U(u,i)能够求解其兴趣度值;为了防止相近新闻反复推荐,将根据用户已经浏览过的畜牧新闻资讯以及待推荐新闻资讯进行比对,将已经推荐过相似新闻的待推荐新闻,将其降低排名分的方式展示,如果降低超过设定值,则不会被推荐,如下公式:

其中,L表示偏好度得分,S表示已经选中的候选集,sim(s

这里,θ'

进一步,所述步骤S4包含以下步骤:

S4-1、将新闻按照时间窗口Δt为单位,切分为时间段子数据集,并对子数据集执行聚类,具体过程为:对子数据集执行k-means聚类,并设定初始聚类簇k,最终获得其k个聚类簇心;然后,对k个子簇进行随机抽样m个迭代起始点,从这些起始点开始,对周边点以R为半径进行欧氏距离计算,当计算的距离小于阈值T时,标记其为周边点,并将其纳入到该点的聚类簇中,直到所有点都遍历完;

S4-2、将新闻资讯以时间窗口为基准,对相应的新闻资讯进行时间轴关联,关联方法和步骤S4-1方法相同;然后按照每天的聚类簇数量进行统计,算出每个聚类簇占日畜牧新闻资讯的总数比例,从而形成每天的比例变化曲线,然后在该曲线上应用指数平移方法进行热点预测;当待推荐新闻资讯i进入到系统后,首先判断其所属的聚类簇,然后根据热点预测结果返回其热点值h(i)。

进一步,所述新闻资讯展示反馈模块用于畜牧新闻推荐结果的展示,对于展示页面的新闻资讯,若用户浏览了标题但没有点击的,将其作为负反馈特征记录在用户兴趣度模型中,当累计三次浏览标题但没有点击时,将对应新闻资讯从该用户的展示列表中撤除;为了确保推荐兴趣度模型的时效性,即系统运行过程中,兴趣度模型的更新能及时反映用户的兴趣需求的变化,所述新闻资讯展示反馈模块将用户的点击行为、检索行为用于推荐算法的输入特征进行了缓存,当缓存库积累到阈值时,启动用户兴趣度模型算法,更新用户兴趣度模型;所述新闻资讯展示反馈模块还根据用户兴趣度推荐用户需要的畜牧产品广告,转变广播式发送广告给用户造成信息干扰的模式,广告推荐方法与畜牧新闻资讯推荐方法一样,广告在后台入库时,由广告管理人员将广告内容和分类的信息输入到系统中,根据广告内容和分类信息与用户兴趣模型构建关联。

进一步,所述新闻资讯检索模块提供检索接口页面和检索系统,检索系统基于Lucene开源项目构建,并包含会员系统,用户需要登录才能使用,当用户登录后,所有行为将根据用户ID进行收集、挖掘和建模。

本发明与现有技术相比,具有如下优点与有益效果:

1、通过本发明很好地融合了用户历史点击、浏览以及检索词多维度信息,相对于传统的推荐系统的单维度兴趣度建模,本发明系统及其核心方法对用户兴趣度挖掘更客观精准。畜牧业新闻资讯推荐方法不仅将用户点击浏览的畜牧新闻资讯作为推荐特征来源,还将检索词作为推荐特征来源,进一步聚焦了用户的兴趣特征。这得益于本发明将信息检索系统的查询减速记录融合到推荐系统的特征收集中。

2、本发明中的推荐方法融合了热点新闻资讯主题以及关键命名实体信息,同时对推荐结果进行去重处理,将过于相似的新闻资讯降权,但又从关键命名实体相似性上防止了感兴趣的资讯信息被误降权,从而确保了更高的准确度和排序性。畜牧业新闻资讯推荐方法在推荐排序方面对重复或类似的畜牧新闻资讯结果进行了排除,同时基于畜牧业命名实体集约束了兴趣度聚焦,从而确保了推荐准确度的同时也优化了推荐结果的多样性。

3、传统推荐系统中的用户兴趣度画像常常会面临更新时新性问题,即用户兴趣度模型很难随着点击、浏览或购买动作得到较快速的更新反馈。本发明的特征反馈设计可以有效地将系统中的变化及时反馈到用户兴趣度建模上,从而更新用户兴趣画像,以最新的用户兴趣度模型为基础给出用户较精准的推荐结果。

4、畜牧业新闻资讯推荐方法相对于传统方法过于依赖参数阈值,本发明提出的核心推荐算法将待定的参数以最大化用户兴趣为优化目标,获得可观的模型参数,使之在推荐时更客观精准。

附图说明

图1为畜牧业新闻资讯推荐系统各个模块的关系及其层次示意图。

图2为畜牧业新闻资讯推荐系统各个模块的调用和运行过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

如图1和图2所示,本实施例公开一种畜牧业新闻资讯推荐系统,包括以下功能模块:

用户兴趣度建模模块,用于挖掘、构建和存储用户兴趣度模型;

新闻资讯爬取模块,用于增量收集畜牧业新闻资讯;

网页数据预处理模块,用于对畜牧业新闻资讯进行预处理,包含去噪、去重和分类;

新闻资讯推荐模块,用于为给定用户提供新闻推荐列表,并自动收集其点击信息进行自我评估;

新闻资讯展示反馈模块,用于将推荐的畜牧新闻资讯以及需要推动的热点新闻资讯、广告信息展示给用户;

新闻资讯检索模块,用于给用户提供检索接口,让用户能够根据检索词和特征设定,精准找到相关的畜牧业新闻资讯信息。

所述用户兴趣度建模模块与传统的单来源建模不同,其采用多元数据来源兴趣建模,兴趣建模数据包括用户检索词、用户检索后和被推荐新闻资讯后点击关联,以及浏览的新闻资讯内容;所述用户兴趣度建模模块包括用户检索词收集子模块、用户点击新闻资讯的关联信息子模块、用户阅读新闻资讯的内容建模子模块。

所述用户检索词收集子模块主要功能是根据用户使用检索系统的记录,将其使用的检索词收集起来,并按照向量空间模型进行赋权,时间越久则赋权越低。

所述用户点击新闻资讯的关联信息子模块主要功能是构建用户和新闻资讯之间的关联,包括两类关联:用户经过检索后的点击关联和用户点击推荐新闻资讯的关联。

所述用户阅读新闻资讯的内容建模子模块主要功能是将用户点击浏览的内容进行向量空间建模,形成向量空间模型;此外,该内容建模子模块还将浏览停留时间作为建模元素,根据新闻资讯字数作为归一化因子,停留单位字数越长时间的新闻资讯则对用户兴趣模型权重越大。

新闻资讯爬取的传统方法常采用先爬取再去重,或通过全文比对去重,这两种方式耗费系统资源较多,畜牧业新闻资讯目标网站每天都在更新资讯信息,传统爬虫一般每运行一次,就批量全部爬取,爬取到本地后,再进行去重,这样的方式重复工作量较大,浪费很多计算资源和带宽资源;而本系统的新闻资讯爬取模块采用增量爬取方式,每天从配置种子文件中的网页中爬取畜牧业相关新闻资讯,并对爬取后的新闻时间节点做标记,对爬取的新闻进行出版发布时间比对,发现新的发布信息,再爬取入库,对于没有获得发布时间信息的目标站点,使用LSH最小哈希方法比对入库资讯,从而达到入库前去重,第二天则从标记节点进行增量爬取。

传统方法对新闻资讯预处理侧重于垃圾信息的过滤和聚类整理,而本系统的网页数据预处理模块对新闻资讯内容进行不仅包括垃圾信息和噪声信息过滤、聚类整理,还包括命名实体抽取、数据清洗,具体操作如下:

对畜牧业新闻资讯进行去重、抽取命名实体、清洗的预处理,并将预处理的信息入库;去重采用最小哈希方法对入库的新闻及其爬取的新闻进行比对,发现有重复新闻资讯,则只记录其来源,做好重复性标记;命名实体的识别采用条件随机场方法,将词表中的按照词表库分类标记为命名实体,将非词表中的新词作为待入库命名实体,作为新命名实体;对数据的清洗包括3个方面:a、缺失值的清洗,对于缺失发布时间的畜牧业新闻资讯,如果入库新闻资讯有重复新闻,则读取重复新闻的发布时间,如果没有则赋值当前系统时间;b、逻辑性的清洗,对爬取的新闻资讯截取前段50个字符、中间50个字符以及最后50个字符作为新闻标记值,设定为新闻唯一标记键值,如有重复新闻,则对应增加重复性标记;c、噪声内容清洗,对少于15个字符的新闻,自动判别为噪声,主要有广告、概览页面标题噪声。

所述新闻资讯推荐模块具体执行以下操作:

S1、通过命名实体抽取方法,将畜牧业新闻中的关键动物词项抽取出来,如猪、牛、鸡,并将关键畜牧业公司名称抽取出来,如温氏集团、大用实业及其它畜牧公司,并将其作为关键实体;

S2、根据实体特点,将实体对象分为动物实体和公司实体,并根据畜牧业新闻特点进行分类,将其分为养殖、销售、社会、政策、软文广告分类;

S3、根据每个用户阅读具体畜牧业新闻分类的统计数据,将其映射为一个排序得分,该得分位于[0,10]区间的实数,并且以5为均值进行正态分布散列,即均值μ=5,另外设定标准差σ=1,这样,形成一个用户-分类二维矩阵,矩阵中的元素是用户点击阅读某特定分类的,矩阵元素值越高,表示特定用户点击特定分类新闻次数越多;

S4、对最近时间窗口期6个月以内的新闻,使用LDA主题聚类方法,找出主题,并通过移动平均预测其热点值,对于待推荐新闻资讯i,将该新闻资讯i与主题聚类中的各类簇进行质心的欧式距离比较,归类到最近一个主题分类,进而得知该新闻资讯i的热点值h(i),主要分为以下步骤:

S4-1、将新闻按照时间窗口Δt为单位,切分为时间段子数据集,并对子数据集执行聚类,具体过程为:对子数据集执行k-means聚类,并设定初始聚类簇k,最终获得其k个聚类簇心;然后,对k个子簇进行随机抽样m个迭代起始点,从这些起始点开始,对周边点以R为半径进行欧氏距离计算,当计算的距离小于阈值T时,标记其为周边点,并将其纳入到该点的聚类簇中,直到所有点都遍历完;

S4-2、将新闻资讯以时间窗口为基准,对相应的新闻资讯进行时间轴关联,关联方法和步骤S4-1方法相同;然后按照每天的聚类簇数量进行统计,算出每个聚类簇占日畜牧新闻资讯的总数比例,从而形成每天的比例变化曲线,然后在该曲线上应用指数平移方法进行热点预测;当待推荐新闻资讯i进入到系统后,首先判断其所属的聚类簇,然后根据热点预测结果返回其热点值h(i)。

S5、假设用户u对待推荐新闻资讯i的感兴趣程度用U(u,i)效用度来表示,则:

其中,c(i)为待推荐新闻资讯i所在的簇ID号,用于区分不同的簇,j是与i不同的新闻,sim(*,*)函数表示两个向量结构的参数的相似度,这里,sim(i,j)表示i和j的相似度,sim(s

其中,r

在上面的参数求解迭代公式中,α'

S6、所有待评估参数确定后,对于每一个待推荐新闻资讯i,通过公式U(u,i)可以求解其兴趣度值;为了防止相近新闻反复推荐,将根据用户已经浏览过的畜牧新闻资讯以及待推荐新闻资讯进行比对,将已经推荐过相似新闻的待推荐新闻,将其降低排名分的方式展示,如果降低太多,则不会被推荐,如下公式:

其中,L表示偏好度得分,S表示已经选中的候选集,sim(s

这里,θ'

所述新闻资讯展示反馈模块主要功能是畜牧新闻推荐结果的展示,对于展示页面的新闻资讯,若用户浏览了标题但没有点击的,将其作为负反馈特征记录在用户兴趣度模型中,当累计三次浏览标题但没有点击时,将对应新闻资讯从该用户的展示列表中撤除;为了确保推荐兴趣度模型的时效性,即系统运行过程中,兴趣度模型的更新能及时反映用户的兴趣需求的变化,所述新闻资讯展示反馈模块将用户的点击行为、检索行为用于推荐算法的输入特征进行了缓存,当缓存库积累到阈值时,启动用户兴趣度模型算法,更新用户兴趣度模型,这相较于传统的定时更新更及时有效;所述新闻资讯展示反馈模块还根据用户兴趣度推荐用户需要的畜牧产品广告,转变广播式发送广告给用户造成信息干扰的模式,广告推荐方法与畜牧新闻资讯推荐方法一样,广告在后台入库时,由广告管理人员将广告内容和分类的信息输入到系统中,根据广告内容和分类信息与用户兴趣模型构建关联。

所述新闻资讯检索模块提供了检索接口页面和检索系统,检索系统基于Lucene开源项目构建,并包含了会员系统,用户需要登录才能使用,当用户登录后,所有行为将根据用户ID进行收集、挖掘和建模。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号