法律状态公告日
法律状态信息
法律状态
2019-11-05
授权
授权
2015-12-09
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150710
实质审查的生效
2015-11-11
公开
公开
技术领域
本发明属于网络应用个性化推荐技术领域,涉及数字化资源个性化推荐方法。
背景技术
随着互联网快速发展,资源数量爆炸性增长,在面对如此浩瀚的资源海洋时,用户很难在短时间内找到自己真正需要的资源。因此,造成了信息迷航与信息过载的问题。信息迷航是指用户在复杂的网络信息空间中浏览信息时迷失方向,不清楚所要找的资源在哪里,无法返回到某个节点,在寻找的过程中忘记自己的初衷目的。而信息过载则是由于Internet提供的复杂且广泛的资源,致使资源的使用者常常受制于认知能力和各方面知识的约束,难以正确的获取和使用网络上给予的资源。
数字化资源与传统资源有所区别,它是文本、图片、音频、视频、动画等多种资源的结合,并提供丰富的交互能力,能够激发用户通过自主、合作、创造的方式来寻找和处理资源。数字化资源相比传统资源有以下优势:1)扩展性,用户学习数字化资源不受时空和传递呈现方式的限制,通过多种设备,可以获得高质量的数字化资源;2)多样式,多种呈现形式,丰富的内容表现力,激发用户的学习动力;3)共享性,不同用户可以共享数字化资源,极大地提高学习效率。
用户在网络上检索相关数字化资源时,需要花费大量的时间才能找到自己需要的资源。这种浏览大量无关的信息无疑会使淹没在信息过载和信息迷航问题中的用户迷茫,为了解决这些问题,个性化推荐方法应运而生。个性化推荐方法是建立在海量数据挖掘基础上的一种智能方法,充分利用用户在网站上访问记录,对用户行为进行用户偏好分析,帮助网站为其用户提供个性化的服务。
个性化推荐是根据用户的兴趣特点和行为记录,向用户推荐用户感兴趣的资源。个性化推荐技术中,个性化是指使资源具有个性化的属性。主要是在非一般大众化的基础上增加独特、拥有本身特点的需要,使资源具有个性,或者使其凸显个性。个性化一般包含两层含义,第一、用户个性化的过程,这是需要经过培养逐步形成的;第二,资源个性化的过程,资源的个性化以特定的方式得到体现和展示,此个性化的过程是每个用户都应拥有的潜在需求的过程。
在目前的推荐方法中,标签逐渐成为一种表现用户特征的重要方式。标签类似于一种关键字标记,来源于标注者对资源主观感受的概括,被用于描述资源,当一个资源被标注多个标签后,其相对于其他资源而言,已具有个性化的特点;用户在长期学习数字化资源的过程中,会形成属于个人的标签库,其相对其他用户而言,已拥有独特的特征,在不同用户学习相同资源后,其又拥有共性,而个性化推荐方法就是利用这些特点向用户推荐个性化的资源和用户。
发明内容
本发明的目的在于克服现有技术不足,使用能准确表示页面内容的标签,更能体现用户的潜在兴趣,并自动为未访问页面标注标签,使得推荐结果更具人性化。
本发明的目的是通过以下技术方案来实现的:一种数字化资源个性化推荐方法,通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐,具体包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,具体包括以下子步骤:
(1.1)在获取网站全部页面URL后,去掉无效页面,比如脚本文件URL,样式表文件URL以及一些错误页面;
(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤:
(2.1)用户设置浏览器代理,通过代理服务器访问网站;
(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每次用户浏览页面时,将用户ID,页面URL、页面标题、页面访问时间、上一跳地址返回给服务器,保存在数据库中,生成访问记录表;
(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与
当前用户访问页面最相似的页面,具体包括以下子步骤:
(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,得到n个有效词(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数
(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键字tk在两个页面中的词频数
(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量
(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次
进一步地,步骤(2)生成的访问记录表,用户所访问网站是互联网已存在的,通过用户设置代理的方式,代理服务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获取用户在该网站上的访问记录并将其返回到服务器,保存在数据库中;步骤(1)中生成的网页标签表,统计网页标签表可以获得该领域的标签库,在之后访问未标注页面时,选取最相似页面的标签作为该页面的标签,结合步骤(2)生成的访问记录表和网页标签表,用户访问的页面都已标注标签。
本发明的有益效果是:本发明方法通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明具有推荐精确和多样的特点,更能体现出用户的个性化。
附图说明
图1本发明方法的流程图;
图2本发明方法的页面相似度匹配流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明一种数字化资源个性化推荐方法,包括以下步骤:
(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,包括以下子步骤:
(1.1)利用网站地图工具获取网站www.w3school.com.cn的网站地图,分析工具生成的XML文件,得到该网站所有的页面URL;去掉样式文件URL、脚本文件URL以及一些错误页面,最终获得该网站3975个有效页面;
(1.2)采用人工标注标签的方式,通过浏览每个页面,取能够准确描述该页面的标签,至多10个,保存在数据库中,生成网页标签表;
(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括下一子步骤:
(2.1)用户设置浏览器代理;通过代理服务器访问网站;
(2.2)在服务器上安装一个带过滤功能的代理服务器,其基本工作原理为:在配置文件中设置规则,匹配则向页面中添加脚本,该脚本用于获取用户访问记录,即用户ID,页面URL、页面标题、页面访问时间、上一跳地址,向服务器发送请求将访问记录保存在数据库中,生成访问记录表;用户在浏览器中输入URL,代理服务器收到请求,代理服务器向访问网站服务器发送请求;网站服务器收到请求,返回所请求页面;代理服务器收到页面,在配置文件中匹配该网站的规则,成功,则应用规则,在页面中添加脚本;用户浏览器收到已经添加过脚本的页面,脚本成功获取用户访问记录;
(3)页面相似度匹配,检测用户当前访问页面是否在网页标签表中,若不在,则从网页标签表中获取与当前用户访问页面最相似的页面,如图2所示,具体包括以下子步骤:
(3.1)网页关键字提取,用户输入URL访问页面P1,去掉HTML标签,获得纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,比如得到100个有效词,统计这200个有效词在页面中出现的次数,比如该页面颜色这个有效词出现的次数为10,因此可以计算颜色这个有效词出现的词频数为TF=10/200=0.05,扫描网页标签表中3975个页面,统计包含有颜色这个有效词词出现的页面数,比如有150个页面,用网站网页总数除以包含该有效词的网页数并取对数,即
(3.2)从网页标签表中取出一个页面P2,按照步骤(3.1)所述方法获取页面5个关键字,比如为颜色,文本,超链接,锚,字体,将这两个关键字合并为一个集合,即(颜色,背景,样式,文本,图像,超链接,锚,字体),计算这8个关键字在页面P1和P2中出现的次数,进一步将每个有效词词频除以所有有效词总的词频数,得到这8个关键字的相对词频;
(3.3)根据步骤(3.2)计算得出的相对词频,得到这两个页面的词频分量,计算这两个分量的余弦相似性;
(3.4)依次计算P1和网页标签表中其他页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;
(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次
机译: 个性化推荐书的个性化推荐书方法及其系统
机译: 提供个性化推荐服务的方法及其提供的服务器,特别是有能力保护个人隐私以提供具有高度准确性的个性化推荐信息
机译: 用于提供有关药物使用的个性化推荐的基于Web的计算机辅助方法和系统,以及一种计算机可读介质