首页>中文会议>工业技术>自动化技术与计算机技术>第六届全国信息检索学术会议
第六届全国信息检索学术会议

第六届全国信息检索学术会议

  • 召开年:2010
  • 召开地:黑龙江镜泊湖
  • 出版时间: 2010-08-12

主办单位:中国中文信息学会

会议文集:第六届全国信息检索学术会议论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:近年来倾向性分析在信息处理领域深受关注。针对产品评论信息中的产品属性过于繁多,本文提出了一种自动归类方法,以语素和评价词作为衡量产品属性之间关联程度的特征,采用K-Means方法进行产品属性归类。以中文评论信息为实验语料,实验结果显示了提出方法的有效性,并证明了语素在评论信息中的语义显著性,评价词在评论信息中的重要性。
  • 摘要:本文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,本文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web 文档聚类。实验表明,本文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。
  • 摘要:个人信息检索是个人计算机上用户搜索文件的一种重要技术,但同互联网检索相比,个人信息检索能利用的信息很少,这使得个人信息检索的排序成为很困难的问题。本文通过收集计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。其中用户行为分为检索系统的查询行为和计算机上的文件访问行为,本文通过查询行为获取训练数据,文件访问行为获取文件自身的权重,并利用统计学习的方法结合这两类行为学习排序函数,实验结果显示我们的方法好于传统的排序方法。另外我们实现了收集用户行为并提供多种排序函数的个人信息检索系统LUPINS。
  • 摘要:在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立处理各个特征维度,实现了真正的基于特征的抽样。使用对各类分布模拟能力最强的高斯混合模型对小类中每个特征的权值分布建模,再依据该模型抽取新权值以进一步组合为新样本加入小类训练集。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征原始分布,构造的新样本质量高。实验结果表明,该方法效果良好,并显著好于SMOTE算法。
  • 摘要:建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web 汽车评论真实语料库,自动获取了本体知识库中的核心概念。最后,采用OWL描述语言,构建了面向观点挖掘的本体知识库。
  • 摘要:blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特殊性,无法有效地结合评论来处理文章。本文通过分析blog的特点提出了一种新的结合评论信息的blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,本文方法在ROUGE测度上优于以往方法。
  • 摘要:随着生物医学文献的急剧增加,从文本中自动抽取蛋白质的相互作用关系,成为文本挖掘领域研究中的重要方向。目前主流的蛋白质关系抽取方法大多侧重于提取句子的结构化特征信息,对句中词信息没有进行深入发掘,特别是对复杂长难句的处理时间消耗大。本文提出了一种新的模板方法,利用两类句法分析器生成结构化句子,从中找到存在特定意义的模板序列,通过模板快速匹配句子。本方法能够同图核方法进行有效融合,解决图核方法难以处理复杂长难句的不足,提高实验效率。本方法在AIMed 语料上使用十倍交叉验证的F 值达到了63.1%。
  • 摘要:互联网已经成为当今社会人们沟通交流的重要平台,越来越多的人在Web 2.0系统中发布分享自己的个人兴趣与爱好信息。在一个网上评价系统中,用户可以根据自己的喜好为目标资源打分。与传统的基于协同过滤的推荐系统不同,本文将用户对资源的评价与标注看作用户对资源发表的一个观点,并将评价系统中发表相似观点的用户集成起来形成观点社群。利用观点社群中用户有相似的兴趣和爱好的假设,为用户个性化推荐资源、标签和潜在的朋友等。通过在真实数据集下的实验表明,该方法可以有效的为用户推荐其感兴趣的信息。
  • 摘要:Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog 已经成为互联网上的主要信息源之一,这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而得到垃圾评论。经验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog 信息更加准确、有效的为用户使用。
  • 摘要:面向信息检索的语言模型存在较严重的数据稀疏问题,由于近邻信息能够较好地反映词的分布,因此将文档的近邻信息加入语言模型的平滑中,新方法称为近邻语言模型。实验结果表明,近邻语言模型对检索性能有一定的提升。
  • 摘要:当前的Web服务注册架构缺少能够高效、准确、充分发现服务的分类管理机制,导致业务需求不能满足,造成服务资源浪费.针对某一特定领域,进行Web服务的分类管理显得格外重要.本文提出了一种基于聚类分析的方法,辅助对特定领域的Web服务进行分类.方法将功能相同或相近的Web服务聚合在一起,进而对它们进行抽象,使用抽象服务概念来描述一类Web服务,达到对Web服务自动分类管理的目的,为快速、精确、完备的服务查找提供方便.通过实验和领域应用验证,证明了方法的可行性和有效性.
  • 摘要:由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进行研究,利用领域本体获取Deep Web入口表单与集成查询接口表单谓词的映射关系,分析查询重写产生约束映射规则,使得用户提交的查询条件转换成与各个Deep Web数据库查询接口相适应的查询条件。实验结果表明本文所提出的查询转换方法是可行的和有效的。
  • 摘要:P2P-VoD中的跳转操作需要高效的节点搜索,如何快速查找到“合适”的节点给我们提出了挑战。“合适”包含两方面因素:1)内容匹配;2)物理性能匹配。而传统的方法大部分只涉及对前者的研究。在本文中,我们提出了一种层次化的搜索模型(简称Mediacoop),不仅可以让搜索到的节点在内容上满足要求,而且在物理性能上也能满足要求。具体而言,Mediacoop首先利用播放距离来索引全部节点,再利用延迟特征优选内容上已经符合要求的节点。在NS2模拟器上的实验表明,Mediacoop在用户体验和系统开销上均优于传统的方法。
  • 摘要:热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术-----热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。
  • 摘要:古籍文献中蕴含着丰富的知识,如‘医古文’在现代中医理论发展过程中仍占据重要基础地位,因此面向古籍文献的检索技术研究具有一定的应用价值。然而,目前文本信息检索技术的研究主要面向由现代汉语构成的文本,针对古汉语文献资料的检索研究并不多见。本文提出一种基于共现字序列的古今句子相似度计算方法,实现了古文与现代文句子之间的跨文种检索。利用本文方法在《内经》原文与现代文对照版本上进行了古文与现代文的双向句子检索实验,实验结果表明本文方法在古今句子检索上取得较好效果。
  • 摘要:英文文本中的真词错误即输入的错词是和原词相似的另一个有效词。本文主要研究了对该类错误的检测。通过从所要检测的单词的上下文中提取句法和语义两个方面的特征,运用文档频率和信息增益进行特征筛选,实现了对上下文特征的有效提取。最终把判断该单词使用的正确与否看作分类问题,使用Winnow分类算法进行训练和测试。通过5 阶交叉验证,所收集的61组混淆集的平均正确率与召回率分别为96%,79.47%。
  • 摘要:查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。本文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank 方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank 算法的计算复杂度,本文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC 标准数据集上的实验表明,本文的方法可以有效地选择相关扩展词。MAP 指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
  • 摘要:为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所13Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如{ }网站)和单一语言检索(如维吾尔文网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询
  • 摘要:搜索广告已经成为搜索引擎的重要收入来源之一,因此越来越多的研究着眼于提高搜索引擎所投放广告的点击率。本文基于国内著名商用搜索引擎提供的用户查询点击日志,首先统计分析了搜索引擎用户查询的广告点击率,然后提出两种方法对搜索引擎用户查询的广告点击意图进行分析和预测,分别是:基于查询词内容匹配的点击预测模型和基于贝叶斯分类的预测模型。在较大规模的真实用户查询点击日志上的实验结果表明,所提出的方法具备一定的预测完整用户查询广告点击意图的能力,能够较缩小广告投放范围,提高广告投放的有效性,将广告投放的精度从3.0%提高到36.8%,因此使得广告投放的平均 F-measure 值从0.060 提升到0.408,从而减少搜索引擎广告投放的代价,最终改进广告投放效果。所提出的方法可以适用于在线广告意图的实时预测。
  • 摘要:识别搜索引擎用户的查询意图是在信息检索领域一个备受关注的研究内容。本文提出了一种融合多类特征识别web 查询意图的方法。具体地,本方法将Web 查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内容以及Web查询日志中抽取出有效的分类特征。在人工标注的真实web查询语料上采用本文的方法进行查询意图识别实验,实验结果显示本文采用的各类特征对于提高查询意图识别的效果皆有一定帮助,综合使用这些特征对88.5%测试查询得到了准确的意图识别结果。
  • 摘要:文本情感倾向性分析的基础是词汇情感倾向分析,本文针对基于词典的词汇情感倾向性分析方法中对情感词倾向绝对化标注问题,提出了一种获取上下文相关的词汇情感倾向方法。同时针对目前缺少包含上下文相关情感词标注资源的问题,使用最大熵交叉验证和手工校正结合的方法加以构造,并在此基础上构造了上下文相关的特征集合用来预测情感词在上下文中的情感倾向。实验表明,此种方法与基于词典的词语情感倾向性分析方法相比,F值提高了4.9%。
  • 摘要:针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了87.44%,比采用TFIDF进行特征提取训练得到的分类器的准确率提高了16个百分点;比采用语义相似度进行特征提取,并对特征空间进行PCA降维后训练得到的分类器的分类准确率提高了4个百分点。
  • 摘要:博客飞速发展,博客文本检索和分类的研究价值日渐凸显。博客文本的内容、风格缺乏规范性,为自动文本分类带来难度。博客作者通常为文章指定一个或多个标签,标签在很大程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。实验结果表明,标签信息能够有效提高博客文本分类的性能。
  • 摘要:文本中模糊词及其辖域的识别对于信息的准确抽取有着重要的作用,但是目前机器学习的方法采用的特征都是基于序列的。本文将模糊词辖域的识别问题看作是分类问题,采用条件随机场模型来进行学习。在基本的序列特征基础上,引入两种句法特征(短语树和依存树)作为分类器的特征,并分别比较两种特征对结果的影响。在后处理阶段,我们引入了一个匹配算法对来识别句子中所有模糊词的辖域。在CoNLL2010shared task的生物文本数据上的实验显示,采用句法特征的分类器比只采用基本序列特征的F1值提高了2.36个百分点。
  • 摘要:平行周遍原则是陈保亚(1999)提出的一种用于区分词与短语的理论。由于汉语语义词典在收词并未严格遵循平行周遍原则,因此依据现有语义词典可以自动地归纳出许多平行周遍规则或者平行不周遍规则。假定有两部语义词典,则可以根据词典归纳出两套平行周遍规则,每一套规则都有各自的正例和反例。一个词典中某一规则的反例如果同时是另一词典中的正例,就意味着前一部词典中的词语可能归类不当。基于这一思路,本文提出一个基于平行周遍原则的语义词典归类不当现象自动发现方法,实验分析证明了这一方法的有效性。
  • 摘要:尽管搜索引擎能够满足网络用户的很多信息需求,但是还有很多它无法满足。原因之一是它严格的用户界面:它的输入是
  • 摘要:基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差,本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定义向量空间中的点,这样的点是相对于原来向量空间模型中的点的矫正映射,即就好像是虚拟点一样,最后问题归结为计算向量空间模型中的点与虚拟点的映射函数。理论分析表明虚点方法能提高基于向量空间模型的分类方法的效果,在SVM中运用虚点方法的实验结果表明,运用虚点方法的SVM的精确度得到了提高,这种结果验证了本文提出的虚点方法的有效性。
  • 摘要:分面导航是用户基于多维分类目录检索和浏览资源的主要方式之一。通过推荐与当前搜索结果相关的类别,帮助用户理解搜索结果,并有效避免查询结果为空。然而,目前的分面导航难以分析所推荐类别之间的深层语义。本文提出了一种层次概念格作为资源集的本体,它完整并简洁地描述查询结果间的包含关系。在此基础上,我们设计了一系列导航操作帮助用户基于层次概念格进行知识发现。为满足导航操作的实时性,我们提出了格挖掘算法LMiner。它以自顶向下和深度优先方式遍历生成格;通过倒排索引当前已生成的极小节点,进行高效的节点冗余检查和边的增量计算。实验结果表明,LMiner的速度远快于现有算法,而索引却小得多。
  • 摘要:共指消解是自然语言处理的核心任务之一。在传统机器学习方法使用的平面特征基础上,本文提出一种利用中心语信息的新方法。该方法首先引进一种基于简单平面特征的实例匹配算法用于共指消解。在此基础上,又引入了先行语与照应语的中心语字符串作为新特征,并提出一种竞争模式对将中心语约束融合进实例匹配算法,提升了消解效果。该方法与其他只使用平面特征的传统机器学习方法相比,能充分地利用每一个训练实例的特征信息,进一步融合中心语字符串特征使消解效果更加准确。
  • 摘要:基于互联网金融信息流时间序列,本文对金融信息关键词信息强度的波动率变化规律进行了建模分析。通过对单个金融关键词波动率的自回归分析,得出了单个金融词汇波动率满足线性关系并且具有马尔可夫特征。通过对多个关键词波动率的交叉回归分析,使用自组织映射网络(SOM)进行聚类分析,发现同一类关键词的波动率具有很强的对称性和集聚性。
  • 摘要:聚类分析是机器学习的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。本文通过对实际应用中的短文本信息进行实验分析,发现了这类数据所具有的“长尾分布”,并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
  • 摘要:本文针对人名消歧任务中,由于歧义人名处于相近领域而区分困难的情况,提出了基于人物属性互斥与非互斥的两阶段人名消歧义方法。该方法的第一阶段,利用领域知识库和启发式规则抽取人物相关属性,包括职业领域、职务、相关实体等,利用这些属性进行人物的初步的聚合与划分,并识别出互斥与非互斥的人物;第二阶段则是在第一阶段的基础上,再进行一次基于主题聚类的人名消歧的过程,得到最终结果。在SIGHAN 2010训练数据上的对比实验中,本文提出的方法,较于单纯基于主题聚类算法的人名消歧,在Purity评价方法中,F 值平均提高了2个百分点,在B-Cubed 评价方法中,F值平均提高了3个百分点。
  • 摘要:随着互联网的发展,网络论坛几乎覆盖了我们日常生活和工作的各个方面,经过数年的发展和累积,论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。本文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,本文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明本文提出的方法能够有效地提升论坛检索系统的效果。
  • 摘要:一个好的搜索引擎返回的命中结果应该有一个好的排序。网页本身的重要性是搜索引擎结果排序的一个重要依据,PageRank算法是通过分析网页之间的链接结构来得到网页的重要性。然而,网页之间的链接关系是网站的网页设计者设计的,它只能反映设计者对网页的理解,忽略了用户对网页的理解。本文提出一个从用户点击数据中获得相关反馈信息的综合策略。算法中设置一个修正向量,依据用户点击数据中得到的相关反馈信息来计算向量的值。并将修正向量作为一个参数应用到PageRank算法,是一种简单的个性化搜索应用。
  • 摘要:查询分类是理解互联网用户查询意图的重要手段。由于查询很短,先对查询进行扩展丰富其特征,再进行分类被证明是解决特征稀疏的重要途径,其中利用搜索引擎返回结果是最有效的方法之一。已有工作主要利用返回结果的文本,没有充分利用URL 信息。本文利用互联网上人工组织的分类网页目录,设计URL分类器,通过统计结果集合中URL的类别分布预测查询类别。人工标注从搜索引擎日志中采样的约2500个查询作为测试数据。实验表明,基于URL类别的查询分类器可以获得与基于文本扩展的分类器相当的准确率,却较大地提高了查询分类的效率。将两类分类器组合得到的分类器可以获得比单个分类器更好的分类性能。特别的是,基于URL类别的分类器与原始查询相结合时,F1值可以接近基于文本扩展的分类器,而效率与基于URL类别的分类器相当,在分类性能与处理效率上进行折衷。
  • 摘要:在中文对话中,大量存在着省略的现象,为了避免由于省略造成的表述模糊以及歧义等问题,本文进行了相关的研究,以中心理论作为理论依据,提出一种适用于中文对话系统或中文交互式问答系统的省略恢复模型,并且通过实验验证该模型的正确性和效用性。本文选用TRECQA2004-2007的翻译语料作为实验数据集,通过省略判定,待恢复词识别以及省略恢复三个过程的处理,最终得出的实验结果准确率为68.67%,召回率为75.00%,F值为71.64%,相对于不使用中心理论方法的省略恢复模型,本文的方法在准确率及F 值上面都有较大的提升。
  • 摘要:语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动的完全句法分析的中文语义角色标注效果并不理想.因此本文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的语素信息,有效提高了句法分析的性能,F值达到了93.61。在角色标注阶段,利用动词的语素信息,并提出了句子的“粗框架”特征,使角色标注阶段的F值达到了74.1,比前人(71.9)有较为显著的提升,从而证明了笔者的方法是有效的。
  • 摘要:悖向重排序是一种面向个性化信息检索的新型排序策略,其借助相悖于查询意图的描述结构,实现倔强非相关反馈的识别和降解。目前,悖向重排序研究中的关键问题之一是如何建立极大区别于查询意图且最具代表性的悖向意图描述。针对这一问题,本文研究一种基于相关子主题消解的悖向重排序方法,主要研究内容包括如下四个方面:1)基于相关反馈内容切割和聚类的子主题挖掘;2)基于信息量和分布特性的相关子主题判定;3)悖向查询意图中相关子主题的消解;4)基于悖向意图的检索结果重排序。实验采用TDT4语料集进行测试,结果显示该悖向排序方法显著改进了检索性能,其MAP值提高了近16个百分点,P@20 和NDCG@20分别提高了14%和12%。
  • 摘要:本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如“能够”,“必须”,“宁愿”等等。另外,本文还介绍了在大规模中文博客资源中自动提取并标注能愿词的方法。实验验证,该方法的正确率和召回率分别可达74.25%和76.03%。在此基础上,本文根据推演公式提出了对中文能愿词进行迭代挖掘的思想。
  • 摘要:统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新的动态负载均衡方法,相对于已有的基于静态负载均衡方法,性能有了显著的提高,并且对数据排序的影响表现稳定;同时,通过对统计量汇总过程的优化,克服了模型空间随并行线程数量线性增长的弊端。
  • 摘要:识别不确定性信息对于信息抽取类的任务有着重要作用,因为不确定性信息往往会误导这些系统抽取出错误的信息。本文提出了一种自动识别中文中不确定性句子的方法,利用不确定性句子中普遍存在的线索词的信息构建了句子的评分模型。同时Passive Aggressive算法,一种在线学习算法的变种,用于学习模型的参数。在中文不确定性句子识别的实验中证明,相比较于词袋(Bag of Words)的模型,我们的模型能够得到更好的F1值,达到了70.53%,提高了约5%。
  • 摘要:微博客是Web2.0出现以来的一个新生概念。著名的Twitter系统是微博客中具有代表性的一个,其全球用户已经超过一亿,在世界范围内具有重要影响力:目前知名政治家、社会名流和大企业几乎都是Twitter的用户。Twitter系统中的消息通常比较短小,而且语法不规范。同时,由于Twitter中允许用户以多种格式自由转发消息,系统中存在大量内容重复或近似重复的消息。重复消息的存在加重了系统存储的负担,对用户阅读、理解以及分析消息的内容也造成了不利影响。本文分析了Twitter系统中转发消息的语法特点,并利用这些语法特点提取规则,把转发的消息变成普通的消息。本文还提出统计字符种类和最短编辑距离两种字符串距离计算的方法以判定Twitter中近似重复的消息。实验结果表明,两种方法具有扩展性强、实现简单、效率高等优点,能够有效地解决Twitter上的信息重复现象。
  • 摘要:在互联网技术高速发展的时代,Web成为全球最大的信息数据库,如何有效管理、利用Web信息是当前的热点问题,本文主要探讨了Web网页信息提取问题。传统的网页信息提取主要基于DOM树及HTML标签分析,文中在基于网页视觉特征分块算法VIPS础上,通过归纳Web 网页视觉特征及视觉块特征信息,提出了基于视觉块的定位算法的Web页面信息提取方法。分别将主题型网页和BBS型网页作为VIPS算法的输入,分析VIPS算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等视觉特征量,提出了视觉块定位算法VBPA,定位主题信息块到VBT中的某一个节点,进而提取主题信息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息提取质量。
  • 摘要:术语自动识别是获取领域术语表中未登录的规范化词汇的方法,并且是信息抽取、文本挖掘等领域的重要任务。近年来,基于统计分析的术语抽取方法取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种方法进行加权投票的研究相对较少。本文首先从大量已知术语中收集术语的词性模板,并借之抽取候选术语,接着利用了加权投票算法对这些候选术语进行排序。在IEEE2006-2007电子工程领域文献上的实验结果表明,加权投票方法比任何单一方法的识别效果更好。
  • 摘要:如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引进行拷贝检测。为了适应文档集规模的不断增大,好的分布式索引应该同时具备良好的效率和可扩展性。为此本文比较了两种不同的分布式索引结构(Term-based索引和Doc-based索引)。并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法(Term-based方法和Doc-based方法)。通过在WT10G文档集上进行实验,本文对两种方法的性能进行了比较。实验表明Doc-based方法具有更好的效率和可扩展性。
  • 摘要:文献检索中,自动发现指定研究领域的权威文献和权威学者,使用户对特定领域有全面、深刻、细致的认识和了解,不仅能使科研工作者能快速的进行相关研究,对普通用户了解领域知识也有很好的帮助。首先基于Lucene 开源项目构建了一种文献检索系统,能够对指定研究领域搜索相关文献;然后通过结合DBLP、ACM Portal 和Google Scholar 这些WEB 资源分析文献属性和文献间引用关系对文献权威性进行评价,选择权威性评价高的若干篇相关文献为权威文献;最后根据学者对权威文献的贡献程度对学者权威性进行评价。评测结果表明,虽然在权威文献的挖掘中结果不是最好,模型有待进一步改进,但在权威学者挖掘中的结果有明显优势。
  • 摘要:本文将信息抽取中的关系抽取技术应用于专利摘要文本,抽取专利摘要文本中技术关键词间的连接关系。本文将特征分为需精确匹配特征和需近似匹配特征两类,分别定义相似性计算方法,并将相关联的特征使用特征节点进行整合,在此基础之上定义样例间的核函数。解决基于特征向量方法中,特征相互独立缺少联系的问题和通过点积计算某些特征相似性的不合理性。在技术关键词间的连接关系抽取实验中,本文提出的方法获得了82.43%的F值。
  • 摘要:Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域Deep Web数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的Deep Web入口发现方法是可行的。
  • 摘要:针对中文文本信息过滤中过滤模板生成过程的非线性问题,借鉴遗传算法可以在全局范围内寻找最优解的特性,引入遗传算法解决文本分类问题,并应用一种新的基于集合论的方法证明其在理论上的可行性。在实际应用中,应用遗传算法生成模板进行了文本分类和文本过滤试验,并结合应用实际提出了遗传算子的自适应策略。理论证明以及实验结果都说明,该方法具有可行性,能够在信息过滤中取得较好的结果。
  • 摘要:本文基于汉语框架网,用框架核心依存图形式化的表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取框架元素的语义核心词。文中使用条件随机场模型和最大熵模型来识别框架元素语义核心词,并分别对两个不同的模型所选的特征集进行了对比分析,且通过构造不同的特征模板进行对比实验,选取了较优的特征模板和模型。结果表明,CRF模型具有较好的识别性能,它在最优的特征模板下,对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了96.45%和95.17%。
  • 摘要:现有的论文标题译文通常由统计机器翻译或者通过辅助翻译得到,这两种方法对于标题的译文获取有明显的不足。本文在分析了汉语标题的特点及WEB译文获取技术后,提出了一种基于WEB检索的论文标题译文获取方法。实验表明,通过该方法获取的论文标题译文能够达到与Google在线翻译相同的质量。
  • 摘要:随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的拷贝检测正是解决这类问题的一个必要步骤。本文提出了一种有效并且快速的句子级别的特征抽取方法——Low-IDF-Sig算法,并基于该算法实现了一个可以高效地找出句子级别拷贝的检测系统。为了对本文提出的方法的精度及效率进行评测,我们还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的拷贝检测任务的效率和精度。
  • 摘要:本文研究在大规模微博客文本集上的话题发现的问题。微博客与传统博客不同,首先,它的长度比传统博客短,往往只有只言片语。其次,它可以通过手机,即时通讯软件等,实时发布,从而会在短时间内产生大量数据。对于微博客的短文本数据,传统使用词或短语作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。本文使用隐主题模型,充分挖掘短文本的隐主题信息,并在隐主题空间上度量短文本之间的相似度,从而有效解决了短文本的数据稀疏性问题。另一方面,对于大规模的数据,传统直接利用聚类方法聚合出新闻话题的方法,很难快速得到理想结果。而本文则首先根据新闻的特点,选择出最有可能谈论新闻事件的微博客,然后用一种两层的K均值和层次聚类的混合聚类方法,将选择出的微博客快速准确地聚合成不同的新闻话题。实验结果表明,本文的方法能有效地从大规模微博客短文本数据集中,挖掘出新闻话题。
  • 摘要:搜索引擎性能评估是信息检索界一个很重要的课题。目前,随着用户行为信息越来越多的被学术界和产业界所关注,相关用户行为信息挖掘的方法也相应产生。已有的相关研究表明,长查询具有较为丰富的信息内容,能够更加准确地描述用户的信息需求。本文在此基础上提出了长查询用户满意度分析的整体框架,定义了用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM 两种分类算法评测用户满意度。在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性。实验结果表明,用户对于查询满意和不满意的分类准确率分别达到了86%和70%。本文贡献在于提供了一种新的搜索引擎评价体系,并通过用户满意度分析,可以向搜索引擎提供用户不满意的长查询样例,从而改善其性能。
  • 摘要:由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法。一方面,将物理学中的质量和引力等概念引入到聚类分析中,将语义引力作为数据间相似性的度量方法,不但充分考虑了数据间的几何距离可分性,而且强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果;另一方面,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。
  • 摘要:人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统性能的影响做了比较分析。本文主要介绍三阶段聚类体系。在第一阶段,系统首先使用启发式规则对文档进行初步聚类;在第二阶段,系统使用局部上下文特征对文档进行再次聚类;在第三阶段,使用全局上下文特征对文档进行最后一次聚类。实验结果表明,本文提出的聚类策略的系统性能(B-cubed F值)比仅凝聚型层次聚类的系统的性能(B-cubedF值)高出2.41%。
  • 摘要:Web 访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话中的主题(topic)是指会话中具有相同用户意图的部分。将session 进一步划分成能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,本文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题划分算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
  • 摘要:信息抽取是搜索引擎中的核心组成部分,发挥着举足轻重的作用。伴随着互联网信息的爆炸式发展,传统的搜索引擎已经不能满足人们的需要。大量有针对性作用的搜索引擎应运而生。Htmlparser是一个对html解析的库,主要用于改造或提取html。它能超高速解析html。HtmlParser主要靠Node、
  • 摘要:传统的音译方法采用建立音译模型解决音译命名实体的翻译问题,但是该方法不能解决不符合音译规律或部分符合音译规律的命名实体翻译问题。为此,本文提出一种利用音译结果作为扩展,从网络中挖掘命名实体翻译的方法。具体而言,采用加权频度算法从音译结果中抽取单字作为扩展从网络中获取命名实体的候选翻译。采用音译特征和共现特征对候选翻译进行排序,输出排序结果。实验中命名实体的翻译方法取得了如下效果:Top 1 包含率79.2%,Top 5 包含率85.0%。
  • 摘要:本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。本文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2516条检索结果记录,本文提出的方法取得了81.3%的精确率和94.93%的召回率。
  • 摘要:传统问答系统的研究主要是针对事实问句,目前国内外对于情感问句的研究还很少见。情感问句能够更加直接地表达用户的想法和情感倾向,因而在日常生活中普遍存在。本文基于HowNet 提出了汉语情感问句的二层分类体系。首先利用HowNet 构建情感词典,采用SVM 和朴素贝叶斯分类算法对汉语情感问句和事实问句进行分类,取得了很好的效果。然后本文结合意见的定义,给出了一个汉语情感问句的语义分类体系,以HowNet义原以及疑问词相关的属性为特征,对汉语情感问句在语义上的大类进行分类,在缩小特征维度的情况下,也取得了较好的分类效果。
  • 摘要:本文从分析海量互联网用户访问日志入手,通过分析用户访问色情网站与普通网站时产生的不同行为,尝试发现色情网站与普通网站的一些不同的行为模式,并从这些不同中提取出特征,结合机器学习方法,完成基于用户行为这些特征对网站的分类。实验表明,该方法可以较准确、高效的从网站中识别色情网站。
  • 摘要:在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难,其本质问题是投影方向不易确定,且当投影方向包含的指标较多时计算尤为不易。本文提出一种模拟退火的投影寻踪模型,该模型有效的解决了投影方向的寻优问题。本文将该方法应用于文本分类,在Reuters-21578文档集和复旦文档集上进行实验,并与基于遗传算法的投影寻踪模型进行了比较,实验结果表明此方法能有效提取投影方向,得到了很好的分类性能。
  • 摘要:利用百度百科和分词后相邻词语同现比例来识别生词,降低分词错误对属性词识别的影响。设计词性序列模板在中文产品评论语料中获得候选属性词集,然后采用一系列有效的统计技术和自然语言处理技术筛选候选属性词。实验证明抽取属性词的方法是有效的。
  • 摘要:双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。
  • 摘要:在开放领域问题回答研究中,问题分类是首要面对的问题,也是影响问答系统性能的关键。而目前问题分类语料规模都比较小,难以满足实际应用中问题分类的需要。本文根据HOWNET 建立一套问题分类的分类体系,并使用主动学习的方法进行中文问题类别标注。此外,我们还通过特征选择来提高标注性能。实验证明,基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在一定程度上还可以明显提高问题分类的正确率。
  • 摘要:本文在分析术语特点的基础上,提出了一种基于统计和规则相结合的汉语术语语义分析方法。首先以词,词性,距离信息,上下文信息,词语在知网中的第一义原信息为特征,基于该特征训练得到支持向量机(SVM)依存分析模型,从而有效识别出了术语内部的依存关系;在依存分析基础上利用统计和规则相结合的方法进行术语语义分析。实验结果表明该方法的有效性,在大类语义关系和小类语义关系上正确率分别达到77.13%和69.05%。
  • 摘要:双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网中的大量平行文本的自动获取来构建大规模的汉英平行语料库。该方法的性能在ClueWeb09数据集上得到了实验验证。
  • 摘要:基于社区的问答是近几年来非常流行的一种有效搜索、获取信息的途径。这种交互式的问答技术近年来已经成为了国际上问答技术的研究热点。本文论述了社区问答的一些相关研究和基本特点,讨论了问题相关度算法,选取了三个最有效的特征,使用二元分类方法判别问题是否相关。并在社区问答中进行了Baseline实验,三个站点的实验结果F 值均在87%以上,验证了在社区问答站点收集语料的可行性,并为问答系统的最优问题推荐做了准备工作。
  • 摘要:CLP2010的人名消歧评测的任务是判断出现在不同文档中的相同人名是否指向现实生活中的同一个人的处理过程。对于这个任务,首先要解决的问题是如何识别语料中的人名。但人名消歧评测的任务中,人名识别与传统的人名识别的不同之处在于,它给定了一个查询词,并且对人名的识别准确性具有非常高的要求。也就是说,在实体识别的时候要特别的关注涉及查询词实体的识别。对于面向人名消歧任务的人名识别,本文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的实体名称,特别是查询词所涉及的实体名称进行有效的识别。在CLP2010的评测方给我们的开发集上的实验表明,查询词涉及人名的识别正确率达到98.89%。
  • 摘要:事件抽取是从文本中抽取出事件信息,确定事件类型、子类型及相关实体(如时间、地点、参与者等)角色的工作,在多文档文摘,自动问答及信息检索等领域有着重要的应用前景。通常事件抽取分为事件类型识别和事件元素识别两步,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。本文将事件抽取的两步工作看作序列标注问题,采用条件随机域构建了一个联合标注模型,将事件类型和事件元素在图模型中同时进行标注,试图解决事件类型识别对事件元素的后向依赖问题。实验表明,该方法提高了事件类型识别的性能,最终F值达到63.31%。
  • 摘要:中文长地名结构标注是将自然文本形式的长地名按语义不同分割成不同部分并添加标签。在信息检索、自动问答及信息抽取等领域有着重要的应用。中文地名存在格式和结构不规则的问题,在实际应用中,给数据存储的粒度以及查询的准确率带来严重影响。已有研究使用最小风险化的方法对地名进行标准化,由于主要面向英文地名缩写和误拼的问题,没有充分考虑中文地名的特点。本文以应急领域的长地名数据为研究对象,通过对长地名的结构进行标注进而规范其格式。在标注前首先采用启发式方法对长地名的分词结果进行改进,然后利用条件随机域模型对长地名的结构进行标注,从而给长地名的不同部分添加上表明各自语义的标签。实验表明,经过分词改进和基于条件随机域模型的长地名结构标注的性能有显著提高。
  • 摘要:自然语言有丰富的表达方式,语义蕴涵识别任务RTE(RecognizingTextualEntailment)判断两个文本片断T(Text)和H(Hypothesis)之间是否具有蕴涵关系。本文使用了基于词汇和句法关系的方法来识别文本之间的蕴涵关系,采用RTE4 和RTE5的数据集进行测试。其中,基于词汇的匹配用到了Unigram和Bigram方法;在此基础上,由T-H之间的句法依赖关系进一步实现二者之间蕴涵关系的判断。本文最后对测试结果进行分析,RTE4 和RTE5的3-way子任务准确率分别为54.6%,56.5%,2-way子任务准确率分别为58.1%,59%。
  • 摘要:问答社区已经成为网络信息获取的一种重要渠道,但其中信息质量分布差异较大。本文研究了问答社区中回答质量的评价方法。具体考察了百度知道的问答社区环境,并对其构建了大规模的语料数据。针对百度知道的特点,文本提出的基于时序的特征、基于问题粒度的特征和基于百度知道社区用户的特征,从更多的角度对回答质量进行评价。利用分类学习的框架,本文综合了新设计的三方面特征和经典的文本特征、链接特征,对高质量和非高质量的回答进行分类。基于大规模问答语料的实验表明,在文本特征与链接特征的基础上,基于时序与基于问题粒度的特征能够有效地提高回答质量的评估效果。另外也发现,根据本文的回答质量评价框架做出的质量评分能够有效地预测最佳答案。
  • 摘要:观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。本文在研究了信息检索理论与文本倾向性分析技术等基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法,综合考虑了主题检索过程中的查询扩展,文本检索相关度,文本倾向性强度,检索主题与文本情感的关联度等对观点检索最后结果的影响。该算法从理论上考虑了观点检索不同因素之间的相互影响问题。通过对COAE2008观点检索子任务的实验数据进行实验,结果表明:本文提出的基于关联度的观点检索算法可以取得较好的效果。
  • 摘要:排序学习是当前机器学习与信息检索交叉领域的研究热点。它利用机器学习方法自动地构造排序模型,用于排序新的数据。Pairwise方法是一类重要的排序学习方法,它以偏序文档对作为训练样例,通过判断不同文档与查询的相关性大小关系来为文档排序。由于pairwise 方法不考虑单个文档的相关性大小,若对文档对内两个文档的相关性均预测错误,则会导致连锁反应并影响最终排序性能;为解决该问题,本文分别基于单层神经网络和双层神经网络的RankNet算法,加入pointwise损失函数进行优化,并分别使用梯度下降算法和反向传播算法训练网络权重值,得到排序模型。在OHSUMED数据集上的实验结果表明,加入pointwise损失函数有助于改善pairwise方法的排序性能。
  • 摘要:关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag 数据进行统计分析的基础上,提出了利用Tag 进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank。该方法在TextRank 基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合。在公开语料上的实验表明,Tag-TextRank 在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的适用性。
  • 摘要:本文提出基于条件随机场(CRFs)的中文领域术语的自动抽取方法,在给定领域分类语料前提下,该方法不仅很好解决了未登录词中的领域术语抽取的问题,而且还很好的解决三字以上长字词领域术语的抽取问题。本文以云南旅游领域为实验对象,并与基于互信息结合T 评价的传统领域术语抽取方法作比较,人工评测显示基于CRFs的方法能准确有效的抽取领域术语,并能很好的抓取未登录词中的领域术语和长字词领域术语,明显提高了领域术语的抽取的准确率和召回率。
  • 摘要:为了区分与原查询正负相关的扩展词,改善查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理;提出一种基于正负关联规则挖掘的局部反馈查询扩展算法。该算法首先从初检的前列文档中挖掘只含查询词项的词间正负关联规则,构造正负规则库;然后,从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,实现查询扩展。算法还给出新的剪枝方法,提高挖掘效率。实验结果表明本文算法能区分正负扩展词,发现虚假扩展词,改善和提高信息检索性能。
  • 摘要:音乐是情感的表达,标签是音乐的诠释,大量的情感类标签从多个角度描述同一首音乐所表达的情感信息。本文提出了一种基于用户情感标签的音乐检索算法,首先,通过对用户情感类标签和音乐进行建模,构建以情感标签和音乐为节点的二部图,利用T_SimRank 算法计算标签和音乐之间的语义相似度,然后,通过T_PageRank算法计算音乐的热度,最后,利用排序学习的思想将两种方法相融合,得到音乐的最终排序结果。实验证明,本文提出的方法比传统的余弦相似度和基于标签共现的相似度方法更能满足用户检索需求,将多种方法融合比单一的方法效果更好。
  • 摘要:本文研究了一种基于分类的用户兴趣模型。该模型主要将用户查询历史和用户感兴趣的相关文档视为用户兴趣数据的来源,来挖掘用户兴趣信息。根据向量空间模型,我们将基于分类的用户兴趣模型表示成用户兴趣向量形式,并根据FanLiu的用户查询分类方法,给出了该模型的训练方法。实验结果表明,该模型具有较好的用户兴趣描述能力,取得了85.8%的用户兴趣识别的准确率。
  • 摘要:更新摘要假设在用户已经读过某话题的一些相关文档的情况下,对新来的该话题相关文档集合自动生成摘要。可以看出,它除了要解决传统的面向话题的多文档摘要的两个要求(话题相关性和信息多样性)之外,还要求应对用户对信息新颖性的需求。本文为更新摘要提出了一个新的基于热传导模型的抽取式摘要算法。具体而言,该算法通过设置句子网络上的热传导模型中的边界条件,自然地利用句子与话题之间的关系,新句子和旧句子之间的关系,以及已选句子和待选句子之间的关系,为更新摘要找出话题相关、信息多样且内容新颖的句子。因此,该方法能够在一个统一的模型中同时解决更新摘要所要应对的三个主要问题。在TAC09数据集上的进行了实验,ROUGE评价指标上的实验结果表明,该方法与参加TAC09更新摘要任务的表现最好的抽取式方法性能相当,且显著地优于其他基准方法。
  • 摘要:查询日志中的同现搜索词可以通过复杂网络进行刻画。本文基于Sougou 用户查询日志语料,建立了搜索词的同现网络。由于搜索词中包含了大量的人名,同样也存在着人物搜索词同现网络。本文对搜索词同现网、人物搜索词同现网和语言的同现网进行了复杂网络特性的比较分析,实验结果表明三种网络均呈现出小世界效应与无标度特性。
  • 客服微信

  • 服务号