掌桥科研
一站式科研服务平台
科技查新
收录引用
专题文献检索
外文数据库(机构版)
更多产品
首页
成为会员
我要充值
退出
我的积分:
中文会员
开通
中文文献批量获取
外文会员
开通
外文文献批量获取
我的订单
会员中心
我的包量
我的余额
登录/注册
文献导航
中文期刊
>
中文会议
>
中文学位
>
中国专利
>
外文期刊
>
外文会议
>
外文学位
>
外国专利
>
外文OA文献
>
外文科技报告
>
中文图书
>
外文图书
>
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
美国国防部AD报告
美国能源部DE报告
美国航空航天局NASA报告
美国商务部PB报告
外军国防科技报告
美国国防部
美国参联会主席指示
美国海军
美国空军
美国陆军
美国海军陆战队
美国国防技术信息中心(DTIC)
美军标
美国航空航天局(NASA)
战略与国际研究中心
美国国土安全数字图书馆
美国科学研究出版社
兰德公司
美国政府问责局
香港科技大学图书馆
美国海军研究生院图书馆
OALIB数据库
在线学术档案数据库
数字空间系统
剑桥大学机构知识库
欧洲核子研究中心机构库
美国密西根大学论文库
美国政府出版局(GPO)
加利福尼亚大学数字图书馆
美国国家学术出版社
美国国防大学出版社
美国能源部文献库
美国国防高级研究计划局
美国陆军协会
美国陆军研究实验室
英国空军
美国国家科学基金会
美国战略与国际研究中心-导弹威胁网
美国科学与国际安全研究所
法国国际关系战略研究院
法国国际关系研究所
国际宇航联合会
美国防务日报
国会研究处
美国海运司令部
北约
盟军快速反应部队
北约浅水行动卓越中心
北约盟军地面部队司令部
北约通信信息局
北约稳定政策卓越中心
美国国会研究服务处
美国国防预算办公室
美国陆军技术手册
一般OA
科技期刊论文
科技会议论文
图书
科技报告
科技专著
标准
其它
美国卫生研究院文献
分子生物学
神经科学
药学
外科
临床神经病学
肿瘤学
细胞生物学
遗传学
公共卫生&环境&职业病
应用微生物学
全科医学
免疫学
动物学
精神病学
兽医学
心血管
放射&核医学&医学影像学
儿科
医学进展
微生物学
护理学
生物学
牙科&口腔外科
毒理学
生理学
医院管理
妇产科学
病理学
生化技术
胃肠&肝脏病学
运动科学
心理学
营养学
血液学
泌尿科学&肾病学
生物医学工程
感染病
生物物理学
矫形
外周血管病
药物化学
皮肤病学
康复学
眼科学
行为科学
呼吸学
进化生物学
老年医学
耳鼻喉科学
发育生物学
寄生虫学
病毒学
医学实验室检查技术
生殖生物学
风湿病学
麻醉学
危重病护理
生物材料
移植
医学情报
其他学科
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
主题
主题
题名
作者
关键词
摘要
高级搜索 >
外文期刊
外文会议
外文学位
外国专利
外文图书
外文OA文献
中文期刊
中文会议
中文学位
中国专利
中文图书
外文科技报告
清除
历史搜索
清空历史
首页
>
中文会议
>
工业技术
>
自动化技术与计算机技术
>
第六届全国信息检索学术会议
第六届全国信息检索学术会议
召开年:
2010
召开地:
黑龙江镜泊湖
出版时间:
2010-08-12
主办单位:
中国中文信息学会
会议文集:
第六届全国信息检索学术会议论文集
会议论文
热门论文
全部论文
相关中文期刊
大众硬件
自动化与信息工程
电子政务
福建电脑
课堂内外·中学生电脑
计算机应用研究
网络与信息
工业控制计算机
电子竞技
中国自动识别技术
更多>>
相关外文期刊
Microprocessor report
Machine Vision and Applications
Information management
Information Systems
International journal of embedded and real-time communication systems
Foundations and trends in electronic design automation
Cybernetics and Systems Analysis
International Journal of Computer Aided Engineering and Technology
Applied numerical mathematics
International journal of computational systems engineering
更多>>
相关中文会议
第十五届计算机工程与工艺年会暨第一届微处理器技术论坛
中国计算机学会第一届金融电子化学术交流会
第十一届全国软件与应用学术会议(NASAC2012)
全国流程工业管理控制一体化系统学术交流会
第三届全国社会计算会议、平行控制会议、平行管理会议
2003系统仿真技术及其应用学术交流会
2009中国计算机信息防护年会
2010全国文档信息处理学术会议
中国自动化学会系统仿真专业委员会中国系统仿真学会仿真计算机与软件专业委员会2004学术年会
第十六届全国网络与数据通信学术会议(NDCC2008)
更多>>
相关外文会议
53rd annual meeting of the Association for Computational Linguistics and 7th international joint conference on natural language processing of the Asian Federation of Natural Languages processing
IEEE symposium on FPGAs for custom computing machines
Pacific-Rim Conference on Multimedia(PCM 2005) pt.1; 20051113-16; Jeju Island(KR)
International Workshop on Web Content Caching and Distribution(WCW 2003); 2003;
International Conference on Conceptual Modeling(ER 2007 Workshops CMLSA, FP-UML, ONISW, QoIS, RIGiM, SeCoGIS); 20071105-09; Auckland(NZ)
Proceedings of the 2006 ACM/SIGDA 14th international symposium on Field programmable gate arrays
29th IEEE Conference on Software Engineering Education and Training
2010 IASTED technology conferences
Proceedings of the 2008 conference on BEyond time and errors
Proceedings of the 2006 workshop on Memory system performance and correctness
更多>>
热门会议
2015第十届全国体育科学大会
2019年中国城市规划年会
2018中国城市规划年会
中国工程热物理学会2014年年会
第三届世界灾害护理大会
第30届中国气象学会年会
2017年中国地球科学联合学术年会(CGU2017)
中华医学会第十八次全国儿科学术会议
2006中国科协年会
2011年第二十八届中国气象学会年会
更多>>
最新会议
2005中国首届国际铜板带研讨会
全国小儿病毒性肝炎学术会议
模糊系统及其应用成果学术交流会
中国金属学会高温合金中微量元素的控制及其作用鉴定会
中国有色金属学会冶金设备学术委员会第一届年会
2003年全国理论计算机科学学术年会
2015年齐鲁高教论坛
中国石油学会油品应用技术交流会
中国化工学会第一届流体流动传热传质及燃烧技术会
中国金属学会第四界炭素材料年会
更多>>
全选(
0
)
清除
导出
1.
产品属性归类技术研究
张姝
;
贾文杰
;
夏迎炬
;
孟遥
;
于浩
《第六届全国信息检索学术会议》
|
2010年
摘要:
近年来倾向性分析在信息处理领域深受关注。针对产品评论信息中的产品属性过于繁多,本文提出了一种自动归类方法,以语素和评价词作为衡量产品属性之间关联程度的特征,采用K-Means方法进行产品属性归类。以中文评论信息为实验语料,实验结果显示了提出方法的有效性,并证明了语素在评论信息中的语义显著性,评价词在评论信息中的重要性。
产品属性归类;
语素;
评价词;
倾向性分析;
2.
一种基于LDA的潜在语义区划分及Web文档聚类算法
刘振鹿
;
王大玲
;
冯时
;
张一飞
;
方东昊
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,本文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web 文档聚类。实验表明,本文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。
LDA模型;
潜在语义;
语义分布;
Web文档聚类;
3.
基于用户行为分析的个人信息检索研究
蒋在帆
;
王斌
《第六届全国信息检索学术会议》
|
2010年
摘要:
个人信息检索是个人计算机上用户搜索文件的一种重要技术,但同互联网检索相比,个人信息检索能利用的信息很少,这使得个人信息检索的排序成为很困难的问题。本文通过收集计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。其中用户行为分为检索系统的查询行为和计算机上的文件访问行为,本文通过查询行为获取训练数据,文件访问行为获取文件自身的权重,并利用统计学习的方法结合这两类行为学习排序函数,实验结果显示我们的方法好于传统的排序方法。另外我们实现了收集用户行为并提供多种排序函数的个人信息检索系统LUPINS。
用户行为;
计算机应用;
个人信息检索;
统计学习;
Ranking SVM;
4.
非均衡文本分类中基于特征分布的抽样技术研究
张爱华
;
王斌
;
徐燕
《第六届全国信息检索学术会议》
|
2010年
摘要:
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立处理各个特征维度,实现了真正的基于特征的抽样。使用对各类分布模拟能力最强的高斯混合模型对小类中每个特征的权值分布建模,再依据该模型抽取新权值以进一步组合为新样本加入小类训练集。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征原始分布,构造的新样本质量高。实验结果表明,该方法效果良好,并显著好于SMOTE算法。
文本分类;
非均衡;
Over-Sampling;
抽样技术;
高斯混合模型;
SMOTE算法;
5.
面向观点挖掘的汽车本体知识库的构建
冯淑芳
;
王素格
《第六届全国信息检索学术会议》
|
2010年
摘要:
建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web 汽车评论真实语料库,自动获取了本体知识库中的核心概念。最后,采用OWL描述语言,构建了面向观点挖掘的本体知识库。
本体知识库;
观点挖掘;
概念获取;
汽车评论;
6.
一种基于HITS算法的blog文摘方法
苗家
;
马军
;
陈竹敏
《第六届全国信息检索学术会议》
|
2010年
摘要:
blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特殊性,无法有效地结合评论来处理文章。本文通过分析blog的特点提出了一种新的结合评论信息的blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,本文方法在ROUGE测度上优于以往方法。
文档自动摘要;
blog;
评论信息;
HITS算法;
图模型;
7.
一种模板与图核融合的蛋白质关系抽取方法
刘昊
;
王健
;
林鸿飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
随着生物医学文献的急剧增加,从文本中自动抽取蛋白质的相互作用关系,成为文本挖掘领域研究中的重要方向。目前主流的蛋白质关系抽取方法大多侧重于提取句子的结构化特征信息,对句中词信息没有进行深入发掘,特别是对复杂长难句的处理时间消耗大。本文提出了一种新的模板方法,利用两类句法分析器生成结构化句子,从中找到存在特定意义的模板序列,通过模板快速匹配句子。本方法能够同图核方法进行有效融合,解决图核方法难以处理复杂长难句的不足,提高实验效率。本方法在AIMed 语料上使用十倍交叉验证的F 值达到了63.1%。
蛋白质关系抽取;
模板;
图核融合;
句法分析器;
生物医学文献;
8.
基于虚拟观点社群的用户个性化推荐
冯时
;
阳峰
;
王大玲
;
于戈
《第六届全国信息检索学术会议》
|
2010年
摘要:
互联网已经成为当今社会人们沟通交流的重要平台,越来越多的人在Web 2.0系统中发布分享自己的个人兴趣与爱好信息。在一个网上评价系统中,用户可以根据自己的喜好为目标资源打分。与传统的基于协同过滤的推荐系统不同,本文将用户对资源的评价与标注看作用户对资源发表的一个观点,并将评价系统中发表相似观点的用户集成起来形成观点社群。利用观点社群中用户有相似的兴趣和爱好的假设,为用户个性化推荐资源、标签和潜在的朋友等。通过在真实数据集下的实验表明,该方法可以有效的为用户推荐其感兴趣的信息。
观点挖掘;
社会网络;
个性化推荐;
虚拟观点社群;
协同过滤;
9.
基于LDA模型的博客垃圾评论发现
刁宇峰
;
林鸿飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog 已经成为互联网上的主要信息源之一,这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而得到垃圾评论。经验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog 信息更加准确、有效的为用户使用。
Blog;
博文;
LDA模型;
主题提取;
垃圾评论;
10.
面向信息检索的近邻语言模型
韩中元
;
李生
;
杨沐昀
;
齐浩亮
《第六届全国信息检索学术会议》
|
2010年
摘要:
面向信息检索的语言模型存在较严重的数据稀疏问题,由于近邻信息能够较好地反映词的分布,因此将文档的近邻信息加入语言模型的平滑中,新方法称为近邻语言模型。实验结果表明,近邻语言模型对检索性能有一定的提升。
信息检索;
语言模型;
近邻信息;
数据稀疏;
11.
基于聚类分析的Web服务分类及抽象方法研究
崔立真
;
田君杰
;
王海洋
《第六届全国信息检索学术会议》
|
2010年
摘要:
当前的Web服务注册架构缺少能够高效、准确、充分发现服务的分类管理机制,导致业务需求不能满足,造成服务资源浪费.针对某一特定领域,进行Web服务的分类管理显得格外重要.本文提出了一种基于聚类分析的方法,辅助对特定领域的Web服务进行分类.方法将功能相同或相近的Web服务聚合在一起,进而对它们进行抽象,使用抽象服务概念来描述一类Web服务,达到对Web服务自动分类管理的目的,为快速、精确、完备的服务查找提供方便.通过实验和领域应用验证,证明了方法的可行性和有效性.
Web服务;
聚类;
服务分类;
服务抽象;
分类管理;
12.
DeepWeb查询转换研究
王英
;
左万利
;
王鑫
;
彭涛
《第六届全国信息检索学术会议》
|
2010年
摘要:
由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进行研究,利用领域本体获取Deep Web入口表单与集成查询接口表单谓词的映射关系,分析查询重写产生约束映射规则,使得用户提交的查询条件转换成与各个Deep Web数据库查询接口相适应的查询条件。实验结果表明本文所提出的查询转换方法是可行的和有效的。
本体;
模式匹配;
查询转换;
Deep Web;
13.
一种支持P2P-VoD的层次化搜索模型
张铁赢
;
刘悦
;
程学旗
《第六届全国信息检索学术会议》
|
2010年
摘要:
P2P-VoD中的跳转操作需要高效的节点搜索,如何快速查找到“合适”的节点给我们提出了挑战。“合适”包含两方面因素:1)内容匹配;2)物理性能匹配。而传统的方法大部分只涉及对前者的研究。在本文中,我们提出了一种层次化的搜索模型(简称Mediacoop),不仅可以让搜索到的节点在内容上满足要求,而且在物理性能上也能满足要求。具体而言,Mediacoop首先利用播放距离来索引全部节点,再利用延迟特征优选内容上已经符合要求的节点。在NS2模拟器上的实验表明,Mediacoop在用户体验和系统开销上均优于传统的方法。
P2P搜索;
流媒体;
层次化搜索;
跳转操作;
Mediacoop;
14.
面向互联网舆情的热词分析技术
李渝勤
;
孙丽华
《第六届全国信息检索学术会议》
|
2010年
摘要:
热词是一种网络词汇现象,反映了某一特定时空范围内人们普遍关注的问题。该文对热词分析的两项关键技术-----热词发现和热词关联技术进行了深入的研究。在热词发现阶段,首先采用命名实体识别技术和高频串统计技术进行短语串的挖掘,继而采用基础权值和波动权值两项指标进行热度权值的计算。在热词关联阶段,按热词权值高低进行热词类的划分,通过同现率的原则确定热词类之间的关联计算。该文所采用的方法已经成功应用到TRS舆情监测系统的热点发现模块。
热词;
命名实体识别;
热度计算;
波动权值;
词群关系;
互联网舆情;
15.
基于句子相似的古今句子检索
康生巧
;
白宇
;
韩亚冬
;
蔡东风
《第六届全国信息检索学术会议》
|
2010年
摘要:
古籍文献中蕴含着丰富的知识,如‘医古文’在现代中医理论发展过程中仍占据重要基础地位,因此面向古籍文献的检索技术研究具有一定的应用价值。然而,目前文本信息检索技术的研究主要面向由现代汉语构成的文本,针对古汉语文献资料的检索研究并不多见。本文提出一种基于共现字序列的古今句子相似度计算方法,实现了古文与现代文句子之间的跨文种检索。利用本文方法在《内经》原文与现代文对照版本上进行了古文与现代文的双向句子检索实验,实验结果表明本文方法在古今句子检索上取得较好效果。
信息检索;
二元文法;
古文检索;
句子相似度;
句子检索;
16.
基于上下文的真词错误检查及校对方法
陆玉清
;
洪宇
;
陆军
;
姚建民
;
朱巧明
《第六届全国信息检索学术会议》
|
2010年
摘要:
英文文本中的真词错误即输入的错词是和原词相似的另一个有效词。本文主要研究了对该类错误的检测。通过从所要检测的单词的上下文中提取句法和语义两个方面的特征,运用文档频率和信息增益进行特征筛选,实现了对上下文特征的有效提取。最终把判断该单词使用的正确与否看作分类问题,使用Winnow分类算法进行训练和测试。通过5 阶交叉验证,所收集的61组混淆集的平均正确率与召回率分别为96%,79.47%。
真词错误;
特征筛选;
混淆集;
Winnow分类算法;
英文文本;
上下文;
17.
基于权重标准化SimRank方法的查询扩展技术研究
马云龙
;
林鸿飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。本文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank 方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank 算法的计算复杂度,本文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC 标准数据集上的实验表明,本文的方法可以有效地选择相关扩展词。MAP 指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
搜索引擎;
查询扩展;
查询日志;
SimRank;
权重标准化;
18.
基于优化维汉双语词典的多语言信息检索系统
倪耀群
;
许洪波
;
谭婧霞
;
唐慧丰
;
程学旗
;
孟丹
《第六届全国信息检索学术会议》
|
2010年
摘要:
为方便维吾尔文与汉文使用者的信息交流和双语教学,作者使用经过优化的双语词典构建了维、汉多语言信息检索系统,该系统分为索引生成、多语言检索和摘要三个组成部分。首先采集网络上包含这两种文字的网页,将网页正文统一转换为UTF-8编码存储,然后按照汉维文词典合并后的UTF-8词表分词,使用中科院计算计算研究所13Search(UTF-8版)建立索引。多语言检索通过翻译查询语句实现,支持多语言混合检索(如{ }网站)和单一语言检索(如维吾尔文网站)两种方式。多语言混合检索结果比较精确但是对使用者的语言要求很高;而根据双语词典,允许用户输入单一语言检索相对容易,但是词典中多义词和同义词现象导致检索结果精确率不高。多语言的摘要通过在正文中以字符为单位滑动寻找查询
老维文;
多语言信息检索;
双语词典;
索引生成;
翻译查询;
19.
搜索引擎用户查询的广告点击意图分析
靳岩钦
;
张敏
;
刘奕群
;
马少平
《第六届全国信息检索学术会议》
|
2010年
摘要:
搜索广告已经成为搜索引擎的重要收入来源之一,因此越来越多的研究着眼于提高搜索引擎所投放广告的点击率。本文基于国内著名商用搜索引擎提供的用户查询点击日志,首先统计分析了搜索引擎用户查询的广告点击率,然后提出两种方法对搜索引擎用户查询的广告点击意图进行分析和预测,分别是:基于查询词内容匹配的点击预测模型和基于贝叶斯分类的预测模型。在较大规模的真实用户查询点击日志上的实验结果表明,所提出的方法具备一定的预测完整用户查询广告点击意图的能力,能够较缩小广告投放范围,提高广告投放的有效性,将广告投放的精度从3.0%提高到36.8%,因此使得广告投放的平均 F-measure 值从0.060 提升到0.408,从而减少搜索引擎广告投放的代价,最终改进广告投放效果。所提出的方法可以适用于在线广告意图的实时预测。
查询日志;
用户行为分析;
查询意图;
广告点击预测;
搜索引擎;
20.
融合多类特征的Web查询意图识别
伍大勇
;
赵世奇
;
刘挺
;
张宇
《第六届全国信息检索学术会议》
|
2010年
摘要:
识别搜索引擎用户的查询意图是在信息检索领域一个备受关注的研究内容。本文提出了一种融合多类特征识别web 查询意图的方法。具体地,本方法将Web 查询意图识别作为一个分类问题,并从不同类型的资源包括查询文本、搜索引擎返回内容以及Web查询日志中抽取出有效的分类特征。在人工标注的真实web查询语料上采用本文的方法进行查询意图识别实验,实验结果显示本文采用的各类特征对于提高查询意图识别的效果皆有一定帮助,综合使用这些特征对88.5%测试查询得到了准确的意图识别结果。
搜索引擎;
Web查询意图;
特征融合;
信息检索;
21.
中文情感词倾向消歧
孙慧
;
关毅
;
董喜双
《第六届全国信息检索学术会议》
|
2010年
摘要:
文本情感倾向性分析的基础是词汇情感倾向分析,本文针对基于词典的词汇情感倾向性分析方法中对情感词倾向绝对化标注问题,提出了一种获取上下文相关的词汇情感倾向方法。同时针对目前缺少包含上下文相关情感词标注资源的问题,使用最大熵交叉验证和手工校正结合的方法加以构造,并在此基础上构造了上下文相关的特征集合用来预测情感词在上下文中的情感倾向。实验表明,此种方法与基于词典的词语情感倾向性分析方法相比,F值提高了4.9%。
情感倾向;
词汇情感;
最大熵;
消歧;
交叉验证;
上下文相关;
22.
结合词相关特征与流行学习的中文问句分类
刘立
;
余正涛
;
王蒙
;
毛存礼
;
郭剑毅
《第六届全国信息检索学术会议》
|
2010年
摘要:
针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了87.44%,比采用TFIDF进行特征提取训练得到的分类器的准确率提高了16个百分点;比采用语义相似度进行特征提取,并对特征空间进行PCA降维后训练得到的分类器的分类准确率提高了4个百分点。
统计问句分类;
流形学习;
局部线性嵌入;
非线性降维;
词汇语义相似度;
23.
标签特征和正文特征融合的SVM博客文本分类算法研究
刘秉权
;
李博
;
孙林
;
王宝勋
;
刘远超
《第六届全国信息检索学术会议》
|
2010年
摘要:
博客飞速发展,博客文本检索和分类的研究价值日渐凸显。博客文本的内容、风格缺乏规范性,为自动文本分类带来难度。博客作者通常为文章指定一个或多个标签,标签在很大程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。实验结果表明,标签信息能够有效提高博客文本分类的性能。
博客;
标签特征;
文本分类;
SVM;
24.
基于句法特征的模糊词辖域的识别方法
李鑫鑫
;
王轩
;
沈剑平
;
高翔
《第六届全国信息检索学术会议》
|
2010年
摘要:
文本中模糊词及其辖域的识别对于信息的准确抽取有着重要的作用,但是目前机器学习的方法采用的特征都是基于序列的。本文将模糊词辖域的识别问题看作是分类问题,采用条件随机场模型来进行学习。在基本的序列特征基础上,引入两种句法特征(短语树和依存树)作为分类器的特征,并分别比较两种特征对结果的影响。在后处理阶段,我们引入了一个匹配算法对来识别句子中所有模糊词的辖域。在CoNLL2010shared task的生物文本数据上的实验显示,采用句法特征的分类器比只采用基本序列特征的F1值提高了2.36个百分点。
模糊词;
辖域识别;
条件随机场;
句法特征;
分类器;
25.
语义词典归类不当现象自动发现
邱立坤
;
邵艳秋
《第六届全国信息检索学术会议》
|
2010年
摘要:
平行周遍原则是陈保亚(1999)提出的一种用于区分词与短语的理论。由于汉语语义词典在收词并未严格遵循平行周遍原则,因此依据现有语义词典可以自动地归纳出许多平行周遍规则或者平行不周遍规则。假定有两部语义词典,则可以根据词典归纳出两套平行周遍规则,每一套规则都有各自的正例和反例。一个词典中某一规则的反例如果同时是另一词典中的正例,就意味着前一部词典中的词语可能归类不当。基于这一思路,本文提出一个基于平行周遍原则的语义词典归类不当现象自动发现方法,实验分析证明了这一方法的有效性。
平行周遍原则;
语义词典;
归类;
自动发现;
26.
开放域问答系统研究综述
何靖
;
陈翀
;
闫宏飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
尽管搜索引擎能够满足网络用户的很多信息需求,但是还有很多它无法满足。原因之一是它严格的用户界面:它的输入是
开放域问答系统;
问题分析;
信息检索;
答案抽取;
搜索引擎;
27.
虚点:一种减少特征值鸿沟的方法
林游龙
;
余智华
;
程学旗
;
刘悦
《第六届全国信息检索学术会议》
|
2010年
摘要:
基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差,本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定义向量空间中的点,这样的点是相对于原来向量空间模型中的点的矫正映射,即就好像是虚拟点一样,最后问题归结为计算向量空间模型中的点与虚拟点的映射函数。理论分析表明虚点方法能提高基于向量空间模型的分类方法的效果,在SVM中运用虚点方法的实验结果表明,运用虚点方法的SVM的精确度得到了提高,这种结果验证了本文提出的虚点方法的有效性。
虚点;
分类算法;
特征权重;
向量空间模型;
28.
基于层次概念格的分面导航
何超
;
程学旗
;
郭嘉丰
《第六届全国信息检索学术会议》
|
2010年
摘要:
分面导航是用户基于多维分类目录检索和浏览资源的主要方式之一。通过推荐与当前搜索结果相关的类别,帮助用户理解搜索结果,并有效避免查询结果为空。然而,目前的分面导航难以分析所推荐类别之间的深层语义。本文提出了一种层次概念格作为资源集的本体,它完整并简洁地描述查询结果间的包含关系。在此基础上,我们设计了一系列导航操作帮助用户基于层次概念格进行知识发现。为满足导航操作的实时性,我们提出了格挖掘算法LMiner。它以自顶向下和深度优先方式遍历生成格;通过倒排索引当前已生成的极小节点,进行高效的节点冗余检查和边的增量计算。实验结果表明,LMiner的速度远快于现有算法,而索引却小得多。
分面导航;
层次概念格;
频繁项集挖掘;
多维分类;
信息检索;
29.
基于中心语匹配的共指消解
黎耀炳
;
张牧宇
;
秦兵
;
刘挺
《第六届全国信息检索学术会议》
|
2010年
摘要:
共指消解是自然语言处理的核心任务之一。在传统机器学习方法使用的平面特征基础上,本文提出一种利用中心语信息的新方法。该方法首先引进一种基于简单平面特征的实例匹配算法用于共指消解。在此基础上,又引入了先行语与照应语的中心语字符串作为新特征,并提出一种竞争模式对将中心语约束融合进实例匹配算法,提升了消解效果。该方法与其他只使用平面特征的传统机器学习方法相比,能充分地利用每一个训练实例的特征信息,进一步融合中心语字符串特征使消解效果更加准确。
中心语匹配;
实例匹配;
共指消解;
自然语言处理;
30.
互联网金融文本信息关键词形态挖掘
梁霞
;
梁循
《第六届全国信息检索学术会议》
|
2010年
摘要:
基于互联网金融信息流时间序列,本文对金融信息关键词信息强度的波动率变化规律进行了建模分析。通过对单个金融关键词波动率的自回归分析,得出了单个金融词汇波动率满足线性关系并且具有马尔可夫特征。通过对多个关键词波动率的交叉回归分析,使用自组织映射网络(SOM)进行聚类分析,发现同一类关键词的波动率具有很强的对称性和集聚性。
金融信息流;
时间序列;
关键词;
回归分析;
SOM聚类;
互联网;
31.
大规模短文本的不完全聚类
彭泽映
;
俞晓明
;
许洪波
《第六届全国信息检索学术会议》
|
2010年
摘要:
聚类分析是机器学习的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。本文通过对实际应用中的短文本信息进行实验分析,发现了这类数据所具有的“长尾分布”,并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
短文本;
聚类分析;
不完全聚类;
机器学习;
32.
基于人物互斥属性的中文人名消歧
周晓
;
李超
;
胡明涵
;
王会珍
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文针对人名消歧任务中,由于歧义人名处于相近领域而区分困难的情况,提出了基于人物属性互斥与非互斥的两阶段人名消歧义方法。该方法的第一阶段,利用领域知识库和启发式规则抽取人物相关属性,包括职业领域、职务、相关实体等,利用这些属性进行人物的初步的聚合与划分,并识别出互斥与非互斥的人物;第二阶段则是在第一阶段的基础上,再进行一次基于主题聚类的人名消歧的过程,得到最终结果。在SIGHAN 2010训练数据上的对比实验中,本文提出的方法,较于单纯基于主题聚类算法的人名消歧,在Purity评价方法中,F 值平均提高了2个百分点,在B-Cubed 评价方法中,F值平均提高了3个百分点。
人名消歧;
文本聚类;
人物属性;
人名互斥;
33.
基于结构挖掘的论坛检索模型
杨小锐
;
林磊
;
孙承杰
;
刘秉权
《第六届全国信息检索学术会议》
|
2010年
摘要:
随着互联网的发展,网络论坛几乎覆盖了我们日常生活和工作的各个方面,经过数年的发展和累积,论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。本文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,本文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明本文提出的方法能够有效地提升论坛检索系统的效果。
论坛检索;
排序支持向量机;
关键帖抽取;
线索重构;
34.
一种基于用户点击数据的个性化PageRank算法
蔺继国
;
徐锡山
《第六届全国信息检索学术会议》
|
2010年
摘要:
一个好的搜索引擎返回的命中结果应该有一个好的排序。网页本身的重要性是搜索引擎结果排序的一个重要依据,PageRank算法是通过分析网页之间的链接结构来得到网页的重要性。然而,网页之间的链接关系是网站的网页设计者设计的,它只能反映设计者对网页的理解,忽略了用户对网页的理解。本文提出一个从用户点击数据中获得相关反馈信息的综合策略。算法中设置一个修正向量,依据用户点击数据中得到的相关反馈信息来计算向量的值。并将修正向量作为一个参数应用到PageRank算法,是一种简单的个性化搜索应用。
点击数据;
相关反馈;
PageRank;
个性化搜索;
35.
利用URL类别改进查询主题分类
宋巍
;
张宇
;
谢毓彬
;
高汉东
;
刘挺
;
李生
《第六届全国信息检索学术会议》
|
2010年
摘要:
查询分类是理解互联网用户查询意图的重要手段。由于查询很短,先对查询进行扩展丰富其特征,再进行分类被证明是解决特征稀疏的重要途径,其中利用搜索引擎返回结果是最有效的方法之一。已有工作主要利用返回结果的文本,没有充分利用URL 信息。本文利用互联网上人工组织的分类网页目录,设计URL分类器,通过统计结果集合中URL的类别分布预测查询类别。人工标注从搜索引擎日志中采样的约2500个查询作为测试数据。实验表明,基于URL类别的查询分类器可以获得与基于文本扩展的分类器相当的准确率,却较大地提高了查询分类的效率。将两类分类器组合得到的分类器可以获得比单个分类器更好的分类性能。特别的是,基于URL类别的分类器与原始查询相结合时,F1值可以接近基于文本扩展的分类器,而效率与基于URL类别的分类器相当,在分类性能与处理效率上进行折衷。
查询分类;
URL分类;
分类器组合;
搜索引擎;
36.
基于中心理论的中文对话省略恢复研究
张伟男
;
张宇
;
刘挺
《第六届全国信息检索学术会议》
|
2010年
摘要:
在中文对话中,大量存在着省略的现象,为了避免由于省略造成的表述模糊以及歧义等问题,本文进行了相关的研究,以中心理论作为理论依据,提出一种适用于中文对话系统或中文交互式问答系统的省略恢复模型,并且通过实验验证该模型的正确性和效用性。本文选用TRECQA2004-2007的翻译语料作为实验数据集,通过省略判定,待恢复词识别以及省略恢复三个过程的处理,最终得出的实验结果准确率为68.67%,召回率为75.00%,F值为71.64%,相对于不使用中心理论方法的省略恢复模型,本文的方法在准确率及F 值上面都有较大的提升。
自然语言处理;
中心理论;
中文对话;
省略恢复模型;
翻译语料;
37.
基于浅层句法分析的中文语义角色标注研究
王鑫
;
孙薇薇
;
穗志方
《第六届全国信息检索学术会议》
|
2010年
摘要:
语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动的完全句法分析的中文语义角色标注效果并不理想.因此本文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的语素信息,有效提高了句法分析的性能,F值达到了93.61。在角色标注阶段,利用动词的语素信息,并提出了句子的“粗框架”特征,使角色标注阶段的F值达到了74.1,比前人(71.9)有较为显著的提升,从而证明了笔者的方法是有效的。
语义角色标注;
浅层句法分析;
语素;
构词法;
38.
基于相关子主题消解的悖向重排序方法研究
华松
;
洪宇
;
张剑峰
;
姚建民
;
朱巧明
《第六届全国信息检索学术会议》
|
2010年
摘要:
悖向重排序是一种面向个性化信息检索的新型排序策略,其借助相悖于查询意图的描述结构,实现倔强非相关反馈的识别和降解。目前,悖向重排序研究中的关键问题之一是如何建立极大区别于查询意图且最具代表性的悖向意图描述。针对这一问题,本文研究一种基于相关子主题消解的悖向重排序方法,主要研究内容包括如下四个方面:1)基于相关反馈内容切割和聚类的子主题挖掘;2)基于信息量和分布特性的相关子主题判定;3)悖向查询意图中相关子主题的消解;4)基于悖向意图的检索结果重排序。实验采用TDT4语料集进行测试,结果显示该悖向排序方法显著改进了检索性能,其MAP值提高了近16个百分点,P@20 和NDCG@20分别提高了14%和12%。
信息检索;
重排序;
查询意图;
文本分割;
相关子主题消解;
39.
基于文法特征的无监督能愿词挖掘方法研究
洪宇
;
张剑峰
;
杨跃辉
;
姚建民
;
朱巧明
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如“能够”,“必须”,“宁愿”等等。另外,本文还介绍了在大规模中文博客资源中自动提取并标注能愿词的方法。实验验证,该方法的正确率和召回率分别可达74.25%和76.03%。在此基础上,本文根据推演公式提出了对中文能愿词进行迭代挖掘的思想。
数据挖掘;
倾向性分析;
能愿词;
文法特征;
无监督;
40.
一种LDA模型的高效并行求解算法
李文波
;
孙乐
《第六届全国信息检索学术会议》
|
2010年
摘要:
统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新的动态负载均衡方法,相对于已有的基于静态负载均衡方法,性能有了显著的提高,并且对数据排序的影响表现稳定;同时,通过对统计量汇总过程的优化,克服了模型空间随并行线程数量线性增长的弊端。
统计主题模型;
变分推断;
并行算法;
大规模文本处理;
41.
中文不确定性句子的识别研究
计峰
;
邱锡鹏
;
黄萱菁
《第六届全国信息检索学术会议》
|
2010年
摘要:
识别不确定性信息对于信息抽取类的任务有着重要作用,因为不确定性信息往往会误导这些系统抽取出错误的信息。本文提出了一种自动识别中文中不确定性句子的方法,利用不确定性句子中普遍存在的线索词的信息构建了句子的评分模型。同时Passive Aggressive算法,一种在线学习算法的变种,用于学习模型的参数。在中文不确定性句子识别的实验中证明,相比较于词袋(Bag of Words)的模型,我们的模型能够得到更好的F1值,达到了70.53%,提高了约5%。
不确定性信息;
PassiveAggressive算法;
中文信息处理;
句子识别;
学习模型;
42.
Twitter中近似重复消息的判定方法研究
曹鹏
;
李静远
;
满彤
;
刘悦
;
程学旗
《第六届全国信息检索学术会议》
|
2010年
摘要:
微博客是Web2.0出现以来的一个新生概念。著名的Twitter系统是微博客中具有代表性的一个,其全球用户已经超过一亿,在世界范围内具有重要影响力:目前知名政治家、社会名流和大企业几乎都是Twitter的用户。Twitter系统中的消息通常比较短小,而且语法不规范。同时,由于Twitter中允许用户以多种格式自由转发消息,系统中存在大量内容重复或近似重复的消息。重复消息的存在加重了系统存储的负担,对用户阅读、理解以及分析消息的内容也造成了不利影响。本文分析了Twitter系统中转发消息的语法特点,并利用这些语法特点提取规则,把转发的消息变成普通的消息。本文还提出统计字符种类和最短编辑距离两种字符串距离计算的方法以判定Twitter中近似重复的消息。实验结果表明,两种方法具有扩展性强、实现简单、效率高等优点,能够有效地解决Twitter上的信息重复现象。
微博客;
Twitter系统;
重复信息;
统计字符种类;
字符串距离;
43.
基于视觉特征的网页信息提取
吴倩
;
杨逍
;
张兆心
《第六届全国信息检索学术会议》
|
2010年
摘要:
在互联网技术高速发展的时代,Web成为全球最大的信息数据库,如何有效管理、利用Web信息是当前的热点问题,本文主要探讨了Web网页信息提取问题。传统的网页信息提取主要基于DOM树及HTML标签分析,文中在基于网页视觉特征分块算法VIPS础上,通过归纳Web 网页视觉特征及视觉块特征信息,提出了基于视觉块的定位算法的Web页面信息提取方法。分别将主题型网页和BBS型网页作为VIPS算法的输入,分析VIPS算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等视觉特征量,提出了视觉块定位算法VBPA,定位主题信息块到VBT中的某一个节点,进而提取主题信息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息提取质量。
VIPS;
视觉块定位;
VBPA;
主题内容提取;
BBS信息提取;
44.
一种基于加权投票的术语自动识别方法
张巍
;
游宏梁
;
张吉才
《第六届全国信息检索学术会议》
|
2010年
摘要:
术语自动识别是获取领域术语表中未登录的规范化词汇的方法,并且是信息抽取、文本挖掘等领域的重要任务。近年来,基于统计分析的术语抽取方法取得了一定进展,出现了C-Value、NC-Value、TermExtractor等有效方法。但是,对各种方法进行加权投票的研究相对较少。本文首先从大量已知术语中收集术语的词性模板,并借之抽取候选术语,接着利用了加权投票算法对这些候选术语进行排序。在IEEE2006-2007电子工程领域文献上的实验结果表明,加权投票方法比任何单一方法的识别效果更好。
自动术语识别;
投票算法;
信息抽取;
文本挖掘;
45.
面向文本拷贝检测的分布式索引
张玥
;
俞昊旻
;
张奇
;
黄萱菁
《第六届全国信息检索学术会议》
|
2010年
摘要:
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引进行拷贝检测。为了适应文档集规模的不断增大,好的分布式索引应该同时具备良好的效率和可扩展性。为此本文比较了两种不同的分布式索引结构(Term-based索引和Doc-based索引)。并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法(Term-based方法和Doc-based方法)。通过在WT10G文档集上进行实验,本文对两种方法的性能进行了比较。实验表明Doc-based方法具有更好的效率和可扩展性。
拷贝检测;
重复检测;
Map-Reduce;
分布式索引;
46.
基于WEB资源的ComPaper10th中权威学者挖掘
王明文
;
何世柱
《第六届全国信息检索学术会议》
|
2010年
摘要:
文献检索中,自动发现指定研究领域的权威文献和权威学者,使用户对特定领域有全面、深刻、细致的认识和了解,不仅能使科研工作者能快速的进行相关研究,对普通用户了解领域知识也有很好的帮助。首先基于Lucene 开源项目构建了一种文献检索系统,能够对指定研究领域搜索相关文献;然后通过结合DBLP、ACM Portal 和Google Scholar 这些WEB 资源分析文献属性和文献间引用关系对文献权威性进行评价,选择权威性评价高的若干篇相关文献为权威文献;最后根据学者对权威文献的贡献程度对学者权威性进行评价。评测结果表明,虽然在权威文献的挖掘中结果不是最好,模型有待进一步改进,但在权威学者挖掘中的结果有明显优势。
权威学者挖掘;
专家发现;
文献检索;
SEWM评测;
47.
一种基于核函数的技术关键词连接关系抽取方法
王裴岩
;
张桂平
;
白宇
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文将信息抽取中的关系抽取技术应用于专利摘要文本,抽取专利摘要文本中技术关键词间的连接关系。本文将特征分为需精确匹配特征和需近似匹配特征两类,分别定义相似性计算方法,并将相关联的特征使用特征节点进行整合,在此基础之上定义样例间的核函数。解决基于特征向量方法中,特征相互独立缺少联系的问题和通过点积计算某些特征相似性的不合理性。在技术关键词间的连接关系抽取实验中,本文提出的方法获得了82.43%的F值。
技术关键词;
关系抽取;
特征节点;
核函数;
48.
基于多分类器的Deep Web入口发现
王英
;
左万利
;
王鑫
;
彭涛
《第六届全国信息检索学术会议》
|
2010年
摘要:
Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域Deep Web数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的Deep Web入口发现方法是可行的。
本体;
主题爬行;
决策树;
Deep Web;
多分类器;
49.
求解中文文本信息过滤的自适应遗传算法及收敛性分析
朱振方
;
刘培玉
《第六届全国信息检索学术会议》
|
2010年
摘要:
针对中文文本信息过滤中过滤模板生成过程的非线性问题,借鉴遗传算法可以在全局范围内寻找最优解的特性,引入遗传算法解决文本分类问题,并应用一种新的基于集合论的方法证明其在理论上的可行性。在实际应用中,应用遗传算法生成模板进行了文本分类和文本过滤试验,并结合应用实际提出了遗传算子的自适应策略。理论证明以及实验结果都说明,该方法具有可行性,能够在信息过滤中取得较好的结果。
文本过滤;
模糊理论;
遗传算法;
收敛性;
50.
框架元素语义核心词自动识别研究
康旭珍
;
李双红
;
李茹
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文基于汉语框架网,用框架核心依存图形式化的表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取框架元素的语义核心词。文中使用条件随机场模型和最大熵模型来识别框架元素语义核心词,并分别对两个不同的模型所选的特征集进行了对比分析,且通过构造不同的特征模板进行对比实验,选取了较优的特征模板和模型。结果表明,CRF模型具有较好的识别性能,它在最优的特征模板下,对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了96.45%和95.17%。
框架元素;
语义核心词;
框架核心依存图;
条件随机场;
最大熵模型;
自动识别;
51.
基于WEB检索的论文标题译文获取
杨沐昀
;
石振勇
;
朱俊国
;
李生
;
赵铁军
《第六届全国信息检索学术会议》
|
2010年
摘要:
现有的论文标题译文通常由统计机器翻译或者通过辅助翻译得到,这两种方法对于标题的译文获取有明显的不足。本文在分析了汉语标题的特点及WEB译文获取技术后,提出了一种基于WEB检索的论文标题译文获取方法。实验表明,通过该方法获取的论文标题译文能够达到与Google在线翻译相同的质量。
论文标题;
辅助翻译;
WEB检索;
机器翻译;
52.
基于Low-IDF-SIG的句子重复检测
俞昊旻
;
张玥
;
张奇
;
黄萱菁
《第六届全国信息检索学术会议》
|
2010年
摘要:
随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的拷贝检测正是解决这类问题的一个必要步骤。本文提出了一种有效并且快速的句子级别的特征抽取方法——Low-IDF-Sig算法,并基于该算法实现了一个可以高效地找出句子级别拷贝的检测系统。为了对本文提出的方法的精度及效率进行评测,我们还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的拷贝检测任务的效率和精度。
句子级别;
拷贝检测;
Low-IDF-SIG算法;
句子重复检测;
搜索引擎;
53.
基于隐主题分析和文本聚类的微博客新闻话题发现研究
路荣
;
项亮
;
刘明荣
;
杨青
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文研究在大规模微博客文本集上的话题发现的问题。微博客与传统博客不同,首先,它的长度比传统博客短,往往只有只言片语。其次,它可以通过手机,即时通讯软件等,实时发布,从而会在短时间内产生大量数据。对于微博客的短文本数据,传统使用词或短语作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。本文使用隐主题模型,充分挖掘短文本的隐主题信息,并在隐主题空间上度量短文本之间的相似度,从而有效解决了短文本的数据稀疏性问题。另一方面,对于大规模的数据,传统直接利用聚类方法聚合出新闻话题的方法,很难快速得到理想结果。而本文则首先根据新闻的特点,选择出最有可能谈论新闻事件的微博客,然后用一种两层的K均值和层次聚类的混合聚类方法,将选择出的微博客快速准确地聚合成不同的新闻话题。实验结果表明,本文的方法能有效地从大规模微博客短文本数据集中,挖掘出新闻话题。
微博客;
短文本数据;
隐主题模型;
话题发现;
混合聚类;
54.
基于用户行为的长查询用户满意度分析
朱彤
;
刘奕群
;
张敏
;
马少平
;
茹立云
《第六届全国信息检索学术会议》
|
2010年
摘要:
搜索引擎性能评估是信息检索界一个很重要的课题。目前,随着用户行为信息越来越多的被学术界和产业界所关注,相关用户行为信息挖掘的方法也相应产生。已有的相关研究表明,长查询具有较为丰富的信息内容,能够更加准确地描述用户的信息需求。本文在此基础上提出了长查询用户满意度分析的整体框架,定义了用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM 两种分类算法评测用户满意度。在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性。实验结果表明,用户对于查询满意和不满意的分类准确率分别达到了86%和70%。本文贡献在于提供了一种新的搜索引擎评价体系,并通过用户满意度分析,可以向搜索引擎提供用户不满意的长查询样例,从而改善其性能。
用户行为;
用户满意度;
长查询;
学习算法;
55.
一种基于语义引力及密度分布的聚类算法
李政涛
;
夏树倩
;
王大玲
;
冯时
;
张一飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法。一方面,将物理学中的质量和引力等概念引入到聚类分析中,将语义引力作为数据间相似性的度量方法,不但充分考虑了数据间的几何距离可分性,而且强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果;另一方面,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。
聚类算法;
语义引力;
密度分布;
56.
基于多阶段的中文人名消歧聚类技术的研究
丁海波
;
肖桐
;
朱靖波
《第六届全国信息检索学术会议》
|
2010年
摘要:
人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统性能的影响做了比较分析。本文主要介绍三阶段聚类体系。在第一阶段,系统首先使用启发式规则对文档进行初步聚类;在第二阶段,系统使用局部上下文特征对文档进行再次聚类;在第三阶段,使用全局上下文特征对文档进行最后一次聚类。实验结果表明,本文提出的聚类策略的系统性能(B-cubed F值)比仅凝聚型层次聚类的系统的性能(B-cubedF值)高出2.41%。
人名消歧;
聚类算法;
多阶段聚类;
57.
基于群体智慧的Web访问日志会话主题划分研究
方奇
;
刘奕群
;
张敏
;
茹立云
;
马少平
《第六届全国信息检索学术会议》
|
2010年
摘要:
Web 访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话中的主题(topic)是指会话中具有相同用户意图的部分。将session 进一步划分成能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,本文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题划分算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
会话主题划分;
Web访问日志;
群体智慧;
58.
基于htmlparser的搜索引擎信息抽取系统设计与实现
孟红
;
钟华
《第六届全国信息检索学术会议》
|
2010年
摘要:
信息抽取是搜索引擎中的核心组成部分,发挥着举足轻重的作用。伴随着互联网信息的爆炸式发展,传统的搜索引擎已经不能满足人们的需要。大量有针对性作用的搜索引擎应运而生。Htmlparser是一个对html解析的库,主要用于改造或提取html。它能超高速解析html。HtmlParser主要靠Node、
信息抽取;
搜索引擎;
htmlparser;
数据过滤;
排序;
59.
基于音译和网络的命名实体翻译方法研究
赵明明
;
洪宇
;
姚建民
;
朱巧明
《第六届全国信息检索学术会议》
|
2010年
摘要:
传统的音译方法采用建立音译模型解决音译命名实体的翻译问题,但是该方法不能解决不符合音译规律或部分符合音译规律的命名实体翻译问题。为此,本文提出一种利用音译结果作为扩展,从网络中挖掘命名实体翻译的方法。具体而言,采用加权频度算法从音译结果中抽取单字作为扩展从网络中获取命名实体的候选翻译。采用音译特征和共现特征对候选翻译进行排序,输出排序结果。实验中命名实体的翻译方法取得了如下效果:Top 1 包含率79.2%,Top 5 包含率85.0%。
音译;
命名实体翻译;
加权频率;
加权编辑距离;
60.
基于搜索引擎的双语混合网页识别新方法
冯艳卉
;
洪宇
;
颜振祥
;
姚建民
;
朱巧明
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。本文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2516条检索结果记录,本文提出的方法取得了81.3%的精确率和94.93%的召回率。
Web挖掘;
双语混合网页;
平行语料;
搜索引擎;
人工标注;
61.
基于HowNet的汉语情感问句二层分类
仇伟
;
黄高辉
;
姚天昉
《第六届全国信息检索学术会议》
|
2010年
摘要:
传统问答系统的研究主要是针对事实问句,目前国内外对于情感问句的研究还很少见。情感问句能够更加直接地表达用户的想法和情感倾向,因而在日常生活中普遍存在。本文基于HowNet 提出了汉语情感问句的二层分类体系。首先利用HowNet 构建情感词典,采用SVM 和朴素贝叶斯分类算法对汉语情感问句和事实问句进行分类,取得了很好的效果。然后本文结合意见的定义,给出了一个汉语情感问句的语义分类体系,以HowNet义原以及疑问词相关的属性为特征,对汉语情感问句在语义上的大类进行分类,在缩小特征维度的情况下,也取得了较好的分类效果。
情感问句;
问句分类;
二层分类体系;
分类算法;
HowNet;
62.
基于用户行为的色情网站识别
曹建勋
;
刘奕群
;
岑荣伟
;
马少平
;
茹立云
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文从分析海量互联网用户访问日志入手,通过分析用户访问色情网站与普通网站时产生的不同行为,尝试发现色情网站与普通网站的一些不同的行为模式,并从这些不同中提取出特征,结合机器学习方法,完成基于用户行为这些特征对网站的分类。实验表明,该方法可以较准确、高效的从网站中识别色情网站。
色情网站;
色情词;
用户行为;
63.
模拟退火的投影寻踪模型在文本分类中的应用
廖海波
;
万中英
;
王明文
《第六届全国信息检索学术会议》
|
2010年
摘要:
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难,其本质问题是投影方向不易确定,且当投影方向包含的指标较多时计算尤为不易。本文提出一种模拟退火的投影寻踪模型,该模型有效的解决了投影方向的寻优问题。本文将该方法应用于文本分类,在Reuters-21578文档集和复旦文档集上进行实验,并与基于遗传算法的投影寻踪模型进行了比较,实验结果表明此方法能有效提取投影方向,得到了很好的分类性能。
模拟退火;
投影寻踪模型;
投影方向;
文本分类;
64.
中文产品评论中属性词抽取方法研究
栗春亮
;
朱艳辉
;
徐叶强
《第六届全国信息检索学术会议》
|
2010年
摘要:
利用百度百科和分词后相邻词语同现比例来识别生词,降低分词错误对属性词识别的影响。设计词性序列模板在中文产品评论语料中获得候选属性词集,然后采用一系列有效的统计技术和自然语言处理技术筛选候选属性词。实验证明抽取属性词的方法是有效的。
产品评论;
识别生词;
词性序列模板;
属性词抽取;
自然语言处理;
65.
面向单一网页的双语资源挖掘方法
罗阳
;
季铎
;
张桂平
;
王莹莹
《第六届全国信息检索学术会议》
|
2010年
摘要:
双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。
Web挖掘;
网页分类;
双语资源;
频繁序列模式;
支持向量机;
66.
基于主动学习的中文问题类别标注研究
缪有栋
;
邱锡鹏
;
黄萱菁
《第六届全国信息检索学术会议》
|
2010年
摘要:
在开放领域问题回答研究中,问题分类是首要面对的问题,也是影响问答系统性能的关键。而目前问题分类语料规模都比较小,难以满足实际应用中问题分类的需要。本文根据HOWNET 建立一套问题分类的分类体系,并使用主动学习的方法进行中文问题类别标注。此外,我们还通过特征选择来提高标注性能。实验证明,基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在一定程度上还可以明显提高问题分类的正确率。
主动学习;
Passive Aggressive算法;
特征选择;
中文问题分类;
67.
基于统计和规则相结合的汉语术语语义分析方法
陈小芳
;
张桂平
;
蔡东风
;
叶娜
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文在分析术语特点的基础上,提出了一种基于统计和规则相结合的汉语术语语义分析方法。首先以词,词性,距离信息,上下文信息,词语在知网中的第一义原信息为特征,基于该特征训练得到支持向量机(SVM)依存分析模型,从而有效识别出了术语内部的依存关系;在依存分析基础上利用统计和规则相结合的方法进行术语语义分析。实验结果表明该方法的有效性,在大类语义关系和小类语义关系上正确率分别达到77.13%和69.05%。
依存分析;
语义分析;
SVM;
CRF;
汉语术语;
68.
基于模板转换的平行语料自动获取
运海红
;
韩咏
;
何晓宁
;
齐浩亮
《第六届全国信息检索学术会议》
|
2010年
摘要:
双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网中的大量平行文本的自动获取来构建大规模的汉英平行语料库。该方法的性能在ClueWeb09数据集上得到了实验验证。
平行语料库;
跨语言信息检索;
向量空间模型;
模板转换;
ClueWeb09数据集;
69.
基于社区问答的问题相关度检测研究
李宇翔
;
李双红
;
李茹
《第六届全国信息检索学术会议》
|
2010年
摘要:
基于社区的问答是近几年来非常流行的一种有效搜索、获取信息的途径。这种交互式的问答技术近年来已经成为了国际上问答技术的研究热点。本文论述了社区问答的一些相关研究和基本特点,讨论了问题相关度算法,选取了三个最有效的特征,使用二元分类方法判别问题是否相关。并在社区问答中进行了Baseline实验,三个站点的实验结果F 值均在87%以上,验证了在社区问答站点收集语料的可行性,并为问答系统的最优问题推荐做了准备工作。
社区问答;
问题相关度;
二元分类;
Baseline;
70.
面向人名消歧任务的人名识别系统
时迎超
;
王会珍
;
肖桐
;
胡明涵
《第六届全国信息检索学术会议》
|
2010年
摘要:
CLP2010的人名消歧评测的任务是判断出现在不同文档中的相同人名是否指向现实生活中的同一个人的处理过程。对于这个任务,首先要解决的问题是如何识别语料中的人名。但人名消歧评测的任务中,人名识别与传统的人名识别的不同之处在于,它给定了一个查询词,并且对人名的识别准确性具有非常高的要求。也就是说,在实体识别的时候要特别的关注涉及查询词实体的识别。对于面向人名消歧任务的人名识别,本文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的实体名称,特别是查询词所涉及的实体名称进行有效的识别。在CLP2010的评测方给我们的开发集上的实验表明,查询词涉及人名的识别正确率达到98.89%。
人名识别;
人名消歧;
系统整合;
启发式规则;
71.
基于条件随机域的中文事件类型识别
胡博磊
;
贺瑞芳
;
孙宏
;
王文俊
;
孙越恒
《第六届全国信息检索学术会议》
|
2010年
摘要:
事件抽取是从文本中抽取出事件信息,确定事件类型、子类型及相关实体(如时间、地点、参与者等)角色的工作,在多文档文摘,自动问答及信息检索等领域有着重要的应用前景。通常事件抽取分为事件类型识别和事件元素识别两步,事件元素识别的结果无法指导事件类型识别,而事件类型识别的效果在很大程度上决定了事件抽取系统的整体性能。本文将事件抽取的两步工作看作序列标注问题,采用条件随机域构建了一个联合标注模型,将事件类型和事件元素在图模型中同时进行标注,试图解决事件类型识别对事件元素的后向依赖问题。实验表明,该方法提高了事件类型识别的性能,最终F值达到63.31%。
事件抽取;
事件类型识别;
条件随机域;
信息检索;
72.
基于条件随机域的中文长地名结构标注
孙宏
;
王文俊
;
贺瑞芳
;
胡博磊
;
孙越恒
《第六届全国信息检索学术会议》
|
2010年
摘要:
中文长地名结构标注是将自然文本形式的长地名按语义不同分割成不同部分并添加标签。在信息检索、自动问答及信息抽取等领域有着重要的应用。中文地名存在格式和结构不规则的问题,在实际应用中,给数据存储的粒度以及查询的准确率带来严重影响。已有研究使用最小风险化的方法对地名进行标准化,由于主要面向英文地名缩写和误拼的问题,没有充分考虑中文地名的特点。本文以应急领域的长地名数据为研究对象,通过对长地名的结构进行标注进而规范其格式。在标注前首先采用启发式方法对长地名的分词结果进行改进,然后利用条件随机域模型对长地名的结构进行标注,从而给长地名的不同部分添加上表明各自语义的标签。实验表明,经过分词改进和基于条件随机域模型的长地名结构标注的性能有显著提高。
条件随机域;
中文分词;
长地名结构标注;
信息检索;
73.
基于词汇与句法关系匹配的蕴涵关系识别方法
刘江利
;
杜永萍
《第六届全国信息检索学术会议》
|
2010年
摘要:
自然语言有丰富的表达方式,语义蕴涵识别任务RTE(RecognizingTextualEntailment)判断两个文本片断T(Text)和H(Hypothesis)之间是否具有蕴涵关系。本文使用了基于词汇和句法关系的方法来识别文本之间的蕴涵关系,采用RTE4 和RTE5的数据集进行测试。其中,基于词汇的匹配用到了Unigram和Bigram方法;在此基础上,由T-H之间的句法依赖关系进一步实现二者之间蕴涵关系的判断。本文最后对测试结果进行分析,RTE4 和RTE5的3-way子任务准确率分别为54.6%,56.5%,2-way子任务准确率分别为58.1%,59%。
蕴涵识别;
自然语言处理;
性能评价;
句法关系匹配;
词汇匹配;
74.
问答社区中回答质量的评价方法研究
孔维泽
;
刘奕群
;
张敏
;
马少平
《第六届全国信息检索学术会议》
|
2010年
摘要:
问答社区已经成为网络信息获取的一种重要渠道,但其中信息质量分布差异较大。本文研究了问答社区中回答质量的评价方法。具体考察了百度知道的问答社区环境,并对其构建了大规模的语料数据。针对百度知道的特点,文本提出的基于时序的特征、基于问题粒度的特征和基于百度知道社区用户的特征,从更多的角度对回答质量进行评价。利用分类学习的框架,本文综合了新设计的三方面特征和经典的文本特征、链接特征,对高质量和非高质量的回答进行分类。基于大规模问答语料的实验表明,在文本特征与链接特征的基础上,基于时序与基于问题粒度的特征能够有效地提高回答质量的评估效果。另外也发现,根据本文的回答质量评价框架做出的质量评分能够有效地预测最佳答案。
问答社区;
回答质量评价;
链接特征;
百度知道;
75.
基于关联度模型的文本倾向性检索研究
刘全升
;
姚天昉
《第六届全国信息检索学术会议》
|
2010年
摘要:
观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。本文在研究了信息检索理论与文本倾向性分析技术等基础上,结合国内外关于观点检索的相关研究,提出了基于关联度的文本观点检索算法,综合考虑了主题检索过程中的查询扩展,文本检索相关度,文本倾向性强度,检索主题与文本情感的关联度等对观点检索最后结果的影响。该算法从理论上考虑了观点检索不同因素之间的相互影响问题。通过对COAE2008观点检索子任务的实验数据进行实验,结果表明:本文提出的基于关联度的观点检索算法可以取得较好的效果。
观点检索;
关联度模型;
中文观点检索;
信息检索;
文本挖掘;
76.
基于改进Pairwise损失函数的排序学习方法
吴佳金
;
杨志豪
;
林原
;
林鸿飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
排序学习是当前机器学习与信息检索交叉领域的研究热点。它利用机器学习方法自动地构造排序模型,用于排序新的数据。Pairwise方法是一类重要的排序学习方法,它以偏序文档对作为训练样例,通过判断不同文档与查询的相关性大小关系来为文档排序。由于pairwise 方法不考虑单个文档的相关性大小,若对文档对内两个文档的相关性均预测错误,则会导致连锁反应并影响最终排序性能;为解决该问题,本文分别基于单层神经网络和双层神经网络的RankNet算法,加入pointwise损失函数进行优化,并分别使用梯度下降算法和反向传播算法训练网络权重值,得到排序模型。在OHSUMED数据集上的实验结果表明,加入pointwise损失函数有助于改善pairwise方法的排序性能。
信息检索;
排序学习;
损失函数;
Pairwise;
RankNet算法;
神经网络;
77.
Tag-TextRank:一种基于Tag的网页关键词抽取方法
李鹏
;
王斌
;
石志伟
;
崔雅超
;
李恒训
《第六届全国信息检索学术会议》
|
2010年
摘要:
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag 数据进行统计分析的基础上,提出了利用Tag 进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank。该方法在TextRank 基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合。在公开语料上的实验表明,Tag-TextRank 在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的适用性。
社会化标签;
关键词抽取;
Tag数据;
TextRank;
Tag-TextRank;
78.
基于CRFs的中文领域术语自动抽取研究
王海雄
;
郭剑毅
;
余正涛
;
毛存礼
;
张朝胜
;
雷春雅
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文提出基于条件随机场(CRFs)的中文领域术语的自动抽取方法,在给定领域分类语料前提下,该方法不仅很好解决了未登录词中的领域术语抽取的问题,而且还很好的解决三字以上长字词领域术语的抽取问题。本文以云南旅游领域为实验对象,并与基于互信息结合T 评价的传统领域术语抽取方法作比较,人工评测显示基于CRFs的方法能准确有效的抽取领域术语,并能很好的抓取未登录词中的领域术语和长字词领域术语,明显提高了领域术语的抽取的准确率和召回率。
CRFs;
条件随机场;
机器学习;
互信息;
领域术语;
特征选择;
79.
基于正负关联规则挖掘的局部反馈查询扩展
黄名选
《第六届全国信息检索学术会议》
|
2010年
摘要:
为了区分与原查询正负相关的扩展词,改善查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理;提出一种基于正负关联规则挖掘的局部反馈查询扩展算法。该算法首先从初检的前列文档中挖掘只含查询词项的词间正负关联规则,构造正负规则库;然后,从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,实现查询扩展。算法还给出新的剪枝方法,提高挖掘效率。实验结果表明本文算法能区分正负扩展词,发现虚假扩展词,改善和提高信息检索性能。
局部反馈;
查询扩展;
关联规则;
负关联规则;
扩展词;
权重计算;
80.
基于用户情感标签的音乐检索算法
李静
;
林鸿飞
《第六届全国信息检索学术会议》
|
2010年
摘要:
音乐是情感的表达,标签是音乐的诠释,大量的情感类标签从多个角度描述同一首音乐所表达的情感信息。本文提出了一种基于用户情感标签的音乐检索算法,首先,通过对用户情感类标签和音乐进行建模,构建以情感标签和音乐为节点的二部图,利用T_SimRank 算法计算标签和音乐之间的语义相似度,然后,通过T_PageRank算法计算音乐的热度,最后,利用排序学习的思想将两种方法相融合,得到音乐的最终排序结果。实验证明,本文提出的方法比传统的余弦相似度和基于标签共现的相似度方法更能满足用户检索需求,将多种方法融合比单一的方法效果更好。
音乐检索;
用户情感标签;
语义相似度;
音乐热度;
排序学习;
81.
一种基于分类的用户兴趣模型
徐志明
;
宋毅
;
冯子威
;
李生
《第六届全国信息检索学术会议》
|
2010年
摘要:
本文研究了一种基于分类的用户兴趣模型。该模型主要将用户查询历史和用户感兴趣的相关文档视为用户兴趣数据的来源,来挖掘用户兴趣信息。根据向量空间模型,我们将基于分类的用户兴趣模型表示成用户兴趣向量形式,并根据FanLiu的用户查询分类方法,给出了该模型的训练方法。实验结果表明,该模型具有较好的用户兴趣描述能力,取得了85.8%的用户兴趣识别的准确率。
用户模型;
用户查询历史;
分类;
向量空间模型;
82.
基于热传导模型的更新摘要算法
杜攀
;
郭嘉丰
;
张瑾
;
程学旗
《第六届全国信息检索学术会议》
|
2010年
摘要:
更新摘要假设在用户已经读过某话题的一些相关文档的情况下,对新来的该话题相关文档集合自动生成摘要。可以看出,它除了要解决传统的面向话题的多文档摘要的两个要求(话题相关性和信息多样性)之外,还要求应对用户对信息新颖性的需求。本文为更新摘要提出了一个新的基于热传导模型的抽取式摘要算法。具体而言,该算法通过设置句子网络上的热传导模型中的边界条件,自然地利用句子与话题之间的关系,新句子和旧句子之间的关系,以及已选句子和待选句子之间的关系,为更新摘要找出话题相关、信息多样且内容新颖的句子。因此,该方法能够在一个统一的模型中同时解决更新摘要所要应对的三个主要问题。在TAC09数据集上的进行了实验,ROUGE评价指标上的实验结果表明,该方法与参加TAC09更新摘要任务的表现最好的抽取式方法性能相当,且显著地优于其他基准方法。
更新摘要;
多文档摘要;
热传导模型;
抽取式摘要;
ROUGE评价;
83.
搜索词同现网络研究
罗准辰
;
王挺
《第六届全国信息检索学术会议》
|
2010年
摘要:
查询日志中的同现搜索词可以通过复杂网络进行刻画。本文基于Sougou 用户查询日志语料,建立了搜索词的同现网络。由于搜索词中包含了大量的人名,同样也存在着人物搜索词同现网络。本文对搜索词同现网、人物搜索词同现网和语言的同现网进行了复杂网络特性的比较分析,实验结果表明三种网络均呈现出小世界效应与无标度特性。
搜索词;
查询日志;
同现网络;
小世界;
无标度;
意见反馈
回到顶部
回到首页