首页>中文会议>工业技术>自动化技术与计算机技术>第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）

第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）

召开年：2006
召开地：济南
出版时间： 2006-07-21

主办单位：中国计算机学会;山东大学

会议文集：第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）论文集

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.支持向量机的文本自动分类研究
- 翁金象;马军;宋玲;山东建筑大学
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：通过试验表明支持向量机比K-最邻近法具有更好的分类能力,而且不同特征选择方法对支持向量机的影响要小于K-最邻近法.通过对支持向量机的特征的选择实验,表明一般应用CHI统计进行特征选择的分类精度最高.上述结果可帮助人们认识和正确使用支持向量机进行文本分类.
2.基于Web的文本挖掘研究
- 曹聪聪;康耀红
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：Internet的迅速发展,使得万维网成为一个巨大而丰富的信息平台,这个蕴含着丰富资源的信息空间为数据挖掘研究提出了新的挑战.从Web文本挖掘的研究背景出发介绍了Web文本挖掘的概念及其相关的研究主题:向量空间模型、特征项抽取、Web文本分类的概念以及Web文本分类模型,着重介绍了Web文本分类的几种分类算法.
3.构件技术在信息系统中的应用研究
- 邓君丽
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：探讨了一种基于构件技术的信息系统的开发方法,详细论述了构件设计的思想,给出了基于构件技术的信息系统的开发模型和开发的具体步骤,并据此模型设计实现了消防文书管理子系统,证明了利用构件技术开发信息系统是高质、高效的.
4.基于链接聚类的Shark-Search算法
- 苏祺;项锟;孙斌
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：根据对Shark-Search主题爬取算法的分析,提出了一种基于链接聚类的改进Shark-Search算法.并通过几个对比实验对该算法进行了验证.实验结果表明,新算法能够更有效地识别链接与主题的相关性.
5.模糊聚类算法在Web信息搜索中的应用
- 高翔;王敏
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：随着Internet的普及,Web信息量爆炸性的增长,数以亿计的Web页面形成了内容丰富而庞杂的WWW资源,如何从海量的数据中高效、高质量地检索到用户所感兴趣的信息资源是当前我国Internet资源挖掘的热点问题之一.将基于模糊逻辑的聚类算法FK-prototype引入到Web信息搜索中,改良了传统方法一刀切的分类处理方式,从而有效地提高了Web文档的检索质量.
6.智能化中文搜索引擎技术综述
- 刘忠宝;刘杰
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：随着Web信息量的迅猛增加,传统搜索引擎所查找到的结果精度不高,难以满足用户的需求,基于智能化搜索引擎技术的研究成为搜索引擎发展的新主题.在本文中,笔者对时下流行的中文搜索引擎技术进行了总结,并提出了一些心得、体会和设想,最后对智能中文搜索引擎进行了展望.
7.基于团的Markov网络信息检索模型
- 甘丽新;王明文;张华伟
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：在Markov网络检索模型中,通过对检索词子网络结构的分析可知,网络中的许多词构成完全图-团.在同一子团中的词构成一个形式概念.本文构造出一个从网络中提取团的算法,并且把基于词的检索扩展为基于形式概念的检索.实验表明,基于团的Markov网络信息检索模型优于BM25.
8.基于Petri网的简单手语词汇识别研究
- 彭小宁;湖南怀化学院;王磊;叶青;于述春
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：尝试使用Petri网进行简单的手语词汇识别.采用模板匹配方法检测到一系列简单的手势,如:手掌张开直立、握拳、伸出大小拇指.其中每个简单手势的发生对应于Petri网中的一个变迁.待识别的手语词汇是由一串特定的手势序列构成的,如:手掌张开直立-握拳-伸出大小拇指.通过Petri网记录手势的动态变化,并在每次新变迁发生时检测目标库所的标志增加情况,从而实现特定手语词汇的识别.
9.基于相关反馈的Web服务发现算法
- 齐艳;隋琪;王海洋
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：如何从相似服务中发现最优服务是Web服务研究中的一个重要问题.现有的Web服务发现方法大都没有有效利用系统积累的用户相关反馈.为了进一步提高Web服务发现的性能,提出了一种基于相关反馈日志在线分析的Web服务发现方法.该方法在语义的支持下,将用户的服务查询条件与反馈信息关联起来,合理的组织成反馈数据库,利用反馈数据库的信息,结合服务质量,查找最优服务.
10.面向中文问答系统的问句句法分析
- 张亮;中国科学院;江苏警官学院;王树梅;黄河燕;张孝飞
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：中文句法分析是汉语研究和信息处理中的一个关键环节,同时也是难点之一.探讨了中文问句的结构特征,在面向中文问答系统的问句句法分析算法中,运用语料库句法处理技术,并对问句长度短、含疑问词、有疑问结构句式等特点加以利用,初步实验结果达到了预期目标.
11.基于粒子群优化的快速KNN分类算法
- 张国英;沙芸;江慧娜
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了一种有效的快速k近邻分类文本分类算法,即PSOKNN算法,该算法利用粒子群优化方法的随机搜索能力在训练文档集中进行有指导的全局随机搜索.在搜索k近邻的过程中,粒子群跳跃式移动,掠过大量不可能成为k近邻的文档向量,从而可以快速找到测试样本的k个近邻.以Reuters-21578文档集分类为例验证算法的有效性,结果表明,保持k近邻法分类精度,新算法比KNN算法降低分类时间70％.
12.一种基于内容的广告垃圾图像过滤方法
- 许洋洋;袁华
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：垃圾邮件制造者为了躲避基于文本的垃圾邮件过滤器的过滤,常常将文字嵌入到图像中,产生了大量的广告垃圾图像.为解决这一问题,提出了基于图像内容的垃圾图像过滤方法.首先提取出图像中的文字区域,再利用广告垃圾图像中的文字区域特征进行广告垃圾图像过滤.实验结果表明利用文字区域特征过滤广告垃圾图像是行之有效的.
13.基于类别核心词的朴素贝叶斯中文文本分类
- 袁方;苑俊英
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用.在此基础上提出了基于类别核心词的分类模式,从标题、摘要及关键词中提取类别核心词,通过加权方式,强化它们在文本分类中的用.基于朴素贝叶斯分类方法的实验表明,提出的方法能够有效提高中文文本的分类准确率.
14.基于特征域词频的邮件过滤方法的研究
- 刘慧;山东大学;马军;雷景生;海南大学;连莉
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了根据邮件特征域信息和特征词频进行垃圾邮件过滤的新方法,并介绍在该方法中的文本特征选取、特征词典构造以及基于TF的权值计算等相关技术,以及改进的文本相似度计算概率模型.实验表明该方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善.
15.基于兴趣相似性的Web用户聚类
- 张文东;易轶虎
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：按照访问兴趣对用户进行聚类分析是Web挖掘的一项重要内容.在用户访问兴趣度量中综合考虑网页内容和浏览路径因素;在聚类分析中,依据访问兴趣定义提出新的相似度计算方法.利用传递闭包法对用户进行聚类.算法可以提高用户聚类的准确性,试验结果验证此算法是有效的.
16.基于谱图的维度约简及其应用
- 万海平;何华灿
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：为了提取主要特征和方便处理,大多数机器学习任务都要求把高维数据投影到低维空间.在这些拓扑空间中,数据对象的相似性一般由欧式距离来度量.讨论了对某些应用而言,相似性也可以以路径为指标来衡量,并且讨论了特征选取中局部和全局的关系.基于图谱理论,提出了一种结合路径特征和距离特征的维数约简方法,旨在发掘和保持原有数据中有意义的局部近邻关系.在信息检索和人脸识别的试验中,它取得了较好的效果.
17.一种基于关联规则的搜索引擎结果聚类算法
- 宋春芳;石冰
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出一种搜索引擎结果的聚类方法,采用关联规则方法确定网页文档中的显著短语,并把这些显著短语作为对相应聚类的描述,聚类中包含的文档就是显著短语所关联的文档,然后对形成的聚类按照相关度分数进行排队,最终把结果展现给用户.
18.基于加权策略的SVM多元分类器
- 曹鸿;董守斌;张凌
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：多元分类器通常需要在训练时间和分类精度之间折衷.提出了加权阈值策略和一对多分类方法的改进算法OVA-WWT,以增加结果融合的公平性,从而提高分类精度.基于OVA-WWT策略和SVMlight二元分类器,实现了基于SVMlight的多元分类器MSVMlight.在CWT100G数据集进行的实验表明,该分类器具有较高的分类精度以及较短的训练和分类时间.相同的数据集上的阈值策略选择实验也说明了加权阈值策略能提高分类精度.
19.基于URL类型优先级的入口页面查询算法
- 胡俊刚;董守斌;陈晓志;张元丰
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的.依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域,同时考虑到非内容网页优先级(URL-type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型.通过URL类型优先级(URL-type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系.据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub-page).对比实验数据表明,PERS算法对检索的性能有较大提高.
20.对数字化科技论文的自动分类研究
- 李森;马军;赵嫣;雷景生;海南大学
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.
21.基于本体语义的定题爬虫
- 郑健珍;林坤辉;周昌乐;康恺
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.
22.基于序列数据挖掘的中文网页特征选择方法
- 谷峰;刘晨曦;吴扬扬
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.
23.基于问题模式匹配的智能答疑系统原型
- 冼健;莫玄朗;奚建清
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：智能答疑系统是将学生的问题和老师的解答有机地组织起来并存放至相应的答题库中,通过自然语言的语义理解技术来分析并自动的匹配学生所提出的问题,自动地给予问题解答的系统.智能答疑系统能够给予提问者即时的回应,减轻教学人员的工作压力,在远程教学中具有重要意义.红棉智能答疑系统(原型系统)针对国内现有的智能答疑系统普遍存在的问题,借鉴了国外先进智能答疑系统的成功经验与设计理念,根据中文智能答疑的特殊需求,引入了基于概率的双向最大匹配分词算法、智能问题模式匹配、基于语义依存树的语义分析等技术进行智能问题分析,形成了具有更高答案召回率、合理性与正确性的新一代智能答疑系统.
24.基于SVM的句子组块识别
- 林煜明;李优
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：阐述了基于统计的SVM(支持向量机)模型的汉语句子组块识别.SVM模型使用已进行组块标注的语料,通过多种特征参数选择和多分类划分,对数据进行统计学习得到训练模型后实现.给出模型的算法和识别结果,分析了统计模型的特点.
25.基于互信息的粗糙集信息检索模型
- 付雪峰;刘邱云;王明文
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：在信息检索过程中,由于文档中存在大量的多义和近义现象,导致不确定性出现,这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息,对互信息做模糊聚类来构造词之间的等价关系,然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型,通过实验的测试,该模型能够提高信息检索的效率.
26.基于Markov网络的检索模型
- 曹瑛;王明文;陶红亮
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：基于Markov网络的信息检索模型提出一种贝叶斯网络推广的检索模型,该模型利用词项在文档集中的共现信息来构造Markov网络,通过该索引项子Markov网络来加载附加查询证据源,计算文档与查询之间的相关性概率,由此概率进行文档排序.实验结果表明,本文提出的Markov网络模型比其他传统的检索方法具有更优的检索性能.
27.基于分解的向量空间模型的Web新闻信息检索
- 王卫东;宋丹;宋人杰
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的.
28.基于随机森林的文本分类模型研究
- 张华伟;王明文;甘丽新
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.随机森林模型是决策树的集成,并且由一随机向量决定决策树的构造.当森林中决策树的数目增大,随机森林的泛化误差将趋向一个上界.将随机森林模型应用于文本分类,在Reuter21578数据集上的实验表明,分类效果比较好,性能比较稳定,将其同C4.5,KNN,SM0,SVM4种典型的文本分类器进行了比较,结果显示它的分类性能胜于C4.5,同KNN,SMO和SVM方法相当.
29.基于移动代理的传感器网络数据管理系统
- 张婷婷;李兵
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：在介绍传感器网络和移动代理概念及其技术特点的基础上,阐述了两者相结合的技术潜力,并参照美军提出的基于两者的信息融合系统,提出了一种基于移动代理的传感器网络数据管理系统,分析了该系统的特点,展望了该系统的应用及实现前景.
30.HITS算法的改进
- 万海平;何华灿;周延泉
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：Web文档的容量正以惊人的速度增长,而且这些文档的某些特性如超链接结构、质量参差不齐、时常发生变化等,都对传统的基于向量空间模型的信息检索技术提出了挑战.HITS是一种流行的为Web文档评分的算法.HITS也适用于处理任何文档间具有引用关系的文档数据库,而且HITS对计算资源的要求不高,这使得它在多种信息检索环境尤其是学术论文检索中很有吸引力.我们分析了这个算法的一些缺陷,提出了改进的方法,并讨论了如何为了学术论文检索对HITS进行定制.
31.基于新闻环境的人物肖像检索
- 王太峰;袁平波;荚济民;俞能海
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了一种基于新闻环境的人物肖像检索方案.该方案可从新闻中找到相关人物的描述,并以此作为人物的背景信息,对现有的通用图像搜索引擎的检索结果过滤,再通过人脸检测技术以及多煤体信息检索方法,最终找到新闻人物最佳的肖像图像,并在此基础上展示了一种新的互联网新闻表示方法.实验证明,该方法能够比较准确地得到新闻人物的肖像表示,而且以新闻人物的肖像作为互联网新闻表示中的一个补充对提高读者的新闻阅读兴趣和阅读效率都有一定帮助.
32.基于粒子群的SVM分类算法
- 江慧娜;北京石油化工学院;张国英
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了基于粒子群优化技术的SVM文本分类算法,即PSOSVM算法.SVM文本分类的核心是一个有约束的高维优化问题.该算法的基本思想就是利用粒子群优化算法来解这个高维优化问题,用粒子种群的有指导的随机搜索技术,在样本空间内并行搜索,降低了计算代价,提高了文本分类的速度.以Rrudters-21578文本集为实验对象,实验显示PSOSVM算法比SVM降低了学习时间.
33.高维数据挖掘在类星体与晚型星分类中的应用
- 孙玉辉;潘景昌
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：光谱分析是获取天体信息的重要渠道.天体光谱复杂多样,不仅有早型星、晚型星等恒星光谱,还有星系、类星体及其它种类的光谱,从数据挖掘的角度对不同光谱自动分类十分必要.基于高维数据的特点,从一般的数据挖掘流程出发,构建了一个星体分类的高维数据挖掘模型,并利用该模型分析了类星体与晚型星的光谱特征,采用统计学的方法,对这两类星体进行了分类.实验结果表明,该方法简捷高效.
34.基于混合式P2P的语义Web服务发现模型研究
- 耿少峰;曹渠江;张佳
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：Web服务是一些较为松散耦合的软件组件,可以通过Web来发布,定位和调用.如何在实际应用中快速发现用户所期望的服务成了摆在人们面前的一个重要课题.目前广泛应用的集中式Web服务发现体系结构不仅带来了一些安全性问题,而且限制了Web服务的缩放性和效率.设计了一个基于混合式P2P的语义Web服务的发现模型,不仅解决了集中式Web服务发现体系结构所带来的各种问题,而且使计算机能够理解数据的某些语义信息,从而使Web服务发现的可交互操作性得到了很大改善.
35.基于视觉的Web页面切割算法(VIPS)在搜索引擎中的应用
- 姜华;朱敏;陈斌
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了VIPS(Vision-based Page Segmentation)算法,充分利用了Web页面的布局特征,利用Web页面的视觉提示,并结合DOM树对给定网页提取语义结构,可以进一步提高搜索结果对用户查询条件的相关性,并在网页去噪方面得到应用,实验证明,该算法具有优越性.
36.面向互联网的内容安全技术综述
- 段宏;代六玲
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：互联网飞速发展的同时,由不良信息引起的互联网内容安全问题越来越引起人们的关注.对面向互联网的内容安全的研究进行了综述,分别从研究主题和支撑技术两个侧面讨论了目前用于内容安全的应用领域、路线方法和研究进展,并对今后的研究进行了展望.希望本文能对内容安全技术和系统的研究开发提供参考.
37.人工智能中推理策略对象化的应用
- 李曙歌;邱洪泽
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：应用面向对象的方法,将人工智能中的推理策略进行对象化,提出了统一的推理策略模型,目的是提高推理策略的应用范围和代码的重用性,降低推理策略维护的复杂度.此外在推理过程中加入操作阈值的概念和策略搜索的思想,对推理步数进行控制,对缓解时间复杂度和真值解精确度的矛盾问题上做了一些尝试.
38.基于粗糙集理论的聚类算法研究
- 杨兰仓;石冰;乔磊
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：在k-中心点算法的基础上,根据粗糙集中多属性的等价类求解方法,提出了1种聚类改进算法.该改进算法不仅解决了划分方法中聚类个数设置的不准确性,对于发现任意形状的聚类也是非常有效的.算例研究表明了该算法的有效性.
39.虚拟现实技术的发展演变及应用
- 王栋
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：从中国古代的有声风筝到现代美国飞行模拟器的发明,从虚拟现实的"Artificial Reality"到"Virtual Reality"、3个关键元素到3个基本特征的提出,文章从新的视角阐述虚拟现实技术的发展史及其理论形成;概括了VR发展的特点;提出了可以用一个通式来表达VR的属性.介绍了VR技术在医学、艺术、教育、军事、航天等方面取得的成果和应用.
40.一种文本与多媒体的检索方法
- 吴胜远
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了一种全新的文本与多媒体检索方法,既可实现各种对象的混合检索,又能实现对象的分类检索;可以检索中文字、词、英文文字、音频、视频和图像等各种对象,并能检索到不同层次上的对象,如一部视频,一个剪辑,或者是一帧视频;对于文字对象,可以实现字符一级,词一级,句子一级等的检索;还可以准确地检索多音字或者含有多音字的词.由于各种对象都采用编码方式存储,各种对象的组织、索引简单,能节省存储空间,检索速度快,且查准率高.
41.个性化URL评价系统模型及其实现
- 樊京鑫;顾兆军;王姣艳
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：分析了当前个性化服务的需求以及现存系统中的主要缺陷,以此为借鉴设计并开发了个性化URL评价系统.系统利用显式模式和隐式模式相结合的方法收集分析用户访问Web资源的行为特征和资源本身,建立和更新提出的用户兴趣URL库,然后在此基础上依据相应算法提供个性化服务.实验结果表明,系统有效地提供了搜索引擎检索结果的重排序和未浏览网页的兴趣度评价服务,在服务速度以及准确性方面都有着很好的表现.
42.多维数据立方体与信息抽取的集成
- 万海平;朱强生;何华灿;周延泉
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：数据挖掘已经成为提升行业竞争力的重要的信息技术,它综合运用机器学习以及信息科学的理论与技术,挖掘隐藏大量数据背后的模式与知识,为业务决策提供有意义的参考信息.目前仍存在许多遗留的信息系统,其中大量的业务规则是以自然语言描述的形式存储在数据库中的.在这类遗留系统上进行数据挖掘,就必须解决如何从这些不规则的自然语言描述中抽取信息的问题.我们讨论了如何从自然文本中抽取业务规则,为了将这些信息存储在多维数据立方体中,我们提出了一种利用多维索引建立多维数据立方体的方法.
43.一种问答式检索系统布尔查询生成方法
- 何靖
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：提出了一种基于简单语法分析的问答系统查询生成方法,利用对问题的词性标注,形成初始化布尔查询,根据查询结果文档集对查询迭代调整,最终产生合理的布尔查询.通过TREC2004和TREC2005的QA TRACK数据集上的实验,表明该方法在没有增加很大复杂度(平均迭代2.5次)的情况下大大提高了平均查准率,覆盖率和重复率.
44.局部核方法及其应用
- 万海平;何华灿;周延泉
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：核方法是机器学习中一种强有力的学习算法.多个领域的实践表明,通过将领域知识嵌入到核函数中,一般会得到比较好的学习效果.从微分流形的观点讨论了机器学习中全局信息与局部信息的关系,并提出了一种嵌入局部有意义信息的核方法.文本分类的实验结果表明,与其它几个分类算法相比,它具有较高的性能.
45.基于文本分块的多模板隐马尔可夫模型的文本信息抽取
- 王雷;清华大学;陈治平;清华大学;李志成
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.
46.一种基于语义的Web数据搜索引擎方法研究
- 石翌轶;炮兵学院南京分院;宋自林;尹康银
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：Web网上大量的异构、非结构化的教据使人们难以有效地发现自己所需信息.通过利用元数据和本体语义特点,借助Web服务技术,提出构建元数据登记库MDR和本体管理系统OMS,在分布式闭包生成基础上进行推理,实现基于本体表示语言RDF特性的Web数据搜索引擎SBWSE,达到分布异构环境下高效发现信息的目的,解决了基于关键词的搜索引擎所表现的查全率和查准率不佳问题.
- 元数据;
- 本体;
- 推理;
- Web服务;
47.基于大规模语料的新词语识别方法
- 施水才;俞鸿魁;吕学强;李渝勤
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语.根据此方案实现的系统,可以抽取不限长度不限领域的新词语.
48.基于粗糙集理论和BP神经网络的文本自动分类方法研究
- 白如江;王效岳
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：结合粗糙集的属性约简和神经网络的分类机理,提出了一种混合算法.首先应用粗糙集理论的属性约简作为预处理器,把冗余的属性从决策表中删去,然后运用神经网络进行分类.这样可以大大降低向量维数,克服粗糙集对于决策表噪声比较敏感的缺点.试验结果表明,与朴素贝叶斯、SVM、kNN传统分类方法相比,该方法在保持分类精度的基础上,分类速度有明显的提高,体现出较好的稳定性和容错性,尤其适用于特征向量多且难以分类的文本.
49.用于邮件过滤的标准样本生成系统研究
- 徐选;丁伟
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：由于缺乏标准的中文邮件样本集,无法评测不同垃圾邮件过滤系统的性能.通过分析邮件样本收集过程中存在的各种问题,研究了生成标准样本涉及的问题,设计了一个基于真实环境的标准邮件样本生成系统结构,并希望以此推出一个用于衡量邮件过滤系统性能的标准的邮件样本集,最终作为邮件过滤技术研究的基本语料.
50.最小方方法的一种优化方法
- 马嘉赛;张永军
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：数据立方体在许多多维数据的数据仓库的高速OLAP操作中扮演着重要的角色.但在许多高维的数据仓库的应用中,查询分析效率是个关键的问题.例如超过100维,大约106个元组.在这样高维情况下建立全物化数据立方体来减少分析时间是不可行的.利用最小方的方法可以在高维数据集上进行有效OLAP操作的方法.如果能根据查询分析的历史记录合理地为立方体的维分片,就能在相同空间复杂度的情况下提高OLAP操作的效率.
51.利用分块重要度进行中文网页分类的研究
- 段昕;马军;宋玲
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：由于网页中存在着许多"噪声"信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作.但网页可以划分成不同的块,对分类而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.
52.基于用户兴趣的个性化信息检索方法
- 张瑜;袁方
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：目前检索工具的设计大多面向所有用户,而不考虑用户个人的兴趣,导致查准率较低.由此提出一种基于用户兴趣的个性化检索方法.该方法利用ODP,把用户的兴趣映射到一个树形结构上,当用户提出查询时,根据用户的兴趣为其提供相应的检索结果.考虑到人类大脑周期性衰减的生理特点,使用户特征文件随时间动态更新.实验结果表明,所提出的方法能够基于用户兴趣实现信息的个性化推荐,从而更好地满足用户的需求.
53.基于结构与内容的网页主题信息提取研究
- 吴鹏飞;孟祥增;刘俊晓;马凤娟
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：结合HIML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.
54.文本分类中的类别信息特征选择方法
- 余俊英;王明文;盛俊
- 《第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006）》 | 2006年
摘要：随着网上电子文档的急剧增长,文本分类技术在信息检索中的应用变得日益重要.特征维数增加会使样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现"过学习"的现象.因此,文档特征的选择和提取是文本分类的必要前提.提出一种基于类别信息的特征选择方法,该方法在尽量保留文档信息的同时,考虑了文档的类别信息.实验表明,这种方法的分类性能比较好,特别是在微平均指标上,与OCFS以及卡方统计量相比有较大幅度的提高.