首页>中文会议>工业技术>自动化技术与计算机技术>全国第七届计算语言学联合学术会议

全国第七届计算语言学联合学术会议

召开年：2003
召开地：哈尔滨
出版时间： 2003-08-01

主办单位：中国中文信息学会;中国计算机学会;中国人工智能学会

会议文集：语言计算与基于内容的文本处理

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.面向TDT的主题相似性计算模型
- 朱靖波;陈文亮;姚天顺
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：TDT的研究内容可以分为五个技术任务,本文主要研究第五个技术任务Linking,即面向TDT的事件主题相似性分析技术.研究目的在于力求寻求一种有效的分析技术,针对不同两个文档,识别文档内容所涉及到的事件主题是否一致.分析过程分为两步:(1)采用FIFA模型进行内容主题识别;(2)采用LDM模型进行事件主题相似性计算分析.最后根据实验结果评估两个模型的性能.
2.主题Web信息采集的研究与设计
- 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：主题Web信息采集是信息检索领域内一个将采集技术与过滤方法结合的新兴方向,也是信息处理技术中的一个研究热点.本文分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计了"天达"主题Web信息采集系统.
3.花园幽径句的某些形式特性
- 冯志伟
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文分析了英语和汉语中的花园幽径句,结合作者提出的"潜在歧义论",指出在潜在歧义结构转化为现实歧义结构的过程中,往往容易导致花园幽径句.文章分析了花园幽径句的三个句法语义特性.
4.面向真实文本的汉语词义排歧模型研究
- 杨尔弘;李盛
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：词义排歧是计算语言学的一个基本任务,它的解决往往需要多种知识的结合.本文提出了一种综合运用多种知识的词义排歧模型.使用的知识包括:《知网》知识系统、搭配实例库、动态角色列表、属性和事物关系、义原关系等.基于统计的方法,选取适当的词义颗粒度,本文尝试对文本的名词、动词、形容词进行词义排歧.实验结果得到了比限制在有限词集系统好些的排歧结果.
5.属性分析说略
- 陈小荷
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：中文信息处理的关键是语义的形式化,属性分析在语义形式化的研究中可扮演重要角色.本文探讨属性词语和表值词语的语言学性质,属性分析的基本内容、目标和研究方法,并从中文信息处理的角度论述这一理论性课题的研究意义.
6.定语类型和槽关系类型的对应及其对名词语义分析的作用
- 张卫国;梁社会
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：在名词短语中定语的类型和名词槽关系研究成果的基础上,首先研究了各种类型的定语与槽关系类型的对应,然后探讨了这种对应在名词短语语义解释上的作用.
7.基于统计的汉语词汇间语义相似度计算
- 关毅;王晓龙
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：语义相似是词汇间的基本关系之一,汉语词汇间语义相似的定量化研究对于信息检索、统计语言模型等自然语言处理的应用技术具有重要的指导意义.本文定义了语义相似度的数学模型,进而描述了基于相关熵的汉语词汇间语义相似度计算方法.初步实验表明,该方法是一种理论基础严整,实践上行之有效的方法.
8.介连兼类词'以'的句法语义区别特征及消歧策略
- 方向红;宋春阳
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：介连兼类词的词性消歧是中文人息处理难题之一.本文借鉴了汉语史研究的成果,指出介词"以"从动词虚化而来,因而继承了动词的语法特征,如介宾结构前面可有副词、助动词、连词等附加成分,并分析了"以…为…"的两种格式义及相关的名词、形容词的语义特征.分析了连词"以"连接的分句S1、S2中动词的语义特征.据此提出一些具体的消歧策略,目的在于为自动句法分析、话语分析、机器翻译等提供语言学的支持.
- 以;
- 介词;
- 连词;
- 虚化;
- 兼类消歧;
- 语义特征;
9.基于类义抽象的汉语复合词义的求解模式探索
- 宋春阳;陆汝占;方向红
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：文章以内涵逻辑理论为指导,吸取训诂学精华,通过提取词的抽象类义来把握词的语义结构,以达到使汉语语义分析和解释形式化的目的.文章首先分析了未登陆词语义的求解困难,由此提出运用抽象类义求解复合词义的策略,论述了抽象类义的原则、操作方法.最后通过词语"关"验证了由抽象类义求组合义的模式.
10.标注语料机器校对的研究与实践
- 曲维光;陈小荷
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文讨论了标注语料校对的质量评价准则,并依此准则对经过机器标注和人工校对后语料的机器自动校对进行研究.利用预处理、基于统计和基于规则的校对过程来提高语料质量.通过实验证明,该方法不仅可以提高机器标注和人工校对后语料的质量,而且对标注语料的机器自动校对也有很好的效果.
11.双语语料库段落重组对齐方法研究
- 李维刚;刘挺;王震;李生
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：网络上存在的大量双语资源,给构建大规模双语语料库提供了可能.双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视.针对目前可收集到的双语资源大都没有做到段落对齐,本文结合基于句子长度和基于词典的两种经典对齐算法思想,充分利用双语文本中的句子在整个文本中的位置信息,在(1:1)型句珠里选取锚点,并根据双语文本特征引入一部双语词典进行校验,从而获得分段的锚点,实现通用的段落重组对齐.
12.蒙古语语料库建设现状分析和完善策略
- 华沙宝;巴达玛敖德斯尔
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文对现代蒙古语语料库的语料做了分析,指出了语料的种类、规模、各类标记和标注加工等方面存在的问题,提出了将要采取的完善策略和近期达到的建设目标.重点建设蒙古语单语语料库,还要建立汉蒙并行语料库.
13.现代汉语述语形容词机器词典的研究与实现
- 尹一瓴;陈群秀
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：现代汉语语义知识库是自然语言处理过程中汉语语义资源的重要工程之一.目前,已经完成了现代汉语语义知识库的三个组成部分:《现代汉语述语动词机器词典》、《现代汉语名词槽关系机器词典》和《现代汉语语义分类系统》,在此基础上本文描述了现代汉语语义知识库另一重要组成部分《现代汉语述语形容词机器词典》的研究与实现.
14.知网知识库描述语言
- 郝长伶;董强
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文概述了知网知识库描述语言KDML(Knowledge Database Mark-up Language)的发展,着重介绍了知网知识库描述语言2002版的语法规则,概念描述方式,及其在意义计算中的优越性,以便使知网的使用者对新版知网知识库描述语言有更加清晰的认识,拓宽他们的思路,为他们利用知网知识系统进行自然语言处理提供更好的帮助.
15.汉语粘合式名词短语语义结构信息数据库
- 胡凤国;傅爱平
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文选择汉语短语的一个小类——含有事件类词语的粘合式名词短语——作为切入点,在有限语料的范围内,相对穷尽地描写这一类NP的语义结构,着重考察语义关系,建立了一个小规模的语义结构信息数据库,并提供查询工具.希望通过相当数量的实例,验证汉语语法研究中某些定性分析的结果,或者发现新的语言现象和规律,并使其在自然语言信息处理中可以应用.
16.《信息处理用现代汉语分词词表》规范
- 孙茂松;王洪君;董秀芳
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文给出我们为建立国家标准《信息处理用现代汉语分词词表》而制订的规范(草案),目的是广泛征求意见,引起讨论,以期改善之.
17.基于Link Grammar的英蒙机器翻译系统
- 敖其尔;王斯日古楞;吉日木图
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文探讨了基于Link Grammar的英蒙机器翻译系统的设计与实现算法.文章介绍了英文和蒙文的机器翻译相关基本知识,英蒙机器翻译主要难点和实现方法.最后,举例说明了实现机器翻译的全过程.
18.机器翻译中汉语词节点的识别
- 王厚峰
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：汉语词节点的识别包括纯切分歧义消解、命名实体识别和缩略语的辨识等,被认为是中文信息处理的困难问题.为了考察难点所在,我们测试了两个机器翻译系统识别词节点的性能.结果表明,命名实体和缩略语识别错误是词节点识别错误的主要来源.本文对此作了评估和讨论.
19.基于锚词对的英汉双语语段对齐模型
- 吴尉林;屈刚;陆汝占
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：对双语语料库进行语段级对齐是基于实例的机器翻译(EBMT)的基础.本文提出了基于锚词对的英汉双语语段对齐模型并给出了相应的对齐算法,解决了中、小规模语料库的数据稀疏问题.系统把语段切分的歧义推迟到语段对齐时排除,提高了语段切分的正确率.试验表明模型具有较高有效性.
20.基于信息熵的候选实例模式检索算法
- 张孝飞;陈肇雄;黄河燕;俞旸
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：EBMT系统通常都需要有一个非常大的实例模式库,如何从中高效地选出一定数量的对后续类比翻译最有帮助的候选实例,是任何实用EBMT系统所必须解决的一大难题.文章基于句子的词表层特征和词信息熵提出了一种多层次候选实例模式检索算法.通过在实际系统上的运行测试,结果表明该方法较好的解决了候选实例模式检索这个难题.
21.面向机器翻译的日语形态素解析方法
- 隋福民;黄德根
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：日语形态素解析是日文信息处理特有的研究课题,也是语言信息处理领域中最成熟的技术之一.针对机器翻译的特点,提出了一种面向机器翻译的日语形态素解析方法.该方法采用最长次长匹配法建立切分路径有向图,运用用言活用匹配及品词接续等语法规则进行歧义的解消.
22.机器翻译测评结果的一致性
- 曹冬林;李堂秋;史晓东;蔡经球
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：机器翻译是人工智能领域中一项有挑战性的研究课题,而对机器翻译系统的测评也越来越受到重视.但机器翻译测评往往忽略了测评结果的一致性.为了定量地分析测评结果的一致性,本文提出了采用计算数据前后的变化趋势的方法,对测评结果进行一致性分析,从而说明测评结果的客观性和公正性.
23.典型参数平滑算法在词性标注中的性能评价
- 朱莉;孟遥;赵铁军
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：随着统计技术在自然语言处理领域的兴起,在语料理规模有限的情况下,参数平滑作为解决数据稀疏问题的主要方法显得十分重要.本文分析了几种常用参数平滑算法的优劣,在英语词性标注中比较了这几种算法的平滑效果.实验表明:在语料规模有限的情况下,线性插值和Katz's回退平滑较优.本文通过在相同环境下对各算法的平滑效果的研究和实验,旨在为大家提供一个选择平滑算法的借鉴.
24.TREC2002介绍及清华大学实验研究
- 张敏;马亮;马少平;陈群秀
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：文本信息检索会议(TREC)是由美国国家标准技术局和美国国防高级研究计划局组织召开的一年一度的国际标准评测会议,在文本信息检索领域规模最大最具权威性并深有影响.本文主要介绍TREC2002中的三个主要项目:Web检索、新信息抽取和自适应文本过滤.介绍从项目背景、主要任务、测试数据、评价方法和评测结果几个方面展开.同时对在该评测会议中取得好成绩的清华大学在三个项目中使用的主要研究思想和方法进行介绍.
25.规则和边界统计相结合的英语基本名词短语识别
- 梁颖红;赵铁军;翟舒
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：基本名词短语识别在自然语言处理领域具有重要作用.本文以英语基本名词短语识别为目标,采用规则和边界统计相结合的策略识别英语基本名词短语,把基本名词短语识别分成依规则标注和用边界概率校正两个过程,通过对规则标注结果边界的修正,在一定程度上弥补了上下文无关规则不能解决边界歧义的缺点.与基于规则的方法相比,本方法可以在召回率没有明显下降的情况下大幅度提高基本名词短语识别的精确率.
26.基于浅层分析的网页相关度研究
- 昝红英;苏玉梅;孙斌;俞士汶
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.
27.面向双语句对检索的汉语句子相似度计算
- 车万翔;刘挺;秦兵;李生
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：在基于大规模的双语句对语料库的英文辅助写作系统中,我们采用了一种改进编辑距离的句子相似度计算方法,即对以往的编辑距离算法进行适当的调整,考虑了更多的汉语结构信息,使之更加符合汉语的句子相似度计算.同时使用了HowNet和《同义词词林》两部语义辞典作为语义资源,计算词汇之间的相似度.改进编辑距离的算法与单纯基于语义辞典计算句子相似度的算法相比,具有便于扩展,准确率高等优点,在英文辅助写作领域取得了令人满意的效果.对其进行适当的改进后,可适于多数需要计算句子相似度的应用领域.
28.一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用
- 张鑫;程学旗;谭建龙;王映
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文提出了一种快速的多模式串匹配算法,并且将它应用在实时汉语文本分类系统的文本向量化中.本文对比了匹配算法和传统的分词方法这两种文本向量化方法,衡量了使用这两种方法生成向量的相似度和所需时间,并且分析了产生差异的原因.实验结果说明使用多模式串匹配算法能够极大的缩短生成文本向量所需时间,并且使用向量的夹角余弦值衡量两种方法生成的向量有平均97.4％的相似度.
29.一种自适应概率语言模型的训练方法及其应用于中文分词
- 徐志明;揭春雨;Jonathan Webster
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文提出一种自适应的概率语言模型的训练方法,采用EM迭代优化算法在未切分的语料库上训练概率语言模型的参数.本文用该算法训练了中文的基于词的N-gram模型,并应用于概率分词.实验结果显示,该算法能显著地改善汉语分词的精度.
30.使用互信息辅助在篇章范围内识别命名实体
- 郭志立
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：识别命名实体(本文指专有名称、未登录普通词和篇章术语)是中文处理的一个重要问题.本文采用篇章内统计的方法,计算文本文档初步切分后任意两个邻接项(包括词和落单字)的互信息,以此作为判定这两个领接项是否可能形成新的命名实体的依据.对于可能形成新命名实体的串,继续利用互信息并结合构词法向左右两个方向扩展来确定其边界.最后根据串的内部构造和篇章上下文确定命名实体的类别.
31.汉语机构名的构成模式
- 雷静
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：机构名识别是未登录词识别的一个难点.本文探讨了在机构名识别中以机构名通名为激活信息,匹配通名对应的机构名模式来进行机构名识别的方法.提出了五个大类的机构名构成模式,并以此为依据,进行了机构名识别策略的设想.
32.话题检测与跟踪技术的发展与研究
- 骆卫华;刘群;程学旗
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文介绍了话题检测与跟踪技术的由来和发展历程,并展望其应用前景,同时比较系统地介绍了现有的话题检测与跟踪系统主要采用的方法,并对其效果进行了比较.
33.人机口语对话系统中否定结构的处理
- 郭荣;高峰;毛家菊;陆汝占
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：否定结构在口语中非常普遍,因而针对这种结构的处理在人机口语对话系统中具有实际意义.本文以口语对话系统的需要为基础,根据语义特征对否定结构分类,给出确定否定焦点的具体算法——对比法.测试结果正确率达到了80％以上,表明上述方法在获取否定结构的语义特征上具有良好的性能.
34.基于动态知识库的问答系统研究
- 王树西;刘群;白硕;王斌;程学旗;姜吉发
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：问答系统有着较长的历史.本文在综述现有问答系统的基础上,提出"动态知识库"的概念,并基于此,搭建了"亲属关系问答系统",在知识获取、问答系统发展趋势等方面,进行了一定的探索.
35.基于多路差别子空间的语速变化语音的识别
- 吕成国;韩纪庆;王承发
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：目前,对正常情况下的语音识别技术的研究已经做了很多,但是针对变异语音识别的研究做得还很少.语速变化是发音变异的一种,本文建立了快、慢和正常语速的语音库,运用差别子空间方法对语速变化的语音进行了训练和识别,并对其进行了改进,提出了多路差别子空间方法.实验结果表明,这种方法对语速变化的语音有良好的识别效果.
36.基于语义依存关系的句子理解模型
- 李涓子;王作英
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：句子中词与词之间的远距离关系和句子意义的理解是建立语言模型的中两个重要问题.本文依据依存语法理论,用语义依存关系序列表示句子中词之间的句法语义关系,该方法可以减少人工标注句子语义结构时使用的时间;在此表示方法下,本文提出一个基于语义依存关系的句子理解模型,模型可以解决词之间的远距离依存关系和句子意义理解问题.
37.基于格关系和配价的藏语动词再分类研究
- 陈玉忠;李保利;俞士汶
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文着重介绍了我们根据研制藏汉机器翻译系统的实际需要,在采用传统语法对藏语动词的已有分类基础上,采纳格语法和配价理论的合理思想,结合藏语的格接续特征,通过每个动词的配价信息以及所能携带的相应的格助词类型(格标)及其数量来对藏语动词进行再分类,从而形成一个集语法语义为一体的藏语动词再分类框架.
38.几种汉语移位现象的HNC研究
- 雒自清;郝惠宁;温锁林;张克亮
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文运用HNC理论的相关概念,对汉语的几种移位现象进行了一次全新的论述.就语义块的完全移位和部分分离现象,按照深层语义结构是否发生变化进行了分类,着重从语义块的分离、格式、句类的转换方面进行分析,得出结论:有些移位现象只是句子表面的变化,有些就改变了句子的深层语义结构.并且这些移位现象可用句类表示式及相关符号形式化地表示出来,便于计算机处理.
39.基于Bootstrapping的领域词汇自动获取
- 陈文亮;朱靖波;姚天顺;张宇新
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：领域知识获取是文本处理技术中的一个瓶颈问题,本文提出一种领域词汇的自动获取方法.该方法采用Bootstrapping的机器学习技术,从大规模无标注真实语料中,自动获取领域词汇知识.该方法独立于具体领域,移植性好.文中给出了该方法的详细描述.最后,根据实验结果,对该方法的性能进行评估.实验结果显示,从人民日报语料中学习效果比专业领域语料好.
40.文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思←→文本》模型评介
- 易绵竹;南振兴;李绍哲;薛恩奎
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：20世纪60年代中期,由前苏联学者伊戈尔·梅里丘克等创立的《意思←→文本》模型是一种研究意思及其表达形式(文本)之间双向对应关系的语言学理论,其目标是模拟人的语言能力—文本的生成与理解机制,其基本思想成为随后兴起的莫斯科语义学派的方法论纲领.近年来,该模型受到国际学术界的广泛关注,并成功地应用于词典编纂和机器翻译设计.在本文我们将着重介绍该模型的理论框架及其主要构件,这对于我国计算语言学的基础研究必有助益.
41.流通度—字词使用情况测定的新方法
- 郑泽之;王强军;张普
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：流通度理论是由张普教授提出的,是对字词的使用情况进行多层次信息分析加工的一种动态的方法.我们使用流通度的方法对北京语言文化大学网络教育学院DCC博士研究室的大规模动态流通语料库的汉字使用情况进行了统计,在此基础上给出了统计结果的分析.并由此阐明流通度理论及其加工方法是对语言文字使用情况进行研究的一种行之有效的、直观快捷的新方法.
42.TREC自适应信息过滤中的目标优化技术研究
- 许洪波;王斌;程学旗;白硕
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：TREC是信息检索领域最重要的国际评测会议,自适应信息过滤是TREC的关键任务之一.自适应阈值调整中评测指标的优化是自适应过滤任务中非常重要的研究方向.我们借鉴优化学习的思想,以TREC的评测指标为目标函数,提出了针对全程和局部效用指标进行优化的阈值调整方法,并对两种方法的优缺点进行了比较分析.实验表明,我们提出的局部效用指标优化方法是非常有效的,在TREC-10和TREC-11过滤任务评测中取得了成功.
43.模式匹配和句型成分分析相结合的语法错误自动检查
- 龚小谨;罗振声;骆卫华
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文将中文文本的语法错误分为搭配错误和与句型成分相关的错误两大类.分别采用模式匹配和基于句型成分分析的方法进行检查,这两种方法的结合,可以同时考虑局部和全局的语法限制信息,并且降低了语法检查的复杂度.通过对实验结果的分析和评测,证明本文所述的方法是可行的.
44.时间短语的分析与识别
- 刘智颖
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：时间短语是指描述时间概念的短语.在HNC理论中,时间概念大致可分为三种类型:基本时间概念,物化的时间概念,人化的时间概念.并依据语义将时间短语分为四种基本类型:特定时间短语,特殊时间短语,时间的序短语,时间间隔短语.本文给出了各个类型的构成模式,探讨了时间短语的处理策略.
45.浅析'体词'的'动词'兼类现象
- 韦向峰
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文介绍了HNC理论所定义的体词、动词及体词的动词兼类现象,分别从特征语义块的复合构成、对仗性组合、"的"字否定和某些特殊类概念等方面给出了消除体词的动词兼类的一些规则,最后给出使用这些规则的总策略和实验所得的数据.
46.面向计算机的二重复句层次划分研究
- 李晋霞;刘云
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：多重复句结构层次的自动分析是篇章计算语言学需要解决的一个重要问题.本文依托复句本体研究的现有成果,重点考察复句关系词语的包孕机制对二重复句结构层次自动分析的辅助作用.这种考察对于二重以上复句结构层次的自动分析也有一定的借鉴意义.
47.现代藏语的句法组块与形式标记
- 江荻
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文定义和描述了现代藏语句法组块的基本类型以及相关的形式标记,并在此基础上提出藏语自动分词的组块方法.而实施组块分词方法的措施包括按照一定顺序原则识别组块的形式标记,通过各类标记函数集、辅助词表,以及从组块中抽取的锯法信息确定组块的边界,然后对组块进行分词和词性标注.进一步的设想是对组块进行归并,使其与藏语句法成分形成一致关系,达到消除嵌套组块和利于句法理解的目的.
48.基于DCC的流行语动态跟踪与辅助发现研究
- 张普
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文介绍了基于DCC(Dynamic Circulating Corpus动态流通语料库)的流行语动态跟踪发布研究的基本情况.着重介绍了流行语的界定与特点,流行语的动态曲线特点和意义,计算机辅助发现的可能等.最后还指出今后的研究目标与方向.
49.基于标引技术的特定领域XML文本自动生成
- 刘桐菊;于浩;赵铁军
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：XML语言的一个突出的优点就是可以成功的解决资源共享问题,给人们的科学研究带来了广阔的发展前景.针对目前手工完成XML转换这一现状,本文将自动标引技术引入,先对文献进行标引,提取出关键词、主题词、相关人物、机构等重要信息,然后自动生成XML文本.进行自动标引时,采用了改进的TFIDF算法,针对金融领域进行了试验,给出了结果并对后期工作进行了展望.
50.汉语分词在机器翻译评价中的影响
- 徐冰;姚建民;杨沐昀;赵铁军
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：机器翻译评价对机器翻译系统的发展有重要的推动作用.本文针对目前流行的IBM提出的机器翻译自动评价方法,探讨了分词信息对于外汉机器翻译评价的影响.实验结果证明在评测汉语译文中用汉语分词方法将提高自动评测的准确度.
51.俄语句法结构的模式化描述及操作原理
- 傅兴尚
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：句法结构的识别是解读句子意义的重要因素,所以,句法分析是自然语言处理的重要环节.本文从俄语作为典型屈折语这一个性特征出发,本着和汉语契合与对接的原则,探讨与俄语自动句法分析相关的几个问题:句法结构的类型:模式化描述的内容和形式:基于这种模型的操作原理.
52.基于《知网》的中文语块抽取器
- 董强;郝长伶;董振东
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：我们根据"中文信息结构"的理论,以《知网》和《知网-中文信息结构库》为主要资源,开发了中文语块抽取器.本文简要的介绍了中文信息结构的理论,重点说明了中文语块抽取器的工作原理、过程、实现方法及其独有的特征.重点包括以下几个方面:切分、组词、消歧和中文语块抽取以及本系统重要的组成部分—信息结构解析器.中文语块抽取器将可用于中文文本的部分分析,计算机辅助的中文语块库的建设,结构和语义消歧,以及将可成为信息抽取(如实体、事件等)的工具.
53.隐马尔可夫模型和贝叶斯模型词义消歧对比研究
- 丁江伟;刘挺;卢志茂;李生
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：词义消歧是自然语言处理中的一个难点和热点问题.现阶段,多义词消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,与实际应用还存在一定的距离,作者针对真实的应用情况,对大规模广西进行了词义消歧研究.本文比较了两个经典的统计模型解决大规模的词义消歧难题的优缺点,一阶隐马尔可夫模型考察了邻接的上下文,有些时候距离歧义词较远的词语往往对词义的确定起着至关重要的作用,所以这种方法的消歧正确率比较低,开放测试在85％左右;单纯贝叶斯概率模型的消歧方法在抽取上下文特征时加大了上下文的窗口,使与多义词消歧相关的信息充分考虑进来,这种方法的开放消歧正确率最高可达92％,消歧效果明显.由此证明了贝叶斯模型词义消歧的有效性和比较优势.
54.利用语义特征生成搭配
- 赵晨光;蔡东风
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文提出了一种在建立搭配模板的基础上,通过对搭配词对进行基于语义相似性的替换,衍生出更多搭配的设计思想,初步实验结果表明这是一种有效的扩充词语搭配库的方法.
55.基于情景理论分析VA-语句
- 毛家菊;高峰;陈秋林;陆汝占
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：含述补结构V+Adj结构的VA-语句因其结构相同而语义却非常复杂成为汉语计算语义学的一个难点.本文首先考虑VA-语句的意义,把由动词组成的句子称为V-语句,把由形容词组成的句子称为A-语句,指出VA-语句中动词和形容词在作为谓词组成的句子的区别:作为属性的形容词强调的是主题,而动词强调的是全句.同时本文使用情景语义学中命题的细致分析给出上述区别的形式化表达.本文认为动词对应于情景理论中的谓词的关系,而形容词则对应于谓词类型,然后给出语义指向的形式化模型,并通过语义指向分析获得VA-语句中形容词的直接语义关系.最后,本文举例给出了VA-语句中的分析方法,该分析方法能在分析过程中辨别述补结构中存在的歧义.
56.谓词带定式的配价研究
- 王治敏;李勉东
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文从"配价"的角度考察和分析以谓词为中心的名词性偏正短语,即谓词带定式,并对其定语的语义类型,进行全面探讨,以期拓展和加深对此种现象的认识.同时也考察了谓词带定式的配价要求.从而进一步考察述语动词对充当宾语的谓词带定式的选择限制.并结合汉英机器翻译的实际需要,对部分研究成果在翻译系统词典中加以形式化.
57.对自动分词的反思
- 黄昌宁;高剑峰;李沐
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：自动分词是中文信息处理诸多应用系统的一个不可或缺的模块.二十年来国内外许多研究人员曾经在这块土地上辛勤耕耘,并取得了一定的成果,但从实用化的角度上来考察仍不尽人意.本文通过对自动分词任务的定义,分词歧义消解知识的调查,以及在统计语言模型的统一平台上实现自动分词,说明面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上不同于面向人的语言知识,也不是传统的句法-语义知识所能覆盖的.重新审视我们在自动分词乃至中文人息处理整个领域的思维模式和技术路线,实属必要.
58.现代汉语语料的句子级语义标注
- 苗传江;刘智颖
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文讨论了一种标注现代汉语语料的方案,它有两个特点:一是采取自下而上的标注方式,即先标注大的语言单位,再标注小的语言单位;二是对句子进行语义标注,标注了句子及句内子句的语义类型和它们的下一级语义构成成分.按此方案建立的语料库是现代汉语句子语义研究和处理的重要资源.
59.大规模非限定领域汉英双语语料库建设及句子对齐研究
- 刘非凡;赵军;徐波
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已有的双语语料库尤其是汉英双语语料库的规模不大,加工规范不统一,没有形成能够公开使用的通用双语语料库.本文工作在国家973子课题支持下,遵循中文语言资源联盟(ChineseLDC)资源共享的宗旨,参照都柏林核元数据元素集制定了双语语料文本标注规范,并对非限定领域双语句子自动对齐技术进行了研究,为大规模建立具有统一标准和规范的、多领域、多体裁、句子级对齐的双语语言信息和知识库奠定了坚实的基础.
60.现代汉语语义词典(SKCC)的新进展
- 王惠;俞士汶;詹卫东
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要："现代汉语语义词典"(SKCC)是一部面向中文信息处理的语义知识库,1998年底完成一期工程,收词48,835条.从2001开始,北大计算语言学研究所与中文系合作进行SKCC的二期开发.针对机器翻译的需要,对原有的语义分类体系作了较大改造,语义属性描述也得到全面修订,并新增了1.8万常用词语,以及大量的词义解释与真实用例.目前,顺利完成了6.6万多词语的语义归类及组合搭配信息的填写与校对.整个词典的规模和质量有了显著提高,可为计算机语义分析提供更强有力的支持.
61.基于知网的相关概念场的构建
- 董强;董振东
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：词语的相关性及其知识的获取是人类语言技术研究中的热点之一.国内外关于这个方面以及与之相关的研究已有不少的报道.我们利用知网知识系统在这方面做了有意义的研究,提出了相关概念场的概念,构建了知网相关性激发器,取得了令人满意的结果.本文讨论了词语相关性与词语相似性的不同和词语相关性与概念相关性的不同.本文阐明了相关概念场的理念,介绍了它的实现的原理、方法,以及它的潜在的应用.
62.《中国大百科全书》人物传记知识提取加工规范
- 颜伟;王洁;尚英;宋柔
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：将百科辞典中的知识形式化,是使用计算机进行知识服务的根本基础.目前的主要方法是在人工建立语言知识库的基础上计算机对于词条释文进行句法语义分析,或者直接由知识专家对词条释文进行形式化改写.这两种方法都需要大量的高级人力的投入.我们试图用计算机自动提取百科辞典中的知识,主要思路是降低要求,只提取有充分的、明确的形式特征的显性知识,并且先由人工模仿计算机进行提取,建立起显性知识的数据库,供计算机系统进行训练和测试.本文详细介绍了百科辞典中人物传记条目释文中显性知识的表示规范,包括知识点的取舍,简单知识和简单知识组的形式化表示方法,以及显性的复杂知识的提取方法.
63.哈工大自然语言处理研究进展
- 李生
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文阐述了自然语言处理的研究的重要意义,介绍了哈尔滨工业大学在自然语言处理领域的研究历史和研究现状,并综述了哈工大在该领域各方向的研究进展.
64.基于翻译记忆库与基于规则的汉维-维汉机器辅助翻译系统方法与框架研究
- 吐尔根.依布拉音;艾尔肯.伊米尔;阿布力米提.阿不都热依木
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文描述一种基于翻译记忆库和基于规则相结合的方法,对维汉-汉维辅助翻译系统翻译记忆库的框架的构建,维汉-汉维实例的对齐、组合、检索、译词选择、库的扩充,与基于规则翻译引擎的接口等问题作了探讨.提出了基于翻译记忆库与基于规则的汉维-维汉机器辅助翻译系统初步解决方案.
65.基于汉英机器翻译的名词回指分析——句组研究之二
- 侯敏;孙建军
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：回指是语篇衔接的重要手段,其中名词回指对机器翻译会产生一定的影响.本文在详细分析各类名词回指的基础上,指出其中三类对机器翻译造成的障碍,并提出在句组层面上解决这些问题的算法.
66.一种汉英翻译模板提取方法
- 杨二宝;吕学强;朱靖波;姚天顺
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文定义了一种汉语翻译模板,并在此基础上提出了一种从语料库中自动学习模板的方法.该方法用语义分类体系约束模板变量,并引入了模板抽象度的概念,以保证模板的正确性.加入基本名词短语的捆绑,和单语语料中的覆盖度统计信息,从而增大模板的覆盖度.在法律领域的试验结果表明,这种方法生成的翻译模板质量具有很高的实用价值.
67.汉语和英语逗号的对比分析及其翻译处理
- 张全
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：逗号在书面语表达中起着非常重要的作用.汉语和英语的逗号用法有差异,翻译中逗号处理不当会严重影响译文质量.因此,在机器翻译中需要对逗号进行相应的处理.本文运用HNC的视点对汉英两种语言中逗号的用法进行了详细分类,结合真实语料调查了各种用法的分布情况,对比研究了两语种中逗号用法的异同.同时,本文调查了汉英对照语料中逗号主要用法的对译情况,并给出了汉英逗号的翻译准则,统计数据与准则符合.
68.基于CFC(正确性信心指数)的学习型可信赖机器翻译系统
- 李应潭
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文阐述基于正确性信心指数(CFC)的学习型可信赖机器翻译系统(TMTSoLA)的基本理论问题——CFC在TMTSoLA里的地位和作用问题.讨论了二分数制和百分数制这两种CFC策略,指出CFC与传统翻译系统的翻译正确率(CF)存在本质区别,但是对于施行百分制CFC策略的TMT系统而言,它的CFC在计算方法上却与CF有相似之处,但施行百分制CFC策略的TMT系统与非可信赖机器翻译系统的操作仍有本质的区别.CFC是针对各个层次的具体语言对象计算的,而CF却没有具体语言对象针对性.为了能够计算出针对各个层次具体语言对象实际翻译算法的CFC,TMT系统必须具有具体的词语、句型和数据驱动的翻译模型,而不是笼统的翻译模型,否则CFC将失去意义.最后还论述了CFC与内嵌学习方法的本质联系.
69.Web关键资源发现中的链接分析技术
- 刘悦;王斌;杨志峰;张鑫
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：Web关键资源发现是指在Web数据中发现与主题相关的关键资源(key resources).研究表明,关键资源不仅与网页的内容有关,还与网页间的链接结构紧密相关.本文研究如何有效地利用链接分析算法来发现关键资源.在著名的HITS算法的基础上,本文给出了改进后的三个应用方案.在TREC的WT10G数据集合上进行的初步实验表明,改进的算法可以提高关键资源发现的准确性.
70.汉语组块的定义和获取
- 李素建;刘群
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义.本文总结了当前对组块的各种研究,对汉语组块进行了定义.同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块.本文根据汉语特点提出了12种汉语组块类型,并根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化获得组块库.
71.汉语部分分析研究
- 周强
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文概要介绍了近年来我们在汉语部分分析方面的研究工作,包括设计部分分析和标注体系、构建大规模的部分信息标注语料库、探索不同层次的部分分析方法等,并提出了一些应用设想.
72.现代藏语判定动词句主宾语的自动识别方法
- 黄行;江荻
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文通过剖析现代藏语判定句主语、宾语以及动词的结构及形式标记,提出识别主语和宾语的方法.其中依据动词的形式和前附修饰成分对宾语与动词的定界有效性可达99％以上,而采用综合性形式标记对主、宾语的定界可达到75％以上.文章最后指出,要大幅提高判定句主语的识别率应考虑利用识别宾语和动词时所获取的句法语义等其他信息.
73.基于网页上下文分析的图片检索
- 刘金松;于浩;西野文人
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：基于网页上下文分析的图片检索是指利用HTML文档源代码,通过分析文档结构自动获取图片的说明,并以此创建图片索引的一种图片检索方法.在本篇论文中我们提出了一种能更加有效的创建图片索引的新方法.本方法在传统的计算图片与文本的距离的方法的基础上提出了利用识别出的主要文本块和重复图片块来提高说明文字提取精度,将图片说明分为个别图片说明和公共图片说明,并识别图片与HTML文档标题之间的联系的新设想.经过试验验证该方法能够显著提高系统性能,精度和召回率由原来的57％和90％,提高到86％和95％.
74.面向英汉的跨语言信息检索关键技术研究
- 张玥杰;郭依昆;吴立德
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文以参加文本检索会议中有关跨语言信息检索(Cross-Language Information Retrieval,CLIR)任务的评价作为研究背景,提出了一个面向英汉的CLIR系统的实现框架,并由此引出有关英汉机译方法及汉语信息检索策略的研究.其中,以查询翻译为主导策略,以英语查询作为翻译对象,并采取英汉双语词典作为获取翻译知识的重要知识源;同时,结合所构建的汉语IR系统,实现完整的英—汉CLIR过程.
75.弱指导的统计隐含语义分析及其在跨语言信息检索中的应用
- 金千里;赵军;徐波
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文提出了一种语义聚类和扩展的新方法,称为有指导的统计隐含语义标引(SPLSI)算法.该算法能基于双语语料,通过机器学习来自动进行语义聚类,生成词间相似度矩阵.和以前的算法相比,SPLSI算法不仅在聚类意义上更加明确、降类的过程更容易控制,而且降低了时间和空间复杂度.基于SPLSI算法,实现了跨语言信息检索领域的三个系统:多语言文本分类,跨语言文本检索,跨语言关键词扩展.实验结果显示,在准确率、召回率、平均运算时间等多个评价指标中,SPLSI均优于以前的各种算法.
76.基于大规模真实文本的平衡语料分析与文本分类方法
- 陈克利;宗成庆;王霞
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文通过对大规模真实语料的统计和分析,比较了不同领域词汇量、词类比例等特征的差异.在此基础上,对TF*IDF文本分类器中采用的TF*IDF权重算法以及由此衍生的TF*IWF*IWF权重算法从TF、IWF两个角度进行了改进,提出了一种基于大规模语料库的文本分类方法,并将它与TF*IWF*IWF权重算法进行了对比,从实验结果看这种方法将F1测度值提高了12.28％,充分验证了其有效性.
77.Co-Training的机器学习方法在中文机构名识别中的应用
- 吴雪军;朱靖波;王会珍;叶娜;张宇新
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：机构名识别在信息抽取中是一个重要研究内容.本文提出了一种统计和规则相结合的机构名识别算法,其中采用Co-Training机器学习的方法构造机构名识别知识库.实验系统封闭测试准确率和召回率分别达到了90.2％和81.7％,开放测试准确率和召回率分别达到了88.5％和75.5％.
78.蒙古文人名自动识别研究
- 那顺乌日图;雪艳;淑琴;敖日格乐
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：人名自动识别是语料库深加工及机器翻译等蒙古文信息处理工作中的重要环节之一.我们针对蒙古文人名词语的不同构成特点采取直接标注、词典、匹配以及基于上下文的算法等方式进行自动识别.经过初步测试,该算法的识别召回率可达89％,准确率可达86％.
79.基于多知识分析的汉盲转换算法
- 黄河燕;陈肇雄;黄静
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文,提出了一种基于多知识一体化分析的汉盲翻译转换算法,该算法根据汉语特征与盲文特征的内在联系,设计了多种知识的统一形式化描述和相应的规则处理机制,有效地解决了转换过程中的汉语分词歧义和连写问题,实现了汉语到盲文的高效自动翻译转换.
80.基于查询语义的数据库中文界面研究
- 张凯;吴丽辉;李盛韬;程学旗
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：文章提出了一种基于数据库查询语义的数据库中文界面处理方法.这种方法主要关注那些对SQL语句生成有重要影响的词汇,并计算可能出现的语义,同时对语义进行可能性排序.与以往的基于语法的方法相比较,这种方法在用户友好度和响应速度上有显著的提高.
81.为何汉字形码输入法难以走出'难'的困境?——谈谈一些技术上的欠妥观点
- 张小衡
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：近年来汉字形码输入法市场萎缩,举步为艰.这固然与拼音输入法的兴起和发展有关,但根本的原因在于形码输入法的难学与难用.而这"难"又与部件编码技术上存在的种种欠妥观点有着千丝万缕的关系.本文指出了八个这样的观点,并逐一进行分析讨论,以求解脱良策.这些观点包括:一:部件是具有组配汉字功能的笔画组合;二:基本部件是不能再切分的部件;三:信息处理和语文教学需要两套不同的汉字部件体系;四:应尽量限制部件数量;五:部件输入法需要列出"部伯-代码"对照表;六:单部件字需特殊编码;七:部件分组应尽量离散,注意热键;八:部件编码难,笔画编码长,难以两全其美.
82.农业病虫害词汇获取方法初探
- 郑家恒;杜永萍;宋礼鹏
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文采取统计的方法获取农业病虫害词汇的词性搭配规则、语义类分布规则,并进一步利用这些规则在大规模语料中采用并列同现、模式匹配、特征词匹配等策略获取病虫害词汇,建立特定专业领域(主要为农业病虫害领域)词汇词典.
83.基于知识模型的手写中国地址识别系统
- 王春恒;堀田悦伸;諏訪美佐子;直井聡
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：中国手写地址识别是一个具有广泛应用场合的大类别识别问题,针对这一问题,本文给出了一种新的基于中国地址知识模型的识别方法.方法中强调中国地址固有的树状分层结构信息,通过抽取较少的关键字和词语的整体识别,避免了传统识别方法中单字分割所带来的分割误差,体现出较高的分类性能,对一般书写的地址字符串识别率达到93.80％,单个字符的识别率达到96.45％.
84.句处理中排歧问题补议
- 陆俭明;王黎
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：排歧问题是句处理中必须面对的一个重要问题,已有一些学者进行过研究与探索,提出了多种排歧策略.本文的目的是,通过对"N+A+的+不+V"这一句法格式所造成的不同句子的句法、语义分析,补充说明必须充分注意句中某个词语的具体意义在排歧中的重要作用.
85.现代汉语复杂句蜕块研究
- 唐兴全
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：语义块是HNC理论语句层面表述模式的重要内容,是句子的语义构成单位.语义块的整体或局部可以由句子蜕化而来,称为句蜕,它是语义块的特殊构成.句蜕之间或句蜕与其他成分之间的嵌套或组合以及句蜕内部语义块的复杂变化等形成复杂句蜕,包含复杂句蜕的语义块称为复杂句蜕块.本文研究了复杂句蜕块的各种类型及其分布,并探讨了它们的处理策略.
86.论旨网格的描写和HNC句类表示的比较分析
- 李千驹;唐兴全;林杏光
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：动词的语义框架研究是汉语信息处理研究中的一个热点.论旨网格和HNC(概念层次网络)理论的句类都是对句子语义框架研究的有益尝试.本文就论旨角色与HNC理论中的语义块,论旨网格描述的主要信息论旨模式(格框架)与HNC句类的分类标准等问题,进行了建设性的比较分析.
87.变异句蜕块的构成分析
- 孙雄勇
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：复杂句蜕块是HNC(概念层次网络)中一个非常重要的概念,变异句蜕块是复杂句蜕块主要的表现形式之一.本文通过对一定量的真实语料的分析,对现代汉语书面文本中存在的变异句蜕块的构成作了较为全面的考察和思考,并提出了自己对于变异句蜕块的一些想法.
88.基于Winnow算法的文本过滤
- 赵林;夏迎炬;黄萱菁;吴立德
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文提出了一种在自适应文本过滤中将Winnow分类器和基于向量空间模型(VSM)的分类器相结合的算法.在处理文本流时,只有被两个分类器都过滤出的文本才被判定为相关文本.文中详细描述了在我们的过滤系统中所使用的Winnow算法以及所进行的一系列证实其有效性的实验.结果显示Winnow分类器的采用在2002年度的TREC(文本检索会议)过滤任务中取得了显著的性能提高.
89.基于最大熵模型的QA系统置信度评分算法
- 游斓;周雅倩;黄萱菁;吴立德
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：置信度指的是一个问题回答系统(QA系统)对其所作回答的自信程度.本文描述了一种基于最大熵模型的算法.首先,从训练语料中提取若干因素来训练最大熵模型;然后应用训练好的模型在测试集上计算置信度.在2002年度的文本检索会议(TREC)中,我们的QA系统用该算法计算每个问题答案的置信度,并依此排序,最后获得了不错的结果.
90.中文自动查错与人机交互纠错系统的研究与实现—简介语料中文自动校对系统
- 吴岩;蔺荪
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文介绍了一个针对任意中文文本的自动查错与人机交互纠错系统-语料中文自动校对系统,查错原理是基于汉语语言的语法语义分析,同时结合统计方法对文本的错误进行确认,然后根据原文使用的输入法给出候选词组.本系统可嵌入到WIN WORD中作为语言工具使用.
91.现代汉语常用动词带宾语能力调查
- 邢红兵
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本研究是基于"现代汉语研究语料库系统"的动词词表进行的,我们对全部动词的句法属性进行提取和标注,建立了动词属性库.本文只对频度大于等于10的常用动词带宾语的情况进行了统计分析.具体的分析内容为动词宾语的能力.文章的主要结论是汉语常用的动词中,大部分动词功能单一或者只是具备两种句法功能,但也有一部分动词作谓语和带宾语的能力很强.
92.大规模内容计算
- 白硕;程学旗;郭莉;王斌;余智华;刘群
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：随着互联网朝着宽带和廉价方面不断发展,处理大规模信息内容的需求与日俱增.这些需求,来自电信、金融证券、网络安全、重要信息化行业等许多关系国计民生的要害部门和领域.从学术上看,无论从算法上、系统上、还是从深度上,都提出了一系列的研究课题.其中一些课题作为对全人类智慧的挑战,已经纳入年度性的国际测评活动.一些课题由于涉及到国家改革、发展、稳定的大局和学科建设的根本,已经列入一些国家重大科研计划.中科院计算所长期从事大规模内容计算方面的研究开发工作,在这个方向上已经取得了系统而丰富的研究成果,形成了完整的梯队布局.借此机会,我们系统地汇报一下我们在这方面的工作.
93.体词性并列结构的结构平行
- 吴云芳
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：本文对现代汉语体词性并列结构的结构平行性进行了考察,论述了存在的两种平行分布:92％的并列结构在数量定语的分布上是平行的;91％的并列结构在"的"字定语的分布上是平行的.体词性并列结构的这种平行特性可帮助自动识别并列结构的边界,但对少量的不平行,我们还找不到有效的解决方案.
94.汉语句法分析建模中基于模型质量的特征选择方法
- 孟遥;赵铁军;杨沐昀;李生
- 《全国第七届计算语言学联合学术会议》 | 2003年
摘要：在汉语句法分析建模中,有选择地使用结构消歧特征,有利于把握句法分析的规律,解决数据稀疏问题,提高模型的鲁棒性.本文提出了一种量化的特征选择方法,通过由特征构建的句法分析模型对训练样本的对数似然估计,去评价特征在句法分析建模中所起的作用.初步实验表明,本文提出的方法可以大幅度减少模型所需要的特征数量,使用不超过10％的关键特征构建的句法分析模型,在封闭测试时,精确率和召回率可以接近使用全部特征构建的句法分析模型,而对于开放测试,经过特征选择的模型其效果好于未经过特征选择的模型.