词义消歧
词义消歧的相关文献在1998年到2022年内共计266篇,主要集中在自动化技术、计算机技术、语言学、汉语
等领域,其中期刊论文177篇、会议论文26篇、专利文献28761篇;相关期刊94种,包括情报学报、哈尔滨理工大学学报、黑龙江科技信息等;
相关会议19种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第四届全国智能信息处理学术会议、第六届全国青年计算语言学会议等;词义消歧的相关文献由463位作者贡献,包括鹿文鹏、张春祥、高雪瑶等。
词义消歧—发文量
专利文献>
论文:28761篇
占比:99.30%
总计:28964篇
词义消歧
-研究学者
- 鹿文鹏
- 张春祥
- 高雪瑶
- 卢志茂
- 张仰森
- 李生
- 何婷婷
- 吴云芳
- 刘挺
- 姬东鸿
- 孟凡擎
- 赵铁军
- 全昌勤
- 成金勇
- 王瑞琴
- 金澎
- 陈小荷
- 俞士汶
- 刘睿
- 刘鹏远
- 孔繁胜
- 张维玉
- 李国佳
- 杜月寒
- 杨陟卓
- 王惠
- 范冬梅
- 荀恩东
- 车超
- 郭鸿奇
- 闫蓉
- 陈浩
- 乔新晓
- 仇化平
- 刘辉
- 吕晓伟
- 周俏丽
- 孟禹光
- 寇广增
- 张剑
- 曲维光
- 李纲
- 熊经钊
- 谢芳
- 赵凌云
- 陈家骏
- 丁江伟
- 于东
- 刘宇鹏
- 刘建毅
-
-
张春祥;
唐利波;
高雪瑶
-
-
摘要:
为了解决有标签语料获取困难的问题,提出了一种半监督学习的卷积神经网络(convolutional neural networks,CNN)汉语词义消歧方法.首先,提取歧义词左右各2个词汇单元的词形、词性和语义类作为消歧特征,利用词向量工具将消歧特征向量化;然后,对有标签语料进行预处理,获取初始化聚类中心和阈值,同时,使用有标签语料对卷积神经网络消歧模型进行训练,利用优化后的卷积神经网络对无标签语料进行语义分类,选取满足阈值条件的高置信度语料添加到训练语料之中,不断重复上述过程,直到训练语料不再扩大为止;最后,使用SemEval-2007:Task#5作为有标签语料,使用哈尔滨工业大学无标注语料作为无标签语料进行实验.实验结果表明:所提出方法使CNN的消歧准确率提高了3.1%.
-
-
舒蕾;
郭懿鸾;
王慧萍;
张学涛;
胡韧奋
-
-
摘要:
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。
-
-
初钰凤;
张俊;
赵丽华
-
-
摘要:
词义消歧的目标是在特定的上下文中识别歧义词的正确词义。传统的监督方法主要是利用上下文的数据,而忽略了丰富的词义定义等词汇资源。最近的研究发现将词义定义整合到神经网络对于词义消歧具有显著的改进效果。提出引入词义定义的基于多粒度双向注意力机制的词义消歧模型,该模型采用字符级、词级和上下文嵌入的表示,使用双向注意力机制获取上下文和词义定义之间的交互关系,消融实验验证了模型中每个组成的重要性。实验结果表明,这种建模方式可以有效地识别歧义词的正确词义,在SemEval-13-task#12和SemEval-15-task#13公开数据集上进行了测试,F1值分别可达到68.9%和73.1%。
-
-
贺佳;
杜建强;
聂斌;
熊旺平;
雷银香;
罗计根;
曾青霞
-
-
摘要:
词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法.根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征.利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别.采用哈工大信息检索研究中心语言技术平台的词义语料进行实验.实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果.
-
-
本刊
-
-
摘要:
2021年第二十届中国计算语言学大会(CCL 2021)将于2021年8月13-15日在呼和浩特市举行。本次会议由内蒙古大学承办,会议主题为:语言处理的认知建模和心理语言学;面向自然语言处理的机器学习;语言资源和标注;词汇语义学和词汇本体论;中文分词、词性标注和词义消歧;组块分析、句法分析和语义分析;篇章、共指和语用学;机器翻译和多语言信息处理;资源稀缺的自然语言处理;社交媒体中的自然语言处理;医学自然语言处理;自然语言处理应用等。被录用的中文稿件将被推荐至《中文信息学报》、《清华大学学报》(自然科学版)、《中国科学》及其他计算机类中国科技核心期刊(中国科学技术信息研究所制订)。大会同时接受中文和英文投稿,需统一使用LaTeX模板。提交的论文最多包含10页正文,参考文献页数不限。
-
-
江涛;
李清霞;
李启明
-
-
摘要:
针对当前文本细粒度情感分类方法仅通过浅层卷积获取文本情感特征,导致多种文本细粒度情感分类效果差,具有歧义的文本细粒度情感分类精度低的问题,提出基于改进胶囊网络的文本细粒度情感分类方法.使用信息增益最大原则,优化文本特征集,引入文本特征词语位置信息,优化贝叶斯模型词语分辨性能,消除文本歧义.基于改进稠密胶囊网络模型,建立自注意力特征模型,提取文本细粒度情感特征,使用局部约束动态路由算法,选取与变换矩阵共享局部范围胶囊路由,实现文本细粒度情感分类.实验结果表明,所提方法的查准率、召回率以及F1值较高,多种文本细粒度情感分类效果较好,能够有效提高具有歧义的文本细粒度情感分类精度.
-
-
张春祥;
周雪松;
高雪瑶;
刘欢
-
-
摘要:
一词多义是自然语言所固有的特性。词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术。目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中。为了提高词义消歧的准确率,提出了一种结合k均值聚类与长短期记忆网络的半监督词义消歧方法。以歧义词汇为中心,选取左右两个邻接词汇单元,形成大小为4的词窗。从词窗中选取词形和语义类作为聚类特征,利用k均值聚类方法对无标注语料进行聚类。将聚类得到的语料加入SemEval-2007:Task#5的训练语料中,以扩充训练语料的规模。从词窗中选取词形、词性、语义类、英文译文和消歧距离作为消歧特征,使用长短期记忆网络来确定歧义词汇的语义类别。利用扩充后的训练语料来优化长短期记忆网络的参数。使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。通过实验分析了隐藏层数和训练语料规模对词义消歧的影响。实验结果表明:相对于贝叶斯分类器和深度信念网络而言,所提出的方法能够提高词义消歧的准确率。
-
-
-
穆玲玲;
程晓煜;
昝红英;
韩英杰
-
-
摘要:
提出一种融合语言知识的神经网络中文词义消歧模型,在双向长短时记忆网络中使用目标词的释义和例句信息进行消歧.该模型在SemEval-2007中英文词义消歧数据集上的实验结果表明,融合语言知识后,词义消歧的宏平均准确率和微平均准确率分别比基线模型提高了2.31%和1.93%,说明在神经网络模型中融合语言知识有助于改善中文词义消歧的效果.
-
-
张春祥;
熊经钊;
高雪瑶
-
-
摘要:
为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法.以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义.采用软投票策略融合3个基本分类器获得集成词义消歧模型.以少量人工语义标注语料为基础,结合大量无标注语料,使用半监督学习方法来提高集成词义消歧模型的性能.使用SemEval-2007: Task#5的测试语料来度量词义消歧的性能.实验结果表明:所提出方法的平均准确率达到了72. 80%,词义消歧的性能有所提升.本文提出方法能够降低人工标注语料的规模,提高词义消歧准确率.
-
-
-
MIAO Hai;
苗海;
ZHANG Yang-sen;
张仰森
- 《第四届全国智能信息处理学术会议》
| 2013年
-
摘要:
针对多年来词义消歧方法的不完善,从可计算性及其计算复杂度方面分析了多种不同结构的知识词典,最后选择北大计算语言所的《现代汉语语法信息词典》、《现代汉语语义词典》和同形标注的人民日报语料作为词义消歧知识源.研究了异构多知识源的融合方法,提取了敏捷规则知识库和词义搭配库,设计出了一种规则与统计相结合的词义消歧方法.在多种方法中最大熵与规则相结合的词义消歧方法准确率最高,与SemEval 2007(task#5)的最好成绩相比,分别在微平均值MicroAve(micro-average accuracy)和宏平均值MacroAve(macro-average accuracy)上提升了5.5%和0.9%.
-
-
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这单项奖义的同义词并不合适,从而带来噪声。rn 本研究使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。在enseval-3中文lexical sample词义消歧数据集上进行了实验,结果表明,经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
自然语言处理的许多问题都可以归结为分类问题,汉语词义消歧是一类典型的分类问题。在分类问题中,特征的选择至关重要。通常情况下,特征的选择由人工直接确定,这样的选取方式,要求选取者对于分类问题本身和机器学习模型的特点都有比较深刻的认识。rn 本文设计了—套基于特征自动选取的Na(i)ve Bayes模型用于汉语词义消歧问题。大量的实验测试表明,自动特征选取方法选取的特征,在相同的训练数据集上,可以改进词义消歧效果。
-
-
-
-
- 《第四届全国机器翻译研讨会》
| 2008年
-
摘要:
本文分析和比较了主观量、主观性和主观化三个主观范畴的概念,认为主观性语义特征普遍存在于语言系统的各个层面。进而区分了主观性语义特征和主观性命题特征,改进了Fillmore所提出的句子语义模式,认为“情态”与“命题”密不可分,主观性语义特征是针对指称对象的情态,主观性命题特征是针对命题的情态。主观性语义特征的提取和主观性语义特征组合模式的总结有助于自然语言理解与处理,在词语搭配获取和机器翻译的词义消歧方面已经初步显示出其优越性和解释力。
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
词义知识获取问题是词义消歧、词义知识库建设、语料库建设等不同研究的瓶颈问题。本文提出的基于混合特征的词义区分方法,通过发现并抽取易于获取的词义特征,结合EM迭代算法,能够很好地对汉语高频形容词实现词义区分。比较于不同的特征组合方式,实验结果证明,形容词主体名词特征和词形特征的使用对于汉语形容词的词义区分是有效的。