您现在的位置: 首页> 研究主题> 词义消歧

词义消歧

词义消歧的相关文献在1998年到2022年内共计266篇,主要集中在自动化技术、计算机技术、语言学、汉语 等领域,其中期刊论文177篇、会议论文26篇、专利文献28761篇;相关期刊94种,包括情报学报、哈尔滨理工大学学报、黑龙江科技信息等; 相关会议19种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第四届全国智能信息处理学术会议、第六届全国青年计算语言学会议等;词义消歧的相关文献由463位作者贡献,包括鹿文鹏、张春祥、高雪瑶等。

词义消歧—发文量

期刊论文>

论文:177 占比:0.61%

会议论文>

论文:26 占比:0.09%

专利文献>

论文:28761 占比:99.30%

总计:28964篇

词义消歧—发文趋势图

词义消歧

-研究学者

  • 鹿文鹏
  • 张春祥
  • 高雪瑶
  • 卢志茂
  • 张仰森
  • 李生
  • 何婷婷
  • 吴云芳
  • 刘挺
  • 姬东鸿
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 张春祥; 唐利波; 高雪瑶
    • 摘要: 为了解决有标签语料获取困难的问题,提出了一种半监督学习的卷积神经网络(convolutional neural networks,CNN)汉语词义消歧方法.首先,提取歧义词左右各2个词汇单元的词形、词性和语义类作为消歧特征,利用词向量工具将消歧特征向量化;然后,对有标签语料进行预处理,获取初始化聚类中心和阈值,同时,使用有标签语料对卷积神经网络消歧模型进行训练,利用优化后的卷积神经网络对无标签语料进行语义分类,选取满足阈值条件的高置信度语料添加到训练语料之中,不断重复上述过程,直到训练语料不再扩大为止;最后,使用SemEval-2007:Task#5作为有标签语料,使用哈尔滨工业大学无标注语料作为无标签语料进行实验.实验结果表明:所提出方法使CNN的消歧准确率提高了3.1%.
    • 舒蕾; 郭懿鸾; 王慧萍; 张学涛; 胡韧奋
    • 摘要: 古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。
    • 初钰凤; 张俊; 赵丽华
    • 摘要: 词义消歧的目标是在特定的上下文中识别歧义词的正确词义。传统的监督方法主要是利用上下文的数据,而忽略了丰富的词义定义等词汇资源。最近的研究发现将词义定义整合到神经网络对于词义消歧具有显著的改进效果。提出引入词义定义的基于多粒度双向注意力机制的词义消歧模型,该模型采用字符级、词级和上下文嵌入的表示,使用双向注意力机制获取上下文和词义定义之间的交互关系,消融实验验证了模型中每个组成的重要性。实验结果表明,这种建模方式可以有效地识别歧义词的正确词义,在SemEval-13-task#12和SemEval-15-task#13公开数据集上进行了测试,F1值分别可达到68.9%和73.1%。
    • 贺佳; 杜建强; 聂斌; 熊旺平; 雷银香; 罗计根; 曾青霞
    • 摘要: 词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法.根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征.利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别.采用哈工大信息检索研究中心语言技术平台的词义语料进行实验.实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果.
    • 本刊
    • 摘要: 2021年第二十届中国计算语言学大会(CCL 2021)将于2021年8月13-15日在呼和浩特市举行。本次会议由内蒙古大学承办,会议主题为:语言处理的认知建模和心理语言学;面向自然语言处理的机器学习;语言资源和标注;词汇语义学和词汇本体论;中文分词、词性标注和词义消歧;组块分析、句法分析和语义分析;篇章、共指和语用学;机器翻译和多语言信息处理;资源稀缺的自然语言处理;社交媒体中的自然语言处理;医学自然语言处理;自然语言处理应用等。被录用的中文稿件将被推荐至《中文信息学报》、《清华大学学报》(自然科学版)、《中国科学》及其他计算机类中国科技核心期刊(中国科学技术信息研究所制订)。大会同时接受中文和英文投稿,需统一使用LaTeX模板。提交的论文最多包含10页正文,参考文献页数不限。
    • 江涛; 李清霞; 李启明
    • 摘要: 针对当前文本细粒度情感分类方法仅通过浅层卷积获取文本情感特征,导致多种文本细粒度情感分类效果差,具有歧义的文本细粒度情感分类精度低的问题,提出基于改进胶囊网络的文本细粒度情感分类方法.使用信息增益最大原则,优化文本特征集,引入文本特征词语位置信息,优化贝叶斯模型词语分辨性能,消除文本歧义.基于改进稠密胶囊网络模型,建立自注意力特征模型,提取文本细粒度情感特征,使用局部约束动态路由算法,选取与变换矩阵共享局部范围胶囊路由,实现文本细粒度情感分类.实验结果表明,所提方法的查准率、召回率以及F1值较高,多种文本细粒度情感分类效果较好,能够有效提高具有歧义的文本细粒度情感分类精度.
    • 张春祥; 周雪松; 高雪瑶; 刘欢
    • 摘要: 一词多义是自然语言所固有的特性。词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术。目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中。为了提高词义消歧的准确率,提出了一种结合k均值聚类与长短期记忆网络的半监督词义消歧方法。以歧义词汇为中心,选取左右两个邻接词汇单元,形成大小为4的词窗。从词窗中选取词形和语义类作为聚类特征,利用k均值聚类方法对无标注语料进行聚类。将聚类得到的语料加入SemEval-2007:Task#5的训练语料中,以扩充训练语料的规模。从词窗中选取词形、词性、语义类、英文译文和消歧距离作为消歧特征,使用长短期记忆网络来确定歧义词汇的语义类别。利用扩充后的训练语料来优化长短期记忆网络的参数。使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。通过实验分析了隐藏层数和训练语料规模对词义消歧的影响。实验结果表明:相对于贝叶斯分类器和深度信念网络而言,所提出的方法能够提高词义消歧的准确率。
    • 穆玲玲; 程晓煜; 昝红英; 韩英杰
    • 摘要: 提出一种融合语言知识的神经网络中文词义消歧模型,在双向长短时记忆网络中使用目标词的释义和例句信息进行消歧.该模型在SemEval-2007中英文词义消歧数据集上的实验结果表明,融合语言知识后,词义消歧的宏平均准确率和微平均准确率分别比基线模型提高了2.31%和1.93%,说明在神经网络模型中融合语言知识有助于改善中文词义消歧的效果.
    • 张春祥; 熊经钊; 高雪瑶
    • 摘要: 为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法.以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义.采用软投票策略融合3个基本分类器获得集成词义消歧模型.以少量人工语义标注语料为基础,结合大量无标注语料,使用半监督学习方法来提高集成词义消歧模型的性能.使用SemEval-2007: Task#5的测试语料来度量词义消歧的性能.实验结果表明:所提出方法的平均准确率达到了72. 80%,词义消歧的性能有所提升.本文提出方法能够降低人工标注语料的规模,提高词义消歧准确率.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号