基于深度学习的中文特定领域命名实体识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网信息化社会的高速发展，带给了我们越来越多的便利，随之也产生了海量文本信息，如何对这些非结构化的信息进行分析挖掘，将自然语言解析为计算机可处理、可理解的语言形式以实现知识的获取和表示，是自然语言处理（Natural Language Processing，NLP）研究的一个核心目标，同时也是人工智能的主题之一，对于实现机器认知智能具有重要意义。　　命名实体识别（Named Entity Recognition，NER）作为自然语言处理研究的重要组成，要求对各式各样文本数据中具有特定含义的诸如人物名、地名、组织机构名等实体语言成分进行识别，是对话交互系统（Dialogue and Interactive Systems）、自动问答（Automatic Question and Answering）等高层自然语言处理技术中必不可少的一部分。以往的研究主要关注于上述几种常见类型的实体，相对已经成熟，而在特定领域，尤其是针对中文特定领域的实体识别仍处于发展阶段，相关研究较少。由于标注语料稀少、专有术语和稀有词较多，中文特定领域的文本更难以建模和表示，极具挑战性，因而本文的研究重点将集中于此。对于数据低资源产生的建模表示难点，本文挖掘大规模自然语言数据的潜力，将自然语言本身视为“天然”标注语料，使用语言模型（Language Model）提炼其中的语言知识，同时构建新型的网络架构实现更为有效地建模和标注。　　概括地来说，本文工作内容主要有如下几点：　　① 首先，对目前命名实体识别领域主流实体识别方法——长短期记忆网络（Bidirectional Long-Short Term Memory，BiLSTM）与条件随机场（Conditional Random Fields，CRF）集成模型BiLSTM-CRF进行了详细地介绍，并在此基础上从模型网络结构优化改进层面出发，提出了一种基于Hierarchical BiLSTM-CRF模型的端到端实体识别方法，并在三个中文特定领域的实体识别数据集上进行实验，探索了深层次网络在特征抽取上对实体识别效果的影响，实验结果表明适当深层次的网络架构有利于捕获更佳语义层次的特征表示，可以提升模型的实体识别效果；　　②其次，本文引入深度学习最新理论成果BERT（Bidirectional Encoder Representations from Transformers）深层语境语言模型（Deep Contextual Language Model），其利用大规模自然语言文本语料进行双向无监督预训练，再结合具体下游任务进行微调，相比较于传统浅层语言模型，BERT能够根据词所在上下文语境动态地调整相应词嵌入表示，很好地解决了“一词多义”问题，因而具有强大的上下文语言表征能力。受此启发，本文从语义层面改进出发，提出一种基于BERT-CRF 模型的端到端实体识别方法，并在上述数据集上进行验证，实验结果表明当预训练数据与实验数据集中的显性语言表达存在较大共性时，模型识别效果提升明显；　　③ 接着在上述基础上，考虑到BiLSTM-CRF模型具备良好的序列标注性能，长期被作为基准模型（Benchmark Model），本文提出一种基于BERT-BiLSTM-CRF模型的端到端实体识别方法，后续的实验证明这两者的融合效果显著，不仅在上述三个中文特定领域的实体识别数据集上取得了最佳的识别效果，并且在现有多个公开数据集上超越了以往论文中的方法。

著录项

作者
李独运;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科信息与通信工程
授予学位硕士
导师姓名贾云健;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
命名实体识别,条件随机场,注意力机制,深层语境语言模型;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的中文命名实体识别综述 [J] . 郑洪浩 ,宋旭晖 ,于洪涛 . 信息工程大学学报 . 2021,第005期
2. 基于深度学习的中文命名实体识别研究 [J] . 王雪梅 ,陶宏才 . 成都信息工程学院学报 . 2020,第003期
3. 基于深度学习的中文命名实体识别研究 [J] . 王雪梅 ,陶宏才 . 成都信息工程大学报 . 2020,第003期
4. 基于深度学习的渔业领域命名实体识别 [J] . 孙娟娟 ,于红 ,冯艳红 . 大连海洋大学学报 . 2018,第002期
5. 基于深度学习的渔业领域命名实体识别 [J] . 孙娟娟 ,于红 ,冯艳红 . 大连海洋大学学报 . 2018,第002期
6. 中文命名实体识别系统的领域扩展 [C] . 徐薇 ,付滨 ,刘柳 . 第九届全国计算语言学学术会议 . 2007
7. 基于深度学习在医疗领域的中文命名实体识别 [A] . 罗俊宇 . 2020

基于深度学习的中文特定领域命名实体识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅