您现在的位置: 首页> 研究主题> 命名实体识别

命名实体识别

命名实体识别的相关文献在2002年到2023年内共计919篇,主要集中在自动化技术、计算机技术、基础医学、科学、科学研究 等领域,其中期刊论文681篇、会议论文38篇、专利文献257904篇;相关期刊275种,包括现代图书情报技术、电子设计工程、计算机工程等; 相关会议30种,包括第十九届网络新技术与应用年会、2011年江苏省人工智能学术会议、第十一届全国计算语言学学术会议等;命名实体识别的相关文献由2509位作者贡献,包括赵铁军、王浩畅、朱艳辉等。

命名实体识别—发文量

期刊论文>

论文:681 占比:0.26%

会议论文>

论文:38 占比:0.01%

专利文献>

论文:257904 占比:99.72%

总计:258623篇

命名实体识别—发文趋势图

命名实体识别

-研究学者

  • 赵铁军
  • 王浩畅
  • 朱艳辉
  • 于浩
  • 余正涛
  • 林鸿飞
  • 王东波
  • 线岩团
  • 郭剑毅
  • 冀相冰
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 沈同平; 俞磊; 金力; 黄方亮; 许欢庆
    • 摘要: 中文文本实体识别,是自然语言处理的关键问题.传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果.提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列.实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%.
    • 蔡伊娜; 包先雨; 林燕奎; 彭锦学; 彭智彬; 林泳奇; 李俊霖; 郭云
    • 摘要: 针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型。提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点。与已有的BERT-BAC模型相比,在确保较高F;值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实体识别时间分别缩短60.36%、39.43%,具有更广泛的实用性。
    • 方晔玮; 王铭涛; 陈文亮; 张熠天; 张民
    • 摘要: 近年来,在大规模标注语料上训练的神经网络模型大大提升了命名实体识别任务的性能。但是,新领域人工标注数据获取代价高昂,如何快速、低成本地进行领域迁移就显得非常重要。在目标领域仅给定无标注数据的情况下,该文尝试自动构建目标领域的弱标注语料并对其建模。首先,采用两种不同的方法对无标注数据进行自动标注;然后,采用留“同”去“异”的方式,尽量减少错误标注,自动生成局部标注的语料;最终,该文提出一种新的基于局部标注学习的实体识别模型,该模型可以在弱标注数据上进行训练。新闻领域到社交领域和金融领域的迁移实验结果证明,该文方法能有效提升命名实体识别模型的领域自适应性能,并且迁移代价较低。在加入预训练语言模型BERT的条件下,该方法也表现出较好的性能。
    • 江千军; 桂前进; 王磊; 徐瑞翔; 王京景; 麦立; 许水清
    • 摘要: 命名实体识别是指从文本中提取出专有名词或特定命名实体的识别任务,作为信息抽取中非结构化数据转化为结构化数据的关键步骤,在机器翻译、情感分析、信息检索等领域有广泛应用,是自然语言处理的热点问题。文章就现有的命名实体识别技术方法进行了详细地梳理,重点阐述了基于深度学习的命名实体识别方法及其实现过程,进而分析了具有代表性的典型算法的优缺点,并对命名实体识别技术在电力系统中的应用前景进行了展望。
    • 潘理虎; 赵彭彭; 龚大立; 闫慧敏; 张英俊
    • 摘要: 命名实体识别是自然语言处理的一项重要技术,也是问答系统、句法分析、机器翻译等下游工作的基本任务。煤矿事故案例命名实体识别是构建煤矿安全生产知识图谱的关键环节,其效率和准确率直接影响后期知识图谱的质量。针对传统命名实体识别方法训练时间长、识别率低的问题及煤矿事故案例的描述特点,以自构的标注语料集CoalMineCorpus为研究对象,基于深度学习算法,该文提出了一种结合ALBERT和迭代扩张卷积的命名实体识别方法。首先引入ALBERT预训练语言模型生成字向量,提升传统字向量的文本表示能力;然后将字向量序列输入改进的卷积神经网络中,其中卷积层采用四个三层结构的迭代扩张卷积模块完成特征抽取,采用RELU激活函数,取消池化层避免特征损失,使用Dropout和自适应矩估计对模型进行优化;最后使用条件随机场对标签序列结果进行合法性约束。实验结果表明,该模型在较大提升准确率、召回率和F值的同时可以有效缩短训练时间,可用于煤矿事故领域的命名实体识别工作。
    • 陈淳; 李明扬; 孔芳
    • 摘要: 命名实体识别作为自然语言处理领域的基础问题一直备受关注。中文命名实体特别是组合命名实体,由于其内部结构复杂,故长度可以很长,已有的研究还存在以下两个问题:一是字和词之间的关联信息未能充分挖掘,无法将组合实体和简单实体做统一处理;二是组合实体加大了实体序列长短的差异,文本自身信息的捕获不充分。针对问题一,该文借助融合了双向注意力机制的高速网络来充分挖掘字与词之间的关联关系,通过抽取词内部多种有效的字的组合来丰富词的表征;针对问题二,通过自注意力机制从多层次、多视角捕获文本信息,并借助高速网络进行信息的有效桥接。在OntoNotes V 4.0公开语料上的实验结果表明了该文方案的有效性,在不使用大型预训练语言模型的情况下,该文提出的基于两段高速网络的模型取得了目前最好的性能。
    • 曹卫东; 徐秀丽
    • 摘要: 针对民航旅客机上接打电话、扰乱其他乘客等各种不循规行为,提出了一种Tag+Bi-LSTM+CRF神经网络模型,可识别出不文明旅客实体信息。考虑到民航文本记录中一条语句中有多个实体,实体出现在句子中的模式可能包含有用的语义信息,将命名实体识别任务中的字符通过BIOES标记方法标记后与词嵌入、位置嵌入串联,以丰富输入表示。首先,利用Yedda工具对民航旅客随机记录文本中的实体进行标注,结合词嵌入、位置嵌入作为模型输入,其次,采用双向长短时记忆网络(Bi-LSTM,bi-directional long short-term memory)模型获取序列文本的上下文特征,然后,通过条件随机场(CRF,conditional random field)模型获得序列标注结果,最后,分别在输入层和Bi-LSTM层添加dropout层,防止数据过拟合。实验结果表明,该模型在民航不文明旅客实体识别中精确率、召回率和F1均高达96%以上,能有效获取不文明旅客行为、等级、处罚、期限等信息。
    • 贾猛; 王裴岩; 张桂平; 蔡东风
    • 摘要: 面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别。该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测。实验结果表明,该方法在工艺文本中能较好地完成命名实体识别任务,在提高词典及规则覆盖的实体识别效果的同时,还能够提高其他类实体的识别效果,通过加入预识别实体特征,使得F_(1)值从90.99%提升到93.03%,验证了该文方法的有效性。
    • 巩稼民; 赵梦凯; 孙一斌; 蒋杰伟; 张凯泽
    • 摘要: 试题分割的准确性直接影响着试题库建设的质量。受限于试题文档的类型和编写规范,当前试题自动分割方法在复杂类型和包含富文本信息的试题文档上的准确率仍有待提高。通过将试题中的标题、题号、选项号、答案、解析等关键词抽象为实体,提出了一种基于命名实体识别的试题自动分割方法。将标注的实体作为分割点,实现试题的自动拆分。自建试题语料作为训练数据,并设定了文档预处理规则,对试题中的图表、字体样式等关键信息进行特定标记。构建了多个实体识别模型进行实验,结果表明:基于BERT+双向长短时记忆(Bi-LSTM)+条件随机场(CRF)的实体识别模型F1值相对于Bi-LSTM+CRF模型和CRF模型分别提升了3.31%和13.17%。
    • 李超凡; 马凯
    • 摘要: 在传统中文电子病历的命名实体识别任务中,针对医疗实体边界不清、实体嵌套、语句成分缺失、高度依赖人工提取特征等问题,提出基于词嵌入结合BiLSTM-CRF模型的中文电子病历命名实体识别模型。将电子病历文本数据集进行脱敏处理及序列标注等数据预处理,结合词嵌入匹配病历文本序列进行词向量化表示,利用BiLSTM神经网络对前后向病历文本进行空间语义建模,获取文本序列的语义特征,然后利用CRF预测实体标签输出。实验结果表明,改进后的BiLSTM-CRF模型显著提高了病历实体识别的准确率和召回率。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号