首页> 中国专利> 一种领域新词的提取方法及系统

一种领域新词的提取方法及系统

摘要

本发明提供一种领域新词的提取方法及系统,包括,采集行业内容数据,并抽取所述行业内容数据中的文本数据,得到专业领域文本数据集;根据预设的领域句法词典对所述专业领域文本数据集进行转化,得到对应的词向量数据集;调取所述词向量数据集中不属于所述预设的领域句法词典的候选词语,若所述候选词语的余弦相似度与所述预设的领域句法词典的余弦相似度大于预设的阈值,则判定所述候选词语为候选新词;通过预设的过滤规则对所述候选新词进行过滤,得到领域新词。本发明通过新词发现并融合多种新词提取的方法可实现特定领域词汇的提取,实现领域新词提取,提高分词准确率,从而提升自然语言处理下游任务的性能。

著录项

  • 公开/公告号CN114266256A

    专利类型发明专利

  • 公开/公告日2022-04-01

    原文格式PDF

  • 申请/专利权人 深圳供电局有限公司;

    申请/专利号CN202111567889.8

  • 发明设计人 许冠中;黄安子;

    申请日2021-12-21

  • 分类号G06F40/30(20200101);G06F16/215(20190101);G06F16/335(20190101);G06F40/169(20200101);G06F40/216(20200101);G06F40/242(20200101);

  • 代理机构44238 深圳汇智容达专利商标事务所(普通合伙);

  • 代理人徐文城

  • 地址 518000 广东省深圳市罗湖区深南东路4020号电力调度通信大楼

  • 入库时间 2023-06-19 14:43:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-04-01

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号