首页> 中国专利> 新词召回方法和领域词向量表生成方法及其装置

新词召回方法和领域词向量表生成方法及其装置

摘要

本发明涉及新词召回方法和词向量表生成方法及其装置。提供了一种新词召回方法,包括:接收特定领域的一个或多个文档;对每个文档进行分词;计算通过分词发现的新词的左右熵和互信息熵,并基于左右熵和互信息熵获得新词的信息熵得分;基于所述文档以及通用文档,计算每个新词在文档中的词频以及在所述文档和通用文档中的逆文档频率,并基于词频和逆文档频率获得每个新词在每个文档中的词频‑逆文档频率得分;计算每个新词在所有文档中的总词频‑逆文档频率得分;基于每个新词的信息熵得分和总词频‑逆文档频率得分,获得每个新词的领域词得分;以及根据领域词得分对所有新词进行排序,将领域词得分最高的预定数量的新词确定为新的领域词。

著录项

  • 公开/公告号CN114091437A

    专利类型发明专利

  • 公开/公告日2022-02-25

    原文格式PDF

  • 申请/专利权人 中国电信股份有限公司;

    申请/专利号CN202010858432.1

  • 发明设计人 胡祖杰;

    申请日2020-08-24

  • 分类号G06F40/247(20200101);G06F40/289(20200101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人张荣海

  • 地址 100033 北京市西城区金融大街31号

  • 入库时间 2023-06-19 14:15:58

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-02-25

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号