首页> 中国专利> 一种基于互信息和关联规则的文本特征提取方法

一种基于互信息和关联规则的文本特征提取方法

摘要

本发明公开了一种基于互信息和关联规则的文本特征提取方法,步骤为:首先以文本分词、过滤停用词以及2‑Gram方法对文本训练集预处理,其次,通过改进的互信息方法对预处理后的文本训练集计算特征值,按特征值降序排列选取前m个词,从而得到初始的文本特征集,采用FP‑Growth计算预处理后的文本训练集中词的关联规则,并以关联规则去除初始文本特征集中冗余的特征,最后,结合关联规则和One‑hot方法对每个文本向量化表示。本发明避免了文本特征间的冗余及互信息方法缺点对提取文本特征的影响。

著录项

  • 公开/公告号CN107766323B

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 淮阴工学院;

    申请/专利号CN201710796425.1

  • 申请日2017-09-06

  • 分类号G06F40/253(20200101);G06F16/00(20190101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人梁耀文

  • 地址 223005 江苏省淮安市经济技术开发区枚乘东路1号

  • 入库时间 2022-08-23 12:24:35

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号