首页> 中国专利> 一种基于互信息和关联规则的文本特征提取方法

一种基于互信息和关联规则的文本特征提取方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于互信息和关联规则的文本特征提取方法，步骤为：首先以文本分词、过滤停用词以及2‑Gram方法对文本训练集预处理，其次，通过改进的互信息方法对预处理后的文本训练集计算特征值，按特征值降序排列选取前m个词，从而得到初始的文本特征集，采用FP‑Growth计算预处理后的文本训练集中词的关联规则，并以关联规则去除初始文本特征集中冗余的特征，最后，结合关联规则和One‑hot方法对每个文本向量化表示。本发明避免了文本特征间的冗余及互信息方法缺点对提取文本特征的影响。

著录项

公开/公告号CN107766323B

专利类型发明专利
公开/公告日2021-08-31

原文格式PDF
申请/专利权人淮阴工学院;
展开▼

申请/专利号CN201710796425.1
发明设计人朱全银;严云洋;胡荣林;李翔;瞿学新;唐海波;赵阳;高阳;钱凯;
展开▼

申请日2017-09-06
分类号G06F40/253(20200101);G06F16/00(20190101);
代理机构32204 南京苏高专利商标事务所(普通合伙);
代理人梁耀文
地址 223005 江苏省淮安市经济技术开发区枚乘东路1号
入库时间 2022-08-23 12:24:35

相似文献

专利
中文文献
外文文献

1. 一种基于互信息和关联规则的文本特征提取方法 [P] . 中国专利： CN107766323B . 2021.08.31
2. 一种基于互信息的特征筛选和关联规则多标记分类算法 [P] . 中国专利： CN113807456A . 2021-12-17
3. STEPWISE ASSOCIATION RULE EXTRACTION METHOD BASED ON BOOLEAN EXPRESSION FOR DYNAMIC DATA [P] . 韩国专利： KR20170088469A . 2017-08-02

机译：基于布尔表达式的动态数据逐步关联规则提取方法
4. METHOD FOR EFFICIENTLY EXTRACTING QUERCETIN FROM ONIONSKINS BASED ON REPEATED EXTRACTION AND A METHOD FOR EFFICIENTLY OBTAINING POWDER FROM THE ONIONSKINS CAPABLE OF INCREASING THE CONTENT OF QUERCETIN IN ONIONSKIN EXTRACTED POWDER [P] . 韩国专利： KR20120085585A . 2012-08-01

机译：一种基于重复提取的洋葱皮中槲皮素的有效提取方法和一种能增加洋葱皮提取粉中槲皮素含量的洋葱皮中有效地获取粉末的方法
5. A method of extracting road targets based on saliency in a night vision infrared image [P] . AU2017307115B2 . 2020-05-21

机译：一种基于显着性的夜视红外图像道路目标提取方法