首页> 中国专利> 不均衡数据集的文本分类方法、文本分类器及存储介质

不均衡数据集的文本分类方法、文本分类器及存储介质

摘要

本发明公开了一种不均衡数据集的文本分类方法、文本分类器及存储介质,所述方法包括:获取用于训练分类模型的数据集;根据文本数据标注的类别信息,确定每一文本数据为多数类样本或少数类样本;计算多数类样本数量和少数类样本数量之间的比值,得到不均衡倍率;对文本数据进行预处理,得到对应的样本点以映射成向量空间;基于预设插值策略、不均衡倍率以及各个样本点,得到插值样本后,更新数据集;以更新的数据集为训练样本集,训练分类模型;获取待测文本数据,并将待测文本数据导入至训练完成的分类模型中进行分类,以得出待测文本数据属于何种类别,作为分类结果。本发明不仅能够扩大少数类样本及其边界区域,还有效提高模型的分类效果。

著录项

  • 公开/公告号CN108628971B

    专利类型发明专利

  • 公开/公告日2021-11-12

    原文格式PDF

  • 申请/专利权人 深圳前海微众银行股份有限公司;

    申请/专利号CN201810378347.8

  • 发明设计人 刘志煌;吴三平;

    申请日2018-04-24

  • 分类号G06F16/35(20190101);G06K9/62(20060101);

  • 代理机构44287 深圳市世纪恒程知识产权代理事务所;

  • 代理人胡海国;魏兰

  • 地址 518052 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)

  • 入库时间 2022-08-23 12:47:53

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号