首页> 中国专利> 一种基于对话关系的训练数据处理方法、装置及可读介质

一种基于对话关系的训练数据处理方法、装置及可读介质

摘要

本发明公开了一种基于对话关系的训练数据处理方法、装置及可读介质,通过词典将第一数据集中的每段对话中的每一个语句进行过滤,并标记出不包含词典中任一词的待识别语句;将每段对话中待识别语句进行实体识别,将实体类别与定义的实体类别进行比对,根据对比结果对第一数据集中的每段对话中的待识别语句进行过滤得到第二数据集;统计第二数据集中的每段对话中的三元组数据的两个实体所在的语句在对话中的相对位置距离,结合临界距离对第二数据集中的三元组数据进行过滤,得到三元组数据集合;基于三元组数据集合对第二数据集中的对话进行拆分,建立以对话片段和三元组单元作为最小训练单元的训练数据。本发明能减少无效信息干扰,实现数据增强。

著录项

  • 公开/公告号CN113268577B

    专利类型发明专利

  • 公开/公告日2022.08.23

    原文格式PDF

  • 申请/专利权人 厦门快商通科技股份有限公司;

    申请/专利号CN202110624573.1

  • 发明设计人 邹辉;肖龙源;李稀敏;

    申请日2021.06.04

  • 分类号G06F16/332(2019.01);G06F16/33(2019.01);G06F16/335(2019.01);G06F40/242(2020.01);G06F40/295(2020.01);G06K9/62(2022.01);

  • 代理机构厦门市首创君合专利事务所有限公司 35204;

  • 代理人张松亭

  • 地址 361000 福建省厦门市软件园三期诚毅北大街63号1301单元

  • 入库时间 2022-09-26 23:16:43

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号