公开/公告号CN106407357A
专利类型发明专利
公开/公告日2017-02-15
原文格式PDF
申请/专利权人 深圳市中易科技有限责任公司;
申请/专利号CN201610808113.3
发明设计人 张瑞格;
申请日2016-09-07
分类号G06F17/30;
代理机构北京科亿知识产权代理事务所(普通合伙);
代理人汤东凤
地址 518057 广东省深圳市南山区高新区南区科技南十路6号深圳航天科技创新研究院大厦A座4楼405-406室
入库时间 2023-06-19 01:32:41
法律状态公告日
法律状态信息
法律状态
2019-04-19
授权
授权
2017-03-29
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160907
实质审查的生效
2017-02-15
公开
公开
技术领域
本发明属于自然语言处理领域,尤其涉及一种文本数据规则模型开发的工程方法。
背景技术
文本数据规则模型开发,主要分模型开发、模型测试和模型监控等过程。模型开发,即根据开发语料编写规则,规则与其对应的分类一起形成模型。模型测试,则是利用样本数据对模型进行测试,从而评估该模型的性能和准确度。而在模型运行的过程中,需要定期测试模型,以监控其在实际生成环境中的状况。
现有模型开发流程中,涉及人员众多:有管理样本的业务人员,开发模型的模型开发人员,测试模型的模型测试人员以及模型上线后的运维人员。这些人员分散在各个部门,线下交流、沟通皆不方便。而且,规则模型开发是一个持续迭代,持续优化的过程,更增加了交流和沟通的工作量。
也就是说,规则模型开发是一个需要高度协助、持续迭代的开发过程。而现有的开发流程功能分散、协调不便。因此,迫切需要一套合理、科学的工程方法,用来对规则模型开发流程进行优化,从而使开发者的精力只需集中于模型本身上。
发明内容
本发明的目的在于提供一种文本数据规则模型开发的工程方法,旨在解决现有文本数据规则模型开发流程功能分散、协调不便的问题。
本发明是这样实现的,一种文本数据规则模型开发的工程方法,其特征在于,所述文本数据规则模型开发的工程方法包括:
步骤一、开发样本抽样,通过人工判读对样本进行标注,生成开发语料,
步骤二、针对开发语料进行规则开发,生成规则模型;
步骤三、对模型进行调试,若需调整分类,则重新调整分类树,回到步骤一;
步骤四、重复执行步骤一至步骤三,直至输出最优的规则模型(规则模型是指从文本数据中提取实体、概念等有价值信息的提取规则描述);
步骤五、测试样本抽样,通过人工判读对样本进行标注,生成测试语料;
步骤六、模型测试人员针对测试语料进行模型测试,具体测试步骤如下;
1)用已经开发好的模型处理测试语料,得到模型处理后的结果,处理后的结果包括:某一段上下文属于哪个分类、上下文中的实体有哪些、提取的概念是什么等;
2)将模型处理的结果与人工标注的结果进行比对,检查哪些结果不一致;
3)模型测试人员将模型处理的结果与人工标注的结果不一致的问题反馈给模型开发人员进行修改、优化;
步骤七、对模型进行优化,若需调整分类,则重新调整分类树,回到步骤五,具体模型优化步骤如下;
1)针对模型测试人员反馈的问题,对照测试语料,以及模型处理测试语料运行出来的结果,检查规则模型;
2)修改规则模型,并进行自测试,测试方法同步骤六的测试方法;
3)自测试通过后,提交给模型测试人员审核;
步骤八、重复执行步骤五至步骤七,直至输出最优的规则模型;
步骤九、模型上线,定期使用测试语料对模型进行测试,并对测试结果进行分析,若对于实时数据,模型不再准确,则重复步骤一至步骤八对模型进行优化。
2、如权利要求1所述文本数据规则模型开发的工程方法,其特征在于,开发样本抽样,用于从数据源进行数据采样,供样本标注使用;
样本标注,用于通过人工判读对样本进行分类,生成开发语料和测试语料;
开发语料,用于模型开发人员编写规则,输出模型;
测试语料,用于供模型测试使用,测试语料的标注与模型结果比较,以评估模型的准确度;
模型调试,用于输出模型后,输入样本数据进行测试。
3、如权利要求1所述文本数据规则模型开发的工程方法,其特征在于,所述步骤一具体步骤包括:
1)根据具体业务需求确定抽样数据源;
2)确定抽样规则、抽样数据量,抽样算法使数据均匀覆盖;
3)开发实现抽样算法,将数据抽取到本地文件或者临时数据库供后续标注和建模工作使用;
4)人工标注样本的上下文属于哪一个文本分类。
4、如权利要求1所述文本数据规则模型开发的工程方法,其特征在于,所述步骤二具体步骤包括:
(1)规则模型开发人员根据开发语料提取文本数据规则,所述文本数据规则包括:实体、概念、句式;
(2)开发实现规则模型源码或者脚本;
(3)编译规则模型源码,生成二进制模型文件,供后续模型执行平台调用。
5、如权利要求1所述文本数据规则模型开发的工程方法,其特征在于,所述步骤三具体步骤包括:
a、在开发测试环境编译、执行规则模型(编译过程同软件编译,执行规则模型的过程就是通过模型执行主程序调用编译后的规则模型运行);
b、查看规则模型执行结果,优化规则模型源码或者脚本(优化过程就是将模型执行的结果与人工判读的结果进行比对,检查哪些结果不一致,再针对不一致的部分修改规则模型源码或者脚本);
c、根据具体业务需求,分析分类模型是否合理(根据是否满足实际业务需求,以及分类之间尽量避免包含、交叉等关系来判断分类模型是否合理),若不合理,则修改分类模型(根据分析后的结果来对分类进行合并、拆分、删除、增加等操作);
d、若修改了分类模型,则重复步骤一,按照新的分类重新抽样,并进行
样本标注。
本发明的文本数据规则模型开发的工程方法通过顺序和循环流程将规则模型开发流程组织起来,使得功能模块内部不断迭代,达到最优;功能模块之间有序组合,避免差错;各功能模块的输入输出都得到有效处理。相比于原有方法,本工程方法具有更优的协同工作能力和更高的效率;
本发明提供的多人协作进行文本规则模型开发:对于一个复杂的文本数据挖掘项目,分类模型的分类节点少则几百个,多则成千上万,如此复杂的模型开发工作需要由一个团队多人共同完成,按照该方法,可以根据分类进行模型开发工作的分工,不同的人负责不同的分类,从而实现并行协作开发,提高项目的开发效率;多轮迭代不断优化模型:根据项目经验,一个复杂的模型需要不断迭代优化才能满足准确率和覆盖率的要求,这个过程是交替进行数据探索和模型优化的过程,该方法提供了多轮迭代开发优化模型的方法,通过多轮的开发和测试,不断提升模型的准确率和覆盖率,达到满足业务需求最优;
测试环节保证模型整体效果:这里的测试环节不同于迭代过程的测试,迭代过程的测试还是属于模型开发过程的验证和调试,而这个单独的测试环节是模型开发完正式发布到生产环境进行运行的验收测试,该方法通过这个环节,在模型发布前对模型的效果做一次最终的检验,只要达到预期的准确率和覆盖率的要求,才能发布上线;上下线环节确保模型版本正确:在整个模型的生命周期过程中,会不断的对模型进行调整和优化,因此会出现很多不同的模型版本,该方法在模型的上下线环节会对模型版本进行检查确认,确保模型版本的使用不会出错;上线后的定期监控确保模型的准确率和覆盖率:随着模型的长期运行,会不断有新的数据进入模型处理,必然会出现现有模型规则无法完全覆盖的情况,模型的准确率和覆盖率会出现下降趋势,该方法提供了定期监控模型的机制,当模型效果下降到一定阈值,会启动新一轮的模型优化过程,从而保证模型处理的效果。
附图说明
图1是本发明实施例提供的文本数据规则模型开发的工程方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
请参阅图1:
一种文本数据规则模型开发的工程方法,包括:
S101、开发样本抽样,通过人工判读对样本进行标注,生成开发语料;
S102、模型开发人员针对开发语料进行规则开发,生成模型;
S103、对模型进行调试,若需调整分类,则重新调整分类树,回到S101;
S104、重复执行S101至S103,直至输出最优的规则模型;
S105、测试样本抽样,通过人工判读对样本进行标注,生成测试语料;
S106、模型测试人员针对测试语料进行模型测试;
S107、对模型进行优化,若需调整分类,则重新调整分类树,回到S105;
S108、重复执行S105至S107,直至输出最优的规则模型;
S109、模型上线,定期使用测试语料对模型进行测试,并对测试结果进行分析,若对于实时数据,模型不再准确,则重复S101至S108对模型进行优化。
进一步,开发样本抽样,是从数据源进行数据采样,供样本标注使用;
进一步,所述步骤一具体步骤包括:
1)根据具体业务需求确定抽样数据源;
2)确定抽样规则、抽样数据量,抽样算法使数据均匀覆盖;
3)开发实现抽样算法,将数据抽取到本地文件或者临时数据库供后续标注和建模工作使用;
4)人工标注样本的上下文属于哪一个文本分类。
进一步,所述步骤二具体步骤包括:
(1)规则模型开发人员根据开发语料提取文本数据规则,所述文本数据规则包括:实体、概念、句式;
(2)开发实现规则模型源码或者脚本;
(3)编译规则模型源码,生成二进制模型文件,供后续模型执行平台调用。
进一步,所述步骤三具体步骤包括:
a、在开发测试环境编译、执行规则模型;
b、查看规则模型执行结果,优化规则模型源码或者脚本;
c、根据具体业务需求,分析分类模型是否合理,若不合理,则修改分类模型;
d、若修改了分类模型,则重复步骤一,按照新的分类重新抽样,并进行样本标注。
进一步,开发样本抽样,是从数据源进行数据采样,供样本标注使用;
样本标注,是通过人工判读对样本进行分类,生成开发语料和测试语料;
开发语料,是模型开发人员编写规则,输出模型;
测试语料,是供模型测试使用,测试语料的标注与模型结果比较,以评估模型的准确度;
模型调试,是输出模型后,输入样本数据进行测试。
本发明的文本数据规则模型开发的工程方法通过顺序和循环流程将规则模型开发流程组织起来,使得功能模块内部不断迭代,达到最优;功能模块之间有序组合,避免差错;各功能模块的输入输出都得到有效处理。相比于原有方法,本工程方法具有更优的协同工作能力和更高的效率。该方法充分考虑了文本数据规则模型整个生命周期过程,给出了模型项目工程的优秀实践,
下面结合详细技术效果对本发明的应用原理进一步说明。
本发明实施例提供的多人协作进行文本规则模型开发:对于一个复杂的文本数据挖掘项目,分类模型的分类节点少则几百个,多则成千上万,如此复杂的模型开发工作需要由一个团队多人共同完成,按照该方法,可以根据分类进行模型开发工作的分工,不同的人负责不同的分类,从而实现并行协作开发,提高项目的开发效率;
多轮迭代不断优化模型:根据项目经验,一个复杂的模型需要不断迭代优化才能满足准确率和覆盖率的要求,这个过程是交替进行数据探索和模型优化的过程,该方法提供了多轮迭代开发优化模型的方法,通过多轮的开发和测试,不断提升模型的准确率和覆盖率,达到满足业务需求最优;
测试环节保证模型整体效果:这里的测试环节不同于迭代过程的测试,迭代过程的测试还是属于模型开发过程的验证和调试,而这个单独的测试环节是模型开发完正式发布到生产环境进行运行的验收测试,该方法通过这个环节,在模型发布前对模型的效果做一次最终的检验,只要达到预期的准确率和覆盖率的要求,才能发布上线;
上下线环节确保模型版本正确:在整个模型的生命周期过程中,会不断的对模型进行调整和优化,因此会出现很多不同的模型版本,该方法在模型的上下线环节会对模型版本进行检查确认,确保模型版本的使用不会出错;
上线后的定期监控确保模型的准确率和覆盖率:随着模型的长期运行,会不断有新的数据进入模型处理,必然会出现现有模型规则无法完全覆盖的情况,模型的准确率和覆盖率会出现下降趋势,该方法提供了定期监控模型的机制,当模型效果下降到一定阈值,会启动新一轮的模型优化过程,从而保证模型处理的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 系统和软件开发过程模型的形成和验证方法,包括控制元模型的一致性和模型相对于元模型的一致性,以及控制对模型特定规则的遵循
机译: 对话结构,即信息娱乐系统的子结构,一种用于车辆中与乘客通信的人工语言系统的开发方法,涉及以图形方式绘制定义的通信规则以及规则之间的联系
机译: 设计电路系统,扩展现有方法以评估电路设计的可行性,执行电路设计的可行性评估,完善电路设计的第一决策规则,形成电路设计的第二决策规则的方法电路设计,用于为多个预先设计的电路块组织设计者的经验数据,提高胶粘逻辑分配效率,并在设计块之间分配胶粘的多个逻辑元素,并分配胶粘逻辑以在集成电路设备设计中执行方案,转换特定于电路块的接口,选择电路收集器,设计一种包含使能设备测试以验证a正确操作的设备,并开发行为测试台,项圈接口和接口系统