首页> 中国专利> 智能高效的印刷业管理系统NLQI改进方法

智能高效的印刷业管理系统NLQI改进方法

摘要

本发明的智能高效的印刷业管理系统NLQI改进方法,改进后语义文法的分析规则简化为对三类非完结点的判定,且将判定过程彻底交由本体完成,较好的解决了现有技术语义文法存在的问题;基于自然语言检索语句结构化与非结构化短语并存的特征,结合改进后语义文法树的特有结构,提出一种以结构化短语分析为主,非结构化短语单独处理的语义分析方法;为满足印刷业管理系统在新形势下,提出印刷业管理系统NLQI的系统架构,并提出印刷物料管理模块的NLQI,实验证明本发明的印刷业管理系统NLQI改进方法具有高效性,能够显著增强印刷业管理系统的检索功能,能够以更为友好和智能的方式满足印刷业管理系统信息检索的需要。

著录项

  • 公开/公告号CN113033159A

    专利类型发明专利

  • 公开/公告日2021-06-25

    原文格式PDF

  • 申请/专利权人 高小翎;

    申请/专利号CN202110470464.9

  • 发明设计人 高小翎;王成;

    申请日2021-04-28

  • 分类号G06F40/14(20200101);G06F40/242(20200101);G06F40/253(20200101);G06F40/279(20200101);G06F40/30(20200101);

  • 代理机构

  • 代理人

  • 地址 317200 浙江省台州市天台县赤城街道工人东路176号

  • 入库时间 2023-06-19 11:35:49

说明书

技术领域

本发明涉及一种印刷业管理系统NLQI改进方法,特别涉及一种智能高效的印刷业管理系统NLQI改进方法,属于高效NLQI改进技术领域。

背景技术

随着大数据时代的到来,数据已成为一种重要的生产力。面对海量数据,如何以更为友好的方式实现对数据快速检索成为一项难题。现阶段,对关系数据库的检索方式主要有两种:一种是面向专业人员的形式化检索语言,如SQL,另一种是面向用户的图形化操作界面。形式化检索语言功能强大,但其有着较强的语法限定,对于普通用户来说较难掌握。而图形化检索界面在检索时需要将后台数据库结构呈现给用户,对于复杂的数据库结构,其界面会过于复杂,从而会大幅降低图形化界面的人机交互性和检索效率。另外,图形化界面的检索功能较弱,只能进行简单的单表检索。

自然语言检索接口(NLQI)是一种用户可通过自然语言的方式同计算机进行交互,以获得相关信息的智能化界面,它是自然语言处理技术在人机交互接口上的具体应用,利用自然语言处理技术将用户自然检索语句转换为形式化检索语言,由形式化语言完成具体检索过程。与形式化检索语言、图形化检索界面相比,NLQI具有以下优势:一是较强的人机交互性,以自然语言的方式进行检索,或者结合语音识别技术进行语音检索,更加符合用户习惯;二是物理与逻辑独立性,NLQI是架构于形式化检索语言之上的检索技术,它依靠领域内相关术语进行数据库检索,数据库物理存储及逻辑上的结构无需呈现给用户,人机交互界面更加简洁;三是易于掌握,用户通过自然语言进行数据库检索不用去学习那些多样且特定的语法结构,更易于掌握;四是较强的表达能力,常见网络搜索引擎一般都是基于关键词检索,这种方式损失了大量的语义信息,表达能力受到限制,检索结果有时并不能彻底符合用户需求,而NLQI能充分利用用户表达的信息,具有较高的查准率。

在印刷行业中,ERP系统是最常见的管理软件,它以信息技术为基础,将印刷业中各个部门数据信息系统的联系在一起,实现了资源的优化及信息的共享,以达到对印刷业的物料、资金、时间、人力等资源与信息等进行系统化管理。但印刷ERP系统在实际生产中的应用还存在着许多问题,例如物料管理中存在物料代码多导致记忆困难、界面复杂、检索速度慢、检索方式单一等问题。而且目前印刷业管理系统在印刷业中还远没有普及,作为传统行业,印刷业在“互联网+”的风口上面临巨大挑战,无论是经营生产方式,还是管理方式上都在发生巨大的变革,对于印刷业管理系统所存在的问题以及正在发生的变化,现有技术印刷ERP基于图形化的交互界面,已经很难应对。首先,图形化交互界面需要将后台数据的存储和逻辑结构彻底呈现给用户,以供用户进行检索,而功能覆盖面的增加会使后台数据增加且数据库结构更为复杂,这势必也会增加用户界面的复杂程度,带来用户检索效率的下降,影响用户体验。另外,企业管理系统客户端越来越趋向便捷、小型化的发展趋势也使得复杂、繁多的图形化界面难以适应。最重要的是,面对企业管理系统到商业智能系统转变所带来的智能性交互的增加,现有技术图形化检索界面仅能够处理单数据表内简单检索的特征已经不能满足需求。而NLQI技术能较好解决上述问题,首先它将后台数据的逻辑和存储结构彻底屏蔽,用户只需要一个输入接口就能完成对整个ERP系统的控制,因此,用户界面简洁,更能适应印刷ERP系统架构上的变化,相对于图形化界面,其灵活性与适用范围也大大增强。并且,自然语言最符合人类输入习惯,具有较好的人机交互性,它能最大限度的理解用户的意图,进而进行逻辑推理,辅助用户做出最正确的决策,因此自然语言接口也最为适应印刷ERP系统智能化转变的接口。

但是,现有技术的NLQI技术运用在印刷业管理系统中依然存在诸多不足,现有技术的难点和本发明解决的问题主要集中在以下方面:

第一,现有技术印刷ERP系统在实际生产中的应用还存在着许多问题,例如物料管理中存在物料代码多导致记忆困难、界面复杂、检索速度慢、检索方式单一等问题,而且目前印刷业管理系统在印刷业中还远没有普及,对于印刷业管理系统所存在的问题以及正在发生的变化,现有技术印刷ERP基于图形化的交互界面,已经很难应对,图形化交互界面需要将后台数据的存储和逻辑结构彻底呈现给用户,而功能覆盖面的增加会使后台数据增加且数据库结构更为复杂,增加用户界面的复杂程度,带来用户检索效率的下降,影响用户体验,企业管理系统客户端越来越趋向便捷、小型化的发展趋势也使得复杂、繁多的图形化界面难以适应,面对企业管理系统到商业智能系统转变所带来的智能性交互的增加,现有技术图形化检索界面仅能够处理单数据表内简单检索的特征已经不能满足需求;

第二,受信息技术和印刷业数字化发展的影响,印刷业管理系统在功能和架构上发生了巨大的变化,现有技术的图形化人机交互模式显得越来越繁杂,交互友好性迅速下降,NLQI能较好的应对这些问题,但现有技术自然语言处理技术的发展依然不够成熟,将结构化短语与非结构短语并存的自然语言转换为彻底结构化形式的检索语言,存在诸多困难,自然语言检索语句常存在嵌套检索、组合检索等复杂句式结构及冗缺模糊等问题,且印刷业管理系统数据库复杂,跨表检索非常常见,这些都增加了理解自然语言的困难程度;

第三,为了对检索语句进行更加明确的表示,语义文法将语义信息引入到语法树的结构中,虽然语义文法相对于现有技术的形式文法来说具有诸多优点,但语义信息的加入也带来一些问题。首先语义文法以具有语义信息的词语作为非完结点,增加非完结点之间的区分度,使语法树结构更为复杂,造成语义文法分析规则数量的大幅增加,从而增加了分析规则编写工作量;其次,语义信息具有较强的领域相关性,语义文法的通用性会受到较大限制;另外,语义文法树的结点种类多,使语法树的结构极为复杂,增加后续语义分析和SQL语句生成的难度,甚至影响自然语言检索语句转换的准确性;

第四,语法分析树本质上还是在语法层次上对句式结构进行分析,分析的准确性很难得到保证,尤其是语法分析没有对语法树结构中的检索条件短语和检索目标短语进行详尽的分析,无法保证对实体修饰关系的准确性,也还尚未彻底转化为结构化数据,无法进行SQL语句转换,因此还需对检索条件和检索目标进行语义分析。NLQI是架构于关系型数据库之上的人机交互方式,关系型数据库的存储结构决定其所存储的数据与信息结构化较强。因此,自然语言检索语句也具有较强的结构性,但自然语言检索语句作为自然语言的子集,仍是一个无限集,也具有自然语言模糊的特征,尤其是NLQI直接与人类进行交互,检索语句的口语化较强,自然语言检索语句中非结构化短语也时常出现;

第五,汉语自然语言检索语句是一种对关系数据库进行检索的方式,其结构化往往较强。但自然语言检索语句作为自然语言的子集,口语化强,非结构化短语也时常存在,现有技术没有合适的处理方法,对于语法分析树的构建是在语法层面的分析过程,存在一定的片面性的问题。另外,结构化单检索条件存在冗缺指代的自然语言模糊现象,单检索条件的形式不统一,模板匹配过程中模板的数量大,模板库结构复杂,模板匹配效率低,不能对自然语言中的冗缺指代模糊现象进行灵活处理。

发明内容

针对现有技术的不足,本发明提供一种智能高效的印刷业管理系统NLQI改进方法,采用语义文法构建检索语句语法分析树,并对语义文法进行改进,使语义文法树结构得到简化,降低了文法规则的编写工作量,同时也增强了语义文法的可移植性;针对改进后语法树结构,提出一种结构与非结构化分别处理的语义分析算法,这种结构化短语和非结构化短语分而治之的语义分析算法,扩大了NLQI的适用范围,提高了自然语言检索语句的转换准确率;设计实现印刷业管理系统物料管理模块NLQI,增强了印刷业管理系统的检索功能,能够以更友好和智能的方式满足印刷业管理系统对企业管理信息检索的需要,检索准确可靠。

为达到以上技术效果,本发明所采用的技术方案如下:

智能高效的印刷业管理系统NLQI改进方法,一是对语义文法进行改进,改进后语义文法的分析规则简化为对三类非完结点的判定,且将判定过程交由本体完成;二是基于自然语言检索语句结构化与非结构化短语并存的特征,结合改进后语义文法树的特有结构,提出一种以结构化短语分析为主,非结构化短语单独处理的语义分析方法,该方法包括:基于词性模板匹配细分检索短语、基于本体的结构化短语语义解析、基于规则的非结构化短语语义演绎推断、语义树校正和形式化语言SQL生成五部分;三是提出印刷业管理系统NLQI的系统架构,并提出印刷物料管理模块的NLQI;

本发明基于数据库NLQI的语法分析、语义分析和算法,对印刷业管理系统NLQI进行改进,主要包括:

第一,采用语义文法构建检索语句语法分析树,并对语义文法进行改进;对语义文法的结构进行了改进,将非完结点归纳为三类:实体、检索条件和检索目标,分析规则被简化为对这三类非完结结点的判定,且判定过程交由专业本体负责,改进后语义文法,使语义文法树结构得到简化,降低文法规则的编写工作量,同时增强语义文法的可移植性;

第二,针对改进后语法树结构,提出一种结构与非结构化分别处理的语义分析算法;基于改进后的语义文法构建的语法树特殊结构,并结合自然语言检索语句结构化短语与非结构化短语并存的特征,提出基于专业本体与产生式规则的语义分析算法,采用词性模板匹配算法对检索短语进行细分,根据匹配结果将细分短语划分为:结构化短语和非结构化短语,对两类细分短语分别采用基于专业本体模型的分析算法和基于产生式规则的推理算法进行语义分析,将其转换为标准检索条件六元组和标准检索目标两元组结构,最后根据语义分析结果,对语义分析树进行校正,将校正后的语义树转换为形式化检索语言SQL,结构化短语和非结构化短语分而治之,扩大NLQI的适用范围,提高自然语言检索语句的转换准确率;

第三,设计实现印刷业管理系统物料管理模块NLQI,设计印刷业管理系统NLQI的系统架构,以此为基础实现物料管理模块NLQI,构建物料管理模块数据库、专业本体以及规则库、分词和词性标注词典、同义词词典、单位换算词典和属性值语义库,增强印刷业管理系统的检索功能。

智能高效的印刷业管理系统NLQI改进方法,进一步的,构建语法树对词性序列进行语法分析,首先基于语义文法的形式文法和上下文无关文法存在的缺点进行改进,并基于改进后的语义文法构建语法分析树;

NLQI语义文法改进方法和过程:检索语句由三部分构成:目标实体、目标实体属性和目标实体的修饰成分,其中,目标实体的修饰成分由两部分构成:一个是对目标实体进行修饰的其它实体,另一个是实体的修饰短语,依次类推,每一个实体的修饰成分都均由这两部分构成,另外,结合对SQL的分析,在语法功能上,所提到的目标实体的修饰成分、目标实体及目标实体属性同SQL语句中的Where子句、From子句和Select子句相对应,本发明在现有技术语义文法的基础之上做如下定义以及改进:

定义1:语法分析树CR={Entity,Target},其中,Entity表示实体,是对某一具体概念的表示,Target表示检索目标短语,是用户要检索目标实体的属性,或为缺省值;

定义2:实体Entity={Text,Entity

对比形式文法四元组F=(M,Σ,Q,C),实体Entity、检索目标Target和检索条件Condition对应形式文法F中集合M所包含的非完结结点,检索条件Condition和检索目标Target中的各词语对应形式文法F中集合Σ所包含的完结符,CR为语句的初始符,对应F中的C,规则的有限集合Q则被简化为三条,即对实体Entity、检索条件短语Condition和目标属性短语Target的判定。

智能高效的印刷业管理系统NLQI改进方法,进一步的,基于改进后语义文法构建语法树:本发明基于移进规约算法构建语法分析树,首先对输入的检索语句自左至右进行扫描,并把输入的词语逐个移入一个先进后出的栈中,边移入边进行分析,移入的过程为移步,本发明规约的过程分为三种情形:情形一,根据专业本体知识模型判定栈顶元素是否为实体,若为实体,且栈中实体词对该实体存在修饰关系,则将该实体规约为当前实体的修饰实体Entity

不断重复以上过程,直至分析到输入语句的右边界为止,若栈中只剩一个实体则分析成功,将此实体赋值给语法分析树CR中的Entity,将栈中其余词语赋值给语法分析树CR中的Target。

智能高效的印刷业管理系统NLQI改进方法,进一步的,对检索语句中检索目标进行特殊处理,首先对于祈使句,句首的检索动词不具备实际的检索意义,与陈述句的句式结构并无大的差异,同陈述句一样,直接按照移进规约算法构建语法树,而不同疑问句之间的句式结构也存在较大差别,部分疑问句作为陈述句对待,对这类疑问句也直接利用移进规约算法进行分析,而另外一些疑问句同陈述句在句式结构上存在较大差别,这类检索语句的用户检索目标实体以及属性为语句的前半部分,在对语句进行分析前,首先根据疑问词的位置是否位于语句前半部分,判定语句是否为检索目标位于句首的疑问句,若为此类疑问句,则从句首依次进行遍历,当前词语为实体词时将此词语定义为实体,并赋值给语法树CR中的Entity,然后对剩余词语按照移进规约算法进行检索条件识别,将分析后的结果作为Entity的修饰成分。

智能高效的印刷业管理系统NLQI改进方法,进一步的,本发明的NLQI是架构于关系型数据库之上的人机交互方式,关系型数据库的存储结构决定其所存储的数据与信息结构化较强,结合改进后语义文法分析树的特有结构,本发明提出基于专业本体和产生式规则的语义分析算法,对结构化短语和非结构化短语分别进行处理,并进行语义树调整,包括基于词性模板匹配细分检索短语、检索短语语义分析、语义分析树校正、SQL语句生成;

基于词性模板匹配细分检索短语:基于词性模板匹配细分检索短语算法的相关定义以及算法的具体过程如下:

定义一,词性模板是某一类结构相似的短语中词语词性的集合,体现检索语句的局部语法信息,是典型的单检索条件短语的词性模板,本发明基于词性模板匹配的检索短语划分过程为:

过程一,根据检索条件短语中的逻辑连接词将其粗分为n个短语;

过程二,设定mMax初始值,从mStart位置自左至右顺序取词性字符串的mMax个字符;

过程三,将取出的mMax个字符的词性组合与词性模板库中已定义的词性模板进行匹配,如果匹配成功,将此词性字符串对应的词语输出,作为一个结构化短语,并向右移动相应长度,重复过程二,继续进行匹配,如果匹配不成功,令mMax=mMax–1;

过程四,判定mMax是否小于等于0,如果mMax≤0,将当前词语作为非结构化短语的一个词语输出,取词开始位置向右移动一个单位,即mStart=mStart+1,重复过程二,如果mMax>0,直接重复过程二;

过程五,当所有词语匹配完毕,mStart不小于短语长度后结束。

智能高效的印刷业管理系统NLQI改进方法,进一步的,检索短语语义分析:在完成词性模板匹配之后,细分检索条件短语,细分短语被分为为二类:一类为匹配成功的结构化细分短语,利用基于本体的语义分析算法对其进行分析;另一类为匹配失败的非结构化细分短语,借助产生式规则进行演绎推断分析;

基于本体的结构化短语语义解析:结构化检索语句到形式化检索语句的转换,以专业本体所描述的领域知识作为数据支撑,利用实体、属性、属性值及单位之间的关系,将语法分析后的结构化单检索语句转换为检索条件与检索目标的标准形式,本发明所做相关定义及分析算法具体过程为:

定义二,检索条件六元组SeaCondiTuple={Entities,Properties,Operator,Values,Units,ConnectWord};

定义三,检索目标两元组TargetSeaTuple={Entities,Properties};

其中,元素Entities是该检索条件短语可能的实体集合,元素Properties是该检索条件短语可能的实体属性集合,元素Operator是连接动词,元素Values是具体属性值,元素Units是属性值的单位,此元素可缺省,元素ConnectWord是逻辑连接词,与其后的单检索条件的逻辑关系,对一个单检索条件短语,在专业本体概念模型的支撑下,对每一个词语进行分析,判定其为实体、属性或者属性值,并根据它们之间关系,进行相互之间的推理,根据实体、属性、属性值来源不同,对元组中的每个元素赋予不同的权值k,假设经过语义分析后得到n个元组,其中某一元素共有m个相同的值,则每个不同的元素值所获得的权重值为:

某一元素所有值的权重值为:

Ele(θ)={θ

其中取:

Ele=argmax(Ele(k)) 式3

得到标准检索条件和检索目标元组后,后续根据修饰关系进行语法分析树的调整和最终检索条件与目标的确定。

智能高效的印刷业管理系统NLQI改进方法,进一步的,产生式规则的非结构化短语语义演绎推断:采用基于产生式规则进行语义演绎推断的方式对非结构化检索短语进行分析,产生式规则形式为:If W Then R,其中,W表示某一特定的前提条件,R表示后续处理过程或结果,它的整体含义为:W为真,则执行动作W或直接得出结论W,对于一组具有相同结论Sw的产生式规则用式4表示为:

其中,B

本发明在进行推理时,设计的产生式规则结构如式5所示:

其中,W

智能高效的印刷业管理系统NLQI改进方法,进一步的,语义分析树校正:基于检索条件与目标语义分析结果,并结合分析树上下文信息,对检索条件与目标在树中的位置进行调整,检索条件与目标的位置校正消除模糊,保障自然语言检索语句检索准确率,本发明分检索条件校正、实体添加与删除、检索目标校正三种情形,对分析树进行校正;

在进行完语法分析、语义分析及位置调整后,基于自然语言的二义性问题,将元组信息呈现给用户,根据用户的反馈确定最终的语义分析树。

智能高效的印刷业管理系统NLQI改进方法,进一步的,SQL语句生成:经过语法分析和语义分析后,检索语句被转换为由检索条件六元组、检索目标两元组和实体组成的语义分析树形式,语义分析树就能较为容易的转换为SQL语句;

实体修饰关系的转换:对自然语言跨表检索的转换通过嵌套子检索语句实现,进行转换时,首先通过本体模型获得修饰实体和被修饰实体之间的关联属性,以此判定数据库模型中连接对应两表的外键,然后通过SQL语句中的IN语句连接两个关联字段,最后将被修饰实体转换为SQL子句,并依次递归,直到最低层修饰实体。

智能高效的印刷业管理系统NLQI改进方法,进一步的,本发明的印刷业管理系统NLQI系统架构由四层组成,分别为用户交互层、应用层、数据层、基础数据层,其中,用户交互层:提供同计算机进行交互的界面,包括用户自然语言检索语句的输入接口,语法和语义分析时,二义性问题的呈现接口及用户处理结果的反馈接口,最终检索结果的展示界面;应用层:自然语言检索语句被转换为SQL语句,对于用户的输入,首先在分词与词性标注语料库、同义词词典和专业本体知识库的支撑下,进行分词、词性标注和语义扩展预处理,为后续对自然语言的理解做好数据准备,然后对预处理后的词语序列进行语法分析,解析为语法树的形式,经过语义分析,解析为语义树的形式,并对在解析过程中出现的歧义,根据用户反馈进行处理,最后通过SQL生成器将语义树翻译为SQL语句,交由数据库管理系统进行数据库检索,将检索结果输出给用户;数据层:包括两部分:一是用于自然语言理解的领域知识,包括专业本体库、属性值语义库、词性模板库、分词和词性标注语料库、同义词词典和单位转换词典,另一部分是要进行检索的数据内容,指印刷业物料管理的相关数据库;基础数据层:为数据层各种数据的来源,包括领域专家和印刷业管理系统。

与现有技术相比,本发明的贡献和创新点在于:

第一,基于语义文法构建层次清晰的语法分析树,对语句进行解析表达,但语义信息的加入会使语义文法出现规则数量大、规则编写困难、语法树结构复杂及可移植性差的问题,本发明对语义文法进行改进,改进后语义文法的分析规则简化为对三类非完结点的判定,且将判定过程彻底交由本体完成,较好的解决了现有技术语义文法存在的问题;基于自然语言检索语句结构化与非结构化短语并存的特征,结合改进后语义文法树的特有结构,提出一种以结构化短语分析为主,非结构化短语单独处理的语义分析方法;为满足印刷业管理系统在新形势下,功能架构、智能性方面的变化对人机交互性要求的提高,提出印刷业管理系统NLQI的系统架构,并提出印刷物料管理模块的NLQI,实验证明本发明的印刷业管理系统NLQI改进方法具有高效性,能够显著增强印刷业管理系统的检索功能,能够以更为友好和智能的方式满足印刷业管理系统信息检索的需要,具有很高的实用价值和广阔的应用前景;

第二,采用语义文法构建检索语句语法分析树,并对语义文法进行改进;语义信息的加入使语法树对检索语句的表述更加准确,对复杂结构数据库检索的嵌套、组合和跨表检索有较好的处理效果,但现有技术语义文法以具有语义信息的词语作为非完结点,增加了结点之间的区分度,使语法树结构变的复杂,不利于后续语义分析的进行;另外,结点区分度的增加,也造成了语义文法分析规则数量的大幅增加,增加了规则编写工作量;而且,语义信息具有较强的领域相关性,语义文法的通用性会受到较大的限制,针对现有技术语义文法存在的这些问题,本发明对语义文法的结构进行了改进,将非完结点归纳为三类:实体、检索条件和检索目标,分析规则被简化为对这三类非完结结点的判定,且判定过程交由专业本体负责,改进后语义文法,使语义文法树结构得到简化,降低了文法规则的编写工作量,同时也增强了语义文法的可移植性;

第三,针对改进后语法树结构,提出一种结构与非结构化分别处理的语义分析算法;基于改进后的语义文法构建的语法树结构较特殊,并结合自然语言检索语句结构化短语与非结构化短语并存的特征,提出基于专业本体与产生式规则的语义分析算法,采用词性模板匹配算法对检索短语进行细分,根据匹配结果将细分短语划分为:结构化短语和非结构化短语,对两类细分短语分别采用基于专业本体模型的分析算法和基于产生式规则的推理算法进行语义分析,将其转换为标准检索条件六元组和标准检索目标两元组结构,最后根据语义分析结果,对语义分析树进行校正,将校正后的语义树转换为形式化检索语言SQL,这种结构化短语和非结构化短语分而治之的语义分析算法,扩大了NLQI的适用范围,提高了自然语言检索语句的转换准确率;

第四,设计实现印刷业管理系统物料管理模块NLQI,本发明设计印刷业管理系统NLQI的系统架构,以此为基础实现物料管理模块NLQI,构建物料管理模块数据库、专业本体以及规则库、分词和词性标注词典、同义词词典、单位换算词典和属性值语义库,实验表明本发明所采用的NLQI设计方法的智能性和高效性,该NLQI增强了印刷业管理系统的检索功能,能够以更友好和智能的方式满足印刷业管理系统对企业管理信息检索的需要,检索准确可靠;

第五,本发明改进后语义文法的非完结点概括为三类:Entity、Condition、Target,因此,改进后的语法分析树结构较现有技术语义文法结构得到较大简化,且三类非完结点与SQL语句中最重要的三个子句Select、From和Where相互对应,结构更为合理,减少了后续语义分析及SQL语句生成过程的难度。而且,改进后语义文法对各非完结结点判定过程彻底交由专业本体知识模型和属性值语义库进行判别,本体的构建已形成完整的方法,并且有方便的建模工具Protege与操作工具Jena,使语义文法分析规则的表示有章可循,降低规则编写难度,改善语义文法带来的规则量大且繁杂的问题,大幅增强了语义文法的可移植性。

附图说明

图1是本发明移进规约算法构建语法分析树的方法示意图。

图2是本发明语义分析算法的流程示意图。

图3是本发明检索短语划分的整体流程示意图。

图4是本发明词性模板匹配过程示意图。

图5是本发明的实体增加与校正示例图。

图6是本发明检索语句语义分析树结构示意图。

图7是本发明的印刷业管理系统NLQI系统架构图。

具体实施方式

下面结合附图,对本发明提供的智能高效的印刷业管理系统NLQI改进方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。

伴随人工智能技术的高速发展,社会生产中对计算机本身的智能性,人机交互的友好性提出了更高要求。与此同时,受信息技术和印刷业数字化发展的影响,印刷业管理系统在功能和架构上发生了巨大的变化,覆盖范围不断扩大,架构更趋于便捷,智能性要求越来越高,现有技术的图形化人机交互模式显得越来越繁杂,交互友好性迅速下降。

自然语言检索接口(NLQI)能较好的应对这些问题,但现有技术自然语言处理技术的发展依然不够成熟,将结构化短语与非结构短语并存的自然语言转换为彻底结构化形式的检索语言,存在诸多困难,另外,自然语言检索语句常存在嵌套检索、组合检索等复杂句式结构及冗缺模糊等问题,且印刷业管理系统数据库复杂,跨表检索非常常见,这些都增加了理解自然语言的困难程度。

针对这些问题,本发明改进数据库NLQI的语法分析和语义分析算法,包括:第一,剖析嵌套和跨表、组合及冗缺模糊的复杂句式结构表达与解析难点,基于语义文法构建层次清晰的语法分析树,对语句进行解析表达,但语义信息的加入会使语义文法出现规则数量大、规则编写困难、语法树结构复杂及可移植性差的问题,对此,本发明对语义文法进行改进,改进后语义文法的分析规则简化为对三类非完结点的判定,且将判定过程彻底交由本体完成,较好的解决了现有技术语义文法存在的问题;第二,基于自然语言检索语句结构化与非结构化短语并存的特征,结合改进后语义文法树的特有结构,提出一种以结构化短语分析为主,非结构化短语单独处理的语义分析方法,该方法包括:基于词性模板匹配细分检索短语、基于本体的结构化短语语义解析、基于规则的非结构化短语语义演绎推断、语义树校正和形式化语言SQL生成五部分;第三,为满足印刷业管理系统在新形势下,功能架构、智能性方面的变化对人机交互性要求的提高,本发明提出印刷业管理系统NLQI的系统架构,并提出印刷物料管理模块的NLQI。实验证明本发明的印刷业管理系统NLQI改进方法具有高效性,能够显著增强印刷业管理系统的检索功能,能够以更为友好和智能的方式满足印刷业管理系统信息检索的需要。

一、基于语义文法构建语法树

语法树层次清晰,能够对复杂句式结构(嵌套、组合、冗缺模糊现象)进行全面描述,因此本发明构建语法树对词性序列进行语法分析,首先基于语义文法的形式文法和上下文无关文法,根据语义文法存在的缺点,对现有技术语义文法进行改进,并基于改进后的语义文法构建语法分析树。

虽然语义文法相对于现有技术的形式文法来说具有诸多优点,但语义信息的加入也带来一些问题。首先语义文法以具有语义信息的词语作为非完结点,增加非完结点之间的区分度,造成语义文法分析规则数量的大幅增加;其次,语义信息具有较强的领域相关性,语义文法的通用性会受到较大限制;另外,语义文法树的结点种类多,使语法树的结构极为复杂,增加后续语义分析和SQL语句生成的难度,甚至影响自然语言检索语句转换的准确性,针对现有技术语义文法所存在的这些问题,本发明对现有技术语义文法进行改进。基于改进后的语义文法的构建语法树。

(一)NLQI语义文法改进方法和过程

本发明基于常用检索语句分析得出,检索语句由三部分构成:目标实体、目标实体属性和目标实体的修饰成分。其中,目标实体的修饰成分由两部分构成:一个是对目标实体进行修饰的其它实体,另一个是实体的修饰短语(通常为对实体属性的限制),依次类推,每一个实体的修饰成分都均由这两部分构成,另外,结合对SQL的分析,在语法功能上,所提到的目标实体的修饰成分、目标实体及目标实体属性同SQL语句中的Where子句、From子句和Select子句相对应,本发明在现有技术语义文法的基础之上做如下定义以及改进:

定义1:语法分析树CR={Entity,Target},其中,Entity表示实体,是对某一具体概念的表示,Target表示检索目标短语,是用户要检索目标实体的属性,或为缺省值;

定义2:实体Entity={Text,Entity

对比形式文法四元组F=(M,Σ,Q,C),实体Entity、检索目标Target和检索条件Condition对应形式文法F中集合M所包含的非完结结点,检索条件Condition和检索目标Target中的各词语对应形式文法F中集合Σ所包含的完结符,CR为语句的初始符,对应F中的C,规则的有限集合Q则被简化为三条,即对实体Entity、检索条件短语Condition和目标属性短语Target的判定。

(二)基于改进后语义文法构建语法树

基于上述改进的语义文法,本发明基于移进规约算法构建语法分析树,构建过程如图1所示。首先对输入的检索语句(分词、词性标注后词语集合)自左至右进行扫描,并把输入的词语逐个移入一个先进后出的栈中,边移入边进行分析,移入的过程为移步,本发明规约的过程分为三种情形:情形一,根据专业本体知识模型判定栈顶元素是否为实体,若为实体,且栈中实体词对该实体存在修饰关系,则将该实体规约为当前实体的修饰实体Entity

不断重复以上过程,直至分析到输入语句的右边界为止,若栈中只剩一个实体则分析成功,将此实体赋值给语法分析树CR中的Entity,将栈中其余词语赋值给语法分析树CR中的Target。

用户用于检索的自然语言语句大多为祈使句、陈述句和疑问句,这三种句型所占比例超过90%。不同句型拥有不同的句式结构,检索语句中检索目标的位置也就有所不同。因此,本发明对检索语句中检索目标进行特殊处理,首先对于祈使句,句首的检索动词不具备实际的检索意义,与陈述句的句式结构并无大的差异,同陈述句一样,直接按照移进规约算法构建语法树,而不同疑问句之间的句式结构也存在较大差别,有些疑问句作为陈述句对待,对这类疑问句也直接利用移进规约算法进行分析,而另外一些疑问句同陈述句在句式结构上存在较大差别,这类检索语句的用户检索目标实体以及属性为语句的前半部分,在对语句进行分析前,首先要根据疑问词的位置(是否位于语句前半部分),判定语句是否为检索目标位于句首的疑问句,若为此类疑问句,则从句首依次进行遍历,当前词语为实体词时将此词语定义为实体,并赋值给语法树CR中的Entity,然后对剩余词语按照移进规约算法进行检索条件识别,将分析后的结果作为Entity的修饰成分。

(三)改进后语义文法的特征

改进后语义文法的非完结点概括为三类:Entity、Condition、Target,因此,改进后的语法分析树结构较现有技术语义文法结构得到较大简化,且三类非完结点与SQL语句中最重要的三个子句Select、From和Where相互对应,结构更为合理,减少了后续语义分析及SQL语句生成过程的难度。而且,改进后语义文法对各非完结结点判定过程彻底交由专业本体知识模型和属性值语义库进行判别,本体的构建已形成完整的方法,并且有方便的建模工具Protege与操作工具Jena,使语义文法分析规则的表示有章可循,降低规则编写难度,改善语义文法带来的规则量大且繁杂的问题,大幅增强了语义文法的可移植性。

二、基于专业本体与产生式规则的语义分析

语法分析后得到的语法树对检索语句的语句整体结构已有一个较完整的描述,且部分语义信息的加入更是增加了语法分析的作用。但语法分析树本质上还是在语法层次上对句式结构进行分析,分析的准确性很难得到保证,尤其是语法分析没有对语法树结构中的检索条件短语和检索目标短语进行详尽的分析,无法保证对实体修饰关系的准确性,也还尚未彻底转化为结构化数据,无法进行SQL语句转换,因此还需对检索条件和检索目标进行语义分析。

本发明的NLQI是架构于关系型数据库之上的人机交互方式,关系型数据库的存储结构决定其所存储的数据与信息结构化较强。因此,自然语言检索语句也具有较强的结构性,但自然语言检索语句作为自然语言的子集,仍是一个无限集,也具有自然语言模糊的特征,尤其是NLQI直接与人类进行交互,检索语句的口语化较强,自然语言检索语句中非结构化短语也时常出现。针对这一特征,结合改进后语义文法分析树的特有结构,本发明提出了基于专业本体和产生式规则的语义分析算法,对结构化短语和非结构化短语分别进行处理,并进行语义树调整。该算法流程如图2所示。

(一)基于词性模板匹配细分检索短语

修饰实体的检索条件短语,是多个检索条件的组合,对其进行正确的理解与转换,需要首先划分检索条件短语,将其划分为多个单检索条件短语,然后进行分析,结构化单检索条件符合语义三元组结构,即主语+谓语+宾语,但也存在冗缺指代的自然语言模糊现象,单检索条件的形式不统一。

本发明提出基于词性模板匹配细分检索短语算法,所做相关定义以及算法的具体过程如下:

定义一,词性模板是某一类结构相似的短语中词语词性的集合,体现检索语句的局部语法信息,是典型的单检索条件短语的词性模板,图3描述了检索短语划分的整体流程。其中,具体词性模板匹配过程如图4所示。本发明基于词性模板匹配的检索短语划分过程为:

过程一,根据检索条件短语中的逻辑连接词(并且、或者等)将其粗分为n个短语;

过程二,设定mMax初始值,从mStart位置自左至右顺序取词性字符串的mMax个字符;

过程三,将取出的mMax个字符的词性组合与词性模板库中已定义的词性模板进行匹配,如果匹配成功,将此词性字符串对应的词语输出,作为一个结构化短语,并向右移动相应长度,重复过程二,继续进行匹配,如果匹配不成功,令mMax=mMax–1;

过程四,判定mMax是否小于等于0,如果mMax≤0,将当前词语作为非结构化短语的一个词语输出,取词开始位置向右移动一个单位,即mStart=mStart+1,重复过程二,如果mMax>0,直接重复过程二;

过程五,当所有词语匹配完毕(mStart不小于短语长度)后结束。

基于词性模板匹配的检索条件短语细分算法既能充分利用单检索条件词性组合模式固定这一特征,减少模板匹配过程中模板的数量,降低模板库结构的复杂性,使模板匹配效率提高,又能对自然语言中的冗缺指代模糊现象进行灵活处理,提高处理的准确性。

(二)检索短语语义分析

在完成词性模板匹配之后,细分检索条件短语,细分短语被分为为二类:一类为匹配成功的结构化细分短语,利用基于本体的语义分析算法对其进行分析;另一类为匹配失败的非结构化细分短语,借助产生式规则进行演绎推断分析。

1、基于本体的结构化短语语义解析

结构化检索语句到形式化检索语句的转换,以专业本体所描述的领域知识作为数据支撑,利用实体、属性、属性值及单位之间的关系,将语法分析后的结构化单检索语句转换为检索条件与检索目标的标准形式,本发明所做相关定义及分析算法具体过程为:

定义二,检索条件六元组SeaCondiTuple={Entities,Properties,Operator,Values,Units,ConnectWord}。

定义三,检索目标两元组TargetSeaTuple={Entities,Properties};

其中,元素Entities是该检索条件短语可能的实体集合,元素Properties是该检索条件短语可能的实体属性集合,元素Operator是连接动词,元素Values是具体属性值,元素Units是属性值的单位,此元素可缺省,元素ConnectWord是逻辑连接词,与其后的单检索条件的逻辑关系,对一个单检索条件短语,在专业本体概念模型的支撑下,对每一个词语进行分析,判定其为实体、属性或者属性值,并根据它们之间关系,进行相互之间的推理,根据实体、属性、属性值来源不同,对元组中的每个元素赋予不同的权值k,假设经过语义分析后得到n个元组,其中某一元素共有m个相同的值,则每个不同的元素值所获得的权重值为:

某一元素所有值的权重值为:

Ele(θ)={θ

其中取:

Ele=argmax(Ele(k)) 式3

得到标准检索条件和检索目标元组后,后续根据修饰关系进行语法分析树的调整和最终检索条件与目标的确定。

2、产生式规则的非结构化短语语义演绎推断

本发明采用基于产生式规则进行语义演绎推断的方式对非结构化检索短语进行分析,产生式规则形式为:If W Then R,其中,W表示某一特定的前提条件,R表示后续处理过程或结果,它的整体含义为:W为真(前提条件得到满足),则执行动作W或直接得出结论W,对于一组具有相同结论Sw的产生式规则用式4表示为:

其中,B

本发明在进行推理时,设计的产生式规则结构如式5所示:

其中,W

本发明将语义演绎推断的过程以规则的形式从程序中剥离,使NLQI对非结构化检索条件的转换更加灵活准确。另外,规则类知识的独立性,使系统的知识获取过程更加方便,有利于知识的增、删、改、用,而且产生式规则的原理来源于人类对问题的判定性处理方式,较为直观自然。

(三)语义分析树校正

在语法分析构建语法树的过程中,对检索条件和目标位置的判定,仅依据其与实体之间的位置信息确定,认为位于当前实体与前一实体间的检索条件短语是当前实体的修饰成分,检索目标前的第一个实体为目标相关实体,这一过程仅利用了语句的语法信息进行分析,对一些结构较特别的语句,上述算法构建的语法树可能不够准确。

本发明基于检索条件与目标语义分析结果,并结合分析树上下文信息,对检索条件与目标在树中的位置进行调整,检索条件与目标的位置校正消除模糊,保障自然语言检索语句检索准确率,本发明分检索条件校正、实体添加与删除、检索目标校正三种情形,对分析树进行校正,下面以三个典型检索语句为实施例进行说明。

1、检索条件校正

实施例以检索语句“上季度双胶纸的采购数量”对检索条件进行校正,该例句经语法分析和语义分析后得到语义树的初步结构图,图中检索条件校正示例得出,“上季度”作为一个词性为时间的词语,经过结构化语义分析,检索条件六元组中元素Entities可能为:“采购单”、“入库单”和“请购单”,其中并不包括“纸张“,则认为“上季度”对纸张实体不具修饰关系,需要对语法分析树进行校正,遍历语法分析树中的所有实体,发现其对“采购订单”实体存在修饰关系,将其调整至“采购单”实体,并将元素Entities确定为“采购单”。

2、实体添加与删除

在检索条件的调整过程中,在语法树中并不是总能找到相匹配的实体,有时需要添加相应实体,实施例以检索语句“达到最低库存量的纸张”为例对这一过程进行阐述,该句经语法分析和语义分析后得到的语义树的初步结构如图5(a)所示。检索条件“达到最低库存量”经过非结构化语义演绎推断过程,可得检索条件六元组中元素Entities为:仓库,遍历所有实体,发现无匹配实体,则以检索条件六元组为基础建立新实体“仓库”,将其置于与其具有修饰关系的实体“纸张”下,调整后语法树结构如图5(b)所示,另外,在对检索条件完成校正之后,有些实体已不存在任何修饰成分,该类实体也就不具备进行转换的意义,将此类实体从分析树中删除。

3、检索目标校正

检索目标同样存在当前实体与实际实体不能相互匹配的问题,实施例以检索语句“上月采购双胶纸的日期”为例校正检索目标,该例句经语法分析和语义分析后得到语义树的初步结构图,检索目标校正示例检索目标短语“结清日期”经语义分析后,得到的检索目标两元组中Entity元素为:“入库单”,但其与语法树的Entity元素并不匹配,因此,重新建立“入库单”实体,将此实体作为CR的Entity元素,并且将“纸张”实体作为“入库单”实体的修饰成分。

在进行完语法分析、语义分析及位置调整后,由于自然语言的二义性问题,有些检索语句仍存在无法确定具体结构的检索条件或检索目标元组,对此本发明将元组信息呈现给用户,根据用户的反馈确定最终的语义分析树。

(四)SQL语句生成

经过语法分析和语义分析后,检索语句被转换为由检索条件六元组、检索目标两元组和实体组成的语义分析树形式,语义分析树就能较为容易的转换为SQL语句。

1、检索条件与目标的转换

本发明的检索条件和检索目标元组与数据库模型,或SQL语句的语法结构相互对应,对于检索目标的转换,在将检索目标两元组中的元素映射到数据库模型后,直接转换为Select子句,对于检索条件的转换,SQL的Where子句的语法结构因为各字段数据类型的不同而不同,在进行转换时,首先结合对属性值的判定和本体中对各数据属性数据类型的限定,确定转换的语法规则。不同字段类型Where子句的语法结构为:文本对应的WHERE子句语法结构WHERE[TABLE_NAME.COLUMN_NAME][OPERATOR]‘%[VALUE]%’,数值对应的WHERE子句语法结构WHERE[TABLE_NAME.COLUMN_NAME][OPERATOR][VALUE],WHERE[TABLE_NAME.COLUMN_NAME]BETWEEN[VALUE1]AND[VALUE2],时间对应的WHERE子句语法结构WHEREto_days([TABLE_NAME.COLUMN_NAME])–to_days(date_format(‘[START_TIME]',‘%Y-%m-%d'))BETWEEN 0AND[DAYS],其中,[TABLE_NAME.COLUMN_NAME]表示:表名+字段名,[VALUE]表示字段值,[START_TIME]表示时间段开始时间,[DAYS]表示时间段持续的天数。

2、实体修饰关系的转换

实体与实体之间也存在修饰关系,实体可与数据库模型中数据表相互对应,因此实体与实体的修饰关系,表征数据库检索中的跨表检索。本发明对自然语言跨表检索的转换通过嵌套子检索语句实现,进行转换时,首先通过本体模型获得修饰实体和被修饰实体之间的关联属性,以此判定数据库模型中连接对应两表的外键,然后通过SQL语句中的IN语句连接两个关联字段,最后将被修饰实体转换为SQL子句,并依次递归,直到最低层修饰实体。

图6表示检索语句“前天采购的420克双胶纸供应商的联系电话”的语义分析树,图中分别对检索条件和检索目标进行语义分析,获得如图中三个表所示的元组形式,以本体为数据模型获得存在修饰关系实体之间的关联字段:物料编号和供应商编号,进而依次进行子检索语句的构建。

三、印刷ERP物料管理NLQI设计与实验

本发明结合印刷业管理系统中对信息检索的需求,以本发明基于语义文法与本体的受限领域数据库NLQI为基础,提出印刷业管理系统NLQI改进方法,设计印刷业管理系统物料管理模块的NLQI,并进行了相关实验,以验证本发明的可行性和有效性。

本发明的印刷业管理系统NLQI系统架构如图7所示,整个系统由四层组成,分别为用户交互层、应用层、数据层、基础数据层,其中,用户交互层:提供同计算机进行交互的界面,包括用户自然语言检索语句的输入接口,语法和语义分析时,二义性问题的呈现接口及用户处理结果的反馈接口,最终检索结果的展示界面;应用层:自然语言检索语句被转换为SQL语句,对于用户的输入,首先在分词与词性标注语料库、同义词词典和专业本体知识库的支撑下,进行分词、词性标注和语义扩展预处理,为后续对自然语言的理解做好数据准备,然后对预处理后的词语序列进行语法分析,解析为语法树的形式,经过语义分析,解析为语义树的形式,并对在解析过程中出现的歧义,根据用户反馈进行处理,最后通过SQL生成器将语义树翻译为SQL语句,交由数据库管理系统进行数据库检索,将检索结果输出给用户;数据层:包括两部分:一是用于自然语言理解的领域知识,包括专业本体库、属性值语义库、词性模板库、分词和词性标注语料库、同义词词典和单位转换词典,另一部分是要进行检索的数据内容,指印刷业物料管理的相关数据库;基础数据层:为数据层各种数据的来源,包括领域专家和印刷业管理系统。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号