公开/公告号CN115687592A
专利类型发明专利
公开/公告日2023-02-03
原文格式PDF
申请/专利权人 浙江力石科技股份有限公司;
申请/专利号CN202211391424.6
申请日2022-11-08
分类号G06F16/332;G06F16/33;G06N5/02;
代理机构杭州云睿专利代理事务所(普通合伙);
代理人张骁敏
地址 310000 浙江省杭州市余杭区文一西路998号海创园科研孵化区18号楼506、507室
入库时间 2023-06-19 18:30:43
法律状态公告日
法律状态信息
法律状态
2023-02-03
公开
发明专利申请公布
技术领域
本发明属于智慧旅游技术领域,具体来说是一种用于文旅产业的问答数据处理方法、设备及存储介质。
背景技术
文旅客服需要接受大量的咨询信息,若均由人工进行回复的话,效率低下且需要大量的人工成本,同时客服人员需要进行大量的重复工作,对客服从业人员造成较大的不利影响,因此问答系统的出现,给文旅客服提供了新的模式,采用知识库和文本识别技术能够很好的将一些常见问题存放在知识库内,通过文本识别进行自动答复,大大减轻客服从业人员的工作压力。
FAQ问答系统中,用户问题和知识库中的问题数据进行匹配,分为召回和排序两个阶段。一般为了保证检索效率,召回阶段使用简单的算法得到部分与用户问题相似的候选问题集合,排序阶段使用复杂的算法对用户问题和候选集合进行深层交互。由匹配的过程可知,如果召回阶段没有得到真正与用户问题Query意图相同的知识库问题,则排序阶段就不能匹配到真正与用户意图相符的答案。因此,知识库问题的召回对于FAQ问答系统来说十分的重要。
发明内容
为解决上述技术问题,本发明提供一种用于文旅产业的问答数据处理方法,通过两级召回结构对知识库问题进行召回,能够高效精准的获取召回问题集合,具体技术方案如下:一种用于文旅产业的问答数据处理方法,包括:
获取第一用户问题;
对所述第一用户问题进行特征分解得到若干第一用户关键词;
根据知识库问题的特征标签计算每个用户关键词与知识库问题的相关性得分,将加权求和,得到用户问题对于每个知识库问题的第一相关性得分,选取第一相关性得分高于第一阈值的知识库问题,得到第一召回问题集合;所述知识库问题的特征标签由知识库问题特征分解得到,并与对应的知识库问题关联;
将第一用户问题和第一召回问题集合中的知识库问题通过向量编码器进行向量化转换,得到第一用户问题向量和若干知识库问题向量,所述的若干知识库问题向量与第一召回问题集合中的知识库问题一一对应,计算第一用户问题向量与各个知识库问题向量的距离并将其作为第一用户问题与第一召回问题集合中的知识库问题的第二相关性得分;
将第一找回问题集合中的知识库问题的第一相关性得分归一化处理,并将第一召回问题集合中的知识库问题的第一相关性得分和第二相关性得分各个知识库问题对应的加权得到综合相关性得分;
选取第一召回问题集合中综合相关性得分高于第二阈值的知识库问题得到第二召回问题集合;
对第一用户问题、第二召回问题集合中的知识库问题进行关键词标注,并生成对应的关键词位置掩码;
将第一用户问题、第二召回问题集合、关键词位置掩码信息和关键词位置掩码映射关系输入深度匹配模型,深度匹配模型对第二召回问题集合中知识库问题进行排序,得到问答数据集。
具体的,第一相关性得分归一化处理时采用最大最小归一化方式,其公式为:
其中,score(x)表示归一化后的匹配得分,x是归一化前的匹配得分,max(x)和min(x)表示候选空间得分的最大匹配分数和最小匹配分数。
本发明的好处在于:先基于关键词对知识库问题进行初筛,再通过转化为问题向量计算向量距离来选定相关知识库问题,能够快速高效得从海量的知识库问题中选取对应的召回问题集合,再深度匹配模型对问题进行排序,得到最优的问答数据集。
附图说明
图1本发明一实施例提供的一种召回流程示意图。
图2为本发明一实施例提供的一种设备的结构示意图。
具体实施方式
以下结合具体实施例和说明书附图对本发明作出进一步清楚详细的描述说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。此外,下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:一种用于文旅产业的问答数据处理方法,如图1所示,包括:
获取第一用户问题;
对所述第一用户问题进行特征分解得到若干第一用户关键词;
根据知识库问题的特征标签计算每个用户关键词与知识库问题的相关性得分,将加权求和,得到用户问题对于每个知识库问题的第一相关性得分,选取第一相关性得分高于第一阈值的知识库问题,得到第一召回问题集合;所述知识库问题的特征标签由知识库问题特征分解得到,并与对应的知识库问题关联;
将第一用户问题和第一召回问题集合中的知识库问题通过向量编码器进行向量化转换,得到第一用户问题向量和若干知识库问题向量,所述的若干知识库问题向量与第一召回问题集合中的知识库问题一一对应,计算第一用户问题向量与各个知识库问题向量的距离并将其作为第一用户问题与第一召回问题集合中的知识库问题的第二相关性得分;
将第一找回问题集合中的知识库问题的第一相关性得分归一化处理,并将第一召回问题集合中的知识库问题的第一相关性得分和第二相关性得分各个知识库问题对应的加权得到综合相关性得分;
选取第一召回问题集合中综合相关性得分高于第二阈值的知识库问题得到第二召回问题集合;
对第一用户问题、第二召回问题集合中的知识库问题进行关键词标注,并生成对应的关键词位置掩码;
将第一用户问题、第二召回问题集合、关键词位置掩码信息和关键词位置掩码映射关系输入深度匹配模型,深度匹配模型对第二召回问题集合中知识库问题进行排序,得到问答数据集。
具体的,第一相关性得分归一化处理时采用最大最小归一化方式,其公式为:
其中,score(x)表示归一化后的匹配得分,x是归一化前的匹配得分,max(x)和min(x)表示候选空间得分的最大匹配分数和最小匹配分数。
本发明的好处在于先基于关键词对知识库问题进行初筛,再通过转化为问题向量计算向量距离来选定相关知识库问题,能够快速高效得从海量的知识库问题中选取对应的召回问题集合,再深度匹配模型对问题进行排序,得到最优的问答数据集。
图2为本发明一实施例提供的一种设备的结构示意图。
如图2所示,作为本发明的又一实施例,提供一种计算机设备100,包括一个或多个中央处理单元(CPU)101,其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM103中,还存储有设备100操作所需的各种程序和数据。CPU101、ROM102以及RAM103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
以下部件连接至I/O接口105:包括键盘、鼠标等的输入部分106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分107;包括硬盘等的存储部分108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理驱动器110也根据需要连接至I/O接口105。可拆卸介质111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器110上,以便于从其上读出的计算机程序根据需要被安装入存储部分108。
特别地,根据本申请公开的实施例,上述实施例1所描述的方法可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行上述任一实施例描述的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分109从网络上被下载和安装,和/或从可拆卸介质111被安装。
作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例的装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,各所述单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独配置的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
机译: 数据存储介质multim,再现设备multim复制存储在数据存储介质multim中的数据,将数据multim记录在存储介质中的记录设备,记录数据multim的方法u00ecdia在存储环境中记录数据。数据存储介质multim u00ecdia与记录设备一起使用和/或再现。multim u00ecdia再现设备用于再现存储在存储介质中的数据,该介质包括经认证的第一数据multim u00ecdia数据多级,第二级,将信息存储到数据多级的再现单元中,作为数据多级的附加信息,第三级,存储导航数据,用于选择再现单元和再现顺序以及将数据记录在存储介质中的记录设备,该数据记录设备
机译: 可以连接具有接口的数据处理设备,具有发送所存储的数据的通信功能的记录介质,用于这种数据处理设备的数据处理方法以及用于存储用于这种数据处理设备的指令的存储介质
机译: 用于执行有形机器的方法,可读存储介质和用于处理方法的设备,用于执行有形机器的可读存储介质和用于处理数据的设备以及用于查询从数据记录中提取的特征的程序的可读可读存储介质