首页> 中国专利> 用于基于标准问创建扩展问的方法和装置

用于基于标准问创建扩展问的方法和装置

摘要

本发明提供了一种用于基于标准问创建扩展问的方法,标准问和扩展问用于人工智能语义识别系统中,包括:基于该标准问所属的数据范围从该人工智能语义识别系统的内部数据源或外部数据源采集数据;以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集;以及对该相似问句集执行主语修改以获得该标准问的扩展问。

著录项

  • 公开/公告号CN104991965A

    专利类型发明专利

  • 公开/公告日2015-10-21

    原文格式PDF

  • 申请/专利权人 上海智臻网络科技有限公司;

    申请/专利号CN201510438526.2

  • 发明设计人 蔡宏伟;朱频频;

    申请日2015-07-23

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人徐伟

  • 地址 201803 上海市长宁区金沙江西路1555弄398号3层

  • 入库时间 2023-12-18 11:23:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-23

    授权

    授权

  • 2018-10-26

    专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20180930 变更前: 变更后: 申请日:20150723

    专利申请权、专利权的转移

  • 2015-12-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150723

    实质审查的生效

  • 2015-11-04

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20150723

    著录事项变更

  • 2015-10-21

    公开

    公开

说明书

技术领域

本发明涉及知识库的编辑与扩展,尤其涉及用于人工智能语义识别的标准 问的扩展。

背景技术

人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样 的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种 人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别 是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语 言。

为了能够理解人类语言,人工智能语义识别系统需要一套知识库。海量异 构数据通过知识学习体系整理成知识,并融入到已有的知识体系中来。不同企 业会生成各自的“专属知识”;同领域企业的知识中可以总结出“领域语义库”, 如图中的“电信领域语义库”;多个行业的知识还可以总结成“通用语义库和 知识库”。

知识库的编辑与扩展对于人工智能语义识别系统尤其重要。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概 述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性 或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化 形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面,提供了一种用于基于标准问创建扩展问的方法,标 准问和扩展问用于人工智能语义识别系统中,包括:

基于该标准问所属的数据范围从该人工智能语义识别系统的内部数据源 或外部数据源采集数据;

以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句 集;以及

对该相似问句集执行主语修改以获得该标准问的扩展问。

在一实例中,该基于该标准问所属的数据范围从内部数据源或外部数据源 采集数据包括:若该标准问属于内部数据,则从该内部数据源调用所有内部数 据,以及若该标准问属于外部数据,则通过该外部数据源进行搜索爬取。

在一实例中,该方法还包括对通过该外部数据源爬取到的所采集数据进行 整理以过滤无用数据,该执行问句相似度计算是以整理后的所采集数据为对象 来执行的。

在一实例中,若该标准问所属领域的词库在该人工智能语义识别系统的知 识库中已存在,则所属标准问为内部数据,否则为外部数据。

在一实例中,该内部数据源为该人工智能语义识别系统的知识库中已存在 的关于该标准问的所属领域的词库,以及该外部数据源包括与该标准问的所属 领域相关的第三方数据库。

在一实例中,该问句相似度计算是基于文本聚类分析、LDA分析、或序 列分析中的任一者来执行的。

在一实例中,该相似问句集是与该标准问的相似度超过预定阈值的问句的 集合。

在一实例中,该方法还包括至少部分地基于人工选择对该相似问句集执行 筛选以过滤无用数据,该问句主语修改是对调整后的该相似问句集来执行的。

在一实例中,对该相似问句集执行主语修改是至少部分地基于人工选择来 执行的。

根据本发明的另一方面,提供了一种用于基于标准问创建扩展问的装置, 标准问和扩展问用于人工智能语义识别系统中,包括:

数据采集单元,用于基于标准问所属的数据范围从该人工智能语义识别系 统的内部数据源或外部数据源采集数据;

问句相似度计算单元,用于以所采集数据为对象执行与该标准问的问句相 似度计算以获得相似问句集;以及

主语修改单元,用于对该相似问句集执行主语修改以获得该标准问的扩展 问。

在一实例中,该数据采集单元包括:调用单元,以用于响应于该标准问属 于内部数据,从该内部数据源调用所有内部数据;以及爬取单元,以用于响应 于该标准问属于外部数据,通过该外部数据源进行搜索爬取。

在一实例中,该装置还包括:整理单元,以用于对通过该外部数据源爬取 到的所采集数据进行整理以过滤无用数据。

在一实例中,该装置还包括:筛选单元,用于至少部分地基于人工选择对 该相似问句集进行筛选以过滤无用数据。

在一实例中,若该标准问所属领域的词库在该人工智能语义识别系统的知 识库中已存在,则所属标准问为内部数据,否则为外部数据。

在一实例中,该内部数据源为该人工智能语义识别系统的知识库中已存在 的关于该标准问的所属领域的词库,以及该外部数据源包括与该标准问的所属 领域相关的第三方数据库。

在一实例中,该主语修改单元至少部分地基于人工选择对该相似问句集执 行主语修改。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本 发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类 似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的创建扩展问的方法的流程图;

图2是示出了根据本发明的一方面的创建扩展问的装置的框图。

符号说明:

210:数据采集单元

211:调用单元

212:爬取单元

220:问句相似度计算单元

230:筛选单元

240:主语修改单元

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和 具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围 进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一 般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的 文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰 的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理 解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的 语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一 个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时,最理想的情况是使用标准问,则机器的智能语义识 别系统马上能够理解用户的意思。然而,用户往往并非使用的是标准问,而是 标准问的一些变形的形式。例如,若对于收音机的电台切换的标准问形式是“换 一个电台”,那么用户可能使用的命令是“切换一个电台”,机器也需要能够 识别用户表达的是同一个意思。

因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展 问与标准问表达形式有略微差异,但是表达相同的含义。传统上,往往依赖人 工“想”的形式,想出一个标准问尽可能多的扩展问,但是非常耗费人力,而 且“漏想”的概率很高。

在本发明中,通过大数据分析聚合的方式,最大的利用了已有产品的日志 数据与外部数据。快速定位到了语义扩展问的内容,将原来的“想”扩展问, 改成了判定其内容准确性。

图1是示出了根据本发明的一方面的创建扩展问的方法100的流程图。如 图1所示,首先提供一标准问,作为扩展的基础。例如,该标准问可为“换一 个扫地模式”。

在步骤101,可对该标准问的数据范围进行判定。一般而言,数据范围可 以分为内部数据和外部数据。这里的内部数据和外部数据是相对于人工智能语 义识别系统的知识库而言的。例如,若该标准问是该知识库内已有的数据,则 为内部数据,否则为外部数据。

更具体地,若该标准问所属的语义领域是知识库中已有的领域,则为内部 数据,否则为外部数据。以上述“换一个扫地模式”为例,该标准问用于扫地 机器人,属于家电智能领域,若系统的知识库内已经有关于家电智能领域的词 库,则该标准问为内部数据,否则该标准问为外部数据。

在步骤102,为该标准问添加属性标签,用以指示该标准问的数据范围。

在步骤103,根据标准问的属性标签判断该标准问的数据范围。

如上所述,该数据范围包括内部数据和外部数据。不同的数据范围对应不 同的处理。

若该标准问为内部数据,则执行步骤104,即内部数据调用。

较优地,该内部数据可以是该标准问所属的语义领域的所有内部数据。例 如,该若该标准问属于家电智能领域,则可以调用内部关于家电智能领域的所 有已有数据。若该标准问属于金融领域,且知识库内有关于金融领域的词库, 则,该标准问属于内部数据,并且此时调用系统内关于金融领域的所有内部数 据。

此特征有助于利用人工智能系统现有的日志数据。例如,若该人工智能语 义识别系统长期用于家电智能领域,则内部采集建立了大量与该领域相关的内 部数据,这些数据对于建立家电智能领域的标准问的扩展问显然是非常高效率 的。

若该标准问属于外部数据,则执行步骤105,即外部数据爬取。即,通过 爬取技术对外部数据源进行搜索爬取。

这里的外部数据源可以是任何系统外的第三方数据源,例如百度、搜搜等。 这些数据源上积累了海量数据。

较优地,可以爬取与该标准问所属领域相关的第三方数据库。例如,若该 标准问属于医药领域,则可以爬取医院网站、药品销售网站的日志数据。这些 数据与标准问的相关性可能更高,从而提高效率。

由于外部数据的噪声较大,可以在步骤106对数据进行整理,以过滤无用 的数据。

此后,在步骤107,可以执行这些数据与该标准问的问句相似度计算。此 举的目的是从这些海量数据中筛选出与标准问比较相似的那些句子。

一般地,可以采用任何合适的相似度计算算法,例如文本聚类分析、LDA 分析、序列分析(Template Maker)等等。

在步骤108,可以获得相似问句的聚合结果,即相似问句集。这里的相似 问句集可包括与标准问的相似度高于预定阈值的那些句子。该阈值可以根据需 要人为调节。

在步骤109,可对相似问句集进行初步筛选,以剔除无用数据。

在步骤110,可对相似问句的主语进行修改。这里的主语是指问句里的主 体内容。以“换一个扫地模式”为例,这里的“扫地模式”为该标准问的主语。 此调整。

修改主语后,可以得到最初该标准问的扩展问。

尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并 领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作 可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本 领域技术人员可以理解的其他动作并发地发生。

上述步骤103、104、105、106、107、108可以看作是大数据处理部分。 通过大数据分析聚合的方式,最大地利用了已有产品的日志数据和外部数据。

步骤101、102、109、110可以有人工地参与,例如响应于人工的选择进 行筛选、主语修改,这可以增加精确度。当然,这些步骤也可以全自动地来执 行。

以下表1示出了标准问、大数据聚合结果、最终扩展问结果的示例。

表1

图2是示出了根据本发明的创建扩展问的装置200的框图。

如图2所示,装置200可包括数据采集单元210。数据采集单元210用于 基于标准问所属的数据范围从人工智能语义识别系统的内部数据源或外部数 据源采集数据。

如图所示,数据采集单元210可包括调用单元211和爬取单元212。调用 单元210可响应于标准问属于内部数据,从内部数据源调用所有内部数据,而 爬取单元212可响应于标准问属于外部数据,通过外部数据源进行搜索爬取。

若在人工智能语义识别系统的知识库中已经有了该标准问所属领域的词 库,则该标准问可被视为内部数据,否则为外部数据。相应地,该内部数据源 可以是人工智能语义识别系统的知识库中已存在的关于该标准问的所属领域 的词库。另一方面,该外部数据源可包括与该标准问的所属领域相关的第三方 数据库。

尽管图中未示出,装置200还可包括整理单元,以用于对通过外部数据源 爬取到的所采集数据进行整理以过滤无用数据。

另外,装置200还可包括问句相似度计算单元220,用于以所采集数据为 对象执行与该标准问的问句相似度计算以获得相似问句集。较优地,装置200 还可包括筛选单元230,以用于对相似问句集进行筛选以过滤无用数据。在一 些实例中,筛选过程可有人工参与,例如筛选单元230可至少部分地基于人工 选择来执行筛选。

最后,装置200可包括主语修改单元240。主语修改单元240可对相似问 句集执行主语修改以获得该标准问的扩展问。在一些实例中,主语修改可有人 工参与,例如主语修改单元240可至少部分地基于用户的选择来修改主语。

通过大数据分析聚合的方式,最大的利用了已有产品的日志数据与外部数 据。快速定位到了语义扩展问的内容,将原来的“想”扩展问,改成了判定其 内容准确性。大幅提高了语义扩展的效率,并降低了“漏想”的概率。同时, 定位的扩展问内容来自产品实际使用数据,更加贴合用户的实际使用习惯。

本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种 解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、 或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、 框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功 能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。 技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的 实现决策不应被解读成导致脱离了本发明的范围。

软件应当被宽泛地解释成意味着指令、指令集、代码、代码段、程序代码、 程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、 可执行件、执行的线程、规程、函数等,无论其是用软件、固件、中间件、微 代码、硬件描述语言、还是其它术语来述及皆是如此。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用 通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程 门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬 件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理 器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控 制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如 DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处 理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由 处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM 存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、 硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。 示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入 信息。在替换方案中,存储介质可以被整合到处理器。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使 用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且 本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范 围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授 予与本文中所公开的原理和新颖性特征相一致的最广范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号