首页> 中国专利> 用于检测事件日志和过程模型之间的区别的方法和装置

用于检测事件日志和过程模型之间的区别的方法和装置

摘要

本发明提供了用于检测事件日志和过程模型之间的区别的方法和装置。具体地,提供了一种用于检测事件日志和过程模型之间的区别的方法,包括:将过程模型转换为概率过程模型,概率过程模型包括多个层级中的多个节点以及与多个节点相关联的概率分布,多个节点中的叶节点对应于过程模型中的活动;按照对应关系检测事件日志中包括的至少一个事件序列与概率过程模型之间的差异;以及响应于差异超过预定阈值,将差异标识为区别,其中对应关系描述至少一个事件序列中的一个事件序列中的事件与概率过程模型中的叶节点之间的对应关系。进一步,提供了一种用于更新过程模型的方法,包括:基于上述方法,检测事件日志和过程模型之间的区别;以及基于区别来更新过程模型。

著录项

  • 公开/公告号CN104809325A

    专利类型发明专利

  • 公开/公告日2015-07-29

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN201410038281.X

  • 申请日2014-01-26

  • 分类号

  • 代理机构北京市金杜律师事务所;

  • 代理人酆迅

  • 地址 美国纽约阿芒克

  • 入库时间 2023-12-18 10:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-01

    授权

    授权

  • 2015-08-26

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20140126

    实质审查的生效

  • 2015-07-29

    公开

    公开

说明书

技术领域

本发明的各实施方式涉及数据处理,更具体地,涉及用于检测 事件日志(event log)和过程模型(process model)之间的区别 (deviation)的方法和装置。

背景技术

随着计算机硬件和软件技术的发展,计算机辅助系统已经能够 针对人们生活的各个方面提供管理和支持。例如,计算机辅助软件 已经进入到诸如生产管理、办公自动化等越来越多的领域。多种领 域中可以存在自定义的规范,目前已经开发出了以过程模型来描述 规范,并基于该过程模型来管理和控制诸如生产管理等事务的流程 的技术方案。在这些技术方案中,可以利用过程模型来描述流程中 的各个阶段之间关系,并基于该过程模型来监视实际运行流程中的 各个事件序列是否符合预定义的过程。

在各种规范中还可以存在阶段之间的额外的时间约束关系,例 如,只有执行阶段1之后才能执行阶段2,等等。然而,目前的解决 方案并不能检查各个事件日志中的事件序列是否满足阶段之间的时 间约束关系。

另一方面,由于在不同阶段中可能会执行相同的活动(activity)。 假设在治疗糖尿病的过程期间,在不同的治疗阶段中有可能都会检 验糖化血红蛋白HbA1c,现有的解决方案并不能区分检验HbA1c属 于哪个阶段,因而在验证事件序列是否符合医疗规范期间可能会出 现错误。因而,如何以更加准确、有效的方式来检测事件日志和过 程模型之间的区别,已经成为一个关注的焦点。

发明内容

因而,期望能够开发出一种检测事件日志和过程模型之间的区 别的技术方案,期望该技术方案能够处理过程模型中的附加的约束 关系,并且还期望该技术方案能够明确地区分事件序列中的各个事 件与过程模型中的各个阶段中的活动之间的对应关系,以便进一步 提高验证过程的准确性。

根据本发明的一个方面,提供了一种用于检测事件日志和过程 模型之间的区别的方法,包括:将过程模型转换为概率过程模型, 概率过程模型包括多个层级中的多个节点以及与多个节点相关联的 概率分布,多个节点中的叶节点对应于过程模型中的活动;按照对 应关系检测事件日志中包括的至少一个事件序列与概率过程模型之 间的差异(difference);以及响应于差异超过预定阈值,将差异标 识为区别,其中所述对应关系描述所述至少一个事件序列中的一个 事件序列中的事件与所述概率过程模型中的叶节点之间的对应关 系。

根据本发明的一个方面,按照对应关系检测事件日志中包括的 至少一个事件序列与概率过程模型之间的差异包括:针对至少一个 事件序列中的当前事件序列,基于概率分布将当前事件序列中的每 个事件与概率过程模型中的叶节点对准;记录与每个事件对准的叶 节点在概率过程模型中的路径,以将当前事件序列转变为路径序列; 以及基于概率过程模型和路径序列以确定差异。

根据本发明的一个方面,提供了一种用于检测事件日志和过程 模型之间的区别的装置,包括:转换模块,配置用于将过程模型转 换为概率过程模型,概率过程模型包括多个层级中的多个节点以及 与多个节点相关联的概率分布,多个节点中的叶节点对应于过程模 型中的活动;检测模块,配置用于按照对应关系检测事件日志中包 括的至少一个事件序列与概率过程模型之间的差异;以及标识模块, 配置用于响应于差异超过预定阈值,将差异标识为区别,其中所述 对应关系描述所述至少一个事件序列中的一个事件序列中的事件与 所述概率过程模型中的叶节点之间的对应关系。

根据本发明的一个方面,检测模块包括:对准模块,配置用于 针对至少一个事件序列中的当前事件序列,基于概率分布将当前事 件序列中的每个事件与概率过程模型中的叶节点对准;路径生成模 块,配置用于记录与每个事件对准的叶节点在概率过程模型中的路 径,以将当前事件序列转变为路径序列;以及确定模块,配置用于 基于概率过程模型和路径序列以确定差异。

根据本发明的一个方面,提供了一种用于更新过程模型的方法, 包括:基于根据上文所述的方法,检测事件日志和过程模型之间的 区别;以及基于区别来更新过程模型。

根据本发明的一个方面,提供了一种用于更新过程模型的装置, 包括:根据上文所述的装置,配置用于检测事件日志和过程模型之 间的区别;以及更新模块,配置用于基于区别来更新过程模型。

采用本发明所述的方法和装置,可以在尽量不改变现有技术方 案的前提下,以更加准确、有效的方式来检测事件日志和过程模型 之间的区别。此外,还可以随着时间的推移,基于所检测到的区别 来更新过时的过程模型。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本 公开的上述以及其他目的、特征和优势将变得更加明显,其中,在 本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性移动设备12 的框图;

图2示意性示出了过程模型的框图;

图3示意性示出了根据本发明一个实施方式的用于检测事件日 志和过程模型之间的区别的方法的流程图;

图4示意性示出了根据本发明一个实施方式的概率过程模型的 框图;

图5A-图5C示意性示出了根据本发明一个实施方式的构造符合 所述概率过程模型中的约束关系的自动机的过程的示意图;

图6A-图6C示意性示出了根据本发明一个实施方式的利用自动 机来检测事件序列是否符合约束关系的示意图;以及

图7示意性示出了根据本发明一个实施方式的用于检测事件日 志和过程模型之间的区别的装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附 图中显示了本公开的优选实施方式,然而应该理解,可以以各种形 式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这 些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道,本发明可以实现为系统、方法 或计算机程序产品。因此,本公开可以具体实现为以下形式,即: 可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、 微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、 “模块”或“系统”。此外,在一些实施方式中,本发明还可以实现为在 一个或多个计算机可读介质中的计算机程序产品的形式,该计算机 可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可 读介质可以是计算机可读信号介质或者计算机可读存储介质。计算 机可读存储介质例如可以是——但不限于——电、磁、光、电磁、 红外线、或半导体的系统、装置或器件,或者任意以上的组合。计 算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一 个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储 器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存 储器件、磁存储器件、或者上述的任意合适的组合。在本文件中, 计算机可读存储介质可以是任何包含或存储程序的有形介质,该程 序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分 传播的数据信号,其中承载了计算机可读的程序代码。这种传播的 数据信号可以采用多种形式,包括——但不限于——电磁信号、光 信号或上述的任意合适的组合。计算机可读的信号介质还可以是计 算机可读存储介质以外的任何计算机可读介质,该计算机可读介质 可以发送、传播或者传输用于由指令执行系统、装置或者器件使用 或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传 输,包括——但不限于——无线、电线、光缆、RF等等,或者上述 的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发 明操作的计算机程序代码,所述程序设计语言包括面向对象的程序 设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设 计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全 地在用户计算机上执行、部分地在用户计算机上执行、作为一个独 立的软件包执行、部分在用户计算机上部分在远程计算机上执行、 或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形 中,远程计算机可以通过任意种类的网络——包括局域网(LAN) 或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计 算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施方式的方法、装置(系统)和计算机程 序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图 的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机 程序指令实现。这些计算机程序指令可以提供给通用计算机、专用 计算机或其他可编程数据处理装置的处理器,从而生产出一种机器, 这些计算机程序指令通过计算机或其他可编程数据处理装置执行, 产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其他可编 程数据处理装置以特定方式工作的计算机可读介质中,这样,存储 在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图 中的方框中规定的功能/操作的指令装置(instruction means)的制造 品(manufacture)。

也可以把计算机程序指令加载到计算机、其他可编程数据处理 装置、或其他设备上,使得在计算机、其他可编程数据处理装置或 其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而 使得在计算机或其他可编程装置上执行的指令能够提供实现流程图 和/或框图中的方框中规定的功能/操作的过程。

图1示出了适于用来实现本发明实施方式的示例性移动设备12 的框图。图1显示的移动设备12仅仅是一个示例,不应对本发明实 施方式的功能和使用范围带来任何限制。

如图1所示,移动设备12以通用计算设备的形式表现。移动设 备12的组件可以包括但不限于:一个或者多个处理器或者处理单元 16,系统存储器28,连接不同系统组件(包括系统存储器28和处理 单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或 者存储器控制器,外围总线,图形加速端口,处理器或者使用多种 总线结构中的任意总线结构的局域总线。举例来说,这些体系结构 包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及 外围组件互连(PCI)总线。

移动设备12典型地包括多种计算机系统可读介质。这些介质可 以是任何能够被移动设备12访问的可用介质,包括易失性和非易失 性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介 质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。移 动设备12可以进一步包括其他可移动/不可移动的、易失性/非易失 性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不 可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。 尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软 盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些 情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18 相连。存储器28可以包括至少一个程序产品,该程序产品具有一组 (例如至少一个)程序模块,这些程序模块被配置以执行本发明各 实施方式的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以 存储在例如存储器28中,这样的程序模块42包括——但不限于—— 操作系统、一个或者多个应用程序、其他程序模块以及程序数据, 这些示例中的每一个或某种组合中可能包括网络环境的实现。程序 模块42通常执行本发明所描述的实施方式中的功能和/或方法。

移动设备12也可以与一个或多个外部设备14(例如键盘、指向 设备、显示器24等)通信,还可与一个或者多个使得用户能与该移 动设备12交互的设备通信,和/或与使得该移动设备12能与一个或 多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等 等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且, 移动设备12还可以通过网络适配器20与一个或者多个网络(例如 局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通 信。如图所示,网络适配器20通过总线18与移动设备12的其他模 块通信。应当明白,尽管图中未示出,可以结合移动设备12使用其 他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余 处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备 份存储系统等。

在下文的具体描述中,将仅以治疗糖尿病期间所涉及到的各个 阶段和活动为具体示例,描述本发明的方法和装置的具体细节。本 领域技术人员应当理解,本发明所公开的技术方案并不限于仅仅应 用于医疗机构,而是可以应用于各行各业,以便检测相应行业中的 事件日志和过程模型之间的区别,进而更新该过程模型。具体而言, 可以检测生产过程中的各个事件是否符合生产规范,可以检测办公 自动化过程中的各个事件是否符合办公规范,等等。

图2示意性示出了过程模型的框图200。图2中的实线部分示出 了基于治疗糖尿病的医疗规范建立的过程模型。在图2中,以矩形 示出过程中的各个阶段,而以椭圆示出过程中的各个活动。该过程 模型的根节点210“治疗糖尿病”表示治疗期间的全部操作的根节点, 并且治疗过程可以划分为阶段1220和阶段2222两部分。

在细化的层级中,每个阶段还可以包括更加具体的操作,例如, 阶段1220可以包括检验1230和治疗1232。并且检验1230还可以 包括更多检验细节,例如,检验HbA1c的活动240、检验血肌酐的 活动242;治疗1232还可以包括更多药物的细节,例如,使用药物 1的活动244和使用药物2的活动246。

在阶段2222所示的分支中,示出了检验2250和治疗2252。 并且检验2250还可以包括更多检验细节,例如,检验HbA1c的活 动260、检验血糖的活动262;治疗2252还可以包括更多药物的细 节,例如,使用药物2的活动264和使用药物3的活动266。

应当注意,医疗规范中还可能会存在约束关系,在基于医疗规 范建立的过程模型中,该约束关系可以分别如图2中以虚线示出的 箭头C1、C2和C3所示。约束关系的具体含义示出如下:

C1:只有进行了糖化血红蛋白(HbA1c)检验240之后,才能 开始治疗1232;

C2:只有进行了血肌酐检验242之后,才能使用药物1244;以 及

C3:只有进行了检验2250之后,才能开始治疗2252。

尽管目前已经提出了用于过程模型的区别检测的技术方案,然 而该技术方案并不适用于具有如上诸如C1-C3所示的约束关系的过 程模型。本领域技术人员应当注意,由于大多数过程模型会涉及约 束关系,因而现有的用于过程模型的区别检测的技术方案的应用范 围受到了很大的限制。

另外如图2所示,在阶段1220和阶段2222中都存在检验HbA1c 的活动,然而在图2中以椭圆示出的活动节点(HbA1c240和HbA1c 260)中,仅仅依靠活动的名称并不能区别该活动隶属于哪个阶段。 因而,重复的活动名称可能会使得现有的技术方案不能正常运行。 此外,当事件序列为<HbA1c,药物1,药物A,血糖,药物3,药 物2>时,在该序列中出现了“药物A”,然而该药物并未记载在过 程模型中,现有技术的解决方案也不能检测到这种异常状况。因而, 还需要改进现有技术中的不足。

为此,本发明的实施方式提供了一种基于概率过程模型来检测 事件日志和过程模型之间的区别的技术方案。具体地,在本发明的 一个实施方式中,提供了一种用于检测事件日志和过程模型之间的 区别的方法,包括:将过程模型转换为概率过程模型,概率过程模 型包括多个层级中的多个节点以及与多个节点相关联的概率分布, 多个节点中的叶节点对应于过程模型中的活动;按照对应关系检测 事件日志中包括的至少一个事件序列与概率过程模型之间的差异; 以及响应于差异超过预定阈值,将差异标识为区别,其中所述对应 关系描述所述至少一个事件序列中的一个事件序列中的事件与所述 概率过程模型中的叶节点之间的对应关系。采用本发明的技术方案, 可以处理过程模型中的附加的约束关系以及重复的活动。

图3示意性示出了根据本发明一个实施方式的用于检测事件日 志和过程模型之间的区别的方法的流程图300。

在步骤S302中,将过程模型转换为概率过程模型,概率过程模 型包括多个层级中的多个节点以及与多个节点相关联的概率分布, 多个节点中的叶节点对应于过程模型中的活动。在此实施方式中, 提出了一种概率过程模型,该概率过程模型可以包括多个层级,并 且在此实施方式中,可以以叶节点在概率过程模型中的多个层级中 的路径来唯一地确定叶节点的位置。以此方式,可以区分重复活动, 例如,两个检测活动可以分别表示为[阶段1,检验1,HbA1c]和[阶 段2,检验2,HbA1c]。

在步骤S304中,按照对应关系检测事件日志中包括的至少一个 事件序列与概率过程模型之间的差异,其中所述对应关系描述至少 一个事件序列中的一个事件序列中的事件与概率过程模型中的叶节 点之间的对应关系。根据本发明的各个实施方式,事件与活动之间 具有对应关系,具体而言,可以认为事件是实例化的活动,并且事 件具有活动的全部属性。具体地,可以认为事件序列中的事件 “HbA1c”是活动HbA1c的一个实例(instance)。

在此实施方式中,可以寻找事件序列与概率过程模型之间的差 异。由于已经按照层次化方式构建了概率过程模型,并且概率过程 模型的叶节点表示活动,因而可以通过比较事件序列中的各个事件 是否能够按顺序地一一对应于概率过程模型中的各个叶节点表示的 活动,以便寻找差异。

在步骤S306中,响应于差异超过预定阈值,将差异标识为区别。 由于事件日志中通常包括较大数量的事件序列,因而如果其中仅有 较小数量的事件序列与概率过程模型之间存在差异时,并不能认为 事件日志与过程模型之间存在区别;而是,只有当出现的差异超过 一定数量时,才将该差异标识为区别。

图4示意性示出了根据本发明一个实施方式的概率过程模型的 框图400。可以基于原始的过程模型来构造概率过程模型,概率过程 模型可以包括隐式层(hidden layer)420和观察层(observation layer) 430两部分,其中隐式层420中的节点(非叶节点)对应于过程模型 中的阶段,而观察层430中的节点(叶节点)对应于过程模型中的 活动。

根据本发明的实施方式,由于在事件序列中可能会出现与过程 模型中不存在的活动相对应的事件,因而,可以向概率过程模型的 叶节点中插入“未知(unknown)”节点,以便使得该节点对应于事 件序列中可能出现的新的事件(例如,上文所示的新药,即,药物A)。

在本发明的一个实施方式中,多个节点中的非叶节点对应于过 程模型中的阶段。按照上文所述的方式,可以将按照层次化方式构 建概率过程模型,使得概率过程模型中的非叶节点和叶节点分别对 应于过程模型中的阶段和活动。

在本发明的一个实施方式中,可以基于层级隐马尔科夫模型 (hierarchical hidden Markov model,HHMM)来构造概率过程模型。 在此省略关于HHMM的细节的进一步描述。

在下文中,将详细描述如何计算概率过程模型中的概率分布。 在本发明的一个实施方式中,将过程模型转换为概率过程模型包括: 计算非叶节点的出现的初始概率(start probability)、非叶节点之间 的转移概率(transition probability)以及从非叶节点到叶节点的发射 概率(emission probability),以形成概率过程模型。

在本发明的实施方式中,由于需要在事件序列与概率过程模型 中的各个叶节点之间进行比较,因而需要首先确定概率过程模型中 的与各个节点相关联的概率分布,进而确定在治疗糖尿病期间进行 各个活动的概率。

具体地,概率分布可以包括非叶节点的出现的初始概率、非叶 节点之间的转移概率以及从非叶节点到叶节点的发射概率。在此实 施方式中,初始概率PS(Y|X)可以是指在状态X的情况下出现状态Y 的概率。例如,由于治疗糖尿病210是概率过程模型中的根节点, 因而可以将该节点表示的阶段的概率设置为1。在启动治疗糖尿病的 过程后,可以执行阶段1220或者阶段2222,因而可以设置在治疗 糖尿病210的状态下出现阶段1220的状态的概率、以及在治疗糖 尿病210的状态下出现阶段2222的状态的概率。根据上文所述的 原理,本领域技术人员还可以计算在阶段1220的状态下出现检验1 230的概率,等等。

在此实施方式中,转移概率PT(Y|X)可以表示在状态X的情况下 出现状态Y的概率。例如,在阶段1220和阶段2222之间可以相互 转换,在检验1230和治疗1232之间可以相互转换,在检验2250 和治疗2252之间也可以相互转换,等等。此外,本领域技术人员应 当理解,X和Y可以表示相同状态,即X状态可以转移到自身。例 如,检验1230可以转移到自身。

在此实施方式中,发射概率PE(O|X)可以表示在隐式层的状态X 的情况下出现活动O的概率。例如,如图4所示,在检验1230的 情况下执行检验活动HbA1c240的概率即发射概率。

在此实施方式中,当计算出现HbA1c240的概率分布时,可以 求解该叶节点与概率过程模型中的根节点之间的路径所对应的全部 概率的乘积,并将该乘积作为出现HbA1c240的概率分布。具体地, 假设治疗糖尿病210-阶段1220的概率为0.5,阶段1220-检验1 230的概率为0.5,并且检验1230-HbA1c240的概率为0.3,则出 现HbA1c240的概率=1×0.5×0.5×0.3=0.075。应当注意,上文示例 中仅仅考虑了事件序列中第一个事件的最简单的情况,对于事件序 列中的其他事件则还需要考虑转移概率,本领域技术人员可以基于 概率分布的原理来实现具体计算步骤,在此不再赘述。

本领域技术人员还可以采用如上所述的原理,来计算出现其他 叶节点所表示的活动的概率分布,进而形成概率过程模型。

在本发明的一个实施方式中,计算非叶节点的出现的初始概率、 非叶节点之间的转移概率以及从非叶节点到叶节点的发射概率、以 形成概率过程模型包括:设置初始概率、转移概率以及发射概率中 的至少任一项,以形成概率过程模型;以及迭代地训练概率过程模 型。

在初始时,由于并不知晓各个概率的具体数值,因而可以采用 均匀分布的方式设置具体数据,可以基于针对以往过程的经验数据 设置初始概率,或者还可以基于其他方式来设置初始概率。例如, 可以将治疗糖尿病210-阶段1220的初始概率和治疗糖尿病210- 阶段2222的初始概率均设置为0.5,以表示两者出现的概率是相同 的。接着,可以采用各种训练算法,来基于采集到的历史数据迭代 地执行训练,以便获取优化的概率分布。在本发明的一个实施方式 中,可以采用Baum-Welch算法来进行训练;备选地,本领域技术人 员还可以采用其他的算法来进行训练。

由于训练过程考虑了在以往治疗糖尿病期间执行各个阶段的历 史数据,因而训练后所得的概率分布通常不同于均匀分布,并且能 够更加准确地反映治疗过程的真实情况。例如,经过训练,治疗糖 尿病210-阶段1220的初始概率可以变为0.4,而治疗糖尿病210 -阶段2222的初始概率可以变为0.6,可以基于数值0.4和0.6来进 行后续的处理。

在本发明的一个实施方式中,按照对应关系检测事件日志中包 括的至少一个事件序列与概率过程模型之间的差异包括:针对至少 一个事件序列中的当前事件序列,基于概率分布将当前事件序列中 的每个事件与概率过程模型中的叶节点对准;记录与每个事件对准 的叶节点在概率过程模型中的路径,以将当前事件序列转变为路径 序列;以及基于概率过程模型和路径序列以确定差异。

由于事件日志中包括多个事件序列,因而可以将事件日志中的 每个事件序列与概率过程模型逐一进行比较。具体地,对于多个事 件序列中的当前事件序列,可以首先将当前事件序列中的各个事件 与概率过程模型中的各个叶节点进行对准。在本发明的上下文中, 由于叶节点中存在重复的活动,因而可能会出现多种对准方式。例 如,假设当前事件序列中的第一个事件为“HbA1c”,在将当前事件 序列与如图4所示的概率过程模型进行对准时,有可能将该事件与 活动HbA1c240或者活动HbA1c260对准。此时,则需要借助于概 率过程模型中的概率分布,来将该事件与较高概率的活动对准。具 体地,假设活动HbA1c240的概率为0.1,而活动HbA1c260的概率 为0.05,则可以将事件对准到活动HbA1c240。

应当注意,在上文中仅以将一个事件对准到一个活动为具体示 例阐明了如何执行对准,本领域技术人员应该理解,当将事件序列 中的多个事件分别对准到概率过程模型中以叶节点表示的多个活动 时,可以选择如下对准方式:该对准方式可以将与事件序列中的每 个事件对准的活动的出现概率的乘积最大化。

在一个事件序列中,除了第一个事件仅需考虑初始概率外,在 计算其他每一个事件与活动对准的概率时,还应当考虑从上一个事 件出发的转移概率。换言之,从第2个事件起,每个事件的概率都 与它的前一个事件相关(即第2个事件的概率依赖于第1个事件, 以此类推)。

在下文中,将以具体说明如何将事件与概率模型中的叶节点对 准。假设当前事件序列:<HbA1c,药物2>,并且活动的出现概率如 下文表1所示:

表1概率分布

因而,将事件序列<HbA1c,药物2>分别与如下活动对准的概率 为:

1)与(HbA1c240,药物2246)对准的概率=0.1*0.05=0.005;

2)与(HbA1c240,药物2264)对准的概率=0.1*0.01=0.001;

3)与(HbA1c260,药物2246)对准的概率=0.05*0.01=0.0005;

4)与(HbA1c260,药物2264)对准的概率=0.05*0.05=0.0025。

当从上述概率中选择最大概率时,可以将当前事件序列与活动 (HbA1c240,药物2246)对准。

应当注意,上文表1中仅仅示意性示出了用于保存概率分布的 数据结构的一个示例,本领域技术人员还可以采用其他方式来存储 概率分布。另外,表1中仅仅示意性示出了概率过程模型中的概率 分布的一部分数据,在概率过程模型中还可以包括与其他节点相关 联的概率分布。

接着,记录与每个事件对准的叶节点在概率过程模型中的路径, 以将当前事件序列转变为路径序列。继续上文所示的示例,针对 HbA1c的路径为:[阶段1,检验1,HbA1c];针对药物2的路径为: [阶段1,治疗1,药物2]。并且路径序列可以表示为:<[阶段1,检 验1,HbA1c],[阶段1,治疗1,药物2]>。在上文中,仅以包括两 个事件的事件序列为示例解释了如何获得路径序列,本领域技术人 员可以基于上文所述的原理,针对包括更多事件的事件序列来构造 相应的路径序列。

例如,假设存在另一事件序列:<HbA1c,药物1,药物A,血 糖,药物3,药物2>,则相应的路径序列可以表示为:<[阶段1, 检验1,HbA1c],[阶段1,治疗1,药物1],[阶段1,治疗1,Unknown], [阶段2,检验2,血糖],[阶段2,治疗2,药物3],[阶段2,治疗 2,药物2]>。

在后续的操作步骤中,可以基于概率过程模型和路径序列以确 定差异。应当注意,由于在本发明的技术方案中采用了概率过程模 型,因而路径包括与概率过程模型中的多个层级相对应的多级路径。 具体地,在上文所示的示例中,包括三级路径,例如[阶段1,检验1, HbA1c]。如果概率过程模型中包括更多层级,则路径中也相应地包 括更多层级。

在本发明的一个实施方式中,差异的类型包括以下中的至少任 一项:额外活动(additional activity)、缺失活动(absent activity) 和违反约束(violated constraint)。在本发明的上下文中,额外活动 是指没有包括在原始过程模型中、但其实例化的事件出现在事件日 志中的活动,例如上文所述的新药(药物A)。缺失活动是指包括 在原始过程模型中,但其实例化的事件没有出现在事件日志中的活 动。违反约束表示违反了过程模型中各个节点之间的约束关系,例 如违反上文所述的约束关系C1。

在下文中,基于差异的具体类型来说明如何基于概率过程模型 和路径序列以确定差异。

在本发明的一个实施方式中,差异的类型包括违反约束,以及 基于概率过程模型和路径序列以确定差异包括:利用线性时序逻辑 (Linear Temporal Logic,LTL),构造符合概率过程模型中的约束 关系的自动机;以及从自动机不接受的路径序列中获取违反约束。

针对概率过程模型中的各个节点之间需要满足的约束关系,可 以利用线性时序逻辑来构造相应的自动机。在下文中将参见图5A-5C 来详细描述针对上文所述的约束关系C1来构造自动机的过程。具体 地,图5A-图5C示意性示出了根据本发明一个实施方式的构造符合 概率过程模型中的约束关系的自动机的过程的示意图500A-500C。

参见图5A,可以将约束关系C1表示为:

当使用字符B来表示h=[阶段1,治疗1,T]),并使用字符A来表示 h=[阶段1,检验1,HbA1c]后,上述公式可以简化为

接着,针对约束关系C1,可以将上述LTL公式转换为非确定性 有限自动机(Non-deterministic Finite Automaton,NFA);继而,可 以将该自动机转换为基于自动机的约束关系检查器(如图5B-5C所 示)。

之后,针对事件日志中的每个事件序列运行该约束关系检查器, 则检查器不接受的事件序列即为违反约束关系的事件序列。尽管上 文中仅仅示出了如何基于约束关系C1来构造检查器的具体示例,本 领域技术人员可以基于上文所述的原理来针对其他的约束关系(例 如,约束关系C2和C3)构造相应的检查器。关于线性时序逻辑以 及如何基于线性时序逻辑构造非确定性有限状态机的具体方法,本 领域技术人员可以参见相关算法描述,在此不再赘述。

图6A-图6C示意性示出了根据本发明一个实施方式的利用自动 机来检测事件序列是否符合约束关系的示意图600A-600C。可以将 如图6A-6C中所示的自动机分别应用于事件日志中的每个事件序 列,以便获得违反约束关系C1-C3的全部事件序列。

在本发明的一个实施方式中,所述差异的类型包括缺失活动, 以及基于概率过程模型和路径序列以确定差异包括:分别计算叶节 点在概率过程模型中的路径的全集SModel、以及与至少一个事件序列中 的事件序列中的事件对准的叶节点在概率过程模型中的路径的全集 SLog;以及计算全集SModel与全集SLog的差集SAbsent=SModel-SLog以作为缺失 活动。

本领域技术人员可以理解,如果过程模型中存在特定活动,然 而该活动在实际运行过程中从未被实例化,或者仅存在极少的被实 例化的事件时,则可以考虑:该过程模型的设置是否正确,以及是 否应当从过程模型中删除该缺失活动。具体地,继续上文所述的治 疗糖尿病的示例,假设目前的医疗规范是多年前制定的规范,并且 在基于该医疗规范建立的过程模型中包括药物B,然而随着医疗水 平的提高,该药物B已经逐渐被药物C所替代,则此时使用药物B 进行治疗的活动则逐渐成为缺失活动。

在寻找缺失活动之前,需要分别计算叶节点在概率过程模型中 的路径的全集SModel、以及与至少一个事件序列中的事件序列中的事件 对准的叶节点在概率过程模型中的路径的全集SLog

返回图4,假设叶节点在概率过程模型中的路径的全集SModel=< [阶段1,检验1,HbA1c],[阶段1,治疗1,药物1],…>,然而与 事件日志中的每个事件相关联的路径的全集SLog=<[阶段1,检验1, HbA1c],[阶段1,治疗1,药物A],…>(其中并不包括[阶段1, 治疗1,药物1])时,则全集SModel与全集SLog的差集SAbsent=SModel-SLog= [阶段1,治疗1,药物1]。在此示例中,[阶段1,治疗1,药物1] 为缺失活动。

在本发明的一个实施方式中,差异的类型包括额外活动,以及 基于概率过程模型和路径序列以确定差异包括:分别计算叶节点在 概率过程模型中的路径的全集SModel、以及与至少一个事件序列中的事 件序列中的事件对准的叶节点在概率过程模型中的路径的全集SLog; 以及计算全集SLog与全集SModel的差集SAdditional=SLog-SModel以作为额外活 动。

本领域技术人员可以理解,如果在事件日志中存在大量的新的 事件、然而在过程模型中并不存在相应的活动时,则可以考虑该过 程模型的设置是否正确,是否应当向过程模型中加入相应的新的活 动。具体地,继续上文所述的治疗糖尿病的示例,假设目前的医疗 规范是多年前制定的规范,并且随着医疗水平的提高,新研制的药 物A已经逐渐成为主流的药物,则使用药物A进行治疗的活动则成 为额外活动。

继续上文的示例,假设全集SModel不包括[阶段1,治疗1,药物 A],而全集SLog包括[阶段1,治疗1,药物A]时,则[阶段1,治疗1, 药物A]即为额外活动。

基于上文所述的原理,本领域技术人员可以获得各种类型的差 异,即额外活动、缺失活动和违反约束。应当注意,事件序列和概 率过程模型之间的差异可以包括上文所述的一种或者多种类型,例 如,可以仅包括违反约束,或者可以包括额外活动和缺失活动两者, 或者还可以包括全部三种类似的差异,等等。

在本发明的一个实施方式中,响应于差异超过预定阈值,将差 异标识为区别包括:计算至少一个事件序列中出现差异的事件序列 的数量与至少一个事件序列的总数的比例;以及响应于该比例超过 预定比例,将类型的差异标识为区别。

应当注意,在本发明的上下文中所述的区别是指差异累积到一 定程度、并导致实践中的真实流程与原始过程模型之间出现较为显 著的背离;然而,较小程度的背离(例如,仅仅在针对几个患者的 治疗中使用了新药A)并不能被称作区别。因而,可以基于出现差 异的事件序列的数量占总体数量的比例,进而判断是否存在区别。

如上文所述,由于差异可以包括多种类型,因而可以针对多种 类型中的每种类型来分别计算比例。具体地,假设在事件日志中存 在针对1000位患者的治疗记录,其中仅仅针对15位患者使用了新 药A,出现“额外活动”的比例为1.5%。如果针对“额外活动”的 阈值为10%时,则不认为存在区别。在另一情况下,如果针对500 位患者使用了新药A,则500/1000=50%>10%,此时存在区别。

针对“缺失活动”和“违反约束”类型的差异,本领域技术人 员可以基于上文所述的原理来设置相应的阈值,在此不再赘述。

在本发明的一个实施方式中,提供了一种用于更新过程模型的 方法,包括:基于根据上文的方法,检测事件日志和过程模型之间 的区别;以及基于区别来更新过程模型。

在上文中已经参见附图详细说明了如何检测事件日志和过程模 型之间的区别,在检测到区别之后还可以考虑基于该区别来更新过 程模型。具体地,例如,已经发现在治疗过程中频繁地使用新药A 来治疗糖尿病,则可以将该新药A加入过程模型;又例如,当发现 在治疗过程中已经没有医生使用药物1时,则可以从过程模型中删 除药物1。进一步,还可以基于过程模型来修改相应的医疗规范。

图7示意性示出了根据本发明一个实施方式的用于检测事件日 志和过程模型之间的区别的装置的框图700。如图7所示,提供了一 种用于检测事件日志和过程模型之间的区别的装置,包括:转换模 块710,配置用于将过程模型转换为概率过程模型,概率过程模型包 括多个层级中的多个节点以及与多个节点相关联的概率分布,多个 节点中的叶节点对应于过程模型中的活动;检测模块720,配置用于 按照对应关系检测事件日志中包括的至少一个事件序列与概率过程 模型之间的差异;以及标识模块730,配置用于响应于差异超过预定 阈值,将差异标识为区别,其中对应关系描述至少一个事件序列中 的事件序列中的事件与过程模型中的活动之间的对应关系。

在本发明的一个实施方式中,多个节点中的非叶节点对应于过 程模型中的阶段。

在本发明的一个实施方式中,转换模块710包括:形成模块, 配置用于计算非叶节点的出现的初始概率、非叶节点之间的转移概 率以及从非叶节点到叶节点的发射概率,以形成概率过程模型。

在本发明的一个实施方式中,形成模块包括:第一形成模块, 配置用于设置初始概率、转移概率以及发射概率,以形成概率过程 模型;以及第二形成模块,配置用于迭代地训练概率过程模型以将 经训练的概率过程模型作为概率过程模型。

在本发明的一个实施方式中,检测模块720包括:对准模块, 配置用于针对至少一个事件序列中的当前事件序列,基于概率分布 将当前事件序列中的每个事件与概率过程模型中的叶节点对准;路 径生成模块,配置用于记录与每个事件对准的叶节点在概率过程模 型中的路径,以将当前事件序列转变为路径序列;以及确定模块, 配置用于基于概率过程模型和路径序列以确定差异。

在本发明的一个实施方式中,路径包括与概率过程模型中的多 个层级相对应的多级路径。

在本发明的一个实施方式中,差异的类型包括以下中的至少任 一项:额外活动、缺失活动和违反约束。

在本发明的一个实施方式中,确定模块包括:构造模块,配置 用于利用线性时序逻辑,构造符合概率过程模型中的约束关系的自 动机;以及获取模块,配置用于从自动机不接受的路径序列中获取 违反约束。

在本发明的一个实施方式中,确定模块包括:计算模块,配置 用于分别计算叶节点在概率过程模型中的路径的全集SModel、以及与至 少一个事件序列中的事件序列中的事件对准的叶节点在概率过程模 型中的路径的全集SLog;以及缺失活动获取模块,配置用于计算全集 SModel与全集SLog的差集SAbsent=SModel-SLog以作为缺失活动。

在本发明的一个实施方式中,确定模块包括:计算模块,配置 用于分别计算叶节点在概率过程模型中的路径的全集SModel、以及与至 少一个事件序列中的事件序列中的事件对准的叶节点在概率过程模 型中的路径的全集SLog;以及额外活动获取模块,配置用于计算全集 SLog与全集SModel的差集SAdditional=SLog-SModel以作为额外活动。

在本发明的一个实施方式中,标识模块730包括:比例计算模 块,配置用于计算至少一个事件序列中出现差异的事件序列的数量 与至少一个事件序列的总数的比例;以及区别标识模块,配置用于 响应于比例超过预定比例,将类型的差异标识为区别。

在本发明的一个实施方式中,提供了一种用于更新过程模型的 装置,包括:根据上文的装置,配置用于检测事件日志和过程模型 之间的区别;以及更新模块,配置用于基于区别来更新过程模型。

采用本发明所述的方法和装置,可以在尽量不改变现有技术方 案的前提下,以更加准确、有效的方式来检测事件日志和过程模型 之间的区别。此外,还可以随着时间的推移,来基于所检测到的区 别更新过时的过程模型。

附图中的流程图和框图显示了根据本发明的多个实施方式的系 统、方法和计算机程序产品的可能实现的体系架构、功能和操作。 在这点上,流程图或框图中的每个方框可以代表一个模块、程序段 或代码的一部分,所述模块、程序段或代码的一部分包含一个或多 个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作 为替换的实现中,方框中所标注的功能也可以以不同于附图中所标 注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行, 它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要 注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中 的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的 系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施方式,上述说明是示例性的, 并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说 明的各实施方式的范围和精神的情况下,对于本技术领域的普通技 术人员来说许多修改和变更都是显而易见的。本文中所用术语的选 择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技 术的技术改进,或者使本技术领域的其他普通技术人员能理解本文 披露的各实施方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号