首页> 中国专利> 一种基于异常检测算法的医保控费方法和系统

一种基于异常检测算法的医保控费方法和系统

摘要

本发明涉及一种基于异常检测算法的医保控费方法和系统,该方法包括步骤:对病历数据文本进行处理,得到实体的向量映射;根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。本发明利用大数据的思想,通过异常检测技术,来发现在医疗过程中的异常医疗行为,进而可以对该不合理行为进行医保控费。

著录项

说明书

技术领域

本发明涉及互联网服务技术领域,尤其涉及一种基于异常检测算法的医保控费方法和系统。

背景技术

随着国家医保的大范围实施,病人可使用国家医保看病住院,实现看病费用的报销。但不可否认的是,目前社会上存在相当数量的医保欺诈行为,而现有技术对于医保欺诈缺乏有效的科学鉴别手段,严重影响了医保基金的收支平衡,侵害了广大参保人的利益、乃至公众利益,因此,医保的风险审核是医保报销中必不可少的一环。其中,药品费用占整个医疗费用很高的比例,因此,合理用药是医保控费的重要环节。尤其对病人的诊断信息和用药信息进行审核,也是必不可少的一步。

现有的技术根据医保局发布的《药品目录》和《医疗服务目录》中的限制性条件,结合医保局的具体政策,制定了一系列的控费规则。如:药品“小儿碳酸钙D3”只能在诊断有“小儿佝偻病”下的情况使用,其他情况不予付费,然后将这些规则以正则表达式和词典的方式实现在系统中。但是医生在实际的医疗过程中,使用的诊断名称、药品名称、治疗服务名称是多样化的,不可能在表达形式上完全和医保局发布的标准名称一致。这就造成了以正则表达式和词典等形式匹配的方案失效,进而发现不了异常情况,控费失败。同时,医保局发布的控费规则是有限的、固定的(在一段时间内),但是骗保的不合理医疗行为是多样的、变化的。导致了医保局的控费规则只能是规范有限的不合理医疗行为,不可能对全部的不合理医疗行为进行把控。

发明内容

有鉴于此,本发明提供了一种基于异常检测算法的医保控费方法和系统,利用了大数据的思想,并通过异常检测技术,来发现在医疗过程中的不合理的医疗行为,进而可以对该不合理行为进行医保控费。

本发明解决上述技术问题的技术方案如下:

一方面,本发明提供了一种基于异常检测算法的医保控费方法,该方法包括:

S1.对病历数据文本进行处理,得到实体的向量映射;

S2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);

S3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。

一方面,本发明还提供了一种基于异常检测算法的医保控费系统,该方法包括:

数据处理模块,对病历数据文本进行处理,得到实体的向量映射;

数据聚合模块,根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);

数据筛选模块,对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。

本发明的有益效果是:

通过word2vec的算法特性对大量病例数据进行处理,将实体名称向量化后,可以让内涵一致的实体在空间上聚集在一起。从而解决了病例的文本在形式上不一致但是内涵上一致的问题。有效地解决了现有技术只能涵盖有限情况下的不合理医疗行为规范,进而达到更有效地进行医保控费的目的。

附图说明

图1为本发明实施例提供的基于异常检测算法的医保控费方法的流程示意图;

图2为本发明实施例提供的基于异常检测算法的医保控费方法在进行实体的向量映射时的流程示意图;

图3为本发明实施例提供的基于异常检测算法的医保控费方法在进行内涵一致性聚合时的流程示意图;

图4为本发明实施例提供的基于异常检测算法的医保控费方法在进行实体向量筛选时的流程示意图;

图5为本发明实施例提供的基于异常检测算法的医保控费系统的结构示意图;

图6为本发明实施例提供的安装了应用程序的系统的运行环境的示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

以下结合附图,详细说明本说明书各实施例提供的技术方案。

实施例一

如附图1所示,本发明提供了一种基于异常检测算法的医保控费方法,包括如下步骤:

S1.对病历数据文本进行处理,得到实体的向量映射;

S2.根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);

S3.对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。

进一步,所述步骤S1包括:

S101.获取大规模的电子病历文本数据;

优选的,所述电子病例文本数据在1千万份以上;

S102.对所述电子病历文本运行医疗NER算法,将病历文本中的医疗实体抽取出来,形成数据集E;

具体的,命名实体识别(Named Entity Recognition,简称NER)是指识别文本中特定的实体,例如:人名、地名等。在电子病历领域,旨在自动识别和分类病例中医学实体,例如治疗手段、疾病等,包括但不限于诸如解剖术语、医疗条件、医疗程序、医务人员名称、提供商名称、诊断和药物名称等等。

所述数据集E的数据结构为:

病例a:实体1,实体2,实体3…;

病例b:实体1,实体2,实体3…;

病例n:实体1,实体2,实体3…。

S103.在数据集E上运行Word2Vec算法,将所有的医疗实体映射到同一个高维空间内,得到实例化的向量结果数据集S。

具体的,Word2Vec是一种深度学习的词嵌入模型,运用该算法可以保证内涵相似的医疗实体在空间上都聚合在一起。

所述实例化的向量结果数据集S的数据结构为:

(实体1,向量1),

(实体2,向量2),

(实体n,向量n)。

进一步,所述步骤S2包括:

S201.统计所有病历中主诊断名称不同的病历份数,得到数据集L,然后将数据集L按照病历份数从大到小排序;

具体的,所述数据集L的数据结构为:

(诊断名称1,病历数1,未访问),

(诊断名称2,病历数2,未访问),

(诊断名称3,病历数3,未访问),

(诊断名称n,病历数3,未访问)。

S202.创立一个新的空表NL;

S203.从头遍历数据集L,选取L中的第一个未访问过的数据项D,将数据项D标记为已访问;

S204.在所述实例化的向量结果S中找出与数据项D的欧式距离小于预设阈值的所有点PS,将点PS在数据集L上标记为已访问;

这些点PS都是跟该数据项D在表达形式不一致但是内涵一致的;

S205.将点PS的实体名称和数据项D的实体名称放在一个列表中,得到诊断一致的名称列表;并将这些点PS的个数和数据项D的个数相加得到总个数;将名称列表和总个数作为一个新的数据项T,添加到表NL中;

具体的,所述数据项T的数据结构为:

【实体1a,实体1b,…】,总个数

【实体na,实体nb,…】,总个数。

S206.重复步骤S203-S205直到数据集L的所有项都标记为已访问。

进一步,所述步骤S3包括:

S301.遍历所述表NL的所有项,删除其总个数小于1000的项,记为表NLD;

S302.创立一个新表RL,令指针指向NLD表头;

S303.从指针位置选出NLD中的数据项T,以该数据项T所对应的诊断名称列表为基础,抽取该列表中所有诊断名称所对应的病历集合G;

S304.根据所述病例集合G对所述数据集E进行过滤,只取G中存在的病历,得到结果数据集EG;

S305.根据数据集EG对数据集S进行过滤,只取数据集EG中存在的实体向量,得到结果数据集SG;

S306.在数据集SG上运行密度异常检测算法LOF,得到每个实体的LOF得分;将LOF得分大于预设阈值的实体标记为异常点,得到异常医疗行为列表;

S307.将所述诊断名称列表和异常医疗行为列表作为一个数据项,添加到表RL中;

S308.将指向表NLD的指针向后移一位;

S309.重复执行步骤S303-S308,直到指针超过NLD表尾;得到包含异常医疗行为列表的表RL。

实施例二

如附图4所示,本发明还提供了一种基于异常检测算法的医保控费系统,包括:

数据处理模块,对病历数据文本进行处理,得到实体的向量映射;

数据聚合模块,根据所述实体的向量映射,对病例数据中所有的主诊断进行内涵一致性聚合,将所有病历数据根据主诊断分为N组(N>1);

数据筛选模块,对所述分组病例进行实体向量筛选,在每组病例数据上运行LOF算法,得到异常医疗行为集合。

进一步,所述数据处理模块还包括:

病例数据获取模块,获取大规模的电子病历文本数据;

实体获取模块,对所述电子病历文本运行医疗NER算法,将病历文本中的医疗实体抽取出来,形成数据集E;

实体映射模块,在数据集E上运行Word2Vec算法,将所有的医疗实体映射到同一个高维空间内,得到实例化的向量结果数据集S。

进一步,所述数据聚合模块还包括:

统计排序模块,统计所有病历中主诊断名称不同的病历份数,得到数据集L,然后将数据集L按照病历份数从大到小排序;

表创建模块1,用于创立一个新的空表NL;

遍历模块,从头遍历数据集L,选取L中的第一个未访问过的数据项D,将数据项D标记为已访问;

标记模块,在所述实例化的向量结果S中找出与数据项D的欧式距离小于预设阈值的所有点PS,将点PS在数据集L上标记为已访问;

填充模块,将点PS的实体名称和数据项D的实体名称放在一个列表中,得到诊断一致的名称列表;并将这些点PS的个数和数据项D的个数相加得到总个数;将名称列表和总个数作为一个新的数据项T,添加到表NL中。

进一步,所述数据筛选模块还包括:

数据删除模块,遍历所述表NL的所有项,删除其总个数小于1000的项,记为表NLD;

表创建模块2,创立一个新表RL,令指针指向NLD表头;

病例抽取模块,从指针位置选出NLD中的数据项T,以该数据项T所对应的诊断名称列表为基础,抽取该列表中所有诊断名称所对应的病历集合G;

病例过滤模块,根据所述病例集合G对所述数据集E进行过滤,只取G中存在的病历,得到结果数据集EG;

实体过滤模块,根据数据集EG对数据集S进行过滤,只取数据集EG中存在的实体向量,得到结果数据集SG;

异常检测模块,在数据集SG上运行密度异常检测算法LOF,得到每个实体的LOF得分;将LOF得分大于预设阈值的实体标记为异常点,得到异常医疗行为列表。

实施例三

根据本发明的实施例的安装了应用程序的系统。

参照图6,其示出了根据本发明实施例的安装了应用程序的系统的运行环境。在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。附图仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的系统等。

所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的客户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解,上述实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明本申请各个实施例所述的方法。

也就是说,根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于执行根据本发明的实施例的所述方法的程序,所述程序被处理器执行时,执行所述方法的各个步骤。

本发明的优点在于:

通过word2vec的算法特性,对大量病例数据进行处理得到病例中的实体,将实体名称向量化后,可以让内涵一致的实体在空间上聚集在一起。从而解决了病例中的描述在形式上不一致但是内涵上一致的问题。根据内涵一致的主诊断,把所有的病历分为N份。对于每一份数据上,利用密度异常检测算法LOF,得到在该主诊断下的不合理医疗行为。进而得到所有主诊断下的各自的不合理医疗行为。如果数据规模足够大,那么就可以涵盖绝大多数的诊断。也就是涵盖了绝大部分的不合理医疗行为。有效地解决了只能涵盖有限情况下的不合理医疗行为规范。进而达到更有效地进行医保控费的目的。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号