首页> 中国专利> 用于构建医学术语平台的方法、装置、电子设备和介质

用于构建医学术语平台的方法、装置、电子设备和介质

摘要

本公开的实施例公开了用于构建医学术语平台的方法、装置、电子设备和介质。该方法的一具体实施方式包括:选取数据源,采集医学词语集合;对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。该实施方式实现了医学信息命名规范、统一,即使有多个数据源也可以轻松处理得到符合要求的医学术语集合,构建的医学术语平台也有助于医学问诊、医学预警、医学指南推荐等医疗相关服务。

著录项

  • 公开/公告号CN114974490A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 神州医疗科技股份有限公司;

    申请/专利号CN202210589095.X

  • 申请日2022-05-27

  • 分类号G16H10/60(2018.01);G06F16/35(2019.01);G06F40/205(2020.01);G06F40/242(2020.01);G06F40/289(2020.01);G06F40/30(2020.01);

  • 代理机构北京星通盈泰知识产权代理有限公司 11952;

  • 代理人夏晶

  • 地址 100080 北京市海淀区北四环西路66号16层1901室

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G16H10/60 专利申请号:202210589095X 申请日:20220527

    实质审查的生效

说明书

技术领域

本公开的实施例涉及医疗服务领域,具体涉及用于构建医学术语平台的方法、装置、电子设备和介质。

背景技术

随着大数据时代的到来,医疗健康已成为大数据应用的重要领域,医疗健康大数据可应用于疾病的辅助诊断、治疗方案确定、流行病预测、药物副作用分析、医学临床研究等诸多方面。但是由于医学信息命名不规范、不统一、切来源广而杂的问题,为医疗服务带来了巨大的困难。

发明内容

有鉴于此,本公开实施例提供了一种用于构建医学术语平台的方法、装置、电子设备和介质,以解决现有技术中如何解决医学信息命名不规范、不统一、切来源广而杂的问题。

本公开实施例的第一方面,提供了一种用于构建医学术语平台的方法,包括:选取数据源,采集医学词语集合;对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。

本公开实施例的第二方面,提供了一种用于构建医学术语平台的装置,装置包括:采集单元,被配置成选取数据源,采集医学词语集合;处理单元,被配置成对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;建立单元,被配置成基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;发布单元,被配置成将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。

本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。

本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,选取数据源,采集医学词语集合;然后,对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;之后,基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;最后,将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。本公开的实施例提供的方法可以先对选取符合需求的数据源,然后采集医学词语,再对采集到的医学词语进行数据处理,建立医学词语之间的关系,从而得到符合使用需求的医学术语集合,构建出医学术语平台,实现了医学信息命名规范、统一,即使有多个数据源也可以轻松处理得到符合要求的医学术语集合,构建的医学术语平台也有助于医学问诊、医学预警、医学指南推荐等医疗相关服务。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。

图1是根据本公开的一些实施例的用于构建医学术语平台的方法的一个应用场景的示意图;

图2是根据本公开的用于构建医学术语平台的方法的一些实施例的流程示意图;

图3是根据本公开的用于构建医学术语平台的装置的一些实施例的结构示意图;

图4是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种用于构建医学术语平台的方法、装置、电子设备和介质。

图1是根据本公开一些实施例的用于构建医学术语平台的方法的一个应用场景的示意图。

在图1的应用场景中,首先,计算设备101可以选取数据源,采集医学词语集合102。然后,计算设备101可以对上述医学词语集合102进行数据处理,得到数据处理完成的医学词语集合103。之后,基于上述数据处理完成的医学词语集合103,计算设备101可以建立各个医学词语之间的关系,如附图标记104所示。最后,计算设备101可以将关系建立完成的医学词语集合确定为目标医学术语集合105,以及将上述目标医学术语集合105发布至目标医学术语平台。

需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。

图2是本公开实施例提供的用于构建医学术语平台的方法的流程示意图。图2的用于构建医学术语平台的方法可以由图1的计算设备101执行。如图2所示,该用于构建医学术语平台的方法,包括以下步骤:

步骤S201,选取数据源,采集医学词语集合。

在一些实施例中,用于构建医学术语平台的方法的执行主体(如图1所示的计算设备101)可以选择以下数据源中的一项或几项来采集医学词语集合:疾病、症状、体征类别的数据源,手术操作、检验检查的数据源,药品类别的数据源,人体形态结构的数据源,基因类别的数据源,医疗机械的数据源。这里,医学词语表示用于描述医学相关知识/疾病相关信息/药物相关信息的词语。

上文陈述的疾病、症状、体征类别的数据源包括但不限于以下至少一项:医学相关书籍,医学相关指南文献,国际疾病分类,常用医学名词,国际医学用语词典,元数据标准。上文陈述的手术操作、检验检查的数据源包括但不限于以下至少一项:诊断学相关文献/书籍,国际疾病分类手术码,医疗服务项目,医学机构临床检验项目目录。上文陈述的药品类别的数据源包括但不限于以下至少一项:药品说明书、药典、医保目录、基药目录、国家药品监督管理局发布的药品注册信息,世界卫生组织发布的药品分类体系。上文陈述的人体形态结构的数据源包括但不限于以下至少一项:解剖学相关信息,FMA。上文陈述的基因类别的数据源包括但不限于以下至少一项:NCBI、HGVS数据库。上文陈述的医疗机械的数据源包括但不限于以下至少一项:国家药品监督管理局发布的医疗器械分类目录,地方医疗耗材目录。

在一些实施例的一些可选的实现方式中,上述方法还包括:获取医学临床病历、互联网诊疗术语记录、医学类开放资源中的术语集;对上述医学临床病历、上述互联网诊疗术语记录、上述医学类开放资源中的术语集进行词语抽取,得到抽取出的词语集合;获取用户输入的词语集合;基于上述抽取出的词语集合和上述用户输入的词语集合,对上述医学词语集合进行更新。上述用户输入的词语集合为医学领域的学者输入的医生用词超过预设频次的词语的集合。上述词语抽取是利用抽取算法进行实现的,抽取算法及流程如下:

第一步,首先将标注数据、标注术语实体数据中的所有唯一字符提取出来并加上索引保存到词表中,这里,上述标注数据和上述标注术语实体数据是通过接收用户针对上述抽取出的词语集合进行标注得到的,将标注数据中的字符经过和词表进行映射,得到标注数据的数字id表示,之后再经过词嵌入获取输入数据映射的数字id映射对应的词向量表示,词嵌入层的构建逻辑为通过词嵌入权重矩阵和输入数据映射的数字id进行矩阵相乘计算,得出输入数据的256维向量表示。这里,词嵌入是自然语言处理(Natural LanguageProcessing,NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。具体地,词向量(word vector)可以是单词或短语通过词嵌入方法被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

第二步,经过词嵌入层获取输入数据的256维向量表示之后经过预训练语言模型进一步进行特征提取,获取输入数据的进一步的768维向量表示,预训练语言模型网络计算过程如下:首先,词嵌入层将输入数据映射的数字id映射、字符位置信息、上下句关系信息分别经过三个不同的词嵌入权重矩阵,三部分的输入数据映射的数字id分别和三个词嵌入层的权重矩阵进行矩阵相乘,分别得出各自的词向量,对三部分的词向量进行相加作为词嵌入层的输出,输出向量维度为768维;然后,使768维的输出向量进入多头注意力机制层,经过词嵌入层输出的768维向量表示在多头注意力机制层会分别经过三个线性层,在各自的线性层内与线性层的权重矩阵经过矩阵乘法计算得出每个输入部分融合上下文注意力信息的768维表示向量;最后,使融合上下文注意力信息的768维表示向量进入前馈神经网络层,将多头注意力机制层输出的768维向量表示经过两层线性层,并经过激活层激活后输出每个数据最终的768维向量表示。这里采用的预训练语言模型可以为Bert模型。

第三步,在经过预训练语言模型进一步提取特征之后输出输入数据每句文本中各个字符对应的768维度的表示向量之后,再经过全连接层计算输出各个字符在不同的实体类别的得分,经过softmax(归一化指数函数)计算转化为不同类别的概率,全连接层构建如下:

y=xA

其中,x用于表征预训练语言模型输出的768维向量,A用于表征全连接层的权重矩阵,b用于表征全连接层的偏置矩阵,y用于表征过线性层xAT+b的输出的logits值,P(label|x)用于表征经过模型计算结果在归一化指数函数计算后得到的概率值。上述执行主体可以将概率超过预设概率阈值的词语抽取出来得到上述词语集合。

步骤S202,对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合。

在一些实施例中,上述医学词语集合中的医学词语存在对应的语义标签,这里,语义标签可以是医学词语本身在当前语境中对应的语义类型。作为示例,胃对应的语义标签可以为身体部位,感冒对应的语义标签可以为疾病名称。上述执行主体可以通过如下步骤对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合:

第一步,上述执行主体可以基于上述医学词语集合中各个医学词语的语义标签对上述医学词语集合进行去重处理,得到去重处理后的医学词语集合。这里,去重处理可以是将语义标签相同且词语文本相同的医学词语仅保留一个的处理。

第二步,上述执行主体可以基于上述医学词语集合中各个医学词语的语义标签对上述去重处理后的医学词语集合进行分类处理,得到分类处理后的医学词语集合。这里,分类处理可以是将语义标签相同的医学词语分为一组的处理。

第三步,上述执行主体可以对上述分类处理后的医学词语集合进行格式标准化、文本标准化处理,得到处理后的医学词语集合。这里,格式标准化可以是编码类型统一或全半角统一的处理。文本标准化包括但不限于以下至少一项或几项:繁体换简体、大写数字统一为阿拉伯数字、罗马数字统一、英文字符大小写转化、标点符号统一。

第四步,上述执行主体可以确定上述处理后的医学词语集合中医学词语之间的相似度。这里,相似度可以是语形相似度,也可以是语义相似度。作为示例,语形相似度的计算过程可以是:采用编辑距离来计算,利用如下公式来计算医学词语之间的语形角度的相似度。

if min(i,j)=0,otherwise

其中,a、b分别表征两个待计算的医学词语的字符串文本,i和j分别表征字符串a和字符串b的下标。

作为示例,a、b为两个待计算的医学词语的字符串文本,值分别为a=′love′,b=′lolpe′,建立一个长宽分别为比待计算字符串a,b的字符长度多1的矩阵,如下表所示:

然后,初始化第一行和第一列所有的距离,也就是上述公式中的:

lev

将计算得到的结果在矩阵对应位置存储,如下表所示:

再然后,开始循环计算所有的距离,直至最后一个字符,并分别将计算所得的距离存储到矩阵对应的位置,得到结果如下表所示:

最后,矩阵中对应横纵坐标分别为两字符串长度的位置的距离值即是最终两个字符串之间的编辑距离,计算每个医学词语与其他医学词语之间的编辑距离,选取编辑距离最近的作为最相似的医学词语。

第五步,上述执行主体可以将似度超过预设相似度阈值的医学词语传输至审核页面。

第六步,上述执行主体可以接收针对上述审核页面输入的审核结果。

第七步,上述执行主体可以基于上述审核结果,对上述处理后的医学词语集合进行更新作为数据处理完成的医学词语集合。作为示例,若上述审核结果表征审核通过,上述执行主体可以对上述处理后的医学词语集合进行更新作为数据处理完成的医学词语集合,若上述审核结果表征审核不通过,上述执行主体可以接收针对上述审核页面输入的调整指令,然后根据调整指令对上述处理后的医学词语集合进行更新作为数据处理完成的医学词语集合。

步骤S203,基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系。

在一些实施例中,上述关系包括以下至少一项:层级关系,属性关系,映射关系。

上述执行主体可以通过如下步骤建立各个医学词语之间的层级关系:

第一步,上述执行主体可以获取上述数据处理完成的医学词语集合原有的层级关系。

第二步,上述执行主体可以利用预先构建的词汇解析引擎对上述第一医学词语集合进行解析,生成调整推荐信息。这里,词汇解析引擎的构建逻辑包括:判断医学词语的词性构成,从医学词语的构成出发,快速确定父节点作为推荐。作为示例,上述调整推荐信息可以是“建议将医学词语A作为医学词语B的父节点”。

第三步,上述执行主体可以接收用于表征针对上述层级关系进行调整的第一调整信息。作为示例,层级关系可以是“医学词语A为医学词语B、医学词语C的父节点”,第一调整信息可以是“医学词语A为医学词语B的父节点,医学词语C的父节点调整为医学词语D”。

第四步,上述执行主体可以基于上述调整推荐信息和上述第一调整信息,对上述数据处理完成的医学词语集合的层级关系进行调整,得到调整后的第一医学词语集合。

第五步,上述执行主体可以对上述第一医学词语集合进行层级关系逻辑验证,得到层级关系逻辑验证结果。这里,层级关系逻辑验证可以是确定层级关系是否能成环、是否有多余关系的验证。

第六步,响应于确定上述层级关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

在一些实施例的一些可选的实现方式中,上述执行主体可以通过如下步骤建立各个医学词语之间的属性关系:

第一步,上述执行主体可以获取上述数据处理完成的医学词语集合原有的属性关系。

第二步,上述执行主体可以基于上述数据处理完成的医学词语集合中每个医学词语对应的语义标签,构建属性值分词词典。作为示例,构建属性值分词词典可以是根据语义标签为‘发现的部位’、‘形态学表现’、‘与其他(如原因)的关系’、‘严重度’、‘临床进程’等标签的术语集合进行构建的。

第三步,上述执行主体可以基于上述属性值分词词典,对上述数据处理完成的医学词语集合中的医学词语进行分词处理,得到每个医学词语的分词组,以组成分词组集合。作为示例,分词可以分为部位、急慢性、方位等。

第四步,上述执行主体可以接收用于表征针对上述属性关系进行调整的第二调整信息。

第五步,上述执行主体可以基于上述第二调整信息对上述分词组集合进行调整,得到调整后的第二医学词语集合。

第六步,上述执行主体可以对上述第二医学词语集合进行属性关系逻辑验证,得到属性关系逻辑验证结果。这里,属性关系逻辑验证可以是确定子节点的属性关系比父节点丰富、属性值颗粒度比父节点细,确定不存在多条相同的属性关系的验证。

第七步,响应于确定上述属性关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

在一些实施例的一些可选的实现方式中,上述执行主体可以通过如下步骤建立各个医学词语之间的映射关系:

第一步,上述执行主体可以获取上述数据处理完成的医学词语集合中医学词语的映射关系。

第二步,上述执行主体可以计算上述数据处理完成的医学词语集合中医学词语与对照医学词语集合中对照医学词语之间的语义相似度。这里,对照医学词语集合可以是预先构建的,也可以是原有的历史医学词语集合。语义相似度可以通过计算医学词语的词向量与对照医学词语的词向量的余弦距离得到。

第三步,上述执行主体可以选择语义相似度超过预设语义相似度阈值的医学词语作为目标医学词语,得到目标医学词语集合。

第四步,上述执行主体可以基于预选构建的映射规则,对上述目标医学词语集合中的目标医学词语进行映射,得到映射后的目标医学词语集合。这里,预先构建的映射规则至少包括:确定映射类型,建立映射优先级,建立映射距离优先级;其中,映射类型包括以下其中一项:等同映射、等级映射(上位映射、下位映射)、相关映射;建立映射优先级表征优先建立等同映射。

第五步,上述执行主体可以接收用于表征针对上述映射关系进行调整的第三调整信息。

第六步,上述执行主体可以基于上述第三调整信息,对上述映射后的目标医学词语集合进行调整,得到调整后的第三目标医学词语集合。

第七步,上述执行主体可以对上述第三目标医学词语集合进行映射关系逻辑验证,得到映射关系逻辑验证结果。这里,映射关系逻辑验证为发布至验证页面,接收得到映射关系逻辑验证结果。

第八步,响应于确定上述映射关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

步骤S204,将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。

在一些实施例中,上述执行主体可以将关系建立完成的医学词语集合确定为目标医学术语集合。然后,上述执行主体可以确定上述目标医学术语平台是否存在历史医学术语集合。响应于确定存在,上述执行主体可以基于上述目标医学术语集合对上述历史医学术语集合进行替换。响应于确定不存在,上述执行主体可以将上述目标医学术语集合发布至目标医学术语平台,以及将上述目标医学术语集合存储至上述目标医学术语平台的数据库。

本公开的上述各个实施例中的一个实施例具有如下有益效果:首先,选取数据源,采集医学词语集合;然后,对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;之后,基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;最后,将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。本公开的实施例提供的方法可以先对选取符合需求的数据源,然后采集医学词语,在采集后还增加了通过对医学临床病历、互联网诊疗术语记录、医学类开放资源进行抽取医学词语进行补充的方法增强了医学词语多样性。然后,对采集到的医学词语进行去重处理、分类处理、格式标准化、文本标准化等四层处理,使得到的医学词语集合更为规范,也更加符合用户需求。之后,建立医学词语之间的层级关系/属性关系/映射关系,也使得到的医学术语集合层次分明、逻辑清晰、结构规范。由此,构建出医学术语平台,实现了医学信息命名规范、统一,即使有多个数据源也可以轻松处理得到符合要求的医学术语集合,构建的医学术语平台也有助于医学问诊、医学预警、医学指南推荐等医疗相关服务。

上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。

图3是本公开实施例提供的用于构建医学术语平台的装置的示意图。如图3所示,该用于构建医学术语平台的装置包括:采集单元301、处理单元302、建立单元303和发布单元304。其中,采集单元301,被配置成选取数据源,采集医学词语集合;处理单元302,被配置成对上述医学词语集合进行数据处理,得到数据处理完成的医学词语集合;建立单元303,被配置成基于上述数据处理完成的医学词语集合,建立各个医学词语之间的关系;发布单元304,被配置成将关系建立完成的医学词语集合确定为目标医学术语集合,以及将上述目标医学术语集合发布至目标医学术语平台。

在一些实施例的一些可选的实现方式中,上述数据源包括以下至少一项:疾病、症状、体征类别的数据源,手术操作、检验检查的数据源,药品类别的数据源,人体形态结构的数据源,基因类别的数据源,医疗机械的数据源。

在一些实施例的一些可选的实现方式中,用于构建医学术语平台的装置被进一步配置成:获取医学临床病历、互联网诊疗术语记录、医学类开放资源中的术语集;对上述医学临床病历、上述互联网诊疗术语记录、上述医学类开放资源中的术语集进行词语抽取,得到抽取出的词语集合;获取用户输入的词语集合;基于上述抽取出的词语集合和上述用户输入的词语集合,对上述医学词语集合进行更新。

在一些实施例的一些可选的实现方式中,上述医学词语集合中的医学词语存在对应的语义标签,用于构建医学术语平台的装置的处理单元302被进一步配置成:基于上述医学词语集合中各个医学词语的语义标签对上述医学词语集合进行去重处理,得到去重处理后的医学词语集合;基于上述医学词语集合中各个医学词语的语义标签对上述去重处理后的医学词语集合进行分类处理,得到分类处理后的医学词语集合;对上述分类处理后的医学词语集合进行格式标准化、文本标准化处理,得到处理后的医学词语集合;确定上述处理后的医学词语集合中医学词语之间的相似度;将相似度超过预设相似度阈值的医学词语传输至审核页面;接收针对上述审核页面输入的审核结果;基于上述审核结果,对上述处理后的医学词语集合进行更新作为数据处理完成的医学词语集合。

在一些实施例的一些可选的实现方式中,上述关系包括以下至少一项:层级关系,属性关系,映射关系。

在一些实施例的一些可选的实现方式中,用于构建医学术语平台的装置的建立单元303被进一步配置成:获取上述数据处理完成的医学词语集合原有的层级关系;利用预先构建的词汇解析引擎对上述第一医学词语集合进行解析,生成调整推荐信息;接收用于表征针对上述层级关系进行调整的第一调整信息;基于上述调整推荐信息和上述第一调整信息,对上述数据处理完成的医学词语集合的层级关系进行调整,得到调整后的第一医学词语集合;对上述第一医学词语集合进行层级关系逻辑验证,得到层级关系逻辑验证结果;响应于确定上述层级关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

在一些实施例的一些可选的实现方式中,用于构建医学术语平台的装置的建立单元303被进一步配置成:获取上述数据处理完成的医学词语集合原有的属性关系;基于上述数据处理完成的医学词语集合中每个医学词语对应的语义标签,构建属性值分词词典;基于上述属性值分词词典,对上述数据处理完成的医学词语集合中的医学词语进行分词处理,得到每个医学词语的分词组,以组成分词组集合;接收用于表征针对上述属性关系进行调整的第二调整信息;基于上述第二调整信息对上述分词组集合进行调整,得到调整后的第二医学词语集合;对上述第二医学词语集合进行属性关系逻辑验证,得到属性关系逻辑验证结果;响应于确定上述属性关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

在一些实施例的一些可选的实现方式中,用于构建医学术语平台的装置的建立单元303被进一步配置成:获取上述数据处理完成的医学词语集合中医学词语的映射关系;计算上述数据处理完成的医学词语集合中医学词语与对照医学词语集合中对照医学词语之间的语义相似度;选择语义相似度超过预设语义相似度阈值的医学词语作为目标医学词语,得到目标医学词语集合;基于预选构建的映射规则,对上述目标医学词语集合中的目标医学词语进行映射,得到映射后的目标医学词语集合;接收用于表征针对上述映射关系进行调整的第三调整信息;基于上述第三调整信息,对上述映射后的目标医学词语集合进行调整,得到调整后的第三目标医学词语集合;对上述第三目标医学词语集合进行映射关系逻辑验证,得到映射关系逻辑验证结果;响应于确定上述映射关系逻辑验证结果表征验证通过,确定医学词语之间的关系建立完成,得到关系建立完成的医学词语集合。

在一些实施例的一些可选的实现方式中,上述预先构建的映射规则至少包括:确定映射类型,建立映射优先级,建立映射距离优先级。

在一些实施例的一些可选的实现方式中,用于构建医学术语平台的装置的发布单元304被进一步配置成:确定上述目标医学术语平台是否存在历史医学术语集合;响应于确定存在,基于上述目标医学术语集合对上述历史医学术语集合进行替换;响应于确定不存在,将上述目标医学术语集合发布至目标医学术语平台,以及将上述目标医学术语集合存储至上述目标医学术语平台的数据库。

可以理解的是,该装置300中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置300及其中包含的单元,在此不再赘述。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。

图4是本公开实施例提供的计算机设备4的示意图。如图4所示,该实施例的计算机设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性地,计算机程序403可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在计算机设备4中的执行过程。

计算机设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是计算机设备4的示例,并不构成对计算机设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器402可以是计算机设备4的内部存储单元,例如,计算机设备4的硬盘或内存。存储器402也可以是计算机设备4的外部存储设备,例如,计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器402还可以既包括计算机设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号