技术领域
本发明涉及基于Point Set Registration的医学本体对齐方法,属于医学知识图谱领域。
背景技术
本体(Ontology)使用概念以及概念之间的关系来表示领域知识,为语义标注、知识发现与共享、数据集成与决策等应用提供了支撑。由于医学本体构建的方式和角度多种多样,这就导致不同医学本体之间的异构性,即同一概念在不同的医学本体中通常拥有不同的上下文和不完全相同的含义。
为了集成如此大的医学本体,医学本体自动匹配工具成为必然的解决方案。医学本体对齐是解决医学本体数据异构性的重要技术,在医学知识图谱的融合中具有重要意义。其研究方法主要分为两种:
(1)基于字符串相似度和逻辑规则的医学本体对齐方法。
(2)基于概念嵌入方法的医学本体对齐方法。
但是现有方法在利用概念嵌入的方法解决医学本体对齐问题时,其概念嵌入在模型学习的过程中没有得到进一步的优化,每轮迭代产生的对齐结果在之后的迭代过程中没有被利用,导致医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题。
发明内容
本发明的目的是为了解决现有方法解决医学本体数据异构性的存在,导致医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题,而提出一种基于PointSet Registration的医学本体对齐方法。
一种基于Point Set Registration的医学本体对齐方法具体过程为:
步骤一、对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;
步骤二、基于步骤一建立混合高斯模型;
步骤三、利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系T
步骤四、将步骤一得到的两组医学本体的向量表示通过步骤三的变换关系映射到同一向量空间中;
步骤五、在该向量空间中,对于其中一组医学本体中的某一个概念,在该概念对应的嵌入后向量的给定阈值半径内,若存在另一组医学本体中的概念的嵌入后向量,则这两组医学本体对象存在对齐关系;
步骤六、判断在步骤五中是否出现新的对齐,若是,则利用新的对齐关系生成新的三元组正例,执行步骤一;若否,输出结果。
优选地,所述步骤一中对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;具体过程为:
利用TransE方法,使用医学本体数据集FMA包含的三元组关系作为输入,对医学本体数据集FMA中的每一个概念进行嵌入,得到概念的向量表示X
利用TransE方法,使用医学本体数据集NCI包含的三元组关系作为输入,对医学本体数据集NCI中的每一个概念进行嵌入,得到概念的向量表示Y
X
X
Y
式中,x
优选地,所述步骤二中基于步骤一建立混合高斯模型;具体过程为:
建立混合高斯模型的概率密度函数,表达式如下:
式中,p(m)为第m个斯模型的先验概率,p(x
前M项中:
式中,σ
第M+1项:
式中,N为本体数据集FMA的大小。
优选地,所述第m个混合高斯模型的先验概率为:
式中,λ是噪声比例的先验。
优选地,所述步骤三中利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集之间的变换关系T
EM算法的Q函数定义为:
式中,p(m|x
其中s是缩放系数,R是旋转矩阵,t是平移向量;
根据贝叶斯公式,以向量y
将p(m|x
优选地,所述根据贝叶斯公式,以向量y
其中,T
优选地,所述变换关系T
T
式中,s是缩放系数,R是旋转矩阵,t是平移向量。
优选地,所述替换变量c表达式为;
优选地,所述步骤五中给定阈值半径通过余弦距离求的。
优选地,所述步骤六中生成新的三元组正例的方法具体过程为:
使用对齐的概念对(o
其中,o
本发明的有益效果为:
为了解决医学知识图谱融合的准确率低,数据匹配精度差,数据处理量大的问题,本发明提出了一种基于Point Set Registration的医学本体对齐方法,不需要引入外部知识,在对齐步骤使用无监督算法(步骤一到步骤六),算法简单易行,可靠性高,数据处理量少;另外,不同于通常的固定概念嵌入的本体匹配算法,本发明将在医学本体匹配的过程中引入Point Set Registration算法,并对概念的嵌入表示进行迭代更新,以获得能够最大化优化目标的概念嵌入,数据匹配精度高,具有较高的可靠性和严谨的可解释性,提高了医学知识图谱融合的准确率。
附图说明
图1为本发明流程图。
具体实施方式
具体实施方式一:本实施方式一种基于Point Set Registration的医学本体对齐方法具体过程为:
Point SetRegistration为点云配准;
步骤一、对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;
步骤二、对本体对齐问题,基于步骤一建立混合高斯模型;
步骤三、利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集(医学本体数据集FMA和医学本体数据集NCI)之间的变换关系T
步骤四、将步骤一得到的两组医学本体的向量(步骤一得到的利用TransE方法对本体数据集FMA和NCI中的每一个概念进行嵌入,得到的概念的向量表示;)表示通过步骤三的变换关系T
通过步骤三描述的Point Set Registration算法,我们找到了两组本体之间的关系T
步骤五、在该向量空间中,对于其中一组医学本体中的某一个概念,在该概念对应的嵌入后向量(对该概念进行嵌入,得到该概念的向量表示)的给定阈值半径内,若存在另一组医学本体中的概念的嵌入后向量,则这两组医学本体对象存在对齐关系;
步骤六、判断在步骤五中是否出现新的对齐,若是,则利用新的对齐关系生成新的三元组正例,重新开始一轮迭代,执行步骤一;若否,输出结果。
本发明涉及的医学本体有解剖学的基础模型(FMA)、美国国家癌症研究所(NCI)、医学-临床术语的系统化命名法(SNOMED CT)。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中对两组医学本体数据集中的每一个概念进行嵌入,得到概念的向量表示;具体过程为:
利用TransE方法,使用医学本体数据集FMA包含的三元组关系作为输入,对医学本体数据集FMA中的每一个概念(比如:Monoblast)进行嵌入,得到概念的向量表示X
利用TransE方法,使用医学本体数据集NCI包含的三元组关系作为输入,对医学本体数据集NCI中的每一个概念(比如:Chondroblast)进行嵌入,得到概念的向量表示Y
X
X
Y
式中,x
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中对本体对齐问题,基于步骤一建立混合高斯模型;具体过程为:
将Y
从而,原来的本体对齐问题转换成了求解混合高斯模型参数的问题;
建立混合高斯模型的概率密度函数,表达式如下:
式中,p(m)为第m个斯模型的先验概率,p(x
其中:
前M项中:
式中,σ
第M+1项是一个均匀分布作为噪声:
式中,N为本体数据集FMA的大小。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述第m个混合高斯模型的先验概率为:
式中,λ是噪声比例的先验。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤三中利用EM算法求解步骤二得到的混合高斯模型,得到两组医学本体数据集(医学本体数据集FMA和医学本体数据集NCI)之间的变换关系T
EM算法的Q函数定义为:
式中,p(m|x
其中s是缩放系数,R是旋转矩阵,t是平移向量;
根据贝叶斯公式,以向量y
将p(m|x
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述根据贝叶斯公式,以向量y
其中,T
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是:所述变换关系T
T
式中,s是缩放系数,R是旋转矩阵,t是平移向量。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是:所述替换变量c表达式为;
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是:所述步骤五中给定阈值半径通过余弦距离求的。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是:所述步骤六中生成新的三元组正例的方法为:
利用对齐关系,使用一个本体集S
例如,使用对齐的概念对(o
其中,o
其它步骤及参数与具体实施方式一至九之一相同。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
机译: 基于韩国传统医学本体论的语义搜索系统及使用该方法的搜索方法
机译: 基于专家经验本体的医学信息检索系统及方法
机译: 基于本体的医学患者评估数据采集与知识表示方法