公开/公告号CN101956006A
专利类型发明专利
公开/公告日2011-01-26
原文格式PDF
申请/专利权人 公安部物证鉴定中心;
申请/专利号CN201010265875.6
申请日2010-08-27
分类号C12Q1/68;
代理机构北京同立钧成知识产权代理有限公司;
代理人刘芳
地址 100038 北京市西城区木樨地南里17号
入库时间 2023-12-18 01:30:56
法律状态公告日
法律状态信息
法律状态
2013-10-16
授权
授权
2011-03-23
实质审查的生效 IPC(主分类):C12Q1/68 申请日:20100827
实质审查的生效
2011-01-26
公开
公开
技术领域
本发明涉及生物信息学领域,尤其涉及一种利用生物信息学方法获得人种特异性位点的方法和人种推断系统及其应用。
背景技术
人类基因组拥有大约32亿对碱基。不同的人基因组中碱基对序列的99.9%都是一样的,只有不到千分之一左右的序列有所不同。这些差异的主要形态,是被称为“单核苷酸多态性(Single nucleotidepolymorphism,SNP)”的由DNA链上单个核苷酸的变异引起的DNA多态性。这不到千分之一的差异不仅决定了人们是否易于得某些疾病,也决定了他们在身高、肤色和体型等方面的差异。单核苷酸多态性(Singlenucleotide polymorphism,SNP)是在限制性片段长度多态性(restrictionfragment length polymorphism,RFLP)和短串联重复序列(short tandemrepeat,STR)两代遗传标记之后的“第三代遗传标记”,是目前为止人类基因组中分布最广泛、存在数量最多的DNA多态型,至少约1000bp就有一个SNP位点,在整个基因组的分布达3×106个,这比STR要高出几个数量级,大约90%的人类遗传变异是单核苷酸多态性。SNP广泛存在于非编码区和编码区,不仅可以用于个体识别,而且在人的外形和种族推测方面具有独特的作用。另外SNPs片段较短,更易进行PCR扩增,并且产物的长度不到100bp,这与300-400bp的STRs相比能够更好的适用于降解的DNA样本,而且SNPs引物结合位点间的距离较近,在法医鉴定中有利于对高度降解的DNA进行分析。
为充分了解SNP在人类基因组上的分布情况,国际人类基因组单体型图计划(简称HapMap计划)收集了包括尼日利亚的约鲁巴人、北京的中国汉族人、美国的西北欧后裔和东京的日本人四个群体的全基因组信息。从这些基因组数据中,科学家们发现了1.42百万个常见的SNP位点,并详细描述了这些变异的形式、在DNA上存在的位置,以及在同一群体内部和不同群体间的分布状况。这些信息对分析SNP与遗传疾病的关系以及个体化用药提供了良好的指导,同时也为法医学方面的研究提供了良好的数据来源。
在通常的情况下或场合,可以根据人的肤色、五官等通过人视觉可辨别的特征对未知来源个体进行黑、白、黄人种来源判别,但是法医学上,对于在案发或事故现场取得的难以辨认的严重损毁尸体、残留的人体血液与精液等微量、易降解腐败生物检材,仅凭上述简单的视觉特征进行黑、白、黄人种来源查找时,存在非常大的局限;另外对于一些正常的个体检材,比如嫌疑人为混血个体,若必须通过判定祖先背景才能排除,则仅根据其肤色、五官等特征,显然无法进行准确的人种来源推断。因此通过生物学方法对个体从基因水平进行人种来源推断显得尤为必要。
发明内容
本发明提供了一种获得黑、白、黄人种特异性位点方法,该方法可从黑、白、黄人种群体的基因组SNP位点中获得有限个具有高鉴别力的黑、白、黄人种特异性位点,使用上述人种特异性位点实现高准确性的黑、白、黄人种来源推断,并提供输出形式较为科学、可以被法庭接受的鉴别力数据。
本发明还提供了一种建立黑、白、黄人种推断系统的方法和由该方法获得的黑、白、黄人种推断系统及其应用,利用所建立的黑、白、黄人种推断系统可对未知来源个体进行准确的黑、白、黄人种来源的推断。
本发明所提供的一种获得黑、白、黄人种特异性位点方法,由以下步骤组成:选择黑、白、黄人种群体;获得所述黑、白、黄人种群体的基因组SNP位点;挑选所述黑、白、黄人种群体的色素沉积类基因和异生质代谢酶类基因内的SNP位点;
从上述挑选出的SNP位点中筛出黑、白、黄人种群体的祖先信息标记位点,所述祖先信息标记位点为至少有一个δ值大于0.5的SNP位点,所述δ值为SNP位点的等位基因(A或a)在所述黑、白、黄人种人种群体中的基因频率的差值;
从上述祖先信息标记位点中筛出黑、白、黄人种特异性位点,所述黑、白、黄人种特异性位点为有两个δ值大于0.5的祖先信息标记位点;在筛选所述黑、白、黄人种特异性位点时应尽可能从不同的染色体上的祖先信息标记位点中筛选,减低单倍型对位点的判别准确性的影响。
所述色素沉积类基因和异生质代谢酶类基因由以下基因组成:FDPS,SLC45A2,HMGCR,AP3B1,IRF4,ESR1,AHR,EGFR,CYP3A4,TYRP1,CYP2C8,CYP2C9,TPCN2,TYR,DRD2,VDR,HMGA2,KITLG,DCT,SLC24A4,OCA2,HERC2,SLC24A5,CYP19A1,MYO5A,CYP1A1,MC1R,GH1,ASIP和CYP2D6。
在本发明的一个实施例中,所述黑、白、黄人种群体可以是来自HapMap数据库,分别为由在美国生活的非洲人和在非洲生活的非洲人组成的黑人群体,由在美国生活的欧洲人组成的白人群体,由在北京生活的汉族人和在美国生活的汉族人以及在东京生活的日本人组成的黄人群体。
本发明还提供了一种获得黑、白、黄人种推断系统的方法,包括:按上述方法获得所述黑、白、黄人种特异性位点;并将获得的各黑、白、黄人种特异性位点的等位基因组成的各基因型的对数似然比值进行集合。其中所述对数似然比值为各黑、白、黄人种特异性位点的等位基因组成的各基因型在所述黑、白、黄人种群体中的基因型频率的对数似然比值。
本发明还提供了一种黑、白、黄人种推断系统,由上述获得黑、白、黄人种推断系统的方法获得。该系统由16个黑、白、黄人种特异性位点以及各黑、白、黄人种特异性位点的等位基因组成的各基因型的对数似然比值构成,所述16个黑、白、黄人种特异性位点为:rs11264300、rs28777、rs12668421、rs4646437、rs7048117、rs686016、rs11018541、rs2583939、rs3782972、rs8012948、rs7170451、rs728404、rs2470102、rs885479、rs1205357以及rs7290134。
在上述基础上,本发明还提供了上述黑、白、黄人种推断系统在对未知来源个体进行黑、白、黄人种来源推断中的应用。
利用本发明上述推断系统对未知来源个体进行黑、白、黄人种来源进行推断的方法,包括:获得未知来源个体的SNP位点;获得所述未知来源个体的16个黑、白、黄人种特异性位点的基因型;从所述黑、白、黄人种推断系统中获得所述未知来源个体的各黑、白、黄人种特异性位点的对数似然比值;将所述各黑、白、黄人种特异性位点的对数似然比值加和得到16个黑、白、黄人种特异性位点的对数似然比值;黑、白、黄人种群体两两划分的对数似然比值均为大的群体为未知来源个体的来源群体;
上述方法中所述的16个黑、白、黄人种特异性位点为:rs11264300、rs28777、rs12668421、rs4646437、rs7048117、rs686016、rs11018541、rs2583939、rs3782972、rs8012948、rs7170451、rs728404、rs2470102、rs885479、rs1205357和rs7290134。
另外,本发明还提供了一种提高对未知来源个体的黑、白、黄人种来源推断准确性的方法,该方法包括:
获得未知来源个体的SNP位点;
获得所述未知来源个体的16个黑、白、黄人种特异性位点的基因型;
利用上述的黑、白、黄人种推断系统获得所述未知来源个体的各黑、白、黄人种特异性位点的对数似然比值;
将所述各黑、白、黄人种特异性位点的对数似然比值加和得到16个黑、白、黄人种特异性位点的对数似然比值;
所述黑、白、黄人种群体两两划分的对数似然比值均为大的群体为未知来源个体的来源群体;
上述方法中所述的16个黑、白、黄人种特异性位点为:rs11264300、rs28777、rs12668421、rs4646437、rs7048117、rs686016、rs11018541、rs2583939、rs3782972、rs8012948、rs7170451、rs728404、rs2470102、rs885479、rs1205357和rs7290134。
采用本发明的上述方法和系统可以快速、有效地对难以辨认的严重损毁尸体、残留的人体血液与精液等微量、易降解腐败生物检材,进行人种来源推断,从而扩大犯罪现场的检材范围,为公安机关刑事执法和行政执法、保障社会公共安全提供有力的技术支撑;另外,对于一些正常个体检材,如通过其个体的肤色、五官等无法获得准确的人种来源推断的混血个体等,可进行准确有效的个体来源推断。
附图说明
图1为16个黑、白、黄人种特异性位点对黑、白、黄人种群体两两划分得到的平均对数似然比值进行比较的单因素方差分析图。
具体实施方式
为使本发明的目的、技术方案和技术效果更加清楚,下面将结合本发明具体实施例及相应附图,对本发明实施例中的技术方案进行清楚、完整地描述,但以下实施例不能理解为对本发明的可实施范围的限定,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
通过本实施例来具体说明本发明所提供的一种获得黑、白、黄人种推断系统的方法。
一、首先通过以下步骤获得黑、白、黄人种特异性位点:
1、优选来自HapMap数据库的,由83个在美国生活的非洲人和167个在非洲生活的非洲人组成的黑人群体、由165个在美国生活的欧洲人组成的白人群体、由84个在北京生活的汉族人和85个在美国生活的汉族人以及86个在东京生活的日本人组成的黄人群体作为本实施例的黑、白、黄人种群体;
上述黑、白、黄人种群体由6个地理区域的人群组成,因其地理学距离大,特征差异明显,容易获得质量较高的隔离群样本,使用这些群体将获得更具高鉴别力的黑、白、黄人种特异性位点,另外HapMap数据库提供了对上述黑、白、黄人种群体的SNP位点的变化形式、在DNA上存在的位置,以及在同一群体内部和不同群体间的分布状况的统计,使用这些在权威数据库中公开的数据进行黑、白、黄人种特异性位点分析将使分析结果更加准确并具有说服力;对于其他选自非已知数据库中存在的黑、白、黄人种群体,其SNP位点可以通过常规的基因组测序方法获得,SNP位点的两个等位基因的基因频率可通过基因组测序结果进行统计获得。获得SNP位点的两个等位基因的基因频率后可以进一步获得SNP位点的等位基因所组成的基因型的频率。
2、针对上述来自HapMap数据库的黑、白、黄人种群体,从HapMap数据库中获得所述黑、白、黄人种群体的色素沉积类基因和异生质代谢酶类基因内的SNP位点,以及各SNP位点的两个等位基因的基因频率,其中所述色素沉积类基因和异生质代谢酶类基因由以下30个基因组成:FDPS,SLC45A2,HMGCR,AP3B1,IRF4,ESR1,AHR,EGFR,CYP3A4,TYRP1,CYP2C8,CYP2C9,TPCN2,TYR,DRD2,VDR,HMGA2,KITLG,DCT,SLC24A4,OCA2,HERC2,SLC24A5,CYP19A1,MYO5A,CYP1A1,MC1R,GH1,ASIP,CYP2D6。
以上30个基因的组合充分覆盖了在人类进化的漫长历程中经历选择压力依然保留了下来的具有黑、白、黄人种特异性的色素沉积类基因和异生质代谢酶类基因,这些色素沉积类基因和异生质代谢酶类基因例如:可表达高的黑色素保护非洲人远离紫外线的损伤的基因,编码异生质代谢酶有益于在饮食中接触特定的生物碱或单宁的黑、白、黄人种祖先的基因。通过对上述基因区域内的SNP位点的筛选,可获得具有高鉴别力的黑、白、黄人种特异性位点。
3、从上述挑选出的30个色素沉积类基因和异生质代谢酶类基因基因内的SNP位点中筛出黑、白、黄人种群体的祖先信息标记位点,所述祖先信息标记位点为至少有一个δ值大于0.5的SNP位点;
其中,δ值代表SNP位点的等位基因(A或a)在两个群体中的频率分布差异,δ值计算通用公式为:
以上公式中,k为该位点的等位基因数,px和qx分别代表等位基因x在群体P和Q中的频率。如果遗传标记位点为双等位基因,δ值计算的简化公式为
δ=|pX-pY|或δ=|qY-qX|
px和pY为一群体中等位基因X和Y在群体P的频率,qx和qY为等位基因X和Y在群体Q中的频率。
更具体的,通过HapMap数据库中已知的本实施例中的黑、白、黄人种群体的SNP位点和SNP位点的等位基因(A或a)的频率,计算上述30个色素沉积类基因和异生质代谢酶类基因内的SNP位点的δ值,根据所述黑、白、黄人种群体的两两划分,所述SNP位点的δ值对于所述黑、白、黄人种群体有3个,挑选至少有一个δ值大于0.5的SNP位点作为祖先信息标记位点。获得的祖先信息标记位点(以下称AIMs位点)的位置和数量信息,如表1所示。其中,Chr为AIMs位点所在染色体的编号,position(Hapmap)为AIMs位点在染色体上的位置。AF代表黑种人,EU代表白种人,EA代表黄种人,因黑种人的主要代表为非洲人,白种人的主要代表为欧洲人,黄种人的主要代表为东亚人,因此从数据库中选出生活在非洲的非洲人和生活在美国的非洲人作为黑种人群体,生活在美国的欧洲人作为白种人群体,生活在北京和美国的汉族人以及生活在东京的日本人作为黄种人群体,以最大程度筛选消除样本的非特异性因素,OTHER GENES SCREENED为其他用于筛选AIMs位点的基因。从HapMap数据库中可直接获得上述GENE的position(Hapmap)内δ值大于0.5的SNP位点的信息,即AIMs位点的等位基因的信息。
表1祖先信息标记位点(AIMs位点)的位置和数量信息
4、从上述AIMs位点中筛出黑、白、黄人种特异性位点,本实施例中所筛选的黑、白、黄人种特异性位点为有两个δ值大于0.5的AIMs位点,即RSL位点。
此外,为了对本实施例筛选出的黑、白、黄人种特异性位点的鉴别效力做出评价,本实施例同时对上述用于筛选黑、白、黄人种特异性位点的SNP位点的等位基因组成的各基因型的对数似然比值,SNP位点的EAE值,以及一组SNP位点的EAE值进行了计算。具体为,通过来自两个不同地区或民族的群体的各SNP位点的基因型频率的对数似然比值得到各SNP位点的EAE值,将各SNP位点的EAE值求和得到一组SNP位点的EAE值。
通过该组SNP位点的EAE值的计算就可以对该组位点的鉴别效力做出估计。比如一组SNP位点的在群体A与B中的EAE值=1,说明该组SNP位点对群体A的鉴别力为群体B的10倍。
以下是某一SNP位点的等位基因组成的某个基因型xy在群体A与B中的对数似然比值计算公式:
当x≠y时
和
当x=y时
和
其中,ax和ay代表等位基因x和y在群体A中的频率,bx和by代表等位基因x和y在群体B中的频率。可见,基因型频率是由等位基因频率计算得到的期望值。如果在群体A或B中未发现某等位基因,那么我们规定其频率为1/(2n+1),n表示样本量,意思是该等位基因将在下一个样本中得到,从而避免了分式里出现零值。
单一SNP位点的EAE值计算公式为
其中,PAxy和PBxy为基因型xy分别在群体A与B中的频率。LLRAxy和LLRBxy为SNP位点的等位基因x、y组成的基因型xy的在群体A与B中的对数似然比值。
通过本发明方法获得的黑、白、黄人种特异性位点,即RSL位点,如表2所示:
表2 黑、白、黄人种特导性位点(RSL位点)
其中,Chr为RSL位点在染色体的编号,position为RSL位点在染色体上的位置,Alleles为等位基因,GENE为RSL位点所在的基因。从上表可以看出,挑选有两个δ值大于0.5且分布于不同染色体上的AIMs位点作为RSL位点,具体的,AF/EU(δ;EAE),AF/EA(δ;EAE),EU/EA(δ;EAE)数据中划线部分的δ值和EAE值为有两个δ值大于0.5的AIMs位点的δ值和EAE值,即选取的RSL位点的δ值和EAE值。该16位点两两之间连锁不平衡满足r2<0.01。
从上表可以看出,16个RSL位点的EAE值之和分别为:AF/EU组为12.237;AF/EA组为12.786;EU/EA组为11.56。16个RSL位点在三组人种群体的平均分辨能力均超过1010,因此所述16个RSL位点对上述黑、白、黄人种群体具有高的鉴别力。
本实施例中利用本发明所提供的方法来从已知数据库中黑、白、黄人种群体的SNP位点中选出一组黑、白、黄人种特异性位点,并通过EAE值对该组黑、白、黄人种特异性位点对于不同群体的鉴别力进行评价。可以看出,通过上述方法获得了有限个具有高的鉴别力的黑、白、黄人种特异性位点,并且提供了输出形式科学、可被法庭接受的鉴别力数据。
二、对上述获得的各黑、白、黄人种特异性位点(RSL位点)的等位基因组成的各基因型的对数似然比值进行集合。
其中所述对数似然比值为各RSL位点的等位基因组成的各基因型在所述黑、白、黄人种群体中的基因型频率的对数似然比值。所述对数似然比值的集合如表3所示:
表3 各RSL位点的等位基因组成的各基因型的对数似然比值的集合
实施例二
本发明提供的一种黑、白、黄人种推断系统,由实施例一所述黑、白、黄人种推断系统的方法获得。该系统由16个RSL位点以及各RSL位点的等位基因组成的各基因型的对数似然比值构成,其中16个RSL位点为:rs11264300、rs28777、rs12668421、rs4646437、rs7048117、rs686016、rs11018541、rs2583939、rs3782972、rs8012948、rs7170451、rs728404、rs2470102、rs885479、rs1205357和rs7290134。该系统通过对平均分辨能力达到1010的16个RSL位点进行集合,并将各RSL位点的等位基因组成的各基因型的对数似然比值进行集合,通过此系统可以进行准确高效的黑、白、黄人种推断。
利用上述系统对未知来源个体进行黑、白、黄人种来源推断的方法包括:
1、通过基因组测序得到未知来源个体的SNP位点,并获得所述未知来源个体的16个RSL位点的基因型;上述步骤可使用生物学领域常规技术手段实现,例如使用可以对基因组进行测序、再测序和片段分析的3130xl型遗传分析仪来获得上述未知来源个体的SNP位点信息以及16个RSL位点的基因型信息;
2、利用上述人种推断系统获得所述未知来源个体的各黑、白、黄人种特异性位点的对数似然比值,具体为从所述黑、白、黄人种推断系统中查找未知来源个体的各黑、白、黄RSL位点的基因型的对数似然比值;因对单个个体而言,各RSL位点的基因型只有一个,所以RSL位点的基因型对应的对数似然比值即为RSL位点的对数似然比值,将所述各黑、白、黄人种特异性位点的基因型的对数似然比值加和即得到16个黑、白、黄人种特异性位点的对数似然比值;所述黑、白、黄人种群体两两划分的对数似然比值均为大的群体为未知来源个体的来源群体。
以下是针对HapMap数据库中的三个已知个体利用上述方法进行重新人种来源推断的实验结果:
A、样品1的实验结果如下表所示:
(按基因型从表3中挑出相应的对数似然比值,再将每列数字加和)
从上表可以得到:AF/EU组对数似然比值为13.91;AF/EA组对数似然比值为11.44;EU/EA组对数似然比值为-2.41,即该个体为黑种人的可能性是白种人的1013.91倍;该个体为黑种人的可能性是黄种人的1011.44倍;该个体为白种人的可能性是黄种人的10-2.41倍。
结论:分析结果支持该样品来源个体为黑种人后裔。
B、样品2的实验结果如下表所示:
(按基因型从表3中挑出相应的对数似然比值,再将每列数字加和)
从上表可以得到:AF/EU组对数似然比值为-11.51;AF/EA组对数似然比值为0.52;EU/EA组对数似然比值为10.24,即该个体为黑种人的可能性是白种人的10-11.51倍;该个体为黑种人的可能性是黄种人的100.52倍;该个体为白种人的可能性是黄种人的1010.24倍。
结论:分析结果支持该样品来源个体为白种人后裔。
C、样品3的实验结果如下表所示:
(按基因型从表3中挑出相应的对数似然比值,再将每列数字加和)
从上表可以得到:AF/EU组对数似然比值为7.96;AF/EA组对数似然比值为-5.15;EU/EA组对数似然比值为-12.82,即该个体为黑种人的可能性是白种人的107.96倍;该个体为黑种人的可能性是黄种人的10-5.15倍;该个体为白种人的可能性是黄种人的10-12.82倍。
结论:分析结果支持该样品来源个体为黄种人后裔。
该方法获得的人种来源推断结果与三个已知个体在HapMap数据库中的实际来源一致,因此,利用该方法可以用于对未知来源个体进行人种来源推断。
进一步的,利用上述系统对HapMap数据库中挑选的已知来源的670份样本重新进行人种来源推断,来检验上述黑、白、黄人种推断系统的准确性,结果如表4所示:
表4黑、白、黄人种推断系统对挑选的670份样本推断结果
其中,670份样本已知CHB(样本量84人)为北京汉族人、CHD(样本量85人)为美国生活的汉族人、JPT(样本量86人)为东京的日本人,ASW(样本量83人)为美国生活的非洲人,YRI(样本量167人)为伊巴丹生活的约鲁巴人,CEU(样本量165人)为美国生活的欧洲人。
通过所述黑、白、黄人种推断系统对上述670份样本重新进行人种来源推断,将CHB、CHD和JPT全部推断为黄种人,CEU全部推断为白种人,ASW和YRI推断为黑种人。仅ASW群体中的两个体出现误判,其中一个被判定为黑人与白人的杂交后代,另一个为黑人与黄种人的杂交后代,整个系统的准确性为:668/670×100%=99.7%,因此通过上述系统可以进行准确高效的黑、白、黄人种推断。
使用单因素方差分析(ANOVA),对三组两两划分的对数似然比均值进行了比较,结果如图1所示。这16个位点对3个群体两两划分的对数似然比均值不全相同(P<0.01),AF/EA组的鉴别力高于另外两组(P<α’,α’=0.017)。因此,该系统对三组两两群体划分的鉴别力依次为:AF vs.EA>AFvs.EU≈EU vs.EA,即黑种人vs.黄种人>黑种人vs.白种人≈白种人vs.黄种人。
利用本发明提供的人种来源推断系统和通过该系统进行人种来源推断的方法,根据获得的未知来源个体的基因组SNP位点信息,对未知来源个体进行本发明所述的16个RSL位点的等位基因信息进行分析即可推断出未知来源个体的人种来源,对于案件现场获得的难以辨认的严重损毁尸体、残留的人体血液与精液等微量、易降解、腐败生物检材,可根据检材中的携带的基因组信息,利用本发明的系统和方法进行高效、准确的人种来源推断,从而扩大犯罪现场的检材范围,为公安机关刑事执法和行政执法、保障社会公共安全提供有力的技术支撑;另外对于一些正常个体检材,如通过其个体的肤色、五官等无法获得准确的人种来源推断的混血个体等,也可以通过本发明所述的系统和方法进行有效的个体来源推断。
机译: 修饰靶DNA分子的特异性位点,在转基因微生物中获得复合物,切割多核苷酸和核苷酸序列,切割多核苷酸和核苷酸序列的特异性位点,体外产生复合物,重新编程cas9-crrna复合物的特异性的方法在体内选择性修饰位点特异性靶DNA分子,rna蛋白和cas9-crrna复合物,cas9分离的蛋白和分离的crrna
机译: 生态技术开发的系统和方法改良人种的改良基质,土壤特性,有机肥料
机译: 在韩国人口中具有高度区分性的STR LOCI的四链PCR系统及其人种鉴定方法