首页> 中国专利> 使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒

使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒

摘要

本发明公开了一种使用单核苷酸多型性预测汉人白血球抗原基因型的试剂盒及其应用。针对亚洲人种的人类白血球抗原基因型(HLA-A、HLA-B、HLA-C、HLA-DPB1、HLA-DQB1、及HLA-DRB1)预测模型,且预测结果已达到模型的优化。本发明由单核苷酸多型性基因定型预测亚洲人种典型人类白血球抗原对偶基因型,准确率范围为80.37%(HLA-B)至95.79%(HLA-DQB1),可达到高准确率,此外,使用基因型预测白血球抗原对偶基因型的试剂盒可节省可观的时间及花费。

著录项

  • 公开/公告号CN104109710A

    专利类型发明专利

  • 公开/公告日2014-10-22

    原文格式PDF

  • 申请/专利权人 中央研究院;

    申请/专利号CN201410154791.3

  • 申请日2014-04-17

  • 分类号C12Q1/68(20060101);

  • 代理机构11243 北京银龙知识产权代理有限公司;

  • 代理人钟晶;钟海胜

  • 地址 中国台湾台北市

  • 入库时间 2023-12-17 01:14:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-24

    未缴年费专利权终止 IPC(主分类):C12Q 1/68 专利号:ZL2014101547913 申请日:20140417 授权公告日:20180209

    专利权的终止

  • 2018-02-09

    授权

    授权

  • 2018-02-09

    专利申请权的转移 IPC(主分类):C12Q1/68 登记生效日:20180119 变更前: 变更后: 申请日:20140417

    专利申请权、专利权的转移

  • 2014-11-26

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20140417

    实质审查的生效

  • 2014-10-22

    公开

    公开

说明书

技术领域

本发明是关于具有族群专一性的单核苷酸多型性可预测人类白血球抗原 对偶基因的试剂盒,特别的是,本发明是关于使用汉人的单核苷酸多型性来预 测人类白血球抗原基因型的试剂盒。

背景技术

人类白血球组织抗原基因群位于第6对染色体上,分为主要组织兼容性复 合体第I类(HLA-A、HLA-B、及HLA-C)与主要组织兼容性复合体第II类 (HLA-DR、HLA-DQ、及HLA-DP)的对偶基因(alleles),而个体单一基因的多种 对偶基因的多形性(polymorphism)型态,造成组织或器官移植时的移植物排斥 (graft rejection)及移植物排斥宿主疾病(graft-versus-host diseases)。 人类白血球抗原对偶基因亦在群体遗传学及免疫相关疾病状态 (immune-related disease status)中扮演重要的角色。再者,先前的比较研 究显示免疫系统通常有强的选择性压力(selective pressure),其可能由病毒 -宿主交互作用所造成。因为这些选择性压力,族群间的比较揭示人类白血球 抗原对偶基因的对偶基因分布的连锁不平衡(linkage disequilibrium)及高 可变形态(variable patterns)。

人类白血球组织抗原(human leukocyte antigen,HLA)的遗传变异与免疫 功能、自体免疫疾病和某些癌症有关。至今,大规模的研究由实验(经由血清 学或PCR)取得人类白血球抗原基因的配型依然耗时与昂贵。因此,只需要较 低价格的单核苷酸多型性(single-nucleotide polymorphisms,SNPs)被广泛 使用于预测白血球抗原的基因型以节省经费与实验时间。然而,大部分的人类 白血球抗原基因型预测模型只有高加索人样本,少有研究报导包含非高加索人 的样本,而在不同的种族间其人类白血球组织抗原基因类别分布相异。

Zheng等人于2011年BMC genetics期刊中强调,在建构完预测白血球组 织抗原预测模型后,此模型不能使用于不同种族的白血球抗原基因型。因此, Ayele等人于2011年于PLOS ONE期刊中,已经针对非洲人建构出其特有白血 球组织抗原预测模型;然而,目前尚未有亚洲人的人类白血球组织抗原预测模 型。因此,建构出种族独特的白血球组织抗原预测模型有其必要性,尤其是汉 人的的白血球组织抗原预测模型更有其需求。

发明内容

缘此,本发明提供一种单核苷酸多型性在制备预测人类白血球抗原对偶基 因试剂盒中的应用,其步骤包含:(a)提供一人类核酸样本;(b)判别该人类核 酸样本的一单核苷酸多型性集合的基因型,该单核苷酸多型性集合集合包含位 于人类白血球抗原基因上的各个不同的单核苷酸多型性;(c)使用一预测模型分 析步骤(b)中各单核苷酸多型性的基因型以获得一计算值,其中该预测模型是 使用单核苷酸多型性基因型来预测人类白血球抗原对偶基因;以及(d)依据步 骤(c)所获得的计算值预测该人类样本的人类白血球抗原对偶基因型;且其中该 样本为亚洲人族群,较佳为汉人族群。

本发明的应用中,该单核苷酸多型性集合所包含的各单核苷酸多型性来自 (1)HLA-A、(2)HLA-B、(3)HLA-C、(4)HLA-DPB1、(5)HLA-DQB1、以及 (6)HLA-DRB1基因,其中该来自(1)HLA-A基因的是选自于一第1单核苷酸多 型性集合、一第2单核苷酸多型性集合、一第3单核苷酸多型性集合、及一第 4单核苷酸多型性集合;

(i)该第1单核苷酸多型性集合是由rs1633085、rs2254071、rs407238、 rs9258881、rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、 rs9261394、及rs2523990所组成;

(ii)该第2单核苷酸多型性集合是由rs4122198、rs16895757、rs1632973、 rs9357086、rs11759549、rs3115628、rs3094165、rs2734925、rs2517755、rs2256919、 rs11756025、rs7382061、rs6457144、rs2517646、及rs7744914所组成;

(iii)该第3单核苷酸多型性集合是由rs3094165、rs9258883、rs3132714、 rs1611493、rs2524005、rs2860580、rs12665039、rs6457109、rs3869062、rs3893464、 rs5009448、rs2571375、rs7758512、及rs9261394所组成;

(iv)该第4单核苷酸多型性集合是由rs2523409、rs1611133、rs3115628、 rs2517859、rs1611732、rs2523998、rs2860580、rs12202296、rs2248153、rs2975046、 rs6457109、rs5009448、rs9260932、及rs6457144所组成;

该来自(2)HLA-B基因的单核苷酸多型性是选自于一第5单核苷酸多型性 集合、一第6单核苷酸多型性集合、一第7单核苷酸多型性集合、及一第8 单核苷酸多型性集合,其中

(i)该第5单核苷酸多型性集合是由rs3130944、rs3130532、rs3130534、 rs3134762、rs16899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、 rs9378249、rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、 rs2848716、rs2596454、及rs2248462所组成;

(ii)该第6单核苷酸多型性集合是由rs11966319、rs2853948、rs6906846、 rs9378228、rs2524051、rs9366778、rs16867947、rs4394274、rs4394275、rs2523591、 rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、rs13198903、rs9266669、 rs9266689、rs3099849、rs2442749、rs1051796、rs2596464、rs3099836、及 rs3131622所组成;

(iii)该第7单核苷酸多型性集合是由rs9264868、rs9264942、rs3094691、 rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、rs2523554、rs2844573、 rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、rs3128982、rs2284178、 及rs7758090所组成;

(iv)该第8单核苷酸多型性集合是由rs3094691、rs7453967、rs4394274、 rs4394275、rs2596509、rs2596501、rs1058026、rs2523591、rs2523589、rs2523554、 rs2523545、rs9501572、rs2844575、rs9266395、rs9266406、rs5006725、rs9295986、 rs6933050、rs4959068、rs5022119、rs13198903、rs9266689、rs2251396、rs1051796、 rs3094584、rs9765960、及rs3128982所组成;

该来自(3)HLA-C基因的单核苷酸多型性是选自于一第9单核苷酸多型性 集合、一第10单核苷酸多型性集合、一第11单核苷酸多型性集合、及一第 12单核苷酸多型性集合,其中

(i)该第9单核苷酸多型性集合是由rs2073724、rs3130713、rs3130531、 rs3095250、rs3130532、rs3130534、rs2844615、rs6906846、rs2524067、rs7382297、 rs2394963、rs2524095、rs16899203、rs9366778、rs9295970、及rs2523534所 组成;

(ii)该第10单核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、 rs19966319、rs9264523、rs3132488、rs3134745、rs3130693、rs3132486、rs2853948、 rs6906846、rs9378228、rs6457372、rs2394963、rs2524057、rs12191877、及 rs9366776所组成;

(iii)该第11单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、 rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、 及rs9275224所组成;

(iv)该第12单核苷酸多型性集合是由rs9263957、rs9263969、rs3134762、 rs11966319、rs2248880、rs9264532、rs2524099、rs2074488、rs2395471、rs5010528、 rs13207315、rs3132488、rs3130693、rs9391714、rs4386816、rs2524057、rs16899205、 及rs9295970所组成;

该来自(4)HLA-DPB1基因的单核苷酸多型性是选自于一第13单核苷酸多 型性集合、一第14单核苷酸多型性集合、一第15单核苷酸多型性集合、及一 第16单核苷酸多型性集合,其中

(i)该第13单核苷酸多型性集合是由rs3128955、rs3130588、rs9277194、 rs9348904、rs9296073、rs2856816、rs3135021、rs1431403、rs3128963、rs3117229、 rs7763822、rs2295120、rs3117242、rs6937034、及rs1003979所组成;

(ii)该第14单核苷酸多型性集合是由rs9296068、rs9277183、rs3135402、 rs9348904、rs2856830、rs9296073、rs2071350、rs1431402、rs1431403、rs9277550、 rs3128963、rs3117229、rs9277567、rs3128918、及rs6937034所组成;

(iii)该第15单核苷酸多型性集合是由rs206769、rs6920606、rs375912、 rs1431399、rs987870、rs3135021、rs9277535、rs9277554、rs10484569、rs2281390、 rs3128917、rs2281388、rs3130215、及rs2269346所组成;

(iv)该第16单核苷酸多型性集合是由rs2216264、rs423639、rs3097669、 rs987870、rs1431402、rs1431403、rs9277378、rs9277535、rs9277550、rs9277554、 rs9277565、rs2281390、rs2281388、rs3130215、rs6937034、rs6937061、及 rs2395357所组成;

该来自(5)HLA-DQB1基因的单核苷酸多型性是选自于一第17单核苷酸多 型性集合、一第18单核苷酸多型性集合、一第19单核苷酸多型性集合、及一 第20单核苷酸多型性集合,其中

(i)该第17单核苷酸多型性集合是由rs9269186、rs9270986、rs615672、 rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、 rs2647046、rs2858308、及rs9275418所组成;

(ii)该第18单核苷酸多型性集合是由rs2647073、rs502055、rs3129768、 rs9272535、rs9272723、rs34485459、rs3129716、rs7775228、rs6469219、rs5000634、 rs6457617、及rs9275418所组成;

(iii)该第19单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、 rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、 及rs9275224所组成;

(iv)该第20单核苷酸多型性集合是由rs17533090、rs9272219、rs17211510、 rs41269947、rs34485459、rs1063355、rs9275141、rs3129716、rs7774434、rs9405119、 rs9469219、rs9469220、及rs9275224所组成

该来自(6)HLA-DRB1基因的单核苷酸多型性是选自于一第21单核苷酸多 型性集合、一第22单核苷酸多型性集合、一第23单核苷酸多型性集合、及一 第24单核苷酸多型性集合,其中

(i)该第21单核苷酸多型性集合是由rs9268831、rs9268861、rs7747521、 rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、 rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及rs2858308所组 成;

(ii)该第22单核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、 rs17210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、 rs9271720、rs2187668、rs34485459、rs3129716、及rs9405119所组成;

(iii)该第23单核苷酸多型性集合是由rs9405098、rs3129871、rs13209234、 rs9268832、rs6903608、rs602875、rs660895、rs9271366、rs3129769、rs17211510、 rs2187668、rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rs13192471、 及rs3104405所组成;

(iv)该第24单核苷酸多型性集合是由rs2395175、rs9405035、rs9268831、 rs6903608、rs9268877、rs9269186、rs7749092、rs2027852、rs17210980、rs2516049、 rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、rs2187668、 rs34485459、rs9275141、rs7755224、rs3129716、及rs3104404所组成。

本发明的又一目的,是提供一种试剂盒(kit),在各容器中可能包括有一 个或多个单核苷酸多型性,包含判别HLA-A基因、HLA-B基因、HLA-C基 因、HLA-DPB1基因、HLA-DQB1基因、以及HLA-DRB1基因的本发明表5 的单核苷酸多型性。

本发明的另一目的是提供一种预测人类白血球抗原对偶基因的装置,是包 含不超过200个核苷酸探针,其中该探针可检测上述单核苷酸多型性;而其中 该探针是固定于该装置上。

本发明建构对亚洲人种具有族群专一性的人类白血球抗原基因型预测模 型,包含437个具有Affymetrix5.0及Illumina550K单核苷酸多型性的汉人血 液样本,其中214个样本亦有在Affymetrix6.0单核苷酸多型性的数据。所有 个体均在6个人类白血球抗原基因座(loci)上分型至一4位数分辨率并且用于 人类白血球抗原基因型预测模型中作为验证(training)及测试(testing)集。本发明 的结果显示较大的样本数与较高的单核苷酸多型性密度通常会导致较准确的 预测。此外,与本发明亚洲人种中人类白血球抗原对偶基因有关的的优化的 flanking区域(flanking region)通常较高加索人的flanking区域为短。在最准确 的模型中,flanking区域为横跨不同芯片数据集的人类白血球抗原对偶基因的 20-200kb(中位数为70kb)。当该人类白血球抗原对偶基因较短时,该flanking 区域增加,而该人类白血球抗原对偶基因密度上升。本发明的最佳模型在亚洲 人种中提供准确的预测。此外,本发明亦提供针对亚洲族群人类白血球抗原基 因型预测模型的实际的建议,其是关于对偶基因区域、芯片、及填补(Imputation)。 本发明大约只需要20个单核甘酸多型性就可正确的预测一个白血球抗原基因 型,因此只需要1/10的价格就可以得到白血球抗原基因型的信息。

以下将配合图式进一步说明本发明的实施方式,以下所列举的实施例是用 以阐明本发明,并非用以限定本发明的范围,任何熟习此技艺者,在不脱离本 发明的精神和范围内,当可做些许更动与润饰,因此本发明的保护范围当视后 附的权利要求书所界定的为准。

附图说明

图1是与不同flanking区域大小相关的测试准确率;就各6个人类白血球 抗原对偶基因而言,测试准确率显示随着flanking区域大小增加而提升;图中 Affy6.0芯片的数据是以未填补单核苷酸多型性表示。

图2是由各基因定型芯片产生的优化模型的测试准确率;图中显示6个人 类白血球抗原对偶基因的测试准确率与判读率(可信度门坎为0);图中显示各 3个基因定型芯片及该三个基因定型芯片的合并芯片的填补(A)与未填补(B)单 核苷酸多型性。

具体实施方式

定义

本说明书中使用的用语是指在该领域中的一般涵义。下列在本说明书 中所讨论到的用语,为了方便起见,某些用语会以特别的字体格式标示, 例如使用斜体及/或括号。这些字体格式的使用并不影响到其范围及该用语 本身的涵义。无论是否以特别的字体格式标示,其范围及用语本身的涵义 是相同的。因此,任何等效用语或同义词的使用,并非用以改变其本身的 涵义。使用其中一或多种同义词,并非排除其他同义词的使用。在本发明 实施例中所使用的任何用语仅为说明,并非用以限制其范围及涵义。相同 地,本发明的范围亦不仅受限于所出现的实施例。

除非有特别予以定义,所有在此出现的技术及科学用语,具有在本领 域具有通常知识者所认知的通常涵义。

本发明中所使用的「大约」、「约」等用语,是指在20%的范围内,较 佳地是指在10%的范围内,更佳地是指在5%的范围内。在此提供的数字是 为近似值,若未明确表达时,即是暗示具有大约或大致的意思。

实施例

本发明所提供的所有单核苷酸多型性(SNPs)的rsID,其序列及所含单核苷 酸变异的位置及其变异的碱基是于本发明申请前已公开于美国国家生物技术 信息中心(National Center for Biotechnology Information,NCBI)的单核苷酸多型 性数据库(SNP database,dbSNP)。

依据下列所述本发明实施例的仪器、装置、方法及其相关结果等,仅 为说明之用,并非用以限制本发明的范围。在实施例中的名称或其次名称 仅为方便阅读,并非用以限制本发明的范围。进一步地,在此所揭露的理 论,无论其是否有误,只要实施例可据以实施,皆不应限制本发明的范围。

研究设计

利用估计等式方法(estimating equation approach),以建立混淆基因型 (unphased genotype)的人类白血球抗原基因型预测模型。就各对偶基因而言, 该人类白血球抗原基因型预测方法是以二个阶段进行。第一阶段为建构一预测 的模型,而第二阶段则是验证由该第一阶段所产生的模型。在该第一阶段中, 选择一套混淆基因型来建立一预测模型。该选择是使用一目标函数(objective  function)来评估,其为人类白血球抗原对偶基因特定的混淆基因型(基于Akaike  Information Criterion)的负对数近似值(negative log-likelihood)。接着,基因型的 选择是以前进选择(forward-selection)及后退淘汰(backward-elimination)的方法 进行。以与一人类白血球抗原对偶基因相关的基因型为起始并逐次地增加一个 基因型。该第二阶段是使用一套独立的样本来验证第一阶段的预测模型。提供 混淆基因型(unphased genotype)及非混淆人类白血球抗原对偶基因(phased HLA  alleles)作为该些独立的样本。依照最简化规则(parsimonious rule),最佳的预测 模型需使用最小可能性的flanking区域与最少可能性的单核苷酸多型性以产生 最精准的预测。本发明所使用的样本,是由台湾地区华人细胞株及基因数据库 (Taiwan Han Chinese Cell and Genome Bank)取得的437个居住于台湾地区汉人 的血液样本。

基因型分析法

本发明使用三种商用芯片:1)Affymetrix Genome-Wide Human SNP Array 5.0芯片(Affy5.0);2)Affymetrix Genome-Wide Human SNP Array6.0芯片 (Affy6.0);及3)Illumina’s HumanHap550Genotyping BeadChip芯片(Illumina  550),其中使用Affy5.0与Illumina550芯片对437个白血球DNA样本进行基 因型分析,而437个样本中的214个样本亦使用Affy6.0芯片进行基因定型。 位于第6对染色体短臂上的人类主要组织兼容性复合体(MHC)又称为人类白 血球抗原(HLA)基因群区域中,该Affy5.0芯片具有1,406个单核苷酸多型性 (SNPs);该Affy6.0芯片具有2,203个单核苷酸多型性;该Illumina550K芯片 具有1,939个单核苷酸多型性(如表1所示),而intra-MHC区域是以位于着丝 点端(centromeric end)的HLA-A对偶基因(6号染色体上的位置: 30,018,310–30,021,632;NCBI build36.3)与位于端粒端(telomeric end)的 HLA-DPB1对偶基因(6号染色体上的位置:33,151,738–33,162,954)为界。此区 域包括第I类基因座(HLA-A,HLA-B,HLA-C)及第II类基因座(HLA-DRB1, HLA-DQB1)。对于HLA-A、-B、-C、-DQB1及-DRB1的对偶基因,是利用Dynal  RELI SSO typing套组(Dynal Biotech Ltd.,英国)进行基因定型;对于 HLA-DPB1的对偶基因,是利用Gold SSP HLA-DPB1High Resolution套组 (Invitrogen公司,美国加州)进行基因定型。所有的基因定型皆由中央研究院国 家基因体医学研究中心执行,该些单核苷酸多型性的判读率(call rate)皆大于 98%。

对于全基因体相关研究法(genome-wide association studies,GWASs),本发 明以基因型填补(Genotype imputation)评估在建构人类白血球抗原基因型预测 模型的实用性。为了数据的连贯性及最佳填补表现,本发明使用MaCH软件 及汉人北京(CHB)与日本东京(JPT)的数据组作为参考,此是用来填补本发明单 核苷酸多型性之外来自国际人类基因组单体型图计划(HapMap Project)的基因 型。本发明检视所有在MHC区域中的单核苷酸多型性,而通常在基因型填补 前,采用quality-control评估并筛选单核苷酸多型性以控制其质量,当严重违 反Hardy-Weinberg equilibrium(p<10-4)时,该些单核苷酸多型性判读率(call rate)<0.95,少数对偶基因频率(minor-allele frequency)<0.01,则排除该些单核 苷酸多型性。再者,本发明的填补的单核苷酸多型性各自具有一由MaCH软 件分析结果之贝氏定理事后机率(posterior probability)>0.8、判读率>0.95、且少 数对偶基因频率>0.01。

另一方面,为了测试该些芯片间单核苷酸多型性的重复性以及一致性,本 发明比较了各两个芯片重迭的单核苷酸多型性数据。判断基因型数据的一致性 是以Cohen’s kappa coefficient来计算,而Kappa值大于0.9通常表示两个芯片 的数据具有高一致性。本发明亦比较各两个芯片在建构人类白血球抗原基因型 预测模型过程中所选基因型间的差异,以此判定所选的基因型是否对芯片具有 专一性即独特性。该差异定义为(plati,platj)-(plati,platj)(plati,platj),其中plati及platj是两个不同的芯片;∪(plati,platj)是两个不同芯片的单核苷酸多型性的联集 (union);而∩(plati,platj)是两个不同芯片的单核苷酸多型性的交集(intersection)。 不同族群间人类白血球抗原对偶基因频率分布及flanking区域大小差异

不同族群间,人类白血球抗原对偶基因及其对偶分布有实质上的差异,其 是反应族群近代的演化历史。再者,人类白血球抗原对偶基因分布于第6对染 色体上不同的区域,包括数个单核苷酸多型性。本发明探讨国际人类基因组单 体型图计划(HapMap Project)中亚洲人样本及高加索人样本的对偶基因频率分 布。对于各人类白血球抗原对偶基因,本发明使用卡方分布(chi-square)及费雪 精确性检定(Fisher’s exact test)来决定人类白血球抗原对偶基因在这两个族群 中是否有所差异。本发明以延伸±10kb至±400kb的flanking区域来建构该人 类白血球抗原基因型预测模型。在汉人种中,各人类白血球抗原对偶基因最适 合的flanking区域是由上述最简化规则来决定。此外,本发明亦比较亚洲人的 flanking区域大小(Affy5.0芯片)与已知高加索人的flanking区域大小。

交叉验证(Corss-validation)

在开始人类白血球抗原预测分析之前,本发明将数据分成多组进行交叉验 证(cross-validation,CV)。以十折(10-fold)交叉验证为例,该数据是分为一验证 集(training data set)(数据的9/10)及一测试集(testing data set)(数据的1/10)。就各 交叉验证子集(subset)而言,计算该测试集的准确率且定义为其中Tv是正 确预测测试集中样本的数量,而Nv是测试集中样本的总数。平均测试准确度 是10个交叉验证子集的平均值,表示所建构的模型在预测人类白血球抗原对 偶基因上的表现。人类白血球抗原的预测可不经由交叉验证,然而执行交叉验 证可避免预测模型的过适(over-fitting)且可节省获得一独立样本组用于评估的 时间与成本。本发明是建构人类白血球抗原基因型预测模型,故,使用十折交 叉验证。

可信度门坎(Confidence threshold)

就在测试集中的各样本而言,其P值(probability value)是被分配给特定单 型的每个可能的人类白血球抗原对偶基因对。这些数值是基于所提供的混淆基 因型及非混淆的人类白血球抗原对偶基因对。概率分配后,若该概率超过一预 先指定的可信度门坎,则选择具有最大概率的人类白血球抗原对偶基因对。通 常来说,可信度门坎设为0,表示判读率(call rate)为100%(即所有样本均会被 预测)。若可信度门坎设为0.5(或任何大于0的值),则仅会使用最大预测概率 超过可信度门坎的样本。本发明将可信度门坎设为0、0.5、或0.9来评估可信 度门坎对建构人类白血球抗原基因型预测模型的影响。

结果

本发明使用214个样本由三个不同芯片(Affy5.0、Affy6.0、及Illumina550K 芯片)基因定型的样本来计算6个典型人类白血球抗原(HLA-A,HLA-B,HLA-C, HLA-DRB1,HLA-DQB1,HLA-DPB1)对偶基因的频率分布。本发明亦分析180 个从国际人类基因组单体型图计划取得的高加索人样本,然而无该些样本的 HLA-DPB1数据。人类白血球抗原基因座最多是为HLA-B。在汉人种中观察到 44个对偶基因横跨HLA-B区域,而在国际人类基因组单体型图计划中的高加 索人种中观察到32个对偶基因横跨HLA-B区域。如卡方分布及费雪精确性检 定所示,在高加索人和汉人间,HLA-A、-B、-C、-DQB1、及-DRB1对偶基因 的对偶基因频率分布具有显着的差异(所有p值<0.0001;HLA-A、-B、-C、-DQB1、 及-DRB1的自由度(degree of freedom)分别为29、62、23、16、及35),由此可 见,人类白血球抗原对偶基因频率分布在不同人种间有很大的差异,也就是说, 由一族群的人类白血球抗原对偶基因所建构的人类白血球抗原基因型预测模 型,在预测不同族群人种时会产生不良的预测。

未填补的不同的芯片

仅使用单一的基因定型技术可能使得人类白血球抗原对偶基因的预测存 在偏见。为了克服此问题,本发明的台湾地区214个汉人样本是以三个芯片来 基因定型(Affy5.0、Affy6.0、及Illumina550K)。各芯片的结果及这三个芯片 的合并芯片(Union)的结果是被用来建构人类白血球抗原预测的模型。最后, 本发明评估由这三个数据集所衍生的预测模型是否产出具有比较性的预测。

各芯片对之间少有数据的重迭(如表1所示)。Affy6.0有最多在人类MHC 区域中的单核苷酸多型性,而Affy5.0则为最少(如表1所示)。表2则显示, 芯片对之间关于所观察基因型的一致性系数。比较两个Affymetrix数组,同时 存在于两个数组的基因型的一致性系数高达0.9926,此高程度的一致性表示高 质量的基因定型,其更由比较不同芯片间的基因型获得支持。

表1、国际人类基因组单体型图计划及三个基因定型芯片间在延伸的MHC区 域中重迭的单核苷酸多型性1

1该延伸的MHC区域的范围是6号染色体28,799,220–34,204,868。

2北京汉人种的国际人类基因组单体型图计划单核苷酸多型性。

3两个基因定型芯片间重迭的单核苷酸多型性的比例。

4各基因定型芯片中的单核苷酸多型性数量。

表2、在主要组织兼容性复合体区域中观察或填补的单核苷酸多型性基因型的 Kappa系数

通常来说,合并芯片较各单独的芯片产生较准确的人类白血球抗原对偶基 因预测。当可信度门坎为0,合并芯片的平均测试准确率为89.78%,但就单独 的Affy5.0、Affy6.0、及Illumina550K而言,其平均测试准确率分别只有 86.92%、88.42%、及88.06%(如图2中A所示),显示较高的单核苷酸多型性 密集度使得人类白血球抗原对偶基因的预测准确率提升。

关于三个基因定型芯片间的比较,Affy6.0产生最准确的人类白血球抗原 对偶基因预测。举例来说,在HLA-DRB1基因座,Affy6.0较Affy5.0更准确 3.52%;而在HLA-DPB1基因座,Affy6.0较Illumina550K更准确2.58%。Affy 6.0可能具有在人类主要组织兼容性复合体区域中最高的基因型密度。当可信 度门坎为0时,Affy6.0与HLA-DQB1可获得最高的测试准确率(95.79%),而 Illumina550K与HLA-B的准确率则为最低(80.37%,如图2中A所示)。藉由 使用一可信度门坎为0.9至所有可能的人类白血球抗原对偶基因对的最大概率, HLA-C基因座的最高准确率提升至98.62%(由Illumina55K得到,判读率为 77.47%),而HLA-B的最低准确率提升至87.67%(由Affy5.0得到,判读率为 64.94%)。基于Illumina550K的预测模型所产生的准确率范围在HLA基因座 较在其他基因定型芯片中所观察到的结果显着。当可信度门坎为0时,该 Illumina550K预测芯片在HLB-B对偶基因的准确率仅为80.37%,但在 HLA-DQB1对偶基因的准确率为95.29%。对于HLA-B及HLA-DPB1对偶基因, Affy5.0的预测是较Ilumina550K分别更准确0.45%及0.96%。对于HLA-A及 HLA-DRB1对偶基因,Illumina550K的预测是较Affy6.0分别更准确1.56%及 0.27%(如图2所示)。该些结果显示与Affy5.0及Illumina550K相关的些微的 优势可能源自于这些芯片上特殊的单核苷酸多型性。总地来说,这些预测模型 的准确率通常在基因定型芯片间具有比较性。

进行有效flanking区域(例如:产生最准确人类白血球抗原对偶基因预测 的最短侧基因序列延伸)的探讨。使用Illumina550K(±10kb)在HLA-C基因座 识别出最短的有效flanking区域。该HLA-C的长度为3,325bp而此有效flanking 区域涵盖22个单核苷酸多型性,其中13个单核苷酸多型性包含于HLA-C预 测模型中(当可信度门坎为0,测试准确率为92.01%)。当使用Affy6.0数据时, HLA-A最长有效flanking区域为±350kb(如表3所示),在这个区域中为299 个单核苷酸多型性,其中16个单核苷酸多型性包含于HLA-A预测模型中(当 可信度门坎为0,测试准确率为85.29%)

就各人类白血球抗原对偶基因而言,本发明进一步评估包含在人类白血球 抗原基因型预测模型中芯片间重迭的基因型。当比较Affy6.0及合并芯片时, HLA-DRB1的不含填补的单核苷酸多型性数据的最大重迭基因型比率为 21.36%,显示不同的芯片使用独特的单核苷酸多型性来选择芯片专一性的基因 型,而该些基因型被用于建构不同的人类白血球抗原基因型预测模型。

不同芯片的填补

本发明的合并芯片(可信度门坎为0,平均测试准确率为90.17%)较三个独 立的芯片(可信度门坎为0,Affy6.0、Affy5.0、及Illumina550K的平均测试 准确率分别为89.90%、88.61%、及89.75%)产生较准确的人类白血球抗原对偶 基因预测。较高的单核苷酸多型性密度可增加基因型填补的准确率,而因此增 加最终预测的准确性。

关于填补的三个基因定型芯片间的比较,通常Affy6.0对人类白血球抗原 对偶基因的预测较准确(在HLA-DPB1基因座较Affy5.0准确高达4.23%且较 Illumina550K准确高达4.61%;如图2中B所示)。在这些模型中(可信度门坎 为0),HLA-DQB1基因座具有最高的测试准确率(96.75%,由Illumina550K得 到)。藉由使用一可信度门坎为0.9至所有可能的人类白血球抗原对偶基因对的 最大概率,HLA-C基因座的最高准确率提升至99.09%(由Illumina55K得到, 判读率为77.47%)。除了由Affy5.0得到的HLA-B,基于此可信度门坎调整的 准确率的进步在HLA-DRB1对偶基因最为显着,当可信度门坎由0改变成0.9 时,其准确率从86.67%上升至95.90%。然而,在HLA-A基因座,Affy5.0(可 信度门坎为0)产生的预测较Affy6.0准确0.45%。Illumina550K除了在 HLA-DPB1较Affy6.0准确4.61%,Illumina550K产生的预测分别较Affy6.0 在HLA-A、-B、-C、-DQB1、及-DRB1基因座准确0.27%、1.10%、1.11%、0.05%、 及1.19%(如图2所示),结果显示Affy5.0及Illumina550K的预测的优势可能 源自于这些芯片上特有的单核苷酸多型性。

本发明亦评估各人类白血球抗原基因座的填补的有效flanking区域。最短 的flanking区域之一是在HLA-DPB1基因座(±20kb)并由Affy5.0所识别出来 (如表3所示)。此区域涵盖133个单核苷酸多型性,其中的34个被选择用于 HLA-DPB1预测模型(可信度门坎为0,测试准确率为88.28%)。另一个最短的 flanking区域是在HLA-C基因座(±20kb)并由Affy6.0、Illumina550K、及合并 芯片所识别出来。最长的有效flanking区域是在HLA-A(±200kb)并由Illumina 550K所得(如表3所示)。在这些区域中有515个单核苷酸多型性,其中的17 个是用于HLA-A预测模型(可信度门坎为0,测试准确率为86.93%)。

就各人类白血球抗原对偶基因而言,在不同预测模型间所使用的重迭的基 因型最多为60.08%。因此,填补似乎降低不同芯片间的差异。

不同芯片的填补与未填补

本发明预测模型间横跨不同芯片填补与非填补的测试准确率的比较,以填 补单核苷酸多型性所建构的预测模型较非填补单核苷酸多型性所建构的预测 模型准确(可信度门坎为0,平均准确率分别为89.61%与88.30%)。

就可信度门坎为0而言,填补的合并芯片具有最高的HLA-DQB1对偶基 因测试准确率(97.18%),而未填补的Illumina550K则具有最低的HLA-B对偶 基因测试准确率(80.37%)。藉由使用一可信度门坎为0.9至所有可能的人类白 血球抗原对偶基因对的最大概率,Illumina550K的HLA-C基因座最高准确率 提升至99.09%(有填补且判读率为82.40%)。

比较不同芯片间有填补及未填补的测试预测准确率,当使用填补的单核苷 酸多型性来建构人类白血球抗原基因型预测模型时,特定的基因型变异通常会 降低。就不同芯片间各人类白血球抗原对偶基因而言,填补平均提升25.02% 所选用来建构模型的基因型间的重迭比例。这些结果可将不同基因定型芯片间 的差异最小化。

在本发明的一方面,还提供预测人类白血球抗原基因型的试剂盒,较佳用 于检测样品中的HLA-A基因、HLA-B基因、HLA-C基因、HLA-DPB1基因、 HLA-DQB1基因、以及HLA-DRB1基因的基因型。

对于用于检测HLA-A基因的基因型的试剂盒,较佳包含的单核苷酸多型 性是选自于一第1单核苷酸多型性集合、一第2单核苷酸多型性集合、一第3 单核苷酸多型性集合、及一第4单核苷酸多型性集合所组成的群组,其中(i) 该第1单核苷酸多型性集合是由rs1633085、rs2254071、rs407238、rs9258881、 rs2975046、rs2735096、rs417162、rs9260954、rs6917477、rs6457144、rs9261394、 及rs2523990所组成;(ii)该第2单核苷酸多型性集合是由rs4122198、rs16895757、 rs1632973、rs9357086、rs11759549、rs3115628、rs3094165、rs2734925、rs2517755、 rs2256919、rs11756025、rs7382061、rs6457144、rs2517646、及rs7744914所 组成;(iii)该第3单核苷酸多型性集合是由rs3094165、rs9258883、rs3132714、 rs1611493、rs2524005、rs2860580、rs12665039、rs6457109、rs3869062、rs3893464、 rs5009448、rs2571375、rs7758512、及rs9261394所组成;以及(iv)该第4单 核苷酸多型性集合是由rs2523409、rs1611133、rs3115628、rs2517859、rs1611732、 rs2523998、rs2860580、rs12202296、rs2248153、rs2975046、rs6457109、rs5009448、 rs9260932、及rs6457144所组成。

对于用于检测HLA-B基因的基因型的试剂盒,较佳包含的单核苷酸多型 性是选自于一第5单核苷酸多型性集合、一第6单核苷酸多型性集合、一第7 单核苷酸多型性集合、及一第8单核苷酸多型性集合所组成的群组,其中(i) 该第5单核苷酸多型性集合是由rs3130944、rs3130532、rs3130534、rs3134762、 rs16899207、rs2524089、rs9366778、rs2524166、rs9295984、rs4394275、rs9378249、 rs2523534、rs9266406、rs2844558、rs5022119rs3099848、rs4081552、rs2848716、 rs2596454、及rs2248462所组成;(ii)该第6单核苷酸多型性集合是由rs11966319、 rs2853948、rs6906846、rs9378228、rs2524051、rs9366778、rs16867947、rs4394274、 rs4394275、rs2523591、rs9501572、rs7761068、rs2523535、rs9266406、rs5006724、 rs13198903、rs9266669、rs9266689、rs3099849、rs2442749、rs1051796、rs2596464、 rs3099836、及rs3131622所组成;(iii)该第7单核苷酸多型性集合是由rs9264868、 rs9264942、rs3094691、rs2156875、rs2523619、rs2442719、rs2596501、rs2523589、 rs2523554、rs2844573、rs9266395、rs9266440、rs9295986、rs2442749、rs2596560、 rs3128982、rs2284178、及rs7758090所组成;(iv)该第8单核苷酸多型性集合 是由rs3094691、rs7453967、rs4394274、rs4394275、rs2596509、rs2596501、 rs1058026、rs2523591、rs2523589、rs2523554、rs2523545、rs9501572、rs2844575、 rs9266395、rs9266406、rs5006725、rs9295986、rs6933050、rs4959068、rs5022119、 rs13198903、rs9266689、rs2251396、rs1051796、rs3094584、rs9765960、及 rs3128982所组成。

对于用于检测HLA-C基因的基因型的试剂盒,较佳包含的单核苷酸多型 性是选自于一第9单核苷酸多型性集合、一第10单核苷酸多型性集合、一第 11单核苷酸多型性集合、及一第12单核苷酸多型性集合所组成的群组,其中 (i)该第9单核苷酸多型性集合是由rs2073724、rs3130713、rs3130531、rs3095250、 rs3130532、rs3130534、rs2844615、rs6906846、rs2524067、rs7382297、rs2394963、 rs2524095、rs16899203、rs9366778、rs9295970、及rs2523534所组成;(ii)该 第10单核苷酸多型性集合是由rs3130712、rs28480108、rs3134762、rs19966319、 rs9264523、rs3132488、rs3134745、rs3130693、rs3132486、rs2853948、rs6906846、 rs9378228、rs6457372、rs2394963、rs2524057、rs12191877、及rs9366776所 组成;(iii)该第11单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、 rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、 及rs9275224所组成;(iv)该第12单核苷酸多型性集合是由rs9263957、 rs9263969、rs3134762、rs11966319、rs2248880、rs9264532、rs2524099、rs2074488、 rs2395471、rs5010528、rs13207315、rs3132488、rs3130693、rs9391714、rs4386816、 rs2524057、rs16899205、及rs9295970所组成。

对于用于检测HLA-DPB1基因的基因型的试剂盒,较佳包含的单核苷酸 多型性是选自于一第13单核苷酸多型性集合、一第14单核苷酸多型性集合、 一第15单核苷酸多型性集合、及一第16单核苷酸多型性集合所组成的群组, 其中(i)该第13单核苷酸多型性集合是由rs3128955、rs3130588、rs9277194、 rs9348904、rs9296073、rs2856816、rs3135021、rs1431403、rs3128963、rs3117229、 rs7763822、rs2295120、rs3117242、rs6937034、及rs1003979所组成;(ii)该第 14单核苷酸多型性集合是由rs9296068、rs9277183、rs3135402、rs9348904、 rs2856830、rs9296073、rs2071350、rs1431402、rs1431403、rs9277550、rs3128963、 rs3117229、rs9277567、rs3128918、及rs6937034所组成;(iii)该第15单核苷 酸多型性集合是由rs206769、rs6920606、rs375912、rs1431399、rs987870、 rs3135021、rs9277535、rs9277554、rs10484569、rs2281390、rs3128917、rs2281388、 rs3130215、及rs2269346所组成;(iv)该第16单核苷酸多型性集合是由 rs2216264、rs423639、rs3097669、rs987870、rs1431402、rs1431403、rs9277378、 rs9277535、rs9277550、rs9277554、rs9277565、rs2281390、rs2281388、rs3130215、 rs6937034、rs6937061、及rs2395357所组成。

对于用于检测HLA-DQB1基因的基因型的试剂盒,较佳包含的单核苷酸 多型性是选自于一第17单核苷酸多型性集合、一第18单核苷酸多型性集合、 一第19单核苷酸多型性集合、及一第20单核苷酸多型性集合所组成的群组, 其中(i)该第17单核苷酸多型性集合是由rs9269186、rs9270986、rs615672、 rs3129768、rs9272219、rs9272346、rs6908943、rs9275134、rs9469220、rs6457617、 rs2647046、rs2858308、及rs9275418所组成;(ii)该第18单核苷酸多型性集合 是由rs2647073、rs502055、rs3129768、rs9272535、rs9272723、rs34485459、 rs3129716、rs7775228、rs6469219、rs5000634、rs6457617、及rs9275418所组 成;(iii)该第19单核苷酸多型性集合是由rs2516049、rs2858870、rs660895、 rs532098、rs3129763、rs1063355、rs9275141、rs9275184、rs7774434、rs7775228、 及rs9275224所组成;(iv)该第20单核苷酸多型性集合是由rs17533090、 rs9272219、rs17211510、rs41269947、rs34485459、rs1063355、rs9275141、 rs3129716、rs7774434、rs9405119、rs9469219、rs9469220、及rs9275224所组 成。

对于用于检测HLA-DRB1基因的基因型的试剂盒,较佳包含的单核苷酸 多型性是选自于一第21单核苷酸多型性集合、一第22单核苷酸多型性集合、 一第23单核苷酸多型性集合、及一第24单核苷酸多型性集合所组成的群组; 其中(i)该第21单核苷酸多型性集合是由rs9268831、rs9268861、rs7747521、 rs9268877、rs9269186、rs2027852、rs615672、rs3129768、rs9272219、rs9272346、 rs9275134、rs7775228、rs9469220、rs6457617、rs2647046、及rs2858308所组 成;(ii)该第22单核苷酸多型性集合是由rs9268877、rs4410767、rs7749092、 rs17210980、rs2647073、rs615672、rs674343、rs502771、rs3997872、rs9271367、 rs9271720、rs2187668、rs34485459、rs3129716、及rs9405119所组成;(iii)该 第23单核苷酸多型性集合是由rs9405098、rs3129871、rs13209234、rs9268832、 rs6903608、rs602875、rs660895、rs9271366、rs3129769、rs17211510、rs2187668、 rs9275141、rs9275184、rs9275383、rs2856717、rs2858305、rs13192471、及 rs3104405所组成;(iv)该第24单核苷酸多型性集合是由rs2395175、rs9405035、 rs9268831、rs6903608、rs9268877、rs9269186、rs7749092、rs2027852、rs17210980、 rs2516049、rs615672、rs660895、rs674313、rs502771、rs3997872、rs9271366、 rs2187668、rs34485459、rs9275141、rs7755224、rs3129716、及rs3104404所 组成。

实施例1

利用上述结果,可据此发展出一种单核苷酸多型性在制备预测人类白血球 抗原对偶基因试剂盒中的应用,其步骤包括:

(a)提供一人类核酸样本;

(b)识别该人类核酸样本的一单核苷酸多型性集合的基因型,该单核苷 酸多型性集合包含位于人类白血球抗原基因上的各个不同单核苷酸多型性;

(c)使用一预测模型分析步骤(b)中各单核苷酸多型性的基因型以获得 一计算值,其中该预测模型是使用单核苷酸多型性基因型来预测人类白血球抗 原对偶基因;以及

(d)依据步骤(c)所获得的计算值预测该人类样本的人类白血球抗原对 偶基因型。

本发明使用汉人族群专一性的单核苷酸多型性并透过一算法来预测各6 个人类白血球抗原基因座对偶基因的基因型。各芯片的最佳的单核苷酸多型性 数量不同,如表4所示。

表4、不同芯片中最佳的单核苷酸多型性数量

人类白血球抗原基因座 Affy5.0 Affy6.0 Illumina550K 合并芯片 HLA-A 12 15 14 14 HLA-B 20 24 18 27 HLA-C 16 17 11 18 HLA-DPB1 15 15 14 17 HLA-DQB1 13 12 11 13 HLA-DRB1 16 15 18 22

上述三个芯片及其合并芯片的单核苷酸多型性集合的内容是如表5所示。 本发明是以该些具族群专一性的单核苷酸多型性集合来预测汉人人类白血球 抗原基因座对偶基因。

讨论

因为习知人类白血球抗原基因型的直接定型技术不符经济效益,故,本发 明是以人类白血球抗原对偶基因相对应的混淆基因型为基础,识别出特定的人 类白血球抗原基因型,并以此建构第I型人类白血球抗原(HLA-A、HLA-B、及 HLA-C)及第II型人类白血球抗原(HLA-DRB1、HLA-DQB1、及HLA-DPB1)的 预测模型。本发明比较亚洲人(台湾地区汉人)与高加索人种(国际人类基因组单 体型图计划)的对偶基因频率分布并识别此不同人种间显着的差异。本发明建 构数个具有高预测准确率的人类白血球抗原基因型的预测模型,并验证该些模 型相关的重要参数(例如:有效flanking区域、芯片准确率、及填补的影响)。 因此,本发明所提供的模型可准确地预测亚洲人种中该些基因型,故,可应用 于详细分析人类白血球抗原相关的疾病的直接影响。

本发明判别一较密集的单核苷酸多型性集合是否可产生较准确的人类白 血球抗原对偶基因预测。在本发明中,用于填补芯片数据及建构更密集单核苷 酸多型性所使用的MaCH软件是以国际人类基因组单体型图计划及/或千人基 因组计划(1000Genome Project,http://www.1000genomes.org)的数据作为参考。 本发明发现所建构的有填补的人类白血球抗原基因型预测模型典型地提供较 高的预测准确率,其强调了使用一较高密度单核苷酸多型性的正面效果。因此, 可建构一新颖的客制化单核苷酸多型性数组,其包括人类白血球抗原基因型预 测模型的所有组成该些基因定型或填补的单核苷酸多型性,以提升预测准确率。

藉由增加可信度门坎至0.5或0.9,本发明的亚洲人专一性人类白血球抗 原基因型预测模型的预测准确率接近100%。

同时,为了产生更准确的预测模型,本发明变更验证集和测试集的样本大 小。使用本发明的Affy6.0基因型数据来建构人类白血球抗原基因型预测模型 并使用二、四、及十折交叉验证。当可信度门坎为0(即判读率为100%)时, 不同的交叉验证得到一致的样本大小。为了排除样本大小的影响,本发明是比 较在可信度门坎为0下交叉验证的影响。由使用二、四、及十折交叉验证(可 信度门坎为0)所建构的预测模型的评估分析所得到的测试准确率的估计值。十 折交叉验证的HLA-DQB1基因座具有最佳的测试准确率(95.55%),而二折交叉 验证的HLA-B基因座则具有最低的测试准确率(76.64%)。就二折交叉验证而言, 测试准确率的范围是从76.64%(HLA-B)至94.39%(HLA-DQB1)。随着交叉验证 增加至10倍,测试准确率的程度接近95.55%(HLA-DQB1)。就HLA-A而言此 改善最为明显,因为以二折交叉验证的预测模型其准确率为80.84%,而以十 折交叉验证则导致85.29%的准确率。在其他五个人类白血球抗原基因座亦观 察到相似的趋势。该些趋势可能反映大的样本大小,其包括在验证集中一充足 数量的人类白血球抗原对偶基因,从而提升预测的准确率。虽然交叉验证的程 度影响测试准确率,但其变化是极微小的,故,本发明的族群专一性人类白血 球抗原基因型预测模型并不受不同的交叉验证影响。

本发明着重于使用214个台湾地区汉人样本产生人类白血球抗原基因型 预测模型,模型是各以Affy5.0、Affy6.0、及Illumina550K芯片作核苷酸多 型性(SNPs)的基因定型分析(Genotyping)。同时,为了评估样本数量的影响, 本发明亦使用437个汉人样本以Illumina550K芯片作基因定型的分析(包含 原本的214个样本)产生人类白血球抗原基因型预测模型。以437个样本建构 的人类白血球抗原基因型预测模型(平均测试准确率为90.36%)较以214个样 本建构的预测模型(平均测试准确率为86.84%)为佳。因此,较大的样本数量可 以增加人类白血球抗原预测的准确率。

结论

经过十年的研究,许多人类白血球抗原对偶基因已知具有特定的免疫功能。 连结单核苷酸多型性与人类白血球抗原对偶基因的实验方法较人类白血球抗 原直接分型技术节省了可观的时间及成本,且使得大规模人类白血球抗原变异 的研究可行。虽然人类白血球抗原分布在人类族群间有所差异,大多数现有的 人类白血球抗原基因型预测模型是基于高加索人样本。藉由基因定型一大数量 的汉人样本,本发明发现许多汉人特有的人类白血球抗原对偶基因并建构族群 专一性的人类白血球抗原基因型预测模型。本发明的验证集涵盖人类白血球抗 原基因座中许多不常见且族群专一的对偶基因,实质上地增加了预测的准确率。

本发明所使用的特定方法参数(例如:样本大小、单核苷酸多型性密集厉、 及填补)是产生对亚洲人种的人类白血球抗原基因型预测模型的因素。本发明 在汉人样本中得到良好的HLA-A、-B、-C、-DRB1、-DQB1、及-DPB1对偶基 因预测准确率。使用从Affymetrix Genome-Wide Human SNP Array5.0、 Affymetrix Genome-Wide Human SNP Array6.0、Illumina HumanHap550 BeadChip、或此三个芯片的合并芯片中的单核苷酸多型性数据,本发明产生有 效的人类白血球抗原基因型预测模型以辨别亚洲人的人类白血球抗原基因型。 本发明新颖的预测工具可帮助识别免疫相关疾病的遗传风险因子(genetic risk  factors),例如:葛瑞夫兹氏病(Grave’s disease)。此外,亦可使本领域具有通常 知识者研究广大人种族群中的人类白血球抗原基因型。

本发明所提供的预测方法及其应用装置确实具有产业上的利用价值,惟以 上的叙述仅为本发明的较佳实施例说明,凡精于此项技艺者当可依据上述的说 明而作其它种种的改良,惟这些改变仍属于本发明的精神及以下所界定的专利 范围中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号