首页> 中国专利> 用于心房颤动和中风的风险管理的遗传标志

用于心房颤动和中风的风险管理的遗传标志

摘要

本发明涉及通过评估多态型标志上经发现与患心律失常(包括心房颤动、心房扑动)和中风的风险关联的等位基因的存在或不存在来确定对这些病症的易感性的程序和方法。本发明还涉及包括用于评估此类标志的试剂的试剂盒,以及利用此类易感性标志的诊断方法、用途和步骤。

著录项

  • 公开/公告号CN102449165A

    专利类型发明专利

  • 公开/公告日2012-05-09

    原文格式PDF

  • 申请/专利权人 解码遗传学私营有限责任公司;

    申请/专利号CN201080022648.9

  • 发明设计人 H·霍尔姆;D·古德布雅特松;

    申请日2010-03-30

  • 分类号C12Q1/68(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人殷骏

  • 地址 冰岛雷克雅未克

  • 入库时间 2023-12-18 05:08:35

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-11

    未缴年费专利权终止 IPC(主分类):C12Q 1/68 专利号:ZL2010800226489 申请日:20100330 授权公告日:20140709

    专利权的终止

  • 2014-07-09

    授权

    授权

  • 2012-06-27

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20100330

    实质审查的生效

  • 2012-05-09

    公开

    公开

说明书

引言

心律失常(Cardiac arrhythmia)是一组其中心脏的电活动性 (electrical activity)是不规则的或者比正常更慢或更快的医疗病症 (medical condition)。一些心律失常是威胁生命的,并且可引发心搏 骤停(cardiac arrest)或猝死。其他心律失常引起或诱发加重的症状 或疾病,包括中风。纤维性颤动(Fibrillation)是心律失常的严重形 式,其中心肌因缺乏收缩细胞(contractile cell)功能的一致性而呈 现不规则或震颤运动。纤维性颤动可影响心房(心房颤动(AF)或心房扑动 (AFI))或心室(心室颤动(VF))。

心房颤动(AF)是异常心律(心律失常),其牵涉两个小的上心室(心 房)。正常心脏的心搏在由窦房结在心房中产生电的传遍心脏并且引发 心肌收缩和血液泵出后开始。在AF中,窦房结的有规律的电脉冲被导致 不规则心脏搏动的紊乱、快速的电脉冲替代。

心房颤动是最常见的心律失常。发生心房颤动的风险随年龄增加而 增加-AF影响4%的80岁的个体。个体可在AF与正常节律之间自发交替 变化(阵发性心房颤动)或可继续以AF作为主心律(dominant cardiac  rhythm)而不回复至正常节律(慢性心房颤动)。心房颤动通常是无症状 的,但可导致心悸、昏厥、胸痛或甚至心力衰竭的症状。当心房颤动导 致太快或太慢的心率时,此类症状尤其常见。此外,心房的无规律运动 (erratic motion of the atria)导致血郁(淤滞),其增加可从心脏游 移至脑和其他区域的血块的风险。因此,AF是中风的重要风险因子,心 房颤动的最可怕的并发症。

心房颤动的症状可用减慢心率的药物治疗。几种药物以及电击复律 可用于将AF转变成正常心律。手术和基于导管的治疗还可用于阻止某些 个体的心房颤动。通常给患有AF的人提供血液稀释剂例如华法林以保护 他们免受中风。

具有2次或更多次已鉴定的心房颤动发作的任何患者被认为具有复 发心房颤动。基于在无治疗的情况下发作终止的时间,将所述复发心房 颤动进一步分类为阵发性和持久性的。当心房颤动在7天内,最常见地 24小时内自发结束时,心房颤动被认为是阵发性的。持久性或慢性心房 颤动是已确立超过7天的AF。阵发性与慢性或已确立的AF的区别基于 AF的反复性发作的历史和当前发作的持续时间(Levy S.,J Cardiovasc  Electrophysiol.8 Suppl,S78-82(1998))。

孤立性心房颤动(LAF)被定义为在没有心肺疾病的临床或回声心动 图发现的情况下的心房颤动。

心房颤动通常伴随与快速心率或栓塞相关的症状。快速和不规则心 率可被视为心悸、体力不支(exercise intolerance),并且偶尔产生 心绞痛以及呼吸短促的充血或水肿症状。有时心律失常可被视为与中风 或短暂性脑缺血发作(transient ischemic attack)(TIA)的发作等同。 通常靠常规身体检查或心电图(ECG/EKG)来鉴定心房颤动,因为其在一些 情况下可能是无症状的。阵发性心房颤动是心律失常的间歇性发生并且 可能难以诊断。发作可在睡眠中或在运动中发生,并且它们的间歇性性 质可能需要长期心电图监护仪(ECG monitoring)(例如动态心电图监护 仪(Holter monitor))来进行诊断。

基于心电图(每当怀疑不规则心脏搏动时常规进行的检查)诊断心 房颤动。特征发现包括P波的不存在、它们的位置中的无组织的电活动 性和因冲动至心室的不规则传导引起的R-R间期的不规则性。如果怀疑 有阵发性AF,那么可通过使用Holter监测(连续ECG记录,进行24小 时或更长时间),记录发作。

虽然AF的许多病例没有明确的原因,但其可以是多种其他问题的结 果(参见下文)。因此,常规地测定肾功能和电解质以及促甲状腺激素 和血细胞计数。通常进行胸肺X光检查。在与胸痛相关的急性发作AF中, 可能需要心肌肌钙蛋白或损害心肌的其他标志。因为可能进行抗凝血药 药物疗法,通常进行凝固研究(INR/aPTT)。可能需要经食道超声心动图 (transesophageal echocardiogram)来鉴定任何心内血栓(Fuster V., 等人,Circulation.;104,2118-2150(2001))。

心房扑动(AFI)的特征在于心房内异常的快速心律。显示心房扑动的 患者通常也经历心房颤动以及反之亦然(Waldo,A.,Progr Cardiovasc  Disease,48:41-56(2005))。因此在机械学和生物学上,AF和AFI可 能高度相关。

AF(和AFI)与几种心脏原因相关联,但另外可在正常心脏中发生。 已知的关联性包括:高血压、二尖瓣狭窄(例如因风湿性心脏病或二尖瓣 脱垂而引起的)、二尖瓣反流、心脏手术、冠脉疾病、肥厚性心肌病、过 度饮酒(“酗酒”或“假期心脏(holiday heart)”)、甲状腺功能亢 进、迷走神经的超刺激(通常表现在大量进食(“暴食”))、肺脏病理 学(例如肺炎、肺癌、肺栓塞、结节病(Sarcoidosis))、心包炎、强 烈的情绪混乱和先天性心脏病。

心脏的正常电传导系统允许由心脏的窦房结(SA结)产生的冲动传 播至并且刺激心肌(心脏的肌肉)。当心肌被刺激时,其收缩。心肌的有 序刺激允许心脏高效收缩,从而允许血液被泵至身体。在心房颤动中, 由窦房结产生以提供心脏的有节律收缩的规则冲动被由更大面积的心房 组织产生的快速随机产生的放电湮没。心房中有组织的电脉冲产生心房 收缩;这样的冲动的缺乏(如在心房颤动中)产生瘀血流动(特别是在 心耳中)并且诱发凝血。凝块从心房的逐出导致栓塞物,并且所产生的 损伤与循环携带其的位置相关。至大脑的栓塞物产生心房颤动的最可怕 的并发症中风,然而栓塞物也可存在于肠系膜循环(供应腹器的循环) 或手指(足趾)中,产生器官特异性损伤。

心房颤动的治疗以两个主要目的为导向:(i)预防暂时循环不稳定 性;(ii)预防中风。用于实现前者的最常见方法包括速率和节律控制, 然而抗凝作用通常是实现后者理想的方法(Prystowsky E.N.,Am J  Cardiol.;85,3D-11D(2000);van Walraven C,等人,Jama.288, 2441-2448(2002))。用于速率控制即用于使心率减少至正常的常用方法 包括β受体阻滞剂(例如,美托洛尔)、强心苷类(例如,地高辛)和钙通 道阻滞剂(例如,维拉帕米)。所有此类药物疗法通过减慢脉冲从心房产 生以及从心房至心室的传导来起作用。其他常用药物包括奎尼丁、氟卡 尼、普罗帕酮、丙吡胺、索他洛尔和胺碘酮。节律控制可通过电击复律, 即通过施用DC电击(DC electrical shock)或利用化学心脏复律 (chemical cardioversion),使用药物例如安碘达隆,普罗帕酮和氟 卡尼来实现。

中风的预防措施包括抗凝血药。抗凝血药的代表性实例为达肝素(例 如,法安明)、那肝素(例如,Orgaran)、依诺肝素(例如,Lovenox)、肝 素(多种)、亭扎肝素(例如,Innohep)、华法林(例如,香豆定)。有时利 用阿司匹林或氯吡格雷治疗某些患有孤立性心房颤动的患者。有证据表 明阿司匹林与氯吡格雷,当一起使用时,是有效的,但组合仍然不及华 法林(Connolly S.,等人.Lancet.;367,1903-1912(2006))。(2)已 显示新型抗凝血药希美加群以与华法林相同的功效阻止预防中风,而无 需与华法林相关的困难的监控过程并且具有可能更少的不利的出血事 件。不幸地,希美加群和其他相似的抗凝血药(通常称为直接凝血酶抑 制剂)仍未得到广泛批准。

确定谁应当或不应当接受利用华法林的抗凝作用并不容易。CHADS2 评分是测定中风的风险度(从而应当对其进行抗凝治疗)的最佳验证的 方法。UK NICE指南被选择用以替代算法逼近。潜在问题是如果患者具 有低于2%的年中风风险,那么与服用华法林相关的风险超过获得中风的 风险(Gage B.F.等人,Stroke 29,1083-1091(1998))。

心房颤动有时可利用治疗控制。然而心房颤动的自然趋势是变成慢 性病症。慢性AF导致增加的死亡率。患有心房颤动的患者处于显著增加 的中风风险中。

心房颤动在老年人中是很常见的。在发达国家,由于日益增大的老 年个体群体,患有心房颤动的患者的数目在下一个50年中可能增加(Go A.S.等人,Jama.,285,2370-2375(2001))(3)。在Framingham研究 中,发生AF的终身危险对于40岁及以上的男性和女性为1/4。AF的终 身风险非常高(1/6)。根据包括AF作为最初出院诊断的病例的全国出 院调查(National Hospital Discharge Survey)(1996-2001)的数据, 发现45%的患者是男性,并且男性的平均年龄为66.8岁,女性的平均年 龄为74.6岁。纳入的人种细分经发现为71.2%的白人、5.6%的黑人、2% 的其他人种以及20%未指明人种。此外,非洲裔美国人患者平均比其他 种族年轻得多。男性的发病率在从年龄15-44岁的患者每年20.58/100, 000个人至年龄85及以上的患者每年1203/100,000个人的范围内。从 1996至2001年,以AF为首要列出的诊断的住院治疗增加34%。

中风是常见且严重的疾病。在美国每年有超过600,000个个体患 中风并且超过160,000个死于中风相关原因(Sacco,R.L.等人,Stroke  28,1507-17(1997))。此外,在美国每年有300,000多个个体呈现短 暂性脑缺血发作(轻微中风形式)。在西方国家,中风是严重残疾的首 要原因和死亡的第三大原因(Bonita,R.,Lancet 339,342-4(1992))。 年龄达到40岁的个体的终身风险超过10%。

中风的临床表型是复杂的但大体上分为缺血性中风(占80-90%)和 出血性中风(10-20%)(Caplan,L.R.Caplan′s Stroke:A Clinical  Approach,1-556(Butterworth-Heinemann,2000))。缺血性中风被进 一步细分为大血管闭塞性疾病(large vessel occlusive disease)(此 处称为颈动脉中风)(通常因颈总动脉和颈内动脉的动脉粥样硬化牵连 而引起的)、小血管闭塞性疾病(small vessel occlusive disease) (被认为是脑内小终动脉的非动脉粥样硬化狭窄)和因由通常在心房颤 动或局部缺血性(动脉粥样硬化性)心脏病的背景中的心脏产生的血块 而引起的心源性中风(Adams,H.P.,Jr.等人,Stroke 24,35-41 (1993))。因此,中风似乎不是一种疾病而是反映发病机理的差异的一 组异质性病症(Alberts,M.J.Genetics of Cerebrova scular Disease, 386(Futura Publishing Company,Inc.,New York,1999);Hassan, A.& Markus,H.S.Brain 123,1784-812(2000))。然而,所有中风 形式都共有风险因子例如高血压、糖尿病、血脂质过多和吸烟(Sacco, R.L.等人,Stroke 28,1507-17(1997);Leys,D.等人,J.Neurol. 249,507-17(2002))。中风的家族史也是独立的风险因子,这表明存 在可与环境因素相互作用的遗传因子(Hassan,A.& Markus,H.S.Brain  123,1784-812(2000);Brass,L.M.& Alberts,M.J.Baillieres Clin. Neurol.4,221-45(1995))。

中风的常见形式的遗传定子(genetic determinant)仍然知之甚 少。存在引起中风的罕见孟德尔形式的特定基因例如CADASIL(脑常染色 体显性动脉病合并皮层下梗塞及脑白质病)中的Notch3基因 (Tournier-Lasserve,E.等人.,Nat.Genet.3,256-9(1993);Joutel, A.等人.,Nature 383,707-10(1996))、遗传性脑出血伴淀粉样变的 冰岛类型的胱抑素C(Palsdottir,A.等人.,Lancet 2,603-4(1988))、 遗传性脑出血的荷兰类型中的APP(Levy,E.等人.,Science 248, 1124-6(1990))和具有遗传性海绵状血管瘤的患者的KRIT1基因(Gunel, M.等人.,Proc.Natl.Acad.Sci.USA 92,6620-4(1995);Sahoo,T. 等人.,Hum.Mol.Genet.8,2325-33(1999))的突变的实例。中风的 这些罕见形式中没有一个在动脉粥样硬化的背景中发生,从而相应的基 因不可能在最频繁地与动脉粥样硬化共发生的中风的常见形式中起作 用。

对于卫生保健制度非常重要的是发展预防中风的策略。一旦中风发 生,不可逆的细胞死亡在由受中风影响的血管供应的很大一部分脑中发 生。不幸地,死亡的神经元不能复活或被干细胞群体替代。因此,需要 首先防止中风发生。虽然我们已知增加中风风险的某些临床风险因子(上 文中列出的),但对于确定更精确地确定中风风险的牵涉中风的遗传因 子存在未满足的需要。此外,如果易感等位基因在一般群体中是常见的 并且基于它们的存在预测疾病的特异度较低,则需要另外的基因座例如 保护性基因座来有意义地预测疾病状态的倾向。还存在对用于防止首次 中风或已遭受先前中风或短暂性脑缺血发作的个体的再次中风的治疗剂 的巨大需要。

AF是中风的独立风险因子,其使风险度增加约5倍。归因于AF的 中风的风险随年龄增长而增加。AF是造成约15-20%的所有中风的主要原 因。AF也是中风复发和中风严重性的独立风险因子。最近的报导显示患 有AF并且未用抗凝血药治疗的人具有2.1倍增加的复发中风的风险度以 及2.4倍增加的复发严重中风的风险度。已报导患有由AF引发的中风的 人与患由其他原因引发的中风的人相比较2.23倍增加的卧床不起的概 率。

需要理解导致增加的对AF和中风的易感性的易感因子 (susceptibility factor)。针对AF的有危险的变体的鉴定可以例如 用于评估哪些个体处于特别高的发生AF和随后中风的风险中。此外,可 给患AF并且为AF和/或中风的有危险的易感性变体的携带者的个体施用 预防性治疗。最后,AF和/或中风的有风险的变体的鉴定可导致用于药 物治疗的新型靶的鉴定以及新型治疗措施的开发。

发明概述

如本文中所描述的,已显示某些多态型标志与心房颤动、心房扑动 和中风的风险相关联。所述标志用在很多诊断应用中,如本文进一步所 描述的所述标志还可用于涉及用于诊断用途的标志、用于诊断用途的系 统和装置的开发的某些方面,以及用于包括基于它们的关于此类变体的 遗传状态选择个体的方法。本发明的这些和其他方面在本文中进行了更 详细的描述。

在一个方面,本发明涉及用于确定对选自心律失常(选自心房颤动 和心房扑动)和中风的病症的易感性的方法,所述方法包括获得关于人 个体的序列数据,并且鉴定至少一个多态型标志的至少一个等位基因, 其中所述至少一个多态型标志的不同等位基因与人中对所述病症的不同 易感性关联,和根据所述序列数据确定对所述病症的易感性,其中所述 至少一个多态型标志选自rs7193343、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以与其处于连锁不平衡中的标志。

如本文中进一步详细描述的,多态型标志可包括在核苷酸水平上包 含一个或多个核苷酸的变异。因此,标示特定多态型,特别是关于多态 型的特定等位基因的序列数据标示存在于表征所述多态型的特定多态型 位点上的核苷酸。对于包含单个核苷酸的多态型(所谓的单核苷酸多态 型(SNP)),序列数据从而包括至少多态型的单核苷酸特征的序列。

本发明在另一个方面涉及用于确定人个体的对选自心律失常(选自 心房颤动和心房扑动)和中风的病症的易感性的方法,包括确定至少一 个多态型标志在获自个体的核酸样品中或在来自个体的基因型数据集 中的存在或不存在,其中所述至少一个多态型标志选自rs7193343、 rs10077199、rs10490066、rs10516002、rs10519674、rs1394796、 rs2935888、rs4560443、rs6010770和rs7733337以及与其处于连锁不 平衡中的标志,并且其中所述至少一个等位基因的存在的确定标示着对 所述病症的易感性。

本发明还涉及用于评估人个体的对选自心律失常(选自心房颤动和 心房扑动)和中风的病症的易感性的方法,包括:(i)就SEQ ID NO:1 中的至少一个多态型标志获得关于个体的序列信息,其中所述至少一个 多态型标志的不同等位基因与人中对所述病症的不同易感性关联;(ii) 鉴定至少一个等位基因在所述至少一个多态型标志中的存在或不存在, 所述多态型标志与人中增加的所述病症发生关联;其中所述至少一个等 位基因的存在的确定将所述个体鉴定为具有升高的对所述病症的易感 性,并且其中所述至少一个等位基因的不存在的确定将个体鉴定为不具 有所述增加的易感性。

本发明还提供用于确定对选自心律失常(选自心房颤动和心房扑动) 和中风的病症的易感性的方法,所述方法包括获得关于人个体的序列数 据,并且鉴定至少一个多态型标志的至少一个等位基因,其中所述至少 一个多态型标志的不同等位基因与人中对病症的不同易感性关联,和根 据序列数据确定对病症的易感性,其中所述至少一个多态型标志是与人 ZFHX3基因关联的标志。

本发明还涉及筛查用于评估对选自心律失常(选自心房颤动和心房 扑动)和中风的病症的易感性的候选标志的方法,包括分析选自经诊断 患有所述病症的人个体的群体rs7193343、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志的多态型标志的至少一 个等位基因的频率,其中与人个体的对照群体中所述至少一个等位基因 的频率相比较,经诊断患有所述病症的人个体的群体中所述至少一个等 位基因的频率的显著差异标示着所述标志可用作所述病症的易感性标 志。

在另一个方面中,本发明涉及鉴定用于评估人个体的对选自心律 失常(选自心房颤动和心房扑动)和中风的病症的易感性的标志的方法, 所述方法包括:(1)鉴定SEQ ID NO:1内的至少一个多态型标志或至少 一个与SEQ ID NO:1内的至少一个标志处于连锁不平衡中的多态型标 志;(2)获得关于一组经诊断患有所述病症的个体的至少一个多态型标志 的序列信息;和(3)获得关于一组对照个体的至少一个多态型标志的序列 信息;其中与对照组中至少一个等位基因的频率相比较经诊断患有所述 病症的个体的至少一个多态型中至少一个等位基因的频率的显著差异的 确定标示着所述至少一个多态型对于评估对所述症状的易感性是有用 的。

本发明还涉及预测经诊断患有选自心律失常(选自心房颤动和心房 扑动)和中风的病症的个体的预后的方法,所述方法包括获得关于人个 体的核酸序列数据,并且鉴定选自rs7193343、rs10077199、 rs10490066、rs10516002、rs10519674、rs1394796、rs2935888、 rs4560443、rs6010770和rs7733337以及与其处于连锁不平衡中的标志 的至少一个多态型标志的至少一个等位基因,其中所述至少一个多态 型标志的不同等位基因与人中对所述病症的不同易感性关联,和根据 所述序列数据预测所述病症的预后。

本发明在其他方面涉及估量人个体对用于预防、治疗和/或减轻与病 症相关的症状(选自心律失常(选自心房颤动和心房扑动)和中风)的 治疗剂的反应的概率的方法,包括获得关于人个体的核酸序列数据,并 且鉴定选自rs7193343、rs10077199、rs10490066、rs10516002、 rs10519674、rs1394796、rs2935888、rs4560443、rs6010770和rs7733337 以及与其处于连锁不平衡中的标志的至少一个多态型标志的至少一个 等位基因,其中所述至少一个多态型标志的不同等位基因与人中对治 疗剂的反应的不同概率关联,和根据所述序列数据测定对治疗剂的阳 性反应的概率。

本发明还提供了用于本文中描述的诊断应用的试剂盒。因此,在一 个方面,本发明涉及用于估量对选自心律失常(选自心房颤动和心房扑 动)和中风的病症的易感性的试剂盒,所述试剂盒包含用于选择性检测 个体的基因组中至少一个多态型标志的至少一个等位基因的试剂,其中 所述多态型标志选自rs7193343、rs10077199、rs10490066、rs10516002、 rs10519674、rs1394796、rs2935888、rs4560443、rs6010770和rs7733337 以及与其处于连锁不平衡中的标志,并且数据集合包括至少一个多态 型与对所述病症的易感性之间的关联数据。

本发明还提供了寡核苷酸探针在制备用于诊断和/或评估对选自 心律失常(选自心房颤动和心房扑动)和中风的病症的易感性的诊断剂 中的用途,其中所述探针能够与其核苷酸序列由SEQ ID NO:1给出的 核酸的区段杂交,并且其中所述区段在长度上为15至500个核苷酸。

本发明的计算机实现方面包括计算机可读介质以及计算机系统和装 置。一个方面涉及具有用于测定对选自心律失常(选自心房颤动和心房 扑动)和中风的病症的易感性的计算机可执行指令的计算机可读介质, 该计算机可读介质包括:(1)标示着至少一个多态型标志的数据;和(2) 存储在计算机可读介质上并且适合于用处理器执行以确定所述至少一 个多态型标志发生病症的风险的例程;其中所述至少一个多态型标志选 自rs7193343、rs10077199、rs10490066、rs10516002、rs10519674、 rs1394796、rs2935888、rs4560443、rs6010770和rs7733337以及与其 处于连锁不平衡中的标志。

另一个计算机实现方面涉及用于测定人个体中选自心律失常(选自 心房颤动和心房扑动)和中风的病症的遗传指标的装置,其包括处理器, 和计算机可读存储器,其具有适合在处理器上执行用以就至少一个多 态型标志分析至少一个人个体的标志和/或单倍型信息的计算机可执 行指令,所述多态型标志选自rs7193343、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志,并且基于标志或单倍 型信息产生输出,其中所述输出包括至少一个标志或单倍型的易感性的 测量作为人个体的所述病症的遗传指标。

本发明的这些和其他方面在下文中进行了详细描述。将要描述具体 的实施方案,特别是当它们涉及多态型变体和单倍型的选择和用途时。 应当理解下列本文中描述的特征的所有组合也被涉及,即使特征的组合 在本文中相同的句子或段落中未被明确发现。这特别地包括本文中公开 的所有标志在本文中描述的本发明的所有方面中单独地或组合地用于单 个地或于单倍型中分析的用途。

本发明的程序、用途或方法在一些实施方案中还包括给经测定处于 增加的发生心律失常或中风的风险中的个体施用组合物的步骤,所述组 合物包含至少一种有效地治疗或预防心律失常或中风,或预防与心律失 常或中风相关的症状的治疗剂。因此,本发明可用于确定个体是否适合 于特定治疗模式。

应当理解,本文中描述的特征的全部组合被涉及,即使在本文中 相同句子和段落中未明确地发现特征的组合。这特别地包括本文中公 开的全部标志单独地或组合地用于在本文中描述的本发明的所有方面 进行单个地分析或在单倍型中分析的用途。

附图概述

本发明的上述和其它目的、特征和有利方面由以下本发明的优选实 施方案的更具体的描述将变得透彻。

图1提供了举例说明利用本文中描述的风险变体的计算机实现的 系统的示图。

发明详述

定义

除非另外指出,否则核酸序列以5′至3′方向从左向右书写。说 明书中引用的数值范围包括界定范围的数字并且包括界定范围内的每 一个整数或任意非整数分数。除非另外定义,否则本文中使用的全部 技术和科学术语具有与本发明所属领域的技术人员的通常理解相同的 意义。

在本说明书中下列术语将具有所指出的意义:

如本文中所描述的“多态型标志”,有时称为“标志”意指基因 组多态型位点。每个多态型标志在多态型位点上具有特定等位基因的 至少2个序列差异特征。因此,多态型标志的遗传关联性(genetic  association)意指存在与该特定多态型标志的至少一个特定等位基因 的关联性。所述标志可包括基因组中发现的任何变型的任何等位基因, 包括SNP、小卫星或微卫星、易位和拷贝数变异(插入、缺失、重复)。 多态型标志在群体中可具有任何可测量的频率。为了定位疾病基因, 具有高于5-10%的群体频率的多态型标志通常最为有用。然而,多态 型标志还可具有更低的群体频率,例如1-5%的频率或甚至更低的频 率,特别是拷贝数变异(CNV)。在本发明书中,术语将被用来包括具有 任何群体频率的多态型标志。

“等位基因”意指染色体上给定的基因座(位置)的核苷酸序列。 因此多态型标志等位基因意指染色体上标志的组成(即,序列)。个 体的基因组DNA对于任何给定的多态型标志包含2个等位基因(例如, 等位基因特异性序列),代表各染色体上标志的每一个拷贝。本文中 使用的核苷酸的序列码是:A=1、C=2、G=3、T=4。对于微卫 星等位基因,将CEPH样品(Centred′Etudes du Polymorphisme  Humain、基因组数据库、CEPH样品1347-02)用作参照,将该样品中 各微卫星的较短等位基因设置为0并且根据该参照给其它样品中所有 其它等位基因编号。因此,例如等位基因1比CEPH样品中的所述较短 等位基因长1bp,等位基因2比CEPH样品中的所述较短等位基因长2 bp,等位基因3比CEPH样品中的所述较短等位基因长3bp等,以及 等位基因-1比CEPH样品中的所述较短等位基因短1bp,等位基因-2 比CEPH样品中的所述较短等位基因短2bp等。

本文中所述的序列共核苷酸错读(Sequence conucleotide  ambiguity)是如IUPAC-IUB所提出的。此类代码与由EMBL、GenBank 和PIR数据库使用的代码兼容。

  IUB代码   意义   A   腺苷   C   胞苷   G   鸟嘌呤   T   胸苷   R   G或A   Y   T或C   K   G或T   M   A或C   S   G或C   W   A或T   B   C、G或T   D   A、G或T   H   A、C或T   V   A、C或G   N   A、C、G或T(任何碱基)

在群体(天然群体或合成群体,例如合成分子的文库)中可能存在 超过一个序列的核苷酸位置在本文中称为“多态型位点”。

“单核苷酸多态型”或“SNP”是当基因组中特定位置上单个核 苷酸在种的成员之间或个体的成对染色体之间不同时存在的DNA序列 差异。大多数SNP多态型具有2个等位基因。每一个个体在该情况下 对于多态型的一个等位基因是纯合的(即个体的两个染色体拷贝在该 SNP位置都具有相同的核苷酸)或个体是杂合的(即个体的两个姊妹染 色体包含不同的核苷酸)。本文中报导的SNP命名是指由美国国家生物 技术信息中心(NCBI)分配给各独特的SNP的官方参考SNP(official  Reference SNP)(rs)ID标识符。

如本文中所描述的“variant(变体、变型)”,意指与参照DNA 不同的DNA的区段。如本文中所定义的“标志”或“多态型标志”, 是变体。与参照不同的等位基因被称为“变体”等位基因。

微卫星”是在特定位点具有多个长度为2至8个核苷酸的小的碱 基重复(例如CA重复)的多态型标志,其中重复长度的数量在一般群 体中可变化。“插入和缺失(indel)”是包含通常只有数个碱基长的 小的插入或缺失的多态型的一般形式。

“单倍型”,如本文中所描述的,是指特征在于沿区段排列的等 位基因的特定组合的基因组DNA的区段。对于二倍体生物例如人,单 倍型包含沿着区段的每一个多态型标志或基因座的等位基因对的一个 成员。在某些实施方案中,单倍型可包含2个或更多个等位基因,3 个或更多个等位基因,4个或更多个等位基因,或5个或更多个等位 基因。单倍型在本文中依据该单倍型中标志的标志名称和等位基因来 进行描述,例如,“4rs7193343”意指存在于单倍型中的标志rs7193343 的4个等位基因,并且等同于“rs7193343等位基因4”。此外,单倍 型中等位基因代码与针对个体标志的一样,即1=A、2=C、3=G 和4=T。

术语“易感性”,如本文中描述的,意指个体向某种状态(例如, 某些性状、表型或疾病)发展的倾向性,或与一般个体相比较不太能 抗特定状态的倾向。术语包括增加的易感性和减少的易感性。因此, 本文中描述的本发明的多态型标志和/或单倍型上的特定等位基因可 具有增加的对心房颤动和/或中风的易感性(即,增加的风险)的特征, 如由特定等位基因或单倍型的大于1的相对风险度(RR)或比值比(OR) 表征的。可选择地,本发明的标志和/或单倍型的特征在于减少的对心 房颤动和/或中风的易感性(即,减少的风险度),如由小于1的相对 风险度表征的。

术语“和/或”在本说明书中应被理解为表示包括由其连接的项 的任一项或两者。换句话说,本文中的术语应当被用来表示“一个或 另一个或两者”。

术语“查找表”,如本文中所描述的,是使数据的一种形式与另 一种形式关联,或使数据的一种或多种形式与和数据相关的预测结果 例如表型或性状关联的表。例如,查找表可包括至少一个多态型标志 的等位基因数据与特定性状或表型例如特定疾病的诊断之间的关系, 所述特定性状或表型是包含特定等位基因的数据的个体可能展示的或 比不包含特定等位基因数据的个体更可能展示的特定性状或表型。查 找表可以是多维的,即,它们可同时包括关于单个标志的多个等位基 因的信息,或它们可包括关于多个标志的信息,并且它们还可包括其 它因素,例如关于疾病诊断的明细、种族信息、生物标志、生物化学 测量、治疗方法或药物等。

“计算机可读介质”是可使用商购可得的或定制的接口通过计算 机读取的信息存储介质。示例性计算机可读介质包括存储器(例如, RAM、ROM、闪存等)、光存储介质(例如,CD-ROM)、磁存储介质(例 如,计算机硬驱、软盘等)、穿孔卡或其它商购可得的介质。信息可 在目标系统与介质之间、计算机之间或者计算机与用于储存或读取存 储的信息的计算机可读介质之间传送。此类传送可以是电子的或通过 其它可获得的方法例如红外连接(IR link)、无线连接等进行的。

本文中描述的“核酸样品”意指从含有核酸(DNA或RNA)的个体 获得的样品。在某些实施方案即特定多态型标志和/或单倍型的检测 中,核酸样品包含基因组DNA。这样的核酸样品可从含有基因组DNA 的任何来源获得,包括血液样品、羊膜液样品、脑脊髓液样品或来自 皮肤、肌肉、颊粘膜或结膜粘膜、胎盘、胃肠道或其它器官的组织样 品。

术语“心房颤动治疗剂”是指可用于减轻或防止与心房颤动相关的 症状的试剂。类似地术语“中风治疗剂”是指可用于减轻或防止与中风 包括缺血性中风相关的症状的试剂。

术语“心房颤动相关核酸”,如本文中所描述的,是指经发现与心 房颤动和/或中风关联的核酸。所述核酸包括但不限于本文中描述的标 志和单倍型以及与其处于强连锁不平衡(LD)中的标志和单倍型。在一 个实施方案中,心房颤动相关核酸是指经发现通过至少一个位于LD区 段内的多态型标志与心房颤动关联的LD区段。

术语“反义试剂”或“反义寡核苷酸”,如本文中所描述的,是指 分子或包含所述分子的组合物,所述分子由主链支持的嘌呤、嘧定杂环 碱基的序列,所述嘌呤、嘧啶碱基与靶核酸序列中的相应连续碱基有效 地形成氢键。所述主链由在允许这样的氢键合的位置上支持嘌呤嘧啶杂 环碱基的亚单位主链部分组成。此类主链部分为通过在长度上为1至3 个原子的含磷连接单位连接在一起的大小为5至7个原子的环状部分。 在某些优选实施方案中,反义试剂包括寡核苷酸分子。

术语“ZFHX3”在本说明书中是指染色体16q22上的锌指同源异型 框3基因。该基因有时也称为AT基序结合因子1(ATBF1)。

如本文中所描述的“LD区段C16”是指染色体16上标志rs16971447 与rs9940321之间的连锁不平衡(LD)区段,其相应于NCBI(美国生物 技术信息中心)Build 36(SEQ ID NO:1)的位置71,565,471-71,631, 309(SEQ ID NO:1)。

标志和单倍型的评估

当比较个体时,群体中的基因组序列是不相同的。相反,基因组 在基因组的许多位置上展示个体之间的序列差异性。序列的此类变异 通常被称为多态型,并且各基因组存在许多此类位点。例如,人基因 组展示平均每500个碱基对存在序列差异。最常见的序列变体由基因 组中单个碱基位置上的碱基变异组成,并且此类序列变体或多态型通 常称为单核苷酸多态型(“SNP”)。此类SNP据信已在单个突变事件 中发生,从而通常可能在每一个SNP位点存在2个可能的等位基因; 原始等位基因和突变的等位基因。由于天然遗传漂变(genetic drift) 以及可能地还有选择压力的原因,原始突变已导致特征在于其等位基 因在任何给定的群体中的特定频率的多态型。在人基因组中发现许多 其它类型的序列变体,包括小卫星和微卫星、以及插入、缺失和倒位 (也称为拷贝数变异(CNV))。多态型微卫星在特定位点上具有多个 小的碱基重复(例如CA重复,互补链上的TG),其中重复长度的数 目在一般群体中是变化的。一般而言,关于多态型位点的每一个序列 形式代表该多态型位点的特定等位基因。这些序列变体可全部称为在 特定多态型位点上存在的特征在于所述序列变体的多态型。一般而言, 多态型可包括任意数量的特定等位基因。因此在本发明的一个实施方 案中,多态型的特征在于在任意给定的群体中存在2个或更多个等位 基因。在另一个实施方案中,多态型的特征在于存在3个或更多个等 位基因。在其它实施方案中,多态型的特征在于4个或更多个等位基 因、5个或更多个等位基因、6个或更多个等位基因、7个或更多个等 位基因、9个或更多个等位基因或10个或更多个等位基因。所有此类 多态型可用于本发明的方法和试剂盒,从而在本发明的范围内。

由于它们的丰富性,SNP占据了人基因组中大部分序列差异。迄 今为止已验证了600多万个SNP(http://www.ncbi.nlm.nih.gov /projects/SNP/snp_summary.cgi)。然而,CNV正受到日益关注。这 些大尺度多态型(通常1kb或更大)解释了影响大部分装配的人基因组 的多态型变异;已知的CNV覆盖15%以上的人基因组序列(Estivill, X.、Armengol,L.,PloS Genetics 3:1787-99(2007); http://projects.tcag.ca/variation/)。然而大多数此类多态型非 常罕见,并且平均只影响每一个个体的一小部分基因组序列。已知CNV 通过破坏基因剂量影响基因表达、表型变异和适应性,并且还已知其 引起疾病(微缺失(microdeletion)和微重复(microduplication) 障碍)并带来常见复杂疾病包括HIV-1感染和肾小球肾炎的风险 (Redon,R.,等人Nature 23:444-454(2006))。因此之前描述的 或未知的CNV可能代表与本文中描述的与心房颤动、心房扑动和中风 关联的标志处于连锁不平衡中的病因性变体(causative variants)。 用于检测CNV的方法包括比较基因组杂交(CGH)和基因分型,包括基因 分型阵列的使用,如由Carter(Nature Genetics 39:S16-S21(2007)) 描述的。基因组变体数据库(http://projects.tcag.ca/variation/) 包括关于所述CNV的位置、类型和大小的更新信息。该数据库目前包 括15,000多个CNV的数据。

在一些情况下,参考多态型位点上的不同等位基因而无需选择参 照等位基因。可选择地,就特定的多态型位点可参考参照序列。参照 等位基因有时被称为“野生型”等位基因,其通常被选择作为第一测 序的等位基因或来自“未患病的”个体(例如,未展示性状或疾病表 型的个体)的等位基因。

本文中提及的SNP标志的等位基因是指它们在应用的SNP分析中 存在于多态型位点上的碱基A、C、G或T。在本文中使用的SNP的等 位基因代码如下:1=A、2=C、3=G、4=T。然而本领域技术人员将认识 到通过分析或阅读互补DNA链,可在各情况下测量互补等位基因。因 此,对于特征在于A/G多态型的多态型位点(多态型标志),使用的分 析可被设计来特异性检测两个可能的碱基即A和G的一个或两个的存 在。可选择地,通过设计经设计用以检测DNA模板上的互补链的分析 法,可测量互补碱基T和C的存在。可根据任一DNA链(+链或-链) 的测量定量地(例如,就风险度评估而言)获得相同的结果。

多态型标志(变体)可包括影响多肽的变化。当与参照核苷酸序 列相比较时,序列差异可包括单个核苷酸或超过1个核苷酸的插入或 缺失,导致移码;至少一个核苷酸的改变,导致编码的氨基酸的改变; 至少一个核苷酸的改变,导致未成熟终止密码子的产生;数个核苷酸 的缺失,导致由核苷酸编码的一个或多个氨基酸的缺失;一个或数个 核苷酸的插入(例如通过不均等重组或基因转变)导致阅读框的编码 序列中断;全部或部分序列的重复;转座(transposition);或核苷 酸序列的重排。此类序列变化可改变由核酸编码的多肽。例如,如果 核酸序列的变化引起移码,移码可导致编码的氨基酸的变化和/或可导 致未成熟终止密码子的产生,从而引起截断的多肽的产生。可选择地, 与疾病或性状关联的多态型可以是一个或多个核苷酸的同义突变(即, 不导致氨基酸序列变化的变化)。这样的多态型可以例如改变剪接位 点,影响mRNA的稳定性或运输,或影响编码的多肽的转录或翻译。其 还可改变DNA以增加结构变化例如扩增或缺失在体细胞水平上发生的 概率。

单倍型意指DN A的区段,其特征在于沿区段排列的等位基因的特 定组合。对于二倍体生物例如人,单倍型包括各多态型标志或基因座 的成对等位基因的一个成员。在某些实施方案中,单倍型可包括2个 或更多个等位基因,3个或更多个等位基因,4个或更多个等位基因, 或5个或更多个等位基因,各等位基因相应于沿区段的特定多态型标 志。单倍型可包括不同多态型标志例如SNP与微卫星的组合,所述标 志在多态型位点上具有特定的等位基因。因此单倍型包括不同遗传标 志上的等位基因的组合。

检测特定多态型标志和/或单倍型可通过本领域内已知的用于检 测多态型位点上的序列的方法来实现。例如,可使用就SNP和/或微 卫星标志的存在进行基因分型的标准技术,例如基于荧光的技术(例 如,Chen,X.等人,Genome Res.9(5):492-98(1999);Kutyavin 等人,Nucleic Acid Res.34:e128(2006)),所述技术利用PCR、LCR、 嵌套式PCR和其它技术进行核酸扩增。用于SNP基因分型的可获得的 特定商业方法包括但不限于TaqMan基因分型分析和SNPlex平台 (Applied Biosystems)、凝胶电泳(Applied Biosystems)、质谱法(例 如,来自Sequenom的MassARRAY系统)、微测序法(minisequencing method)、实时PCR、Bio-Plex系统(BioRad)、CEQ和SNPstream系 统(Beckman)、阵列杂交技术(例如,Affymetrix GeneChip;Perlegen)、 BeadArray技术(例如,Illumina GoldenGate和Infinium测定)、阵 列标签技术(例如Parallele)和基于内切核酸酶的荧光杂交技术 (Invader;Third Wave)。一些可获得的阵列平台(包括Affymetrix SNP  Array 6.0和Illumina CNV370-Duo以及1M BeadChip)包括标记某 些CNV的SNP。这允许通过这些平台中包括的替代SNP来检测CNV。因 此,通过使用本领域技术人员可获得的此类或其它方法,可鉴定多态 型标志包括微卫星、SNP或其它类型的多态型标志上的一个或多个等 位基因。

连锁不平衡

在每次减数分裂事件期间对于每一个染色体对平均发生一次的 自然重组现象,代表了其中自然提供序列(和因此生物学功能)的变 异的一个方式。已发现重组在基因组中并非随机发生;相反,重组率 的频率具有巨大差异,从而导致高重组频率的小的区域(也称为重组 热点)和低重组频率的更大区域(其通常被称为连锁不平衡(LD)区 段)(Myers,S.等人,Biochem Soc Trans 34:526-530(2006); Jeffreys,A.J.,等人,Nature Genet 29:217-222(2001);May, C.A.,等人,Nature Genet 31:272-275(2002))。

连锁不平衡(LD)是指两个遗传成分的非随机分配。例如,如果特 定遗传成分(例如,多态型标志的等位基因,或单倍型)以0.50(50%) 的频率在群体中发生并且另一个成分以0.50(50%)的频率发生,假 定成分是随机分配的,那么具有这两个成分的人的预测的发生频率为 0.25(25%)。然而,如果发现两个成分以高于0.25的频率一起发生, 那么所述成分被认为处于连锁不平衡,因为它们趋向于以比它们的独 立发生频率(例如,等位基因或单倍型频率)预测的更高的比率一起 遗传。粗略地讲,LD通常与两个成分之间的重组事件的频率相关。可 通过在群体中对个体基因分型并且测定各等位基因或单倍型在群体中 的发生频率来测定群体中等位基因或单倍型频率。对于二倍体的群体, 例如,人群体,个体通常具有各遗传成分(例如,标志,单倍型或基 因)的两个等位基因或等位基因组合。

已提出许多不同的量度用以评估连锁不平衡的强度(LD;综述于 Devlin,B.& Risch、N.,Genomics 29:311-22(1995)中))。大多 数方法获得了成对的二等位基因位点之间的关联强度。LD的两个重要 成对测量是r2(有时表示为Δ2)和|D′|(Lewontin,R.,Genetics  49:49-67(1964);Hill,W.G.& Robertson,A.Theor.Appl.Genet. 22:226-231(1968))。这两个测量的范围是从0(无不平衡)至1(‘完 全’不平衡),但它们的解释略有不同。|D′|定义的方式是:如果只 有2个或3个可能的单倍型存在,其等于1,并且如果所有4个可能 的单倍型都存在,其小于1。因此,小于1的|D′|的值标示历史重组 可能已在两个位点之间发生(频发突变还可使|D′|小于1,但对于单 核苷酸多态型(SNP),除了重组外,这通常被认为是不太可能的)。量 度r2表示两个位点之间的统计相关性,如果只存在两个单倍型,则采 用为1的值。

r2测量可论证是对于关联性定位(association mapping)的最 相关测量,因为r2与检测易感性基因座与SNP之间的关联性所需的样 本容量之间存在简单的反相关。针对成对位点确定这些测量,但对于 一些应用,可能期望测定包含许多多态型位点的整个区域上的LD强度 (例如,检测LD的强度在基因座之间或群体间是否显著不同,或在特 定模型下与预期相比是否存在更多或更少的LD)。测量横跨区域的LD 不是直接的,但一个方法是使用在群体遗传学中发展的测量r。概略 地说,r测量在特定的群体模型下产生在数据中看到的LD所需的重组 次数。该类型的方法还可潜在地为确定LD数据是否提供重组热点存在 的证据的问题提供统计学上严格的方法。关于本文中描述的方法,显 著的r2值可以是至少0.1,例如至少0.1、0.15、0.2、0.25、0.3、 0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、 0.9、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或至少0.99。 在一个优选实施方案中,显著的r2值可以是至少0.2。可选择地,本 文中描述的连锁不平衡是指特征在于|D′|的值为至少0.2,例如0.3、 0.4、0.5、0.6、0.7、0.8、0.85、0.9、0.95、0.96、0.97、0.98或 至少0.99的连锁不平衡。因此,连锁不平衡代表了不同标志的等位基 因之间的相关性。其通过相关系数或|D′|(达到1.0的r2和达到1.0 的|D′|)来测量。在某些实施方案中,根据r2和|D′|测量的值来定义 连锁不平衡。在一个这样的实施方案中,显著的连锁不平衡定义为r2> 0.1并且|D′|>0.8。在另一个实施方案中,显著的连锁不平衡定义 为r2>0.2并且|D′|>0.9。还预期用于测定连锁不平衡的r2和|D′| 的值的其它组合和排列(permutation),并且其也在本发明的范围内。 如本文中所定义的,可在单个人群体中测定连锁不平衡,或可在包括 来自超过一个人群体的个体的样品集合中测定。在本发明的一个实施 方案中,如所定义的,在来自一个或多个HapMap群体(高加索人、非 洲人、日本人、中国人)的样品中测定LD(http://www.hapmap.org)。 在一个这样的实施方案中,在HapMap样品的CEU群体中测定LD。在 另一个实施方案中,在YRI群体中测定LD。在另一个实施方案中,在 来自冰岛人群体的样品中测定LD。

如果基因组中的所有多态型在群体水平上是独立的(即,无LD), 那么需要在关联性分析中对它们中的每一个单个多态型进行研究,以 评估所有不同多态型状态。然而,由于多态型之间的连锁不平衡,紧 密连锁的多态型强相关,这减少了需要在关联性分析中进行调查以观 察显著关联性的多态型的数目。由于这些多态型是强相关的事实,LD 的另一个结果是许多多态型可提供关联性信号。

已产生了覆盖基因组的基因组LD图谱,并且已有人提议将这样 的LD图谱用作绘制疾病-基因的构架(Risch,N.& Merkiangas,K, Science 273:1516-1517(1996);Maniatis,N.,等人,Proc Natl Acad  Sci USA 99:2228-2233(2002);Reich,DE等人,Nature 411:199-204 (2001))。

现已确定可将人基因组的许多部分分区成系列离散的包含少数 常见单倍型的单倍型区段;对于此类区段,连锁不平衡数据几乎未提 供标示重组的证据(参见,例如,Wall.,J.D.和Pritchard,J.K., Nature Reviews Genetics 4:587-597(2003);Daly,M.等人,Nature  Genet.29:229-232(2001);Gabriel,S.B.等人,Science  296:2225-2229(2002);Patil,N.等人,Science 294:1719-1723 (2001);Dawson,E.等人,Nature 418:544-548(2002);Phillips, M.S.等人,Nature Genet.33:382-387(2003))。

有两个主要方法用于定义此类单倍型区段:可将区段定义为具有 有限的单倍型多样性的DNA的区域(参见,例如,Daly,M.等人,Nature  Genet.29:229-232(2001);Patil,N.等人,Science 294:1719-1723 (2001);Dawson,E.等人,Nature 418:544-548(2002);Zhang,K. 等人,Proc.Natl.Acad.Sci.USA 99:7335-7339(2002))或定义 为使用连锁不平衡鉴定的具有广泛的历史重组的过渡区之间的区域 (参见,例如,Gabriel,S.B.等人,Science 296:2225-2229(2002); Phillips,M.S.等人,Nature Genet.33:382-387(2003);Wang, N.等人,Am.J.Hum.Genet.71:1227-1234(2002);Stumpf,M.P. 和Goldstein,D.B.,Curr.Biol.13:1-8(2003))。更近以来,已 产生了覆盖人基因组的重组率和相应热点的精细标度的图谱(Myers, S.,等人,Science 310:321-32324(2005);Myers,S.等人,Biochem  Soc Trans 34:526530(2006))。图谱揭示了覆盖基因组的重组的大 量变异,热点中重组率高至10-60cM/Mb,然而在间隔区(intervening  region)接近于0,其因此代表有限的单倍型多样性和高LD的区域。 因此图谱可用于将单倍型区段/LD区段定义为由重组热点侧翼连接的 区域。如本文中使用的,术语“单倍型区段”或“LD区段”包括由任 何上述特征或由本领域技术人员用于定义此类区域的其它可选择方法 定义的块。

单倍型区段(LD区段)可用于使用单个标志或包括多个标志的单 倍型绘制表型与单倍型状态之间的关联性。可在各单倍型区段中鉴定 主要的单倍型,然后可鉴定一组“标签”SNP或标志(区分单倍型所 需的最小的SNP或标志的组)。然后可将此类标签SNP或标志用于评 估来自个体的组群的样品,以鉴定表型与单倍型之间的关联性。需要 时,可同时评估相邻的单倍型区段,因为在单倍型区段之间也可能存 在连锁不平衡。

因此显然,对于任何给定的观察到的与基因组中的多态型标志的 关联性,基因组中另外的标志也可能显示关联性。这是LD在整个基因 组中不均匀分布的自然结果,如通过重组率间的巨大差异观察到的。 因此用于检测关联性的标志在某种意义上代表了与给定的疾病或性状 关联的基因组区域(即,单倍型区段或LD区段)的“标签”,并且同 样地对于在本发明的方法和试剂盒中的使用是非常有用的。一个或多 个病因性(功能性)变体或突变可存在于经发现与疾病或性状关联的 区域中。功能性变体可以是另一种SNP、串联重复多态型(例如小卫星 或微卫星)、转位因子或拷贝数变异,例如倒位、缺失或插入。具有本 文中描述的变体的LD中的此类变体可赋予比观察到的用于检测关联 性的标签标志更高的相对风险度(RR)或比值比(OR)。本发明因而 涉及用于检测本文中描述的与疾病的关联性的标志以及与所述标志处 于连锁不平衡中的标志。因此,在本发明的某些实施方案中,与本发 明的标志和/或单倍型处于LD中的标志,如本文中描述的,可用作替 代标志。替代标志在一个实施方案中具有比最初经发现与疾病关联的 标志或单倍型的更小的相对风险度(RR)和/或比值比(OR)值,如本 文中所描述的。在其它实施方案中,替代标志具有比最初被发现与疾 病关联的标志最初测定的RR或OR值更大的RR或OR值如本文中描述 的。这样的实施方案的实例可以是最初被发现与疾病关联的更常见的 变体(>10%的群体频率)处于LD中的罕见的或相对罕见(例如<10% 的等位基因群体频率)的变体,例如本文中描述的变体。鉴定和使用此 类标志检测本文中描述的由本发明者发现的关联性可通过本领域内技 术人员熟知的常规方法进行,并因此是在本发明的范围内的。

单倍型频率的测定

可使用最大期望值算法(Dempster A.等人,J.R.Stat.Soc.B, 39:1-38(1977))来评估患者和对照组中单倍型的频率。可使用能处 理缺失基因型和相不确定性(uncertainty with the phase)的该算 法的实现。在零假设下,假定患者和对照具有相同的频率。通过使用 似然方法,检验可选择的假设,在所述假设中允许可包括本文中描述 的标志的候选的有风险的单倍型在患者中具有比在对照中更高的频 率,然而假定其它单倍型的频率的比率在这两个组中都相同。在两个 假设下分别最大化似然性,并且将相应的1-df似然比统计量用于评估 统计显著性。

为了在易感性区域内例如在LD区段内寻找有风险的和保护性标 志和单倍型,研究区域内已基因分型的标志的所有可能的组合的关联 性。可将合并的患者和对照组随机分成两组,大小与患者和对照的原 始组相同。然后重复标志和单倍型分析,测定登记的最显著p值。可 以例如重复该随机化方案100多次以建立p值的经验分布。在优选实 施方案中,小于0.05的p值标示着显著的标志和/或单倍型关联性。

用于单倍型分析的一个一般性方法涉及使用应用于NEsted  MOdels(Gretarsdottir S.,等人,Nat.Genet.35:131-38(2003)) 的基于似然的推断。在程序NEMO中执行该方法,所述程序允许许多多 态型标志、SNP和微卫星。该方法和软件经特殊设计用于其目的是鉴 定赋予不同风险度的单倍型组的病例-对照研究。它也是用于研究LD 结构的工具。在NEMO中,借助于EM算法,直接计算所观察到的数据 的最大似然评估值、似然比和p值,将其当作缺失-数据问题来处理。

即使可赖于似然比检验(所述检验基于就所观察到的数据的直接 计算的似然性,其已捕捉到由于相中的不确定性(uncertainty in  phase)和缺失基因型而丢失的信息)提供有效的p值,但了解有多少 信息因信息不完全而已被丢失仍然是有益的。用于单倍型分析的信息 测量在Nicolae和Kong(Technical Report 537,Department of  Statistics,University of Statistics,University of Chicago; Biometrics,60(2):368-75(2004))中被描述为被确定用于连锁分析 的信息测量的自然扩展,并且在NEMO中执行。

统计分析

对于单个标志与疾病的关联性,可使用Fisher精确检验计算每 一个单个等位基因的双侧p值。通常,除非明确指出,否则提供未就 多重比较进行调整的所有p值。所提供的频率(微卫星、SNP和单倍 型的)是相对于携带者频率的等位基因频率。为了最小化因被作为家 族招募至研究的患者的亲缘关系而引起的偏差,可从患者名录中除去 一级和二级亲属。此外,可重复通过扩展之前描述的用于亲缘关系 (sibship)的方差调整法(variance adjustment procedure)(Risch, N.& Teng,J.Genome Res.,8:1273-1288(1998))来进行患者间 其它亲缘关系的校正的检验,以使其可用于一般家族关系,并且提供 经调整的和未调整的用于比较的p值。基因组控制的方法(Devlin, B.& Roeder,K.Biometrics 55:997(1999))还可用于调整个体的 亲缘关系和可能的分层(stratification)。如所预期的,差异通常 非常小。为了评估就多重检验校正的单标志关联性的显著性,我们可 使用相同的基因型数据进行随机化检验。可随机化患者和对照的队列, 并且重新进行关联性分析多次(例如,达到500,000次),并且p值 是产生低于或等于我们使用原始患者和对照队列观察到的p值的针对 一些标志等位基因的p值的重复的分数(fraction of replication)。

对于单标志分析和单倍型分析,假定乘法模型(单倍型相对风险 度模型)(Terwilliger,J.D.& Ott,J.,Hum.Hered.42:337-46(1992) 和Falk,C.T.& Rubinstein,P,Ann.Hum.Genet.51(Pt 3):227-33 (1987))可用来计算相对风险度(RR)和人群归因风险度(PAR),即 人携带的两个等位基因/单倍型的风险度相乘。例如,如果RR是A相 对于a的风险度,那么人纯合子AA的风险度将是杂合子Aa的RR倍以 及是纯合子aa的RR2倍。所述乘法模型具有简化分析和计算的良好性 质-单倍型在患病群体中以及对照群体中是不相关的,即处于 Hardy-Weinberg平衡中。结果,患病和对照的单倍型计数各自具有多 项分布,但在备选假设说中具有不同的单倍型频率。特别地,对于两 个单倍型hi和hj、风险度(hi)/风险度(hj)=(fi/pi)/(fj/pj)、其中f 和p分别表示患病群体和对照群体中的频率。虽然如果实际模型不是 相乘性的存在一些效力损失,但除了极端情况外,损失倾向于轻微。 最重要的是,p值总是有效的,因为它们是根据零假设计算的。

在一个关联性研究中检测到的关联性信息可在第二队列(理想地 来自相同或不同种族的不同群体(例如,相同国家的不同地区或不同 国家))中重复。重复研究的有利方面是重复研究中进行的检验的次 数通常相当少,从而需要使用的统计测量的严格度更低。例如,对于 使用300,000个SNP进行的对特定疾病或性状的易感性变体的全基因 组搜索,可对进行的300,000个检验(每一个SNP一个检验)进行校 正。因为阵列上通常使用的许多SNP是相关的(即,处于LD中),所 以它们不是独立的。因此,校正是保守的。然而,应用该校正因子要 求在对来自单个研究队列的结果应用该保守检验时观察到小于 0.05/300,000=1.7x 10-7的P值(在小于该P值的情况下,信号 才被认为是显著的)。很显然,具有小于该保守阈值的P值的全基因 组关联性研究中发现的信号是真实遗传效应的测量,并且从统计观点 来看在额外的队列中重复不是必需的。然而,重要地,具有比该阈值 更大的p值的信号也可因真实遗传效应而产生。因此,因为所述校正 因子依赖于进行的统计检验的次数,因此如果来自初步研究的一个信 号(一个SNP)在第二病例-对照队列中重复,那么关于显著性的适当 的统计检验是针对单一统计检验的统计检验,即P值小于0.05。一个 或甚至几个另外的病例-对照队列中的重复研究具有额外的有利方面: 在另外的群体中提供关联性信号的评估,从而同时确认初步发现和评 估一般人群中被测试的遗传变型的总显著性。

还可组合来自几个病例-对照队列的结果以提供基础效应的总体 评估。通常用于组合多个遗传关联性分析的结果的方法是 Mantel-Haenszel模型(Mantel和Haenszel,J Natl Cancer Inst  22:719-48(1959))。该模型经设计用以处理其中组合不同群体的关 联性结果的情况,每一个群体可能地具有不同的遗传变型群体频率。 所述模型组合假定变体产生患疾病风险的效应(由OR或RR测量的) 在所有群体中相同而变体的频率在群体之间可以不同的结果。组合来 自几个群体的结果具有额外的有利方面:检测真实的基础关联性信号 的总体功效因由组合的队列提供的增加的统计效力而得到增加。此外, 当组合来自多个队列的结果时,例如因病例和对照或人群分层 (population stratification)的不对等匹配而导致的单个研究的任 何缺陷将倾向于抵消,从而再次提供了真实基础遗传效应的更好的评 估。

确定对心房颤动、心房扑动和中风的易感性的方法

本发明者第一次展示某些多态型变体与发生心房颤动、心房扑动和 中风的风险关联性。已发现与对照相比较,某些多态型标志的某些等位 基因以增加的频率存在于具有此类病症的诊断的个体中。因此此类多态 型标志与此类病症的风险关联。不希望束缚于特定理论,本文中描述的 具体多态型标志以及与此类多态型标志处于连锁不平衡中的标志被认 为可用作确定对此类病症的任一种或多种或任意组合的易感性的标志。 此类标志据信用于许多诊断应用,如本文中进一步描述的。

因此,在一个方面,本发明提供了确定对选自心律失常(选自心房 颤动和心房扑动)和中风的病症的易感性的方法,所述方法包括:获得 关于人个体的序列数据,并且鉴定至少一个多态型标志的至少一个等位 基因,其中所述至少一个多态型标志的不同等位基因与人中对所述病 症的不同易感性关联,和根据序列数据测定对所述病症的易感性,其 中所述至少一个多态型标志选自rs7193343、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志。

核酸序列数据可以例如通过分析个体的生物样品中的所述至少一个 多态型标志的序列来获得。可选地,可在人个体的基因型数据集中获得 核酸序列数据并且分析数据集中至少一个多态型标志的序列。此类分析 在某些实施方案中包括确定特定多态型标志的特定等位基因的存在或不 存在。

在某些实施方案中,所述方法包括体外获得序列数据。这意味着序 列数据可通过体外方法获得。例如,所述方法可包括从个体的样品获得 序列数据,或所述方法可包括从数据集或关于个体的其他既存记录获得 序列数据。在一个实施方案中,所述方法包括从个体的样品或从关于个 体的既存记录获得序列数据。在一个实施方案中,所述既存记录是序列 数据集。在另一个实施方案中,所述既存记录是基因型数据集。

在本发明的某些实施方案中,所述至少一个多态型标志选自 rs1531202、rs2124786、rs7690053、rs17686902、rs2168580、rs2881736、 rs17636187、rs2347824、rs17636490、rs4035252、rs12501809、 rs4560443、rs11131484、rs17688509、rs6852697、rs17637486、 rs1316996、rs1375470、rs10027594、rs1349182、rs6551792、rs1449196、 rs2881806、rs2053844、rs17084483、rs1449187、rs10028878、 rs1579965、rs17697026、rs11728458、rs10519674、rs7164994、 rs16954910、rs8040523、rs7723988、rs11739151、rs6556151、 rs4242182、rs2381939、rs14459、rs4868444、rs10057011、rs7733337、 rs12995889、rs10497971、rs6734836、rs10186681、rs1394781、 rs13019524、rs4627509、rs12105481、rs1394796、rs4673664、 rs6757140、rs7569142、rs1505367、rs1394791、rs1505376、rs2062930、 rs1505371、rs17259208、rs1505370、rs2170529、rs10168850、 rs17325821、rs17325842、rs10497975、rs6735807、rs6892188、 rs2407066、rs1986932、rs17248426、rs1604827、rs6866140、rs702604、 rs2407068、rs271247、rs7729734、rs3776742、rs7713737、rs10077199、 rs8091729、rs9946582、rs9319738、rs8083791、rs12455127、 rs17832178、rs11874708、rs10516002、rs12957615、rs1046789、 rs16983293、rs6010770、rs2982506、rs2982508、rs2982510、rs2935888、 rs2294752、rs7591835、rs6759758、rs10490066、rs11125830、 rs16971447、rs16971471、rs7193343、rs719353、rs719354、rs2106261、 rs1548374、rs879324、rs8057081、rs12932445、rs9940321、rs340263、 rs391398、rs340234、rs340233、rs340229、rs340261、rs340293、 rs340241、rs4679844、rs7618072、rs9855092和rs1501293。

在某些实施方案中,与rs7193343处于连锁不平衡中的标志选自 rs16971447、rs16971471、rs719353、rs719354、rs2106261、rs1548374、 rs879324、rs8057081、rs12932445和rs9940321。在某些实施方案中, 与rs7618072处于连锁不平衡中的标志选自rs7618072、rs340263、 rs391398、rs340234、rs340233、rs340229、rs340261、rs340293、 rs340241、rs4679844、rs9855092和rs1501293。在某些实施方案中, 与rs4560443处于连锁不平衡中的标志选自rs1531202、rs2124786、 rs7690053、rs17686902、rs2168580、rs2881736、rs17636187、 rs2347824、rs17636490、rs4035252、rs12501809、rs4560443、 rs11131484、rs17688509、rs6852697、rs17637486、rs1316996、 rs1375470、rs10027594、rs1349182、rs6551792、rs1449196、rs2881806、 rs2053844、rs17084483、rs1449187、rs10028878、rs1579965、 rs17697026和rs11728458。在某些实施方案中,与rs10519674处于连 锁不平衡中的标志选自rs10519674、rs7164994、rs16954910和 rs8040523。在某些实施方案中,与rs7733337处于连锁不平衡中的标 志选自rs7723988、rs11739151、rs6556151、rs4242182、rs2381939、 rs14459、rs4868444、rs10057011和rs7733337。某些实施方案中,与 rs1394796处于连锁不平衡中的标志选自rs12995889、rs10497971、 rs6734836、rs10186681、rs1394781、rs13019524、rs4627509、 rs12105481、rs1394796、rs4673664、rs6757140、rs7569142、rs1505367、 rs1394791、rs1505376、rs2062930、rs1505371、rs17259208、rs1505370、 rs2170529、rs10168850、rs17325821、rs17325842、rs10497975和 rs6735807。某些实施方案中,与rs10077199处于连锁不平衡中的标志 选自rs6892188、rs2407066、rs1986932、rs17248426、rs1604827、 rs6866140、rs702604、rs2407068、rs271247、rs7729734、rs3776742、 rs7713737和rs10077199。某些实施方案中,与rs10516002处于连锁 不平衡中的标志选自rs8091729、rs9946582、rs9319738、rs8083791、 rs12455127、rs17832178、rs11874708、rs10516002和rs12957615。 某些实施方案中,与rs6010770处于连锁不平衡中的标志选自 rs1046789、rs16983293和rs6010770。某些实施方案中,与rs2935888 处于连锁不平衡中的标志选自rs2982506、rs2982508、rs2982510、 rs2935888和rs2294752。某些实施方案中,与rs10490066处于连锁不 平衡中的标志选自rs7591835、rs6759758、rs10490066和rs11125830。

在优选实施方案中,用于本发明的方法的标志选自rs7193343、 rs10077199、rs10490066、rs10516002、rs10519674、rs1394796、 rs2935888、rs4560443、rs6010770和rs7733337。在一个在优选实施方 案中,所述标志为rs7193343。在另一个在优选实施方案中,所述标志 为rs7618072。

携带选自rs7193343的T等位基因、rs7618072的T等位基因、 rs10077199的T等位基因、rs10490066的A等位基因,rs10516002的A 等位基因、rs10519674的G等位基因、rs1394796的C等位基因、 rs2935888的T等位基因、rs4560443的T等位基因、rs6010770的G等 位基因和rs7733337的T等位基因的至少一个等位基因的标志等位基因 的至少一个拷贝的个体在某些实施方案中处于增加的对所述病症的易感 性。

所述风险在某些实施方案中的特征在于由风险变体(有风险的等位 基因)赋予的相对风险(RR)的特定值。在某些实施方案中,风险的特 征在于至少1.10、至少1.11、至少1.12、至少1.13、至少1.14、至少 1.15、至少1.16、至少1.17、至少1.18、至少1.19或至少1.20的相 对风险值。

在它们的基因组中携带有危险的变体的两个拷贝的纯合子个体处于 特别高的患所述病症的风险中。因此,某些实施方案涉及易感性的确定, 其中携带针对所述病症的有危险的变体的两个拷贝的个体处于特别高的 患所述病症的风险中。

在本发明的某些实施方案中,所述序列数据是氨基酸序列数据。多 态型标志可导致编码的多肽或蛋白质序列的氨基酸序列的改变。在某些 实施方案中,氨基酸序列数据的分析包括确定氨基酸置换在由所述至少 一个多态型标志编码的氨基酸中的存在或不存在。序列数据可在某些实 施方案中通过分析获自个体的生物样品中由所述至少一个多态型标志编 码的氨基酸序列来获得。

通常,可通过分析个体的样品,或通过分析基因型数据库中关于特 定标志的信息来获得序列数据。在某些实施方案中,可通过来自既存记 录的核酸序列信息或氨基酸序列信息获得序列数据。这样的既存记录可 以是包含这样的信息的任何文件、数据库或数据存储的其他形式。

个体对特定病症的易感性或风险的确定通常包括基因型信息(序列 信息)与记录(例如,数据集)或数据库的比较,所述数据库提供关于 特定多态型标志与对特定病症的易感性的关联。因此,在具体的实施方 案中,确定易感性包括将个体的序列数据与包含至少一个多态型标志与 对所述病症的易感性之间的关联数据的数据库相比较。在某些实施方案 中,所述数据库包括针对至少一个多态型标志的至少一个对所述病症的 易感性的测量。在某些实施方案中,所述数据库包括查找表,其包括针 对至少一个多态型标志的至少一个对所述病症的易感性的测量。易感性 的测量可以例如以相对风险度(RR)、绝对风险度(AR)、百分数(%) 或其他方便的测量的形式来描述个体的遗传易感性。

本发明的某些实施方案涉及位于如本文中定义LD区段C16内的标 志。因此,在某些实施方案中,获得关于LD区段C16内的至少一个标志 的序列数据。在某些实施方案中,标志rs7193343的替代标志位于LD区 段C16内,如SEQ ID NO:1中所示的。然而还预期替代标志可位于如用 物理术语定义的LD区段C16(即,根据基因组定位;SEQ ID NO:1)的 外部。因此,本发明的其他实施方案不限定于位于如所定义的LD区段 C16的物理边界内的标志,但因与LD区段C16内的至少一个标志(例如, rs7193343)处于LD中而为有用的替代标志。

本发明的另一个方面涉及用于确定人个体的对选自心律失常(选自 心房颤动和心房扑动)和中风的病症的易感性的方法,所述方法包括确 定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中 或在来自个体的基因型数据集中的存在或不存在,其中所述至少一个多 态型标志选自rs7193343、rs7618072、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志,并且其中所述至少一 个等位基因的存在的确定标示着对所述病症的易感性。与所述病症关联 的等位基因的存在的确定标示着增加的对所述病症的易感性。对于此类 等位基因是纯合的个体对所述病症特别易感。在另一方面,不携带此类 有风险的等位基因的个体处于减少的发生所述病症的易感性中。对于 SNP,此类个体对于所述多态型的可替代的(保护性)等位基因是纯合 的。

在一些实施方案中使用多态型标志的有风险的等位基因的非携带者 报告易感性的确定。在某些实施方案中,基于与一般群体的比较,例如 与来自群体的个体的随机选择比较报告易感性。

在某些实施方案中,通过测序技术检测多态型标志。获得关于个体 的序列信息鉴定了基因组即核苷酸序列背景中的特定位置的特定核苷 酸。对于SNP,关于单个独特序列位点(单核苷酸位置)的序列信息足 以鉴定该特定SNP上的等位基因。对于包含超过一个的核苷酸的标志, 关于含有多态型位点的个体的基因组区域的序列信息鉴定了个体的针对 该特定位点的等位基因。可从个体的样品获得序列信息。在某些实施方 案中,样品是核酸样品。在某些其它实施方案中,样品是蛋白质样品。

用于获得核酸序列的各种方法是本领域技术人员已知的,并且所有 此类方法对于实施本发明是有用的。桑格测序是用于产生核酸序列信息 的熟知方法。已开发了用于获得大量序列数据的新近方法,并且也预期 此类方法对于获得序列信息是有用的。此类方法包括焦磷酸测序技术 (Ronaghi,M.等人Anal Biochem 267:65-71(1999);Ronaghi,等人 Biotechniques 25:876-878(1998)),例如454焦磷酸测序(Nyren, P.,等人Anal Biochem 208:171-175(1993))、Illumina/Solexa测序 技术(http://www.illumina.com;也参见Strausberg,RL,等人Drug Disc  Today 13:569-577(2008))和支持的寡核苷酸连接和检测平台 (Supported Oligonucleotide Ligation and Detection Platform) (SOLiD)技术(Applied Biosystems,http://www.appliedbiosystems. com);Strausberg,RL,等人Drug Disc Today 13:569-577(2008)。

归纳或预测已知基因型的个体的未基因分型的亲属的基因型是可 能的。对于每一个未基因分型的案例,考虑到其4个可能的分枝基因型 (phased genotype),计算其亲属基因型的概率是可能的。实践中, 可有利地只包括案例的双亲、子女、兄弟姐妹、同父异母或同母异父兄 弟姐妹(和同父异母或同母异父兄弟姐妹的双亲)、祖父母、孙子女(和 孙子女的双亲)和配偶的基因型。假定围绕各案例产生的小型亚家谱 (sub-pedigree)中的个体不与不包括在该家谱中的任何分支具有亲缘 关系。还假定未传递至案例的等位基因具有相同的频率-群体等位基因 频率。因此可利用下述公式计算该案例的亲属基因型的概率:

其中θ表示案例中A等位基因的频率。假定每组亲属的基因型是不 相关的,那么这允许我们写下θ的似然函数:

该不相关性假定通常是不正确的。解释个体之间的相关性是困难且 潜在地过分昂贵的计算任务。(*)中的似然函数可被看作是正确解释所 有相关性的θ的完全似然函数的伪似然近似值。一般地,案例-对照关 联研究中已基因分型的案例和对照并非是不相关的并且将案例-对照法 用于有亲缘关系的案例和对照是类似逼近的。已证明基因组控制的方法 (Devlin,B.等人,Nat Genet 36,1129-30;作者回复(author reply) 1131(2004))就亲缘关系调整案例-对照检验统计是成功的。因此我们 将基因组控制法用于解释我们的伪似然中的项之间的相关性和产生有 效的检验统计。

可使用Fisher信息来评估由于未基因分型的案例而产生的伪似然 的部分的有效样本容量。将总Fisher信息I分成归因于已基因分型的案 例的部分Ig和归因于未知基因型的案例的部分Iu,I=Ig+Iu、并且用 N表示已基因分型的案例的数量,归因于未知基因型的案例的有效样本 容量评估为

在本说明书中,处于增加的对特定病症的易感性(即,增加的风 险度)中的个体是其中一个或多个赋予增加的所述病症的易感性(增 加的风险度)的多态型标志或单倍型(即,有风险的标志等位基因或 单倍型)上的至少一个特定的等位基因被鉴定的个体。有风险的标志 或单倍型是赋予增加的患所述病症的风险(增加的易感性)的标志或 单倍型。在一个实施方案中,利用相对风险度(RR)测量与标志或单 倍型相关的显著性。在另一个实施方案中,利用比值比(OR)测量与 标志或单倍型相关的显著性。在另外的实施方案中,用百分数测量显 著性。在一个实施方案中,显著增加的风险度测量为至少1.05的风险 度(相对风险度和/或比值比),包括但不限于:至少1.10、至少1.11、 至少1.12、至少1.13、至少1.14、至少1.15、至少1.16、至少1.17、 至少1.18、至少1.19、至少1.20、至少1.30、至少1.40、至少1.50、 至少1.60、至少1.70、至少1.80、至少1.90和至少2.0。在具体的实 施方案中,至少1.08的风险度(相对风险度和/或比值比)是显著的。 在另一个具体的实施方案中,至少1.13的风险度是显著的。在另外的 实施方案中,至少1.19的风险度是显著的。还预期有其它截断值,例 如,至少1.15、1.25、1.35等,并且此类截断值也在本发明的范围内。 在其它实施方案中,风险度的显著增加是至少约5%,包括但不限于 约6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、 19%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、 80%、85%、90%、95%和至少100%。在一个特定的实施方案中,风险度 的显著增加是至少10%。在另一个特定的实施方案中,风险的显著增 加为至少12%。在另一个特定的实施方案中,风险的显著增加为至少 15%。然而还涉及被本领域技术人员认为适合于表征本发明的其它截断 值或范围,并且此类截断值或范围也在本发明的范围内。在某些实施方 案中,风险度的显著增加用p值例如少于0.05,小于0.01,小于0.001, 小于0.0001,小于0.00001,小于0.000001,小于0.0000001,小于 0.00000001或小于0.000000001的p值来表征。

在某些实施方案中,测定对于特定变体是纯合的个体的风险度是有 用的。例如,有风险的变体的纯合携带者的个体处于发生特定病症的特 别高的风险中。此类个体在其基因组中携带所述有风险的变体的两个拷 贝,并且因为各等位基因的效应通常是独立的,因此具有有风险的变体 的两个拷贝的效应导致为变体的一个拷贝的风险的平方的总体风险。

本文中描述的有风险的多态型标志或单倍型是这样的标志或单 倍型,其中至少一个标志或单倍型的至少一个等位基因与其在比较组 (对照)中存在的频率相比较,更频繁地存在于处于发生选自心律失 常(选自心房颤动和心房扑动)和中风(患病的)的风险中或者经诊断 患有所述病症的个体中,因此所述标志或单倍型的存在标示着对病症 的易感性。在一个实施方案中对照组可以是群体样品,即来自一般群 体的随机样品。在另一个实施方案中,对照组由一组无疾病的个体代 表。在一个实施方案中这样的无疾病对照的特征在于特定病症的一个 或多个特定疾病相关症状的不存在。可选择地,无疾病对照是未曾被 诊断患有所述病症的对照。在另一个实施方案中,无疾病的对照组特 征在于所述病症的一个或多个风险因素的不存在。此类风险因素在一 个实施方案中是至少一个环境风险因素。在某些实施方案中,风险因 素包括所述病症的至少一个另外的遗传风险因素,例如,心房颤动、 心房扑动和/或中风的风险因素。

相关性的简单检验的实例可以是基于two-by-two表的Fisher 精确检验。给定一列染色体,two-by-two表由两条都具有标志或单倍 型的染色体、一条具有标志或单倍型但另一条不具有的染色体和两条 都不具有标志或单倍型的染色体的数量构成。本领域技术人员已知的 其它关联性统计检验也被涉及并且也在本发明的范围之内。

在本发明的其它实施方案中,处于减少的对病症的易感性(即, 处于减少的风险度中)中的个体是在其中鉴定了赋予减少的对于病症 的易感性的一个或多个多态型标志或单倍型上的至少一个特定等位基 因的个体。赋予减少的风险度的标志等位基因和/或单倍型也被认为是 保护性的。一方面,保护性标志或单倍型是赋予对病症显著减少的风 险度(或易感性)的标志或单倍型。在一个实施方案中,显著减少的 风险度被测量为小于0.95包括但不限于小于0.9,小于0.8,小于0.7, 小于0.6,小于0.5,小于0.4,小于0.3,小于0.2和小于0.1的相 对风险度(或比值比)。在一个特定的实施方案中,显著减少的风险 度小于0.90。在另一个实施方案中,显著减少的风险度小于0.85。在 另一个实施方案中,显著减少的风险度小于0.80。在另一个实施方案 中,风险度(或易感性)的减少为至少10%,包括但不限于至少11%、 至少12%、至少13%、至少14%、至少15%、至少16%、至少17%、至少 18%、至少19%、至少20%、至少25%、至少30%、至少35%、至少40%、 至少45%和至少50%。在一个特定的实施方案中,风险度的显著减少为 至少约10%。在另一个实施方案中,风险度的显著减少为至少约15%。 在另一个实施方案中,风险度的显著减少为至少约20%。然而还涉及 被本领域技术人员认为适合表征本发明的其它截断值或范围,这些截 断值或范围也在本发明的范围内。

本领域技术人员将理解,具有两个等位基因的标志(例如SNP) 存在于被研究的群体中,并且其中与对照相比较,发现一个等位基因 以增加的频率存在于一群具有特定病症(例如,心房颤动、心房扑动、 中风)的个体中,与对照相比较,将发现标志的另一个等位基因以减 少的频率存在于这群个体中。在这样的情况下,标志的一个等位基因 (以增加的频率在具有所述病症的个体中发现的等位基因)将是有风 险的等位基因,而另一个等位基因则是保护性等位基因。

与疾病或性状关联的遗传变型可单独地用于预测给定的基因型 发生疾病的风险度。对于双等位基因标志例如SNP,存在3种可能的 基因型:有风险的变体的纯合子、杂合子和不携带风险变体的基因型。 与多个基因座上的变体关联的风险度可用于评估总体风险度。对于多 个SNP变体,存在k个可能的基因型k=3n×2p;其中n是常染色体 基因座的数目,p为性染色体(gonosomal)基因座的数目。多个风险 变体的总风险度评估计算通常假定不同遗传变型的相对风险度相乘, 即与特定基因型组合关联的总风险度(例如,RR或OR)是各基因座上 的基因型的风险值的积。如果提供的风险度是与具有匹配的性别和种 族的参照群体相比较的人或人的特定基因型的相对风险度,那么组合 风险度-是基因座特异性风险度值的积-并且其还相应于与群体相比较 的总风险度评估。如果人的风险度基于与风险等位基因非携带者的比 较,那么组合风险度相应于将在全部基因座上具有给定的基因型组合 的人与一群在任意此类基因座上不携带风险变体的个体相比较的评 估。任何风险变体的非携带者的组具有最低评估的风险度和具有与其 本身(即,非携带者)相比较为1.0的组合风险度,但具有与所述群体 相比较小于1.0的总风险度。应当指出,非携带者的群体可以是潜在 的非常小的群体,特别是对于大量基因座,在该情况下,其关联性相 应地很小。

乘法模型是通常非常合理地拟合复杂性状的数据的简约模型 (parsimonious model)。在针对常见疾病的常见变体的背景中一直 以来很少描述多样性差异(deviations from multiplicity),如果 有报导,通常只是提示性的,因为通常需要非常大的样本容量才能证 明基因座之间的统计关联性。

例如,让我们考虑总共11个在本文中被描述为与心房颤动、心房 扑动和/或中风的风险关联的变体(rs7193343、rs7618072、rs10077199、 rs10490066、rs10516002、rs10519674、rs1394796、rs2935888、 rs4560443、rs6010770和rs7733337)。所有这些标志在常染色体上。 那么理论基因型组合的总数为311=177147。作为另一个实例,我们可 考虑标志rs7193343(本文中描述的)、rs2200733和rs10033464 (Gudbjartsson,DF,等人.Nature 448:353-7(2007))。对于这3个 变体(全都在常染色体上),理论基因型组合的总数为33=27。所述 理论基因型种类中的一些种类非常罕见,但仍然是可能的,并且应当 考虑用于总风险度评估。可能的是,应用于多遗传变型的情况的乘法 模型也适用于结合非遗传性风险变体的情况,假定所述遗传变型与“环 境”因素不是明确相关的。换句话说,假定非遗传性与遗传性风险因 素不相互作用,可在乘法模型中评估遗传性和非遗传性有风险的变体 来评估组合风险度。

对于本领域技术人员很显然的是,可评估本文中描述的标志之任 一或其组合以进行总体风险评估。还可将变体与赋予心房颤动/心房扑 动和/或中风的风险的任何其他遗传标志(例如rs2200733和rs10033464) 组合。因此,在一个实施方案中,评估标志rs7193343或与其处于连锁 不平衡中的标志与标志rs2200733和/或标志rs10033464的组合。可选 地,可评估与此类标志处于连锁不平衡中的标志的组合。

本发明的程序或方法在一个实施方案中必需至少一个多态型标志或 单倍型,所述多态型标志或单倍型包含如本文中定义的LD区段C16的连 续核酸片段或其互补片断,其中所述片段在长度上短于500个核苷酸并 且与LD区段C16的互补区段特异性杂交。在一个实施方案中,所述片段 在大小上超过15个核苷酸并且少于400个核苷酸,并且其中所述片段与 LD区段C16的互补区段特异性杂交。

本发明的一些实施方案涉及评估针对心房颤动、心房扑动或中风的 至少一个另外的生物标志的其他步骤,其中组合所述标志的遗传信息提 供了心房颤动、心房扑动和/或中风的风险评估。在此类实施方案的一 些实施方案中,所述生物标志是遗传标志或单倍型,即显示为或预期为 与增加的或减少的患心房颤动、心房扑动和/或中风的风险关联的遗传 风险因子。在其他实施方案中,所述生物标志是蛋白质生物标志。所述 蛋白质生物标志在一些实施方案中选自血纤蛋白D-二聚体、凝血酶原激 活片段1.2(F1.2)、凝血酶-抗凝血酶III复合物(TAT)、纤维蛋白肽 A(FPA)、脂蛋白-结合的磷脂酶A2(lp-PLA2)、β-血小板球蛋白、血小 板因子4、P-选择蛋白、von Willebrand因子、促尿钠排泄肽(BNP)、 基质金属蛋白酶-9(MMP-9)、PARK7、二磷酸核苷激酶(NDKA)、tau、神 经元特异烯醇化酶、B-型神经营养生长因子、星形胶质细胞蛋白S-100b、 神经胶质原纤维酸性蛋白质、C反应蛋白、血清淀粉样蛋白A、基质金 属蛋白酶-9、血管和细胞内细胞粘附分子(vascular and intracellular  cell adhesion molecules)、肿瘤坏死因子α和白细胞介素,包括白 细胞介素-1、-6和-8)。在一个实施方案中,所述至少一个生物标志包 括祖细胞。在具体的实施方案中,确定超过一个的生物标志。在优选实 施方案中,测量个体的血浆中的生物标志。其他实施方案还涉及组合非 遗传信息以进行个体的心心颤动和/或中风的风险评估、诊断和/或预 后。所述非遗传信息可包括年龄、发病时的年龄、性别、种族、以前的 疾病诊断例如心律失常(例如,心房颤动)和中风的诊断、个体的医疗史、 疾病的家族史、生物化学测量和临床测量(例如,血压、血清脂质水平)。 利用本领域内技术人员已知的方法分析来自不同遗传标志或遗传标志 加非遗传标志的此类组合信息是可能的。在一个实施方案中,利用逻辑 回归进行分析来计算总体风险。

本发明还涉及诊断人个体的增加的对中风的易感性的方法,包括步 骤:(a)确定所述个体是否已经历与选自心房颤动、心房扑动或短暂性 脑缺血发作的病症相关的症状;(b)确定个体的核酸样品或个体的基因 型数据集是否包含选自rs7193343、rs7618072、rs10077199、 rs10490066、rs10516002、rs10519674、rs1394796、rs2935888、 rs4560443、rs6010770和rs7733337以及与其处于连锁不平衡中的标志 的至少一个多态型标志的有风险的等位基因的至少一个拷贝;其中与所 述病症相关的症状的存在和所述有风险的等位基因的所述至少一个拷 贝的存在标示着增加的对中风的易感性。在一个优选实施方案中,所述 至少一个多态型标志选自rs7193343和与其处于连锁不平衡中的标志。

风险度的评估和诊断

在任何给定的群体中,存在发生疾病或性状的绝对风险度(定义 为个人在指定的时期内发生特定疾病或性状的概率)。例如,妇女患 乳腺癌的终生绝对风险度为1/9。即,每9个妇女中有1个妇女将在 其生命中的某个点上发生乳腺癌。通常通过观察非常大量的人而非观 察特定个体来测量风险度。风险度通常以绝对风险度(AR)和相对风险 度(RR)表示。相对风险度用于比较与两个变体相关的风险度或两个不 同组的人的风险度。例如,其可用于将一组具有特定基因型的人与另 一组具有不同基因型的人相比较。对于疾病,为2的相对风险度表示 一个组与另一个组相比较具有2倍的发生疾病的概率。所示的风险度 通常是与具有匹配的性别和种族的群体相比较的针对人或人的特定基 因型的相对风险度。可以简单的方式比较相同性别和种族的2个个体 的风险度。例如,如果,与群体相比较,第一个体具有1.5的相对风 险度并且第二个体具有0.5的相对风险度,那么,与第二个体相比较 第一个体的风险是1.5/0.5=3。计算总体遗传风险度的模型的建立 包括两个步骤:i)将单个遗传变型的比值比转换成相对风险度和ii) 将来自不同基因座中的多个变体的风险度组合入来自比值比的单个相 对风险度值。迄今为止已在权威杂志中发表的关于复杂疾病的大多数 基因发现研究因其回顾性设置(retrospective setup)而采用病例- 对照设计。这些研究获取了经选择的病例(具有特定疾病状况的人) 和对照组的个体的样品并且进行了基因分型。兴趣在于病例和对照中 的频率显著不同的遗传变型(等位基因)。

结果通常报告为比值比,其为在患病组中的风险变体(携带者) 比非风险变体(非携带者)的分数(概率)与对照组中的所述分数之 间的比率,即以患病状况的条件概率表示:

OR=(Pr(c|A)/Pr(nc|A))/(Pr(c|C)/Pr(nc|C))

然而,有时我们的兴趣在于疾病的绝对风险度,即携带风险变体 的那些患病个体的分数或换句话说患病的概率。该数量不能在病例- 对照研究中直接测量,部分因为病例比对照的比率通常与一般群体中 的该比率不同。然而,在某些假定下,我们可评估来自比值比的风险 度。

众所周知在罕见疾病的假定下,患疾病的相对风险度可用比值比 来概略估算。然而该假定可能不适用于许多常见病。结果仍然可从上 文表达的比值比评估一个基因型变体相对于另一个的风险度。在其中 对照是来自与病例相同的群体(包括患病的人而非严格未患病的个体) 的随机样品的随机群体对照的假定下,计算特别简单。为了增加样本 容量和功效,许多大型全基因组关联和重复研究使用对照,所述对照 既不与病例年龄匹配,也未对他们进行细致检查以确保他们在研究的 时候不具有疾病。因此,虽然不很确切,但他们通常接近来自一般群 体的随机样品。要指出的是,极少预期该假定得到完全满足,但风险 度评估通常强有力地缓和源自该假定的偏差。

计算显示对于显性和隐性模型(其中我们将风险变体携带者表示 为“c”以及将非携带者表示为“nc”),个体的比值比与这些变体之 间的风险度比率相等:

OR=Pr(A|c)/Pr(A|nc)=r

同样地对于乘法模型,其中风险度是与两个等位基因的拷贝关联 的风险度的乘积,等位基因的比值比等于风险度因子:

OR=Pr(A|aa)/Pr(A|ab)=Pr(A|ab)/Pr(A|bb)=r

此处“a”表示风险性等位基因,“b”表示非风险性等位基因。 因此因子“r”是等位基因类型之间的相对风险度。

在过去几年中公布了报导与复杂疾病关联的常见变体的许多研 究,发现乘法模型充分地总结了所述效应并且通常提供优于备选模型 例如显性和隐性模型的与数据的拟合。

相对于平均群体风险度的风险度。最方便的是提供相对于平均群 体的遗传变型的风险度,因为其使得与基线群体风险度相比,更容易 表达发生疾病的终生风险。例如,在乘法模型中,我们可将变体“aa” 的相对群体风险度计算为:

RR(aa)=Pr(A|aa)/Pr(A)=(Pr(A|aa)/Pr(A|bb))/(Pr(A) /Pr(A|bb))=r2/(Pr(aa)r2+Pr(ab)r+Pr(bb))=r2/(p2r2+2pq r+q2)=r2/R

此处“p”和“q”分别是“a”和“b”的等位基因频率。同样 地,我们得出RR(ab)=r/R和RR(bb)=1/R。可从报导比值比的出 版物和从HapMap数据库获得等位基因的频率估值。请注意,在其中我 们不知道个体的基因型的情况下,该检验或标志的相对遗传风险度简 单地等于1。

例如,对于心房颤动,疾病的关联标志rs7193343的等位基因T 在白种人人群中具有为1.22的等位基因OR和约0.2的频率(p)(表1)。 基于乘法模型评估与基因型CC(rs7193343的可替代等位基因的纯合 子)相比较的基因型相对风险度。

对于TT,其为1.22×1.22=1.49;对于CT,其简单地为OR 1.22, 以及对于CC,根据定义其为1.0。

等位基因C的频率为q=1-p=1-0.2=0.8。在该标志上3个 可能的基因型中的每一个的群体频率为:

Pr(TT)=p2=0.04,Pr(CT)=2pq=0.32,和Pr(CC)=q2=0.64

相对于基因型CC(其经定义具有为1的风险度)的平均群体风险 度为:

R=0.04×1.49+0.32×1.22+0.64×1=1.09

因此,针对在该标志上具有一个下列基因型的个体的相对于一般 群体的风险度(RR)为:

RR(TT)=1.49/1.09=1.37,RR(CT)=1.22/1.09=1.12,RR(TT) =1/1.09=0.92。

组合多个标志的风险度。除非另外指出,当将许多SNP变体的基因 型用于评估个体的风险度时,可采用用于风险度的乘法模型。这意味着 将相对于群体的组合遗传风险度计算为个体标志(例如两个标志g1和 g2)的相应估值的乘积:

RR(g1,g2)=RR(g1)RR(g2)

基本假设是风险因子独立地存在和表现,即联合条件概率可表示 为乘积:

Pr(A|g1,g2)=Pr(A|g1)Pr(A|g2)/Pr(A)和Pr(g1,g2)= Pr(g1)Pr(g2)

对该假定的明显违背是在基因组上紧密间隔的标志,即处于连锁 不平衡之中,从而使两个或更多个风险等位基因的共发生是相关的。 在这样的情况下,我们可使用所谓的单倍型模型,其中比值比是为相 关SNP的所有等位基因组合定义的。

如在大多数其中使用统计模型的情况中一样,应用的模型不预期 是完全真实的,因为其不基于基础生物物理学模型。然而,乘法模型 至目前为止经发现充分地拟合数据,即对于许多已针对其发现许多风 险变体的常见疾病未检测到显著的偏差。

例如,让我们考虑与特定性状或疾病关联的8个标志以及在各标 志上相对于群体的风险度的情况:

标志1 TT计算的风险:RR(TT)=1.37

标志2 CT计算的风险:RR(CC)=1.56

标志3 AC计算的风险:RR(AC)=1.39

标志4 GT计算的风险:RR(GT)=0.99

标志5 AA计算的风险:RR(AA)=1.19

标志6 GG计算的风险:RR(GG)=1.21

标志7 GG计算的风险:RR(GG)=0.82

标志8 AA计算的风险:RR(AA)=1.14

综上,具有上述基因型组合的该个体的相对于群体的组合总体风 险度为:1.25x 0.96x 1.39x 0.99x 1.19x 1.21x 0.82x 1.14= 2.22。

我们可以以类似的方式组合标志的任何组合的风险。例如,对于本 文中描述的标志(例如,rs7193343、rs7618072、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337或替代标志)的任何组合,我们可以以相似的方式确定总体 风险度。我们还可以确定此类标志与描述的与心房颤动、心房扑动和/ 或中风关联的其他标志例如染色体4q25上的标志rs2200733和 rs100334464的任何一个或其组合的总体风险度。可获得此类标志的任 何组合或与患前列腺癌的风险关联的其他标志例如上文中所列的8个标 志的组合的计算的组合风险。

心房颤动、心房扑动和中风的风险度评估

如本文中所描述的,发现某些多态型标志和含有此类标志的单倍 型对于心房颤动、心房扑动和/或中风的风险评估是有用的。风险评估 可包括此类标志的任一个或多个的用途。发现某些多态型标志(例如, SNP)的特定等位基因的频率在患有心房颤动、心房扑动和/或中风的 个体中比在不具有此类病症的诊断的个体中更高。因此,这些标志的 等位基因对于检测个体的对心房颤动、心房扑动和/或中风的易感性具 有预测价值。与本文中描述的有风险的变体(或保护性变体)处于连 锁不平衡中的标签标志还可用作此类标志(和/或单倍型)的替代物。 此类替代标志可位于特定单倍型区段或LD区段(例如,LD区段C16) 中。此类替代标志有时还可位于此类单倍型区段或LD区段的物理边界 的外部,在LD区段/单倍型区段的附近,但可能也位于更远的基因组 位置。

如果特定的基因组区域(例如,基因)处于功能关系中,那么长 距离LD可以例如发生。例如,如果两个基因编码在共有代谢途径中起 作用的蛋白质,那么一个基因中的特定变体可对针对另一个基因观察 到的变体具有直接影响。让我们考虑其中一个基因的变体导致基因产 物的增加的表达的情况。为了抵消该效应和保持特定途径的总通量 (flux),该变体可能已导致第二基因上的一个(或多个)赋予该基 因降低的表达水平的变体的选择。这两个基因可位于不同的基因组位 置,可能在不同的染色体上,但基因内的变体处于明显的LD中,并非 因为它们的共有物理位置在高LD的区域中,而是由于进化动力的原 因。此类LD也被涉及并且在本发明的范围内。本领域技术人员将理解 功能性基因-基因相互作用的许多其它场景也是可能的,并且此处论述 的特定实例只代表一个这样的可能场景。

与显示与疾病(例如心房颤动、心房扑动或中风)关联的任何标志处 于连锁不平衡中的标志必然也与所述疾病关联。因此,表5中所示的 rs7193343的替代标志必定也与心房颤动、心房扑动和中风关联。该事 实对于本领域技术人员来说是显而易见的,所述技术人员从而知道可适 当地选择替代标志来测试就任何特定锚定标志确定的关联性。替代标志 与锚定标志的连锁不平衡越强,则替代标志越好,从而通过替代标志检 测的关联性与通过锚定标志检测的关联性更相似。针对锚定标志(风险 标志)具有等于1的r2的值的替代物是有风险的变体的完美替代物, 即一个标志的基因型完全预测另一个标志的基因型。换句话说,所述 替代物必然给任何特定疾病提供与所述锚定标志正好相同的关联性数 据。具有小于1的r2的值的标志也可以被选择作为有风险的变体的替 代物。具有小于1的r2的值的替代标志可以是具有比对于锚定标志的 更小的风险值的变体。可选择地,此类替代标志可代表具有与有风险的 变体一样高或可能甚至更高的相对风险度的变体。在该情况下,鉴定 的有风险的变体可以不是功能性变体本身,但在该情况下与真正的功 能性变体处于连锁不平衡中。功能性变体可以例如是串联重复,例如 小卫星或微卫星、转位因子(例如,Alu元件)或结构变化例如缺失、 插入或倒位(有时也称为拷贝数变异或CNV)。本发明包括对本文中 公开的标志的此类替代标志的评估。如技术人员所熟知的,在公共数 据中注释、绘制和列出此类标志,或者此类标志可以另选地通过在一 组个体中测序由本发明的标志鉴定的区域或部分区域并鉴定所得的序 列组中的多态型而容易地鉴定。结果,本领域技术人员可容易地并且 在无需过度实验的情况下鉴定与本文中描述的标志和/或单倍型处于 连锁不平衡中的替代标志和对其进行基因分型。被检测到的有风险的 变体的处于LD中的标签或替代标志对于检测个体中与疾病或对疾病 的易感性的关联性还具有预测价值。与本发明的标志处于LD中的这些 标签或替代标志还可包括在单倍型间不同的其它标志,因为此类标志 类似地对于检测对特定疾病的易感性具有预测价值。在一个实施方案 中,所述替代标志针对锚定标志具有大于0.8的r2的值。在另一个实施 方案中,所述替代标志针对锚定标志具有大于0.5的r2的值。在另一个 实施方案中,所述替代标志针对锚定标志具有大于0.2的r2的值。r2的 其他值也可适合用于选择替代标志,当本领域技术人员认为适合的话。

在某些实施方案中,本发明可以通过评估包含个体的基因组DNA 的样品来实施本发明。此类评估通常包括步骤:使用本领域技术人员 熟知的和本文中进一步描述的方法检测至少一个多态型标志上的至少 一个等位基因是否存在(例如,获得关于至少一个多态型标志的序列 信息),和基于此类评估的结果确定样品所源自的个体是处于增加的 还是减少的患心房颤动、心房扑动和/或中风的风险(增加或减少的易 感性)中。在某些实施方案中,可通过获取特定人个体的鉴定至少一 个多态型标志的至少一个等位基因的核酸序列数据来进行多态型标志 的特定等位基因的检测。至少一个标志的不同等位基因与人对疾病的 不同易感性相关联。获取核酸序列数据可包括单个核苷酸位置上的核 酸序列,所述核酸序列足以鉴定SNP上的等位基因。核酸序列数据还 可包括任何其它数量的核苷酸位置上的序列,特别是包含多个核苷酸 位置的遗传标志的序列,并且可以是2至数十万,可能甚至数百万个 核苷酸的任何位置(特别是在拷贝数变异(CNV)的情况下)。

在某些实施方案中,可利用数据集实施本发明,所述数据集包括 关于至少一个与疾病关联的多态型标志(或与至少一个与疾病关联的 标志处于连锁不平衡中的标志)的基因型状况的信息。换句话说,可 就由发明者所展示的与疾病关联的某些多态型标志上的某些有风险的 等位基因是否存在而查询数据集,所述数据集包括关于此类遗传状态 (genetic status)的信息,例如以在某个多态型标志或多个标志上 的基因型计数(例如,是否存在某些有风险的等位基因的标示)的形 式存在的信息或一个或多个标志的实际基因型。与疾病关联的变体(例 如,标志等位基因)的阳性结果标示着作为数据集来源的个体处于增 加的对疾病的易感性(增加的风险度)中。

在本发明的某些实施方案中,通过将多态型标志的基因型数据与 包含多态型的至少一个等位基因与疾病之间的关联性的查找表参比而 将所述多态型标志与疾病关联。基因型数据是通过分析个体的样品获 得的适当的基因型数据。在一些实施方案中,所述样品是核酸样品。在 某些实施方案中,所述基因型数据是核酸序列数据。在一些实施方案中, 所述表包含一个多态型的关联。在其它实施方案中,所述表包括多个 多态型的关联。在这两种情形下,通过参考给出标志与疾病之间的关 联性标示的查找表,可以鉴定作为样品来源的个体患疾病的风险或对 疾病的易感性。在一些实施方案中,关联性被报告为统计测量。统计 测量可报告为风险度测量,例如相对风险度(RR)、绝对风险度(AR) 或比值比(OR)。

在本发明的某些实施方案中,将多个变体(遗传标志、生物标志 和/或单倍型)用于总风险度的评估。这些变体在一个实施方案选自本 文中公开的变体。其它实施方案包括将本发明的变体与已知用于诊断 针对心房颤动和/或中风的易感性的其它变体相组合的用途。在此类实 施方案中,确定个体中多个标志和/或单倍型的基因型状况,和与关联 变体的群体频率相比较的个体状况,或与在临床上健康的受试者例如 年龄匹配和性别匹配的受试者中的变体频率相比较。随后可将本领域 内已知的方法,例如多变量分析(multivariate analyses)或联合风 险分析或本领域技术人员已知的其它方法,用于测定基于多个基因座 上的基因型状况赋予的总体风险度。随后可将基于此类分析的风险度 的评估用于本发明的方法、用途和试剂盒,如本文中所描述的。

如上文中所述,人基因组的单倍型区段结构具有效应:与最初与 疾病或性状关联的变体处于连锁不平衡中的大量变体(标志和/或单倍 型)可用作评估与所述疾病或性状的关联性的替代标志。此类替代标 志的数量将取决于因素例如区域中历史重组率、区域中突变频率(即, 区域中多态型位点或标志的数量)和区域中LD的程度(LD区段的大 小)。此类标志通常位于如使用本文中描述的方法或通过本领域技术 人员已知的其它方法确定的所述LD区段或单倍型区段的物理边界内。 然而,有时发现标志和单倍型关联性延伸至所确定的单倍型区段的物 理边界之外,如上文中所论述的。此类标志和/或单倍型在这些情况下 还可用作物理上存在于所确定的单倍型区段内的标志和/或单倍型的 替代标志和/单倍型。作为结果,与本文中描述的标志和单倍型处于 LD(通常特征在于大于0.1的标志间r2值,例如大于0.2的r2,包括 大于0.3的r2,还包括以大于0.4的r2的值相关的标志)中的标志和 单倍型也在本发明的范围内,即使它们在物理上位于所确定的单倍型 区段的边界之外。

对于包含两个等位基因的多态型标志,发现与经发现在患者中过 量的等位基因(有风险的等位基因)相对的等位基因以减少的频率存 在于患者中。此类标志等位基因从而对于影响患者的病症是保护性的, 即它们赋予携带此类标志等位基因的个体减少的发生所述病症的风险 或对其的易感性。

本发明的某些变体,包括某些单倍型在一些情况下包括不同遗传 标志例如SNP和微卫星的组合。可通过本领域内已知的和/或本文中描 述的用于检测多态型位点的序列的方法来实现检测单倍型。此外,某 些单倍型或标志的组与疾病表型之间的关联性可使用标准技术来确 认。关联性的简单检验的代表性实例可以是基于two by two表的 Fisher精确性检验。

在特定的实施方案中,经发现与病症例如心房颤动、心房扑动和/ 或中风关联的标志等位基因或单倍型(例如,表1中所列的标志等位 基因)是这样的标志等位基因或单倍型,其中所述标志等位基因或单 倍型与其在健康个体(对照)中或从群体随机选择的个体中存在的频 率相比较更频繁地存在于患者中,其中所述标志等位基因或单倍型的 存在标示着对所述病症的易感性。在其它实施方案中,与本文中显示 的与心房颤动、心房扑动和/或中风关联的一个或多个标志处于连锁不 平衡中的有风险的标志是标签标志,与其在健康个体(对照)中或从 群体随机选择的个体中存在的频率相比较其更频繁地存在于患者中, 其中标签标志的存在标示着增加的对所述病症的易感性。在其它实施 方案中,与经发现与心房颤动、心房扑动和/或中风关联的一个或多个 标志处于连锁不平衡中的有风险的等位基因(即,赋予增加的易感性) 是包括一个或多个等位基因的标志,所述标志与其在健康个体(对照) 中存在的频率相比较其更频繁地存在于患者中,其中所述标志的存在 标示着增加的对所述病症的易感性。

研究群体

在一般意义上,本发明的方法和试剂盒可用于包含来自任何来源 或来自任何个体的核酸材料(DNA或RNA)的样品,或用于来源于此类样 品的基因型数据。在优选实施方案中,个体是人个体。个体可以是成 年人、儿童或胎儿。核酸来源可以是包含核酸材料的任何样品(包括 生物样品),或包含由其衍生的核酸材料的样品。本发明还提供对靶 群体的成员的个体的标志和/或单倍型的评估。这样的靶群体在一个实 施方案中是一群或一组个体,基于其它遗传因素、生物标志、生物物 理参数(例如,体重、BMD、血压、脂质测量)或一般健康和/或生活 方式参数(例如,心房颤动、中风或相关疾病的历史、以前的此类疾 病的诊断、家族史),所述个体处于发生疾病的风险中。

本发明提供了包括来自特定年龄亚组例如40岁以上、45岁以上 或50、55、60、65、70、75、80或85岁以上的年龄亚组的个体的实 施方案。本发明的其它实施方案涉及其它年龄组,例如年龄小于85 岁,例如小于80岁、小于75岁或小于70、65、60、55、50、45、40、 35岁或30岁的个体。其它实施方案涉及具有在上述任何年龄范围内 的心房颤动、心房扑动和/或中风发病或诊断年龄的个体。还预期年龄 的范围在某些实施方案中是相关的,例如在超过45岁但小于60岁时 发病的年龄。然而还涉及其它年龄范围,包括由上列的年龄值括入的 所有年龄范围。本发明还涉及任一性别(男性或女性)的个体。在优 选实施方案中,本发明涉及在早年发作的心房颤动、心房扑动和/或中风 的风险。在一个实施方案中,个体中发作的年龄小于80岁。在另一个实 施方案中,个体中发作的年龄小于70岁。在另一个实施方案中,个体中 发作的年龄小于60岁。其他年龄截断值在本发明的可选择的实施方案中 是可能的,并且被包括,包括但不限于小于75岁、小于65岁和小于55 岁的发作年龄。

冰岛人群体是北欧祖先的高加索人群。最近几年已公开了报导冰 岛人群体中的遗传连锁和关联性的结果的大量研究。许多此类研究显 示最初在冰岛人群体中鉴定为与特定疾病关联的变体在其它人群中的 重复(Styrkarsdottir,U.,等人N Engl J Med Apr 29 2008(在印 刷之前的电子版);Thorgeirsson,T.,等人Nature 452:638-42 (2008);Gudmundsson,J.,等人Nat Genet.40:281-3(2008); Stacey,S.N.,等人,Nat Genet.39:865-69(2007);Helgadottir、 A.,等人,Science 316:1491-93(2007);Steinthorsdottir,V., 等人,Nat Genet.39:770-75(2007);Gudmundsson,J.,等人,Nat  Genet.39:631-37(2007);Frayling,TM、Nature Reviews Genet  8:657-662(2007);Amundadottir,L.T.,等人,Nat Genet. 38:652-58(2006);Grant,S.F.,等人,Nat Genet.38:320-23 (2006))。因此,冰岛人群体中的遗传发现通常在其它群体包括来自 非洲和亚洲的群体中重复。

因此相信经发现与心房颤动、心房扑动和/或中风关联的本文中描 述的标志将在其它人群体中显示相似的关联性。从而还涉及包括单个 人群体的特定实施方案并且其在本发明的范围内。此类实施方案涉及 人受试者,所述人受试者来自一个或多个人群体,包括但不限于高加 索人群体、欧洲人群体、美国人群体、欧亚人群体、亚洲人群体、中 亚/南亚人群体、东亚人群体、中东人群体、非洲人群体、西班牙人群 体和大洋洲人群体。欧洲人群体包括但不限于瑞典人、挪威人、芬兰 人、俄国人、丹麦人、冰岛人、爱尔兰人、塞尔特人、英国人、苏格 兰人、荷兰人、比利时人、法国人、德国人、西班牙人、葡萄牙人、 意大利人、波兰人、保加利亚人、斯拉夫人、塞尔维亚人、波斯尼亚 人、捷克人、希腊人和土耳其人群体。在其他实施方案中,本发明进 一步可在特定人群体中进行,所述特定人群体包括:班图人、Mandenk、 约鲁巴人、San、姆布蒂矮人、奥尼克郡群岛人、A dygel、俄国人、 撒丁(岛)人、托斯卡纳人、Mozabite人、贝多因人、朱斯人(Dfuze)、 巴勒斯坦人、俾路支人、Brahui人、Makrani人、Sindhi人、(住在 印度西北国境的)阿富汗人、Burusho人、哈扎拉人、维吾尔人、卡 拉什人、汉族人、Dai人、达斡尔族人、赫哲族人、拉祜族人、苗族 人、鄂伦春族、she族人、土家族人、Tu族人、锡伯族人、彝族人、 蒙古人、纳西族人、柬埔寨人、日本人、雅库特人、美拉尼西亚人、 巴布亚人、karitian an人、Surui人、Colmbian人、马雅人和皮玛 族人。

在某些实施方案中,本发明涉及包括非洲黑人祖先的群体例如包 括非洲人后裔或系谱的群体。非洲黑人祖先可通过自我报告为非洲裔 美国人、非洲裔美国人、美国黑人(Black American)、为黑色人种 的成员或为黑种人(negro race)的成员来确定。例如,非洲裔美国 人或美国黑人是生活在北美并且起源于非洲的任何黑色人种组群的那 些人。在另一个实例中,自我报告的非洲黑人始祖的人可具有至少一 个非洲黑人始祖的父母或至少一个非洲黑人始祖的祖父母。在另一个 实施方案中,本发明涉及高加索人起源的个体。

个体受试者中的种族贡献还可通过遗传分析来测定。可使用非连 锁微卫星标志例如Smith等人(Am J Hum Genet 74,1001-13(2004)) 中展示的标志来进行祖先的遗传分析。

在某些实施方案中,本发明涉及在特定群体中鉴定的标志和/或 单倍型,如上文中所述。本领域技术人员将理解连锁不平衡(LD)的测 量当用于不同群体中时可产生不同结果。这归因于不同人群体的不同 群体历史以及可能已导致特定基因组区域中LD的差异的差异选择压 力。本领域技术人员还熟知某些标志例如SNP标志在不同的群体中具 有不同的群体频率,或在一个群体但非另一个群体中是多态型的。然 而本领域技术人员将把可获得的和本文中关注的方法用于在任意给定 的人群体中实施本发明。这可包括本发明的LD区段域中的多态型标志 的评估,以鉴定在特定的群体内提供最强关联性的标志。因此,本发 明的有风险的变体可存在于不同的单倍型背景中和以不同的频率存在 于不同的人群体中。然而,通过利用本领域内已知的方法和本发明的 标志,可在任意给定的人群体中实施本发明。

基因测定的功用

本领域技术人员将懂得和理解本文中描述的变体本身一般不提 供将发生心律失常(例如,心房颤动或心房扑动)和/或中风的个体的绝 对鉴定。然而本文中描述的变体确实标示增加的和/或减少的携带本发 明的有风险的或保护性变体的个体将发生与心律失常(例如,心房颤动 或心房扑动)和/或中风关联的症状。然而该信息就其本身而言极具价 值,如在下文中更详细地概括的,因为其可用于例如在早期启动保护 性测量、进行定期体检和/或精神检查以监控症状的进展和/或出现, 或以有规律的间隔进行按照预定的时间检查以鉴定所述病症,以能够 在早期实施治疗。

关于赋予发生心律失常(例如,心房颤动或心房扑动)和/或中风的 风险的遗传变型的知识提供了将遗传检测用于区分具有增加的发生所 述疾病的风险的个体(即,有危险的变体的携带者)与具有减少的发生 所述疾病的风险的个体(即,保护性变体的携带者)的可能性。对于属 于这两个上述组的个体,遗传检测的核心价值是能够在早期诊断心律 失常(例如,心房颤动或心房扑动)和/或中风或对心律失常(例如,心房 颤动或心房扑动)和/或中风的易感性的可能性和给临床医生提供关于 心律失常(例如,心房颤动或心房扑动)和/或中风的预后的信息以能够 使用最适当的治疗。

具有心律失常(例如,心房颤动或心房扑动)和/或中风家族史的个 体和有风险的变体的携带者可受益于遗传检测,因为遗传风险因素的 存在的知识或作为一个或多个风险因素的携带者的增加的风险的证据 可提供增加的动力来通过避免或使已知的与心律失常(例如,心房颤动 或心房扑动)和/或中风相关的心血管疾病的环境风险因素降至最低来 实现更健康的生活方式。心律失常(例如,心房颤动或心房扑动)和/或 中风患者的遗传检测还可提供关于疾病的原发性病因的有价值的信息 和可帮助临床医生为每一个个体选择最佳治疗选择和药物治疗。

本发明还涉及心律失常(例如,心房颤动或心房扑动)和/或中风的 风险评估,包括确定个体是否处于发生心律失常(例如,心房颤动或心 房扑动)和/或中风的风险中。可将本发明的多态型标志单独或组合地以 及与其他因子包括其他非遗传风险因子或生物标志组合地用于个体的心 律失常(例如,心房颤动或心房扑动)和/或中风的风险评估。已知影响 个体对发生心血管疾病的风险的易感性并且对于本领域技术人员来说是 已知的许多因子可用于这样的评估。此类因子包括但不限于年龄、性别、 吸烟状态、体力活动、腰臀围比、心律失常(特别是心房颤动和/或心房 扑动)和/或中风的家族史、之前诊断的心律失常(例如,心房颤动或心 房扑动)和/或中风、肥胖症、高甘油三酯血症、低HDL胆固醇、高血压、 升高的血压、胆固醇水平、HDL胆固醇、LDL胆固醇、甘油三酯类、载脂 蛋白AI和B水平、血纤蛋白原、铁蛋白、C反应蛋白和白三烯水平。与 心房颤动/心房扑动和中风关联的具体生物标志论述于Allard等人 (Clin Chem 51:2043-2051(2005)和Becker(J Thromb Thrombolys  19:71-75(2005))。此类标志包括但不限于血纤蛋白D-二聚体、凝血酶 原激活片段1.2(F1.2)、凝血酶-抗凝血酶III复合物(TAT)、纤维蛋白 肽A(FPA)、脂蛋白-结合的磷脂酶A2(lp-PLA2)、β-血小板球蛋白、血 小板因子4、P-选择蛋白、von Willebrand因子、促尿钠排泄肽(BNP)、 基质金属蛋白酶-9(MMP-9)、PARK7、二磷酸核苷激酶(NDKA)、tau、神经 元特异烯醇化酶、B-型神经营养生长因子、星形胶质细胞蛋白S-100b、 神经胶质原纤维酸性蛋白质、C反应蛋白、血清淀粉样蛋白A、基质金属 蛋白酶-9、血管和细胞内细胞粘附分子(vascular and intracellular  cell adhesion molecules)、肿瘤坏死因子α和白细胞介素,包括白细 胞介素-1、-6和-8)。循环祖细胞也被涉及为对于AF是有用的生物标志。 在具体的实施方案中,对于个体确定超过一个的生物标志,并且将其与 本文中描述的至少一个多态型标志的测定的结果组合。优选地,测量个 体的血浆或血清中的生物标志物。可选地,在其他包含可测量的生物标 志的量的适当组织中测定所述生物标志,并且此类实施方案也在本发明 的范围内。

本领域内已知的方法可用于总体风险评估,包括多元分析或逻辑回 归。

心房颤动是对个体患者和就整体而言对卫生保健制度具有重大意义 的疾病。其可以是持久性病症但也可以是阵发性和复发性的,在该情况 下其可对于诊断来说可以是非常具有挑战性的。心房颤动和心房扑动的 最具毁灭性的并发症是使人虚弱的中风的发生。重要地,中风的风险在 持久性和阵发性心房颤动中是相等的。已反复地显示利用华法林的抗凝 治疗可显著降低心房颤动的背景中中风的首次或再次发作的风险。因此, 利用华法林的抗凝治疗是几乎所有患有心房颤动的患者预防中风的标准 治疗,无论他们具有持久性还是阵发性类型。不向其强烈推荐华法林的 唯一患者是被认为处于低风险的年龄小于65岁的患者,即他们不具有器 质性心脏病,包括既无高血压也无冠状动脉病、无中风或短暂脑缺血发 作的过去病史和无糖尿病。该群体具有更低的患中风的风险并且推荐利 用阿斯匹林的中风预防法。

由于阵发性心房颤动的性质,其可以非常难以诊断。当患者因疾病 相关症状例如心悸、胸痛、呼吸短促、眩晕、心力衰竭、短暂脑缺血发 作或甚至中风而寻求医疗照顾时,正常心律可能已恢复,从而妨碍了心 律失常的诊断。在这些情况下,通常应用心律监控以试图诊断所述病症。 通常持续监控心律24至48小时。不幸地,心房颤动发作是不可预测的 并且通常被该方法忽略。诊断心律失常的机会、机构推荐的治疗和可能 地防止使人虚弱的首次或复发性中风的机会可能被忽略,给患者带来毁 灭性结果。延长的和更复杂的心律监控措施是可获得的并且当心房颤动 的怀疑非常强时可偶而使用。这些测试是昂贵的,利用当前方法的诊断 率(diagnostic yield)通常较低,从而很少将它们用于该适应征。在 这些情况下,利用遗传测试的其他风险分层可以是极有帮助的。知道所 述个体携带有风险的或保护性遗传变型可为诊断和/或治疗决策制定提 供无价的贡献。在一些情况下,该方法可避免无必需的测试和治疗,并 且在其他情况下,借助于更具侵袭性的诊断方法,心律失常可被诊断和/ 或开始正确治疗,随后,疾病的并发症减少。

遗传测试如何可直接影响治疗的选择

当个体显示他们的阵发性心房颤动的首次(经诊断的)发作并且自 发地转变成窦性心律或经历短于48小时的电击或化学心脏复律转变成 偶发事件时,基于所述患者的风险特征和管理医生的偏好个别地决定开 始或不开始抗凝治疗。这可以是难以作出的艰难选择,因为使患者经历 抗凝治疗对患者生命具有重大影响。通常在这样的情况下作出撤消抗凝 治疗的选择,并且这对患者可以无重大影响。另一方面,患者以后可发 生中风并且预防的机会从而可被忽略。在这样的情况下,知道患者是所 述有风险的变体的携带者可具有重大的意义并且支持抗凝治疗的开始。

年龄65岁以下被诊断患有心房颤动或否则被认为对于中风是低风 险(即不具有器质性心脏病、无高血压、无糖尿病和无中风的过去病史) 的个体通常只用阿斯匹林治疗来预防中风而不用抗凝剂。如果发现这样 的患者为本文中描述的有风险的变体的携带者,这可考虑支持比否则推 荐的更早地起始抗凝治疗。这是合理的考虑,因为由心房颤动引起的中 风的结果可以是毁灭性的。

基于怀疑的原因通常将缺血性中风分成5个亚类;大动脉动脉粥样 硬化、小动脉闭塞、心源性脑栓塞(大多数因心房颤动引起)、其他决定 原因的中风和未明原因的中风(无发现的原因或超过1个的似合理的原 因)。重要地,因心源性脑栓塞而引起的中风具有最高的复发,是最可 能使人残疾的并且与最低的存活率相关。因此一定不要忽略心房颤动为 中风的主要原因,特别地由于治疗措施基于亚类而变化。因此,如果个 体经诊断患有中风或短暂性脑缺血发作并且似合理的原因未被鉴定(尽 管标准已建立),知道患者是有风险的变体的携带者可具有极大的价值 并且支持开始抗凝治疗或更具侵袭性的诊断测试以试图诊断心房颤动。

此外,可将本发明的标志用于增加临床试验的效力和功效。因此, 作为至少一个本发明的有风险的变体的携带者的个体(即,作为至少 一个赋予增加的发生心律失常(例如,心房颤动或心房扑动)和/或中风 的风险的多态型标志的至少一个等位基因的携带者的个体)可以更可能 地对特定治疗模式(例如如上文中描述的)作出反应。在一个实施方 案中,携带特定治疗(例如,小分子药物)所靶向的途径和/或代谢网 络中的基因的有风险的变体的个体更可能是所述治疗的反应者。在另 一个实施方案中,携带表达和/或功能被有风险的变体改变的基因的有 风险的变体的个体更可能是靶向该基因、其表达或其基因产物的治疗 模式的反应者。该应用可提高临床试验的安全性,而且还可增加临床 试验显示统计学上显著的功效(所述临床试验可限定于群体的某个亚 群)的机会。因此,这样的试验的一个可能的结果是某些遗传变型例 如本发明的标志和单倍型的携带者在统计学上显著地可能显示对治疗 剂的阳性反应,即当采用处方规定的治疗剂或药物时,经历与心律失 常(例如,心房颤动或心房扑动)和/或中风关联的症状的减轻。

在另外的方面,本发明的标志和单倍型可用于靶向用于特定个体 的治疗剂的选择。治疗模式的个人化选择、生活方式的改变或这两者 的组合可通过利用本发明的有风险的变体来实现。因此,就本发明的 特定标志而言的个体状态的知识可用于选择治疗选择,所述治疗选择 靶向受本发明的有风险的变体影响的基因或基因产物。变体的某些组 合可适用于治疗选择的一个选择,然而其它基因变体组合可靶向其它 治疗选择。这样的变体组合可包括1个变体、2个变体、3个变体或4 个或更多个变体,视以临床上可靠的准确性确定治疗模式的选择所需。

诊断和筛查方法

在某些实施方案中,本发明涉及诊断或帮助诊断某些病症,包括 心律失常(例如,心房颤动、心房扑动)和/或中风的方法。在其他实施 方案中,本发明涉及通过检测遗传标志上的特定等位基因确定对此类 病症的一个或多个病症的易感性,所述等位基因以更高的频率在患有 此类病症的受试者或对此类病症易感的受试者中出现。在特定实施方 案中,本发明包括检测至少一个多态型标志(例如,本文中描述的标 志)上的至少一个等位基因的存在或不存在。本发明描述了其中特定 标志或单倍型的特定等位基因的检出标示着对此类病症的一个或多个 病症易感性的方法。此类预后或预测分析还可用于确定受试者的适当 的预防性治疗或用于选择适合于特定治疗的个体。

本发明在一些实施方案中涉及诊断例如由医学专业人员进行的 诊断的临床应用的方法。在其它实施方案中,本发明涉及由业外人士 进行的易感性的诊断或测定的方法。业外人士可以是基因分型或遗传 健康服务的客户。业外人士还可以是对个体的DNA样品或包含基因型 信息的数据集进行基因型分析(以基于个体(例如,客户)的基因型 状况提供涉及特定性状或疾病的遗传风险因素的服务)的基因分型服 务提供者。基因分型技术的最新技术进步(包括SNP标志的高通量基 因分型例如分子倒置探针阵列技术(Molecular Inversion Probe  array technology)(例如,Affymetrix GeneChip)和BeadArray 技术(例如,Illumina GoldenGate和Infinium分析)已使得个体可 能以相对低廉的花费使他们自己的基因组获得同时达到1百万个SNP 的评估。可使个体获得的结果基因型信息可与和不同SNP关联的患疾 病或性状风险的信息(包括来自公开文献和科学出版物的信息)相比 较。因此例如可由个人通过分析本文中描述的他/她的基因型数据、由 保健专业人士基于临床检测的结果,或由第三方(包括基因分型服务 提供者)进行本文中描述的疾病相关性等位基因的诊断应用。第三方 还可以是解释客户的基因型信息以提供与特定遗传风险因素(包括本 文中描述的遗传标志)相关的服务的服务提供商(例如,遗传健康服 务提供商)。换句话说,可由保健专业人士、遗传咨询顾问、提供基 因分型服务的第三方、提供风险评估服务的第三方或由业外人士(例 如,个人)基于关于个体的基因型状况的信息和由特定遗传风险因素 (例如,特定SNP)赋予的风险性的知识诊断或测定遗传风险的易感 性。在本说明书中,术语“诊断”、“诊断易感性”和“确定易感性” 意指任何可获得的方法,包括上述方法。

在某些实施方案中,收集包含个体的基因组DNA的样品。此类样 品可以例如是颊部抹试(buccal swab)、唾液样品、血液样品或其它 合适的包含基因组DNA的样品,如本文中进一步描述的。在某些实施 方案中,通过非侵袭性方法(例如,用于获得含服样品、唾液样品、毛 发样品或皮肤样品)获得样品。在某些实施方案中,通过非手术方法, 即在对个体的手术干预(其将个体置于显著的健康风险中)不存在的情 况下获得样品。此类实施方案,除了非侵袭性方法外,还包括通过提取 血液样品(例如,静脉血样品)获得样品。然后使用本领域技术人员可 获得的任何常用技术例如高通量阵列技术分析获自个体的基因组 DNA。将此类基因分型的结果存储在方便的数据存储单元中,诸如数据 载体,包括计算机数据库、数据存储盘,或通过其它方便的数据存储 方式存储。在某些实施方案中,计算机数据库是对象数据库、关系数 据库或后关系型数据库(post-relational database)。随后就已知 为针对特定人病症的易感性变体例如本文中描述的遗传变型的某些变 体的存在分析基因型数据。可使用任何方便的数据查询方法从数据存 储单元检索基因型数据。可基于将个体的基因型与之前测定的针对基 因型(例如针对特定疾病或性状(例如心房颤动、心房扑动和/或中风) 的有风险的变体的杂合携带者)的风险度(例如,表示为相对风险度 (RR)或比值比(OR))相比较来计算由个体的特定基因型赋予的风险 度。个体的计算的风险度可以是与具有匹配的性别和种族的平均群体 相比较的人的或人的特定基因型的相对风险度。可使用参照群体的结 果将平均群体风险度表示为不同基因型的风险度的加权平均值,并且 可进行适当的计算以计算相对于群体的基因型组群的风险度。可选择 地,个体的风险度基于特定基因型例如标志的有风险的等位基因的杂 合携带者与非有风险的等位基因携带者的比较。在某些实施方案中使 用群体平均值可能更方便,因为其为用户提供了易于解释的测量,即 与群体的平均值相比较基于他/她的基因型提供了个体风险度的测量。 可通过网站,优选安全性网站客户可获得评估的计算的风险度。

在某些实施方案中,服务提供商在提供的服务中将包括从客户提 供的样品分离基因组DNA,对分离的DNA进行基因分型,基于基因型 数据计算遗传风险度和将风险度报告给客户的所有步骤。在一些其它 实施方案中,服务提供商在服务中将包括个体的基因型数据的解释, 即基于个体的基因型数据的特定遗传变型的风险评估。在一些其它实 施方案中,服务提供商可包括的服务包括始于个体(客户)的分离的 DNA的样品的基因分型服务和基因型数据的解释。

可使用标准方法进行针对多个风险变体的总体风险度。例如,假 定乘法模型,即,假定单个风险变体的风险度相乘以确定总体效应, 允许直接计算多个标志的总体风险度。

此外,在某些其它实施方案中,本发明涉及通过检测特定遗传标 志等位基因或单倍型(所述等位基因或单倍型在此类病症患者中出现 的频率比在不具有此类病症的个体中或一般群体中出现的频率更低) 来确定减少的对选自心律失常(例如,心房颤动、心房扑动)和中风的病 症的易感性的方法。

如本文中所描述的和举例说明的,特定标志等位基因与心房颤动、 心房扑动和中风关联。在一个实施方案中,标志等位基因或单倍型是 赋予显著的患此类病症的风险或易感性的标志等位基因或单倍型。在 另一个实施方案中,本发明涉及确定人个体的对心房颤动、心房扑动 和/或中风的易感性的方法,该方法包括确定至少一个多态型标志的至 少一个等位基因在获自个体的核酸样品中是否存在,其中所述至少一 个多态型标志选自多态型标志rs7193343、rs7618072、rs10077199、 rs10490066、rs10516002、rs10519674、rs1394796、rs2935888、 rs4560443、rs6010770和rs7733337以及与其处于连锁不平衡中的标志。 在优选实施方案中,所述至少一个标志选自rs7193343和与其处于连锁 不平衡中的标志。在另一个实施方案中,本发明涉及通过筛查至少一个 标志等位基因来确定人个体的对心房颤动、心房扑动和/或中风的易感性 的方法,所述标志等位基因选自rs7193343的T等位基因、rs7618072 的T等位基因、rs10077199的T等位基因、rs10490066的A等位基因,、 rs10516002的A等位基因、rs10519674的G等位基因、rs1394796的C 等位基因、rs2935888的T等位基因、rs4560443的T等位基因、rs6010770 的G等位基因和rs7733337的T等位基因以及与其处于连锁不平衡中的 标志等位基因。在优选实施方案中,所述标志等位基因选自rs7193343 和与其处于连锁不平衡中的标志等位基因。在另一个实施方案中,标志 等位基因或单倍型与其在健康受试者(对照,例如群体对照)中存在 的频率相比较更频繁地存在于患有心房颤动、心房扑动和/或中风或对 其易感的(患病的)的受试者中。在某些实施方案中,至少一个标志 等位基因或单倍型的关联性的显著性的特征在于p值小于0.05。在其 它实施方案中,关联性的显著性的特征在于更小的p值,例如小于 0.01、小于0.001、小于0.0001、小于0.00001、小于0.000001、小 于0.0000001、小于0.00000001或小于0.000000001。

在这些实施方案中,至少一个标志等位基因或单倍型的存在标示 着对心房颤动、心房扑动和/或中风的易感性。此类诊断方法包括确定 与此类病症的风险关联的特定等位基因或单倍型是否存在于特定个体 中。本文中描述的单倍型包括不同遗传标志(例如,SNP、微卫星或其 它遗传变型)上的等位基因的组合。可通过本文中描述的和/或本领域 内已知的多种方法检测组成特定单倍型的特定遗传标志等位基因。例 如,可在核酸水平(例如,通过直接的核苷酸测序或通过本领域技术人 员已知的其它基因分型方法)或当遗传标志影响蛋白质的编码序列时 在氨基酸水平上(例如,通过蛋白质测序或通过使用识别这样的蛋白 质的抗体的免疫测定)检测遗传标志。本发明的标志等位基因或单倍 型相应于与心房颤动、心房扑动和/或中风关联的基因组区段(例如, 基因)的片段。此类片段包括所述多态型标志或单倍型的DNA序列, 而且还可包括与所述标志或单倍型处于强LD(连锁不平衡)中的DNA 区段。在一个实施方案中,此类区段包括处于具有确定为大于0.2的 r2的值和/或|D′|>0.8的所述标志或单倍型的LD中的区段。

在一个实施方案中,可使用杂交方法完成易感性的确定。(参见 Current Protocols in Molecular Biology,Ausubel,F.等人,eds.、 John Wiley & Sons,包括全部补充材料)。可通过特异于特定等位基 因的核酸探针的序列特异性杂交来显示特定标志等位基因的存在。可 通过使用几个序列特异性核酸探针(各自特异于特定的等位基因)来 显示超过一个特定标志等位基因或特定单倍型的存在。可将序列特异 性探针直接与基因组DNA、RNA或cDNA杂交。“核酸探针”,如本文 中所使用的,可以是与互补序列杂交的DNA探针或RNA探针。本领域 技术人员会知道如何设计这样的探针(以使仅当特定等位基因存在于 测试样品的基因组序列中时序列特异性杂交才发生)的方法。还可将 本发明简化至使用任何方便的基因分型法(包括用于对特定多态型标 志进行基因分型的商购可得的技术和方法)来进行实施。

为了测定易感性,可通过将包含核酸的测试样品例如基因组DNA 样品与至少一个核酸探针接触来形成杂交样品。用于检测mRNA或基因 组DNA的探针的非限定性实例是能够与本文中所述的mRNA或基因组 DNA序列杂交的标记的核酸探针。核酸探针可以是例如全长核酸分子 或其部分,例如在长度上是至少15、30、50、100、250或500个核苷 酸的寡核苷酸,其足以在严格条件下与适当的mRNA或基因组DNA特异 性杂交。例如,核酸探针可包含LD区段C16的核苷酸序列的全部或 部分,其任选地包含本文中描述的标志的至少一个等位基因,或核酸 探针可包含如本文中描述的标志rs16971447、rs16971471、rs7193343、 rs719353、rs719354、rs2106261、rs1548374、rs879324、rs8057081、 rs12932445和rs9940321的任一个的核苷酸序列的全部或部分,或所述 探针可以是这样的序列的互补序列。在特定的实施方案中,核酸探针 是LD区段C16的核苷酸序列的部分,如本文中描述的,其任选地包括 本文中描述的标志的至少一个等位基因,或者一个多态型标志的或包 含本文中描述的至少一个多态型标志的单倍型的至少一个等位基因, 或者探针可以是这样的序列的互补序列。本文中描述了用于本发明的 诊断分析的其它适当的探针。可通过本领域技术人员熟知的方法进行 杂交(参见,例如,Current Protocols in Molecular Biology, Ausubel,F.等人,eds.,John Wiley & Sons,包括全部补充材料)。 在一个实施方案中,杂交意指特异性杂交,即无错配杂交(完全杂交)。 在一个实施方案中,用于特异性杂交的杂交条件是高度严格的。

使用标准方法检测特异性杂交(如果存在的话)。如果特异性杂 交在核酸探针与测试样品中的核酸之间发生,那么样品包含与存在于 核酸探针中的核苷酸互补的等位基因。所述方法可以针对本发明的任 意标志或组成本发明的单倍型的标志进行重复,或可一次将多个探针 同时用于检测1个以上的标志等位基因。还可能设计包含特定单倍型 的1个以上的标志等位基因的单一探针(例如,包含与组成特定单倍 型的2、3、4、5个或全部标志互补的等位基因的探针)。样品中单倍 型的特定标志的检出标示着样品源具有所述特定遗传组成(即,可被 一个或许多个标签标志标记的特定单倍型)。

在一个优选实施方案中,采用如Kutyavin等人(Nucleic Acid Res. 34:e128(2006))所描述,利用在其3′末端包含荧光部分或基团和在 其5′末端包含猝灭剂的检测寡核苷酸探针和增强子寡核苷酸的方法。 荧光部分可以是Gig Harbor绿或Yakima黄或其它适当的荧光部分。 所述检测探针经设计用以与包含待检测的SNP多态型的短核苷酸序列 杂交。优选地,SNP位于从末端残基至离检测探针的3′末端-6个残基 的任何位置。所述增强子是相对于检测探针3′地与DNA模板杂交的短 寡核苷酸探针。这样设计探针以便当检测探针和增强子核苷酸探针均 与模板结合时单个核苷酸缺口存在于两个探针之间。缺口产生被内切 核酸酶例如内切核酸酶IV识别的合成无碱基位点。酶将染料从完全互 补的检测探针切除,但不能切割包含错配的检测探针。因此,通过测 量释放的荧光部分的荧光,可进行由检测探针的核苷酸序列确定的特 定等位基因的存在的评估。

检测探针可以是任何适当大小的探针,尽管优选地探针相对较 短。在一个实施方案中,探针在长度上为5至100个核苷酸。在另一 个实施方案中,探针在长度上为10至50个核苷酸以及在另一个实施 方案中,探针在长度上为12至30个核苷酸。探针的其它长度是可能 的并且在本领域普通技术人员的能力范围内。

在优选实施方案中,通过聚合酶链式反应(PCR)扩增包含SNP 多态型的DNA模板,然后进行检测。在这样的实施方案中,扩增的DNA 用作检测探针和增强子探针的模板。

检测探针、增强子探针和/或用于通过PCR扩增模板的引物的某 些实施方案包括经修饰的碱基(包括经修饰的A和经修饰的G)的使 用。经修饰的碱基的用途可用于调整核苷酸分子(探针和/或引物)对 模板DNA的解链温度,例如用于增加包含低百分数的G或C碱基的区 域的解链温度(其中可使用具有与其互补T形成3个氢键的能力的经 修饰的A),或用于降低包含高百分数的G或C碱基的区域的解链温 度(例如通过使用在双链DNA分子中与其互补C碱基只形成2个氢键 的经修饰的G碱基)。在优选实施方案中,经修饰的碱基在所述检测 核苷酸探针的设计中使用。可在此类方法中选择本领域技术人员已知 的任何修饰碱基,并且基于本文中的教导和可从本领域技术人员已知 的商业来源获得的已知碱基,适当的碱基的选择完全在本领域技术人 员的能力范围内。

可选择地,除了核酸探针以外或在不用核酸探针的情况下,可将 肽核酸(PNA)探针用于本文中所述的杂交方法。PNA是具有肽样无机主 链例如N-(2-氨乙基)甘氨酸单元的DNA模拟物(有机碱基(A、G、C、 T或U)通过亚甲基羰基接头连接至甘氨酸的氮)(参见,例如,Nielsen, P.,等人,Bioconjug.Chem.5:3-7(1994))。可设计PNA探针用 以与怀疑包含一个或多个与心房颤动、心房扑动和中风关联的标志等 位基因或单倍型的样品中的分子特异性杂交。从而PNA的杂交是对此 类病症的诊断。

在本发明的一个实施方案中,收集包含获自受试者的基因组DNA 的测试样品并且将聚合酶链式反应(PCR)用于扩增包含本发明的一个 或多个标志或单倍型的片段。如本文中所描述的,特定标志等位基因 或单倍型的鉴定可使用多种方法(例如,序列分析、通过限制性消化 的分析、特异性杂交、单链构象多态型测定(SSCP)、电泳分析等)来 完成。在另一个实施方案中,通过表达分析,例如通过使用定量PCR (动力学热循环(kinetic thermal cycling))来进行诊断。该技术 可以例如利用商购可得的技术,例如TaqMan(Applied Biosystems, Foster City,CA)。所述技术可评估多肽或剪接变体的表达或组成的 变化的存在。此外,可将变体的表达定量为物理或功能上的差异。

在本发明的方法的另一个实施方案中,如果特定等位基因导致与 参照序列相比较限制性位点的产生或消除,那么限制性消化的分析可 用于检测所述等位基因。可以例如如Current Protocols in Molecular  Biology(同上)中所述进行限制性片段长度多态型(RFLP)分析。相关 DNA片段的消化模式标示特定等位基因在样品中是否存在。

还可将序列分析用于检测特定等位基因或单倍型。因此,在一个 实施方案中,特定标志等位基因或单倍型是否存在的确定包括获自受 试者或个体的DNA或RNA的测试样品的序列分析。可使用PCR或其它 适当的方法扩增包含多态型标志或单倍型的核酸,然后可通过测定样 品中基因组DNA的多态型位点(或单倍型中的多个多态型位点)的序 列来直接检测特定等位基因的存在。

在另一个实施方案中,与来自受试者的靶核酸序列区段互补的寡 核苷酸探针的阵列可用于鉴定多态型位点上的特定等位基因。例如, 可使用寡核苷酸阵列。寡核苷酸阵列通常包括众多的在不同的已知位 置上偶联至基质表面的不同寡核苷酸探针。通常可使用机械合成法或 光导合成法(并入了光刻法和固相寡核苷酸合成法的组合)或利用本 领域技术人员已知的其它方法产生此类阵列(参见,例如,Bier,F.F., 等人Adv Biochem Eng Biotechnol 109:433-53(2008);Hoheisel, J.D.,Nat Rev Genet 7:200-10(2006);Fan,J.B.,等人Methods  Enzymol 410:57-73(2006);Raqoussis,J.& Elvidge,G.,Expert  Rev Mol Diagn 6:145-52(2006);Mockler,T.C.,等人Genomics  85:1-15(2005)和本文中引用的参考资料,其各自的全部教导通过引 用合并入本文)。用于检测多态型的寡核苷酸阵列的制备和用途的许多 另外描述可见于例如US 6,858,394、US 6,429,027、US 5,445, 934、US 5,700,637、US 5,744,305、US 5,945,334、US 6,054, 270、US 6,300,063、US 6,733,977、US 7,364,858、EP 619 321 和EP 373 203(其全部教导通过引用合并入本文)。

可将本领域技术人员可获得的核酸分析的其它方法用于检测多 态型位点上的特定等位基因。代表性方法包括例如直接手工测序 (Church and Gilbert,Proc.Natl.Acad.Sci.USA,81:1991-1995 (1988);Sanger,F.,等人,Proc.Natl.Acad.Sci.USA, 74:5463-5467(1977);Beavis,等人,U.S.Patent No.5,288,644); 自动化荧光测序;单链构象多态型测定(SSCP);夹持变性凝胶电泳 (clamped denaturing gel electrophoresis)(CDGE);变性梯度凝 胶电泳(DGGE)(Sheffield,V.,等人,Proc.Natl.Acad.Sci.USA, 86:232-236(1989))、迁移率变动分析(Orita,M.,等人,Proc.Natl. Acad.Sci.USA,86:2766-2770(1989))、限制酶分析(Flavell, R.,等人,Cell、15:25-41(1978);Geever,R.,等人,Proc.Natl. Acad.Sci.USA,78:5081-5085(1981));异源双链体分析;化学 错配裂解法(CMC)(Cotton,R.,等人,Proc.Natl.Acad.Sci.USA, 85:4397-4401(1985));核糖核酸酶保护测定(Myers,R.,等人, Science,230:1242-1246(1985));识别核苷酸错配的多肽例如大 肠杆菌(E.coli)mutS蛋白的使用和等位基因特异性PCR。

在本发明的另一个实施方案中,在本发明的遗传标志或单倍型导 致多肽的组成或表达的变化的情况下,可通过检查由与选自心房颤动, 心房扑动和/或中风的病症关联的核酸编码的多肽的表达和/或组成来 进行易感性的诊断。在一个这样的实施方案中,所述多肽是ZFHX3多 肽。因此,在本发明的遗传标志或单倍型导致多肽的组成或表达的变 化的情况下,可通过检查此类多肽中一种多肽或由与所述病症关联的 核酸编码的另一种多肽的表达和/或组成来进行对所述病症的易感性 的确定。本发明的显示与所述病症关联性的标志可通过它们对一个或 多个此类附近的基因(例如,ZFHX3)的效应起作用。影响此类基因的 可能机制包括例如对转录的效应、对RNA剪接的效应、mRNA的可选择 剪接形式的相对量的改变、对RNA稳定性的效应、对从细胞核至细胞 质的转运的效应和对翻译的效率和准确性的效应。

因此,在另一个实施方案中,本文中提供的变体(标志或单倍型) 影响附近的基因的表达。在一个实施方案中,所述基因是ZFHX3基因。 众所周知影响基因表达的调控元件可位于远离基因的启动子区域,甚 至远至离所述启动子区域数十或数百个千碱基。通过分析本发明的至 少一个多态型标志的至少一个等位基因是否存在,从而可能评估此类 邻近基因的表达水平。因此预期本发明的标志或单倍型的检测可用于 评估一个或多个此类基因的表达。

可使用多种方法来检测蛋白质表达水平,包括酶联免疫吸附分析 (ELISA)、Western印迹法、免疫沉淀和免疫荧光法。就由特定核酸编 码的多肽的表达和/或组成的变化的存在评估受试者的测试样品。由核 酸编码的多肽的表达的变化可以例如是定量多肽表达(即,产生的多 肽的量)的变化。由核酸编码的多肽的组成的变化是定性多肽表达(例 如,突变多肽或不同剪接变体的表达)的变化。在一个实施方案中, 通过检测特定剪接变体或剪接变体的特定模式来进行易感性的诊断。

两种此类变化(定量和定性)都可存在。多肽表达或组成的“变 化”,如本文中所使用的,意指与对照样品中多肽的表达或组成相比 较,测试样品中表达或组成的变化。对照样品是相应于测试样品(例 如,来自相同类型的细胞的)并且来自未患心房颤动、心房扑动和/或 中风和/或不具有对此类病症的易感性的受试者的样品。在一个实施方 案中,对照样品来自不具有与此类病症关联的标志等位基因或单倍型 的受试者,如本文中所描述的。类似地,测试样品中一个或多个不同 剪接变体的存在,或与对照样品相比较测试样品中不同剪接变体的显 著不同的量的存在可标示着对所述病症的易感性。与对照样品相比较, 测试样品中多肽的表达或组成的变化可标示着在其中等位基因相对于 对照样品中的参照改变剪接位点的情况下的特定等位基因。检测由核 酸编码的多肽的表达或组成的各种方法是本领域技术人员已知并且可 被使用,其包括光谱学、比色法、电泳、等电聚焦和免疫测定(例如, David等人,U.S.Pat.No.4,376,110)例如免疫印迹(参见,例 如,Current Protocols in Molecular Biology、特别是第10章, 同上)。

例如,在一个实施方案中,可使用能够结合由与所述病症关联的 核酸编码的多肽的抗体(例如,具有可检测的标记的抗体)(例如, 抗ZFHX3蛋白或其片段的抗体)。抗体可以是多克隆抗体或单克隆抗 体。可使用完整抗体或其片段(例如,Fv、Fab、Fab′、F(ab′)2)。对 于探针或抗体术语“标记的”旨在包括通过将可检测物质偶联(即, 物理连接)至探针或抗体的探针或抗体的直接标记,以及通过与被直 接标记的其它试剂的反应性进行的探针或抗体的间接标记。间接标记 的实例包括使用标记的第二抗体(例如,荧光标记的第二抗体)进行 的第一抗体的检测和使用生物素进行的DNA探针的末端标记(以便其 可用荧光标记的链霉抗生物素蛋白检测)。

在本方法的一个实施方案中,将测试样品中多肽的水平或量对比 对照样品中多肽的水平或量。比对照样品中多肽的水平或量更高或更 低(以至差异在统计学上是显著的)的测试样品中多肽的水平或量标 示着由核酸编码的多肽的表达的变化,并且是针对负责引起表达的差 异的特定等位基因或单倍型的诊断。可选择地,将测试样品中多肽的 组成与对照样品中多肽的组成相比较。在另一个实施方案中,可评估 测试样品和对照样品中多肽的水平或量和组成。

在另一个实施方案中,通过结合另外的基于蛋白质、基于RNA或 基于DNA的分析检测本发明的至少一个标志或单倍型来测定对心房颤 动、心房扑动和/或中风的易感性。

试剂盒

用于本发明的方法的试剂盒包括用于本文中描述的任何方法的 组分,包括例如,用于核酸扩增的引物、杂交探针、限制酶(例如, 用于RFLP分析)、等位基因特异性寡核苷酸、结合由本文中描述的本 发明的核酸(例如包含本发明的至少一个多态型标志和/或单倍型的基 因组区段)编码的改变的多肽或结合由本文中描述的本发明的核酸编 码的未改变的(天然)多肽的抗体、用于扩增核酸的方法、用于分析 核酸的核酸序列的方法、用于分析由本文中描述的核酸编码的多肽的 氨基酸序列的方法等。试剂盒可以例如包括必需缓冲液、用于扩增本 发明的核酸(例如包含本文中描述的一个或多个多态型标志的核酸区 段)的核酸引物和用于使用此类引物和必需酶(例如,DNA聚合酶) 扩增的片段的等位基因特异性检测的试剂。此外,试剂盒可提供用于 与本发明的方法组合使用的分析的试剂,例如与其它心房颤动、心房 扑动和/或中风诊断分析一起使用的试剂。

在一个实施方案中,本发明涉及用于分析受试者的样品以检测受 试者中对选自心房颤动、心房扑动和中风的病症易感性的试剂盒,其 中试剂盒包括选择性检测个体的基因组中至少一个本发明的多态型的 至少一个等位基因所必需的试剂。在特定的实施方案中,所述试剂包 括至少一个连续寡核苷酸,所述寡核苷酸与包含至少一个本发明的多 态型的个体基因组的片段杂交。在另一个实施方案中,所述试剂包括 至少一对与获自受试者的基因组区段的相反链杂交的寡核苷酸,其中 各寡核苷酸引物对经设计用以选择性扩增包括至少一个与疾病风险关 联的多态型的个体的基因组的片段。在一个这样的实施方案中,多态 型选自rs7193343、rs7618072、rs10077199、rs10490066、rs10516002、 rs10519674、rs1394796、rs2935888、rs4560443、rs6010770和 rs7733337以及与其处于连锁不平衡中的标志。在另一个实施方案中, 片段大小为至少20个碱基对。可使用侧翼连接与所述病症的风险关联 的多态型(例如,SNP或微卫星)的多态型的核酸序列的部分设计此 类寡核苷酸或核酸(例如,寡核苷酸引物)。在另一个实施方案中, 试剂盒包括能够等位基因特异性检测一个或多个特定多态型标志或单 倍型的一个或多个标记核酸和用于检测所述标记的试剂。适当的标记 物包括例如放射性同位素、荧光标记物、酶标记物、酶辅因子标记物、 磁标记物、自旋标记物、表位标记物。

在特定的实施方案中,待用试剂盒的试剂检测的多态型标志或单 倍型包括选标志rs7193343、rs7618072、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337和与其处于连锁不平衡中的标志的1个或更多个标志、2 个或更多个标志、3个或更多个标志、4个或更多个标志或5个或更多 个标志。在另一个实施方案中,待检测的标志或单倍型包括选自 rs7193343和与其处于连锁不平衡中的标志的1个或更多个标志、2个 或更多个标志、3个或更多个标志、4个或更多个标志或5个或更多个 标志。在一个实施方案中,待检测的标志或单倍型包含选自rs16971447、 rs16971471、rs719353、rs719354、rs2106261、rs1548374、rs879324、 rs8057081、rs12932445和rs9940321的1个或更多个标志、2个或更多 个标志、3个或更多个标志、4个或更多个标志或5个或更多个标志。

在一个优选实施方案中,用于检测本发明的标志的试剂盒包括检 测寡核苷酸探针(其可与包含待检测的SNP多态型的模板DNA的区段 杂交)、增强子寡核苷酸探针和核酸内切酶。如上文中所解释的,检 测寡核苷酸探针在其3′末端包含荧光部分或基团以及在其5′末端包 含猝灭剂,并且使用增强子寡核苷酸,如由Kutyavin等人(Nucleic  Acid Res.34:e128(2006))所描述的。荧光部分可以是Gig Harbor 绿或Yakima黄或其它适当的荧光部分。所述检测探针经设计用以与包 含待检测的SNP多态型的短核苷酸序列杂交。优选地,SNP位于从末 端残基至离检测探针的3′末端-6个残基的任何位置。所述增强子是相 对于检测探针3′地与DNA模板杂交的短寡核苷酸探针。这样设计探针 以便当检测探针和增强子核苷酸探针均与模板结合时单个核苷酸缺口 存在于两个探针之间。缺口产生被内切核酸酶例如内切核酸酶IV识别 的合成无碱基位点。酶将染料从完全互补的检测探针切除,但不能切 割包含错配的检测探针。因此,通过测量释放的荧光部分的荧光,可 进行由检测探针的核苷酸序列确定的特定等位基因的存在的评估。

检测探针可以是任何适当大小的探针,尽管优选地探针相对较 短。在一个实施方案中,探针在长度上为5至100个核苷酸。在另一 个实施方案中,探针在长度上为10至50个核苷酸以及在另一个实施 方案中,探针在长度上为12至30个核苷酸。探针的其它长度是可能 的并且在本领域普通技术人员的能力范围内。

在优选实施方案中,通过聚合酶链式反应(PCR)扩增包含SNP多 态型的DNA模板,然后进行检测,并且用于此类扩增的引物包括在试 剂盒中。在这样的实施方案中,扩增的DNA用作检测探针和增强子探 针的模板。

在一个实施方案中,利用全基因组扩增(WGA)法扩增DNA模板, 然后评估本文中描述的特定多态型标志的存在。可使用本领域技术人 员熟知的用于进行WGA的标准方法,并且其在本发明的范围内。在一 个这样的实施方案中,进行WGA的试剂包括在试剂盒中。

检测探针、增强子探针和/或用于通过PCR扩增模板的引物的某 些实施方案包括经修饰的碱基(包括经修饰的A和经修饰的G)的使 用。经修饰的碱基的用途可用于调整核苷酸分子(探针和/或引物)对 模板DNA的解链温度,例如用于增加包含低百分数的G或C碱基的区 域的解链温度(其中可使用具有与其互补T形成3个氢键的能力的经 修饰的A),或用于降低包含高百分数的G或C碱基的区域的解链温 度(例如通过使用在双链DNA分子中与其互补C碱基只形成2个氢键 的经修饰的G碱基)。在优选实施方案中,经修饰的碱基在所述检测 核苷酸探针的设计中使用。可以此类方法中选择本领域技术人员已知 的任何经修饰的碱基,并且基于本文中的教导和可从本领域技术人员 已知的商业来源获得的已知碱基,适当的碱基的选择完全在本领域技 术人员的能力范围内。

在一个实施方案中,特定标志等位基因或单倍型的存在的确定标 示着对心房颤动、心房扑动和/或中风的易感性(增加的易感性或减少 的易感性)。在另一个实施方案中,标志等位基因或单倍型的存在的 确定标示着对心房颤动、心房扑动和/或中风治疗剂的反应。在另一个 实施方案中,标志等位基因或单倍型的存在标示着心房颤动、心房扑 动和/或中风的预后。在另一个实施方案中,标志或单倍型的存在标示 着选自心房颤动、心房扑动和/或中风的病症的治疗的进展。此类治疗 可包括通过手术、药物或通过其它方法(例如,生活方式的改变)进 行的干预。

在本发明的其它方面,提供了药物包装(试剂盒),所述包装包 括治疗剂和一套用于将治疗剂施用至就本发明的一个或多个变体(如 本文中公开的)诊断测试的人的说明书。治疗剂可以是小分子药物、 抗体、肽、反义或RNAi分子或其它治疗分子。在一个实施方案中,指 导被鉴定为至少一个本发明的变体的携带者的个体服用处方规定的剂 量的治疗剂。在一个这样的实施方案中,指导被鉴定为至少一个本发 明的变体的纯合携带者的个体服用处方规定的剂量的治疗剂。在另一 个实施方案中,指导被鉴定为至少一个本发明的变体的非携带者的个 体服用处方规定的剂量的治疗剂。

在某些实施方案中,试剂盒还包括一套针对包括试剂盒的试剂的 说明书。在某些实施方案中,试剂盒还包括数据集合,其包含由所述试 剂盒评估的多态型标志与对前列腺癌和/或结直肠癌的易感性之间的关 联数据。

治疗剂

心房颤动和心房扑动的治疗通常以两个主要目的为导向:(i)预防 中风和(ii)治疗症状。

(i)中风的预防

抗凝剂是选择用于在心房颤动中预防中风的疗法并且主治大部分 患有该心律失常的患者。不向其强烈推荐抗凝剂的唯一患者是被认为处 于低风险的年龄小于65岁的患者,即他们不具有器质性心脏病,无高 血压、无中风或短暂脑缺血发作的过去病史和无糖尿病。该群体作为整 体具有更低的患中风的风险并且推荐利用阿斯匹林的中风预防法。对于 所有其他患者,无论心房颤动是持久性、复发阵发性还是复发持续性的, 都建议抗凝治疗。不能归纳应当如何治疗显示他们的阵发性心房颤动的 首次发作的患者并且需要对每一个患者作出个性化决策。即使当患有心 房颤动的患者感觉用抗心律失常药治疗维持在窦性心律(受控的节律) 上时,由于该类型的治疗不影响中风的风险,也建议使用抗凝剂。

抗凝血药。如上文中详述的,对于心房颤动推荐抗凝治疗以预防心 源性脑栓塞和中风。最广泛研究口服抗凝血药是华法林并且该药物被广 泛推荐用于心房颤动的慢性口服抗凝治疗。除了出血的风险以外,华法 林具有极少副作用,但在治疗过程中需要定期和细心监控血液值(以测 量抗凝治疗的效果)。口服抗凝血药希美加群显示了预防患有心房颤动 的患者的中风的前景并且具有不需要定期监控(如华法林)的有利方面。 然而发现希美加群引发未能解释的肝损伤并且于2006年退市。几种试 剂可获得用于静脉内和/或皮下治疗,包括肝素和低分子量肝素(例如, 依诺肝素、达肝素、亭扎肝素、阿地肝素、纳屈肝素和瑞肝素)。当抗 凝作用的快速起始是必需的时候或如果必须在高危患者中中断口服抗 凝治疗或在其他患者中例如因一系列过程而进行超过1周的治疗时,推 荐这些药物。其他胃肠外抗凝血药是可获得的但不被特别推荐为心房颤 动的治疗;例如,因子Xa抑制剂磺达肝素和依达肝素、凝血酶抑制剂 来匹卢定、比伐卢定和阿加曲班以及达那肝素。

(ii)症状控制。使用于控制心房颤动的症状的内科和外科治疗适 合个体患者并且所述治疗由利用药物的心率和/或节律控制、射频消蚀 和/或手术组成。

抗心律失常药。概括地,抗心律失常药用于抑制特征在于心律失常 包括心房颤动和心房扑动的心脏的异常节律。抗心律失常药的一个分类 是Vaughan Williams分类,其中定义了5个主要种类的抗心律失常药。 I类试剂是快速钠通道阻滞剂并且基于阻滞的动力学和强度以及它们对 复极化的作用将其再分类。Ia类包括丙吡胺、莫雷西嗪、普鲁卡因胺和 奎尼丁。Ib类试剂为利多卡因、美西律、妥卡尼和苯妥英。Ic类试剂 为恩卡尼、氟卡尼、普罗帕酮、阿义马林、西苯唑啉和地他义铵。II 类试剂为β阻滞剂,它们阻断儿茶酚胺类在β肾上腺素能受体上的作 用。β阻滞剂的实例为艾司洛尔、普萘洛尔、美托洛尔、阿普洛尔、阿 替洛尔、卡维地洛、比索洛尔、醋丁洛尔、纳多洛尔、吲哚洛尔、拉贝 洛尔、氧烯洛尔、喷布洛尔、噻吗洛尔、倍他洛尔、cartelol、索他洛 尔和左布诺洛尔。III类试剂具有混合性质但全体为钾通道阻滞剂并且 延长复极化。该类别中的药物是胺碘酮、阿齐利特、溴苄铵、多非利特、 替地沙米、伊布利特、司美利特、索他洛尔、N-乙酰基普鲁卡因胺、尼 非卡兰盐酸化物、维那卡兰和氨巴利特。IV类试剂是钙通道阻滞剂,包 括维拉帕米、贝米拉地尔和地尔硫最后,V类由混合的抗心律失常 药组成,包括地高辛和腺苷。

心率控制,用于维持心率控制的药理学测量包括β-阻滞剂、钙通 道阻滞剂和地高辛。所有此类药物减慢通过房室结的电传导和减慢对快 速心房颤动的心室率反应。一些主要用于节律控制的抗心律失常药(参 见下文)也减慢房室结传导率,从而减慢心室心率反应。此类药物包括 一些III类和Ic类药物例如胺碘酮、索他洛尔和氟卡尼。

心脏复律。心律从心房颤动或心房扑动至窦性心律的心脏复律可利 用同步直流电心脏复律通过电来实现,或利用药物例如伊布利特、胺碘 酮、普鲁卡因胺、普罗帕酮和氟卡尼来实现。

心律控制

用于窦性心律的维持即节律控制的药物主要包括来自III、I a和 Ic的抗心律失常药。实例为来自III类的索他洛尔、胺碘酮和多非利特、 来自Ia类的丙吡胺、普鲁卡因胺和奎尼丁以及来自Ic类的哌氟酰胺和 普罗帕酮。利用此类抗心律失常药的治疗是复杂的,可能是危险的,并 且应当由经特别训练使用此类药物的医生指导。许多抗心律失常药具有 严重的副作用并且应当只用于特定的人群。例如,Ic类药物不应当用于 具有冠状动脉病的患者,即使它们可抑制心房颤动,但它们实际上在心 房扑动中促进快速心室反应。Ia类药物可用作不具有结构心脏病的患者 的最后依靠。索他洛尔(如大多数III类抗心律失常药)可引发QT间期 的显著延长,特别是在具有肾功能衰竭的患者中,和促进严重的室性心 律失常。需要在住院患者(inpatient)的基础上启用索他洛尔和多非 利特以及所述Ia药物以监控QT间期。虽然胺碘酮通常可被良好地耐受 并且被广泛使用,但胺碘酮对于长期治疗具有许多严重副作用。

还可将本文中公开的变体(标志和/或单倍型)用于鉴定心房颤动、 心房扑动和/或中风的新型治疗靶。例如,可靶向包含一个或多个此类 变体(例如,ZFHX3基因)或与其处于连锁不平衡中的变体或其产物, 以及受此类变体基因或其产物直接或间接调控或与其相互作用的基因 或其产物,以将其用于开发治心房颤动、心房扑动和/或中风或预防或 延迟与心房颤动、心房扑动和/或中风关联的症状的发作的治疗剂。治 疗剂可包括一种或多种例如非蛋白质和非核酸小分子、蛋白质、肽、 蛋白质片段、核酸(dna、rna)、pna(肽核酸)或其衍生物或模拟物,其 可调控靶基因或它们的基因产物的功能和/或水平。

可将本文中描述的核酸和/或变体或包含其互补序列的核酸用作 控制细胞、组织或器官中基因表达的反义构建体。与反义技术相关的 方法对于本领域技术人员来说是熟知的,并且例如描述和综述于 AntisenseDrug Technology:Principles,Strategies,and  Applications,Crooke,ed.,Marcel Dekker Inc.,New York(2001) 中。一般地,反义试剂(反义寡核苷酸)由能够与互补核苷酸区段结合 的单链寡核苷酸(RNA或DNA)组成。通过结合适当的靶序列,形成 RNA-RNA、DNA-DNA或RNA-DNA双链体。反义寡核苷酸与基因的有义或编 码链互补。其也可能形成三股螺旋,其中反义寡核苷酸结合双链体DNA。

几种反义寡核苷酸是本领域技术人员已知的,包括切割子 (cleaver)和阻断子(blocker)。前者结合靶RNA位点,激活切割 靶RNA的细胞内核酸酶(例如,RNA酶H或RNA酶L)。阻断子结合靶 RNA,通过核糖体的空间位阻来抑制蛋白质翻译。阻断子的实例包括核 酸、玛琳代化合物、锁(locked)核酸和膦酸甲酯(Thompson,Drug  Discovery Today,7:912-917(2002))。反义寡核苷酸可直接用作 治疗剂,并且还有用于测定和验证基因功能,例如通过基因敲除或基 因敲低实验来进行。反义技术还描述于Lavery等人,Curr.Opin.Drug Discov.Devel.6:561-569(2003),Stephens等人,Curr.Opin.Mol. Ther.5:118-122(2003),Kurreck,Eur.J.Biochem.270:1628-44 (2003),Dias等人,Mol.Cancer Ter.1:347-55(2002),Chen,Methods  Mol.Med.75:621-636(2003),Wang等人,Curr.Cancer Drug Targets  1:177-96(2001)和Bennett,Antisense Nucleic Acid Drug.Dev. 12:215-24(2002)中。

在某些实施方案中,反义试剂是能够结合ZFHX3基因的核苷酸区段 的寡核苷酸。反义核苷酸在长度上可为5-500个核苷酸,包括5-200个 核苷酸,5-100个核苷酸,10-50个核苷酸和10-30个核苷酸。在某些优 选实施方案中,所述反义核苷酸在长度上为14-50个核苷酸,包括14-40 个核苷酸和14-30个核苷酸。在某些此类实施方案中,所述反义核苷酸 能够结合ZFHX3基因的核苷酸区段。在某些实施方案中,所述反义核苷 酸包含至少一个本文中公开的多态型标志,例如选自rs7193343、 rs7618072、rs10077199、rs10490066、rs10516002、rs10519674、 rs1394796、rs2935888、rs4560443、rs6010770和rs7733337以及与其 处于连锁不平衡中的标志的多态型标志。

因此,本文中描述的变体也可用于特异于特定变体的反义试剂的 选择和设计。通过使用关于本文中描述的变体的信息,可设计特异性 靶向包含一个或多个本发明的变体的mRNA分子的反义寡核苷酸或其 它反义分子。这样,可抑制或阻断包含一个或多个本发明的变体(即, 标志和/或单倍型)的mRNA分子的表达。在一个实施方案中,反义分子 经设计用以特异性结合靶核酸的特定等位基因形式(即,一个或几个 变体(等位基因和/或单倍型))(从而抑制源于该特定等位基因或单倍 型的产物的翻译),但其不结合靶核酸分子的该特定多态型位点上的 其它或可选择的变体。由于反义分子可用于使mRNA失活以抑制基因表 达,从而抑制蛋白质表达,因此所述分子可用于心房颤动和/或中风治 疗。方法可包括利用包含与mRNA中的一个或多个区域互补的核苷酸序 列的核酶进行的切割,其减弱mRNA被翻译的能力。此类mRNA区域包 括例如蛋白质编码区,特别是相应于蛋白质的催化活性、底物和/或配 体结合位点或其它蛋白质功能域的蛋白质编码区。

自其最初在线虫(C.elegans)中被发现(Fire等人,Nature  391:806-11(1998))以来,在过去10年中,RNA干扰(RNAi)现象一 直得到活跃地研究,并且在近年中,其在人心房颤动和/或中风的治疗 中的潜在用途一直受到积极追求(综述于Kim & Rossi,Nature Rev. Genet.8:173-204(2007)中)。RNA干扰(RNAi),也称为基因沉默, 基于使用双链RNA分子(dsRNA)关闭特定基因。在细胞中,细胞质双链 RNA分子(dsRNA)被细胞复合物加工成小干扰RNA(siRNA)。siRNA指导 蛋白质-RNA复合物至靶mRNA上的特定位点的靶向,从而导致mRNA的 切割(Thompson,Drug Discovery Today,7:912-917(2002))。siRNA 分子在长度上通常为约20、21、22或23个核苷酸。因此,本发明的 一个方面涉及分离的核酸分子和此类分子用于RNA干扰的用途,即作 为小干扰RNA分子(siRNA)。在一个实施方案中,分离的核酸分子在长 度上为18至26个核苷酸,优选在长度上为19至25个核苷酸,更优 选在长度上为20至24个核苷酸,和更优选在长度上为21、22或23 个核苷酸。

RNAi介导的基因沉默的另一个途径始于在细胞中经加工产生前 体miRNA(pre-miRNA)的内源编码的初级microRNA(pri-miRNA)转录 物。此类miRNA分子被从细胞核输出至细胞质,在细胞质中它们经历 加工,产生成熟miRNA分子(miRNA),所述成熟miRNA分子通过识别 mRNA的3′非翻译区中的靶位点,然后通过加工P小体(processing  P-body)降解mRNA来指导翻译抑制(综述于Kim & Rossi,Nature Rev. Genet.8:173-204(2007)中)。

RNAi的临床应用包括在大小优选为约20-23个核苷酸并且优选具 有2个核苷酸的3′重叠(overlaps)的合成siRNA双链体的掺入。通 过针对靶mRNA的序列特异性设计建立基因表达的敲低。用于此类分子 的最佳设计和合成的几个商业部位是本领域技术人员已知的。

其它应用提供了更长的siRNA分子(长度上通常为25-30个核苷 酸,优选约27个核苷酸)以及小发夹RNA(shRNA;长度上通常为约 29个核苷酸)。后者天然表达的,如Amarzguioui等人(FEBS Lett. 579:5974-81(2005))中所描述的。化学合成siRNA和shRNA是体内 加工的底物,并且在一些情况下提供比更短的设计更强的基因沉默 (Kim等人,Nature Biotechnol.23:222-226(2005);Siolas等人, Nature Biotechnol.23:227-231(2005))。一般地siRNA提供基因 表达的瞬时沉默,因为它们的细胞内浓度被随后的细胞分裂稀释。相 反地,表达的shRNA介导长期稳定的靶转录物的敲低,只要shRNA的 转录发生(Marques等人,Nature Biotechnol.23:559-565(2006); Brummelkamp等人,Science 296:550-553(2002))。

因为RNAi分子,包括siRNA、miRNA和shRNA,以序列依赖性的 方式起作用,因此本文中所示的变体可用于设计RNAi试剂,所述RNAi 试剂识别包含特定等位基因和/或单倍型(例如本发明的等位基因和/ 或单倍型)的特定核酸分子然而不识别包含其它等位基因或单倍型的 核酸分子。此类RNAi试剂从而可识别和破坏靶核酸分子。与反义试剂 一样,RNAi试剂可用作治疗剂(即,用于关闭心房颤动和/或中风相关 基因或心房颤动和/或中风相关基因变体),而且还可用于表征和验证 基因功能(例如,通过基因敲除或基因敲低实验)。

可通过一系列本领域技术人员已知的方法进行RNAi的递送。利 用非病毒递送的方法包括胆固醇、稳定的核酸-脂质颗粒(SNALP)、重 链抗体片段(Fab)、适体和纳米颗粒。病毒递送法包括慢病毒、腺病毒 和腺伴随病毒的使用。在一些实施方案中化学修饰siRNA分子以增加 其稳定性。这可包括核糖的2′位置上的修饰,包括2′-O-甲基嘌呤和 2′-氟嘧啶,其提供了对RNA酶活性的抗性。其它化学修饰是可能的并 且是本领域技术人员已知的。

下列参考资料提供了RNAi的其它概述和使用RNAi靶向特定基因 的可能性:Kim & Rossi,Nat.Rev.Genet.8:173-184(2007),Chen  & Rajewsky,Nat.Rev.Genet.8:93-103(2007),Reynolds,等 人,Nat.Biotechnol.22:326-330(2004),Chi等人,Proc.Natl. Acad.Sci.USA 100:6343-6346(2003),Vickers等人,J.Biol.Chem. 278:7108-7118(2003),Agami,Curr.Opin.Chem.Biol.6:829-834 (2002),Lavery,等人,Curr.Opin.Drug Discov.Devel.6:561-569 (2003),Shi,Trends Genet.19:9-12(2003),Shuey等人,Drug Discov. Today 7:1040-46(2002),McManus等人,Nat.Rev.Genet.3:737-747 (2002),Xia等人,Nat.Biotechnol.20:1006-10(2002),Plasterk 等人,Curr Opin Genet Dev 10:562-7(2000),Bosher等人,Nat. Cell Biol.2:E31-6(2000)和Hunter,Curr.Biol.9:R440-442 (1999)。

导致增加的对疾病例如心房颤动、心房扑动和/或中风发生的易感 性或风险的遗传缺陷或引发疾病的缺陷可通过给携带缺陷的受试者施 用核酸片段来永久性矫正,所述核酸片段包含提供所述基因缺陷的位 点上的正常/野生型核苷酸的修复序列。此类位点特异性修复序列可包 括操作以促进受试者的基因组DNA的内源修复的RNA/DNA寡核苷酸。 可利用适当的载体例如封装在阴离子脂质体内的与聚乙烯亚胺的复合 物、病毒载体例如腺病毒载体或适合于促进施用的核酸细胞内吸收的 其它药物组合物进行修复序列的施用。遗传缺陷因而可被克服,因为 嵌合寡核苷酸诱导正常序列整合入受试者的基因组,从而导致正常/ 野生型基因产物表达。替换得到遗传,从而使得与疾病或病症关联的 症状得到永久性修复和缓解。

本发明提供了用于鉴定可用于治疗心房颤动、心房扑动和/或中风的 化合物或试剂的方法。因此,本发明的变体作为用来鉴定和/或发开治疗 剂的靶。在某些实施方案中,此类方法包括分析试剂或化合物调控核酸 (所述核酸包括至少一个本发明的变体(标志和/或单倍型))或包含核酸 的编码产物的活性和/或表达的能力。在某些实施方案中,所述核酸是 ZFHX3核酸。该核酸转而可用于鉴定抑制或改变编码的核酸产物的不期 望的活性或表达的试剂或化合物。可在本领域技术人员已知的基于细胞 的系统或无细胞系统中进行用于进行此类实验的分析。基于细胞的系统 包括天然表达目的核酸分子的细胞或已经历基因改造从而表达某个期望 的核酸分子的重组细胞。

可通过包含变体的核酸序列(例如,包含至少一个本发明的变体 的基因,其可被转录成包含至少一个变体的RNA并且接着被翻译成蛋 白质)的表达,或通过因影响正常转录物的表达水平或模式的变体例 如基因的调控或控制区中的变体而导致的正常/野生型核酸序列的改 变的表达来评估患者的变体基因表达。用于基因表达的分析包括直接 核酸分析(mRNA)、用于表达的蛋白质水平的分析或参与途径例如信号 途径的附随化合物(collateral compound)的分析。此外,还可分析 响应信号途径而被上调或下调的基因的表达。一个实施方案包括将报 告基因例如荧光素酶有效地连接至目的基因的调控区。

在一个实施方案中,当将细胞与候选化合物或试剂接触,然后测 定mRNA的表达时,可鉴定基因表达的调控剂。将在候选化合物或试剂 存在的情况下的mRNA的表达水平与在所述化合物或试剂不存在的情 况下的表达水平相比较。基于该比较,可将用于治疗选自心房颤动、 心房扑动和中风的病症的候选化合物或试剂鉴定为调控变体基因的基 因表达的化合物或试剂。当mRNA或编码的蛋白质的表达在候选化合物 或试剂存在的情况下比在其不存在的情况下在统计学上显著更高时, 则候选化合物或试剂被鉴定为核酸表达的刺激剂或上调剂 (up-regulator)。当核酸表达或蛋白质水平在候选化合物或试剂存 在的情况比在其不存在的情况下统计学上显著更低时,则候选化合物 被鉴定为核酸表达的抑制剂或下调剂(down-regulator)。

本发明还提供了使用通过药物(化合物和/或试剂)筛选鉴定的化 合物作为基因调控剂(即基因表达的刺激剂和/或抑制剂)进行治疗的 方法。

评估响应治疗剂的概率的方法,监控治疗进展的方法和治疗方法

如本领域内已知的,个体可具有对特定疗法(例如,治疗剂或治 疗方法)区别的反应。药物基因组学阐述了遗传变异(例如,本发明 的变体(标志和/或单倍型))是如何由于改变的药物分布(drug  disposition)和/或药物的异常或改变的作用而影响药物反应的问题。 因此,区别反应的基础可在遗传上获得部分确定。由于遗传变异影响 药物反应而产生的临床结果可在某些个体(例如,本发明的遗传变型的 携带者或非携带者)中导致药物的毒性或药物的治疗失败。因此,本发 明的变体可确定治疗剂和/或方法对身体起作用的方式,或身体代谢治 疗剂的方式。

因此,在一个实施方案中,多态型位点或单倍型上特定等位基因 的存在标示着不同的对特定治疗形式的反应,例如不同的反应速率。 这意味着经诊断患有选自心房颤动、心房扑动和中风的病症的患者和 在本发明的多态型或单倍型上携带某个等位基因(例如,本发明的有 风险的和保护性等位基因和/或单倍型)的患者将对用于治疗所述病症 的特定治疗药物和/或其它疗法作出更好或更差的反应。因此,标志等 位基因或单倍型是否存在可帮助决定应当对患者使用何种治疗。例如, 对于新诊断的患者,可评估(例如,通过测试来源于血液样品的DNA, 如本文中所描述的)本发明的标志或单倍型的存在。如果患者对于标 志等位基因或单倍型呈阳性(即,标志或单倍型的至少一个特定等位 基因存在),那么医生推荐一个特定的疗法,然而如果患者对于标志 或单倍型的至少一个等位基因呈阴性,那么可推荐不同的治疗过程(其 包括不同于疾病进展的系列监控的不进行立即治疗的推荐)。因此, 患者的携带者状态可用于帮助确定是否应当施用特定治疗模式。价值 在于能够在早期诊断疾病,选择最适当的治疗和给临床医师提供关于 疾病的预后/侵袭性的信息以能够应用最适当的方法的可能性。

因此,本发明在某些方面涉及评估人个体对用于预防、治疗和/或减 轻与选自心律失常(选自心房颤动和心房扑动)和中风的病症相关的症 状的治疗剂的反应的概率的方法,其包括获得关于人个体的序列数据, 并且鉴定选自rs7193343、rs7618072、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志的至少一个多态型标志 的至少一个等位基因,其中所述至少一个多态型标志的不同等位基因与 人中对治疗剂的反应的不同概率相关,和根据序列数据测定对所述治疗 剂的阳性反应的概率。

在一个实施方案中,治疗剂选自:抗凝血剂、抗心律失常药、心率 控制剂、心脏复律试剂或心律控制剂。在另一个实施方案中,治疗剂选 自华法林、肝素、低分子肝素、因子Xa抑制剂和凝血酶抑制剂、钠通道 阻滞剂、β阻滞剂、钾通道阻滞剂和钙通道阻滞剂。

在另一个实施方案中,治疗剂选自华法林((RS)-4-羟基-3-(3-氧 -1-苯基丁基)-2H-色原烯-2-酮)、希美加群(2-[[(1R)-1-环己基 -2-[(2S)-2-[[4-(N′-羟基甲脒基)苯基]甲基氨甲酰]氮杂环丁烷-1- 基]-2-氧-乙基]氨基]乙酸乙酯)、肝素、依诺肝素(LMW肝素)、达肝 素、亭扎肝素、阿地肝素、纳屈肝素、瑞肝素、磺达肝素(合成戊多糖; 2-脱氧-6-O-硫代-2-(磺氨基)-α-D-吡喃葡萄糖基-(1→4)-O-β-D-吡 喃葡糖基-(1→4)-O-2-脱氧-3,6-二-O-硫代-2-(磺氨基)-α-D-吡喃葡 萄糖基-(1→4)-O-2-O-硫代-α-L-idopyranouronosyl-(1→4)-O-甲基 -2-脱氧-6-O-硫代-2-(磺氨基)-α-D-吡喃葡萄糖苷,十钠盐)、依达 肝素(九钠(2S,3S,4S,5R,6R)-6-[(2R,3R,4S,5R,6R)-6-[(2R,3S,4S,5R, 6R)-2-羧基-4,5-二甲氧基-6-[(2R,3R,4S,5R,6S)-6-甲氧基-4,5-二磺 酸基氧-2-(磺酸基氧甲基)噁烷-3-基]氧基噁烷-3-基]氧-4,5-二磺酸 基氧-2-(磺酸基氧甲基)噁烷-3-基]氧基-4,5-二甲氧基 -3-[(2R,3R,4S,5R,6R)-3,4,5-三甲氧基-6-(磺酸基甲基)噁烷-2-基] 氧噁烷-2-羧酸盐)、来匹卢定(直接凝血酶抑制剂)、比伐卢定 ((15S,21S,24S,27S,30S)-15-(2-氨基-2-氧乙基)-1-[(2S)-1-{(2S)- 2-[({(2S)-1-[(2R)-2-氨基-3-苯基丙酰基]吡咯烷-2-基}羰基)氨 基]-5-carbamimidamido戊酰基}吡咯烷-2-基]-24-苄基 -30-({(2S,3S)-1-[(2S)-2-{[(2S)-4-羧基-1-{[(2S)-4-羧基 -1-{[(2S)-1-{[(1S)-1-羧基-3-甲基丁基]氨基}-3-(4-羟基苯基)-1- 氧丙烷-2-基]氨基}-1-氧丁烷-2-基]氨基}-1-氧丁烷-2-基]氨甲酰基} 吡咯烷-1-基]-3-甲基-1-氧戊烷-2-基}氨甲酰基)-27-(2-羧基乙 基)-21-(羧基甲基)-1,4,7,10,13,16,19,22,25,28-十氧 -2,5,8,11,14,17,20,23,26,29-十氮杂三十三烷-33-乌苏酸)、阿加曲 班((2R,4R)-1-[(2S)-5-(二氨基甲基亚基氨基)-2-[[(3R)-3-甲基 -1,2,3,4-四氢喹啉-8-基]磺酰基氨基]戊酰基]-4-甲基-哌啶-2-羧 酸)、达那肝素(肝素的衍生物)、丙吡胺(4-(二异丙基氨基)-2-苯基 -2-(嘧啶-2-基)丁酰胺)、莫雷西嗪([10-(3-吗啉-4-基丙酰基)-10H- 丙嗪(phenothiazin)-2-基]氨基甲酸乙酯)、普鲁卡因胺(4-氨基-N-(2- 二乙基氨乙基)苯酰胺)、奎尼丁((9S)-6′-甲氧基cinchonan-9-醇)、 利多卡因(2-(二乙基氨基)-N-(2,6-二甲基苯基)乙酰胺)、美西律 (1-(2,6-二甲基苯氧基)丙烷-2-胺)、妥卡尼(N-(2,6-二甲基苯基) 丙氨酰胺)、苯妥英(5,5-二苯基亚氨基咪唑烷-2,4-二酮)、恩卡尼 (4-甲氧基-N-{2-[1-(哌啶-1-基)丙烷-2-基]苯基}苯酰胺)、氟卡尼 (N-(哌啶-2-基甲基)-2,5-双(2,2,2-四氟乙氧基)苯酰胺)、普罗帕酮 (1-{2-[2-羟基-3-(丙基氨基)丙氧基]苯基}-3-苯基丙烷-1-酮)、阿 义马林((1R,9R,10S,13R,14R,16S,18S)-13-乙基-8-甲基-8,15-二氮杂 六环[14.2.1.01,9.02,7.010,15.012,17]十九-2(7),3,5-三烯-14,18-二醇)、 西苯唑啉(2-(2,2-二苯基环丙基)-4,5-二氢-1H-咪唑)、地他义铵 (7-(3-(二乙基氨基)-2-羟丙基)-17,21-二羟基ajmalanium)、艾司洛 尔(3-{4-[2-羟基-3-(丙烷-2-基氨基)丙氧基]苯基}丙酸甲酯)、普萘 洛尔(2-羟基-3-(萘亚甲基-1-基氧)丙基](丙烷-2-基)胺)、美托洛 尔({2-羟基-3-[4-(2-甲氧基乙基)苯氧基]丙基}(丙烷-2-基)胺)、阿 普洛尔({2-羟基-3-[2-(丙-2-烯-1-基)苯氧基]丙基}(丙烷-2-基)胺)、 阿替洛尔(2-{4-[2-羟基-3-(丙烷-2-基氨基)丙氧基]苯基}乙酰胺)、 卡维地洛([3-(9H-咔唑-4-基氧)-2-羟基丙基][2-(2-甲氧基苯氧基)乙 基]胺)、比索洛尔([2-羟基-3-(4-{[2-(丙烷-2-基氧)乙氧基]甲基} 苯氧基)丙基](丙烷-2-基)胺)、醋丁洛尔(N-{3-乙酰基-4-[2-羟基 -3-(丙烷-2-基氨基)丙氧基]苯基}丁酰胺)、纳多洛尔 ((2R,3S)-5-[3-(叔丁基氨基)-2-羟基丙氧基]-1,2,3,4-四氢萘-2,3- 二醇)、吲哚洛尔([2-羟基-3-(1H-吲哚-4-基氧)丙基](丙烷-2-基)胺)、 拉贝洛尔(2-羟基-5-{1-羟基-2-[(4-苯基丁烷-2-基)氨基]乙基}苯酰 胺)、氧烯洛尔、喷布洛尔(1-(叔丁基氨基)-3-(2-环戊基苯氧基)丙 烷-2-醇)、噻吗洛尔((2S)-1-(叔丁基氨基)-3-[(4-吗啉-4-基-1,2,5- 噻二唑-3-基)氧]丙烷-2-醇)、倍他洛尔((3-{4-[2-(环丙基-甲氧基) 乙基]苯氧基}-2-羟基丙基)(丙烷-2-基)胺)、卡替洛尔(5-[3-(叔-丁 基氨基)-2-羟基丙氧基]-1,2,3,4-四氢喹啉-2-酸)、索他洛尔 (N-{4-[1-羟基-2-(丙烷-2-基氨基)乙基]苯基}甲烷磺酰胺)、左布诺 洛尔(5-(2-羟基-3-叔-丁基氨基-丙氧基)四氢萘-1-酮)、胺碘酮 ((2-{4-[(2-丁基-1-苯并呋喃-3-基)羰基]-2,6-二碘代苯氧基}乙基) 二乙基胺)、阿齐利特(1-({(E)-[5-(4-氯苯基)呋喃-2-基]亚甲基}氨 基)-3-[4-(4-甲基哌嗪-1-基)丁基]亚氨基咪唑烷-2,4-二酮)、溴苄铵 ([(2-溴苯基)甲基](乙基)二甲基铵)、多非利特(N-[4-(2-{[2-(4- 甲烷-磺酰胺苯氧基)乙基](甲基)氨基}乙基)苯基]甲烷磺酰胺)、替地 沙米(3,7-双(环丙基甲基)-3,7-二氮杂螺旋[双环[3.3.1]壬烷-9,1′- 环戊烷])、伊布利特(N-(4-{4-[乙基(庚基)氨基]-1-羟基丁基}苯基) 甲烷-磺酰胺)、司美利特(N-(2-二乙基氨乙基)-4-甲烷磺酰胺苯酰 胺),N-乙酰基普鲁卡因胺(4-乙酰基氨基-N-(2-二乙基氨乙基)苯酰 胺)、盐酸尼非卡兰(6-[2-[N-(2-羟基乙基)-3-(4-硝基苯基)丙基氨 基]乙基氨基]-1,3-二甲基-2,4(1H,3H)-嘧啶二酮盐酸盐)、维那卡兰 ((3R)-1-{(1R,2R)-2-[2-(3,4-二甲氧基苯基)乙氧基]环己基}吡咯 烷-3-醇)、氨巴利特(3-(对-氨基苯甲酰基)-7-苄基-3,7-二氮杂双环 (3.3.1)壬烷)、维拉帕米(2-(3,4-二甲氧基苯基)-5-[2-(3,4-二甲氧 基苯基)乙基-甲基-氨基]-2-丙烷-2-基-戊腈)、贝米拉地尔 ((1S,2S)-2-(2-((3-(1H-苯并[d]咪唑-2-基)丙基)(甲基)氨基)乙 基)-6-氟-1-异丙基-1,2,3,4-四氢萘亚甲基-2-基2-甲氧基乙酸盐)、 地尔硫([2-(2-二甲基氨乙基)-5-(4-甲氧基苯基)-3-氧-6-硫代-2- 氮杂双环[5.4.0]十一-7,9,11-三烯-4-基]乙酸盐)、地高辛 (4-[(3S,5R,8R,9S,10S,12R,13S,14S)-3-[(2S,4S,5R,6R)-5-[(2S,4S ,5R,6R)-5-[(2S,4S,5R,6R)-4,5-二羟基-6-甲基-噁烷-2-基]氧基-4- 羟基-6-甲基-噁烷-2-基]氧基-4-羟基-6-甲基-噁烷-2-基]氧基 -12,14-二羟基-10,13-二甲基-1,2,3,4,5,6,7,8,9,11,12,15,16,17- 十四氢环戊[a]菲-17-基]-5H-呋喃-2-酮)、腺苷((2R,3R,4S,5R)-2-(6- 氨基-9H-嘌呤-9-基)-5-(羟基甲基)氧杂环戊烷-3,4-二醇)、伊布利特 (N-(4-{4-[乙基(庚基)氨基]-1-羟基丁基}苯基)甲烷磺酰胺)、胺碘 酮((2-{4-[(2-丁基-1-苯并呋喃-3-基)羰基]-2,6-二碘代苯氧基}乙基) 二乙基胺)、普鲁卡因胺(4-氨基-N-(2-二乙基氨乙基)苯酰胺)、普 罗帕酮(1-{2-[2-羟基-3-(丙基氨基)丙氧基]苯基}-3-苯基丙烷-1-酮) 和氟卡尼(N-(哌啶-2-基甲基)-2,5-双(2,2,2-三氟乙氧基)苯酰胺)。

本发明的另一个方面涉及预测经诊断患有心律失常和/或中风的个 体的预后的方法,所述方法包括确定获自个体的核酸样品中至少一个多 态型标志的至少一个等位基因的存在或不存在,其中所述至少一个多态 型标志选自rs7193343、rs7618072、rs10077199、rs10490066、 rs10516002、rs10519674、rs1394796、rs2935888、rs4560443、rs6010770 和rs7733337以及与其处于连锁不平衡中的标志,其中所述至少一个等 位基因的存在的确定标示着个体中心律失常和/或中风的恶化预后.

监控经历心律失常(心房颤动、心房扑动)和/或中风的治疗的个体的 治疗进展的方法也在本发明的范围内,所述方法包括确定至少一个多态 型标志的至少一个等位基因在获自个体的核酸样品中的存在或不存在, 其中所述至少一个多态型标志选自rs7193343、rs7618072、rs10077199、 rs10490066、rs10516002、rs10519674、rs1394796、rs2935888、 rs4560443、rs6010770和rs7733337以及与其处于连锁不平衡中的标志, 其中所述至少一个等位基因的存在的确定标示着个体的治疗结果。

本发明还涉及监控心房颤动、心房扑动和/或中风的治疗的进展或 功效的方法。可基于本发明的标志和单倍型的基因型和/或单倍型状 态,即通过评估至少一个本文中所述的多态型标志的至少一个等位基 因的不存在或存在,或通过监控与本发明的变体(标志和单倍型)关 联的基因的表达来进行该方法。可测量组织样品(例如,外周血或活 组织检查样品)中的风险基因mRNA或编码的多肽。因此可在治疗之前 和治疗的过程中测定表达水平和/或mRNA水平以监控其效率。可选择 地或相伴随地,在治疗之前和治疗过程中测定本文中描述的至少一个 风险变体的基因型和/或单倍型状态以监控其效率。

可选择地,与本发明的标志和单倍型相关的生物网络或代谢途径 可通过测定mRNA和/或多肽水平来监控。可以例如通过监控属于网络 和/或途径的一些基因在治疗前和治疗过程中采集的样品中的表达水 平或多肽来进行该监控。可选择地,可在治疗前和治疗过程中测定属 于生物网络或代谢途径的代谢产物。通过将治疗过程中观察到的表达 水平/代谢产物水平的变化与来自健康受试者的相应数据相比较来测 定治疗的功效。

在另外的方面,可将本发明的标志用于增加临床试验的效力和功 效。因此,作为至少一个本发明的有风险的变体的携带者的个体可以 更可能地对特定治疗模式作出有利反应。在一个实施方案中,携带特 定治疗(例如,小分子药物)所靶向的途径和/或代谢网络中的基因的 有风险的变体的个体更可能是所述治疗的反应者。在另一个实施方案 中,携带表达和/或功能被有风险的变体改变的基因的有风险的变体的 个体更可能是靶向该基因、其表达或其基因产物的治疗模式的反应者。 该应用可提高临床试验的安全性,而且还可增加临床试验显示统计学 上显著的功效(所述临床试验可限定于群体的某个亚群)的机会。因 此,这样的试验的一个可能的结果是某些遗传变型例如本发明的标志 和单倍型的携带者在统计学上显著地可能显示对治疗剂的阳性反应, 即当采用处方规定的治疗剂或药物时,经历症状的减轻。

在另外的方面,本发明的标志和单倍型可用于靶向用于特定个体 的治疗剂的选择。治疗模式的个人化选择、生活方式的改变或生活方 式的改变和特定治疗的施用的组合可通过利用本发明的有风险的变体 来实现。因此,就本发明的特定标志而言的个体状态的知识可用于选 择治疗选择,所述治疗选择靶向受本发明的有风险的变体影响的基因 或基因产物。在某些实施方案中,所述基因或基因产物是ZFHX3基因 或其基因产物。变体的某些组合可适用于治疗选择的一个选择,然而 其它基因变体组合可靶向其它治疗选择。这样的变体组合可包括1个 变体、2个变体、3个变体或4个或更多个变体,视以临床上可靠的准 确性确定治疗模式的选择所需。

计算机实现的方面

如本领域普通技术人员所理解的,可以完全或部分地按照已知的 计算机可读介质上的计算机可执行指令实现本文中描述的方法和信 息。例如,可以硬件实现本文中描述的方法。可选择地,所述方法可 以存储在例如一个或多个存储器或其它计算机可读介质中的软件并在 一个或多个处理器上实现。如已知的,处理器可与计算机系统的一个 或多个控制器、计算单元和/或其它单元连接,或需要时植入固件中。 如果以软件实现,可将例程(routine)存储在任何计算机可读存储器 例如RAM、ROM、闪存、磁盘、光盘或其它存储介质中,这也是已知的。 同样地,可通过任何已知的传送方法包括例如利用通信通道例如电话 线、因特网、无线连接等或通过可移动介质例如计算机可读盘、U盘 (flash drive)等将该软件传送至计算装置。

更常见地,且如本领域普通技术人员所理解的,上述各种步骤可 作为依次可以硬件、固件、软件或硬件、固件和/或软件的任意组合实 现的各种块、操作、工具、模块和技术来实现。当以硬件实现时,一 些或全部块、操作、技术等可以在例如定制的集成电路(IC)、专用 集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、可编程逻辑阵列 (PLA)等中执行。

当以软件实现时,该软件可存储于任何已知的计算可读介质例如 计算机的RAM或ROM或闪存、处理器、硬盘驱动器、光盘驱动器、磁 带驱动器等中的磁盘、光盘或其它存储介质中。同样地,该软件通过 任何已知的传送方法包括例如在计算可读盘或其它可移动计算机存储 机械装置上可传送至用户或计算系统。

图1举例说明适当的计算系统环境100的实例,在该计算系统环 境上可实现用于所要求的方法步骤和装置的系统。计算系统环境100 只是适当的计算环境的一个实例并且无意表示对权利要求的方法或装 置的用途或功能性的范围的任何限制。计算环境100不应当被解释为 对示例性操作环境100中举例说明的组件的任一个和其组合具有任何 依赖性或需要。

所要求的方法和系统的步骤是用众多一般性用途或特殊性用途 的计算系统环境或配置运行的。可适用于所要求的方法或系统的熟知 的计算系统、环境和/或配置的实例包括但不限于个人计算机、服务器 计算机、手提式或便携式设备、多处理器系统、基于微处理器的系统、 机顶盒(set top box)、可编程消费类电子产品、网络PC、微型计 算机、大型计算机、包括上述系统或装置的任一个的分布式计算环境, 等等。

所要求的方法和系统的步骤可描述于计算机可执行指令的一般 背景中,例如可由计算机执行的程序模块。通常,程序模块包括进行 特定任务或执行特定抽象数据类型的例程、程序、对象、组件 (component)、数据结构等。还可在其中利用通过通讯网络连接的远 程处理设备进行任务的分布式计算环境中实践所述方法和装置。在集 成式和分布式计算环境中,程序模块可位于本地和远程计算机存储介 质包括记忆储存装置。

参考图1,用于实现所要求的方法和系统的步骤的示例性系统包 括以计算机110的形式存在的一般性用途的计算装置。计算机110的 组件可包括但不限于处理单元120、系统内存130和将各种系统组件 (包括系统内存)连接至处理单元120的系统总线121。系统总线121 可以是几种类型的总线结构(包括使用多种总线体系结构的任一种的 存储器总线或存储控制器、外围总线和局部总线)的任何类型。例如, 但不限于,此类体系结构包括工业标准结构(ISA)总线、微通道结构 (MCA)总线、扩展的ISA(EISA)总线、视频电子标准协会(VESA) 局部总线和互连外围设备(PCI)总线(也称为夹层总线)。

计算机110通常包括多种计算机可读介质。计算机可读介质可以 是任何可获得的可由计算机110读取的介质,包括易失性和非易失性 介质、可移动和不可移动介质。例如但非限制性的,计算机可读介质 可包括计算机存储介质和通讯介质。计算机存储介质包括在任何方法 或技术中实现的用于存储信息例如计算机可读指令、数据结构、程序 模块或其它数据的易失性和非易失性介质、可移动和不可移动介质。 计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技 术、CD-ROM、数字多功能光盘(digital versatile disk)(DVD) 或其它光盘存储器、磁盒(magnetic cassette)、磁带、磁盘存储器 或其它磁存储器装置,或可用于存储期望的信息并且可由计算机110 读取的任何其它介质。通讯介质通常包括计算机可读指令、数据结构、 程序模块或调制数据信号(modulated data signal)例如载波或其它 传送机械装置中的其它数据并包括任何信息传送介质。术语“调制数 据信号”意指具有一个或多个其特征集合或以将信息编码在信号中的 方式改变的信号。例如但非限制性的,通讯介质包括有线介质例如有 线网络或直线连接和无线介质例如声音(acoustic)、射频、红外和 其它无线介质。任何上述介质的组合也应当包括在计算机可读介质的 范围内。

系统内存130包括以易失性和/或非易失性存储器例如只读存储 器(ROM)131和随机存取存储器(RAM)132的形式存在的计算机存储 介质。包含帮助例如在起动过程中在计算机110内的元件之间传递信 息的基本例程的基本输入/输出系统133(BIOS)通常被存储在ROM 131 中。RAM 132通常包含可由处理单元120立即可读取的和/或即可被运 行的数据和/或程序。例如但非限制性的,图1举例说明了操作系统 134、应用程序135、其它程序模块136和程序数据137。

计算机110还可包括其它可移动/不可移动、易失性/非易失性计 算机存储介质。仅作为示例,图1举例说明了从不可移动的非易失性 磁介质读取或写入的硬盘驱动器140,从可移动的非易失性磁盘152 读取或写入的磁盘驱动器151和从可移动非易失性光盘156例如CD ROM或其它光学介质读取或写入的光盘驱动器155。可用于示例性运行 环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括 但不限于盒式磁带、闪速存储卡、数字多功能盘、数字录像带、固态 RAM、固态ROM等。通常通过不可移动存储器接口例如接口140将硬盘 驱动器141连接至系统总线121,以及通常通过可移动存储器接口例 如接口150将磁盘驱动器151和光盘驱动器155连接至系统总线121。

上述和图1中举例说明的驱动器和其相关计算机存储介质提供了 用于计算机110的计算机可读指令、数据结构、程序模块和其它数据 的存储。在图1中,硬盘驱动器141被举例说明来存储操作系统144、 应用程序145、其它程序模块146和程序数据147。要指出的是,这些 组件可以与操作系统134、应用程序135、其它程序模块136和程序数 据137相同或不同。在此处给操作系统144、应用程序145、其它程序 模块146和程序数据147提供不同的编号以举例说明至少它们是不同 的拷贝。用户可通过输入装置例如键盘162和点击设备(pointing  device)161(通常称为鼠标、随访球或触控垫(touch pad))将命 令和信息输入计算机20。其它输入装置(未显示)可包括麦克风、操 纵杆、游戏键盘(game pad)、卫星碟(satellite dish)、扫描仪 等。通常将此类和其它输入装置通过连接至系统总线的用户输入接口 160连接至处理单元120,但也可通过其它接口和总线结构例如并行端 口、游戏口或通用串行总线(USB)连接。还可通过接口例如视频接口 190将监视器191或其它类型的显示装置连接至系统总线121。除了监 视器外,计算机还可包括其它外围输出设备例如扬声器197和打印机 196,其可通过输出外部接口190连接。

计算机110可使用至一个或多个远程计算机例如远程计算机180 的逻辑连接来在网络环境中运行。远程计算机180可以是个人计算机、 服务器、路由器、网络PC、同级装置(peer device)或其它公用网 络结点,并且通常包括相对于计算机110许多或全部上述元件,虽然 在图1中只举例说明了记忆存储设备181。图1中描述的逻辑连接包 括局域网(LAN)171和广域网(WAN)173,但还可包括其它网络。此 类网络环境在办公室、企业范围的计算机网络、企业内部互联网和因 特网中是很平常的。

当在LAN网络环境中使用时,通过网络接口或适配器170将计算 机110连接至LAN 171。当在WAN网络环境中使用时,计算机110通 常包括调制解调器172或用于建立利用WAN 173例如因特网的通讯的 其它方法。可通过用户输入接口160或其它适当的机械装置将可以是 内部或外部的调制解调器172连接至系统总线121。在网络环境中, 可将相对于计算机110或其部分描述的程序模块存储在远程记忆存储 设备中。例如但非限制性的,图1举例说明了如存在于存储设备181 中的远程应用程序185。应理解,显示的网络连接是示例性的并且可 使用建立于计算机之间的通讯连接的其它方法。

虽然上述正文显示了本发明的许多不同实施方案的详细描述,但 应当理解,本发明的范围由本专利的末尾处所示的权利要求的言语表 达来界定。详细描述将被解释为仅为示例性的并且不描述本发明的每 一个可能的实施方案,因为描述每一个可能的实施方案将是不现实的, 如果不是不可能的话。可使用现有技术或在本专利提交日期后发展的 技术(其仍然落在界定本发明的权利要求的范围内)实现许多可选择 的实施方案。

虽然已描述优选以软件实施风险评估系统和方法以及其它组成 部分,但也可以硬件、固件等实施它们,以及可通过任何其它处理器 实施它们。因此,可以在标准多用途CPU或专门设计的硬件或固件例 如专用集成电路(ASIC)或其它硬线设备(需要时)中(包括但不限 于图1的计算机110)实施本文中描述的组成部分。当在软件中实施 时,可将软件例程存储于任何计算机可读存储器中例如存储在磁盘、 光盘或其它存储介质中,于计算机或处理器的RAM或ROM中,于任何 数据库等中。同样地,可将该软件通过任何已知的或期望的传送方法 传送至用户或诊断系统,所述传送方法包括例如在计算机可读盘或其 它便携式计算机存储机械装置上或利用通讯通道例如电话线、因特网、 无线通讯等(这可被视为与通过便携式存储介质提供此类软件相同或 可与其互换)。

因此,在本文中描述的和举例说明的技术和结构中可进行许多变 动和变化而不背离本发明的精神和范围。因此,应当理解,本文中描 述的方法和装置仅是举例说明性的并且不限定本发明的范围。

因此,本发明涉及使用本文中描述的多态型标志和单倍型和来源 于其的基因型和/或疾病相关数据的计算机实现的应用。此类应用可用 于存储、处理或分析用于本发明的方法的基因型数据。一个实例涉及 将来源于个体的基因型信息存储在可读介质上,以使能够给第三方(例 如,个体、个体的监护人、卫生保健提供者或遗传分析服务提供者) 提供基因型信息,或用于从基因型数据获取信息,例如通过将基因型 数据与关于促成增加的患选自心房颤动、心房扑动和中风的病症的易 感性的遗传风险因素的信息相比较并且报告基于此类比较的结果。

在某些实施方案中,计算机可读介质包括存储(i)如本文中描述的 至少一个多态型标志或单倍型的标识符信息;(ii)患有特定病症或疾 病的个体中所述至少一个标志的至少一个等位基因的频率(例如,存 在或不存在)或单倍型频率的指标;和(iii)与标志或单倍型关联的风 险(例如,由特定等位基因或单倍型赋予的风险)的指标的能力。

本文中描述的与增加的对病症例如心房颤动、心房扑动和/或中风 的易感性(例如,增加的风险度)的标志和单倍型在某些实施方案中 用于解释和/或分析基因型数据。因此在某些实施方案中,如本文中显 示的针对此类病症的有风险的等位基因或与此类标志的任一个处于 LD中的多态型标志上的等位基因的鉴定标示着作为基因型数据源的 个体处于增加的患所述病症的风险中。在一个这样的实施方案中,产 生至少一个本文中显示的与心房颤动、心房扑动和/或中风关联的多态 型标志或与其处于连锁不平衡中的标志的基因型数据。然后例如通过 可利用因特网访问的用户界面,使第三方可一起获得该基因型数据和 以例如疾病的风险度测量(例如绝对风险度(AR)、风险比(RR)或 比值比(OR))的形式存在的基因型数据的解释,所述第三方例如作 为数据源的个体、他/她的监护人或代理人、医生或卫生保健工作者、 遗传咨询顾问或保险代理。在另一个实施方案中,评估在来源于个体 的基因型数据集中鉴定的有风险的标志,并且例如通过安全性网络界 面或通过其它通讯方法,使第三方可获得由此类有风险的变体在数据 集中的存在赋予的风险度的评估的结果。可以以数值形式(例如,以 风险度值,例如绝对风险度、相对风险度和/或比值比,或利用与参照 相比较风险度的百分数增加)、通过图解方式或通过适合于举例说明 对作为基因型数据源的个体的风险性的其它方式报告这样的风险评估 的结果。

核酸和多肽

可将本文中描述的核酸和多肽用于本发明的方法和试剂盒。“分 离的”核酸分子,如本文中所使用的,是与通常侧翼连接基因或核苷 酸序列(例如在基因组序列中)的核酸分离的和/或已从其它转录的序 列(例如,当在RNA文库中时)完全或部分纯化的核酸。例如,本发 明的分离的核酸可基本上相对于其中天然存在的复杂细胞环境、或当 通过重组技术产生时的培养基,或当化学合成时的化学前体或其它化 学品而分离。在一些情况下,所述经分离的材料会形成组合物(例如, 包含其它物质的粗制提取物)、缓冲系统或试剂混合物的一部分。在 其它情况下,所述材料可被纯化至基本上同质,例如如通过聚丙烯酰 胺凝胶电泳(PAGE)或柱层析(例如,HPLC)所测定的。本发明的分 离的核酸分子可包含至少约50%,至少约80%或至少约90%(基于 摩尔数)的所有存在的大分子种类。就基因组DNA而言,术语“分离 的”还可指从与所述基因组DNA天然相关联的染色体分离的核酸分子。 例如,分离的核酸分子可包含小于约250kb、200kb、150kb、100kb、 75kb、50kb、25kb、10kb、5kb、4kb、3kb、2kb、1kb、0.5 kb或0.1kb的核苷酸,所述核苷酸侧翼连接作为所述核酸分子来源 的细胞基因组DNA中的核酸分子。

所述核酸分子可被融合至其它编码或调控序列并且仍然被认为 是分离的。因此,载体中包含的重组DNA包括在本文中使用的“分离 的”的定义内。此外,分离的核酸分子包括异源宿主细胞或异源生物 中的重组DNA分子,以及溶液中部分或基本上纯化的DNA分子。“分 离的”核酸分子还包括本发明的DNA分子的体内和体外RNA转录物。 分离的核酸分子或核苷酸序列可包括通过化学或通过重组方法合成的 核酸分子或核苷酸序列。此类分离的核苷酸序列用于例如经编码的多 肽的制造,用作分离同源序列(例如,从其它哺乳动物物种)的探针, 用于基因定位(例如,通过与染色体原位杂交)或用于检测组织(例 如,人组织)中基因的表达(例如通过Northern印迹分析或其它杂交 技术)。

本发明还涉及在高严格度杂交条件下与本文中描述的核苷酸序 列杂交(例如用于选择性杂交)的核酸分子(例如,与包含与本文中 描述的标志或单倍型关联的多态型位点的核苷酸序列特异性杂交的核 酸分子)。此类核酸分子可通过等位基因-或序列-特异性杂交(例如, 在高严格度条件下)检测和/或分离。用于核酸分离的严格条件和方法 是本领域技术人员熟知的(参见,例如,Current Protocols in  Molecular Biology,Ausubel,F.等人,John Wiley & Sons,(1998) 和Kraus,M.and Aaronson,S.,Methods Enzymol.,200:546-556 (1991),其全部教导通过此引用合并入本文。

可通过就最佳比较目的比对序列(例如,可在第一序列的序列中 引入缺口)来测定两个核苷酸或氨基酸序列的百分数同一性。然后比 较相应位置上的核苷酸或氨基酸,并且两个序列之间的百分数同一性 是由序列共有的相同位置的数目的函数(即,同一性%=相同位置的 #/总位置#x 100)。在某些实施方案中,就比较目的比对的序列的长 度是参照序列的长度的至少30%、至少40%、至少50%、至少60%、 至少70%、至少80%、至少90%或至少95%。可通过熟知的方法, 例如,使用数学算法实现两个序列的实际比较。这样的数学算法的非 限定性实例描述于Karlin,S.和Altschul,S.,Proc.Natl.Acad. Sci.USA,90:5873-5877(1993)中。将这样的算法合并入NBLAST和 XBLAST程序(版本2.0)中,如Altschul,S.等人,Nucleic Acids Res., 25:3389-3402(1997)中所描述的。当使用BLAST和Gapped BLAST程 序时,可使用各自程序(例如,NBLAST)的缺省参数。参见 ncbi.nlm.nih.gov上的万维网上的网站。在一个实施方案中,可将用 于序列比较的参数设置在评分=100、字长=12,或可变化(例如,W=5 或W=20)。算法的另一个实例是BLAT(Kent,W.J.Genome Res. 12:656-64(2002))。

其它实例包括Myers和Miller,CABIOS(1989)的算法,于 Torellis,A.和Robotti,C.,Comput.Appl.Biosci.10:3-5(1994) 中描述的ADVANCE和ADAM以及于Pearson,W.和Lipman,D.,Proc. Natl.Acad.Sci.USA,85:2444-48(1988)中描述的FASTA。

在另一个实施方案中,可使用GCG软件包(Accelrys,Cambridge, UK)中的GAP程序获得两个氨基酸序列之间的百分数同一性。

本发明还提供了分离的核酸分子,所述核酸分子包含在高度严格 条件下与包含或由LD区段C16的核苷酸序列组成的核酸、或包含或由 LD区段C16的核苷酸序列的互补序列组成的核苷酸序列杂交的片段或 部分,其中所述核苷酸序列包含本文中描述的标志和单倍型中包含的 至少一个多态型等位基因。本发明的核酸片段为至少约15个、至少约 18、20、23或25个核苷酸,并且在长度上可为30、40、50、100、200、 500、1000、10,000或更多个核苷酸。

将本发明的核酸片段在测定例如本文中描述的测定中用作探针 或引物。“探针”或“引物”是以碱基特异性方式与核酸分子的互补 链杂交的寡核苷酸。除了DNA和RNA外,此类探针和引物包括多肽核 酸(PNA),如Nielsen,P.等人,Science 254:1497-1500(1991)中所 描述的。探针或引物包含与核酸分子的至少约15个,通常约20-25 个以及在某些实施方案中约40、50或75个连续核苷酸杂交的核酸序 列的区域。在一个实施方案中,探针或引物包含本文中描述的至少一 个多态型标志的至少一个等位基因或至少一个单倍型,或其互补序列。 在特定实施方案中,探针或引物可包含100个或更少的核苷酸;例如, 在某些实施方案中6至50个核苷酸,例如12至30个核苷酸。在其它 实施方案中,探针或引物与连续核苷酸序列或与所述连续核苷酸序列 的互补序列至少70%同一,至少80%同一,至少85%同一,至少90% 同一或至少95%同一。在另一个实施方案中,探针或引物能够与连续 核苷酸序列或与所述连续核苷酸序列的互补序列选择性杂交。通常, 探针或引物还包含标记物,例如放射性同位素、荧光标记物、酶标记 物、酶辅因子标记物、磁标记物、自旋标记物、表位标记物。

可使用本领域技术人员熟知的标准分子生物学技术鉴定和分离 本发明的核酸分子例如上述核酸分子。可标记(例如,放射性标记、 荧光标记)扩增的DNA并且将其用作筛选来源于人细胞的cDNA文库的 探针。cDNA可来源于mRNA并包含在适当的载体中。可分离相应的克 隆,在体内切除后获得的DNA,并且可通过本领域公认的鉴定编码适 当分子量的多肽的正确阅读框架的方法在任一或两个方向上测定克隆 的插入物的序列。通过使用此类或相似的方法,可分离多肽和编码所 述多肽的DNA,测序并进一步表征。

抗体

本发明还提供了结合包含由变异等位基因编码的变异氨基酸序列 (例如,包含氨基酸置换)或由相应的非变异或野生型等位基因编码的 参照氨基酸序列的表位的抗体。本文中使用的术语“抗体”意指免疫 球蛋白分子和免疫球蛋白分子的免疫活性部分,即,包含特异性结合 抗原的抗原结合部位的分子。特异性结合本发明的多肽的分子是结合 该多肽或其片段但基本上不结合样品例如生物样品(所述样品天然包 含多肽)中的其它分子的分子。免疫球蛋白分子的免疫活性部分的实 例包括F(ab)和F(ab′)2片段,其可通过用酶例如胃蛋白酶处理抗体来 产生。本发明提供了结合本发明的多肽的多克隆和单克隆抗体。本文 中使用的术语“单克隆抗体”或“单克隆抗体组合物”意指只包含一 种能够与本发明的多肽的特定表位免疫反应的抗原结合部位的抗体分 子的群体。因此单克隆抗体组合物通常展示对于与其免疫反应的本发 明的特定多肽的单一结合亲和力。

可如上所述通过用期望的免疫原例如本发明的多肽或其片段免 疫适当的受试者来制备多克隆抗体。可在一段时间内利用标准方法, 例如使用固定多肽的酶联免疫吸附测定(ELISA)来监控已免疫的受试 者中的抗体滴度。需要时,可从哺乳动物(例如,从血液)分离针对 多肽的抗体分子,然后通过熟知的技术例如A蛋白层析进行纯化以获 得IgG级分。在免疫后适当的时间,例如,当抗体滴度最高时,可从 受试者获得抗体产生性细胞,并且利用标准技术将其用于制备单克隆 抗体,所述标准技术是例如最初由Kohler和Milstein,Nature  256:495-497(1975)描述的杂交瘤技术、人B细胞杂交瘤技术(Kozbor 等人,Immunol.Today 4:72(1983))、EBV-细胞杂交瘤技术(Cole 等人,Monoclonal Antibodies and Cancer Therapy,Alan R.Liss, 1985,Inc.,pp.77-96)或三源杂交瘤技术。用于产生杂交瘤的技术 是熟知的(通常参见Current Protocols in Immunology(1994) Coligan等人,(eds.)John Wiley & Sons,Inc.,New York,NY)。 简而言之,将永生化细胞系(通常骨髓瘤)融合至来自上述用免疫原 免疫的哺乳动物的淋巴细胞(通常脾细胞),然后筛选所得杂交瘤细 胞的培养上清液以鉴定产生结合本发明的多肽的单克隆抗体的杂交 瘤。

可将用于融合淋巴细胞和永生化细胞系的许多熟知的方案的任 一方案用于产生针对本发明的多肽的单克隆抗体的目的(参见,例如, Current Protocols in Immunology,同上;Galfre等人,Nature  266:55052(1977);R.H.Kenneth,in Monoclonal Antibodies:A New  Dimension In Biological Analyses,Plenum Publishing Corp., New York,New York(1980);和Lerner,Yale J.Biol.Med.54:387-402 (1981))。此外,本领域技术人员将理解此类方法的许多变型也是有 用的。

作为制备单克隆抗体分泌性杂交瘤的替代方法,可通过用多肽筛 选重组组合免疫球蛋白文库(例如,抗体噬菌体展示文库)从而分离 结合所述多肽的免疫球蛋白文库成员来鉴定和分离针对本发明的多肽 的单克隆抗体。用于产生和筛选噬菌体展示文库的试剂盒是商购可得 的(例如,the Pharmacia Recombinant Phage Antibody System, Catalog No.27-9400-01;和Stratagene SurfZAPTM Phage Display 试剂盒,Catalog No.240612)。此外,特别易于用于产生和筛选抗体 展示文库的方法和试剂的实例可见于例如美国专利5,223,409;PCT 公开案WO 92/18619;PCT公开案WO 91/17271;PCT公开案WO 92/20791; PCT公开案WO 92/15679;PCT公开案WO 93/01288;PCT公开案WO  92/01047;PCT公开案WO 92/09690;PCT公开案WO 90/02809;Fuchs 等人,Bio/Technology 9:1370-1372(1991);Hay等人,Hum.Antibod. Hybridomas 3:81-85(1992);Huse等人,Science 246:1275-1281 (1989)和Griffiths等人,EMBO J.12:725-734(1993)中。

此外,重组抗体例如包含人和非人部分的嵌合和人源化单克隆抗 体(其可使用标准重组DNA技术制备)在本发明的范围内。可通过本 领域内已知的重组DNA技术产生此类嵌合和人源化单克隆抗体。

一般地,可将本发明的抗体(例如,单克隆抗体)用于利用标准 技术例如亲和层析或免疫沉淀分离本发明的多肽。多肽特异性抗体可 帮助纯化来自细胞的天然多肽和在宿主细胞中表达的重组产生的多 肽。此外,特异于本发明的多肽的抗体可用于检测所述多肽(例如, 在细胞裂解物、细胞上清液或组织样品中)以评估多肽的丰度和表达 模式。可在诊断上使用抗体监控组织中蛋白质的水平(作为临床检测 方法的一部分)例如以例如测定给定的治疗方案的功效。还可将抗体 与可检测物质偶联以帮助其检测。可检测物质的实例包括各种酶、辅 基、荧光材料、发光材料、生物发光材料和放射性材料。适当的酶的 实例包括辣根过氧化物酶、碱性磷酸酶、β-半乳糖苷酶或乙酰胆碱酯 酶;适当的辅基复合物的实例包括链霉抗生物素蛋白/生物素和抗生物 素蛋白/生物素;适当的荧光材料的实例包括伞形酮、荧光素、异硫氰 酸荧光素、罗丹明、二氯三嗪胺(dichlorotriazinylamine)荧光素、 丹磺酰氯或藻红蛋白;发光材料的实例包括鲁米诺;生物发光材料的 实例包括荧光素酶、萤光素和水母荧光素以及适当的放射性材料的实 例包括125I、131I、35S或3H。

抗体还可用于药物基因组学分析。在此类实施方案中,抗体由根 据本发明的核酸编码的变异蛋白例如由包含至少一个本发明的多态型 标志的核酸编码的变异蛋白的抗体,可用于鉴定需要改进的治疗模式 的个体。

抗体还可用于评估疾病状态中例如疾病的活动期中或具有对与 变异蛋白(例如,ZFHX3蛋白)的功能相关的疾病的易感性的个体中 所述变异蛋白的表达。特异于本发明的变异蛋白(其由包含至少一个 本文中描述的多态型标志或单倍型的核酸编码)的抗体可用于筛查变 异蛋白的存在,例如以筛查对心房颤动、心房扑动和/或中风的易感性, 如由所述变异蛋白的存在所表明的。

抗体可用于其它方法。因此,抗体用作与利用电泳迁移率、等电 点、胰蛋白酶或其它蛋白酶降解的分析结合用于评估蛋白质(例如本 发明的变异蛋白)或用于本领域技术人员已知的其它物理测定的诊断 工具。抗体还可用于组织分型。在一个这样的实施方案中,已将特定 变异蛋白与特定组织类型中的表达发生关联,因此可将特异于变异蛋 白的抗体用于鉴定特定组织类型。

还可使用抗体确定蛋白质包括变异蛋白的亚细胞定位,所述蛋白 质的亚细胞定位还可用于评估蛋白质在不同组织的细胞中的异常亚细 胞定位。此类用途可用于基因测定,而且还可用于监控特定治疗模式。 在其中治疗的目的在于矫正变异蛋白的表达水平或存在或者变异蛋白 的异常组织分布或发育表达的情况下,特异于变异蛋白或其片段的抗 体可用于监控治疗功效。

抗体还用于例如通过阻断变异蛋白对结合分子或伴侣的结合来 抑制变异蛋白的功能。此类用途还可用于其中治疗包括抑制变异蛋白 的功能的治疗背景。还可将抗体例如用于阻断或竞争性抑制结合,从 而调控(激动或拮抗)蛋白质的活性。可制备抗包含进行特定功能所 需的位点的特定蛋白质片段或抗与细胞或细胞膜结合的完整蛋白质的 抗体。为了进行体内施用,可将抗体与另外的治疗有效载荷 (therapeutic payload)例如放射性核素、酶、免疫原性表位或细胞 毒性剂(包括细菌毒素(白喉或植物毒素,例如蓖麻蛋白))连接。 可通过缀合至聚乙二醇的PEG化来增加抗体或其片段的体内半衰期。

本发明还涉及在本文中描述的方法中使用抗体的试剂盒。这包括 但不限于用于检测变异蛋白在测试样品中的存在的试剂盒。一个优选 实施方案包括抗体例如标记的或可标记的抗体和用于检测生物样品中 的变异蛋白的化合物或试剂,用于测定样品中变异蛋白的量或存在和/ 或不存在的方法以及用于将样品中变异蛋白的量与标准相比较的方 法,以及试剂盒使用说明书。

本发明现通过下列非限定性实施例来举例说明。

实施例1

心房颤动(AF)是对于1/4的40岁及以上的男性和女性具有终生危 险的常见病症(Lloyd-Jones,D.M.等人Circulation 110,1042-6 (2004))。所述疾病具有显著的死亡率以及发病率并且是心因性中风 (CES)(缺血性中风(IS)的一个形式)的主要风险因子。AF使所有年龄 组的中风风险增加4至5倍并且占据10-15%的所有IS(Lip,G.Y.&  Boos,.Heart 92,155-61(2006))。

以前冰岛的全基因关联研究鉴定了接近染色体4q25上的PITX2基 因的序列变体,其赋予AF和心房扑动(AFI)的风险(Gudbjartsson,D.F. 等人Nature 448,353-7(2007))。为了寻找与AF关联的其他变体, 我们将该关联研究的冰岛样本容量增加至2385个AF/AFI病例和33752 个对照。在了随访研究中,我们使用如下文中描述的欧洲人祖先的其他 研究组。

方法

研究群体-心房颤动

冰岛人:本研究包括1987至2008年的Reykjavik的Landspitali  University医院(冰岛的唯一的三级转诊中心(tertiary referral  centre)和Akureyri Regional医院(冰岛的第二大医院)中的经诊断 患有AF和/或AFI(国际疾病分类(ICD)10代码I48和ICD9代码427.3) 的所有患者。利用12导联心电图(ECG)确认所有诊断。除了只在心脏 手术后立即发生的AF/AFI病例外,包括所有AF/AFI病例。按照我们的 质量控制标准成功地对一组2385个病例(1411个男性和973个女性)进 行了基因分型。首次诊断时的平均年龄为72.9(SD=12.0)岁。989个患 者(661个男性和328个女性)的随访组在诊断时具有67.0(SD=13.5)岁 的平均年龄。本研究中使用的无AF/AFI对照(在初始全基因组筛查时 13960个男性和19783个女性以及在随访阶段1137个男性和890女性) 由随机选自冰岛系谱数据库的对照和来自其他在deCODE正在进行相关 的但非心血管的遗传研究的个体组成。将具有患AF/AFI的一级亲属(同 胞兄弟姐妹、父母或后代)或一级对照亲属的对照从分析中排除。研究 由冰岛信息保护专局(Data Protection Commission of Iceland) 和冰岛国家生物伦理委员会批准。从所有患者、亲属和对照获得书面 知情同意。与医学资料和血液样品相随的个人身份标识号(Personal  identifiers)用之前描述的第三方加密系统加密(Grant,S.F.等人, Nat Genet38,320-3(2006))。

挪威人:研究是在挪威的市当局通过反复的卫生调 查进行的基于群体的前瞻性研究。到目前为止,已检查了50000多个个 体。通过疾病和死亡的登记和确认在个体水平上对群体进行随访,已建 立了CVD的终点登记。已从的University Hospital of North  Norway取回CVD的出院诊断列表,并且已审阅了具有CV出院诊断的所 有个体的医疗记录(包括医院日志外的对门诊部的访问、尸体解剖记录 和死亡证)。

已将1986-2004年的AF登记为研究中正在进行的CV终点 登记的部分。我们搜索ICD-9代码427.0(阵发性室上性心动过速(SVT)) 和427.3(AF)以及ICD-10代码I47.1(SVT)和I48(AF/AFI)的出院诊 断登记。记录第一ECG验证的AF的数据,以及所述AF是阵发性的、慢 性的(持久或永久性的)还是未知类型的。我们还在病例组中包含AFI。 记录只具有术后AF(在手术后28以内)的患者,但不包括为病例。如果 AF在手术后期间发生,但然后持续为阵发性或慢性AF,那么将该受试 者包括为病例。对于当前项目,我们从基于群体的4调查得到 AF的每一个病例的一个性别和年龄匹配的对照。我们还调查对照的医院 记录并且排除所有具有可能的AF、AFI、SVT和其他确定的心律失常的 病例。

美国人:来自美国的所有研究受试者从Vanderbilt AF登记处 (Nashville,Tennessee的Vanderbilt University医学中心的临床和 遗传登记处)招募而来。在至登记处注册时,从所有患者获得详细的医 疗和用药史,患者也被要求完成症状问卷。将具有只与心脏手术相关的 AF史的患者从本研究中排除。在由Vanderbilt University的对伦理 审查委员会批准的方案下从全部受试者获得书面知情同意。

香港人:香港研究群体中的全部受试者为祖先居住在香港的南方 汉族中国人。病例由选自Prince of Wales医院糖尿病登记处(Yang,X. 等人,Diabetes Care30,65-70(2007))的217个个体(49.1%男性, 平均年龄68.1岁(SD=9.6))和来自中风登记处(Baum,L.等人,Clin  Chem Lab Med42,1370-6(2004))的116个受试者(30.2%男性,平均年 龄76.1岁(SD=10.9))组成。全部受试者经ECG诊断为患有AF。对照由 2836个无AF证据的受试者组成。获得每一个参与受试者的书面知情同 意。本研究由香港中文大学的临床研究伦理委员会批准。

研究群体-中风

冰岛人:冰岛中风患者招募自Landspitali University医院 (Reykjavik的唯一大学医院)于1993至2006年之间的4000多个经诊 断患有缺血性中风或短暂性脑缺血发作(TIA)的个体的登记处。中风患 者招募自1998以来在deCODE进行心脏血管疾病(CVD)遗传学项目的患 者(平均年龄±SD:77.2±11.3岁,对于整个样品组45%女性)。由神经 病学家基于中风的常规WHO标准(Report of the WHO Task Force on  Stroke and other Cerebrovascular Disorders.Stroke20,1407-31 (1989))和图像证据临床确认中风诊断。研究由冰岛信息保护专局(DPC) 和冰岛国家生物伦理委员会批准。所有参与者提供知情同意。

瑞典人:作为正在进行的遗传流行病学研究(南斯德哥尔摩缺血性 中风研究(SSISS))的部分,从1996至2002年招募参加Karolinska  University医院的中风单元或中风门诊诊所(Stockholm,Sweden的 Huddinge单元)的具有缺血性中风的瑞典患者(平均年龄±SD:67.3± 11.8岁,44%女性)。本研究中使用的瑞典人对照是从与患者相同的瑞典 中部地区招募的基于群体的对照,其代表了该地区的一般群体。个体是 在Huddinge或Karolinska University医院招募的血液供者或由 Karolinska University医院的临床化学系招募的代表正常参照群体的 健康志愿者(于1990-1994招募的)。研究由Karolinska Institute 的生物伦理委员会批准。

德国人:称为德国人-S的德国人群体由2001-2006年期间在德国 的Klinikum Grosshadern,慕尼黑大学的神经科的中风单元连续招募 的具有缺血性中风的患者(平均年龄65.3(SD=13.7)岁,38%女性)组成。 对照组由无心血管疾病史的年龄和性别匹配的个体组成。这些个体选自 KORA S4研究,慕尼黑附近的基于社区的流行病学项目(Wichmann,H.E., 等人,Gesundheitswesen 67 Suppl 1,S26-30(2005))。研究由地方 伦理委员会批准并且从所有个体(或亲属或法定监护人)获得知情同意 书。

称为德国人-W的第二德国人群体,在2000-2003年期间通过参加 位于国家西部的地区Westphalian中风登记处的医院招募的缺血性中风 患者(平均年龄70.4(SD=12.6)岁,53%女性)。无自我报告的中风史的 群体对照获自在相同地区进行的代表性的有前景的基于群体的 Dortmund健康研究(Berger,K.等人,Hum Genet121,169-78(2007)), 随后使频率与病例匹配。两个研究都由Muenster大学的伦理委员会批 准。全部参与者提供它们的知情同意书。

英国人:1995-2002年招募参加脑血管服务的欧洲人后代的缺血性 中风患者。由一个有经验的神经病学家通过审阅原始图像对所有病例进 行基因分型(平均年龄64.6(SD=12.7)岁,41%女性)。无症状脑血管病 的社区对照也由取样家族医生列表从与患者相同的地理区域招募。将取 样分层以提供与患者组中相似的年龄和性别分布。研究由地方研究伦理 委员会批准并且从所有参与者获得知情同意书。

中风基因分型

只有具有缺血性中风但不具有出血性中风的患者才被包括在研究 中。使全部患者进行临床相关诊断的建立,包括利用计算机体层摄影术 (CT)和/或磁共振成像(MRI)进行脑成像以及辅助诊断检查,包括颈动脉 和椎动脉的双功能超声、超声心动描记术、Holter监测、MR-血管造影 术、CT血管造影术和血液测试。按照急性中风治疗(Acute Stroke  Treatment)(TOAST)中的Org 10172的试验将患者分类成病因学亚类 (Adams,H.P.,Jr.等人,Stroke24,35-41(1993))。对于每一个中 风群体独立地但以标准化方式进行分类。TOAST分类包括6个类型:(1) 大动脉闭塞性疾病(大血管病),(2)心源性脑栓塞(心源性中风),(3) 小血管病(空洞性卒中(lacunar stroke)),(4)其他确定的病因学,(5) 病因不明(尽管进行了诊断努力)或(6)超过一个的病因学。将被分类 成TOAST类型4-6的患者从来自德国人-W的中风群体中排除。在冰岛, 如果狭窄在70%以上(其为比通常使用的(即50%以上)更严格的标准), 那么患者被分类为具有大动脉闭塞性疾病。患有CE缺血性中风的患者 (其具有心房颤动)的比例在冰岛人中为79%,在德国人-S和瑞典人中 为73%,在德国人-W中为71%以及在英国人为56%。以前已列出了来自 冰岛、德国人-S、瑞典人、德国人-W和英国人的样品组中按照TOAST 分类系统(Adams,H.P.,Jr.等人,Stroke 24,35-41(1993))进行的 缺血性中风(IS)患者至亚类的细分(Gretarsdottir,S.等人,Ann  Neurol 64,402-9(2008))。

基因分型

进行冰岛人的与心房颤动关联的序列变体的全基因组扫描,随访冰 岛人、挪威人和美国人的样品中最显著的关联性。

ILLUMINA全基因组基因分型:利用Illumina HumanHap300和 HumanHapCNV370 bead芯片(Illumina,SanDiego,CA,USA)(所述芯 片包含317503和370404个来源于International HapMap项目的I期 的单倍型标签SNP)分析全部冰岛和对照样品。只有都存在于两个芯片 上的SNP才被包括在分析中,如果SNP在病例和对照中具有(a)低于95% 的产率,(b)在群体中具有低于1%的等位基因频率或(c)显示与对照中的 Hardy-Weinberg平衡显著偏离(P<0.001)时,排除所述SNP。将具有 低于98%的位点分型成功率(call rate)的任何样品从分析中排除。 终分析包括304226个SNP。

单SNP基因分型:对所有研究的群体利用相同的平台Centaurus (Nanogen)平台(Kutyavin,IV等人Nucleic Acids Res 34:e128 (2006))在冰岛雷基亚比克的deCODE Genetics进行所有样品的单 SNP基因分型。通过在CEU和/或YRI HapMap样品中对每一个测定进 行基因分型并且将结果与HapMap数据相比较来评估每一个Centaurus  SNP测定的质量。不使用具有大于1.5%的错配率的测定,并且将连锁 不平衡(LD)测定用于已知处于LD中的标志。

关联分析

对于关联分析,我们采用风险的乘法模型(即人携带的两个等位基 因的风险相乘)(Rice,J.A.Mathematical statistics and data  analysis,xx,602,A49p.(Duxbury Press,Belmont,CA,1995)), 利用在NEMO软件中执行的标准似然比统计(Gretarsdottir,S.等人, Nat Genet 35,131-8(2003))计算每一个个体等位基因的双侧P值和 比值比(OR)。

对于所述标志提供了等位基因频率而非携带者频率,在就受试者 的亲缘关系进行调整后给出P值。当评估基因型特异性OR时,采用 Hardy-Weinberg平衡来评估群体中的基因型频率。

使用Mantel-Haenszel模型(Mantel,N & Haenszel,J Natl  Cancer Inst 22:719-48(1959))组合来自多个病例-对照组的结果, 在所述模型中允许所述组具有不同的等位基因和基因型的群体频率, 但假定具有共同的相对风险。

亲缘关系的校正和基因组控制。

冰岛人患者和对照组中的一些个体彼此相关,从而引起上述卡方 检验统计量具有大于1的平均值和大于0.6752的中值。我们通过计算 304226个卡方统计量的平均值(其为就亲缘关系和就潜在的群体分层 进行调整的基因组控制的方法(Devlin B & Roeder K Biometrics  55:997-1004(1999))来评估全基因组关联的膨胀系数。膨胀系数评 估为1.11并且从全基因组关联呈现的结果基于通过将它们的每一个 除以该因子调整卡方统计量。为了调整冰岛人随访样品组以及组合的 重复组和发现样品组的关联性结果(其中SNP的全基因组的关联性结果 是不可获得的),我们使用以前描述的方法(其中我们通过708,683 个冰岛人的系谱模拟基因型)来评估调整因子(Stefansson,H.等人, Nat Genet37,129-37(2005))。AF病例和对照的重复组和组合组的调 整因子分别为1.11和1.15。将相同的方法用于调整与IS和CES的关联 性并且其中使用的校正因子为1.08(对于IS)和1.03(对于CES)。

结果

染色体16q22上的ZFHX3基因中的序列变体rs7193343-T与心房颤 动(AF)显著关联(组合OR=1.22,P=4.1·10-11)。在5个中风样品组的组合 分析中,该变体也与缺血性中风(OR=1.11,P=0.00054)和心因性中风 (OR=1.22,P=0.00021)关联。染色体3上的另一个变体rs7618072-G显 示与AF的边缘关联(borderline association)。

在来自我们的全基因分析的前10个SNP中,7个最显著的变体相 应于以前报导的染色体4q25上的信号(Gudbjartsson,D.F.等人, Nature448,353-7(2007),(表1)。剩下的3个SNP之前从未与AF/AFI 相关联。

表1.显示通过冰岛人AF/AFI患者的全基因组关联扫描鉴定的10 个最显著的SNP。显示了等位基因、染色体和染色体位置、成功地进行 基因分型的病例和对照的数目、等位基因频率、每一个SNP的OR和P 值。等位基因代码为A=1、C=2、G=3、T=4。

为了随访我们的发现,我们在来自冰岛人(约1000个病例和2400 个对照)、挪威人(725病例和725个对照)和美国人(735个病例和729 个对照)的欧洲人祖先的3个另外的样品组中对3个SNP进行了基因分 型。3个SNP之一rs958800在随访样品中不与AF/AFI显著关联并且不 能达到全基因组显著性(表2)。第二变体rs7618072-T主要因组合的冰 岛人队列(表2)而与AF/AFI边缘关联。

表2.rs958800-T和rs7618072-T与AF/AFI的关联性。对于每一 个序列变体,显示了与冰岛人发现数据集和随访组、组合的2个冰岛人 数据集、来自挪威人、美国人的随访数据集以及组合的所有数据集的关 联性的结果。显示了每一个研究组的病例和对照的数目、风险等位基因 的频率、OR和P值。对于冰岛人研究组,就亲缘关系调整P值和CI。

位于染色体16q22上的第三变体的T等位基因rs7193343(表3)在 组合冰岛人样品组中显示与AF/AFI的全基因组显著关联性(OR=1.22, P=1.7·10-9)。该关联性随后在非冰岛人样品中得到重复(OR=1.22, P=0.0046)。rs7193343-T在发现组和3个随访组中的组合效应为 OR=1.22(95%CI:1.15-1.29),相应的P值为4.1·10-11

表3.染色体16q22上的rs7193343-T与AF/AFI的关联性。显示了 冰岛人发现数据集和随访数据集、组合的2个冰岛人数据集和来挪威人、 美国人的随访数据集和组合的所有数据集的结果。显示了每一个研究组 的病例和对照的数目、频率、OR和P值。对于冰岛人研究组,就亲缘关 系调整P值和CI。

我们评估了rs7193343-T与来自香港的中国人汉族群体中的AF的 关联性,所述群体由286个AF病例和2763个对照组成。所述关联性在 该队列中未达到统计显著性,尽管关联性的方向与欧洲人样品中的关联 性方向一致(OR=1.05,P=0.68,表3)。值得注意的,rs7193343的T等 位基因在汉族中国人群体中的频率(队列中的等位基因频率为0.68)远 高于欧洲人后代的样品(队列中的等位基因频率为0.14至0.21)。

在我们以前的对于AF/AFI的全基因组关联研究中,对于具有明确 的AFI史的个体的相对小的亚组观察到比其他病例更强的关联性 (Gudbjartsson,D.F.等人Nature 448,353-7(2007))。因此我们在 160个具有明确的AFI史的冰岛人患者的亚组中测试rs7193343。与AFI 的关联性相似于与AF的关联性,虽然就其本身而言其未达到名义显著 性(OR=1.25,95%CI:0.96,1.62,P=0.093)。

我们在冰岛人样品组中未发现rs7193343与肥胖症、高血压或冠状 动脉病之间的关联性。这表明rs7193343与AF之间的关联性不是通过 此类已知的AF的风险因子介导的。

我们以前已报导了我们的中风的全基因组关联研究的结果,在所述 研究中,发现染色体4q25上的AF变体与缺血性中风(IS)显著关联,并 且如所预期的,对于IS的心因性中风(CES)亚组具有最强的风险度 (Gretarsdottir,S.等人Ann Neurol 64,402-9(2008))。为了评估 rs7193343与中风之间的关联性,我们在来自冰岛、德国西部、德国南 部和英国的5个欧洲人后代的IS病例-对照样品组中测试该变体。5个 数据集的组合分析显示rs7193343与IS之间的显著关联性(OR=1.11, 95%CI:1.04-1.17,P=0.00054)(表4)。IS亚组的关联性分析显示 rs7193343与CES之间的显著关联性,具有与rs7193343与AF之间的关 联性(OR=1.22,95%CI:1.10-1.35,P=0.00021)相当的OR。

表5.针对锚定标志的染色体16和染色体3上的替代标志(基于 HapMap高加索人CEU样品组;http://www.hapmap.org)(r2>0.2); rs7193343和rs7618072。显示了替代标志的名称、锚定标志、染色体, 与锚定标志的风险等位基因相关的等位基因,替代标志在NCBI Build 36 中的位置,D′和r2。等位基因代码为A=1、C=2、G=3、T=4。

序列变体rs7193343是位于染色体16q22上的锌指同源异型框3 (ZFHX3)(也称为AT基序-结合因子1(ATBF1))内的内含子的SNP。 相同的变体最近与川崎病(主要在幼儿中中看到的炎症性脉管炎)关联 (Burgner,D.等人PLoS Genet 5,e1000319(2009))。该基因编码称 为Atbf1的转录因子,所棕转录因子最初被描述为肝细胞中人α-甲胎 蛋白(AFP)基因表达的增强子(Morinaga,T,等人,Mol Cell Biol 11, 6041-9(1991))。在其发现的时候,其为所报导的最大的DNA结合蛋白 和第一个显示包含多个同源结构域和多个锌指基序的蛋白质(Morinaga, T.,等人Mol Cell Biol 11,6041-9(1991))。自此以后所述基因与 几个组织的生长和分化(包括神经元和骨骼肌组织的分化)的调控关联 (Berry,F.B.等人J Biol Chem 276,25057-65(2001))。

ZFHX3在不同组织例如心脏、肝、肺、肾、垂体和脑中表达。ATBF1 是基因(POU1F1)(在哺乳动物中调节垂体细胞分化和激素表达的POU- 同源结构域转录因子家族的成员)的早期转录激活所必需的(Qi,Y.等 人Proc Natl Acad Sci U S A 105,2481-6(2008))。已证明POU1F1 与成对样同源结构域转录因子2(PITX2)相互作用以促进DNA结合和转 录活性(Amendt,B.A.,J Biol Chem 273,20066-72(1998)),有趣地 观察到染色体4q25上以前鉴定的AF变体位于PITX2(对于心脏发育是 至关重要的基因)附近。

作为表5中显示的rs7193343的两个替代标志的rs16971471和 rs1548374的关联性分析显示rs1548374与冰岛人群体中的AF关联(对 该标志的C等位基因观察到的OR为1.11,P值为0.0013)(2382个病 例和33737个对照),而rs16971471的A等位基因与AF关联(观察到 的OR为1.10,P值为0.058(2385个病例和33737个对照)。因此,两 个标志都与AF关联,虽然OR值低于rs7193343。因此,需要具有更大 统计效力的更大的样品组来检测具有与对于rs7193343观察到的统计显 著性相同的与AF的关联性。

实施例2

赋予心房颤动的风险的序列变体的鉴定

下文进一步描述了1、2、4、5、15、18和20上赋予心房颤动的风 险的9个变体的鉴定。

约3,700个患有心房颤动的冰岛人患者和36,000多个对照的全 基因组扫描显示了心房颤动与基因组的不同位置上的9个SNP之间的关 联性。这些SNP被鉴定为:rs2935888(chr 1)、rs1394796和rs10490066 (chr 2)、rs4560443(chr 4)、rs10077199和rs7733337(chr 5)、 rs10519674(chr15)、rs10516002(chr18)和rs6010770(chr 20)。

该关联性也在欧洲人祖先即挪威人和美国人的两个其他AF样品中 得到验证。3个研究群体、基因分型方法和统计分析的描述如上文实施 例1中概述的。结果示于表7中。

表6.提供9个变体与AF的关联性。对于每一个序列变体,结果显 示与冰岛人发现数据集、来自挪威人和美国人的数据集以及组合的全部 数据集的关联性。显示了每一个研究组的病例和对照的数目、风险等位 基因的频率、观察到的风险度(OR)和P值。

表7.针对与AF关联的锚定标志的替代标志(基于HapMap高加索人 CEU样品组;http://www.hapmap.org),r2>0.2。显示了:替代标志的 名称、锚定标志、染色体、与锚定标志的风险等位基因相关的等位基因、 替代标志在NCBI Build 36中的位置,D′和r2。等位基因代码为A=1, C=2,G=3,T=4。

表8.关键序列ID.

  Seq ID N0:   参照   1   LD区段C16   2   rs7193343   3   rs7618072   4   rs4560443   5   rs10519674   6   rs7733337   7   rs1394796   8   rs10077199   9   rs10516002   10   rs6010770   11   rs2935888   12   rs10490066

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号