首页> 中国专利> 一种基因内含子进化重构装置及方法

一种基因内含子进化重构装置及方法

摘要

本发明涉及一种基因内含子进化重构装置及方法,所述装置包括同源基因数据获取单元,用于获取同源基因数据;内含子位点判断单元,用于对获取的同源基因数据进行判断是否有内含子位点数据;内含子位点标定单元,用于对同源基因数据标定内含子位点;系统进化树构建单元,用于对带有内含子位点的同源基因数据集构建系统进化树;内含子进化重构单元,用于对构建的系统进化树根据最大简约法重构内含子进化;本发明在系统进化树的基础上重构内含子进化,客观地描述内含子进化历程,是后续内含子功能研究的基础,本发明对进化树的数量和每棵进化树的同源基因的数量没有限制,对同源基因内含子的任何存在形式都可以重构,具有广泛性应用前景。

著录项

  • 公开/公告号CN102542178A

    专利类型发明专利

  • 公开/公告日2012-07-04

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201110459713.0

  • 发明设计人 向浏欣;蔡应繁;

    申请日2011-12-31

  • 分类号G06F19/14;

  • 代理机构北京同恒源知识产权代理有限公司;

  • 代理人王宗江

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-12-18 05:55:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-01-14

    授权

    授权

  • 2012-09-05

    实质审查的生效 IPC(主分类):G06F19/14 申请日:20111231

    实质审查的生效

  • 2012-07-04

    公开

    公开

说明书

技术领域

本发明涉及生物技术领域,特别涉及一种基因内含子进化重构装置及方法。

背景技术

内含子是基因内的间隔序列或不编码序列,又称沉默DNA,它把单个真核 基因分成许多不连续的区域,在转录后通过加工被切除,不被表达于蛋白质分 子或成熟的mRNA中。大多数真核生物和古细菌的基因都有内含子。基因的编 码部分称外显子,内含子通常比外显子长,且占基因更大的比例。内含子的功 能研究目前尚处于起步阶段,对其功能研究既是基因组序列功能研究的一部分, 又能为研究编码序列功能提供重要工具,促进对基因表达调控的进一步理解, 同时还能提供有关生命起源进化的大量信息。内含子进化研究是内含子功能研 究的一个方面,通过进化重构可以分析内含子的进化动力和内含子的功能或潜 在的功能,在医学领域和动植物生长发育领域研究中具有广泛的应用前景。而 在基因进化过程中内含子的长度和碱基序列变化较大,使得通过序列进行内含 子进化重构有较大困难,但是内含子在基因中的位置非常保守,因而可以利用 同源基因中内含子的位置来重构内含子的进化。

现有文献《双翅目昆虫(黑腹果蝇和冈比亚按蚊)内含子丢失的比较分析》 (昆虫学报2006,49(3):373-380)公开了一种重构内含子进化的方法,包括获 取一组同源基因,通过各自基因的基因组序列和蛋白序列比对获得内含子位点 (位置),然后判断这些内含子的得失情况,如若同一位点(位置)只有一个基 因存在内含子,其它都不存在,则认为该内含子是在进化过程中获得的,这是 因为一次得到事件较几次独立的丢失的可能性要大;如果同一位点,只有一个 基因不存在内含子,则认为该内含子是在进化过程中丢失的,这是因为一次丢 失事件较几次独立的得到事件的可能性要大;若同一位点都存在内含子,则认 为其共同的祖先中也存在,没有得失。该方法对于当内含子的存在情况比较复 杂,如同一位点部分基因存在部分基因不存在,尤其是对大量同源基因或从基 因组层面上对多组大量同源基因进行内含子得失计算时将不再有效,并且该方 法仅仅是判断现存基因的内含子的得失情况(在进化中是获得的还是丢失的), 未对内含子的进化历程做出判断和推断,对后续的内含子功能研究具有较大局 限性。

发明内容

本发明所要解决的技术问题是提供一种能客观地描述内含子进化历程的内 含子进化重构方法,该方法适合任何数量、任何规模的同源基因的内含子重构, 具有应用广泛性。

为解决上述技术问题,本发明提供一种基因内含子进化重构装置,包括:

同源基因数据获取单元,用于获取同源基因数据;

内含子位点判断单元,用于对获取的同源基因数据进行判断是否有内含子 位点数据;

内含子位点标定单元,用于对同源基因数据标定内含子位点;

系统进化树构建单元,用于对带有内含子位点的同源基因数据集构建系统 进化树;

内含子进化重构单元,用于对构建的系统进化树根据最大简约法重构内含 子进化。

优选的,所述内含子进化重构单元对构建的系统进化树根据最大简约法重 构内含子进化为根据进化树叶结点的内含子存在情况确定根结点和中间结点; 根结点和中间结点的内含子位点与叶结点的内含子位点一一对应;首先判断根 结点各内含子位点的内含子存在情况,然后从根结点向叶结点方向依次判断各 中间结点的内含子存在情况;根结点或某中间结点的某内含子位点的内含子存 在情况的判断方法如下:若两分支中均有1个或多个叶结点的相应内含子位点 存在内含子,则判断此根结点或中间结点在此位点为存在内含子;若两分支中 一支有1个或多个叶结点的相应内含子位点存在内含子而另一支的所有叶结点 的相应内含子位点均不存在内含子,对于根结点,则判断其在此位点为不存在 内含子,对于中间结点,则考察其父母结点的相应内含子位点,父母结点存在 则其存在,反之不存在。

优选的,所述内含子进化重构单元对构建的系统进化树根据最大简约法重 构内含子进化为从进化树叶结点至根结点的方向判断中间结点和根结点的内含 子存在情况;每个中间结点和根结点均由两个子女结点组成,某中间结点的某 内含子位点的内含子存在情况的判断方法如下:若其两子女结点相应内含子位 点均存在内含子,则判断此中间结点在此位点为存在内含子;若其两子女结点 相应内含子位点均不存在内含子,则判断此中间结点在此位点为不存在内含子; 若其中一个子女结点相应内含子位点存在内含子而另一个不存在,则考察此中 间结点的兄弟结点结点,若兄弟结点相应内含子位点存在内含子,则判断此中 间结点在此位点为存在,反之不存在。

优选的,所述同源基因数据获取单元与同源基因库相连接,从同源基因库 获得同源基因数据集。

优选的,所述同源基因数据获取单元与基因库相连接,从基因库下载目的 基因的基因组序列和蛋白序列,比较基因组序列和蛋白序列得到内含子位点。

为解决上述技术问题,本发明还提供一种基因内含子进化重构方法,包括 获取同源基因数据集,判断是否有内含子位点数据,若无,则先标定内含子位 点,得到带有内含子位点的同源基因数据,根据带有内含子位点的同源基因数 据集构建系统进化树;对构建的系统进化树根据最大简约法重构内含子进化; 所述同源基因数据集为一组或多组已标定内含子位点的同源基因;所述构建系 统进化树的方法为邻接法、距离法和似然法中的一任意一种。

优选的,所述对构建的系统进化树根据最大简约法重构内含子进化为根据 进化树叶结点的内含子存在情况确定根结点和中间结点;根结点和中间结点的 内含子位点与叶结点的内含子位点一一对应;首先判断根结点各内含子位点的 内含子存在情况,然后从根结点向叶结点方向依次判断各中间结点的内含子存 在情况;根结点或某中间结点的某内含子位点的内含子存在情况的判断方法如 下:若两分支中均有1个或多个叶结点的相应内含子位点存在内含子,则判断 此根结点或中间结点在此位点为存在内含子;若两分支中一支有1个或多个叶 结点的相应内含子位点存在内含子而另一支的所有叶结点的相应内含子位点均 不存在内含子,对于根结点,则判断其在此位点为不存在内含子,对于中间结 点,则考察其父母结点的相应内含子位点,父母结点存在则其存在,反之不存 在。

优选的,所述对构建的系统进化树根据最大简约法重构内含子进化为从进 化树叶结点至根结点的方向判断中间结点和根结点的内含子存在情况;每个中 间结点和根结点均由两个子女结点组成,某中间结点的某内含子位点的内含子 存在情况的判断方法如下:若其两子女结点相应内含子位点均存在内含子,则 判断此中间结点在此位点为存在内含子;若其两子女结点相应内含子位点均不 存在内含子,则判断此中间结点在此位点为不存在内含子;若其中一个子女结 点相应内含子位点存在内含子而另一个不存在,则考察此中间结点的兄弟结点 结点,若兄弟结点相应内含子位点存在内含子,则判断此中间结点在此位点为 存在,反之不存在。

优选的,所述同源基因数据集从同源基因库获得。

优选的,所述同源基因数据集根据研究目的直接提供,具体包括,从基因 库下载目的基因的基因组序列和蛋白序列,比较基因组序列和蛋白序列得到内 含子位点。

相对于现有技术,本发明基因内含子进化重构装置和方法根据获取的同源 基因数据集和系统进化树重构内含子进化具有显著进步,根据已知的同源基因 的内含子情况推导系统进化树中各个中间结点基因的内含子存在情况,从而直 观地展现了内含子的进化历程,同时很方便判断内含子在进化过程中的丢失和 获得情况。内含子进化根据最大简约法重构方法,以最小改变为理论基础,认 为得失数越小的进化方式越接近真实的进化过程,且简单可行。本发明内含子 进化重构装置和方法对系统进化树的数量和每棵进化树的同源基因的数量没有 限制,并且对同源基因内含子的任何存在形式都可以重构,由此为进一步分析 内含子的作用和功能打下基础。

附图说明

图1为本发明基因内含子进化重构装置优选实施方式示意图;

图2为本发明同源基因系统进化树优选实施方式示意图;

图3为本发明基因内含子进化重构优选实施方式结果图。

图4为本发明基因内含子进化重构方法优选实施方式流程图;

具体实施方式

本发明不限于下述实施方式或实施例,凡不违背本发明精神所做出的修改 及变形,均应包括在本发明范围之内。

本发明提供一种基因内含子进化重构装置,优选实施方式如图1所示,包 括:

同源基因数据获取单元,用于获取同源基因数据;

本发明所述同源基因数据集为一组或多组已标定内含子位点的同源基因, 每组同源基因的数量不限,获取同源基因的一种方法为从同源基因库 (ftp://ftp.ncbi.nih.gov/pub/koonin/intron_evolution/LSEs/)下载,另一种方法为根 据研究需要直接提供。直接提供的同源基因从基因库下载基因组序列和蛋白序 列,并通过比对基因组序列和蛋白序列获得内含子位点。

内含子位点判断单元,用于对获取的同源基因数据进行判断是否有内含子 位点数据;

内含子位点标定单元,用于对无内含子数据的同源基因数据标定内含子位 点;

所述内含子位点标定通过比对基因组序列和蛋白序列获得内含子位点。

系统进化树构建单元,用于对带有内含子位点的同源基因数据集构建系统 进化树;

所述系统进化树是一棵二叉树,进化树的叶结点代表现存在的、具体的多 个同源基因和一个外类群基因,中间结点和根结点表示下一级两个结点基因的 祖先,根结点也表示所有基因的共同祖先,根结点和中间结点有上下两个分支, 根结点的上分支为同源基因、下分支为参照基因即外类群基因,树的拓扑结构 简明地表示了基因的进化历程和亲缘关系。如图2示意,由3个同源基因a、b、 c和1个外类群基因d构成的系统进化树,其中中间结点α表示基因a和b的祖 先(中间结点α也叫基因a和b的父母结点,反之基因a和b叫中间结点α的 子女结点,基因a与b称兄弟结点);中间结点β表示α和c的祖先;根结点γ 表示β和d的祖先,也是所有基因共同的祖先;A、B、C、D表示内含子位点; 0表示该位点不存在内含子;1表示该位点存在内含子。

本发明采用的系统进化树构建方法是现有方法,如邻接法、距离法、似然 法等,也有相应的软件如专门的进化树构建软件PHYLIP(PHYLogeny Inference  Package)、PAUP(Phylogenetic Analysis Using Parsimony)、MEGA(Molecular  Evolutionary Genetics Analysis)等,还有包含进化树构建的多功能序列分析软件 如DNAMAN、GeneStar等,将同源基因的序列导入软件即可生成系统进化树。

内含子进化重构单元,用于对构建的系统进化树根据最大简约法重构内含 子进化。

所述内含子的进化重构即是判断系统进化树的中间结点基因的内含子存在 情况,之后可以统计内含子在进化中的得到数、丢失数以及总的改变数(得到 数和丢失数之和)。

本发明重构内含子进化的一种实施方式为:根据进化树叶结点的内含子存 在情况确定根结点和中间结点;根结点和中间结点的内含子位点与叶结点的内 含子位点一一对应;首先判断根结点各内含子位点的内含子存在情况,然后从 根结点向叶结点方向依次判断各中间结点的内含子存在情况;根结点或某中间 结点的某内含子位点的内含子存在情况的判断方法如下:若两分支中均有1个 或多个叶结点的相应内含子位点存在内含子,则判断此根结点或中间结点在此 位点为存在内含子;若两分支中一支有1个或多个叶结点的相应内含子位点存 在内含子而另一支的所有叶结点的相应内含子位点均不存在内含子,对于根结 点,则判断其在此位点为不存在内含子,对于中间结点,则考察其父母结点的 相应内含子位点,父母结点存在则其存在,反之不存在。根结点和中间结点各 内含子位点的内含子存在情况按前述方法判断完成后,进化树中内含子的得失 数统计方法为:统计去掉了根结点和外类群基因的进化树的内含子得失数;从 根结点至叶结点方向统计;若某结点某位点为1、其下一级结点(子女结点)此 位点为0,则表示丢失1个内含子;若某结点某位点为0、其下一级结点此位点 为1,则表示得到1个内含子;若某结点和其下一级结点某位点相同(均为1或 0),则表示没有内含子得失。最后得到了内含子总的改变数(得到数加丢失数)。 如图3所示,根据叶结点同源基因按照上述方法推导中间结点基因内含子存在 情况,白方框表示丢失该内含子,灰方框表示获得该内含子。各内含子位点的 内含子进化历程清楚直观地展示出来。

本发明重构内含子进化的另一种优选实施方式为:从进化树叶结点至根结 点的方向判断中间结点和根结点的内含子存在情况;每个中间结点和根结点均 由两个子女结点组成,某中间结点的某内含子位点的内含子存在情况的判断方 法如下:若其两子女结点相应内含子位点均存在内含子,则判断此中间结点在 此位点为存在内含子;若其两子女结点相应内含子位点均不存在内含子,则判 断此中间结点在此位点为不存在内含子;若其中一个子女结点相应内含子位点 存在内含子而另一个不存在,则考察此中间结点的兄弟结点结点,若兄弟结点 相应内含子位点存在内含子,则判断此中间结点在此位点为存在,反之不存在。 内含子得失数统计方法为:从根结点至叶结点方向统计;若某结点某位点存在 内含子、其下一级结点(子女结点)此位点不存在,则表示丢失1个内含子; 若某结点某位点不存在内含子、其下一级结点此位点存在,则表示得到1个内 含子;若某结点和其下一级结点某位点均存在或均不存在内含子,则表示没有 内含子得失。内含子总的改变数为内含子得到数加丢失数。

本发明提供一种基因内含子进化重构方法,优选实施方式如图4所示,包 括获取同源基因数据集,判断是否有内含子位点数据,若无,则先标定内含子 位点,得到带有内含子位点的同源基因数据,根据带有内含子位点的同源基因 数据集构建系统进化树;对构建的系统进化树根据最大简约法重构内含子进化; 所述同源基因数据集为一组或多组已标定内含子位点的同源基因;所述构建系 统进化树的方法为邻接法、距离法和似然法中的一任意一种。

该方法为在系统进化树的基础上重构内含子进化历程,包括进化树中被分 化的中间结点基因的内含子存在情况。系统进化树反映了基因的进化历程和亲 缘关系,其根据编码区序列构建,由于编码区序列被翻译为蛋白质,在生命过 程中起重要作用,进化过程中其相对内含子保守,因此以系统进化树重构内含 子进化是可行的。

本发明所述同源基因数据集为一组或多组已标定内含子位点的同源基因, 每组同源基因的数量不限,获取同源基因的一种方法为从同源基因库 (ftp://tip.ncbi.nih.gov/pub/koonin/intron_evolution/LSEs/)下载,另一种方法为根 据研究需要直接提供。直接提供的同源基因从基因库下载基因组序列和蛋白序 列,并通过比对基因组序列和蛋白序列获得内含子位点。本发明采用的系统进 化树构建方法是现有方法,如邻接法、距离法、似然法等,也有相应的软件如 专门的进化树构建软件PHYLIP(PHYLogeny Inference Package)、 PAUP(Phylogenetic Analysis Using Parsimony)、MEGA(Molecular Evolutionary  Genetics Analysis)等,还有包含进化树构建的多功能序列分析软件如DNAMAN、 GeneStar等,将同源基因的序列导入软件,立即可生成系统进化树。系统进化 树是一棵二叉树,进化树的叶结点代表现存在的、具体的多个同源基因和一个 外类群基因,中间结点和根结点表示下一级两个结点基因的祖先,根结点也表 示所有基因的共同祖先,根结点和中间结点有上下两个分支,根结点的上分支 为同源基因、下分支为参照基因即外类群基因,树的拓扑结构简明地表示了基 因的进化历程和亲缘关系。如图2示意,由3个同源基因a、b、c和1个外类群 基因d构成的系统进化树,其中中间结点α表示基因a和b的祖先(中间结点α 也叫基因a和b的父母结点,反之基因a和b叫中间结点α的子女结点,基因a 与b称兄弟结点);中间结点β表示α和c的祖先;根结点γ表示β和d的祖先, 也是所有基因共同的祖先;A、B、C、D表示内含子位点;0表示该位点不存在 内含子;1表示该位点存在内含子。

根据系统进化树重构内含子进化的方法是本发明提出的新方法,其根据最 大简约理论,以最小改变为理论基础,认为得失数越小的进化方式越接近真实 的进化过程,该方法简单可行。内含子的进化重构即是判断中间结点基因的内 含子存在情况,最后还可以统计内含子在进化中的得到数、丢失数以及总的改 变数(得到数和丢失数之和)。

本发明重构内含子进化的一种实施方式为:根据进化树叶结点的内含子存 在情况确定根结点和中间结点;根结点和中间结点的内含子位点与叶结点的内 含子位点一一对应;首先判断根结点各内含子位点的内含子存在情况,然后从 根结点向叶结点方向依次判断各中间结点的内含子存在情况;根结点或某中间 结点的某内含子位点的内含子存在情况的判断方法如下:若两分支中均有1个 或多个叶结点的相应内含子位点存在内含子,则判断此根结点或中间结点在此 位点为存在内含子;若两分支中一支有1个或多个叶结点的相应内含子位点存 在内含子而另一支的所有叶结点的相应内含子位点均不存在内含子,对于根结 点,则判断其在此位点为不存在内含子,对于中间结点,则考察其父母结点的 相应内含子位点,父母结点存在则其存在,反之不存在。根结点和中间结点各 内含子位点的内含子存在情况按前述方法判断完成后,进化树中内含子的得失 数统计方法为:统计去掉了根结点和外类群基因的进化树的内含子得失数;从 根结点至叶结点方向统计;若某结点某位点为1、其下一级结点(子女结点)此 位点为0,则表示丢失1个内含子;若某结点某位点为0、其下一级结点此位点 为1,则表示得到1个内含子;若某结点和其下一级结点某位点相同(均为1或 0),则表示没有内含子得失。最后得到了内含子总的改变数(得到数加丢失数)。 如图3所示,根据叶结点同源基因按照上述方法推导中间结点基因内含子存在 情况,白方框表示丢失该内含子,灰方框表示获得该内含子。各内含子位点的 内含子进化历程清楚直观地展示出来。

本发明重构内含子进化的另一种优选实施方式为:从进化树叶结点至根结 点的方向判断中间结点和根结点的内含子存在情况;每个中间结点和根结点均 由两个子女结点组成,某中间结点的某内含子位点的内含子存在情况的判断方 法如下:若其两子女结点相应内含子位点均存在内含子,则判断此中间结点在 此位点为存在内含子;若其两子女结点相应内含子位点均不存在内含子,则判 断此中间结点在此位点为不存在内含子;若其中一个子女结点相应内含子位点 存在内含子而另一个不存在,则考察此中间结点的兄弟结点结点,若兄弟结点 相应内含子位点存在内含子,则判断此中间结点在此位点为存在,反之不存在。 内含子得失数统计方法为:从根结点至叶结点方向统计;若某结点某位点存在 内含子、其下一级结点(子女结点)此位点不存在,则表示丢失1个内含子; 若某结点某位点不存在内含子、其下一级结点此位点存在,则表示得到1个内 含子;若某结点和其下一级结点某位点均存在或均不存在内含子,则表示没有 内含子得失。内含子总的改变数为内含子得到数加丢失数。

相对于现有技术,本发明基因内含子进化重构装置和方法根据获取的同源 基因数据集和系统进化树重构内含子进化具有显著进步,根据已知的同源基因 的内含子情况推导系统进化树中各个中间结点基因的内含子存在情况,从而直 观地展现了内含子的进化历程,同时很方便判断内含子在进化过程中的丢失和 获得情况。本发明内含子进化根据最大简约法重构方法,以最小改变为理论基 础,认为得失数越小的进化方式越接近真实的进化过程,且简单可行。本发明 内含子进化重构装置和方法对系统进化树的数量和每棵进化树的同源基因的数 量没有限制,并且对同源基因内含子的任何存在形式都可以重构,由此为进一 步分析内含子的作用和功能打下基础,在医学领域和动植物生长发育领域具有 广泛的应用前景。

本发明所举实施方式或者实施例对本发明的目的、技术方案和优点进行了 进一步的详细说明,所应理解的是,以上所举实施方式或者实施例仅为本发明 的优选实施方式而已,并不用以限制本发明,凡在本发明精神和原则之内对本 发明所作的任何修改、等同替换、改进等,均应包含在本发明保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号