首页> 中文学位 >基于文本挖掘的基因-药物-不良反应关系网络构建研究
【6h】

基于文本挖掘的基因-药物-不良反应关系网络构建研究

代理获取

目录

声明

摘要

英文缩略语

1 前言

2.1 研究所用相关资源

2.2 研究方法

2.3 研究样本

2.4 命名实体识别

2.4.1 数据预处理

2.4.2 特征集构建

2.4.3 执行CRF++机器学习模型

2.4.4 NER模型评价

2.5.1 协变量构建

2.5.2 Logistic回归模型

2.6 网络构建及聚类分析

3.1 概览

3.2 NER结果

3.2.1 数据处理结果

3.2.2 CRF特征模板

3.3 关系提取结果

3.4 网络结构分析

3.4.1 网络聚类分析

3.4.2 矩阵聚类分析

3.5 应用实例研究

4 讨论

5 结论

本研究创新性的自我评价

参考文献

综述 利用文本挖掘探测药物不良反应研究进展

攻读学位期间取得的科研成果

致谢

个人简介

展开▼

摘要

目的:药物不良反应的发作机制错综复杂,不仅与药物本身有关,更与患者个体因素——基因有关。尤其随着科技发展,新药层出不穷,已有药物不良反应数据库已无法跟上更新的速度,大量与新药品有关的信息则以非结构化信息——文献的方式存储。本课题拟从不同的生物医学文献集中识别并提取基因-药物和药物-不良反应关系,进而推测基因表达与药物不良反应之间的潜在关联。  方法:从PubMed数据库下载获取药物-不良反应相关和药物-基因相关文献集合,对于药物、不良反应命名实体,采用结合多种特征,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征的条件随机场模型进行识别;对于基因实体,借助已有工具和词典进行识别。识别后,对于每个在句中共同出现的药物-不良反应和药物-基因对根据其共现频次、主题词关联、关联词、是否与已知关联共现、与已知关联相似度等特征变量构建logistic回归模型,以预测得分为基础生成药物-不良反应矩阵和药物-基因矩阵,进而通过矩阵乘法获得基因-不良反应矩阵;借助网络分析和聚类分析等对三者关系进行解读验证。  结果:本课题构建了同时识别药物及其不良反应实体的模型,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征,药物实体和不良反应实体在Biocreative V的测试集上F值分别为88.24%、82.99%。随后我们根据其频次、主题词关联、关联词、与已知关系共现、与已知关联相似度等变量构建logistic回归模型,用于提取药物-不良反应和药物-基因关联。应用上述模型我们分别从两个文献集合中识别并提取了9106个药物-不良反应对和7457个药物-基因对,预测到78014个潜在的基因-不良反应关联。部分预测结果可通过网络-聚类-通路分析解释,并可在文献/数据库中得到验证。  结论:通过文本挖掘方法得到的潜在基因-药物-不良反应关联并对其文献和数据库验证后发现部分关联与已有知识经验相吻合,同时也存在大量关联有待验证。本课题构建的基因-药物-不良反应网络可以为推测潜在受药物作用的基因表达与药物不良反应之间的可能关联提供参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号