...
首页> 外文期刊>International journal of knowledge engineering and soft data paradigms >Comparative study of classification techniques on biomedical data from hypertext documents
【24h】

Comparative study of classification techniques on biomedical data from hypertext documents

机译:超文本文件生物医学数据分类技术的比较研究

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper, our goal is to mine biomedical data from hypertext documents (e.g., mining data from web contents) using data mining algorithms with the help of 'biomedical ontology'. We collect a number of documents using Google and preprocess the hypertext documents and extract the text data. Next job is the identification of biomedical data. To identify whether a word is a biomedical entity or not we use a biomedical database, the 'UMI.S metathesaurus'. The mapping of biomedical entity from the metathesaurus will be done based on keyword query. The more occurrence of a biomedical entity in a page, the more relevant the page is, and thus, we can re-rank the documents to find the most important documents. Then we test and analyse the performance of seven most popular classification algorithms by training them separately with the documents ranked by Google and our algorithm.
机译:在本文中,我们的目标是借助``生物医学本体''使用数据挖掘算法从超文本文档中挖掘生物医学数据(例如,从Web内容中挖掘数据)。我们使用Google收集了许多文档,并对超文本文档进行了预处理并提取了文本数据。下一项工作是生物医学数据的识别。为了确定单词是否为生物医学实体,我们使用生物医学数据库“ UMI.S metathesaurus”。来自词库的生物医学实体的映射将基于关键字查询来完成。页面中生物医学实体出现的次数越多,页面的相关性就越高,因此,我们可以对文档进行重新排序以找到最重要的文档。然后,通过分别使用Google和我们的算法排名的文档对它们进行单独训练,来测试和分析七种最受欢迎​​的分类算法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号