首页> 外国专利> AUTOMATIC SEMANTIC INFORMATION EXTRACTION FROM WEB DOCUMENTS FOR SEMANTIC WEB ANNOTATION

AUTOMATIC SEMANTIC INFORMATION EXTRACTION FROM WEB DOCUMENTS FOR SEMANTIC WEB ANNOTATION

机译:从Web文档中自动提取语义信息以进行语义标注

摘要

A method and a system for automatically extracting semantic information from a web document for a semantic web annotation are provided to accelerate semantic and automatic tasks of large capacity web. A system for automatically extracting semantic information from a web document comprises a learning data generator(100), an integrated classifier generator(400) and a semantic information extractor(800). The learning data generator collects large capacity web documents, eliminates HTML tags from the collected web documents, disjoints compound words, and generates learning data to which semantic tags are attached via a learning data editor. The integrated classifier generator generates a support vector machine(200) and a Bayesian classifier by using the learning data, and integrates the support vector machine with the Bayesian classifier. The semantic information extractor automatically extracts semantic information from new web documents via the integrated classifier, and generates the semantic information as ontology instances.
机译:提供了一种用于自动从网络文档中提取语义信息以进行语义网络注释的方法和系统,以加速大容量网络的语义和自动任务。一种用于从网络文档中自动提取语义信息的系统,包括学习数据生成器(100),集成分类器生成器(400)和语义信息提取器(800)。学习数据生成器收集大容量的Web文档,从收集的Web文档中删除HTML标签,分离复合词,并生成通过学习数据编辑器附加了语义标签的学习数据。集成分类器生成器通过使用学习数据来生成支持向量机(200)和贝叶斯分类器,并且将支持向量机与贝叶斯分类器进行集成。语义信息提取器通过集成的分类器自动从新的Web文档中提取语义信息,并将语义信息生成为本体实例。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号