...
首页> 外文期刊>MATEC Web of Conferences >Content enrichment with expressive document modelling to leverage the understanding of unstructured data
【24h】

Content enrichment with expressive document modelling to leverage the understanding of unstructured data

机译:利用表达性文档建模来丰富内容,以充分利用对非结构化数据的理解

获取原文
           

摘要

Most information in an enterprise is in the form of unstructured data which is usually managed using a document database. One of the key challenges is to define a generalized data model for this unstructured data and any information extracted from it using content enrichment algorithms. It is more challenging to incorporate provenance and temporal capabilities to such data models. Semantic databases use ontologies such as PROV-O to represent their provenance information expressively, and relational databases use for example Slowly Changing Dimensions (SCDs) concepts to represent temporal information. In this paper, we present a document model which has features inspired from Dublin core, PROV-O and temporal methodologies to generalize information extracted from unstructured data using content enrichment algorithms. Provenance information enables comparison of enrichment models, allows reproducibility and facilitates complex filtering on the enriched data. Temporal metadata helps in versioning the document and enables point-intime and history queries conveniently.
机译:企业中的大多数信息都是非结构化数据的形式,通常使用文档数据库进行管理。关键挑战之一是使用内容丰富算法为这种非结构化数据以及从中提取的任何信息定义通用数据模型。将出处和时间功能纳入此类数据模型更具挑战性。语义数据库使用诸如PROV-O之类的本体来表示性地表示其来源信息,而关系数据库使用例如“缓慢变化的维度”(SCDs)概念来表示时间信息。在本文中,我们介绍了一个文档模型,该模型的特征受都柏林核心,PROV-O和时态方法的启发,可以使用内容丰富化算法对从非结构化数据中提取的信息进行概括。出处信息可对富集模型进行比较,可重现性并有助于对富集数据进行复杂的过滤。时态元数据有助于对文档进行版本控制,并方便地启用时间点和历史记录查询。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号