首页> 美国卫生研究院文献>AMIA Summits on Translational Science Proceedings >Predicting Causes of Data Quality Issues in a Clinical Data Research Network
【2h】

Predicting Causes of Data Quality Issues in a Clinical Data Research Network

机译:在临床数据研究网络中预测数据质量问题的原因

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Clinical data research networks (CDRNs) invest substantially in identifying and investigating data quality problems. While identification is largely automated, the investigation and resolution are carried out manually at individual institutions. In the PEDSnet CDRN, we found that only approximately 35% of the identified data quality issues are resolvable as they are caused by errors in the extract-transform-load (ETL) code. Nonetheless, with no prior knowledge of issue causes, partner institutions end up spending significant time investigating issues that represent either inherent data characteristics or false alarms. This work investigates whether the causes (ETL, Characteristic, or False alarm) can be predicted before spending time investigating issues. We trained a classifier on the metadata from 10,281 real-world data quality issues, and achieved a cause prediction F1-measure of up to 90%. While initially tested on PEDSnet, the proposed methodology is applicable to other CDRNs facing similar bottlenecks in handling data quality results.
机译:临床数据研究网络(CDRN)大量投资于识别和调查数据质量问题。虽然身份识别在很大程度上是自动化的,但调查和解决是在各个机构中手动进行的。在PEDSnet CDRN中,我们发现,只有大约35%的已识别数据质量问题可以解决,因为这些问题是由提取-转换-加载(ETL)代码中的错误引起的。但是,由于没有对问题原因的事先了解,合作伙伴机构最终将花费大量时间来调查代表固有数据特征或错误警报的问题。这项工作在花时间调查问题之前,调查是否可以预测原因(ETL,特征或错误警报)。我们针对来自10,281个现实世界数据质量问题的元数据训练了分类器,并实现了高达90%的原因预测F1量度。虽然最初在PEDSnet上进行了测试,但是所提出的方法适用于在处理数据质量结果方面面临类似瓶颈的其他CDRN。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号