首页> 外国专利> System and Method for Matching Data Using Probabilistic Modeling Techniques

System and Method for Matching Data Using Probabilistic Modeling Techniques

机译:使用概率建模技术匹配数据的系统和方法

摘要

A system and method for matching data using probabilistic modeling techniques is provided. The system includes a computer system and a data matching model/engine. The present invention precisely and automatically matches and identifies entities from approximately matching short string text (e.g., company names, product names, addresses, etc.) by pre-processing datasets using a near-exact matching model and a fingerprint matching model, and then applying a fuzzy text matching model. More specifically, the fuzzy text matching model applies an Inverse Document Frequency function to a simple data entry model and combines this with one or more unintentional error metrics/measures and/or intentional spelling variation metrics/measures through a probabilistic model. The system can be autonomous and robust, and allow for variations and errors in text, while appropriately penalizing the similarity score, thus allowing dataset linking through text columns.
机译:提供了一种使用概率建模技术来匹配数据的系统和方法。该系统包括计算机系统和数据匹配模型/引擎。本发明通过使用近似精确匹配模型和指纹匹配模型对数据集进行预处理,从近似匹配的短字符串文本(例如,公司名称,产品名称,地址等)中精确,自动地匹配和标识实体,然后应用模糊文本匹配模型。更具体地,模糊文本匹配模型将逆文档频率函数应用于简单的数据输入模型,并将其与一个或多个非故意错误度量/度量和/或故意拼写变化度量/度量通过概率模型进行组合。该系统可以是自治且健壮的,并允许文本中的变化和错误,同时适当地惩罚相似性得分,从而允许通过文本列链接数据集。

著录项

  • 公开/公告号US2014052688A1

    专利类型

  • 公开/公告日2014-02-20

    原文格式PDF

  • 申请/专利权人 OPERA SOLUTIONS LLC;

    申请/专利号US201313969010

  • 发明设计人 SHUBH BANSAL;

    申请日2013-08-16

  • 分类号G06N7/02;

  • 国家 US

  • 入库时间 2022-08-21 16:05:41

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号