首页> 外文期刊>Knowledge and information systems >An improved method of locality-sensitive hashing for scalable instance matching
【24h】

An improved method of locality-sensitive hashing for scalable instance matching

机译:可扩展实例匹配的位置敏感散列的改进方法

获取原文
获取原文并翻译 | 示例
           

摘要

In this study, we propose a scalable approach for automatically identifying similar candidate instance pairs in very large datasets. Efficient candidate pair generation is an essential to many computational problems involving calculation of instance similarities. Calculating similarities of instances with a large number of properties and efficiently matching a large number of similar instances in a scalable way are two significant bottlenecks of candidate instance pair generation. In our approach, we utilize locality-sensitive hashing (LSH) technique to greatly improve the scalability of candidate instance pair generation. Based on the candidate similarity threshold, our algorithm automatically discovers the optimum number of hash functions in each band in LSH. Moreover, we evaluated the scalability of our approach and its effectiveness in instance matching task using real-world very large datasets.
机译:在本研究中,我们提出了一种可扩展方法,用于在非常大的数据集中自动识别类似的候选实例对。 高效的候选对生成对于许多涉及计算实例相似性的计算问题是必不可少的。 计算具有大量属性的实例的相似性,并以可扩展的方式有效地匹配大量类似的实例是候选实例对生成的两个重要瓶颈。 在我们的方法中,我们利用了地区敏感散列(LSH)技术来大大提高候选实例对生成的可扩展性。 基于候选相似性阈值,我们的算法自动发现LSH中每个频段中的散列函数的最佳数量。 此外,我们评估了我们的方法的可扩展性及其在使用真实世界非常大的数据集的匹配任务中的效果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号