...
首页> 外文期刊>Pomiary Automatyka Kontrola >Równoległa implementacja algorytmu winnowing dla operacji strumieniowej analizy tekstu
【24h】

Równoległa implementacja algorytmu winnowing dla operacji strumieniowej analizy tekstu

机译:用于流文本分析操作的风选算法的并行实现

获取原文
获取原文并翻译 | 示例
           

摘要

W ramach praca przeprowadzona została analiza możliwości wykorzystania algorytmu winnowing do strumieniowego przetwarzania informacji tekstowej. W szczególności nacisk został położony na operacje generacji odcisku jako jej zredukowanej reprezentacji wiadomości tekstowej. Autorzy przeprowadzili szereg eksperymentów, w celu określenia efektywności działania algorytmu oraz możliwego do uzyskania przyspieszenia obliczeń, z wykorzystaniem węzła procesorów Intel Xeon E5645 2.40GHz oraz karty GPU Nvidia Tesla m2090.%There are several models available for information retrieval and text analysis but the two are considered to be the dominant ones, namely Boolean and the vector space model (VSM). A model maps the existing words or text into a new representation space. This paper presents a boolean n-gram-based algorithm - winnowing for fast text search and comparison of documents with main focus on its implementation and performance analysis. The algorithm is used to generate fingerprints (i.e. a set of hashes) of the analyzed documents. A dedicated test framework was designed and implemented to handle the task of the algorithm evaluation which utilizes PAN test corpus and programming environment. Several tests were conducted in order to determine the comparison quality of the obfuscated and not obfuscated text for the winnowing algorithm and different window and n-gram size. The tests revealed interesting properties of the algorithms with respect to comparison of documents as well as defied the limits of their applicability. The n-gram-based algorithms due to their simplicity are well suited for hardware implementation. Thus, the authors implemented computationally demanding part of both fingerprint generation both on CPU and GPU. Performance measurements for Intel Xeon E5645, 2.40GHz and Nvidia Tesla m2090 implementation of Ngram-based algorithm show approximately 14× computational speedup.
机译:作为工作的一部分,对使用风选算法流文本信息处理的可能性进行了分析。尤其是,重点放在指纹生成操作上,因为它减少了文本消息的表示。作者使用英特尔至强E5645 2.40GHz处理器节点和Nvidia Tesla m2090 GPU卡进行了许多实验,以确定算法的有效性和可能的​​计算速度。%有几种模型可用于信息检索和文本分析,但两种模型被认为是最主要的,即布尔和向量空间模型(VSM)。模型将现有的单词或文本映射到新的表示空间中。本文提出了一种基于布尔n-gram的算法-风选用于快速文本搜索和文档比较,主要侧重于其实现和性能分析。该算法用于生成所分析文档的指纹(即一组哈希)。设计并实现了专用的测试框架,以处理利用PAN测试语料库和编程环境进行算法评估的任务。为了确定风选算法和不同窗口和n-gram大小的混淆文本和未混淆文本的比较质量,进行了一些测试。这些测试揭示了算法在文档比较方面的有趣特性,并没有限制其适用性。基于n元语法的算法由于其简单性而非常适合于硬件实现。因此,作者在CPU和GPU上都实现了指纹生成的计算需求部分。基于基于Ngram的算法的Intel Xeon E5645、2.40GHz和Nvidia Tesla m2090实施的性能测量显示,计算速度提高了约14倍。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号