摘要:数据量呈爆炸性增长的互联网环境下,信息检索是快速准确获取信息的有效手段。索引是信息检索系统的重要组成部分,而且是最耗时的部分。针对索引过程,本文提出了面向多核的流水与数据并行混合算法(Pipeline and Data Parallel Indexingalgorithm, PDPI)。该算法将流水线的思想和数据并行的思想相结合,在获得很好的性能的同时,提高了索引算法的扩展性。实验结果显示,流水与数据并行混合算法能够获得很好的性能。在双CPU,多个CPU双核的机器上,该算法在使用1,2,3和4个核的情况下,比串行算法性能提高为19.3%,38.3%,49.7%和56.1%。