Scatter-Gather-Merge: An efficient star-join query processing algorithm for data-parallel frameworks

Han H.; Jung H.; Eom H.; Yeom H.Y.

首页> 外文期刊>Cluster computing >Scatter-Gather-Merge: An efficient star-join query processing algorithm for data-parallel frameworks

【24h】

Scatter-Gather-Merge: An efficient star-join query processing algorithm for data-parallel frameworks

机译：Scatter-Gather-Merge：针对数据并行框架的高效星型联接查询处理算法

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A data-parallel framework is very attractive for large-scale data processing since it enables such an application to easily process a huge amount of data on commodity machines. MapReduce, a popular data-parallel framework, is used in various fields such as web search, data mining and data warehouses; it is proven to be very practical for such a data-parallel application. A star-join query is a popular query in data warehouses that are a current target domain of data-parallel frameworks. This article proposes a new algorithm that efficiently processes star-join queries in data-parallel frameworks such as MapReduce and Dryad. Our star-join algorithm for general data-parallel frameworks is called Scatter-Gather-Merge, and it processes star-join queries in a constant number of computation steps, although the number of participating dimension tables increases. By adopting bloom filters, Scatter-Gather-Merge reduces a non-trivial amount of IO. We also show that Scatter-Gather-Merge can be easily applied to MapReduce. Our experimental results in both cluster and cloud environments show that Scatter-Gather-Merge outperforms existing approaches.

机译：数据并行框架对于大规模数据处理非常有吸引力，因为它使此类应用程序可以轻松地在商用机器上处理大量数据。 MapReduce是一种流行的数据并行框架，用于Web搜索，数据挖掘和数据仓库等各个领域。它被证明对于这种数据并行应用非常实用。星型联接查询是数据仓库中流行的查询，数据仓库是数据并行框架的当前目标域。本文提出了一种新算法，该算法可在诸如MapReduce和Dryad之类的数据并行框架中有效处理星形联接查询。我们用于一般数据并行框架的星型联接算法称为Scatter-Gather-Merge，尽管参与的维表数量增加，但它以恒定数量的计算步骤处理星型联接查询。通过采用Bloom过滤器，Scatter-Gather-Merge可以减少大量的IO。我们还展示了Scatter-Gather-Merge可以轻松地应用于MapReduce。我们在集群和云环境中的实验结果表明，分散-聚集-合并优于现有方法。

著录项

来源
《Cluster computing》 |2011年第2期|共15页
作者
Han H.; Jung H.; Eom H.; Yeom H.Y.;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类分子生物学;
关键词
Data parallel framework; Hadoop; MapReduce; Star-join query;

机译：数据并行框架;Hadoop;MapReduce;星型联接查询;

相似文献

外文文献
中文文献
专利

1. Scatter-Gather-Merge: An efficient star-join query processing algorithm for data-parallel frameworks [J] . Han H., Jung H., Eom H., Cluster computing . 2011,第2期

机译：Scatter-Gather-Merge：针对数据并行框架的高效星型联接查询处理算法
2. Single-scan: a fast star-join query processing algorithm [J] . Purdila Vasile, Pentiuc Stefan-Gheorghe Software . 2016,第3期

机译：单次扫描：快速星形连接查询处理算法
3. A green framework for DBMS based on energy-aware query optimization and energy-efficient query processing [J] . Guo Binglei, Yu Jiong, Liao Bin, Journal of network and computer applications . 2017,第Apra期

机译：基于节能感知查询优化和节能查询处理的绿色DBMS框架
4. An Efficient Theta-Join Query Processing Algorithm on MapReduce Framework [C] . Chen Shih-Ying, Chang Tsui-Ping, Chang Zhi-Hong Computer, Consumer and Control (IS3C), 2012 International Symposium on . 2012

机译：基于MapReduce框架的高效Theta-Join查询处理算法
5. Efficient Algorithms for Search Engine Query Processing. [D] . Dimopoulos, Konstantinos. 2016

机译：搜索引擎查询处理的高效算法。
6. IJA: An Efficient Algorithm for Query Processing in Sensor Networks [O] . Hyun Chang Lee, Young Jae Lee, Ji Hyang Lim, 2011

机译：IJA：传感器网络中查询处理的高效算法
7. Algorithms for Efficient Processing of Complex Queries in Node-Partitioned Data Warehouses [O] . 2008

机译：节点分区数据仓库中有效处理复杂查询的算法

Scatter-Gather-Merge: An efficient star-join query processing algorithm for data-parallel frameworks

摘要

著录项

相似文献

相关主题

期刊订阅