Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs

Bai Youhui; Li Cheng; Lin Zhiqi; Wu Yufei; Miao Youshan; Liu Yunxin; Xu Yinlong

首页> 外文期刊>IEEE Transactions on Parallel and Distributed Systems >Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs

【24h】

Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs

机译：高效数据装载机，用于大图上的快速采样的GNN训练

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Emerging graph neural networks (GNNs) have extended the successes of deep learning techniques against datasets like images and texts to more complex graph-structured data. By leveraging GPU accelerators, existing frameworks combine mini-batch and sampling for effective and efficient model training on large graphs. However, this setup faces a scalability issue since loading rich vertex features from CPU to GPU through a limited bandwidth link usually dominates the training cycle. In this article, we propose PaGraph, a novel, efficient data loader that supports general and efficient sampling-based GNN training on single-server with multi-GPU. PaGraph significantly reduces the data loading time by exploiting available GPU resources to keep frequently-accessed graph data with a cache. It also embodies a lightweight yet effective caching policy that takes into account graph structural information and data access patterns of sampling-based GNN training simultaneously. Furthermore, to scale out on multiple GPUs, PaGraph develops a fast GNN-computation-aware partition algorithm to avoid cross-partition access during data-parallel training and achieves better cache efficiency. Finally, it overlaps data loading and GNN computation for further hiding loading costs. Evaluations on two representative GNN models, GCN and GraphSAGE, using two sampling methods, Neighbor and Layer-wise, show that PaGraph could eliminate the data loading time from the GNN training pipeline, and achieve up to 4.8x performance speedup over the state-of-the-art baselines. Together with preprocessing optimization, PaGraph further delivers up to 16.0x end-to-end speedup.

机译：新兴图形神经网络（GNNS）已经扩展了对数据集的深度学习技术的成功，例如图像和文本到更复杂的图形结构数据。通过利用GPU加速器，现有框架结合了迷你批量和采样对大图中的有效和有效的模型训练。但是，此设置面向可扩展性问题，因为通过Limited带宽链路将CPU加载到GPU的丰富顶点特征通常占主导地位训练周期。在本文中，我们提出了一种在具有多GPU的单服务器上支持一般和高效的采样的GNN培训的新颖高效数据装载机。 PAGRAPH通过利用可用的GPU资源来显着降低数据加载时间，以将频繁访问的图形数据与缓存保持常见。它还体现了轻量级但有效的缓存策略，它同时考虑了基于采样的GNN训练的图形结构信息和数据访问模式。此外，在多个GPU上缩放，PAGRAPH开发快速的GNN - 计算感知分区算法，以避免在数据并行训练期间的交叉分区访问，并实现更好的高速缓存效率。最后，它与数据加载和GNN计算重叠，以进一步隐藏加载成本。使用两种采样方法，邻居和层展的两个代表性GNN模型，GCN和Graphsage的评估表明PAGRAPH可以消除来自GNN训练管道的数据加载时间，并通过状态达到高达4.8x的性能加速 - 艺术基线。与预处理优化一起，PAGRAPH进一步提供高达16.0倍的端到端加速。

著录项

来源
《IEEE Transactions on Parallel and Distributed Systems》 |2021年第10期|2541-2556|共16页
作者
Bai Youhui; Li Cheng; Lin Zhiqi; Wu Yufei; Miao Youshan; Liu Yunxin; Xu Yinlong;
展开▼
作者单位

Univ Sci & Technol China Sch Comp Sci & Technol Hefei 230026 Anhui Peoples R China;

Univ Sci & Technol China Sch Comp Sci & Technol Hefei 230026 Anhui Peoples R China;

Univ Sci & Technol China Sch Comp Sci & Technol Hefei 230026 Anhui Peoples R China;

Univ Sci & Technol China Sch Comp Sci & Technol Hefei 230026 Anhui Peoples R China;

Microsoft Res Beijing 100080 Peoples R China;

Microsoft Res Beijing 100080 Peoples R China;

Univ Sci & Technol China Sch Comp Sci & Technol Hefei 230026 Anhui Peoples R China|Anhui Prov Key Lab High Performance Comp Hefei 230026 Anhui Peoples R China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Training; Graphics processing units; Loading; Computational modeling; Load modeling; Partitioning algorithms; Deep learning; Graph neural network; cache; large graph; graph partition; pipeline; multi-GPU;

机译：培训;图形处理单元;加载;计算建模;负载建模;分区算法;深度学习;图形神经网络;缓存;大图;图分区;管道;管道;多GPU;

相似文献

外文文献
中文文献
专利

1. Fast load balance parallel graph analytics with an automatic graph data structure selection algorithm [J] . Jiawen Sun, Hans Vandierendonck, Dimitrios S. Nikolopoulos Future generation computer systems . 2020,第Nova期

机译：快速负载平衡平行图分析，具有自动图数据结构选择算法
2. Efficient data selection approach in projected feature space for fast training support vector machines [J] . Sonia Chaibi, Mohamed Tayeb Laskri International Journal of Business Intelligence and Data Mining . 2014,第3期

机译：预测特征空间中用于快速训练支持向量机的有效数据选择方法
3. An efficient clustering and load balancing of distributed cloud data centers using graph theory [J] . Devi R. Kanniga, Murugaboopathi G. International journal of communication systems . 2019,第5期

机译：基于图论的分布式云数据中心高效集群与负载均衡
4. An Enhanced Cryptographic System for Fast and Efficient Data Transmission [C] . Sandeep Verma, Vivek Kapoor, Rahul Maheshwari International Conference on Advanced Computing Networking and Informatics . 2019

机译：用于快速高效数据传输的增强密码系统
5. Fast Load Transient Response and Chip Area Efficient Low Dropout Regulators [D] . Liu, Yonggen. 2014

机译：快速载荷瞬态响应和芯片面积高效低压差稳压器
6. CRD: Fast Co-clustering on Large Datasets Utilizing Sampling-Based Matrix Decomposition [O] . Feng Pan, Xiang Zhang, Wei Wang -1

机译：CRD：利用基于采样的矩阵分解对大型数据集进行快速联合聚类
7. Fast and efficient dataflow graph generation [O] . Bodin, Bruno, LESPARRE, Youen, Delosme, Jean-Marc, 2014

机译：快速高效的数据流图生成

Efficient Data Loader for Fast Sampling-Based GNN Training on Large Graphs

摘要

著录项

相似文献

相关主题

期刊订阅