您现在的位置:首页>中文会议>2017年全国高性能计算学术年会

会议信息

  • 会议名称:

    2017年全国高性能计算学术年会

  • 召开年: 2017
  • 召开地: 合肥
  • 会议文集: 2017年全国高性能计算学术年会 论文集
  • 主办单位: 中国计算机学会
  • 出版时间: 2017-10
  • 排序:
  • 显示:
  • 每页:
全选(0
<1/2>
30条结果
  • 摘要:随着二代测序技术的快速发展,基因数据的增长速度已超过了摩尔定律,基因数据分析工具逐渐无法满足如此大规模的数据分析需求.一方面,基因数据分析工具大多仍为串行执行,无法有效地利用多核结构提升性能并导致计算资源的严重浪费;另一方面,由于前期设计和开发的局限性,分析工具所依赖的底层算法库不能兼顾高性能与友好的用户接口.本文面向Gene Panel分析流程(1)设计并实现了一套全新的并行Gene Panel基因数据分析流程,通过数据并行和任务并行两种主要并行手段并结合负载均衡等其他优化方法,有效地提升了多核平台的资源利用率,并获得了5~7x的整体加速比;(2)设计并实现了一种接口友好的高性能基因数据分析底层库HCC.由于相似的算法特征,本文的优化方法同样适用于除Gene Panel外的其他测序流程.
  • 摘要:Jacobi和Gauss-Seidel算法作为线性方程组的求解器,在并行计算领域具有广泛应用,而基于异构众核架构开发其细粒度并行性一直是挑战.最新Top500排名第一位的神威太湖之光超级计算机正是基于异构众核架构,针对这一现状,基于非结构网格提出了面向神威太湖之光超级计算机异构众核架构的块Gauss-Seidel/Jacobi算法,将其作为区域分解算法的子区域求解器.为充分利用神威太湖之光国产SW26010芯片中每个CPE拥有的高速LDM(Local Data Memory),以缓解通信瓶颈,设计了多行块通信打包、计算与通信重叠性能优化策略和忽略非关键元素的低通信复杂性数值优化方法.数值实验结果显示,块Gauss-Seidel/Jacobi算法具有良好的预处理效果,相较于串行Gauss-Seidel算法,预处理过程的加速比最高达到4.16倍.以1040核的测试数据为基准,在处理器核数达到33,280时,块Gauss-Seidel/Jacobi预条件算法的并行效率为61%.
  • 摘要:ARMV8架构是最新一代的ARM架构,它加入了64位和32位执行状态,可以设计更高性能的处理器实现方案.FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程,科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARM V8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.本文在ARMV8平台上实现和优化了一个高性能的二维FFT算法库:PerffFT,通过FFT蝶形的计算优化、SIMD优化、汇编与寄存器使用优化、小规模输入的特殊优化、内存对齐、Cache-aware的分块算法和高效转置等优化方法的应用,大大提升了FFT算法的性能.实验结果表明,PerffTT相比目前应用最为广泛的开源FFT库FFTW3.3.6实现了10%~216%的性能提升,而相比ARM高性能商业库ARM Performance Library实现了13%~44%的性能提升.
  • 摘要:针对计算流体力学(Computational Fluid Dynamics,简称为CFD)中大规模并行计算的需要,设计了一种能适用于任意网格类型的并行计算框架,同时支持结构网格、非结构网格和重叠网格.为了实现与网格类型的无关性,设计了通用的通信模式、基于网格块的数据交换模式、MPI/OpenMP混合并行模式.除此外,还介绍了结构/非结构网格的分区方式、大规模并行文件存储模式等.最后,分别基于结构网格、非结构网格和重叠网格,给出了工程应用领域的实际算例,以说明PHengLEI并行计算框架对不同网格类型的适应性.大规模测试表明,国产定制集群上3.2万核并行效率达70%以上,"天河二号"上近10万核并行效率达90%以上.
  • 摘要:矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU、GPGPU和FPGA等现有计算平台上的性能和效率受限,其往往成为大规模数值计算应用的性能瓶颈.针对该问题,以线性阵列计算结构为基础,研究了双精度浮点矩阵乘的定制加速.首先,对线性阵列计算结构进行了双缓冲优化并设计了针对双缓冲的存储访问调度,以提高结构的计算效率.其次,提出了矩阵乘协处理器和加速计算系统的结构,构建了协处理器的性能模型并对其结构设计空间进行了探索.最后,验证了协处理器的功能正确性并在某主流工艺下评估了其硬件开销.实验结果表明,设计的双精度浮点矩阵乘协处理器可以达到3TFLOPS的计算性能和99%的计算效率.与NVIDIA K40GPGPU相比,协处理器执行双精度浮点矩阵乘的性能是K40的1.95倍,而面积开销仅为后者的21.05%.探索了定制加速结构设计在高性能计算中的应用,对现有计算系统的性能提升具有一定的参考价值.
  • 摘要:高性能计算应用的数据量日益增长,数据密集型应用占比日益增加,在计算能力之外,高性能计算系统的存储能力、数据吞吐能力越发重要.数据预处理作为全流程处理中的重要一环,在数据量大的条件下不可忽视.如何在HPC系统现有条件下高效完成数据预处理,并且合理利用系统资源,是应用在HPC系统中适应性设计的重要挑战.本文利用高性能计算系统中的存储管理单元的高吞吐特性,设计了大规模数据的存储协同预处理方案.并在神威太湖之光环境下,进行了PB级的数据预处理的样例实验,实验证明了设计的有效性.
  • 摘要:为了应对日益增长的大数据实时处理的需求,以Storm为代表的流计算引擎被广泛应用,其执行效率也成为普遍关注的问题.Storm的执行效率受到硬件资源,配置参数等各方面的影响,而Storm的原有系统只能提供粗粒度的性能统计信息,无法准确的定位应用的性能瓶颈.因此,本文提出并实现了一个面向Storm的以元组为中心的性能分析框架,支持细粒度的性能信息收集,并以此为基础提出了一种流应用瓶颈识别算法,能够准确的识别出流应用的性能瓶颈.进一步的,本文的方法可以用来协助量化地选择最优参数配置,从而消除应用的性能瓶颈.使用三个标准程序在32个不同配置下的实验结果表明,本文提出的瓶颈识别算法可以以100%的精度识别出所有的性能瓶颈,并可以协助将应用的性能提升0.7倍.
  • 摘要:针对连续手势识别时存在的实时性较差、准确性低等问题,本文利用手势之间的顺序性约束条件,提出了一种分层隐马尔科夫模型的连续手势识别方法.首先,利用深度传感器获取人体运动的三维加速度和角速度信息;其次,将神经网络用于手势检测,再利用阈值方法提取手势信号;随后,利用移动窗口对手势信号进行采样和数据预处理最后,将一种手势之间的约束条件加入到分层隐马尔科夫模型中来实现对连续手势的识别.分层隐马尔科夫模型分为下层和上层两个子隐马尔科夫模型.下层隐马尔科夫模型将用于识别单个手势,而上层隐马尔科夫模型将按照动作之间的上下文约束条件识别与修正连续手势动作.通过与机器人的手势交互实验,验证了本文提出算法的有效性与准确性.
  • 摘要:基于机器学习的迭代编译方法可以在对新程序进行迭代编译时,有效预测新程序的最佳优化参数组合.现有方法在模型训练过程中存在优化参数组合搜索效率较低,程序特征表示不恰当,预测精度不高的问题.因此,基于机器学习的迭代编译方法是当前迭代编译领域内的一个研究热点,其研究挑战在于学习算法选择,优化参数搜索以及程序特征表示等问题.基于监督学习技术,提出了一种程序优化参数预测方法.该方法首先通过约束多目标粒子群算法对优化参数空间进行搜索,找到样本函数的最佳优化参数;然后通过动静结合的程序特征表示技术,对函数特征进行抽取;最后,通过由函数特征和优化参数形成的样本构建监督学习模型,对新程序的优化参数进行预测.分别采用k近邻法和softmax回归建立统计模型,实验结果表明,在NPB测试集和大型科学计算程序上实现了较好的预测性能.
  • 摘要:生物效应评估是通过测定和分析生物制剂刺激各种人体细胞后的数字化转录组反应,快速确定相关的检测标志物和治疗靶标,主要包含比对乖聚类两大步骤.采用典型的大数据策略,在系统地积累潜在生物制剂作用下细胞反应大数据的基础上,通过大范围数据比较推测突发生物效应模式.基因谱的比对普遍采用GSEA算法,但目前的实现工具受限于脚本语言的低效性,难以高速处理海量数据.聚类分析是数据分析以及机器学习领域较为经典的一类算法,有诸多具体实现.本文使用c语言综合MPI、OpenMP两级并行加速,移植优化了GSEA比对算法和聚类算法,使用不同的数据量和并行度验证了优化后算法潜在的良好可扩展性和快速处理海量生物信息数据的能力.
  • 摘要:Stencil计算是一种科学和工程应用中常见的循环模式,而分块技术是一种提高数据局部性和并行性的强大转换方法.与以往直接对整个迭代空间进行分块的分块技术不同,本文提出了一种新的两层密铺分块的并行算法.首先,利用不同分块密铺数据空间,其次,所有分块沿时间维度的扩展能密铺迭代空间.本文提出的算法有以下优点:(1)最大化并发执行,(2)无冗余计算,(3)简洁的循环条件,(4)适应Stencil不同的尺寸、形状、阶数和边界条件.实验结果表明,对于3d27p Stencil,非周期边界的性能比Pluto高12%,周期边界的比Pochoir最高提升40%.
  • 摘要:进入二十一世纪,新一代测序技术得到发展及应用,促使以基因测序及分析为基础手段的分子生物学得到快速发展及应用.这类研究和应用催生出海量基因数据,其基因测序数据总量以近似指数方式增长,其增长速度远超摩尔定律.目前大部分基因处理与分析的软件包都是针对通用处理器计算平台开发及优化的,通常基因数据处理的特点是需处理海量短数据,待处理数据的局部性差、单位数据处理的计算密度低.上述特点会造成基因处理分析的核心算法在通用处理器上的运行效率不高.本文尝试利用CPU+FPGA组成的可重构计算平台,将BWA从CPU映射到FPGA实现异构加速.主要工作如下:(1)利用可重构平台上的OpenCL流程及工具,将热点函数作为核函数设计了核函数的接口部分和序列比对算法中seed部分在可重构系统上的工作流程,完成算法的移植.(2)从增大并行度和优化缓存对计数函数bwt_2ooc4和查询函数bwt_sa两个核函数进行优化.大数据卡可重构平台上相对于X86S2600WTTR2.4Ghz Xeon单线程获得11.8倍的加速.
  • 摘要:国家高性能计算环境是由中国众多国家级计算中心和高校的计算集群聚合而成的大型高性能计算环境,为国内研究人员提供优质计算资源.出于维护环境正常稳定运行的目的,环境管理人员需要获取环境内部所发生的各种事件信息,以确保及时迅速的对环境产生的问题进行处理.针对这种需求,设计了国家高性能计算环境事件流处理与分发系统,用于对环境各类事件进行收集和按类型分类,最终提供给对事件有需求的环境应用.在该系统中,事件工厂模块负责对环境的各种事件进行格式解析以及初步过滤和处理等加工工作,然后将加工过的事件封装为统一的接口格式对外发布.初步实现了事件流系统的各部分功能,将其部署到国家高性能计算环境中,并对该系统的事件处理延时进行测试.实验结果表明事件处理过程的延时很低,可以满足对事件时效性的要求.
  • 摘要:近年来,二代基因测序技术的迅速发展使得测序平台产生的数据量大幅增长.以BWA、GATK等工具组成的二代测序数据分析流程在业内得到了广泛的使用.现有的数据处理工具和方法受限于并行扩展性差、难以移植等问题,无法满足大量基因组数据的处理需求.本文借助Spark平台对基因组数据分析流程进行并行和加速,在Spark上实现了BWA mem、Picard Mark Duplicate及GATK系列工具,构建了从FASTQ数据到raw variants的整个流程.以GATK best practice中的WGS流程为例,在天河Spark集群上对程序进行了性能测试.实验结果表明程序能够在24分钟内完成对47×FASTQ数据的WGS处理流.程序并行度达到2048核时,相比128核时具有7.25倍的性能提升.
  • 摘要:近年来,模糊投资组合选择理论得到了充分发展和广泛应用.基于可信理论,许多模糊投资组合选择模型被陆续提出,模糊Mean-CVaR模型是目前的主流模型之一.但其模糊特征以及计算复杂性使得模型的求解速度过慢,无法满足实际交易的需求.为了实现对模糊Mean-CVaR模型的高效求解,解决模型计算瓶颈问题,本文提出了一种混合智能算法,并将其进行了并行实现.算法基本思想是,首先使用马尔科夫过程预测模糊收益率,模糊模拟为训练模拟退火弹性反向传播(SARPROP)神经网络产生输入输出数据,然后,SARPROP利用产生的训练数据训练神经网络近似投资组合收益期望和CVaR,而基于适应性罚函数法的遗传算法结合SARPROP神经网络全局寻优,求解模糊Mean-CVaR模型的最优解.通过对基于新一代超级计算机"元"的数值实验结果的分析,验证了并行算法的有效性和可扩展性.
  • 摘要:人体血流动力学分析在心脑血管疾病预测和机理研究中起着重要的作用,血管几何模型和物理过程十分复杂,实现人体血流动力学的真实高效快速模拟极具挑战性.针对人体脑血管流固耦合数值模拟问题,研究了基于非结构网格的全隐全耦合高可扩展并行算法.算法使用任意拉格朗日欧拉方法求解可变区域的流场问题,并行Newton-Krylov-Schwarz方法求解非线性方程组,全耦合方法计算流固耦合模型.首次实现了基于真实人体脑血管模型和物理参数的流固耦合问题的高效快速求解.数值结果显示,在天河2号上使用8192个处理器核求解规模超过两千万个网格单元的脑血管流固耦合模型时,仍然具有接近40%的并行效率,同时,物理模型接近刚性壁时,具有良好的数值收敛性.
  • 摘要:基于一种简化求商的高基Montgomery模乘流水化阵列结构,提出并实现了素域上椭圆曲线标量乘硬件结构.该结构采用修正的Jacobian坐标的点加和倍点算法和Kaliski提出的Montgomery模逆的算法.实验结果表明,该结构与相关工作相比具有更好的性能.
  • 摘要:Intel新一代处理器KNL作为一种具有极强运算能力的多核处理器,拥有16GB高速片上内存(MCDRAM),物理核心数量高达72个,单CPU的双精度浮点峰值为3TFlops,为高并行负载应用提供强大的性能支持.各种主流的并行软件也纷纷使用KNL众核、高速内存技术,由于LAMMPS(large-scale atomic/molecular massively parallel simulator)在材料科学和计算化学中的广泛应用,因此在KNL节点上优化LAMMPS成为相关领域近些年的研究热点.本文以郑州超算中心的KNL集群为平台,采用MCDRAM和第三方扩展包两种方法对LAMMPS进行优化.MCDRAM可以加快CPU读取数据的速度,第三方扩展包从源码的角度对程序中的条件判断进行优化.试验结果表明,优化后的LAMMPS执行时间明显减少,加速比可达49x,是CPU平台加速比的5.5x.
  • 摘要:在本文中,研究了国内外典型气象预报模式发展历史和特点,通过对GRAPES_TYM程序的部分重构,实现了高效的插值方法,并行涡旋中心定位算法以及适应GRAPES_TYM程序结构的移动双向嵌套模块,并在国产超级计算机"神威太湖之光"上进行了移植和众核优化.使用数组重排、数据分块以及LDM缓存等方法,实现了基于申威26010芯片异构众核并行,使插值算法获得了20倍的加速效果.在"神威太湖之光"上运行的测试表明该方案在局部加密地区提升了模式分辨率,改善了模式模拟效果,具有较好的加速比和并行效率.
  • 摘要:存储是地球科学类软件的重要组成部分,周期性输出中间态和检查点会带来大量的访存操作,不恰当的访存设计会严重影响软件在大规模计算时的性能表现.本文针对地球科学类软件的存储问题,从软件层面提出一个异步存储优化方法,通过设置额外的I/O进程隐藏输出过程.该异步存储优化主要有三个优势:一是将输出和计算操作重叠在一起,实现了输出的异步化和隐藏化;二是抑制了收集通信的开销,突破了收集操作的通信带宽瓶颈和内存限制;三是能容易的使用各种高级并行输出库函数.利用异步存储优化了天河二号上的WRF,ROMS_Agrif和grapes,并完成了性能测试.结果表明,经过存储优化后,程序的峰值性能都获得了显著的提升.还讨论了在固定总进程数下,计算进程和I/O进程数的最佳比例是多少.优化后的程序与原版相比,模式专家只需要在配置文件额外设置两个新变量即可使用,十分易于学习.

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号