通信避免的广义共轭余差算法

论文摘要

随着现代气象事业的发展,对数值天气预报模式的分辨率提出了越来越高的要求。数值天气预报模式的运行速度是提高模式分辨率的客观前提,是必要非充分条件。大规模并行计算是目前提高模式运行速度的主要手段。超级计算集群的规模不断扩大,性能不断提升。为充分利用大规模超级计算集群的计算能力,数值模式的可扩展性需要提高。中国气象局的“全球/区域一体化数值预报系统（GRAPES）”由动力框架、可自由组合的物理过程参数化方案、全球区域一体化资料同化系统等部分组成。其动力框架部分的核心,是一个亥姆霍兹方程求解器。方程的系数矩阵是一个大型稀疏矩阵,矩阵每行有19个非零元。该方程求解器所采用的迭代算法是“广义共轭余差算法（GCR）”。制约方程求解器模块可扩展性的主要原因,是GCR算法中因为长向量点乘而带来的密集的全局通信。本文提出了“通信避免的广义共轭余差算法（CA-GCR）”,以短向量的迭代替代原算法中的长向量迭代,避免了迭代过程中的全局通信,使全局通信在迭代开始前的计算部分一次性的集中进行。新算法的全局通信次数较之原算法降低了一个数量级（通信总量没有减少）,同时减少了部分本地计算量。缺点是小幅降低了收敛速度,即小幅增加了迭代次数,同时增加了内存的占用。在中国气象局最新部署的“曙光派”计算集群上,使用1°、0.5°、0.25°、0.05°水平分辨率全球算例,对新旧算法进行了从32进程到16384进程的对比实验。实验结果表明:在高分辨率、大规模并行的条件下,新算法在总用时、本地计算用时、通信用时、可扩展性上全面优于原算法;在相同并行规模下,总用时最高减少到原算法三分之一。进一步分析算法中各部分用时发现:在并行规模较小的情况下,新算法的优势主要来源于本地计算的减少;在并行规模较大的情况下,新算法的优势主要来源于全局通信的减少。同时,在规模特别小的情况下,由于迭代次数的增加和内存占用的增加,新算法的稀疏矩阵向量乘等部分用时增加,因此在部分测试中慢于原算法。在算例分辨率低,而并行规模特别大的情况下,由于每个进程计算量过小,总运行时间极短,受计算平台波动影响较大,新算法表现不稳定。因为本文工作目的是为提高数值模式分辨率提供必要条件,而当前正在业务运行的是0.5°分辨率全球模式,因此重点关注0.05°、0.25°等高分辨率算例在大规模并行下,两种算法的表现,根据本文在这些条件下的测试结果,认为新算法优于原算法。

论文目录

摘要

Abstract

第一章引言

1.1 数值天气预报的发展

1.2 GRAPES模式简介

1.3 大型线性方程组的求解

1.4 高性能计算机的发展

1.5 并行计算中的通信

1.6 通信避免的提出及一般方法

1.7 共轭梯度法的通信避免

1.8 通信避免相关工作及本文的意义

1.9 论文结构安排

第二章通信避免的广义共轭余差算法的推导

2.1 GRAPES中的广义共轭余差法

2.2 CA-P-GCR算法的推导

2.3 通信避免的带预条件的广义共轭余差法算法描述

2.4 新旧算法计算量的理论对比

2.5 通信避免算法的解的正确性

2.6 本章小结

第三章数值实验及结果分析

3.1数值实验

3.1.1 算例信息

3.1.2 计算集群信息

3.2 实验结果

3.2.1 收敛速率对比

3.2.2 总时间对比

3.2.3 主要计算、通信时间对比

3.2.4 神威太湖之光上的实验结果

3.3 本章小结

第四章针对INTEL平台的微架构优化

4.1 P-GCR算法代码的微架构优化

4.1.1 P-GCR算法的具体代码

4.1.2 预条件矩阵及其对应函数

4.1.3 稀疏矩阵向量乘的优化

4.1.4 稀疏矩阵向量乘的边界通信避免以及数据局部化的困难

4.2 CA-P-GCR算法

4.2.1 长向量点乘和残差计算的向量化

4.2.2 点乘和残差计算的向量化在原算法中的表现

4.2.3 全局通信的减少

4.3 本章小结

第五章结论及展望

5.1 结论

5.2 展望

参考文献

致谢

个人简介

文章来源

类型: 硕士论文

作者: 杨磊

导师: 金之雁

关键词: 通信避免,亥姆霍兹方程,并行计算

来源: 中国气象科学研究院

年度: 2019

分类: 基础科学

专业: 气象学

单位: 中国气象科学研究院

分类号: P456.7

总页数: 63

文件大小: 2292K

下载量: 22

通信避免的广义共轭余差算法

论文摘要

论文目录

文章来源

相关论文文献

猜你喜欢