《信息与电子工程前沿(英文)》
>> 2023年
第24卷
第1期
doi:
10.1631/FITEE.2200412
面对E级超算系统的可扩展性和效率挑战:神威E级原型系统并行支撑环境的实践
国家并行计算机工程与技术研究中心,中国北京市,100190
收稿日期:
2022-09-25
录用日期:
2023-01-21
发布日期:
2023-01-21
下一篇
上一篇
摘要
随着超级计算机性能不断提高,人工智能与传统科学计算的进一步融合,应用的并行规模逐渐增加,从数百万个计算核心到数千万个计算核心,这对超大规模系统上实现并行应用的高可扩展性和高效率提出巨大挑战。本文首先以神威E级原型系统为例,分析了E级时代并行应用的高可扩展性和高效率面临的挑战。为克服这些挑战,重点介绍了神威E级原型系统上并行支撑环境软件的优化技术,包括并行操作系统、I/O优化技术、超大规模并行调试技术、千万核心并行算法、混合精度方法等。并行操作系统和I/O优化技术主要支持大规模系统扩展,而超大规模并行调试技术、千万核心并行算法和混合精度方法主要提升大规模应用的效率。最后,介绍了运行在神威E级原型系统上的应用程序取得的重要成果,从而验证了并行支撑环境设计的有效性。