2023 年 8 月24 日到 8 月26 日,由中国计算机学会主办,中国计算机学会高性能计算专业委员会、中国海洋大学、青岛海洋科技中心、齐鲁工业大学(山东省科学院)共同承办,青岛高新技术产业开发区管理委员会、青岛国实科技集团有限公司、山东省计算中心(国家超级计算济南中心)、中北大学、北京并行科技股份有限公司共同协办的 “算力互联·智领未来” 2023 年 CCF 全国高性能计算学术年会(CCF HPC China 2023)在青岛的中国红岛国际会议展览中心举办。
在本届大会期间,9 位中外院士齐聚,11 场特邀报告、6 场产业报告、46 场主题论坛、30 余场特色活动、4 场“2023 中国超算最佳应用”入围作品展示等精彩纷呈。
在该年会上,清华大学计算机系教授、中国工程院郑纬民院士通过《重视我国超算基础软件生态建设》的报告,细致地解读了中国超算发展的现状,明确指出了存在的问题,并提出了改进方案。
超级计算系统是“国之重器”,国际科技竞争战略制高点,能应对最富有挑战性的计算问题,算力指数提升,已经进入 E 级。过去十年,我国在顶尖超算系统研制和超算系统部署数量都处于国际领先行列。大规模并行应用设计和研制方面取得显著进步,3 次获得“戈登·贝尔”奖。
第三,国产超算成为信息创新的典范。正是凭借我们国家政府的鼎力支持,以及在座各位高性能计算领域的同仁的不懈努力,我们才能实现以上这三大成就。
超算作为国之重器其重要性是不言而喻的。当前,其算力正以极快的速度增长,已经达到了令人瞩目的高度。
首先,关于我们国家在这一领域的研发能力。诸位不妨看一下 TOP1 的排名,过去十年里,我们有三台机器曾登顶这一荣誉,显示出我们拥有研制最快计算机的能力。
第二点,便是关于 TOP500 的数据。在这 500 台机器中,我国占据的数量一直位列前茅。以 2022 年 11 月为例,我们有 162 台计算机位列其中,数量甚至超过了美国。尽管到了今年 2023 年 6 月,这个数字有所下滑到134 台,但这并非因为能力下降,而是因为很多计算机未参与评比。
第三点,超算在实际应用方面的表现。近年来,其应用领域有了显著的发展和突破,多次获得了戈登贝尔奖的提名。从 2016 年第一次获奖,到 2017 年第二次,再到 2021 年第三次,这都证明了我们在应用方面有着日趋出色的表现。
尽管我前面所说的都是优点,但也有不尽如人意的地方,主要问题便在于基础软件生态环境。
首要问题是,尽管我们的机器峰值速度极高,已达到 1 亿 FLOPs,但在运行实际应用软件,例如天气预报、海洋模拟或制造软件时,其实际运行效率却很低,只有 10%、20%,有时甚至低至 IM电竞 竞猜 IM电竞娱乐5%。这听起来无疑是令人沮喪的。因此,提升软件的运行效率,比如将原本只有 10% 的效率提升至 20%,或将 20%提升至 40%,是我们首要需要解决的问题。
在现阶段,我们的国产超算拥有多样的架构和操作系统,不同的编程环境,这导致了从一个平台向另一个平台移植应用软件时,其移植和调优的工作量相当大。
不论是领导还是专家,都不能单纯地发布一个命令来限制或推广某一技术。现阶段,这是不现实的。因此,我的建议是加强优化平台的研究和建设。我们需要设计一个跨平台的统一框架、统一的并行编程模型和编译优化平台。幸运的是,科技部已经批准了这个项目。我预测,在未来三四年内,我们有望实现这一目标。
具体来说,现代的大规模计算通常需要处理大量的数据。因此,我们需要考虑如何让大数据和大计算相得益彰。
另外,值得一提的是,高性能计算(HPC)和人工智能(AI)的融合也是一个迫在眉睫的问题。现在,不仅要处理传统的计算任务,还要解决人工智能相关的问题,并且需要进行数据预处理和后处理。因此,HPC、AI 和大数据需要更好地融合在一起。
关于这一点,我有个具体建议:我们应该加强国产超算 HPDA 的系统软件栈的研发,也就是在一个系统中同时处理 HPC、人工智能和大数据。
当前,我国有 13 个挂牌的超算中心,如果能将这些中心有效地连结在一起,将会极大地提升我们的计算能力。换句话说,我们需要建立一个超算网,以支持快速研发和应用部署。
第一个关键因素是算力互联。当我们谈到将 13 台机器进行联接时,这绝不仅仅是一般的网络连接。实际上,普通的互联网在某种程度上已经实现了这一目标。然而,对于高性能计算而言,我们追求的是带宽高以及延迟低。换言之,我们期望数据传输的速度快,带宽大的同时,也需要延迟尽量低。不言而喻,实现这样的目标相当具有挑战性。
接下来,我想借助一个实例来说明这一点。我曾多次在会议上提到,从北京清华大学向无锡太湖之光传输 4 个 T 的数据,在目前可用的网络环境下,需要耗费五天时间。更糟糕的是,一旦网络出现问题,这个时间可能会延长至十天。这究竟意味着什么呢?简单来说,这就是带宽不足的一个直接后果。
为了解决这一问题,一种普遍的应对策略就是使用物流服务。比如,通过刻录数据到硬盘,然后通过顺丰快递发送,通常第二天下午就能到达目的地。我曾在一个与中国移动有关的会议上提及这个解决方案,直言不讳地表示,这种情况不仅限于清华大学,而是全国范围内的普遍现象。
然而,值得一提的是,一些解决方案也正在被探索和实施。例如,中国移动正在考虑相应的解决方案。他们提出,可以在特定时间段内为清华大学和北京大学等单位提供更快的网络通道。这样做有望将数据传输时间从五天缩短到三小时,而成本大约为 1000 元人民币,这在可接受的范围内。
第二个核心问题是延迟问题,这一挑战更为艰巨。目前,我还没有找到一个有效的解决方案。举例来说,太湖之光这台大型计算机具有成千上万个 CPU 和千万个核心。理想情况下,我们应该将计算任务分解为千万个小任务,每个小 CPU 都参与计算。然而,问题IM电竞 竞猜 IM电竞娱乐的核心在于这些核心需要频繁地交换数据,这就需要面对通信延迟和通信量的问题。
最后,让我简要总结一下。我们的超级计算机已经取得了显著的进展,然而,接下来最关键的任务是优化整个生态系统。
▶李彦宏:卷大模型没意义,卷应用机会更大;小米或重启手机自研 SoC;Android 14 将禁止对系统证书的修改极客头条
▶Python 连续八年夺冠、SQL 就业最热门,IEEE Spectrum 发布 2023 年度编程语言榜单!返回搜狐,查看更多
地址:马鞍山经济技术开发区湖东南路555号众一创意街区4栋201-202
电话:15955552931
邮箱:admin@masydzp.com