天博官方网站中国科学院院士钱德沛:高性能计算与AI正呈现融合态势
当前传统科学与工程计算的需求不断增长,AI计算需求飙升,云已经成为商业和企业的基本IT基础设施——目前对计算的需求正呈现前所未有态势。
近日举行的高性能计算与人工智能协同创新国际论坛(HACI)上,中国科学院院士、北京航空航天大学教授钱德沛在演讲中指出,随着技术迭代发展,计算解决问题的范式也在不断变化。从早期的数学模型驱动,到数据驱动,再到AI赋能。而HPC(高性能计算)与AI的融合将重塑计算科学、IT产业和人类社会发展格局。
在接受21世纪经济报道记者采访时,钱德沛分析道,当前超算与智算的发展和应用各有侧重,但随着彼此发展过程中互相借鉴,未来不排除二者将形成融合。
他认为HPC与AI融合将形成三个关键层次:首先是“赋能AI(For AI)”,即利用强大算力来提升AI性能;其次是“借力AI(By AI)”,通过AI技术使计算系统更加智能和高效;最后是“融合AI(Being AI)”,使AI技术成为计算系统的核心和灵魂。
回顾计算领域的发展历程,此前几十年,全球主要经济体都在推进超级计算机能力的持续迭代演进。
在AI驱动下,新的智能计算也在兴起。钱德沛对21世纪经济报道记者表示,本质上智算与超算都属于计算范畴,只是根据应用性质而有所区别。
其中超算被较早提出,因其性能、运算速度、存储容量等都要远超通用型服务器系统,而被归类为超级计算机,但这并不是一个严格的学术定义。随着技术发展,超算指标每年都在刷新。智算则主要面向大模型的发展,支持、深度学习等应用。
“这两者的不同在于,硬件方面,超算侧重于双精度浮点运算,智算侧重于整数运算或半精度16位的浮点运算。”他进一步指出,共同点都是用计算来解决问题。“这几年超算其实也在借助的方法,比如用混合精度计算的方式,来解决传统计算问题,并由此获得更高计算速度。所以我想,随着二者相互促进,未来有可能走向融合,也就是并不再区分计算机是属于超算还是智算。”
钱德沛指出,大模型的诞生其定位就是要赋能各行各业,当然也包括计算领域。业界提出“AI for science”,就是因为早期的科学发现活动,需要借助数学模型来驱动,只是其方式在随着技术迭代而变化。如今则是借助深度学习、大模型的方式来解决传统问题。
“人工智能与计算是一种双向赋能。”他分析道,例如由于超算在设计之初并不是专为人工智能算法而生,因此在支持AI方面会存在一定缺点,比如能耗较高。但随着AI与超算的互动,AI会对超算的演进带来影响,比如在体系结构、加速硬件和软件算法等方面的影响,由此改善传统超算在性能、灵活性或智能化方面的短板。
前述演讲中钱德沛指出,HPC与AI融合过程中,在赋能AI(For AI)阶段,通过提供更强大、更高效的计算机资源以支持AI研究与应用,面向AI的计算机系统设计中需要权衡多种因素,例如,处理器的设计会从ASIC到专用加速器,再到面向智能计算的通用CPU等,同时也需推进硬件与软件的协同。
在借力AI(By AI)阶段,可以利用AI的手段使计算机更加智能、高效和节能,例如通过云边端资源的协同,追求更低的整体成本,同时也用AI的手段赋能计算系统的优化,例如使用大模型的方法开展处理器设计自动化的研究。
在融合AI(Being AI)阶段,智能成为计算机的本质属性;计算机将内置原生的AI引擎与智能服务,构建AI应用生态系统,支持更广泛的应用。AI也将对计算产生深远影响,促使我们重新思考计算的本质。
“大模型还处在群雄争霸的阶段。当然近期模型厂商降价的动态,意味着大模型发展在逐渐走向收敛。这实际上会淘汰一些落后、性能不好的模型。”钱德沛对21世纪经济报道记者指出,超算目前主要是为大模型提供算力平台,短期内还不会受到模型降价的直接影响。
“但是,这种降价从长远看会影响到国家对算力基础设施的规划和布局天博官方网站1。”他分析道,因为当前智能算力相对紧张,随着未来“百模大战”的队伍收缩后,对AI训练的需求可能不如此前预期那么高,从而需要对智能算力做更精细更合理的规划。
“例如要把模型做得更为高效、准确,让AI软件栈更为完善,这样才更具备竞争实力。”钱德沛认为,这需要考虑如何适应这种趋势,发展下一代超算系统,实际上现在研究的超算系统已经在发生变化,“例如,增强一些半精度浮点能力、降低一些双精度浮点能力等,来更好地支持人工智能的发展需求。所以,这种竞争最终可能会影响到国家层面对算力发展的整体规划和发展策略。”
回顾全球主流超算发展进程,钱德沛认为,国内与国际整体策略一致。只不过在发展时间段来看,国内在上世纪90年代开始跟上海外步伐,逐渐实现并跑。到2010年中国已经研制出计算性能世界领先的超级计算机。
“从发展策略看,中国在某些方面有一定特色。”他分析道,其一是国内较早大规模采用异构加速体结构,其二是强调与产业界的应用相结合。
“大约2010年左右,‘天河一号’超级计算机率先采用了异构加速结构,使得其运算速度、能效都在全球取得了较好的成绩。”钱德沛进一步指出,此外在应用场景方面,我国超算在工业场景有较多应用实践,如促进C919大飞机、汽车工业等的发展,由此令超算持续赋能传统产业升级。“当然总体来说,我国和国际主流在超算发展的宏观策略层面是趋同的,也各有特色。”
2023年,科技部推动超算互联网的部署。钱德沛分析道,超算互联网并不是要研究网络,而是借鉴互联网的理念发展超算的基础设施,但超算中心之间网络的性能也对应用有很大影响。很长时间以来,我国超算中心之间的互联受制于我国网络基础设施的性能和成本,其中成本是更重要的因素。要想让一个超算中心维持非常高速的互联链路,每年将付出很高的通信费用。
“随着有计算需求的应用的分布越来越广,对中心间的互联性能要求越来越高。比如,用多个超算中心来协同训练一个大模型,对于通信性能会有更高要求。所以国家超算也在计划提升彼此互联的性能,以期让多个超算中心之间能够更加紧密地耦合,更利于共同解决某个大型难题。”他进一步分析道。
当然这类需要多个超算中心联合求解的问题毕竟是少数,例如,在新药研发过程中,计算需求可以分发到不同超算中心去计算,因为彼此之间的耦合没有那么紧,但更多的应用还是在单台超级计算机中完成的。
因此,在钱德沛看来,连接网上的超级计算机,形成可以普遍访问的计算基础设施,最主要的作用还是共享资源、提高资源利用率。改善超算中心之间的网络性能,提高数据传输速率,既可以在有需求时实现多中心协同计算,也有助于计算任务及数据在各个中心之间的快速分发,使计算资源更高效地利用。
当然最后一公里问题也值得关注。钱德沛指出,即便超算中心之间用高速网络连接形成紧耦合,但如果到用户端(需求方)的网络性能不好,也无法形成高效的闭环,因此这是一个需要持续解决的系统性优化问题。
对于高性能计算未来的发展方向,钱德沛认为,一方面需要跨学科努力,计算机科学家、数学家、领域科学家、软件工程师等需要合作工作;另一方面也需要积极开展国际合作,一起明确主要问题、定义研究目标和路线图、分享研究经验、共同解决问题等。
论坛期间还举行了“世界算力网联盟(World Computing Net Consortium,WCNC)技术委员会成立仪式”。该联盟由鹏城实验室牵头发起,将汇聚全球计算、智能、网络、通信等领域技术和产业优势力量,希望打造国际化产学研用新生态,促进应用场景扩展、技术体系变革、架构设计创新。
对此,钱德沛表示,该联盟是由多机构自发成立,也代表了中国在推动世界命运共同体方面所作出的努力——希望以此推动算力作为整个人类社会的基础设施而发展,这需要不同国家的共同努力。
“成立联盟是第一步,令大家能够交流经验,共同商讨、研究下一步如何发展,共同攻关技术难题。实际上,中国与国外在超算和算力发展方面已有超过20年的合作历史,包括在高性能计算算法、性能优化等方面都有良好的合作基础。”他表示,在人工智能发展背景下,产业界也希望通过深化国际合作来寻求新的突破。