钟山论剑技术论坛总结 | 打破AI大模型研究的技术壁垒：从算力基础设施出发 - 新闻动态

2023年7月25日，CCF YOCSEF南京成功举办了钟山论剑技术论坛“打破AI大模型研究的技术壁垒：从算力基础设施出发”，本次论坛关注如何通过算力基础设施建设，破局AI大模型研究的技术壁垒，使AI大模型研究能够走入中小型实验室。论坛有幸邀请到南京航空航天大学副教授高攀、北京并行科技资深解决方案工程师张小琼作为引导嘉宾，YOCSEF上海现任AC委员马骏作为思辨嘉宾。

CCF YOCSEF南京AC委员王肇康（南京航空航天大学）、沈逸飞（北京超级云计算中心）担任本次论坛执行主席。CCF YOCSEF南京AC副主席王帅（南京乾联科技）、CCF YOCSEF南京AC委员巫义锐（河海大学）担任本次论坛执行秘书，本次论坛分为引导发言和观点思辨两个环节。

合影留念

引导发言环节

在引导发言环节，张小琼做了题为“大模型训练如何实现从'可用'到‘好用’”的精彩发言。他指出以大模型为代表的人工智能发展对数据中心算力基础设施提出了更高的要求。目前AI模型训练对算力的需求平均3.5个月增长一倍，而摩尔定律代表的算力发展速度平均要18个月才能增长一倍，AI模型训练的算力需求增长远超硬件计算性能增长。训练大模型所面临的硬件性能挑战来自显存、算力与通信三个方面，这使得大型模型训练必须依靠多机多卡的方式。然而构建一个包含800张卡规模的数据中心的成本可高达每年千万元，很多企业只能望而却步。通过将超级计算机、AI算力中心等算力平台的计算资源以共享服务的方式向社会提供，将硬件建设成本向全国用户均摊，从而显著降低算力资源的使用成本。同时，为了充分发挥GPU算力，还需要根据GPU本身的性能合理搭配使用对应的CPU、主板、内存、SSD与高速互联网络等其他硬件，才能以较低的综合成本充分发挥GPU的算力性能。

另一位引导嘉宾高攀做了题为“AI大模型X：训练框架破局思考”的引导发言，他从AI算法研究者的角度，分享了他的研究组在进行大型AI模型训练时遇到的问题和思考。目前高校受计算能力与成本限制，难以像企业界一样训练超大型AI模型，这使得目前高校的相关研究更多集中在利用已训练好大模型，对模型进行微调或针对特定任务进行适配。基于现有的硬件条件，他的研究组在训练大模型时遇到的三大难点分别是显存不够大、框架封装不统一以及优化调试难。显存不足是大模型训练面临的最突出问题。显存的限制使得训练过程不得不降低batch size等超参数，带来收敛速度变慢的问题；或者通过采样等技术降低训练数据的规模，但此类方法会影响模型精度。框架封装不统一主要影响模型的移植性，不同训练框架或同一个训练框架的不同版本间同一算子的行为可能存在差异，导致同一模型难以在不同的训练框架之间进行无缝移植；当模型变大时，此问题会更加突出。大型模型训练过程的调试与优化也变得更加困难。目前深度学习依然需要进行复杂的训练参数调优。当模型规模变大时，判断模型参数是否设置恰当、模型是否收敛需要付出较高的时间成本与算力成本。对于高校而言，训练时间超过一周就会感觉难以接受，然而学生前期的调优经验不足，使模型优化的过程变得更加困难。

向引导嘉宾颁发感谢证书

观点思辨环节

思辨议题1：硬件设施的破局之法：大型AI模型的训练成本出自何处？正在兴起的算力基础设施能否有效降低AI模型的训练成本？

受中美贸易争端的影响，目前国内高端GPU芯片供应出现明显紧缺，GPU算力供应对大模型研究的制约效应正变得越来越突出，算力硬件基础设施建设是破局大模型研究壁垒的必须一环。近几年兴起的AI算力中心、超级计算平台是降低中小企业与高校实验室进行AI大模型研究成本的一种方式，但对于大型企业而言则更加倾向于自建AI算力中心。南京江北新区已建成并向南京地区的高校与企业开放共享了装备有昇腾AI加速器的大型AI计算中心。如果不考虑设备采购成本与土建成本，目前大型AI算力中心运营成本的最大来源依然是水电成本。因此选择“东数西算”的模式（即将算力中心部署在更加靠近能源供应源头的西部地区，通过高速专线网络向东部地区用户提供服务）已成为商业化AI算力平台的必然选择。

采用性价比更高的国产AI加速器理论上虽然可以降低AI模型的训练成本，但其潜在的软件生态建设隐形成本依然不容忽视。现有AI训练框架（例如Tensorflow、PyTorch等）基本均围绕CUDA生态进行建设。对于中小企业而言，将已有基于CUDA的模型与产品迁移到国产平台，或直接围绕国产AI加速器硬件与软件生态开发模型，均需要付出额外人力与时间成本，这些成本有时会反超AI模型的训练成本。提供自动或辅助性的软件迁移工具或可以降低此部分成本。

共享式算力基础设施预计在较长的一段时间内依然是作为一种的补充算力提供方式。综合降低AI模型的训练成本，需要小规模自建服务器与租赁AI机时相结合。AI模型研究的初期阶段需要大量的试错，此阶段使用自建服务器的均摊成本反而会低于租借AI算力机时的成本。另一方面，对AI算力的使用需求也呈现出明显的波峰波谷效应。在邻近相关学术会议截稿期时，共享式AI算力平台的计算资源会变得非常紧张，AI算力供应的连续性需求也迫使中小型实验室必须采用自建加租赁的混合使用方式。

思辨议题2：训练框架的破局之法：常用的AI训练框架在训练大型模型时存在哪些易用性与性能不足？从训练框架设计的角度如何改进？

随着现有AI训练框架的编程模型与AP设计逐渐趋同，将模型代码在不同框架之间迁移不再是技术门槛。AI训练框架的易用性门槛目前更多的体现在训练框架的软件生态的完整性。大模型训练是一个综合性强的系统性工程，除了涉及AI算法，也需要体系结构、操作系统、分布式计算、云计算等多个领域支撑，靠单一技术背景的团队难以构建完善的软件生态。例如大模型训练所需的数据集规模庞大，需要分布式文件系统提供高性能数据存储支撑；目前分布式文件系统Alluxio已面向AI训练过程中高并发小文件的数据访问模式开展了跨语言FUSE性能优化等工作。这也是当下AI训练框架的研发工作形成以企业团队为主导、社区辅助参与的局面的原因。目前国产AI训练框架（例如PaddlePaddle和MindSpore）的软件生态还较为薄弱，成为阻碍其易用性的关键因素。当下国产AI训练框架一方面正在通过研究基金资助、开发者大赛等非技术途径破局，另一方面MindSpore等框架也在通过提供自动化与半自动化的高性能分布式并行训练编程接口，降低普通研究者训练大型AI模型的技术难度，从而形成自己的技术亮点与特色，吸引AI算法工程师使用。

高性能自动化的超参数调优是中大型AI模型研究中的一个迫切需求，在高校尤其明显。超参数对中大型AI模型的性能有显著影响，但缺乏相关经验的初学者难以设置合适参数，并且也无法从损失函数的变化趋势中尽早判断是模型参数是否可以收敛。这导致初学者需要花费大量的时间在不同的模型参数之间试错，显著增加大模型研究的时间与算力成本。针对此问题，AI训练框架可以考虑在以下技术上进行突破：在AI训练框架中深度集成AutoDL等模型超参数调优算法，自动推荐模型参数；在多卡计算环境中，允许框架自动并行的尝试多组模型参数，从中选择性能较优的模型参数；研究与设计可判断模型参数收敛性的AI识别算法，对于可能导致不收敛的模型参数在训练早期进行预警等。

受GPU显存容量的限制，目前大型AI模型训练需采用较小的batch size配合多轮迭代完成。但batch size过小可能会带来模型收敛速度慢、GPU显存与内存数据交换量大的问题，因此设置batch size需要在显存容量与收敛速度之间进行权衡取舍，目前多依赖人工经验。AI训练框架可以考虑通过元学习或遗传算法等方法，提供自动化的batch size设置能力，根据可用显存容量、待训练AI模型特征、试探性batch训练过程的性能指标，自动调整与推荐合适的batch size，从而提升训练效率。

论坛思辨进行中

本次论坛历时3个小时，通过这场思辨讨论，与会者从算力硬件与训练框架两类AI算力基础设施的角度出发，对降低AI大模型研究技术门槛的可能技术途径进行了探讨，分析了限制AI大模型研究的具体困难之处，并提出了可能的破局途径。在硬件设施方面，将算力中心部署在西部地区、利用高速互联的算力网络为东部提供服务是降低模型训练成本的有效方法；目前想通过国产AI加速器降低训练成本依然需要克服软件生态所带来的隐性成本。在训练框架方面，GPU显存容量对训练性能的制约依然突出，在相关硬件没有突破之前，训练框架可以考虑提供自动化模型参数设置、batch size调优等机制，降低模型调优层面的技术，使更多的初学者可以入门大模型研究。本次论坛为与会者们提供了一个相互交流和分享观点的平台，未来，CCF YOCSEF南京将继续举办系列性论坛，促进江苏省计算机领域青年学者与工程师之间的交流，迸发新的创意与机遇。

撰稿：王肇康

编辑：范际耘

审核：刘野

关于YOCSEF南京

2011年3月27日，中国计算机学会青年科技论坛（CCF YOCSEF）南京分论坛在南京大学科技馆报告厅举办成立大会。自2011年至今，按照时间顺序，YOCSEF南京AC主席分别是吕建（南京大学）、陶先平（南京大学）、王箭（南京航空航天大学）、许峰（河海大学）、张天（南京大学）、耿新（东南大学）、孙国梓（南京邮电大学）、郭延文（南京大学）、肖亮（南京理工大学）、陈振宇（南京大学）、戴海鹏（南京大学）、夏彬（南京邮电大学）、吉旭（北京掌引科技有限公司），现任AC主席刘野（南京农业大学）。

欢迎各界热心人士加入CCF YOCSEF南京大家庭！

加入联系：刘野(18260038118，微信同号)

如您想与YOCSEF南京赞助合作，请联系我们！

合作联系：王帅(13851943011，微信同号)

CCF YOCSEF YOCSEFCCF Young Computer Scientists & Engineers Forum