CNCC2023论坛分享 | 面向AI系统的存算技术
10月27日,CNCC2023面向AI系统的存算技术论坛在沈阳举办。
近期随着ChatGPT、stable diffusion等新型人工智能现象级应用的出现,通用AI进入了大模型时代。垂域应用和大模型结合的创新如雨后春笋般快速涌现,由此带来了巨大的模型训练和推理的算力需求。然而,面对不断增长的算力成本需求,当前AI系统面临“算力、存储和功耗”等多方面的挑战。为了解决这些问题,一些新型存储和计算技术应运而生。本论坛围绕新型AI存算技术的关键要素展开讨论,探索新型应用、计算框架、存算架构、以及云基础设施等多个技术领域的趋势和最新进展,提供学术和技术交流平台,促进交叉合作,联合创新,欢迎扫描下方二维码,观看本论坛精彩回放。
扫一扫查看论坛精彩回放
图1 论坛现场情况
2023年10月27日下午,“面向AI系统的存算技术”论坛在沈阳新世界酒店成功举办,本次论坛由CCF杰出会员、浙江大学何水兵研究员担任主席,华为云AI系统创新Lab王喆锋博士担任共同主席,论坛邀请到了冯丹教授、舒继武教授、唐卓教授、马德教授、吴晨涛教授与怀宝兴博士六位来自学术界和产业界的专家,为与会者全面详细介绍了一系列新型存储和计算技术,并探索如何通过新型技术解决AI系统面临的算力、存储等诸多挑战。论坛现场气氛热烈,高峰时期参会者达数百余人,各位专家与现场听众一起,见证了AI系统领域的创新与突破。
图2 何水兵研究员作论坛开场致辞
何水兵研究员在开场致辞时指出,我们正处在一个由ChatGPT等革命性AI应用牵引的大模型时代,伴随其而来的是对算力和存储的巨大需求。如今AI模型和数据量的激增,正使得存储容量和计算能力成为系统性能的关键限制因素。在这样的背景下,何研究员强调,如何通过各类创新的存算技术,探索和突破AI系统性能的瓶颈,已成为学术与产业界共同关注的焦点问题。
正是基于这种共识,本次论坛围绕“面向AI系统的存算技术”这一核心议题展开讨论,其宗旨是促进相关技术领域的创新发展和技术突破,进而为整个AI行业的进步贡献力量。
图3 冯丹教授作论坛报告
CCF会士、武汉光电国家研究中心信息存储研究部主任、信息存储系统教育部重点实验室主任、华中科技大学计算机科学与技术学院院长冯丹教授做了首场题为《面向AI的存算一体技术研究》的报告。冯教授指出,在AI计算数据爆炸式增长和存力发展落后于算力提升的现状下,传统存储和计算分离的冯·诺伊曼计算架构面临存储墙问题,而以数据为中心的新型存算一体架构在应对存储墙方面具有天然的优势,值得深入研究和探索。随后,冯教授深入浅出地介绍了存算一体技术的发展历程和基本原理,并向与会者分享了存算一体系统仿真、性能优化、精度优化等方向的前沿技术。
图4 舒继武教授作论坛报告
在第二场报告中,CCF会士、CCF理事、CCF信息存储技术专委主任、杰青、IEEE Fellow、清华大学长聘教授、闽江学院院长舒继武教授分享了题为《面向人工智能大模型的存储系统设计与思考》的内容。报告指出大模型的参数量和数据量呈现出飞速增长的发展趋势。在该背景下,舒教授强调了大模型所独有的计算、访存模式和数据特征对传统存储技术的挑战。这些特点导致传统存储技术在处理大模型训练任务时效率低下。随后,报告从大模型计算模式的分布式存储技术、大模型训练访存感知的异构存储技术和大模型数据缩减技术三个角度进行展开,详细探讨了大模型时代下的存储问题该如何解决。最后,报告展望大模型存储系统的发展趋势,启发下一代AI应用的存储系统设计。
图5 张嘉鹏教授作论坛报告
接下来由湖南大学信息科学与工程学院助理教授、政务算力网络湖南省工程研究中心骨干成员、唐卓教授团队的张嘉鹏老师带来第三场报告,题为《区域型算力网络关键技术探讨》。张老师指出,建立算力调度和算力需求对接平台,是提升先进算力和基础算力使用效率的必由之路。要依托高速、移动、安全、泛在的网络连接,整合网、云、数、智、安、边、端、链等多层次算力资源,提升超算中心和主要算力中心提供数据感知、传输、存储、运算等一体化服务的能力。随后他分享了区域算网一体的云网融合架构、多云环境下的任务协同计算与调度、算网融合与数据协同等关键技术的前沿进展和应用需求。
图6 马德教授作论坛报告
第四场是由浙江大学计算机科学与技术学院副教授、博士生导师马德带来的题为《神经拟态类脑计算芯片》报告。他首先全面介绍了神经拟态类脑芯片的发展现状与技术路线。随后,他指出了类脑芯片在节点架构、通讯机制与鲁棒运行三个方面面临的挑战。然后,马老师重点介绍了“达尔文”系列类脑芯片。目前“达尔文”系列类脑芯片已经推出到了第三代,并形成了从底层硬件到高层次应用的完整系统平台,在目标检测、机器人导航等应用中展现出了优异性能。最后,马老师对未来类脑芯片发展的趋势进行展望,思考如何设计规模更大、效率更高的类脑计算系统。
图7 吴晨涛教授作论坛报告
CCF信息存储专委会常委、上海市计算机学会存储专委会副主任、上海交通大学教授、博士生导师吴晨涛,为我们带来了论坛第五场报告,题目为《分布式机器学习高鲁棒验证和高可靠恢复机制的研究》。吴教授聚焦数据中心随着规模急剧增加而面临的外在节点攻击和内在数据丢失的双重隐患,指出传统的鲁棒验证方法无法满足多类样本的需求、传统的高可靠纠删码技术无法匹配数据中心的各类型应用场景的不足。吴教授随后在报告中提出了针对分布式机器学习的高鲁棒验证机制和高可靠恢复机制,相较于传统方法在鲁棒性和恢复效率两个方面进一步提升,使得数据中心以较低成本获得更为全面的高可靠性,从而更好地支撑上层算力应用。
图8 怀宝兴博士作论坛报告
最后,由华为云AI系统创新Lab副主任怀宝兴博士,从工业界的角度,为我们带来了题目为《面向下一代AI系统的洞察和思考》的报告。怀博士分析了新兴的超级应用带来的系统方面的变革,探讨了AI应用进入大模型时代后,AI系统将要面临的全新机遇和挑战。他以算力挑战为出发点,探讨如何通过AI系统来解决大模型带来的算力挑战;然后讨论大模型应该如何向应用系统演化以解决实际落地的问题。最后,展望未来,思考AI系统会如何进一步演进,形成LLM时代的新基础设施。
在激烈的讨论中,本次论坛圆满落幕。本次论坛不仅为参会者提供了一个分享和学习的平台,也强化了从业者对于AI系统发展挑战与机遇的深刻理解。我们期待在不久的将来,这些讨论和努力能转化为具体的技术进步和产业成果,共同推动人工智能技术的繁荣发展。