CNCC | 使能AI大模型的网络技术
CNCC2023将于10月26日至28日在沈阳举行,会议期间将举办129场技术论坛,涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30余个方向。本文特别介绍将于10月28日举办的【使能AI大模型的网络技术】技术论坛。
本论坛围绕使能AI大模型的网络技术展开讨论,重点探讨如何设计和优化网络体系架构及协议以实现AI大模型的高效训练和广泛部署。
报名及了解更多技术论坛信息请识别下图二维码进入CNCC2023官网。目前早鸟票限时优惠报名正在进行,抓住机会立享大幅优惠!
2022年底,OpenAI公司发布了大规模语言模型ChatGPT,引发全球对AI大模型的广泛关注和对算力需求的爆炸式增长。将已有的、不同体系架构的算力节点通过网络互联,可以有效合理的配置、共享、调度算力,充分释放基础设施潜能。
目前,国家超算互联网工作已经启动。按照规划,到2025年底,算力网络将成为支撑数字中国建设的“高速路”。但是,现阶段的算力网络真的为AI大模型的广泛应用做好准备了吗?当前分布式训练网络尚存在哪些技术瓶颈和挑战?本论坛将围绕使能AI大模型的网络技术展开讨论,重点探讨如何设计和优化网络体系架构及协议以实现AI大模型的高效训练和广泛部署。
论坛安排
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 基于机器学习和AI实现高效的网络测量 | 谢鲲 | 湖南大学 |
2 | 分布式训练中网络传输性能测量与优化 | 李振宇 | 中国科学院计算技术研究所 |
3 | Sketch与机器学习双向优化 | 杨仝 | 北京大学 |
4 | 大模型背景下的数据中心网络性能优化 | 张娇 | 北京邮电大学 |
5 | 大规模机器学习系统的细粒度实时低成本测量与优化 | 田臣 | 南京大学 |
论坛主席
李福亮
东北大学计算机学院副教授/博导
CCF会员、互联网专委会委员、体系结构专委会委员。主要研究方向为未来网络技术、网络智能运维等;主持国家自然科学基金、科技部重点研发计划等多项国家级项目/课题/子课题,主持华为、字节跳动、阿里巴巴等多项企业合作项目;第一及通讯作者发表学术论文30余篇,申请发明专利10余项,出版学术专著6部;入选沈阳市高层次人才计划;获沈阳市中青年科技创新人才、辽宁省通信学会优秀科技工作者等荣誉称号。
共同主席
潘恬
北京邮电大学信息与通信工程学院副教授/博导
CCF会员、互联网专委会委员。主要研究方向为云数据中心网络、卫星互联网、高速可编程网络设备等。主持国家自然科学基金等多项国家级项目,并与中国移动、华为、阿里巴巴、中国空间技术研究院等单位开展多项合作。在SIGCOMM、NSDI、INFOCOM、ToN等网络方向知名会议和期刊上发表论文100余篇,授权发明专利60余项。获2017中国通信学会技术发明一等奖和2021中国电子学会创新团队奖。
论坛讲者
谢鲲
湖南大学教授
CCF会员、互联网专委会委员,湖南大学二级教授,国家杰青,湖南省杰青,湖南省青年骨干教师,湖南省优秀硕士生导师,长沙市“巾帼建功”标兵,湖南大学岳麓学者,湖南大学科研标兵。目前担任超算与人工智能融合计算教育部重点实验室主任。研究方向为:计算机网络,网络安全,大数据和人工智能。
基于机器学习和AI实现高效的网络测量
网络运维、异常检测、故障诊断,以及新兴领域如网络孪生和网络自动驾驶,都需要对网络性能和网元状态进行全面监控。然而,由于网络规模的不断扩大和测量粒度要求的持续提升,全网测量面临着巨大的挑战。本报告将探讨如何利用机器学习和AI技术实现全量、细粒度的网络性能和状态的测量采集。
李振宇
中国科学院计算技术研究员
CCF会员、网络与数据通信专委会委员,主要研究方向为数据驱动的网络传输系统,主持国家重点研发项目、国家自然科学联合基金重点项目、863/973课题等,研究成果发表在SIGCOMM、NSDI、INFOCOM、ATC等领域著名学术刊物和会议上,受到国内外主流媒体报道。成果已广泛应用于多个互联网系统与网络设备,服务上亿用户。担任INFOCOM、ICNP、CoNEXT等国际会议的TPC成员。入选中科院青促会优秀会员,获得北京市杰出青年基金项目资助,获得中国电子学会技术发明二等奖。
分布式训练中网络传输性能测量与优化
随着训练数据规模以及模型的不断增大,AI模型的训练需要在由多机/多卡组成的分布式系统中完成。分布式训练依赖网络完成梯度的同步,梯度传输成为决定分布式训练系统性能的主要因素之一。因此,对分布式训练系统中网络传输性能的测量与分析,并据此设计传输优化方法成为业界广泛关注的问题之一。本报告将介绍我们团队对PS架构和Allreduce架构网络通信开销的测量与分析,以及根据测量分析结果设计的自适应张量融合机制、基于可编程交换机的梯度在网聚合系统。
杨仝
北京大学计算机系网络所研究员/博导
CCF会员、互联网专委会委员,教育部青年长江学者。主要研究网络大数据算法与系统。近年发表一作/通信作者CCF A类近论文70篇,其中领域排名第一SIG论文23篇。负责1项国家自然基金重点支持项目、3项国家重点研发计划课题/子课题、国家自然面上基金、青年基金、华为、中心、今日头条等项目。研究成果被国家自然基金委网站报道2次,教育部科技发展中心1次,研究成果被基金委报道2次,教育部科技发展中心1次,多项研究成果在华为海思、华为产品线、今日头条、Redis数据库中得到了应用部署。
Sketch与机器学习双向优化
报告主题是“Sketch与ML双向优化”,分为两个方向:ML优化Sketch和Sketch加速ML。在ML2Sketch方向,首次提出了一系列机器学习优化Sketch的算法,从而实现Sketch误差的降低。在Sketch2ML方向,首次提出了利用Sketch来优化机器学习(分布式机器学习、联邦学习)的多种方法,主要思想是用Sketch来压缩分布式机器学习的梯度,从而显著降低带宽消耗,消除通信瓶颈,从而加速机器学习。
张娇
北京邮电大学教授/博导
CCF高级会员、互联网专委会委员,2014年获得清华大学博士学位,曾于加州大学伯克利分校联培一年。长期致力于云数据中心网络、网络传输协议研究。在ACM SIGCOMM、USENIX NSDI、ACM EuroSys、IEEE/ACM Trans. On Networking等网络领域重要会议/期刊发表学术论文70余篇,国家发明专利转化5项。主持国家重点研发计划(青年科学家项目)、国家自然科学面上/青年基金和华为、字节跳动创新基金等20余项项目。担任ACM CoNext、IEEE/ACM IWQoS重要网络国际会议分项联合主席及Multimedia、INFOCOM、ICPP等技术委员会委员。获中国计算机学会优秀博士学位论文奖、北京市优秀博士毕业生、首届中国科协青年人才托举工程、中国通信学会技术发明一等奖和中国电子学会创新团队奖等荣誉。
大模型背景下的数据中心网络性能优化
以大模型为代表的人工智能发展对数据中心算力基础设施提出了更高的要求。随着数据中心节点间带宽从传统的1G/10Gbps发展到现在的200/400Gbps,高速端侧数据处理给CPU带来巨大计算开销。因此,近几年,RDMA网卡在数据中心网络中开始大规模使用,来释放CPU通用算力资源。然而,利用RDMA网卡处理高速网络数据也带来了新的挑战和问题。本报告将介绍大模型背景下RoCE网络的关键技术研究,并围绕其中两个问题展开:高速RDMA网络拥塞控制和RDMA端主机故障瓶颈定位。介绍如何设计新型RDMA网络拥塞控制以及通用RDMA端侧瓶颈定位系统,来保障RDMA网络的低时延、大吞吐和高可靠性能。
田臣
南京大学教授/博导
CCF会员、互联网专委会委员,南京大学登峰计划引进人才。在计算机网络和分布式系统领域多个顶级学术会议(含6篇SIGCOMM、3篇NSDI以及OSDI/ATC/FAST/SIGMOD等)和知名国际期刊上录用和发表论文100余篇。他的工作受到了国内外研究者的广泛引用和关注,根据Google Scholar最新学术搜索数据,申请人迄今为止论文累计被引用5000余次。研究工作获得工业界广泛应用,是华为中央研究院2020年度“最佳合作教授”唯一获奖者。
大规模机器学习系统的细粒度实时低成本测量与优化
基于云平台的大规模机器学习系统受到广泛使用,然而这些系统的可扩展性不佳,造成资源浪费和租户损失。细粒度的测量可以为改进系统指出可行的方向,但是需要保护用户数据隐私,同时测量成本必须最小化。在这个报告中,我们将分享南京大学在大规模机器学习系统的测量与优化方面的一些初步探索。
今年恰逢CNCC创办20周年。二十年来,CNCC已逐渐发展到涵盖数十个方向129场技术论坛,700余位国内外讲者积极参与,超过13000人注册的计算领域年度盛会。二十载不断超越,作为国内计算领域参会人员众多,规模大,水平高的年度盛会,CCF将精心筹划,为参会者带来一场前沿碰撞、展望未来的技术盛宴,让每位参会者都能在CNCC这个超大体量专业平台上提升自身的专业价值,获得前行的动能!等你来,马上行动,欢迎参会报名!