返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

CNCC | 智能时代的新型网络架构与技术:学术前沿与产业实践

阅读量:1 2024-09-09 收藏本文


图片


论坛简介:

智能时代的新型网络架构与技术:学术前沿与产业实践

举办时间:10月26日下午

地点:夏苑-方外观一楼

注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准



图片


网络基础设施对于智能时代的大规模智能计算至关重要。随着智能计算规模和应用复杂度的增加,传统网络架构与技术已难以满足需求。本论坛将汇聚学术界和产业界在计算机网络领域的顶尖学者和专家,探讨智能时代在新型网络架构与技术方面的学术前沿与产业实践。本论坛将包括高性能网络架构在智能计算中的重要地位和表现形式、智能时代给网络架构与技术带来的挑战和困难、构建大规模智能计算系统的网络架构与技术研究方向和思路、智能时代网络与计算的协同设计和优化、产业界针对智能计算在大规模网络架构和技术方面的实践与经验等内容。通过分享前沿研究成果和工业界实践,本论坛将为与会者提供宝贵的知识和思路,促进网络架构和技术在智能时代的持续创新和突破。





论坛亮点

※聚焦智能时代网络基础设施的关键作用,针对大规模智能计算的需求和挑战进行深入探讨

※学术与产业融合:结合学术前沿研究与产业实践经验,全面覆盖高性能网络架构、挑战应对、研究方向、协同设计及产业实践等多个维度

※通过分享最新研究成果和业界实践,促进网络架构与技术在智能时代的持续创新与突破





论坛日程



顺序

主题

主讲嘉宾

单位

1

大规模AI计算的网络技术

苏金树

国防科技大学

2

大模型训练系统中的以太交换网络

任丰原

清华大学

3

面向大模型的网络技术:从网算协同到通算融合

刘冰洋

华为

4

大模型时代的阿里云基础设施网络研究与规模化部署

翟恩南

阿里云

5

大模型训练和推理中的高性能网络

缪葱葱

腾讯


Panel环节

苏金树

国防科技大学

任丰原

清华大学

刘冰洋

华为

翟恩南

阿里云

缪葱葱

腾讯





论坛主席


图片

金鑫

北京大学长聘副教授

简介:国家重点研发计划项目负责人,国家海外高层次青年人才项目入选者。研究领域为系统软件、计算机网络,论文发表于SIGCOMM、NSDI、SOSP、OSDI等国际顶级会议,获NSDI最佳论文奖等奖项。











论坛讲者


图片

苏金树

CCF会士,国防科技大学教授

简介:CCF会士、互联网专委会荣誉主任。军委装备发展部某专业组副组长。获国务院政府特殊津贴,军队杰出专业技术人才奖。我国计算机网络学术带头人之一,在高性能网络中做出了系统性和创造性贡献。


报告题目:大规模AI计算的网络技术


摘要:智能技术进入大规模智能计算阶段,网络技术是万亿参数模型计算不可或缺的支撑技术,甚至是大规模智能计算的重要瓶颈技术。本报告主要讨论三个方面内容:一是大规模智能计算中大网络若干特点;二是大规模智能计算的全定制网络技术、半定制网络技术、网络优化技术等三个技术方向;三是国内大模型网络面临的主要挑战和困难。







图片

任丰原

清华大学教授

简介:任丰原,教授,任职于清华大学计算机科学与技术系。主要从事网络体系结构与流量管理、数据中心网络、工业互联网/物联网、系统性能评价等方向的教学与科研工作。获国家自然科学奖等6项国家、省部级科技成果奖。


报告题目:大模型训练系统中的以太交换网络


摘要:高性能交换网络是大模型训练集群系统的核心要素。报告首先概述大模型训练系统中混合并行技术作用下业务流量模式与分布的特征,及给交换网络设计带来的技术挑战。接着介绍交换芯片和交换机制造厂商的技术动态,分析总结共识与分歧,并简要介绍工业联盟组织和学术界的相关研究进展。然后介绍研究小组在无损以太交换网流量管理方向上包括温和流量控制、三元拥塞探测和ACK驱动拥塞控制等具体研究工作。最后讨论若干开放性研究问题。







图片

刘冰洋

华为网络技术实验室主任

简介:清华大学计算机系博士,华为网络技术实验室主任,负责华为公司网络领域的研究创新、技术体系构建和产业下一代际的技术突破。担任中国通信学会信息通信网络专委会副主任委员,中国通信标准化协会TC614副主席。


报告题目:面向大模型的网络技术:从网算协同到通算融合


摘要:大模型的训练对算力基础设施提出了极高的要求。本报告介绍华为在构建面向大模型的智算网络中遇到的组网规模、成本、性能和可用性等方面的核心挑战,以及围绕这些挑战所做的创新。通过网络与计算的协同设计,构建适合大模型流量特征的组网架构、路由系统、负载均衡和集合通信技术,将通信本身极致优化;进一步地,通过通信与计算的深度融合,跨越网和算的边界,系统性地优化计算和数据搬移代价,提升系统算效。







图片

翟恩南

阿里云资深技术专家

简介:翟恩南,阿里云网络研究负责人。研究领域包括计算机网络、分布式系统以及程序验证等,先后在这些方向的国际顶级会议如 SIGCOMM、OSDI、SOSP、NSDI 等发表 60 余篇论文。现任 CCF 互联网专委常务委员。获通信学会技术发明一等奖一次。


报告题目:大模型时代的阿里云基础设施网络研究与规模化部署


摘要:拥有千亿级别参数的大语言模型已为今天的人工智能和云服务带来了巨大的技术与商业变革。然而,大模型的训练和通用云计算的网络模式行为存在很大差异。为了更好的支持大模型训练的效率,阿里云基础设施网络团队设计并研发了专门针对大模型训练网络特征的新型数据中心网络 HPN 架构,吞吐量提高平均 14.9%;此外,我们也设计研发了面向大模型多租训练的集合通信调度优化技术 Crux,将 GPU 计算利用率平均提高到多达 23%。此两项工作均被 SIGCOMM'24发表。







图片

缪葱葱

腾讯高级研究员

简介:清华大学计算机系博士,长期从事计算机网络与系统等方面研究和工程落地,获CCF科技进步二等奖,深圳市科技进步一等奖,发表ACM SIGCOMM、USENIX NSDI、ACM MOBICOM、IEEE TPDS等计算机领域顶级会议和期刊论文近10篇。


报告题目:大模型训练和推理中的高性能网络


摘要:大模型进入万亿参数时代,需要打造大规模、分布式的高性能计算集群。腾讯高性能网络提供高效跨域数据互通服务,具备业界领先的低价数据互联技术;利用自研交换机构建了超大规模网络架构,具备业界领先的1.6Tbps/3.2Tbps RDMA通信接入带宽,可扩展支持十万卡规模的GPU集群;自研高性能集合通信库TCCL和自研协议栈TiTa,通过软、硬件融合的优化方案实现AI通信的全局流量规划和拓扑亲和感知;构建了端网协同的监控运营体系,实现秒级故障自愈能力。








关于CNCC2024


本届CNCC将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。CNCC是一个宏观论述技术趋势的大会,具有规格高、规模大、内容丰富等特点,会议形式包括大会特邀报告、大会论坛、技术论坛、特色活动及展览。大会为期三天,汇聚图灵奖获得者、两院院士、国内外顶尖学者、知名企业家等亲临大会,展望前沿趋势,分享创新成果。ACM、IEEE CS、IPSJ、KIISE等国际计算机组织的代表也多次获邀现场参加这一盛会。


图片