CCF Computility 2024 | 徐志伟研究员、陈海波教授和刘譞哲教授邀你共话算力网软件技术
由CCF主办,CCF分布式计算与系统专委会与吉林大学承办的CCF分布式计算大会(CCF Computility 2024) 暨全国开放式分布与并行计算学术年会(DPCS 2024) 将于2024年7月26日至28日在中国吉林省长春市举行,会议规模预计1000余人。本次会议主题为“算力网:新质生产力背景下的分布式系统”,旨在为分布式系统和算力网相关的从业者提供最专业的学术研讨、技术交流和成果展示的平台。CCF Computility 2024为大家准备了9场由院士等顶级专家带来的主旨报告,15场技术论坛(80位特邀报告),绝对不容错过!
大会主旨报告嘉宾
论坛背景
计算机发明以来,美国引领全球信息技术70余年,算力网有可能成为中国弯道超车的原创发明与工程。分布式系统软件是算力网的灵魂,负责屏蔽算力资源的异构、异属、异地属性,以及管理多样化的算力网应用,亟需提出新的学术思想,研发颠覆性新技术,实现算力高效管理和“随取随用、按用付费”的新使用模式。本论坛将邀请算力网领域产学研各界的学者和技术专家,就算力网系统软件的架构与抽象、面向大模型的大规模训练与推理核心技术和应用需求进行分享和探讨,以期为算力网的系统软件研发和应用生态的建设提供基本思路和指导思想。
论坛主席 | 徐志伟研究员、彭晓晖副研究员 | |
---|---|---|
特邀报告1 | 陈海波 CCF系统软件专委副主任、上海交通大学教授 | 基于新操作系统原语的低时延服务器无感计算:特征、优化与反思 |
特邀报告2 | 刘譞哲 北京大学教授 | 大模型时代的系统软件:思考与实践 |
特邀报告3 | 胡春明 CCF理事、CCF系统软件专委副主任、北京航空航天大学教授 | 待定 |
特邀报告4 | 翟恩南 CCF互联网专委常务委员、阿里云网络研究负责人 | 面向算力网的异构算力抽象体系 |
特邀报告5 | 况文川 中国电子首席科学家 中电金信研究院院长 | 算力网技术在金融行业的实践探索 |
特邀报告6 | 陈全 上海交通大学教授 | 面向大规模模型训练的调度和并行协同设计 |
时间:2024年7月27日 下午 地点:吉林省长春市安华假日宴会中心春华秋实厅 |
论坛主席及介绍
徐志伟
中国科学院计算技术研究所
徐志伟,CCF会士、中国科学院计算技术研究所研究员、中国科学院大学教授。曾获国家杰出青年基金支持。历任中国科学院计算技术研究所副所长、总工程师、学位委员会主任、学术委员会主任、曙光信息产业股份有限公司总工程师等职务。主要研究领域为高性能计算机体系结构与分布式系统软件。曾担任中国科学院先导专项、科技部重点研发计划、国家基金委重点等多个重要科技项目负责人。提出了普惠计算、人机物三元计算等学术思想,向国际社区贡献了多个大数据云计算等领域开源软件,研究成果已在国内外企业广泛应用,并获得国家科技进步奖和中国计算机学会王选奖。曾任国家自然科学基金委信息科学部专家咨询委员会委员,IEEE TC,IEEE TSC等多个国际期刊的编委,以及IEEE HPDC、IEEE HPCA、IEEE SCC等多个国际会议的TPC成员,现任JCST和《计算机研究与发展》主编。
彭晓晖
中国科学院计算技术研究所
彭晓晖,中国科学院计算技术研究所副研究员,博士生导师。主要从事分布式系统、边缘计算等方向的研究工作,近年来聚焦信息高铁算力网端边云协同计算方面的研究。主持了国家基金委重点项目课题、面上等10余项纵向科研项目。在包括PIEEE、IEEE IoT-J、计算机学报、计算机研究与发展、IEEE/ACM SEC、IEEE TKDE等在内的领域相关刊物和会议上发表论文30余篇。兼任IEEE TMC和IEEE IC期刊Associate Editor,ACM/IEEE SEC TPC(2021-2023),中国计算机学会分布式计算与系统专委常务委员,中国通信学会第一届算力网络委员会委员。
嘉宾及报告介绍
陈海波
上海交通大学
陈海波,CCF系统软件专委副主任、上海交通大学特聘教授、OpenHarmony项目群技术指导委员会主席,国家杰出青年基金获得者、ACM Fellow、IEEE Fellow。主要研究领域为操作系统、分布式系统与系统安全,研究成果通过产学研深度结合被应用到数十亿设备,产生了广泛的学术与产业影响。曾获中国计算机学会科技进步特等奖、陈嘉庚青年科学奖(信息技术科学奖)、中国青年科技奖、教育部技术发明一等奖、全国优秀博士学位论文奖等。目前担任ACM SIGOPS首位非北美学者主席、ACM旗舰杂志Communications of the ACM首位中国学者编委与领域共同主席、ACM EuroSys 2025程序委员会共同主席。研究工作还获得了华为卓越贡献个人奖,SOSP、ASPLOS、EuroSys、VEE等最佳论文奖以及DSN“时间检验奖”、SIGMOD研究亮点奖等。按照csrankings.org的统计,其近5年(2019~2023)在操作系统领域顶会SOSP/OSDI上发表的论文数居世界第一。主持撰写的《现代操作系统:原理与实现》获得了2020年度“最受读者喜爱的IT图书奖”与2022年上海交通大学最佳本科生教材奖(新版更名为《操作系统:原理与实现》)、以及机工科技--2023年度计算机领域十大好书,被高校、科研机构与企业广泛采用。
报告题目:基于新操作系统原语的低时延服务器无感计算:特征、优化与反思
报告摘要:服务器无感计算有望实现高效软件开发与部署。为此,服务器无感知计算平台需要解决两个挑战:函数实例之间的强隔离和极低的启动延迟。在该报告中,我将首先介绍业界前沿的服务器无感知计算平台的特性描述,并得出一系列关键指标,这些指标共同构成了一种系统方法和一个名为 severlessbench(v1 和 v2)的基准测试集合。然后,我将展示如何使用新型操作系统原语使服务器无感知平台在CPU 和 CPU-XPU 平台上的普通和机密服务器无感知计算中变得更加高效。最后,我将反思服务器无感知计算研究与工业界系统之间的差距,并对未来的服务器无感知计算进行展望。
刘譞哲
北京大学
刘譞哲,北京大学博雅特聘教授,国家杰出青年科学基金获得者,ACM杰出科学家。主要研究方向为系统软件,云计算,服务计算等。在SOSP、OSDI、NSDI、ASPLOS、ICSE、WWW等会议和期刊发表论文80 余篇,获WWW最佳论文奖在内的优秀论文荣誉10余次。曾获国家技术发明一等奖、教育部“青年科学奖”、CCF-IEEE CS“青年科学家奖”、IEEE TCSC可扩展计算职业中期卓越研究奖、北京大学“十佳教师”、北京大学“教学卓越奖”等;主持多项国家和省部级科研项目;担任IEEE TMC、《中国科学·信息科学》等期刊的Associate Editor和多个国际会议程序委员会主席/委员等。
报告题目:大模型时代的系统软件:思考与实践
报告摘要:大模型及其应用推动了人工智能的新一波高潮。随着模型结构日益复杂和应用规模持续增长,从系统资源管理角度看,存在“不够用”、“不好用”和“用不好”的“三不”挑战,计算机软件技术正在面临新一轮变迁和发展机遇。本报告将从大模型系统软件栈为切入点,介绍团队在跨域资源混合服务编程、基于大规模(万卡级别)集群的训练/训推一体调度优化、多模型复杂任务协同调度等方面的研究进展。
胡春明
北京航空航天大学
胡春明,CCF理事、CCF系统软件专委副主任,北京航空航天大学教授,博士生导师。大数据科学与脑机智能北京市高精尖创新中心副主任。计算机科学普及工委主任,中国电子学会云计算、大数据专家委员会副秘书长,国际万维网联盟(W3C)副理事长。主要研究方向包括:计算机软件与理论、分布式系统、计算系统虚拟化、数据中心资源管理与调度、图计算查询优化等。已主持国家级项目(及课题)6项,主持北京市重点项目1项,获得授权技术发明专利35项。网络资源组织管理与调度技术研究获国家技术发明二等奖1项(第2完成人),大规模数据中心在离线负载混合调度技术研究获中国电子学会科技进步特等奖1项(第3完成人),行为大数据融合处理技术研究获中国电子学会技术发明一等奖1项(第3完成人)。入选第十四届中国青年科技奖。
报告题目:待定
报告摘要:待定
翟恩南
阿里云
翟恩南,CCF互联网专委常务委员、阿里云网络研究负责人。2015 年于耶鲁大学计算机系获博士学位,随后担任耶鲁大学研究型助理教授。2018 年加入阿里巴巴,主导阿里云智能化网络可靠性运维体系,确保北京奥运、东京奥运、钉钉上亿人线上办公等期间阿里云网络零故障。研究领域包括计算机网络、分布式系统以及程序验证等,先后在这些方向的国际顶级会议如 SIGCOMM、OSDI、SOSP、NSDI 等累计发表 60 余篇论文。多次担任 SIGCOMM、NSDI 等国际顶级会议程序委员会委员。现任 CCF 互联网专委常务委员。获通信学会技术发明一等奖一次。
报告题目:面向算力网的异构算力抽象体系
报告摘要:随着人工智能与云计算的迅猛发展,提供高性能算力与调度继而建立算力网已经成为当今我国计算机科学发展的重要趋势之一。算力网的建设需要设计研发多层次、多维度的系统抽象,从而屏蔽底层算力相关细节(包括异构芯片、异地节点等),赋能上层的算力管理。本次报告首先从一个宏观的算力网抽象体系方案出发,随后深入到针对异构算力芯片(包括 FPGA、ASIC 以及 DPU)的抽象体系设计,该体系包括跨平台异构芯片编程、正确性验证测试,以及程序编排部署等先进技术(这些工作均发表在过去几年的网络系统顶会 SIGCOMM 和 NSDI 上)。最后,针对一个阿里云在研的方向 “面向异构集群的集合通信优化生成器” 给出可能的开放问题。
况文川
中电金信研究院
况文川,中国电子首席科学家,中电金信研究院院长。从事金融IT服务达32年,历任两家上市公司研发中心总经理、副总裁、事业部总经理、CTO,并合作创办金融IT服务公司,现任中电金信副总经理、金融行业第一板块总经理、中电金信研究院院长、中电金信首席数字官。兼任中关村金融科技产业发展联盟标准专业委员会副主任委员,CCF分布式计算与系统专委执行委员,开源发展委员会执行委员。先后从事过网络通信、核心银行系统、柜面系统、中间件架构设计、CRM、财富管理、移动金融等系统的研发工作以及业务咨询、IT规划服务,现负责中电金信整体解决方案研发创新。
报告题目:算力网技术在金融行业的实践探索
报告摘要:当前,算力需求均呈现指数级增长,算力的互通互连成为普遍趋势,各行各业都在积极探索算力转型升级下的数字信息基础设施建设。金融行业在运用算力网等技术应对算力元素和计算架构的多元化演进时,面临诸多行业特性需求和实践挑战,需要融合系统工程和平台工程等理念的体系性方法,实现技术联合攻关、关键场景验证、算力资源共享和行业能力复制,面向智能时代,构建新型数字基础设施。
陈全
上海交通大学
陈全,博士,上海交通大学计算机系教授,计算机系副主任。长期从事计算机体系结构、云原生计算相关的研究。主持国家优青、国家自然科学基金重点项目,并在ASPLOS,OSDI,ATC,SC,TC,TPDS,TACO等领域内著名国际会议和期刊上发表学术论文一百余篇。曾获CCF青年科技奖、阿里青橙奖、IEEE TCSC青年学者奖等。目前担任国家自然科学基金委主办期刊Fundamental Research青年编委,领域内SCI期刊Parallel Computing、JCST、FCS编委及青年编委。研究成果曾获2023年CCF技术发明一等奖(排名第1)、国家技术发明二等奖、及多项省部级科学技术一等奖。
报告题目:面向大规模模型训练的调度和并行协同设计
报告摘要:随着硬件和互联拓扑迭代,GPU 集群的异构性日益显著。在异构集群上,考虑大型模型的多种并行范式,进行自适应并行可以显著提升大规模模型的训练效率。然而集群的异构性使自适应并行的搜索空间爆炸性增长,难以在合理时间内确定优化的并行方式。为此,该报告将介绍一种调度与自适应并行协同优化的异构集群调度方法。通过重定义集群调度的调度单元,结合基于执行流的高效性能建模方法及弹性调度策略,可显著提高异构集群的训练吞吐。