分论坛 > 武汉 > 新闻动态
CCF YOCSEF武汉成功举办“后摩尔时代,复杂算法与有限算力的对立挑战与协同赋能”技术论坛
2022-11-29 阅读量:416 小字

当前的“人工智能热潮”,建立于数据、算法和算力与机器学习的高速发展。随着摩尔定律的停滞,后摩尔时代到来,以GPU为代表的通用算力发展放缓,近十年以来通用处理器性能已经陷于停滞状态,另一方面人工智能技术在这十年间蓬勃发展、取得突破性成就,对算力有着巨量需求。由此对算力的需求和实际的有限算力提供之间形成了巨大的差距,成为了人工智能技术发展的瓶颈问题。

2022年11月27日,中国计算机学会青年计算机科技论坛(CCF YOCSEF)武汉分论坛举办了线上技术论坛(论坛编号:CCF-YO-22-4FT)。本次论坛由中国计算机学会主办,YOCSEF 武汉学术委员会承办,武汉城市学院、华中科技大学协办。由CCF YOCSEF武汉通讯AC刘芳、CCF YOSCEF武汉副主席郑渤龙共同担任执行主席,CCF YOCSEF武汉AC叶正、CCF YOCSEF武汉通讯AC李登实共同担任线上主席。论坛以“后摩尔时代,复杂算法与有限算力的对立挑战与协同赋能”为主题,邀请了浙江大学、中国地质大学(武汉)、华中农业大学、国防科技大学、趋动科技、北京联合伟世科技股份有限公司等高校和企业专家分享经验、共同思辨,吸引了来自省内外多所高校和企业的人员共同参与。

本次技术论坛讨论从复杂算法与有限算力的对立挑战与协同赋能的角度进行思辨,讨论从算力的角度与有限硬件进行协同的方向进行,由人工智能优化领域的学者和专家进行演讲和思辨,就算力与软硬件协同问题提出协同赋能的方案,并讨论其下一步的发展方向。

论坛的引导发言环节邀请了三位嘉宾,分别是:浙江大学百人计划研究员王则可、国防科技大学计算机学院副研究员甘新标、北京趋动科技售前总监洪喜如。

王则可,博士,现任浙江大学百人计划研究员,隶属于浙大计算机学院智能所和人工智能协同创新中心。2011年获得浙江大学生仪学院的博士学位,从2012年至2013年在浙江大学生仪学院担任助理研究员。2019年12月开始在浙大入职,主要研究方向是使用异构硬件(如FPGA、GPU、可编程交换机)搭建神经网络大模型训练系统、图神经网络系统、存储网络、分布式事务管理、RDMA、隐私计算系统等。

王则可以“基于网内计算的机器学习系统”为主题,从“Motivation of In-network Computing”、“FPGA-based SmartNIC”、“SmartNIC-enhanced ML System”三方面展开演讲,用图表展示的方式向与会嘉宾介绍网内计算三个方向的交叉点分别是Big Date、Network、Host CPU,他向与会嘉宾提出两个问题“What is a SmartNIC?”、“What is a (dumb) NIC? ”,结合Application、Transport、Network、Data Link、Physical进行分析,总结出“SmartNIC =A Dumb NIC + A NIC CPU”。网络内计算(In-Network Computing)是当前高性能计算和人工智能领域的前沿课题,它是InfiniBand网络面向新一代分布式并行计算体系结构,应用协同设计理念,开发出的一种通信加速技术。网络计算有效地解决了AI和HPC应用中的集合通信和点对点瓶颈问题,为数据中心的可扩展性提供了新的思路和方案。它利用网卡、交换机等网络设备,在数据传输过程中,同时进行数据的在线计算,以达到降低通信延迟、提升整体计算效率等。成为和GPU和CPU同等重要的计算单元。

甘新标,博士,国防科技大学计算机学院副研究员,国产超级计算机系统副主任设计师,天图计算系统的设计者和完成人,国产超级计算机系统的高性能图计算优化和大规模流场可视化方向负责人。设计实现的天图(TianheGraph)计算系统,连续多次蝉联Graph500排行榜世界第一,相关成果被新华社、人民日报、解放军报等100+主流媒体报道,相关技术创新已陆续发表于TPDS、ICDE、SC、ICPP等领域期刊与会议。领导课题组设计开发的大规模流场可视化系统YH-View已广泛应用于大规模数值模拟可视化领域。

甘新标以“面向天河超算的大规模图计算优化”为主题,向与会嘉宾介绍现实中的数据问题通常被抽象为图,在大数据时代,图数据趋于复杂,这是因为数据量大幅提升,所需要的计算规模迅速增长。大规模的图数据问题对超算平台的存储运算能力具有广泛需求,并对此提出了更高的要求,为了高效地处理大规模图数据,发挥天河超级计算机实验平台的图处理能力,基于现实世界中图结构的小世界性和无尺度性特征,面向评测超级计算机图处理能力的重要基准Graph500,提出一种主要应用于大规模图的图遍历优化方法。这一方法结合了天河平台的体系结构特征,在图结构上应用了顶点排序和优先缓存策略,即将图中顶点按度数从高到低排序,令程序在图遍历阶段优先访问高度数邻居顶点,并将部分关键高度数顶点缓存至天河系统核组内的高速缓存中,以此来减少Graph500基准程序中的无效访存,降低进程间的通信开销,提高访存带宽利用率,从而有效地提升Graph500基准测试程序在天河平台上的性能。

洪喜如,趋动科技售前总监,长期从事人工智能基础架构相关解决方案优化与研究,对IaaS层软硬件系统有深入的理解,善于从人工智能基础层入手帮助客户解决AI落地问题。

洪喜如以“GPU算力池化-加速高校AI之旅”为主题,从“人工智能已经成为国家战略”、“AI算力需求高速增长”、“AI算力无法饱和应用的矛盾点”、“基于硬件独占的使用方式导致算力利用率低下”、“基于软件定义的使用方式显著提升算力利用率和灵活度”、“GPU算力行业趋势:软件定义是趋势”六个方面展开演讲,用可视化图表对进行数据分析,说明基于软件的算力使用方式的优势是:无资源独占 、随需应变 、 动态伸缩 、最大发挥硬件能力。并向与会嘉宾介绍软件定义AI算力技术领导者、GPU资源池化技术演进、GPU资源池化技术演进、趋动之道、服务和支撑体系,从趋动科技教育行业产品应用、OrionX AI 算力资源池化软件、Gemini AI 平台解决方案、典型案例四个方面详细展开,根据教学场景、信息中心、科研场景,对于高校AI平台算力资源昂贵、经费有限的现状提出解决方案,介绍了OrionX应用场景、产品架构、方案业务架构。Gemini AI 开发过程中面临管理难题、开发难题,洪喜如向与会嘉宾介绍Gemini AI平台解决方案架构——“一站式”开发训练平台、算力集群管理能力,并展示相关典型案例。

在思辨环节,来自华中农业大学信息学院大数据科学系副研究员陈夕子博士、中国地质大学(武汉)计算机学院孙琨副教授、北京联合伟世科技股份有限公司AI教育技术中心AI云平台架构师张立强、趋动科技华中大区总监李立作为思辨嘉宾与参与论坛的所有专家和老师就以下几个议题进行了激烈的探讨:“当前算力发展缓慢的原因有哪些?”、“急剧增加的计算量是凸显算力缺乏的原因吗?”、“芯片相关技术的瓶颈是主要原因吗?”、“对算力的需求和实际的有限算力之间的差距如何制约了人工智能技术的发展?”、“算力不足到底是算力本身缺乏还是模型太复杂?”、“算力需求与实际算力的差距不可跨越吗?”、“算力与硬件协同设计是权宜之计还是未来技术发展的必然方向?”、“硬件是否需要针对性的改进和演化?”、“软硬件协同设计(模型+处理器)是算力问题的解决之道吗?”。

与会嘉宾纷纷发表各自观点,现场讨论热烈。

王则可:这个问题非常犀利,当前算力发展缓解的是急剧增长的计算量以及芯片相关的技术。首先我们从急剧增长的计算量方面来说,确实现在的话,我们这个应用对算力的需求是很大的,尤其是现在的话,我们这个大模型训练,所需要的计算量是非常大的,而且目前也是指数级的在增长,尤其是训练大的预训练模型。其实之前我觉得是咱们造计算机之前是没有考虑过这个问题的,托马斯·沃森这位IBM的总裁在1943年提出的一个精确的数字值得引用:“我认为,全世界最多只需要5台计算机。”那现在我们看来,这就是一个笑话。但是从某个角度来说,可能四五十年真正要计算机算力的其实不多,我们现在看到的大模型,开始有的大BOSS元宇宙等,这些东西都需要大量的算力,假如说元宇宙要普及到我们生活中去,那需要多大的算力支撑才能完成呢?所以说,我觉得急剧增长的计算量确实是一个凸显算力缺乏的原因。假设对算力的需求不多的情况下,我们现在算力其实完全足够。第二个的话芯片相关技术的瓶颈,确实也是一个比较大的问题,现在做高性能芯片的,尤其需要高算力,而且对功耗也比较敏感,我们需要的工艺是越来越高的。现在7nm后面5nm、4nm...这就慢慢往下降的时候,它需要留一次片的成本都要几千万美元,越来越贵。现在那个通用计算肯定是没法去支撑很多的应用或者高效的支撑很多应用,阅读cpu确实也没法去处理人工智能的一个算法,需要人工智能专门那个芯片,比如GPU,AI芯片直接去处理,但是这种定制的芯片他这个就是支撑有点小,很难扩展到很多方面,市场没那么大,他的利润无法支撑他只能去做那个芯片,芯片成本太高,这样就成了一个死循环。

甘新标:我国算力产业规模快速增长。近5年平均增速超过30%,算力规模排名全球第2。我国算力规模已位居全球第二。但是除了芯片的这个瓶颈之外,我们应该把现在已有的资源利用起来。

洪喜如:第一个点,我们其实可以看到说以这种人工智能为代表的这些模型越来越大,比如说在处理这种你NLPG这类模型里面,我们会看到说在2020年底的时候,GPT-3比2019年就开始创造小说的前身GPT-2模型在参数上大116倍,同时功能也更强大,但是过了不到两年的时间,后来中古类的一些模型,比如盘古、悟道等,已经飙升到近两万亿个参数的这样一个规模,基本上又翻了十倍不止。模型大小是会越来越大的一种趋势,模型也大致数量越多代表出他在计算上面会更加精细、会更加优化,但是不好的地方就在于它对算力的需求会更加迫切、更加旺盛,所以我们看来在这种急剧增加的这一部分新模型里对于计算量的需求是非常迫切的。第二点就是计算芯片的一些瓶颈,严格意义上来讲芯片它并不是孤立存在,芯片它是跟它垂直的一个上面的软件生态是并存,属于说一体化,比说芯片以一定单位为代表,就形成了独立的完全的一个生态,所以呢,相关技术的瓶颈的话,我觉得更重要的是扮演生态的一个扩展,这个才是会让芯片多样化。

陈夕子:我看算力发展缓慢的原因的话,我觉得可能有三点:第一点就是我们现在经常提到的这个摩尔定律快要走到头了,芯片的纳米数,已经在向纳米的个位数接近,它可能已经接近极限。我们考虑到这种量子隧穿效应、商业成本等等的因素的话,一个问题就是海绵里还有多少水可以去挤,这个可能是制约算力发展其中一个原因。第二个原因的话我觉得可能功耗也有关系,因为我们现在经常提到的这个高算力,它往往是伴随着高功耗的。比如说这个英伟达V100 芯片,它最大的功耗可以达到250瓦,这个功耗就比较大,考虑到现在我们国家包括国际上呼吁的低碳需求,高功耗可能会对算力的发展带来有压力。第三个原因的话技术门槛以及研发成本、制造成本等方面的问题,算力的发展其实是一个从上游的软硬件研发一直到下游的硬件制造的完整的生态,不是一个一蹴而就的过程。对其中的这个软硬件的基础技术都有比较高的要求。

孙琨:我想我们来思考算力缺乏这个问题更重要的是找出这个原因,来满足现在的需求不全以及现在的短板。从我的角度来说,就算力缺乏不缺乏可能更需要从使用者的角度来审视,比如说很多大的公司、企业,它的模型需求量确实很大,这种情况下,计算量大可能是他带来的最主要的挑战,但是对于比如说学校科研团队,其实很少有机会去跑非常大的模型,这种情况下呢我们有时候也觉得算力不够。从我的角度来硬件的制作在当前可能不是最主要的,可能是在资源的调度和调配上,像我们现在大家了解电网电力的使用有很强的潮汐效应等。

张立强:我觉得算力需求的增长以及算力不足的这个情况肯定是存在的,但是这两点需要区分开来,一个是在研究方向算力的使用,另一个是工程化应用上算力的使用。从研究方向讲,为了拿到更好的模型,更加深入的理解模型,模型的复杂度还是会上升,从工程化应用的角度来讲,算力的应用是否能达到我们所期望的效能,包括能耗以及资金消耗等。

李立:现在算力不足是因为深度学习的阻碍,深度学习的训练模型所取得的进展依赖算力的大幅度增长,另外实际上算法改进的本身需要算力的补充,因为深度学习在算法改进上是无限的。比如:谷歌 TPU、FPGA 和 ASIC 等硬件加速器的出现,以及通过网络压缩和加速技术降低计算复杂度。现在所谓的算力不足,算力极限可能促使机器学习转向比深度学习计算效率更高的新技术。

本次论坛经历三个小时,通过论坛思辨,辨明了后摩尔时代,复杂算法与有限算力的对立挑战与协同赋能,将更好的推动高水平的开展建设本科教育。云上论才,筑梦未来,树立正确的评价导向,为优秀的创新性人才提供更多的机遇。

本次活动由武汉科技大学计算机科学与技术学院“红色字节”党支部、华中农业大学信息学院大数据系党支部、江汉大学人工智能学院二支部、江汉大学人工智能学院研究生支部等众多党支部共同提供了策划、会务组织等方面提供的支持。


热门动态
2017-10-20
2017年10月17日下2点至4点半,由CCF YOCSEF武汉分论坛与哈...
CCF聚焦