大模型下一步,通用群体智能有谱了 | CCF C³
学界必须也要开展大模型研究;
国内玩家不用一心扑在搞大模型上,做一些让大家都能玩得到的应用,对中国的产业发展更具有意义。
未来或许可以保留一个社会共享大模型,同时为某些特定领域提供专业模型。
从大模型底层来看,发展趋势重点是资源同步。
通用群体智能已初见端倪。
……
最新CCF C³活动来到百度,更多关于大模型产业生态发展的问题在现场得到了解答。50余位企业界、学界专家、研究人员就此进行深入探讨。
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜,北京航空航天大学吴文峻教授带来了主题报告分享。
接着,吴文峻教授、中国人民大学高瓴人工智能学院副院长窦志成、百度飞桨总架构师于佃海、国网智能电网研究院计算及应用研究所人工智能总工程师吴春鹏、中科曙光智能计算产品事业部总经理杜夏威展开高峰对话。
对话由百度AI技术生态总经理马艳军主持。
大模型产业生态
在高峰对话环节,来自产学研的各位专家就大模型发展态势进行了探讨,涵盖基础研究、底层软硬件支撑、产业生态应用等多个大模型生态话题,对科研-产业、软件-硬件、行业应用等多个生态关系的思考与分析。
在不改变原意基础上,量子位做了以下梳理。
1、有种观点是认为大模型工程化发展,科研工作、学术研究空间就会被压缩,如何看待这一观点?
北京航空航天大学吴文峻教授表示,任何新技术都会带来很多颠覆性影响。但在AI技术上,人类还没有找到一条通往AGI的可行路径,大语言模型这条路径看起来可行性最高。后续大模型在比如认知记忆力等方面,还有很多研究工作要做。另一方面,大语言模型也给现有AI方向,比如自然语言、决策等带来新的研究角度。
中国人民大学高瓴人工智能学院副院长窦志成教授表示,在大家看来,大语言模型这条路径建立在大规模算力和经费支持上,学界要展开类似的研究会形成很大的阻碍。
但学术界普遍认为,首先必须要做,跟上产业界的同时还能发现存在的问题;工业界不会有那么多时间精力去钻研背后的理论方法;第二,大模型在其他领域研究方向产生比较大的影响,里面会有特别多有意义有价值的科研问题。除此之外,高校还要承担起人才培养的重担。
2、除了算力和应用,软件也是一个重要的方面,特别是深度学习框架,那么框架和大模型之间的协同关系如何?
百度飞桨总架构师于佃海首先解释说,深度学习框架位于硬件芯片模型和应用之间的关键位置。
随着大模型的复杂性不断增加,包括预训练、微调等,框架需要具备通用性,以支持这些不同的训练环节。此外,性能要求也变得更加严格。在这个过程中,框架和硬件之间的协同也变得至关重要。框架需要在不同硬件平台上高效运行,以满足训练和推理的需求。
除了硬件协同,框架还需要考虑模型的落地和部署。模型不仅需要训练,还需要在实际应用中落地并高效运行。因此,框架的性能和部署能力同样重要,以实现从训练到应用的无缝衔接。
3、大模型在产业里面真正落地会面临是哪些挑战?上下游如何一起联动?
国网智能电网研究院计算及应用研究所人工智能总工程师吴春鹏表示,国网一直在积极致力于构建一个完整的产业生态系统,而整个电力行业的发展对于应用端、算力框架以及具体算法都有着紧密关系。
他还简单阐述如何让大模型更好的在电力行业实际落地,比如把大模型构建了国网的多层次生态系统,细分为专业大模型和业务小模型,并通过融合通用大模型与电力特点,构建更智能的分析和预测模型。
4、追求通用性的同时,如何平衡大模型在各个领域的需求?
北京航空航天大学吴文峻教授表示,在他看来,无论在何种实践中,都涉及到一个共同的问题,即如何平衡通用性与实际应用,但这同时也引发了一个问题:
为什么通用模型在企业内部应用时会出现问题?
对此,吴文峻认为,在未来需要重新考虑现有的思路。或许可以保留一个社会共享的大模型,用于基础识别知识,同时为某些特定领域提供专业模型。这些专业模型可以根据企业内部数据进行训练,以满足特定行业的需求。
因此,是否可以考虑一种架构即将大模型与中小模型相结合?在训练小模型时,可以同步大模型的整体知识。然后,通过保证整个知识和标准的传递,可以确保模型的质量和认可度。
另外,有些行业会更希望拥有自己的专属大模型,所以像内存等资源问题也需要关注。
5、大模型技未来走势会如何?如果确实形成了一个相对稳定的格局,不同层将会在其中发挥什么作用?
中科曙光智能计算产品事业部总经理杜夏威认为,从大模型底层来看,发展趋势重点是资源同步,未来仅凭借技术的领先和研究的成果并不一定能行,需要将产业和学术界的力量结合起来。
从这个维度出发,大模型方向可能会是采用A+B的方式。其中,A代表一些基础模型基座,这些模型具有一定的通用性和强大的泛化能力,能够为整个模型提供支撑。B则代表行业大模型,涵盖了各个领域的基础数据。
国网智能电网研究院计算及应用研究所人工智能总工程师吴春鹏则表示,大模型在未来可能会成为数字化基础设施的一种重要组成部分,类似于零件,它结合先进的计算技术和丰富的数据,构建起基座式的研究平台,为将来使用模型的人和技术专家提供支持。
以后可能就像百度提出的应用商店模型,类似于在商品上选择模型的方法,人们可以从中选择并获取各种模型,也可以将模型整合到自己的应用中。另一方面,在研发大模型的过程中,也需要考虑如何实现技术的放手和产能的进化,通过更便捷的方式推广和合作,使技术能够更好地为市场和业务服务。
百度飞桨总架构师于佃海认为大模型不仅需要重资产投入,还涉及许多复杂的技术问题。同时,即使有了技术,要使其发挥出人类的智能也需要设计更好的方法,并将其稳定应用在实际目标中。从大模型基础设施的角度来看,除了构建和提供基础设施外,还应主动考虑为生态的发展提供建议,比如插件机制。
中国人民大学高瓴人工智能学院副院长窦志成教授则从开源和实际落地进行了分享——
以Meta的Llama和Llama2大模型为例,表示目前开源化的声音越来越响亮,应该更加推动开源的力量。另外,他也对“百模大战”表现出担忧,不希望这次还和两年前GPT-3一样,一窝蜂做大模型,但因没有应用而无疾而终。
对此,窦志成就特别呼吁国内玩家不用一心扑在搞大模型上,做一些能让大家都能玩得到的应用,对中国的产业发展更具有意义。
北京航空航天大学吴文峻教授表示,目前的重点是多模态大模型,未来这些模型可能会逐步从决策进化到具有自主学习能力,最终走向通用人工智能(AGI)。我们会更关注开源和商业之间的平衡,而在这个生态中,基础设施的建设非常关键。
通用群体智能已初见端倪
除此之外,百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜,北京航空航天大学吴文峻教授带来了主题报告分享。百度高校合作部总监李轩涯任主持人。
首先是百度集团副总裁吴甜以“大模型产业实践与文心一言”为题作报告,介绍了文心大模型的产业落地实践和文心一言最新进展。
大模型方面,最新文心大模型5月升级到3.5版本,进行了了基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制新增,相比3月份的版本,效果提升50%,训练速度提升2倍,推理速度提升30倍。
产业落地实践上,百度已和多个行业的带头企业、机构共同研发行业大模型,训练出了更适配行业场景的模型。
根据IDC相关报告,百度文心大模型在14个参评模型中拿下12项指标的7个满分,得到“综合评分第一,算法模型第一,行业覆盖第一”三个绝对第一。同时,百度已为社会培养了300万AI人才,未来还将持续加大投入力度,为推进大模型的落地与发展持续做出贡献。
北航吴文峻教授则聊了聊通用人工智能的群体智能研究。当前AI发展已经进入一个全新历史阶段,特别是在所谓「foundation model」方面,比如超大规模模型或基座模型。但何时能将这些先进技术在各个行业的实际应用?
他在报告中指出,大模型要落地应用,真正重塑产业,关键还是基于大模型的智能决策能力发展。
要解决基于大语言模型的决策问题,常常需要采用强化学习方法。在这个过程中,Agent会与环境不断互动,观察环境状态,并通过采取行动来影响环境,进而获取环境的奖励信号,以衡量行动的好坏。他还谈到了最近很火的斯坦福「AI小镇」。
而针对通用基础模型存在泛化性弱、稳定性差、难实用等突出问题,多模态LLM模型结合MDP框架可以提升Agent的感知-认知能力,推进高层任务需求的理解和规划决策,并形成作为环境迁移和Reward的生成模型。
有了以上基础,我们就有可能让海量知识和物理世界形成对照,提升智能体在新环境下的智能决策,进而形成群体化通用具身智能系统。报告认为,大模型开启了通用人工智能时代,让群体智能研究也进入了全新阶段——
通用群体智能已经初现端倪。
— 完 —
(本文转载自量子位)