百花齐放还是一枝独秀？多模态大模型技术路径前瞻

时间：2023年11月25日（周六）14:00-15:30

地点：厦门大学媒体分析与计算实验室

厦门市思明区软件园一期创新大厦A区12楼

随着人工智能技术的飞速发展，多模态大模型技术已经成为了研究的热点。这个领域正在经历着如“百花齐放”般的繁荣，各种新的理论、方法和应用层出不穷。本次论坛汇聚来自国内外企业界、学术界的专家和学者，带来前沿研究并分享精彩观点，共同探索多模态大模型技术的奥秘，描绘多模态大模型技术的未来发展蓝图。

本次技术论坛由周奕毅（厦门大学，CCF YOCSEF厦门学术秘书）、曹梦云（集美大学，CCF YOCSEF 厦门学术委员）担任执行主席。陈章汉（浪潮科技，CCF YOCSEF厦门学术委员）、郭丽清（厦门华厦学院，CCF YOCSEF厦门学术委员）担任线上主席。论坛伊始，两位执行主席介绍参会嘉宾并欢迎各位嘉宾的到来，同时介绍了本次论坛的背景及议程。

其后，CCF YOCSEF厦门22-23主席张龙晖介绍了CCF YOCSEF自由平等的思辨文化、“承担社会责任，提升成员能力”的使命、以及CCF YOCSEF厦门的创办发展历程等。

1.引导发言

引导报告1：厦门大学南强特聘教授纪荣嵘就《思源多模态基础大模型》主题做第一个引导发言报告。他指出从小模型到大模型的演变、单任务到多任务的应用、单模态到多模态的拓展都是AI模型的重要发展趋势。思源多模态基础大模型是纪教授团队近年研究的重要成果，起名“思源”的灵感来源于厦门大学思源谷，寓意思想的源泉。纪教授及其团队开展的国产紧致化多模态大模型研究中，所需攻克的关键技术包括共性架构、高效训练、任务迁移和紧致化部署四个方面，尤其关注如何多终端部署这个大模型推广应用的关键问题。所研发的思源多模态基础大模型和现有多模态大模型相比，不仅支持图文输入，还能在文本对话和多模态对话中进行自动切换，单模态和多模态性能都能做到一流水平。思源大模型目前不仅可供开源使用，未来也将部署落地到陪护机器人成为一项高效多模态大模型的特色应用。

引导报告2：美图技术总监许清泉博士就《AI在美图》主题做引导发言报告，简要介绍了美图科技的背景以及在大模型研究与应用上的最新进展。美图影像研究院（MT Lab）成立于2010年，致力于计算机视觉、深度学习、增强现实等领域的算法研究、工程开发和产品化落地等，为美图秀秀、美颜相机、Wink等美图旗下全系软、硬件产品提供技术支持，同时面向影像行业内多个垂直赛道提供针对性SaaS服务，通过前沿技术来推动美图的产品发展。面对AIGC时代，许总认为之前的优势可能将不再是优势，只有主动拥抱新技术才能不被时代淘汰。美图公司于2023年6月发布自研视觉大模型Miracle Vision（奇想智能，懂美学的视觉AI大模型），把美图长期积累的美学认知融入模型实现美学评估系统。Miracle Vision具有强大的视觉表现力和创作力，从绘画、设计、影视、摄影、游戏、3D、动漫等视觉创作场景反推技术演化。目前Miracle Vision已升级至3.0版本，将全面应用于美图旗下影像与设计产品，并将助力电商、广告、游戏、动漫、影视五大行业“工作流提效” 。

引导报告3：中俄数字经济研究中心教授、人机交互实验室主任Mirko Farina （中文名法觅舸）就《生成式人工智能工具对经济社会影响的伦理思考和政策干预》做引导报告。生成式人工智能工具（GAIs）在资源管理、物流、金融、营销、环境、教育等诸多领域都能带来包括提高效率、改善决策、优化市场策略等好处，有可能为全球产出16万亿美元财富。与此同时也对就业市场有着潜在冲击，将导致工作岗位减少和社会不平等的加剧，使得劳动市场低迷、权力和财富集中、社会差异加剧。法觅舸教授提出了两种可能的政策干预来缓解这一技术可能产生的负面影响。首先，建议在GAIs的使用中增加可靠性，例如在新闻内容制作、企业沟通和软件开发领域引入标准以保护公众利益。其次，强调了培养观点的多元化，通过公共投资来支持分散的AI模型，以减少文化和价值同质化的风险，同时通过反垄断法和分散治理来防止AI技术巨头的过度权力。最后，作者提出了一个基于德性伦理的框架，这种框架强调个体和社会之间的合作以最大化人类最高的善，呼吁所有人共同对智能系统的使用负有“元责任”，是在数字世界中实现公正且负责任使用GAIs的第一步。

YOCSEF厦门老主席张龙晖、现任副主席张翼、张雪白，分别为三位引导发言嘉宾颁发感谢牌，感谢嘉宾们的精彩分享。

2. 思辨环节

下来是超燃大脑的思辨环节。来自校企嘉宾围绕3个议题展开思辩共话大模型，呈现了一场思想碰撞的盛宴。

议题1：多模态语言大模型与多模态生成大模型是否殊途同归?

孙晓帅（厦门大学副教授，国家级青年人才）首先对议题1做引导发言，算法与模型有助于缩减语言与视觉间的语义差距。随着研究深化，自然语言处理（NLP）与视觉研究日趋融合，孕育出多模态语言大模型与多模态生成大模型。今天，我们聚在此处，期望共同探讨一个引人深思的问题：这两种多模态模型能否通过一种统一方案实现整合？让我们畅所欲言，激发思维火花，期待大家的独到见解和精彩发言。

许清泉无论是多模态语言模型还是多模态生成大模型，尽管它们在起点上可能有所不同，但它们所追求的目标是一致的。每个模态都在各自所属领域内持续发展达到足够高的水平，并通过融合和协作共同迈向更高境界，构建成统一或混合模型，充分展现了殊途同归的哲理。

张龙辉认为多模态语言模型和多模态生成模型不仅发展的路径不同，它们在目标和功能上也有所不同。语言模型的目标是理解语言的内容和含义，侧重于自然语言理解方面；而生成模型则侧重于生成的内容，目标是生成被认可的结果。它们未来会在不同领域发展，不会殊途同归。

陈杰提出学术界和产业界有不同的侧重点，前者注重不同领域的研究和发展，后者则以满足企业需求为导向。尽管两者在路径上有所差异，但最终目标应该是殊途同归的，呼吁学术界多多关注产业界的需求。

黄德恒（厦门铃声开发经理）相信多模态语言模型还是多模态生成大模型最终会殊途同归。这与人从小到大的学习过程相似，无论是语言还是视觉，背后都有一套类似神经网络训练系统，我们或许不明确但有效的学习算法在驱动。人工智能已经经历了多次起伏，但最近再次受到热烈追捧，原因就在于它能为产业界和生活带来实实在在的价值。在产业发展中，我们必须保持警觉，以多模态大模型实现统一交互为理想目标。鉴于企业目前的巨大投入，包括算力持续增长，模型分化可能会导致沉重的成本负担。因此，我们需要密切关注融合与分化的趋势，以确保产业界能够从中获得最大的价值。

史英锋（厦门工商旅游学校）强调多模态是最符合人类自然生存条件的交互方式，与AI进行对话应当如同与人交流一样轻松简单。文字、视频、语音等易于数字化的数据已经率先应用于大模型的构建，非数据化数据还比较难。相信未来OpenAI会扮演一个搭建戏台的角色，开发GPT Store平台（类似苹果 Store）并制定插件规则，让各方参与者开发自己的应用，发挥产品能力，提升价值。

嘉宾总结：多模态语言模型与多模态生成模型和人类存在某种程度的相似性。就如同人类拥有23对染色体，但因出生参数的不同，我们会在不同的产业需求中发展出各异的特质和能力。这些模型也是如此，虽然基础结构相似，但可以根据不同的应用需求进行适应和发展，实现多样化的功能。

议题2：科技巨头未来是否将垄断多模态大模型研究?

邢东进（蝉大师/蝉妈妈创始人兼CEO）：世界的物种天生具有多样性，不论在任何领域，都不会出现被单一强大势力完全垄断的情况。人类、小草都渴望自由生长，没有任何人能阻止这一向往，商业精神更是如此。回顾历史，我们可以看到，尽管操作系统如Windows和Linux已经占据了主导地位，但仍有无数的变种存在。类似地，未来的大模型也将呈现百花齐放的态势，只是在商业应用中会有所微调。

张龙晖表示科技巨头是否会实现垄断，从法律上是禁止，但企业本身往往倾向于追求垄断地位。提议大家转换一下思路，假设未来科技巨头确实在大模型领域取得了垄断地位，我们能否构建一种合适的协议，以推动中小型企业和高校在这一领域获得更好的发展机会呢？

许清泉回应张龙晖的发言：GPT（闭源）已经展现了出色的成果，对于其他人（如FaceBook）来说，要迎头赶上并不容易。既然闭源的方式难以实现超越，那么我们另辟蹊径，集结众人的智慧与力量，通过开源的路径，共同推动技术的创新与发展。

宫正认为学术研究永不会被垄断，商业领域可能存在垄断现象。学术界的研究尤为开放，一旦某个前沿信息问世，会吸引众多研究者投身其中。大型模型企业之所以能够形成垄断，原因在于其掌握了硬件资源和数据资源。然而，随着硬件行业进入后摩尔时代，未来高校也将逐渐拥有足够的资源来参与大模型的研究。此外，数据的来源也越来越多样化，既可以从互联网上收集，也可以从自然和生活环境中获取。因此，未来商业领域中的垄断现象也会会有所改观。

史英锋从中学老师的视角表达了他的担忧,科技的迅猛发展和模型的不断迭代使得普通人难以跟上其步伐。他警示，随着科技巨头可能在未来引领人类进步，普通人除了通过数据创造价值，如何在经济权利、政治权利以及生态系统构建中确保自身地位，成为了一个亟待解决的问题。

曹梦云表示随着大模型的发展，普通的大学老师或研究人员可能面临着越来越高的研究壁垒。像自己这类普通大学老师拥有的资源和数据有限，可能很难提出自己的模型或改进观点，从而使得整个研发领域逐渐被大型团队或公司所主导。

张雪白认为尽管大型科技公司可能会在大模型技术上占据主导地位，但学术研究领域的多样性和深入性不会被垄断。特别是在社会科学领域，如教育发展的个性化方面，我们可以通过深入挖掘个体数据和田野调查等方法，获得丰富的研究成果，这是大模型难以替代的。郭丽清赞同雪白的观点，提出我们可以尝试跨学科的研究方法，将我们擅长的计算机技术融入到人文社科领域中，开创新的研究路径。此外，我们也可以考虑与企业开展合作，实现产教研的深度融合或者主动加入大型的研究团队。

嘉宾总结：当每一项新技术诞生，我们无需害怕，选择主动拥抱。蒸汽机的发明，我们不必再费尽心机让马儿跑得更快。大模型的诞生，我们不一定要再去造模型，而是可以运用现成的轮子，将其应用到各种不同的领域中，推动跨学科的研究与进步。

议题3：多模态大模型伦理与安全的约束更依靠技术还是法规？

厦门亿联网络技术股份有限公司高级项目总监陈杰做引导发言，AI技术具有颠覆性，类似于核弹。在萌芽阶段，我们已开始关注其伦理安全，这是一件好事。若遇到技术出色但不合规的情况，在国外，法律是首要考虑，只能通过研发新技术解决。法律旨在从伦理和安全角度提供保障。目前，国内工科院士也开始研究AI伦理问题，这个是非常好的现象。

黄德恒提出我们要先考虑一个问题，伦理和安全的对象是谁？对人还是大模型？在全球范围内，针对人的行为和责任，各国都有相应的法律规约。技术，就像一把双刃剑，如果没有法规的约束，它可能会无休止地追求利益最大化，忽视对社会的潜在危害。然而，法规可以作为一个强大的盾牌，防止技术的滥用。更进一步，我们可以通过技术手段，将法规转化为实际的屏障，为我们提供保护。这样，技术和法规共同形成了一个防护体系，既保护了技术的创新，又确保了社会的安全和稳定。

宫正认为多模态模型一定是技术手段进行约束和控制。如果多模态大模型真的发展成为一个具有自主意识和决策能力的AGI，它可能会产生自己的想法和动机，这时候单纯地依赖人类的法规可能难以对其进行有效的约束和规范。

邢东进表示一把刀可以用来切水果或切菜，这是它的基本功能。然而，刀本身并没有善恶之分，关键在于使用它的人。同样地，技术也是中性的，它本身并没有道德属性。技术的使用方式和目的取决于人类，而人类的道德观念可能因国家、文化和时期的不同而有所差异。因此，我们不能仅仅依赖技术来解决道德问题，而需要更加注重道德教育和法规制约的重要性。

张雪白认为多模态的发展确实呈现指数级的增长，其速度确实可能超过人类制定法规的速度。因此，单纯依赖传统的法规手段可能难以完全应对多模态技术带来的伦理和安全挑战。

Mirko Farina（法觅舸）阐述在讨论AI的伦理和安全时，算法至关重要。尽管复杂，但我们必须追求算法的透明度，否则AI的伦理就无从谈起。实现算法透明度有助于监督和规范此领域。需要注意的是，有时开发人员和研究人员可能意识不到所有风险，因此政府和相关机构应介入并制定相应的政策和法律来规范AI模型的开发。我们要确保AI对社会、经济和人民有利，而非仅惠及少数人，从现在开始思考这些问题，以免科技巨头的权力超越国家。

嘉宾总结：多模态大模型的伦理和安全问题需要技术和法规两个方面共同发挥作用，二者相辅相成，缺一不可。无论是技术先行还是法规先行，最终的目的都是为了确保我们的伦理安全，并让技术真正为我们人类创造价值。

3.致谢

本次论坛已经圆满结束，思想的碰撞总是散发着迷人的魅力，各位嘉宾与YOCSEF委员的精彩发言让人意犹未尽。衷心感谢所有线上线下嘉宾以及CCF YOCSEF家人们的热情参与和精彩分享。让我们怀揣着期待，期待再次相聚，共同探索更多智慧的火花！

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum

1.引导发言

2. 思辨环节

3.致谢