多模态大模型进展及应用 | 8月10日TF116报名

阅读量:81 2023-08-04 收藏本文

以大模型为核心技术的生成式AI方兴未艾，融合计算机视觉、自然语言处理等技术的跨模态大模型技术蓬勃发展。8月10日，TF116邀请到来自中国科学院自动化研究所、字节跳动、百度的专家学者，深入探讨多模态大模型的技术进展及产业应用。欢迎报名，并参与讨论。

为工程师提供顶级交流平台

CCF TF第116期

时间 2023年8月10日 19:00-21:00

主题多模态大模型进展及应用

欢迎扫码了解详情报名参会

报名链接：https://conf.ccf.org.cn/TF116

大模型技术的蓬勃发展极大地推动了人工智能领域的技术进步和产业应用。国内外巨头公司、高校、研究单位等纷纷在此领域加大投入，基于大模型的丰富应用悄然进入人们的生产生活。

与此同时，结合计算机视觉、语音处理、自然语言处理等技术的多模态大模型技术也呈现出勃勃生机。多模态预训练联合图文音等多模态内容统一学习，突破了单一模态的限制，在内容理解、内容生成、人机交互等领域具有巨大的应用价值。同时，多模态大模型也面临模态表示、模态融合等方面的挑战。

8月10日，CCF TF第116期活动将围绕多模态大模型话题，邀请来自学术界和产业界的专家学者共同研讨，回顾多模态大模型的历史，介绍其发展现状和丰富的产业应用，探讨所面临的挑战并展望未来发展前景。以期能够激发讨论，促进技术进步。

二、会议安排

TF116：多模态大模型进展及应用主持人：何中军 CCF TF算法与AI SIG主席，百度人工智能技术委员会主席
时间	主题	讲者
19:00-19:05	活动介绍及致辞	何中军 CCF TF算法与AI SIG主席，百度人工智能技术委员会主席
19:05-19:35	《多模态预训练模型的技术回顾与展望》	郭龙腾中国科学院自动化研究所副研究员
19:35-20:05	《多模态技术与应用》	曾妍字节跳动AI-LAB算法工程师
20:05-20:35	《多模态内容生成技术与应用》	肖欣延百度杰出架构师
20:35-20:55	参会者提问互动
20:55-21:00	活动总结

三、所属SIG

CCF TF 算法与AI SIG

四、特邀讲者

郭龙腾

中国科学院自动化研究所副研究员

主题：《多模态预训练模型的技术回顾与展望》

主题简介：近年来，从预训练模型到预训练大模型，从文本、音频、视觉等单模态大模型，到现在的图文、图文音等多模态预训练大模型，无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行通用模型学习，并应用于跨模态分析、检索、转换等下游任务上，其在内容理解、搜索、推荐、问答、人机交互、AIGC、具身智能等场景领域中具有巨大的应用价值。本报告主要包含三方面内容：分析多模态预训练模型的研究背景与必要性；回顾当前多模态预训练模型的研究进展，并介绍多模态大模型的架构设计、学习优化、下游应用，以及最新前沿研究方向如多模态大语言模型、多模态具身智能等；最后分析多模态预训练模型所面临的技术挑战与未来展望。

个人简介：郭龙腾，中科院自动化所副研究员，紫东太初大模型研究中心团队成员。主要研究兴趣包括图像分析与理解、多模态预训练模型、跨模态生成等。在相关领域发表高水平学术论文二十余篇，包括CVPR、IJCAI、ACM MM、SIGIR等。相关成果在ICCV COCO-Place场景解析、CVPR VATEX视频描述、ACM MM预训练视频理解等国际竞赛中取得多项冠军。

曾妍

字节跳动AI-LAB算法工程师

主题：《多模态技术与应用》

主题简介：多模态理解和生成的应用范围广泛。本次分享首先将介绍我们提出的多模态预训练技术（涵盖图像/视频和文本）以及该技术在多模态场景下的应用，同时探讨多语言场景下的多模态应用，分享研究工作应用到实际业务中的挑战和解决方案。本次还将介绍我们在多模态大语言模型方面的尝试，我们发现如何同时做到视觉信号的准确理解和开放式文本生成是一个难点。因此，我们研究了如何训练大语言模型使得其更好地具备这两方面能力，从而提高其在基于视觉信息的开放式文本生成任务中的表现。

个人简介：曾妍，字节跳动AI-LAB算法工程师，工作期间参与多模态预训练、多模态大语言模型，视频理解和生成等相关研究，以第一作者身份在国际顶级会议 ICML, ACL, NAACL 发表五篇相关论文，并担任了TPAMI, ICML, NIPS, ACL, EMNLP的审稿人。其研发的多个模型在业界处于领先地位，为字节跳动的短视频审核、电商客服、今日头条、教育解题等多个业务提供了有力服务。

肖欣延

百度杰出架构师

主题：《多模态内容生成技术与应用》

主题简介：随着大模型的革命性突破，基于人工智能的内容创作，也就是AIGC，逐渐兴起并受到广泛关注。多模态内容生成是AIGC中最重要的方向之一，能够极大提升图像、视频等内容的生产效率，在数字经济中具备广泛的应用价值。本报告介绍百度在多模态内容生成的技术与应用，重点介绍从自然语言到视觉内容的生成，同时探讨当前面临的主要挑战和未来的发展趋势。

个人简介：肖欣延博士，正高级工程师，百度杰出架构师，内容生成与AIGC技术负责人。长期从事自然语言处理相关研究和应用，已发表CCF A/B类论文30余篇，获授权发明专利90余项并获中国专利优秀奖1项，相关成果已在百度的搜索、推荐、百家号、百度云、小度、输入法等业务中得到广泛应用。

五、SIG主席