CNCC | 多模态大模型时代的语音音频技术:机遇与挑战并存
CNCC2024
论坛简介:
多模态大模型给语音音频技术带来哪些机遇与挑战?
举办时间:10月24日13:30-17:30
地点:秋苑-澄心堂
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
语音音频技术是人工智能的重要分支,它让计算机能够理解和生成人类的语音和各种音频,实现与人类自然、流畅、高效的交互。随着多模态大模型的不断发展,语音音频技术正面临前所未有的发展机遇,同时也伴随一系列挑战。
本论坛将聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题,从语音及音频理解、语音音频与多模态大模型结合、面向AIGC的语音及音频生成、相关技术在人机交互服务中的应用等方面展开思辨和讨论。本论坛邀请了来自清华大学、上海交通大学、启元实验室、中国科学技术大学、香港中文大学(深圳)、希尔贝壳、面壁智能、思必驰等国内外知名语音及音频处理技术专家学者和业界代表,分享他们在语音音频技术领域的最新研究成果和经验,以及对未来技术发展方向的展望。本论坛旨在集思广益,为参与者提供一个交流学习、探索创新、寻求合作的平台,促进学术界与产业界的交流合作,共同推动语音音频技术的创新发展。
论坛亮点
聚焦语音音频技术在新一代人工智能及多模态大模型背景下的发展趋势和前沿问题。
邀请国内外知名专家学者从学术与产业角度深入探讨语音音频技术如何应对新的机遇与挑战。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型 | 陈驰 | 启元实验室/清华大学 |
2 | SALMONN:认知导向的视听觉大语言模型 | 张超 | 清华大学 |
3 | 基于音频的自监督学习进展及其与大语言模型的结合 | 陈谐 | 上海交通大学 |
4 | Panel环节: | 凌震华 | 中国科学技术大学 |
俞凯 | 上海交通大学/思必驰 | ||
刘知远 | 清华大学/面壁智能 | ||
陈驰 | 启元实验室/清华大学 | ||
张超 | 清华大学 | ||
陈谐 | 上海交通大学 | ||
武执政 | 香港中文大学(深圳) | ||
卜辉 | 希尔贝壳科技有限公司 |
论坛主席及嘉宾介绍
论坛主席
凌震华
CCF语音对话与听觉专委秘书长,中国科学技术大学教授
中国科学技术大学信息学院教授,语音及语言信息处理国家工程研究中心副主任,入选教育部CJ学者校企联聘学者,主要从事语音信号处理、自然语言处理等方向的研究。
论坛共同主席
吴志勇
CCF语音对话与听觉专委副秘书长,清华大学副研究员/博导
清华大学深圳国际研究生院副研究员。研究兴趣为智能语音交互技术,曾获教育部、北京市、深圳市科技进步等奖励。获深圳市教学成果奖、清华大学良师益友荣誉称号、CCF语音对话与听觉专委卓越服务者奖励。
论坛讲者
陈驰
清华大学客座研究员,启元实验室助理研究员
主要研究多模态大模型与自然语言处理,在ACL、EMNLP等顶级会议发表多篇论文,多个顶级期刊和会议审稿人。参与国家重点研发计划和新一代人工智能重大项目。
报告题目:MiniCPM-V:端侧可用的GPT-4V级单图、多图、视频多模态大模型
报告摘要:多模态大模型迅速发展,成为人工智能领域研究热点,但其实用化仍面临诸多挑战。本报告介绍首个单图、多图与视频理解性能达GPT-4V级的端侧模型系列MiniCPM-V。通过统一视觉编码框架实现同时支持单图理解、多图联合理解、多图ICL及实时视频理解等功能,并具有领先的OCR能力、可信多模态行为及多语言支持等特性。模型具有更高知识密度,实现端侧设备上轻量化运行与高性能表现,展现了多模态大模型的实用化前景。
张超
清华大学助理教授,伦敦大学学院荣誉副教授
研究方向为多模态语音语言处理技术和计算认知神经科学。曾任剑桥大学副研究员、京东语音联合负责人、谷歌高级研究科学家等职务。入选国家高层次人才计划青年项目。
报告题目:SALMONN:认知导向的视听觉大语言模型
报告摘要:文本大语言模型(LLM)的一个关键缺陷在于其语言认知与物理世界的多模态信息几乎无关。本报告介绍首个通用听觉大语言模型SALMONN。通过将LLM直接与音频和语音编码器连接,实现对语音、音频事件、音乐、声源方位等听觉元素的通用感知和理解,具备语音指令、多语言、跨模态推理等高级能力。还通过视觉编码器及多时空精度因果Q-Former结构,实现认知导向的音视频感知,是第一个能“看”短视频的多模态大模型。
陈谐
上海交通大学副教授/博导
上海交通大学计算机系副教授,博导,获国家海外高层次人才青年项目。博士毕业于剑桥大学,先后在剑桥从事博士后研究、美国微软研究院任高级和资深研究员,主要研究方向为智能语音信号处理,发表论文90余篇。
报告题目:基于音频的自监督学习进展及其与大语言模型的结合
报告摘要:近年来,自监督学习在音频信号处理领域取得显著进展,展示了从海量无标签音频数据中学习潜在结构信息的强大能力。报告将介绍音频、情感语音和音乐数据自监督学习的最新进展。通过引入语句和帧级别联合学习,在音频分类、语音情感识别和音乐理解方面取得显著提升。进而将语音表征学习模型与大语言模型结合,扩展其在语音识别和空间音频理解等方面的多模态能力。研究表明,强大的音频表征模型即使通过简单结合,也能达到优异性能。
Panel嘉宾
俞凯
CCF语音对话与听觉专委主任、上海交通大学特聘教授,思必驰公司创始人、首席科学家
从事对话式人工智能研究和产业化工作,国家WR计划科技创新领军人才,NSFC优青,上海市东方学者特聘教授。
刘知远
清华大学长聘副教授,智源青年科学家,面壁智能联合创始人、首席科学家
主要研究自然语言处理,被引超过4.9万次,曾获教育部自然科学一等奖,入选国家青年人才项目、《麻省理工科技评论》中国区35岁以下科技创新35人、中国科协青年托举工程。
武执政
香港中文大学(深圳)副教授/博导
国家级青年人才,发起Merlin与Amphion开源系统,组织多次国际评测,多次获最佳论文。IEEE/ACM TASLP、SPL等期刊编委、SLT2024大会主席。
卜辉
北京希尔贝壳科技有限公司创始人兼CEO
CCF语音对话与听觉专委常委,发布多个开源项目,形成数据+智能语音技术矩阵方案,组织多次国际顶会语音赛事活动。获NCMMSC及APSIPA个人贡献奖、CCF语音对话与听觉专委卓越服务者奖励。
关于CNCC2024
CNCC2024将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。大会为期三天,包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势,分享创新成果。预计参会者超过万人。