基于多模态大模型的开放世界视觉内容感知｜SPP第95期

阅读量:0 2024-07-22 收藏本文

近期，多模态大模型作为人工智能领域的重要研究方向备受关注。在本期SPP报告中，魏云超教授将分享其课题组利用多模态大模型在开放世界视觉内容感知研究方面的相关工作。这些工作着重解决了以下问题：1）如何利用多模态大模型将模型的语义分割能力从有限类别扩展到无限类别？2）如何将自然语言的复杂推理能力同语义分割任务结合，赋予模型在视觉感知任务上推理能力？相关工作均发表在近期国际顶级会议上。欢迎参与本期 SPP：7月 3日（本周三）19:30 —21:00。

本期直播你将收获哪些

1、了解什么是面向开放世界的视觉内容感知。

2、了解如何将大语言模型的复杂推理能力赋予视觉感知系统。

3、了解未来同开放世界视觉内容感知的相关应用。

演讲嘉宾

魏云超，北京交通大学计算机学院教授、副院长，国家高层次人才计划获得者。曾在新加坡国立大学、美国伊利诺伊大学厄巴纳-香槟分校、悉尼科技大学从事研究工作。入选MIT TR35 China、百度全球高潜力华人青年学者、《澳大利亚人》TOP 40 Rising Star；获世界互联网大会领先科技奖（2023）、教育部高等学校自然科学奖一等奖（2022）、中国图象图形学学会科技技术奖一等奖（2019）、澳大利亚研究委员会青年研究奖（2019）、IBM C3SR最佳研究奖（2019）、计算机视觉世界杯ImageNet目标检测冠军（2014）及多项CVPR竞赛冠军；发表TPAMI、CVPR等顶级期刊/会议论文100多篇，Google引用超21000次。目前主要研究方向包括面向非完美数据的视觉感知、多模态数据分析、生成式人工智能等。

CCF学生分会

基于多模态大模型的开放世界视觉内容感知｜SPP第95期