中国海洋大学CSInsider学生交流论坛第二期线上讲座成功举办
为加强中国海洋大学学生会员的专业培养和能力提升,为学生会员打造一个开放、自由、包容的学术交流平台,在指导教师高峰的倡议下,11月23日,中国海洋大学CSInsider学生交流论坛第二期线上直播讲座成功举办。本期讲座邀请了中国海洋大学2015级本科毕业生、新加坡国立大学计算机学院和数据科学院博士研究生曲磊钢,他的研究方向是多媒体计算和信息检索,曾获CCF A类会议SIGIR 2021最佳学生论文奖和ACM MM 2022最佳论文奖。
信息革命深刻而全面地改变着人们的生产生活方式和社会运作方式,信息获取已成为其中至关重要的一环。本报告围绕高效跨模态信息获取,分别从检索和生成两个方面对科研工作进行总结,包括图文分析与匹配、短视频预训练与多样性摘要生成、语言大模型驱动的复杂场景图像生成,涉及的论文包括《Iterative local-global collaboration learning towards one-shot video person re-identification》、《Context-aware multi-view summarization network for image-text matching》、《Dynamic modality interaction modeling for image-text retrieval》、《Learnable Pillar-based Re-ranking for Image-Text Retrieval》、《Search-oriented micro-video captioning》、《LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation》。
关于复杂背景的多模态信息问题,曲磊钢提出了基于local和global进行特征提取的视频半监督模型,并提出了variational information bottleneck的概念,实验结果相较于同期其他方法达到了SOTA。接下来介绍了基于Text和Image两种模态的三种多模态模型:图像是连续的像素点所构成,文本是由离散的数据所构成,因此Image-Text Matching是图像和文本精确检测的关键,提出了multiview summarization,将图像在特征空间映射成一个点,再加上Transformer的self-attention模块提高特征融合的能力;第二个工作是Dynamic Interaction,曲磊钢将近期工作分为Intra-modal Interaction、Cross-Modal Interaction、Hybrid-Modal Interaction三种交互模式,因此提出让模型自己学习这三种交互模式,也就是Mixture of Experts思想;第三个是信息检索领域常用的Re-ranking,模型主要由计算相似度、多模态空间映射、pillar-based编码三部分组成,能进一步优化多模态的结果。
基于多模态文本生成的方向,曲磊钢指出该方向存在三个挑战,一个是数据集的缺失,第二个是短视频的帧如何与图像文本融合获得更好的特征表示,最后是如何让Diversity建模有自适应的表征。曲磊钢的第一个工作是在search log中做精初选,设计了多模态预训练的网络提升表征能力,调研用户意图进行建模,与其他模型的性能相比,该模型的生成性能达到了最优。第二个工作可以简单概括为输入文本后生成图像,通过大型语言模型进行上下文学习,生成粗粒度布局,并引入细粒度对象交互扩散方法,通过从粗到细的方式,无需手动引导信息,成功合成了与文本提示语义一致的高保真图像。实验结果表明,该方法在布局和图像生成方面明显优于现有模型。
最后是问答环节,学生会员们针对这几篇论文进行了热烈的讨论,曲磊钢一一解答了会员们提出的技术问题。除此之外,曲磊钢还与大家深入探讨了研究生生活和留学相关问题,学生会员们纷纷表示受益匪浅,对未来的学习生活有了更明确的认识和规划。至此,中国海洋大学CSInsider学生交流论坛第二期线上直播讲座圆满结束。
CSInsider 依托于CCF中国海洋大学学生分会而建立发展,以服务广大师生为宗旨,每周举办优质讲座,涉及内容包括导师信息分享、新老生交流会、学术报告、就业咨询、专利申请等。感兴趣的会员可以关注“中国海洋大学计算机学院”微信公众号获取最新报告预告。