您的位置：首页 > 分支机构 > 学生分会 > CCF学生分会 > 中国海洋大学 > 学生分会动态

中国海洋大学CSInsider学生交流论坛第二期线上讲座成功举办

阅法量:5 收藏本文

为加强中国海洋大学学生会员的专业培养和能力提升，为学生会员打造一个开放、自由、包容的学术交流平台，在指导教师高峰的倡议下，11月23日，中国海洋大学CSInsider学生交流论坛第二期线上直播讲座成功举办。本期讲座邀请了中国海洋大学2015级本科毕业生、新加坡国立大学计算机学院和数据科学院博士研究生曲磊钢，他的研究方向是多媒体计算和信息检索，曾获CCF A类会议SIGIR 2021最佳学生论文奖和ACM MM 2022最佳论文奖。

信息革命深刻而全面地改变着人们的生产生活方式和社会运作方式，信息获取已成为其中至关重要的一环。本报告围绕高效跨模态信息获取，分别从检索和生成两个方面对科研工作进行总结，包括图文分析与匹配、短视频预训练与多样性摘要生成、语言大模型驱动的复杂场景图像生成，涉及的论文包括《Iterative local-global collaboration learning towards one-shot video person re-identification》、《Context-aware multi-view summarization network for image-text matching》、《Dynamic modality interaction modeling for image-text retrieval》、《Learnable Pillar-based Re-ranking for Image-Text Retrieval》、《Search-oriented micro-video captioning》、《LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation》。

关于复杂背景的多模态信息问题，曲磊钢提出了基于local和global进行特征提取的视频半监督模型，并提出了variational information bottleneck的概念，实验结果相较于同期其他方法达到了SOTA。接下来介绍了基于Text和Image两种模态的三种多模态模型：图像是连续的像素点所构成，文本是由离散的数据所构成，因此Image-Text Matching是图像和文本精确检测的关键，提出了multiview summarization，将图像在特征空间映射成一个点，再加上Transformer的self-attention模块提高特征融合的能力；第二个工作是Dynamic Interaction，曲磊钢将近期工作分为Intra-modal Interaction、Cross-Modal Interaction、Hybrid-Modal Interaction三种交互模式，因此提出让模型自己学习这三种交互模式，也就是Mixture of Experts思想；第三个是信息检索领域常用的Re-ranking，模型主要由计算相似度、多模态空间映射、pillar-based编码三部分组成，能进一步优化多模态的结果。

基于多模态文本生成的方向，曲磊钢指出该方向存在三个挑战，一个是数据集的缺失，第二个是短视频的帧如何与图像文本融合获得更好的特征表示，最后是如何让Diversity建模有自适应的表征。曲磊钢的第一个工作是在search log中做精初选，设计了多模态预训练的网络提升表征能力，调研用户意图进行建模，与其他模型的性能相比，该模型的生成性能达到了最优。第二个工作可以简单概括为输入文本后生成图像，通过大型语言模型进行上下文学习，生成粗粒度布局，并引入细粒度对象交互扩散方法，通过从粗到细的方式，无需手动引导信息，成功合成了与文本提示语义一致的高保真图像。实验结果表明，该方法在布局和图像生成方面明显优于现有模型。

最后是问答环节，学生会员们针对这几篇论文进行了热烈的讨论，曲磊钢一一解答了会员们提出的技术问题。除此之外，曲磊钢还与大家深入探讨了研究生生活和留学相关问题，学生会员们纷纷表示受益匪浅，对未来的学习生活有了更明确的认识和规划。至此，中国海洋大学CSInsider学生交流论坛第二期线上直播讲座圆满结束。

CSInsider 依托于CCF中国海洋大学学生分会而建立发展，以服务广大师生为宗旨，每周举办优质讲座，涉及内容包括导师信息分享、新老生交流会、学术报告、就业咨询、专利申请等。感兴趣的会员可以关注“中国海洋大学计算机学院”微信公众号获取最新报告预告。