返回首页

CCF广东工业大学学生分会举办“多模态人工智能及GPT-4o技术初探”学术讲座

阅法量:7 收藏本文

CCF广东工业大学学生分会于2024年6月19日(星期三)上午成功举办了主题为“多模态人工智能及GPT-4o技术初探”的学术讲座。这场讲座报告人是广东工业大学计算机院教授孟敏。孟教授作为广东省“珠江人才计划”高层次人才,“青年百人计划”A+类引进人才,主持了国家自然科学基金面上项目/青年项目、广东省自然科学基金项目、广东省教育厅青年创新人才项目,作为技术指导参与两项新加坡教育部研发转化与创新基金项目。同时,在国际重要学术期刊和会议上发表论文40余篇,单篇最高引用100余次。

本场讲座,吸引了数百余名学生的参与,孟敏教授首先概述了GPT-4o作为新一代多模态大模型的核心特性,强调其在语音互动模式上的重大突破。GPT-4o不仅仅能够处理文本信息,还能理解语音、图像甚至视频,实现真正意义上的多模态交互。孟教授指出,这种端到端的训练方法意味着所有输入和输出都通过同一个神经网络处理,从而确保了交互的自然流畅与高效率。

图片1

讲座中,孟教授特别强调了GPT-4o语音模式的几个亮点:丰富的语音风格、对语音内容之外的情感与意图理解、非语言性声音的生成,以及即时且自然的对话互动。例如,GPT-4o能够根据上下文调整语速、音调,甚至能够发出笑声等非言语声音,模拟人类的交流习惯,这使得与AI的互动变得更加人性化和生动。

图片2

接着,孟教授通过实例演示了GPT-4o如何超越传统语音界面的限制,解决如“察言观色”、适时插入笑声等以往难以实现的功能。她还提到,GPT-4o具备的语者自动分段标记技术(Speaker Diarization),能有效区分不同语者的发言,这对于多人对话场景中的理解和响应至关重要。

在技术细节部分,孟教授介绍了GPT-4o的训练过程,强调了大规模无标注数据与少量有标注数据结合的重要性,以及模型通过用户反馈进行微调的策略。她透露,OpenAI在训练GPT-4o时,使用了超过100万小时的YouTube视频数据,这使得模型能够理解和生成多样化的声音,远远超越了过去只能机械性朗读的语音合成系统。

讲座最后,孟教授展望了GPT-4o在未来多模态应用中的潜力,比如在教育、娱乐、客户服务和健康关怀等领域可能带来的变革。她还提到了OpenAI尚未公开的GPT-4o相关论文和技术报告,激发了听众对未来研究方向的好奇心。

图片3