随着人工智能的快速发展,深度学习技术在各个领域均取得长足进步,特别是数据生成技术在语音、图像和自然语言处理等领域展现出了可观的应用价值,如个性化语音陪读、图像生成以及诗歌生成等。然而,强大的数据生成技术如同一把双刃剑在提供良好服务体验和应用价值的同时也给人们的生活和社交增添了严峻烦恼,如频繁扰人自动客服语音电话、篡改音容的AI换脸以及恶意炮制的虚假新闻等等,严重侵害了适用对象的合法权益乃至造成了不良的社会舆论导向。此外,数据生成技术产出内容的著作权争议也备受关注,是否可以忽视此类技术的潜在风险和争议而持续扩大研发投入引起了众多技术专家乃至伦理学家的关注。在此背景下,CCF YOCSEF哈尔滨分论坛于2022年10月22日下午,在黑龙江省电子商务总部基地B座浪潮科技大厦,以线上线下结合的方式举办了“数据生成技术如何从照猫画虎到以假乱真?”技术论坛。着重围绕数据生成技术的利与弊开展深入研讨,思辨既能充分发挥数据生成技术优势又能合理抑制潜在风险的技术共识。
本次论坛荣幸邀请到南京航空航天大学计算机科学与技术学院李丕绩教授、百度知识图谱部资深研发工程师刘家辰博士、科大讯飞AI研究院高级研究员胡诗卉博士担任引导嘉宾,精心特邀哈尔滨工业大学车万翔、杨沐昀两位CCF YOSEF哈尔滨分论坛老主席担任思辨嘉宾,来自哈尔滨工业大学、哈尔滨工程大学、东北林业大学、哈尔滨理工大学、黑龙江大学、哈尔滨医科大学、浪潮科技等高校和企业的学者、专家60余人参加会议。CCF YOCSEF哈尔滨分论坛副主席冯骁骋、李洋共同担任论坛执行主席。
在技术报告环节,李丕绩教授以《SongNet:格式控制的文本生成》为题,以歌曲填词为任务出发点,首先介绍了其研究团队在创造性文本生成领域的最新进展以及格式控制文本生成的研究意义和背景。随后,李教授详细阐释了格式控制的实现方法、模型训练细节、任务效能评价策略和结果验证方案,展示了该项成果在评价指标以及人工评测方面取得的优良进展。最后,李教授通过生动形象的实例展示了SongNet模型在多种场景中应用落地,总结展望了SongNet模型的丰富应用前景和深远研究意义。
随后,刘家辰博士以《跨模态AIGC技术与应用趋势讨论》为题,介绍了图像及视频生成领域的前沿研究进展。刘家辰博士提到,人工智能生成内容AIGC近年来取得快速发展,已经逐步发展成为新一代的内容生产方式,百度在跨模态预训练模型上也紧跟统一化方案思路,训练了UNIMO等一系列大模型。特别是百度的TTV智能图文转视频系统在百家号以及数字人领域都实现了广泛应用。最后,刘博士指出AIGC领域仍存在多重挑战,主要体现在对交互能力、可控性的改进提升以及更高维度的视频生成等方面,为该领域的研究发展趋势提出了有深度的洞察和思考。
最后,胡诗卉博士以《合成演化之路——数字人的前世今生》为题,介绍了科大讯飞在语音合成以及数字人应用方面的最新进展。科大讯飞一直以来持续追求更自然的人机交互方式,在属性可控语音合成任务上实施了一系列前沿探索,未来将会在系统交互合成、高表现力合成以及声音创造上发力提出优化成果。此外,讯飞数字虚拟人技术现已广泛应用于内容运营、线下服务以及线上服务等现实场景。胡诗卉博士指出,数字人未来将呈现视觉多样化、情感贯穿以及应用门槛降低的趋势,未来将推出更多、更精细、更智能的虚拟形象成果。
在三位引导嘉宾的精彩报告后,论坛进入思辨环节,由论坛执行主席冯骁骋主持,引导和协调嘉宾、现场委员和线上线下参会开展思辨讨论。
针对思辨议题一:“自动生成技术的目标是‘极致模仿’还是‘原始创新’?”,与会嘉宾展开热烈讨论,有嘉宾认为目前AI生成能力还是依赖训练集里的类似样本,机器的创新实际是通过寻找图像生成的概念与文本概念的新组合达成,如狮子打字,模型具备狮子的概念以及打字机的概念,只需要寻找良好的组合以及像素过渡方式合成图像,所以模型模仿学习的是基本概念,但在组合上会有创新产生。还有嘉宾指出,现有模型的模仿能力仍然不足,尚达不到“极致”效果,如机器生成的水墨画,在专业笔法上还有很大差距。特邀嘉宾车万翔教授认为数据生成领域是AI领域很好的议题,但模仿和创新并不矛盾,像人一样,“熟读唐诗三百首,不会作诗也会吟”,也许未来让人去模仿模型创新,比如水墨画,模型可以先生成草稿,再由人来完善AI创作的不足。其他嘉宾也纷纷从落地场景应用、任务角度等进行了思考并发表了观点,现场氛围十分热烈。
思辨议题二:“技术手段可否助力‘以假乱真’生成数据的良性使用?”,更是引发了与会嘉宾的讨论热情,人工智能安全问题一直是学界关注的热点,有嘉宾认为,类似deepfake换脸技术,我们应该通过技术手段在模型生成内部加入可以鉴别的水印。有嘉宾认为,应该从两方面对AIGC内容安全可控采取措施,一方面是AI生成应用形式的限制,另一方面需要监管部门协同处理。嘉宾们一致认为,信息技术是一把双刃剑,任何技术都存在伦理问题,如何在安全可控的范围内让技术最大化地创造生产力、服务生活值得研究者们深思。同时特邀嘉宾杨沐昀老师认为,数据内容生产的监管不能仅依赖于道德约束,需要通过国家立法实现技术的规范使用。
思辨讨论
线下合影
本次论坛从多侧面、多角度研讨了数据生成技术的研究前沿,并对数据生成技术的未来进行了展望,呼吁研究者们继续深耕探索,推动AIGC技术发展。
与会嘉宾一致认为:
随着扩散模型(Diffusion model)的出现,人工智能内容生成(AIGC, AI Generated Content)已成为全球热点,是2022年人工智能领域最重要的技术进展之一,AI定义了一种新的数据生产方式,将对互联网乃至人们日常生活产生深远影响,并会吸引业内的持续关注,产生诸如AI插画师等新的职业形态。针对思辨议题一:数据内容的创新是基于对已有数据的不断模仿得以达成,以无标注自监督的大规模预训练范式为数据生成提供了有力支撑,准确便捷的内容组合生成方式将使人们的幻想得以快速实现,进而创造出大量全新的数据;人机耦合的联合创作范式将为数据内容创新注入新的动力,使其实现真正飞跃。针对思辨议题二:数据内容生成不能仅依赖道德约束,呼吁从国家层面启动相关立法,避免生成虚假内容对社会产生不良影响。