数字人的生成与驱动技术 | TF114回顾

阅读量:142 2023-08-10 收藏本文

7月20日，CCF TF第114期活动“数字人的生成与驱动技术”吸引了近百名行业内、外听众参与并互动，超5000人在线观看直播。来自知名企业的技术专家和顶级高校的学者，围绕数字人的技术全景展开分享，再从大语言模型、生成式人工智能两个前沿方向，深入介绍了数字人最新的生产与驱动技术的变革，并与听众共同探讨数字人在行业实践的技术难点及其应对。

CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】，欢迎长按识别，回看精彩分享。本期活动报告也将于近日收录，欢迎持续关注！

最近元宇宙概念的热度有所消退，然而，在生成式AI、大语言模型和虚拟现实等新技术的推动下，虚拟数字人取得了令人瞩目的突破，展现出多个AI能力领域的创新。数字人能够利用语音、视觉、自然语言等多种AI能力在虚拟空间中与人类进行沟通互动，不仅能够解答疑惑、提供情感陪伴，而且成为了跨越时间和空间限制的交流工具。数字人技术正逐渐从外观的数字化进化为行为的交互化和思想的智能化。

在数字人生成制作流程方面，随着AI技术的发展，数字人的生成制作流程得到了极大的简化，各方面性能也获得了飞跃式提升。虚拟偶像、虚拟主播、数字员工等数字人已经在金融、传媒、影视、游戏、文旅、教育等多个行业实现了规模化、智能化的应用。借助语音、图像等多模交互能力，数字人为人机交互体验带来了显著提升。

活动议程

本期邀请到小冰科技的杨伟民首先综述了数字人技术栈、评价体系以及未来的技术趋势，百度公司的赵亚飞介绍了百度在3D、2D数字人的生成与驱动技术方面的探索和实践，也展示了百度如何借助大语言模型为数字人赋予更智能、更自然的交互能力,来自上海交通大学的晏轶超从学术领域分享了关于生成式人工智能技术产生高拟真、规模化虚拟数字人的研究报告。

活动由百度智能座舱业务部的主任架构师周华主持，来自英特尔中国研究院的院长宋继强博士与联想集团副总裁王茜莺博士为本次活动致辞。

宋继强博士介绍虚拟数字人的生成与驱动技术取得了令人瞩目的突破，在生成式AI、大语言模型、虚拟现实等新技术的推动下，现在的数字人已经能够利用语音、视觉、自然语言等多种AI能力在虚拟世界中与人进行沟通互动,并展现出在多种应用领域的创新机会。现在数字人不仅成为了突破时间和空间限制的交流载体，在专业的知识图谱的加持下，数字人还可以大大提高有关领域的智能化交互水平。随着数字人生成与驱动技术越来越简便与高效，人们进入元宇宙等数字空间的梦想逐渐变成现实，进而也引发了对未来我们可以拥有多个虚拟分身的无限遐想。

“大模型生成式AI和数字人之间产生化学反应几乎是必然的”，王茜莺博士也认为在工作、生活中数字人作为数字劳动力在新科技浪潮的驱动下将会有巨大的生产效率提升，对数字人未来的主要场景也有更多的期待。

《数字人驱动技术发展及未来展望》

小冰科技技术总监杨伟民首先展望了数字人的多种应用场景以及每种场景下的主要技术挑战，为在场听众展示了数字人技术的全景技术栈。对数字人应用尚有顾虑的用户误认为这是一项要花大量费用才能实现的高技术产品，难以落地，但杨老师介绍了在AI能力的加持下，2D数字人的本质是做一次复刻，不断地基于已有的数据、能力，可以用低成本的方式实现新场景，例如真人复刻技术，它通过采集的视频数据作为训练数据，用AI模型学习语音与口型、面部肌肉、脖颈变化的规律，而在推理阶段则是基于TTS、CV生成式算法，通过文本驱动数字人的说话动作渲染；再例如采用降低模型参数、增加base model权重的方式，降低对训练数据的质量要求，实现从精品数字人到小样本数字人的低成本定制。

定制高精度数字人

此外对数字人生成效果小冰科技也有一套全面的技术指标来衡量，如下图，唇型匹配的准确度、是否有渲染跳帧、嘴唇和牙齿的清晰度等。杨老师对数字人的指标判断会有一个新的趋势，就是随着生成式大模型的出现，除了形象和声音之外，还有新的生物特征，能促成数字人有自己的性格、观点、创造力，而不是一张皮，未来的一到两年，数字人会引入一个新的概念，叫数字员工。

数字人技术指标

具备六维能力的数字员工

《生成式人工智能与虚拟数字人》

来自上海交通大学人工智能研究院的年轻学者晏轶超首先分享了他对生成式人工智能现有工作的思考。深度学习刚兴起的阶段，基于图片、语音信息做统计分析，判断它是否符合某一些属性，例如人物的性别、年龄的大小，都属于判别式的人工智能，类似的还有人脸识别、目标检测、物体分割这些技术；而在生成式人工智能时代，通过一张照片，就能基于大模型从无到有地合成出接近真实的3D场景，这波生成式的技术浪潮将会持续5到10年的时间。

基于生成式人工智能学界和业界可以大规模、高效地生产可泛化、可驱动、可交互的虚拟数字人，这些技术包括利用单张图像自监督3D人脸重建、利用视觉和文本线索提高肤色估计的准确性、利用三维人脸生成模型的先验引导换脸模型、3D数字人的跨模态驱动等。听众们从晏老师的分享中见微知著地领略新技术浪潮对数字人脸、人体重建难题带来的变革性解法。

《大模型浪潮下的数字人》

百度数字人算法负责人赵亚飞以行业应用为切入，详细介绍了百度成熟的数字人产品系列，在金融、媒体、客服等多个行业均有落地。在大模型7大基础能力的支撑下，激发出大量综合应用场景，例如聊天机器人、创作者、助理、数字员工等。

文心一言等大语言模型的出现，不仅为数字人带来了更好的思考能力，也为数字人提供了情感人设能力，使数字人交互表达更丰富。在视频展示中，百度通过人设Prompt让文心一言在生成播报文本的同时同步输出肢体动作标签和情绪状态标签，令数字人讲话时的肢体动作更加灵动，数字人播报时声音和表情动作也更自然、更有亲和力。

参会者提问互动

线上互动环节，由CCF TF智能设备与交互SIG主席、亮亮视野科技CEO吴斐收集参会的业内听众们关心的问题，例如数字人的长期演进目标形态、数据采集生成的3D资产如何做有效的压缩处理、CG生成的数字人与AI制作的数字人驱动上的区别等等，此外还有关于政策对生成式AI商业落地的影响讨论。几位老师最后围绕数字人驱动的几个具体细节和现场听众展开了深入探讨，大家协同解惑，整场活动气氛活跃、干货满满。

关于CCF TF

CCF TF技术前线（Tech Frontier）创立于2017年6月，旨在为工程师提供顶级交流平台，更好地服务企业界计算机专业人士，帮助企业界专业技术人士职业发展，通过搭建平台实现常态化合作和发展，促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、软件质量工程等十二个SIG（Special Interest Group），提供丰富的技术前线内容分享。2023年全年，CCF TF将在线开展20场活动，会员免费参加。

加入CCF

加入CCF会员享受更多超值活动，为自己的技术成长做一次好投资。

点击链接了解更多会员权益：

CCF个人会员权益 CCF公司会员权益

识别或扫码入会

欢迎关注CCFTF及CCF业务总部公众号，精彩陆续开启！

关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地

合作单位

<<< 上一篇多模态大模型技术进展及应用 | TF116 回顾

多模态大模型进展及应用 | 8月10日TF116报名下一篇 >>>

<<< 下一篇多模态大模型进展及应用 | 8月10日TF116报名