返回首页
您的位置:首页 > 新闻 > CCF新闻 > 专委

预告丨​“CCF语音对话与听觉专业组走进企业系列活动”第十期之“走进腾讯”

阅读量:1376 2020-09-04 收藏本文

主持人




钱彦旻,上海交通大学计算机科学与工程系副教授,思必驰上海研发中心负责人,博士生导师。清华大学博士,英国剑桥大学工程系博士后。现为IEEE高级会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。在本领域的一流国际期刊和会议上发表学术论文130余篇,Google Scholar引用总数超6000余次,3次获得领域内国际权威期刊和会议的最优论文奖,申请50余项中美专利,目前的研究领域包括:语音识别,说话人和语种识别,语音抗噪与分离,语音情感感知,自然语言理解,多媒体信号处理等。



关于讲者




讲者:苏丹

题目:《腾讯AI Lab语音技术中心应用与研究介绍》

简介:苏丹,2010年博士毕业于北京大学信息科学中心。先后在百度语音技术部和滴滴大数据研究院任资深语音算法专家。目前任腾讯 TEG AI Lab语音技术中心副总监,负责语音中心的项目管理和技术研发工作。在各类国际语音会议和刊物中发表论文50篇以上,专利30余篇。计算机学会语音对话与听觉专业组委员,全国信息技术标准化技术委员会用户界面分技术委员会副主任委员,IEEE Signal Processing Society MLSP Technical Committee Member。

摘要:腾讯AI Lab是腾讯的企业级AI实验室,借助腾讯丰富应用场景、大数据、计算力,致力于不断提升AI的认知、决策与创造力;在基础研究上,AI Lab关注四大方向,包括计算机视觉、语音处理,自然语言处理及机器学习;其中,AI Lab语音技术中心在近几年建立起完整语音交互链条,包括远场阵列及多模态相关模块并实现落地,除了支持公司内外较多包括语音转写,智能硬件等不同业务,也积极探索前沿技术,较早布局多模态交互,AI+数字人及AI+数字内容生成等领域。本报告将介绍腾讯AILab语音技术中心的主要应用落地,分享近期在多个方向包括阵列前端,语音识别,语音分离及多模态交互技术方面研究进展,预告下半年即将对业界开放的语音技术工具平台PiKa和一套大规模多模态数据集。




讲者:卢恒

题目:《腾讯AI Lab数字人中的多模态合成技术》

简介:卢恒,2011年博士毕业于中国科学技术大学讯飞语音实验室。2011-13年在爱丁堡大学CSTR任博士后研究员,之后先后在nuance硅谷分部以及阿里巴巴达摩院西雅图分部任高级研究员以及专家。目前在腾讯 TEG AI Lab西雅图分部任资深算法专家,研究方向主要包括多模态语音合成以及说话人转换,歌声的生成和转换等。在各类国际语音会议和刊物中发表论文30篇以上,国内外专利10余篇。曾多次获得 Blizzard Challenge 国际语音合成比赛前三名。并获得ISCA SSW8(Speech Synthesis Workshops, Barcelona)best paper award。

摘要:AI+数字人及AI+数字内容生成是腾讯AI Lab研究的重点方向之一。其中数字人中的多模态合成技术又是数字人人机交互的关键输出模块。近几年来,基于神经网络的声码器模型和基于注意力的端到端的语音合成声学模型大大提升了语音合成的音质以及韵律建模的自然度。本报告主要介绍腾讯AI Lab数字人中的多模态合成技术近两年的研究和技术进展,以及在现有的主流合成框架下做的一些技术改进。主要介绍两方面内容:1)数字人中的多模态合成技术,以及 2)数字人唱歌生成/转换技术。借助腾讯丰富的应用场景,本报告也展示了多模态合成技术在数字人游戏、球赛解说、数字主持人、数字虚拟歌姬等方面的应用。希望通过介绍使大家对腾讯AI Lab多模态合成技术有更多的了解。




讲者:黄申

题目:《低资源语音图像联合识别和实时翻译》

简介:黄申,2011年博士毕业于中国科学院自动化所。先后在杜比实验室和腾讯任语音算法专家。目前在腾讯负责各业务场景下多媒体内容理解和低资源语种算法。带领团队多次获得公司技术突破奖和国际语音,翻译,OCR的NIST,WMT,ICDAR等评测中前三名。在各类国际语音会议和刊物中发表论文30篇以上,专利10余篇。打造的《腾讯民汉翻译》产品,结合语音,OCR和翻译的一体化技术,拥有数百万少数民族用户。成为业界在低资源ai应用的典范产品。

摘要:在多媒体内容理解任务中,利用语音识别技术听懂语言,利用OCR技术看懂语言。本讲座将介绍我们如何将二者进行解码统一,在公司全量业务场景上实现算法互补增益和资源节约共享的解决方案;其次,在外语音视频的内容上,如何把听懂和看懂转化为理解,就需要作为核心“大脑”的机器翻译技术,本讲座也将介绍我们在传统语音和图像级联式翻译和最新端到端翻译上的进展。在低资源语种上,也将介绍我们在受限场景搭建工业级低延时,高性能,实时修改语音翻译系统的解决方案。讲座也将介绍《腾讯民汉翻译》在民族语言上的长期积累,以及在一带一路语言理解场景中的前景。




讲者:商世东

题目:腾讯天籁音频:云视频会议中的新一代实时音频技术》

简介:商世东,腾讯多媒体实验室高级总监,2019年初加入腾讯。有近20年音视频领域相关经验,先后工作过摩托罗拉和杜比实验室,负责创建杜比北京的工程研发团队。加入腾讯前,担任杜比中国和澳大利亚研发团队高级总监。

摘要:疫情之下,云视频会议蓬勃发展,和传统的视频会议场景相比,音频体验面临着新的网络和音质体验的挑战,迫切需要新一代的解决方案。腾讯多媒体实验室的天籁音频,提供了在复杂网络条件和多变的声学场景下的端到端的完整的音频解决方案,保证了腾讯会议的高清,纯净语言通信体验。



附会议日程

640

参会方式

    参会方式    


参会方式一

扫码报名参会

参会方式二

点击下方链接或点击“阅读原文”,观看直播

https://event.baai.ac.cn/activities/84

https://live.bilibili.com/21484823

640