TF09 人机对话的产业应用与技术发展-中国计算机学会

张向东

2006年加入歌尔声学，历任北京歌尔技术副总，歌尔投资总监，歌尔研究院院长等职。2011年到2014年，连续创业，曾任北京格林思通创始人和无锡汉和航空总经理。作为一名在智能技术产品研发和管理的老兵，有超过34年的开发经验和二十多年的带兵打仗经验，发表论文十余篇，申请专利过百项。

个人简介：初敏，中科院声学所博士，主要研究方向覆盖语音识别与合成、自然语言处理、机器学习和数据挖掘、大数据处理和计算等，在相关领域发表了近百篇学术论文并取得30多项国内外专利。2000年，初敏博士加入微软，在微软亚洲研究院从事科学研究近10年，创建并领导语音合成研究小组，研制出了第一个中英文双语语音合成系统“木兰”，被誉为微软亚洲研究院前五年的10大技术突破之一；2009年入职阿里巴巴，从事各种大数据应用研发。2014年起，担任阿里iDST智能语音交互方向负责人，使Yun OS、支付宝、手机淘宝、钉钉等产品具备语音交互能力；2017年加入思必驰，担任思必驰VP、思必驰北京研发院院长，负责语音合成、自然语言理解、对话和知识管理等方面的关键技术的研发，以及面向企业智能服务的新产品和新业务的探索。

何晓冬

主题报告二视频：自然语言理解的突破

主题简介：语言是人们沟通的桥梁，也是人类智慧的最高体现。近年来，深度学习的发展给人工智能（AI）带来了深远的推动。而人工智能的下一个重大突破在于理解自然语言。在这场报告中，我会先简略回顾深度学习技术对语音，语言，视觉等方面的驱动，然后将着重从两个方面来探讨其在自然语言处理（NLP）方面的前沿研究，包括如何让AI通过NLP技术理解人类，如理解意图，解析语义，识别情绪，搜索推荐；和如何让AI的结果能被人类理解接受，如文本摘要，内容生成，话题展开，情感对话等。我也会探讨在多模态智能，长文本生成，情感和风格表达，及人机对话这些前沿方向上的最新研究进展。

个人简介：何晓冬，现任京东AI研究院常务副院长，深度学习及语音和语言实验室主任，IEEE Fellow。同时在位于西雅图的华盛顿大学兼任教授、博士生导师。何晓冬博士的研究方向主要聚焦在人工智能领域。其在深度学习、自然语言处理、语音识别、计算机视觉及信息检索等方面均有重要贡献。其工作包括DSSM（深度结构语义模型/深度语义匹配模型）和图像描述机器人Caption Bot等。在加入京东之前，何晓冬博士就职于美国微软雷德蒙德研究院，担任主任研究员（Principal Researcher）及深度学习技术中心（DLTC）负责人。何晓冬博士于1996年获清华大学学士学位，1999年获中国科学院硕士学位，2003年获美国密苏里大学-哥伦比亚分校博士学位。

张向东

主题报告三视频：从盲人摸象到曹冲称象

主题简介：2012年后深度学习的技术突破，改变了人工智能技术和ICT产业的版图。AI+X(everything),机器换人的讨论在众多领域甚至大众媒体上引起热烈讨论乃至恐慌，最终的格局不是AI打败人，而是拥抱和掌握AI工具的人打败排斥和无缘于AI工具的人。很多原来隔行如隔山的AI学科变成在一口锅里搅稀稠，抬头不见低头见，如图像处理/识别/理解和语音/处理识别/理解，仿佛变成了一个行当，但尽管有数学和计算工具的相通性，图像和语音的应用范式天然具有不同属性，图像技术的应用场景琳琅满目，OCR、人脸、各种工业、商业检测，搞定任何一个具体场景就可以形成理想的盈利模式，安身立命；而语音语言的应用本质上是一个大家伙，一头大象，设计一套工具，在语音识别、语言理解和语言产生合成全系列，这个能听会说的工具全面替代人才是这头大象的全貌，尽管近年有重大进展，但离举起这头大象还任重道远。

个人简介：张向东，本科完成于1992年清华大学电子系通信专业，硕士1995年取得于中科院声学所语音识别专业，师从中国第一位在计算机上进行语音识别研究的俞铁城先生。俞先生从1972年起就在小型机上用汇编语言研发语音识别系统。本人在1997年由于工作业绩突出，被破格提升为中科院声学所语音识别研究室副主任，是当时声学所最年轻的青年学术带头人。1999年起成为Intel中国研究院的第四位员工，高级研究员，2006年加入歌尔声学，历任北京歌尔技术副总，歌尔投资总监，歌尔研究院院长等职。2011年到2014年，连续创业，曾任北京格林思通创始人和无锡汉和航空总经理。作为一名在智能技术产品研发和管理的老兵，有超过34年的开发经验和二十多年的带兵打仗经验，发表论文十余篇，申请专利过百项。

吴玺宏

主题报告四：人机对话系统研发中若干问题探究

主题简介：人机对话系统是语音识别和自然语言处理领域中的一个重要的研究和应用热点。随着人机对话系统的发展和产业应用逐步深入，任务驱动型的多轮对话系统得到了产业界的更多关注，也对相关研发提出了更多的挑战。本报告首先针对任务驱动型的多轮对话系统的研究现状和存在的问题进行分析，进而对目前对话系统的研究方法、研究重点提出质疑，并指出未来可能的发展障碍。最后对北京大学在自然语言深度理解和基于概念表示体系的对话系统研究进展给予介绍。

个人简介：吴玺宏，北京大学信息科学技术学院，博士生导师，现任北京大学言语听觉研究中心主任。从事机器感知和智能领域的研究，包括机器听觉、语音识别和语音合成、自然语言理解及智能机器人等工作。现为IEEE高级会员，并担任多个国际、国内学术期刊的编委。

付强

主题报告五：语音前端处理和交互:技术和实践

主题简介：自然语音交互在物联时代会是重要的入口，然而场景的“碎片化”使得终端必须面对各种不利声学因素的挑战。综合运用信号处理、机器学习，以及融合语义信息的成熟前端处理是语音交互“自然化”的保障，成熟完整的端云一体的落地方案更是大规模商业化的动力。

个人简介：付强，阿里巴巴达摩院机器智能技术实验室研究员。曾是中国科学院声学所的研究员，北京先声互联科技有限公司创始人，具有近20余年语音信号处理研究和开发经历，在包括IEEE Trans.等国内外权威学术刊物及会议上发表论文近百篇，发明专利10余项，主持制订1项语音国家标准。在包括国家自然科技基金国家和省部委的几十项科研课题，其中多项成果在相关部委列装。2006-08年分别与通用、大众等合作，在国内率先进行车载语音交互系统的实际路测，2013年与长虹合作完成国内首颗智能语音SoC，2014年带领团队完成国内首台具有远讲语音交互功能的智能电视。付强博士带领的团队在国际语音分离和识别挑战赛CHiME3、4中均取得过前端信号处理环节的较好成绩。2014年获中国科学院杰出科技成就奖，2016年获中国语音产业联盟先进个人。付强博士创办的先声互联公司2017年获得过北京科技型中小企业促进专项资助。

雷欣

出门问问CTO，语音识别专家、前Google Research语音组核心成员。1999年毕业于清华大学获得双学士学位，2006年获得华盛顿大学电子工程系博士学位。毕业后，雷欣曾先后任职于微软、SRI(前斯坦福研究所)、谷歌研究院等国际知名公司。在语音识别领域发表过近30篇学术论文，拥有9项美国专利。回国前，雷欣在谷歌总部担任Staff Research Scientist。在谷歌研究院任职期间，他领导开发了基于深度神经网络的离线语音识别系统，该系统被广泛评为Android JellyBean版本最好的新功能之一，其相应的论文被评为谷歌研究院2013年最有影响力的论文之一。

陶建华

中国科学院自动化研究所研究员，模式识别国家重点实验室副主任、博士生导师。国家杰出青年基金获得者，国家“万人计划”科技创新领军人才。CCF会士、常务理事，中国人工智能学会理事，中国中文信息学会理事，中国图象图形学会人机交互专委会主任。

会议主席

张向东

特邀讲者

初敏

何晓冬

张向东

吴玺宏

付强

特邀嘉宾

雷欣

陶建华