让“互联”更智能 ,你说,它都懂
随着智能设备、5G通讯、机器人等技术的不断发展,互联网时代已从PC互联、移动手机互联逐步演变为万物智联的物联网时代。这个联结不仅仅是物理层面上的互联,更是以语言作为的沟通手段,实现人机之间智能的信息互联。6月27日,在由思必驰科技股份有限公司承办的第六期CCF CTO Club苏州寒山论坛上,产业和学术大咖围绕语音技术的应用和发展进行了深入交流。
对话智能
“早期以对话作为例子来验证机器是否具有智能。对话的智能,就是信息自由沟通的未来。落地到产业应用,对话系统要实现识别、理解、决策、表述、合成等完整的一个闭环。”思必驰联合创始人、首席科学家俞凯讲道。
思必驰联合创始人、首席科学家,CCF语音对话与听觉专委副主任,俞凯
人机矛盾
早期的通用技术往往被期望在多个语音场景中适用,但遇到高度个性化的系统级应用需求时,通用技术不一定好用。
一套方言语音识别系统识别率在90%以上,从理论和学术角度看貌似还不错,而在产业中面临目标是截然不同的。
新的科学研究
俞凯表示,让机器在不确定性的情况下推理和理解,在不同场景下识别修复错误,理解用户意图,将是未来人工智能对话平台的发展方向。
算法:附加其他类型的算法,如自适应算法,小数据快速自动学习。
资源:预定制模型,满足不同场景需求。
工程:整体架构上进行相应支撑,在成百上千的模型中快速切换。
语音归档
现实生活中,通用技术只会把一段声音翻译成文字,当场景中有多个人员在说话,偶尔还会有语音重叠,系统并不会记录说话人信息和对语音区分,只是把一大段声音信息翻译成文字。而技术上要解决的核心问题是将说话人和声音信息对应起来,对混叠声音进行拆分,最终形成说话人的日志。昆山杜克大学电子与计算机工程副教授李明在“基于深度学习的高鲁棒性说话人日志”演讲中谈到。
昆山杜克大学电子与计算机工程副教授、CCF语音对话与听觉专委委员,李明
李明介绍了近年来逐渐成为研究热点的说话人日志这一任务背景,结合近期研究成果从模块化方法和端到端方法两个层面来介绍说话人日志技术在活动检测、语音切片、提取特征、切片聚类等方面的内容。
对声音的理解
声学信号处理及对声学信号内容的理解是近年来新兴的热门研究领域之一。西交利物浦大学智能科学系助理教授李圣辰带来了“DCASE数据挑战赛任务回顾与发展展望”,通过对声音场景分类与事件检测数据挑战赛(DCASE)的介绍及相关领域的研究,分析声音检测与理解方面的痛点,例如在不同的声音场景中,设备并不能很好的进行识别分类。同时在对特征例外点的检测,数据集标签的多少将限制算法实用性等内容。结合问题,李圣辰对目前声音检测、识别、描述、回应方面的算法技术进行了介绍与分析,并对前沿发展趋势进行了预测。
西交利物浦大学智能科学系助理教授、CCF语音对话与听觉专委委员,李圣辰
活动最后,论坛成员对报告内容进行了提问和讨论。本次活动得到了CCF语音对话与听觉专委会、CCF苏州会员创新服务中心、苏州工业园区国际科技园、苏州工业园区企业发展服务中心的支持。
关于思必驰科技股份有限公司:
思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰已经申请知识产权近1300余项,其中发明专利700余项,并拥有中英文综合语音技术。思必驰语音识别、声纹识别、口语对话系统等技术曾经多次在美国国家标准局、国际研究机构评测中夺得冠军。
思必驰被列入国家发改委“互联网+”重大工程和人工智能创新发展工程、工信部人工智能与实体经济深度融合创新项目、江苏省工业和信息产业转型升级项目、江苏省科技计划项目等,并累计参与30余项国家标准、行业标准制定。凭借雄厚的AI技术实力与广泛的产品业务落地,2020年,思必驰完成pre-IPO轮融资;2021年3月,思必驰完成股份制改造,正式更名为:思必驰科技股份有限公司。
思必驰坚持产学研一体化的研发模式,与上海交通大学成立专属的联合研究实验室,并与苏州市人民政府联合成立“思必驰-上海交大苏州人工智能研究院”。2018年底,思必驰国家博士后工作站分站正式立项,进一步巩固了产学研一体化模式。