语言智能是人工智能皇冠上的明珠,而自然语言处理是体现语言智能最重要的技术,更是人工智能的诗与远方。近几年随着深度学习的发展,自然语言处理的研究和应用取得了诸多突破,但同时也面临着模型处理效率、可理解与可解释、多模态融合等方面的挑战。CCF YOCSEF上海于2020年4月11日成功举办了主题为“科自然语言处理NLP技术前沿进展”的线上论坛活动,邀请了来自清华、哈工大、复旦和同济的NLP领域知名青年学者,与大家分享他们近期在NLP中的自注意力模型、知识指导的NLP、知识驱动的主动式开放域对话系统、多模态深度NLP、知识推理等方面的最新工作,并围绕预训练、常识推理、多模态、语言生成、语言偏见与伦理等热点问题展开深入探讨。
此次线上论坛由CCF YOCSEF上海主办,上海市数据科学重点实验室、PlantData海乂知信息科技协办。论坛执行主席为CCF YOCSEF上海AC委员卢暾, CCF YOCSEF上海候任学术秘书徐佳,微论坛执行主席为CCF YOCSEF上海通讯委员段圣宇。论坛包括嘉宾引导发言和互动思辨两个环节,超600名观众扫码报名,同时在线观看人数达800人。微论坛面向CCF YOCSEF上海微信群近500名成员进行文字直播,直播链接同步转发CCF YOCSEF全国AC群,并被YOCSEF多个兄弟论坛转发。线上会议观众通过“举手”发言和发表文字的方式积极互动思辨,气氛热烈,直到论坛结束后,观众仍在报名微信群中延展讨论。
论坛邀请了来自高校的5位嘉宾,分别是复旦大学计算机科学技术学院邱锡鹏、清华大学计算机系刘知远、哈尔滨工业大学计算机学院车万翔、复旦大学计算机科学技术学院熊贇、同济大学王昊奋。
邱锡鹏《自然语言处理中的自注意力模型》
主要介绍了团队在自注意力模型方面的一些工作,主要涵盖两部分内容:1)Transformer及其改进模型:通过分析Transformer的基本原理和优缺点,提出一些改进模型Star-Transformer、Multi-Scale Transformer、BP-Transformer等。2)Transformer模型的应用:将Transformer模型应用在文本分类、实体名识别等自然语言任务上,并通过针对性的改进来进一步提高性能。最后,对Transformer模型及其未来发展趋势进行展望。
刘知远《知识指导的自然语言处理》
作为典型的数据驱动方法,深度学习面临可解释性不强等难题,未来的趋势是通过Data-Driven+Knowledge-Guided去解决。而如何去Knowledge-Guided NLP,需要Deep Learning+Knowledge Graph。分享了团队将义原知识应用在Word Embedding、 Language Modeling、SC Modeling、Adversarial Attack In NLP等的相关研究成果。最后,他提出利用义原作为指导的文本对抗攻击是未来的发展趋势,即基于义原取替换词。
车万翔《知识驱动的主动式开放域对话系统》
目前开放域对话领域存在无意义的安全回答及多轮的连贯性问题。为解决以上问题,我们需要引入知识,运用知识图谱。目前知识增强的回复生成技术存在缺乏可解释性、难以管理有效对话等问题,因此提出了知识驱动的主动内容规划。同时,为解决以上技术过于依赖知识图谱,因此粒度较粗,从而引入了对话图的思想。考虑到对话图需要垂类领域大量的资源,提出了基于搜索图的对话策略学习框架。
熊贇《多模态深度学习方法研究与应用》
报告首先概述了从单一模态到多模态课题研究的发展历程,接着介绍了团队在多模态表示学习方面研究成果:复杂行为数据表示。熊贇通过实际生活中,微信对话文字结合图片表情以推测问答的例子,引出了多模态对于实际任务研究的重要性。接着,熊贇介绍了团队在多模态实际应用中的研究成果:个性化评论生成、代码注释生成以及医疗影像报告生成。同时,熊贇指出了多模态学习方法面临的难点,例如:图像文本生成目前存在的问题,即缺乏客观的评判标准。最后,熊贇总结到:数据的发展促进了数据应用价值的发现,而多模态学习方法即为数据应用价值的发现提供了新手段,多模态学习方法在众多实际应用中的效力。
王昊奋《知识推理的过去、现在和未来:浅析神经与符号的对立与融合》
介绍了知识推理的主要范式和面临的挑战、分享各种技术进展,并分享了PlantData对于知识推理在工业上的落地应用,包括:企业投资风险研究、信贷风控、智能投顾、挖掘政府人员的人际关系、农作物价格预测和电力设备故障诊断。
在思辩环节,执行主席卢暾和徐佳围绕“自然语言处理当前是牙牙学语 还是妙语连珠?”提出三个思辨子主题,嘉宾、在线观众以及微论坛观众一起展开思辨分享。在线观众积极“举手”发表观点或对嘉宾提问,气氛十分热烈。
1) 预训练真的是领域迁移和小样本学习的灵丹妙药吗?
邱锡鹏:采用丰富的预训练系统可以是非常有效的技术,因为在实际情况下样本量有限,同时预训练与知识的引入并不互斥,所以目前来说预训练是解决NLP问题的很好的手段。但对于强人工智能来说或许会有不同的回答。
刘知远:预训练可以解决一定的问题,是一个阶段性的胜利,但并不能说是灵丹妙药。从实验结果看,预训练并不能解决大跨度领域的迁移,特别是在噪音较大、领域差异明显的情况下。因此,对于推理的知识,预训练可能需要与知识指导相结合。
熊贇:在某些场景下,预训练存在一些问题,例如医学影像方面,其特点是数据集较小,在验证结果时,由于数据样本的缺失,难以得到体现。在数据集的公开、收集上还需要更多的人参与进来,从数据集方面提高预训练的能力。
王昊奋:工业界认为很多模型是在Model层面开发,而不是从Data或是知识的层面,在可调整能力或是可解释性上存在问题。虽然预训练一直在被使用,但是在数据分布发生变化或任务发生变化时,预训练产生的结果是否能从一个任务迁移至另外一个任务,仍然有待商榷。
2) 单一模态的自然语言处理是否达到天花板了?多模态和知识引导是否是突破点呢?
对于这个问题,几位专家均表示单一模态的NLP还远没有达到天花板。
刘知远:多模态学习是很有意义的研究,但模态与自然语言处理并没有过多的联系,无论是哪个模态,都可以进行很好的知识推理。
车万翔:目前单模态的自然语言处理仅仅应用于文本信息,但对于情绪信息的分析远远不够,如果有语音、视觉、重音等信息的加入,才能更好的让技术得到发展。
熊贇:取决于具体的场景,目前单一模态在某些领域仍然需要发展,但对于其他领域,问题在于缺少了某些关键信息。
观众提问:能谈谈将自然语言转化成符号逻辑时,经常缺少符号逻辑的训练数据,解决这些问题有哪些弱监督的方法呢?
王昊奋:可以从知识问答的角度出发,从问题联系到具体的数据库、知识库,以问答对来模拟问题和逻辑表达式的关系,虽然存在缺失,但目前可以说是较为成熟的技术手段。
观众提问:注意力函数的设计有哪些需要注意的?
邱锡鹏:注意力目前更多的是采用多项分布,就现在来说可以将多项分布改为更为广义的结构化注意力。
3) 如何消除由于标注数据中的偏差给语言训练模型带来的偏见或歧视?
邱锡鹏:目前这方面已经有很多的工作了,更多的是分析模型里存在的偏差,解决仍然存在难度,可以从脚本设计出发,对特定词汇、信息进行过滤,在预处理是在一定程度的消除偏见,但可以达到的效果仍有待商榷。
车万翔:这是统计模型固有的问题,统计模型来自数据,数据存在偏见,因此必然存在。同时,这些偏见或偏差也会一定程度上影响模型的鲁棒性。对于对抗的样本,可能可以做到减轻,但消除难度比较大。
熊贇:重点在于保证数据质量,需要首先判断数据的真实性,但是数据质量的处理更多的是来自于人工的,所以处理效率不高。
最后5位嘉宾用一句话总结了各自在NLP的理解。
邱锡鹏:NLP在强人工智能领域可能存在不足,但在弱人工智能领域仍能有很多的发挥,重点在于找到具体的场景。
刘知远:预训练加深度学习是目前的一个趋势,但从长远看来,NLP仍需要知识的引入。
车万翔:任重而道远。
熊贇:虽挑战众多,但可期可待。
王昊奋:知识和推理是走向强人工智能最艰难的部分,但我们仍需坚持。
作为CCF YOCSEF 线上论坛系列之一,CCF YOCSEF上海在线颁发了环保的电子感谢牌,表达对嘉宾由衷的感谢,并对每张感谢牌赋予了唯一的标号。
扫码关注“YOCSEF上海”微信公众号,论坛嘉宾ppt和视频回顾将于近期公开,敬请期待。