返回首页
您的位置:首页 > 新闻 > CCF新闻 > CNCC

NLP中知识和数据怎么选?当然是全都要!——第四届中文信息技术发展战略研讨会丨CNCC 技术论坛

阅读量:419 2020-10-19 收藏本文

本论坛将于CNCC2020期间,10月23日下午16:00-18:00,在北京新世纪日航饭店3层南京厅举行。本论坛将邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型、表示学习等方面的最新研发进展。欢迎光临!


自然语言处理技术是人工智能技术的最重要分支之一,被誉为“人工智能皇冠上的明珠”。近年来,各种来源的标注数据、未标注数据、自然标注数据为基于机器学习、深度学习的自然语言处理提供了海量的训练语料,为自然语言处理算法性能的巨大提升提供了数据保障;知识图谱、百科知识、问答知识等知识资源为自然语言处理技术的实用化进一步插上了翅膀。本次论坛将以融合知识和数据的自然语言处理为主题,邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型、表示学习等方面的最新研发进展。


讲者简介


浙江大学

陈华钧

报告一题目: 知识图谱与低资源学习


报告摘要: 低资源是很多真实业务问题所面临的迫切挑战,本报告尝试探讨知识图谱与低资源问题之间的关系。一方面,讨论低资源条件下知识图谱的构建与推理问题,分别介绍了对抗关系学习(Adversarial Relational Learning),元关系学习(Meta Relational Learning)以及融合图神经网络等不同方法在长尾关系抽取、少样本关系预测等方面的应用。另外一方面,进一步探讨知识图谱与零样本学习(Zero-shot Learning)之间的关系,提出利用知识图谱建模标签语义空间可以更加有效实现零样本条件下的知识迁移,同时增强零样本学习的可解释性。


报告人简介: 陈华钧博士,浙江大学计算机科学与技术学院教授/博导,主要研究方向为知识图谱、自然语言处理、大数据系统、智能生物医药等。浙大阿里知识引擎联合实验室主任、浙江省大数据智能计算重点实验室副主任、爱思唯尔Elsevier Big Data Research 主编、CCF杰出演讲者、中国人工智能学会知识工程与分布智能专业委员会副主任、中国中文信息学会语言与知识计算专业委员会副主任、中文开放知识图谱OpenKG牵头发起人。在WWW/WSDM/ISWC, IJCAI/AAAI/KR, ACL/EMNLP/NAACL, VLDB/ICDE,  IEEE Computational Intelligence, IEEE Intelligent System, TKDE, AI in Medicine 等国际顶级会议或期刊上发表多篇论文,并曾获国际语义网会议ISWC2006最佳论文奖(第一作者)。作为负责人主持国家自然科学基金重点项目、国家重点研发计划项目、国家重大科技专项项目及企业合作项目等二十余项。曾获得教育部技术发明一等奖、国家科技进步二等奖、阿里巴巴优秀学术合作奖、博文视点图书奖等奖励。

清华大学

刘知远 

报告二题目: 开放域知识获取技术及其挑战


报告摘要: 从海量文本中自动获取结构化知识,是构建和扩展大规模知识图谱,实现知识指导的自然语言处理的关键技术。现有实体关系抽取技术,主要从单句中挖掘实体关系的语义模式,面临知识覆盖度低等问题。如何面向开放领域的复杂语境进行建模,是知识获取面临的关键挑战之一。本报告将主要介绍在文档级关系抽取、少次学习关系抽取、新类型关系识别等方面的最新进展,并展望开放域关系抽取的未来发展方向。


报告人简介: 刘知远博士,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文80余篇,Google Scholar统计引用超过1万次。承担多项国家自然科学基金。曾获中文信息学会青年创新奖,入选《麻省理工科技评论》“35岁以下科技创新35人”中国区榜单(MIT TR-35 China)、智源青年科学家、中国科协青年人才托举工程。

微软亚洲研究院

段楠

报告三题目: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training


报告摘要:In this talk, we will first review the most representative pre-trained models and then present a Multitask Multilingual Multimodal Pre-trained model (M^3P) that combines multilingual-monomodal pre-training and monolingual-multimodal pre-training into a unified framework via multitask learning. This model learns universal representations that can map objects occurred in different modalities or expressed in different languages to vectors in a common semantic space. To verify the generalization capability of M3P, we fine-tune the pre-trained model for different types of downstream tasks: multilingual image-text retrieval, multilingual image captioning, multimodal machine translation, multilingual natural language inference and multilingual text generation. Evaluation shows that M3P can (i) achieve comparable results on multilingual tasks and English multimodal tasks, compared to the state-of-the-art models pre-trained for these two types of tasks separately, and (ii) obtain new state-of-the-art results on non-English multimodal tasks in the zero-shot or few-shot setting. In the last part, we will present our current progress and future plan on learning better universal representations based on different types of knowledge.


报告人简介: 段楠博士,微软亚洲研究院高级研究员/研究经理,从事包括自动问答、语义分析、多语言多模态预训练、机器推理等在内的自然语言处理基础研究,多项成果用于必应搜索、必应广告、微软新闻、语音助手等人工智能产品。CCF A/B类会议发表学术论文80余篇,著有《智能问答》。


论坛:融合知识和数据的自然语言处理


嘉宾:陈华钧 浙江大学,刘知远 清华大学,段楠 微软亚洲研究院,赵军 中科院自动化所,邱锡鹏 复旦大学


论坛主题:3位讲者和2位论坛嘉宾将同台就融合知识和数据的自然语言处理技术的发展和应用场景进行进一步研讨。专家与听众互动,展现更多角度的观点,启发与会者对知识和数据在自然语言处理中如何作用和融合的更深认识。


嘉宾简介:

赵军,中国科学院自动化研究所模式识别国家重点实验室研究员,博士生导师;中国科学院大学人工智能学院岗位教授。研究领域为自然语言处理、知识图谱等。发表论文80余篇,谷歌学术引用9千余次。曾获第25届国际计算语言学大会COLING 2014最佳论文奖,曾获2018年度中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。在中国科学院大学主讲《知识图谱导论》等课程,主持编著《知识图谱》一书入选国家十三五重点图书出版规划。


嘉宾简介:

邱锡鹏博士,复旦大学计算机科学技术学院教授,博士生导师,于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究,发表CCF-A类论文30余篇,获ACL2017杰出论文奖,CCL 2019最佳论文奖,领导开发了被广泛使用的开源自然语言处理框架FudanNLP和FastNLP,获中国中文信息学会“钱伟长中文信息处理科学技术奖青年创新一等奖”,中国科协人才托举工程,Aminer “2020年度AI 2000人工智能全球最具影响力提名学者”。


CCF推荐

【精品文章】



CCF颁奖典礼限量门票开售