联手信息系统专业委员会:“低资源知识图谱构建”术语发布 | CCF术语快线
本期发布术语热词:低资源知识图谱构建(Low-resource Knowledge Graph Construction)。
低资源知识图谱构建 (Low-resource Knowledge Graph Construction) 作者:张宁豫(浙江大学) 开篇导语 本期发布术语热词:低资源知识图谱构建(Low-resource Knowledge Graph Construction)。知识图谱在国家安全、政务服务、民生经济、生命健康、商务金融等越来越多的应用领域得到广泛的重视。然而,对于大量垂直领域如智能制造、生命健康等,由于行业数据敏感度高、知识专业性强,缺乏构建知识图谱的大量训练语料,因而导致了知识图谱构建的低资源问题,严重制约了知识图谱应用的效率和性能。解决低资源知识图谱构建这一瓶颈性问题,有助于节省知识图谱构建成本,提升知识图谱领域应用效率,弥补资源供需缺口。 InfoBox: 中文名:低资源知识图谱构建 外文名:Low-resource Knowledge Graph Construction 简称:LKGC 学科:知识工程、自然语言处理、人工智能 实质:如何在低资源情境下高效地实现知识图谱构建 背景: 知识图谱在国家安全、政务服务、民生经济、生命健康、商务金融等越来越多的应用领域得到广泛的重视。然而,对于大量垂直领域如智能制造、生命健康等,由于行业数据敏感度高、知识专业性强,缺乏构建知识图谱的大量训练标注语料,因而导致了知识图谱构建的低资源问题,制约了知识图谱应用的效率和性能。解决低资源知识图谱构建这一瓶颈性问题,有助于节省知识图谱构建成本,提升知识图谱领域应用效率,弥补资源供需缺口。低资源知识图谱构建任务旨在开发模型进而更好地应对标注样本分布不均、数据稀疏以及新的未见类别等问题,或者借助内生或外部的辅助资源对原始小样本或者零样本数据进行数据增强或知识增强,从而在低资源情境下充分利用现有的已标注小样本数据构建知识图谱。 研究概况: 在理论方法研究层面: 近年来,低资源知识图谱构建正在成为一个广受关注的研究方向。在这其中主要有两大类研究方向。 第一类研究工作是借助内生或外部的辅助资源对原始少量标注数据进行数据增强或知识增强;其主要包括通过(1) 弱/远程监督:Mike Mintz等人[1]提出基于远程监督的思想自动产生大量弱标注的关系抽取数据,该思想也被广泛应用在各种知识图谱构建任务如实体识别中。由于远程监督的数据存在噪音问题,Yankai Lin等人[2]提出了基于注意力机制的多实例学习关系抽取方法。 Jingbo Shang等人[3]提出了一种基于模糊CRF的远程监督实体识别方法AutoNER。佐治亚理工学院Haomin等人[4]提出了基于两阶段训练的实体识别框架BOND。南加州大学Muhao Chen等人[5]提出基于摘要任务的间接监督以实现高效关系抽取。(2) 半监督: 武汉大学的Wanli Li等人[6]提出了一种基于交互式词汇和语义图的半监督关系抽取方法。(3) 外部数据/知识:Lifu Huang等人[7]提出了一种基于事件本体增强的零样本事件抽取方法。南京大学Wei Hu等人[8]提出了一种基于开放网络数据的知识图谱长尾实体补全方法。清华大学Meihan Tong等人[9]提出利用丰富的开放域事件触发知识来提供额外的语义以提升事件抽取性能。 第二类研究工作是通过更高效模型来从而充分利用现有的少标注数据;其主要包括(1) 元学习:清华大学Xu Han等人[10]提出了基于混合注意力原型网络的少样本关系分类方法。Shirong Shen等人[11] 提出了基于自适应知识增强贝叶斯元学习的少样本事件检测方法。Yi Cai等人[12]提出了基于粒度感知区域原型网络的少样本关系分类方法。(2) 迁移学习:Ningyu Zhang等人[13]提出基于图卷积网络和知识图谱表示学习的方法将知识从数据丰富的头部类别转移到数据匮乏的尾部类别。(3) 提示学习:西湖大学的Yue Zhang教授团队提出了一个基于人工提示模板的低资源实体识别方法[14]。复旦大学Xuanjing Huang教授团队进一步提出了一种无需人工模板提示的低资源实体识别方法[15]。清华大学Zhiyuan Liu教授团队提出基于规则增强的提示学习方法PTR[16]。中科院软件所Yaojie Lu等人[17]提出了一种基于提示学习和预训练的统一信息抽取模型UIE,可应用于多个低资源知识图谱构建场景。新加坡国立大学Chua Tat-Seng教授团队提出基于自适应结构增强的通用信息抽取方法LasUIE[18]。 在实际应用层面: 清华大学Maosong Sun教授团队发布了面向关系抽取的工具包OpenNRE[19],为关系抽取领域的研究和开发人员提供了强大的基线框架。清华大学Juanzi Li教授团队发布了面向事件抽取的工具包OmniEvent[20],以模块化形式支持了大量事件抽取基线方法。中科院自动化所Jun Zhao教授团队发布了一个用于桥接文本和CogNet的信息提取工具包CogIE[21],其支持将原始文本作为输入并使用高性能模型提取实体、关系、事件及框架。复旦大学Xuanjing Huang教授团队开发了自然语言处理模型鲁棒性评测平台TextFlint,其涵盖了多项信息抽取任务。浙江大学Huajun Chen教授团队开发了一个开源知识图谱抽取工具DeepKE[22],其支持常规全监督、低资源少样本和文档级场景的知识抽取。围绕低资源知识图谱构建场景,中文数据集相对较为稀缺,哈工大Bin Qin教授团队开放了面向少样本和零样本的中文实体链接数据集Hansel[23],天津大学Xin Wang教授团队开放了一个用于文言文实体识别与关系抽取等任务的数据集和众包标注系统[24],为广大学者的研究中文低资源知识图谱构建提供了便利。 未来发展: 低资源知识图谱构建未来可以针对如下几个方面开展深度研究: (1) 更真实的设定:目前的研究使用的数据大多为人工构造的学术数据集,应多关注实际工业场景的数据。此外,也需研究如少参数(计算资源高效)训练、高效模型推理、自动新知识发现和获取等更多面向落地应用需求的低资源设定。 (2) 更多中文资源:目前围绕中文低资源知识图谱构建的资源仍然相对较少。为促进中文领域知识图谱构建的发展,需开放面向通用场景和特定领域内的低资源知识抽取数据,研究和开发适配中文特点的低资源实体识别、关系抽取算法。 (3) 神经符号相结合:现阶段的低资源知识图谱构建研究大多停留在使用神经网络的方法,或者将符号的方法应用在神经网络的训练过程中。这种仅以一种方法为主,合并到另一种方法的使用或迁移的方式,即采用“神经”或“符号”的范式,通常可以解决浅层次的知识抽取问题,但在深层次的知识理解、获取、推理时往往表现乏力。要解决以上问题,需要探索融合符号知识的语义理解的理论原理,和通过大数据驱动的神经符号计算新思路。 (4) 鲁棒可信方法:在低资源情境下,知识抽取方法往往面临性能不鲁棒、不可靠等问题。特别地,对于远程监督/弱监督等方法,知识图谱构建方法往往需要对数据进行降噪,以实现稳定的表示学习,因而研究高效、鲁棒、可靠的低资源知识图谱构建方法具有较高实用价值。 (5) 大一统模型:随着预训练大模型的发展,目前诸多领域都涌现出了统一的可解决多个任务的模型。在知识图谱构建领域,UIE[17]作为一个高效的大一统模型迈出了第一步。因此面向复杂多变环境、场景、模态的更加高效的大一统模型值得未来更深度的研究。 参考文献 作者介绍 张宁豫 zhangningyu@zju.edu.cn 主要研究领域:知识图谱、自然语言处理 术语工委及术语平台介绍: 计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。 术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。 新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。 计算机术语审定工作委员会 主任: 刘挺(哈尔滨工业大学) 副主任: 王昊奋(同济大学) 李国良(清华大学) 主任助理: 李一斌(上海海乂知信息科技有限公司) 执行委员: 丁军(上海海乂知信息科技有限公司) 林俊宇(中国科学院信息工程研究所) 兰艳艳(清华大学) 张伟男(哈尔滨工业大学)