联手自然语言处理专业委员会:“多语言抽取式摘要”术语发布 | CCF术语快线
本期发布术语词新:多语言抽取式摘要(Multi-Lingual Extractive Summarization)。
多语言抽取式摘要 (Multi-Lingual Extractive Summarization) 作者:曹亚男、贾瑞鹏(中国科学院信息工程研究所) 张星星(微软亚洲研究院) InfoBox: 中文名:多语言抽取式摘要 外文名:Multi-Lingual Extractive Summarization 学科:自然语言处理 实质:利用多语言模型在不同语言文档上进行摘要抽取 基本简介: 多语言模型具有跨语言信息建模能力,使用当前高资源语言数据训练得到的摘要模型能够在其他低资源语言上进行摘要抽取。利用这种跨语言信息迁移的能力,能够有效缓解低资源语言标注数据不足的问题。 背景与动机: 随着深度学习的广泛应用,越来越多的任务使用神经网络模型来提升性能[1]。但是深度神经网络中含有大量的参数,因此我们需要使用足够的标注数据来训练深度模型。目前大部分任务都是在英文上进行数据标注和模型训练,因此得到的模型也只能在英文上进行测试和推断。对于其他低资源语言,由于缺少足够的标注数据,所以很难针对低资源语言进行模型训练和优化。 在实践中,很多任务都是借助于机器翻译来辅助完成多语言的信息迁移,在早期的多语言摘要抽取中也多是采用这种方式,即将低资源语言先翻译成英语,然后进行摘要抽取,最后再将摘要翻译回原始语言,但这种方法存在很多缺陷。一方面是误差累积问题,由于机器翻译存在固有的错误信息,在后续摘要抽取中可能会基于这些错误信息进一步处理,导致误差的累积和放大;另一方面,这种方法还会进一步扩大语义和语法偏差。 近些年来,多语言预训练模型(例如:mBERT[2],XLM[3],XLMR[4] 等)已经在很多自然语言处理领域中得到广泛的应用。对于抽取式摘要任务,研究者们开始采用基于多语言预训练模型的方式来进行低资源语言的摘要抽取。另外,相关研究者们提出了很多高质量的多语言摘要数据集(例如:MLSUM[5] 和 MLGSum[6]),这也极大地促进了多语言摘要领域的发展。 研究概况: 多语言抽取式摘要根据低资源语言训练语料数量可以分为:少样本(few-shot)多语言抽取式摘要和零样本(zero-shot)多语言抽取式摘要;其中,零样本的训练过程中只需要英文的标注数据,而不需要目标语言的标注数据,因此这种方式具有更高的研究价值和意义。对于零样本抽取式摘要,其模型的不同语言信息迁移能力通过以下三个部分来实现:多语言预训练模型,输入文档信息增强和标签信息增强。 多语言预训练任务是实现摘要模型抽取能力从英语向其他低资源语言迁移的重要部分,因此大多数的任务都是基于多语言预训练模型来进行优化。 输入文档信息增强通常包含基于双语词典的部分词替换和基于机器翻译的部分句子替换[7,8],这种借助辅助信息的信息增强方式能够显著提升多语言模型的跨语言信息迁移能力。 标签信息增强通常是通过不同策略来构造不同的标签,并使用这些标签的加权平均来作为最终的训练标签[8],对于抽取式摘要任务,其标签所带来的信息目前依然有很大的提升空间。 参考文献 作者介绍
术语工委及术语平台介绍:
计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。
术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。
新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。
计算机术语审定工作委员会 主任: 刘挺(哈尔滨工业大学) 副主任: 王昊奋(同济大学) 李国良(清华大学) 主任助理: 李一斌(上海海乂知信息科技有限公司) 执行委员: 丁军(上海海乂知信息科技有限公司) 林俊宇(中国科学院信息工程研究所) 兰艳艳(清华大学) 张伟男(哈尔滨工业大学)