返回首页

联手自然语言处理专业委员会:“抽取式摘要”术语发布 | CCF术语快线

阅读量:79 2022-10-14 收藏本文

本期发布术语热词:抽取式摘要(Extractive Summarization)。


抽取式摘要(Extractive Summarization)

作者:高莘,山东大学


InfoBox:

中文名:抽取式摘要

外文名:Extractive Summarization

简称:ES

学科:自然语言处理

实质:利用计算机自动地从一篇或若干篇文档中抽取其中的内容,形成一段能准确反映原文中心内容的简洁连贯的短文。


基本简介:

抽取式摘要(extractive summarization)技术,又被称为抽取式自动文摘,它从一篇或若干篇文档中抽取其中的内容形成一段能准确反映原文中心内容的简洁连贯的短文,为用户提供简洁而不丢失原意的信息,可以有效地降低用户的信息负担、提高用户的信息获取速度,将用户从繁琐、冗余的信息中解脱出来,节省了大量的人力物力,在信息检索、舆情分析等领域具有较高的研究价值。


研究概况:

近年来,抽取式文本摘要正在成为一个飞速发展的研究方向。在这其中主要有两大类研究方向。第一类研究工作是基于纯文本的数据,研究通用的文本摘要方法;第二类研究工作是基于特定的摘要场景,研究在这些现实应用场景中如何提升摘要系统的性能。


在通用的抽取式文本摘要算法中,传统方法如Textrank[1]等基于图模型的抽取式文本摘要方法,在泛化性和易用性方面均取得了较好的效果。随着深度学习的发展,越来越多的研究人员开始使用基于深度神经网络的方法来进行抽取式文本摘要。较早的使用深度神经网络的抽取式文本摘要算法使用基于循环神经网络的模型来进行摘要抽取[2],或使用记忆网络来帮助模型更好的理解文章内容[13]。随着Transformer在各个任务中取得了更好的性能,研究人员探索了在抽取式文本摘要任务上使用Transformer可以提高抽取的摘要质量[3]。由于之前的抽取式文本摘要模型的训练通常采用最大似然估计的方法,但是在摘要评测时使用ROUGE分数等方法,因此在训练和测试中间存在较大的差距。因此研究人员提出使用强化学习的方法来直接优化模型输出摘要的ROUGE分数[4]。随着大规模预训练语言模型的发展,研究人员开始探索如何借助大规模语言模型的深度语义表示能力进一步增强抽取式文本摘要算法的性能[5]。截止到目前,基于大规模预训练语言模型的方法在多个抽取式文本摘要的标准数据集上均取得了较好的性能指标。


在面向特定应用场景的摘要算法研究中,有一些任务受到了广泛的关注,例如,多模态摘要[7,8]、学术论文摘要[6]、电商评论摘要[9]、基于用户评论的摘要[10,11]等。针对这些实际应用场景的数据特点,研究人员设计了不同的模型来充分利用这些信息,从而得到更好的摘要。


在摘要系统的评测方法方面,目前较为普遍的是使用ROUGE分数进行自动化评测。为了实现更加精准的语义级别的摘要质量评估,也有一些研究人员使用基于模型的BertScore[12]、人工评测等评测方法来评估摘要的质量。


参考文献

1.Mihalcea, Rada and Paul Tarau. “TextRank: Bringing Order into Text.” EMNLP (2004).

2.Nallapati, Ramesh et al. “SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents.” ArXiv abs/1611.04230 (2017): n. pag.

3.Pilault, Jonathan et al. “On Extractive and Abstractive Neural Document Summarization with Transformer Language Models.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (2020): 9308–9319.

4.Narayan, Shashi et al. “Ranking Sentences for Extractive Summarization with Reinforcement Learning.” NAACL (2018).

5.Liu, Yang. “Fine-tune BERT for Extractive Summarization.” ArXiv abs/1903.10318 (2019): n. pag.

6.Chen, Xiuying et al. “Target-aware Abstractive Related Work Generation with Contrastive Learning.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (2022): n. pag.

7.Li, Haoran et al. “Read, Watch, Listen, and Summarize: Multi-Modal Summarization for Asynchronous Text, Image, Audio and Video.” IEEE Transactions on Knowledge and Data Engineering 31 (2019): 996-1009.

8.Mingzhe, Li et al. “VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles.” EMNLP (2020).

9.Chan, Hou Pong et al. “A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss.” Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (2020): n. pag.

10.Gao, Shen et al. “Abstractive Text Summarization by Incorporating Reader Comments.” ArXiv abs/1812.05407 (2019): n. pag.

11.Li, Piji et al. “Reader-Aware Multi-Document Summarization: An Enhanced Model and The First Dataset.” NFiS@EMNLP (2017).

12.Zhang, Tianyi et al. “BERTScore: Evaluating Text Generation with BERT.” ArXiv abs/1904.09675 (2020): n. pag.

13.Chen, Xiuying et al. “Iterative Document Representation Learning Towards Summarization with Polishing.” EMNLP (2018).


作者介绍


微信截图_20230410120228


术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。


术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。


新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信图片_20230410125847



计算机术语审定工作委员会

主任:

刘挺(哈尔滨工业大学)

副主任:

王昊奋(同济大学)

李国良(清华大学)

主任助理:

李一斌(上海海乂知信息科技有限公司)

执行委员:

丁军(上海海乂知信息科技有限公司)

林俊宇(中国科学院信息工程研究所)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

640 (1)