知识图谱之检索增强技术 | 5月7日 TF131报名

阅读量:72 2024-04-25 收藏本文

本期技术前线邀请到了来自360人工智能研究院、腾讯AI Lab、阿里巴巴通义实验室、网易有道QAnything等头部企业中检索增强技术研究负责人，一起深入探讨检索增强技术的前沿发展以及知识图谱与检索增强技术融合的机遇与挑战，并进一步了解技术突破点和相应解决方案与案例。欢迎报名，并参与讨论。

为工程师提供顶级交流平台

CCF TF第131期

时间 2024年5月7日 19:00-21:30

（线上会议）

主题知识图谱之检索增强技术

欢迎扫码了解详情和报名在线参会

报名链接：https://ccf.org.cn/TF131

知识检索增强技术(Retrieval-Augmented Generation，RAG)通过文本相似度计算引入与提问相关的文档内容，显著提高了大语言模型在知识密集型任务的上的表现。然而朴素的RAG方法，仍面临诸多局限性。例如：1）复杂推理弱，仅依靠相似度检索难以应对需要多跳和复杂推理的任务。2）孤立的文本表示，相似度只能确定相关性，无法捕获文本之间的具体关系以及为什么相关。3）容易受到噪声影响，检索到错误、噪声的信息后可能会导致错误回答。4）缺少多模态数据的融合，没有充分利用文档中的图像、表格等数据。

知识图谱(Knowledge Graph, KG)作为经过深度处理和校验的结构化知识库，可以提供及时、可靠的信息，以及清晰的逻辑推理路径。KG与RAG的结合具有巨大的潜力，有望最大限度地减少现有RAG的局限性，提供更准确、上下文感知和细致入微的响应。

在此背景下，本期会议有幸邀请到多位知名企业RAG技术负责人，共同围绕当前RAG技术发展趋势、RAG研究范式，优化RAG的关键技术等话题，分享RAG的前沿进展与企业落地实践。本次活动旨在搭建一个高水平的多元交流平台，从不同层面为RAG的研究与应用开发者提供借鉴与参考。

二、会议安排

TF131：知识图谱之检索增强技术主持人：王昊奋 CCF TF知识图谱SIG主席,同济大学百人计划特聘研究员
时间	主题	讲者
19:00-19:05	活动介绍
19:05-19:35	RAG落地中的文档理解及知识库建设实践	刘焕勇 360人工智能研究院资深算法专家
19:35-20:05	检索增强生成？检索即生成！	蔡登腾讯AI Lab 高级研究员
20:05-20:35	GTE-Embedding/Ranking：统一文本表示与排序模型	张延钊阿里巴巴通义实验室算法工程师
20:35-21:05	有道QAnything的落地经验分享	林辉网易有道技术总监
21:05-21:20	参会者提问互动
21:20-21:30	活动总结

三、所属SIG

CCF TF 知识图谱SIG

四、特邀讲者

刘焕勇

360人工智能研究院资深算法专家

主题：RAG落地中的文档理解及知识库建设实践

主题简介：

RAG检索增强大模型问答，已经成为大模型进行领域落地的重要范式，其在取得广泛应用的同时，也面临着诸多挑战。而作为检索的对象，如何对复杂多样的领域文档进行精细化处理十分必要，本报告将重点介绍我团队在文档理解及知识库方面的一些探索实践，包括基于端到端的OCR-Free方案以及Pipeline式的集成方案，并引入知识图谱结构进行文档组织的一些心得，供大家一起参考。

个人简介：

刘焕勇，360人工智能研究院知识图谱及文档跨模态方向算法负责人，曾就职于中国科学院软件研究所。主要研究方向为文档理解、知识增强。近年来参与360文档大模型、360智脑大模型及360百科图谱、商业化广告图谱、右侧推荐等落地项目研发，累计申请发明专利十余项、论文数篇，开源项目70余个，在OGB-Wikikg2、CCKS多模态实体对齐等多个评测任务中获得多项冠亚军，创立“老刘说NLP”技术社区，具有广泛影响力。

蔡登

腾讯AI Lab高级研究员

主题：检索增强生成？检索即生成！

主题简介：

检索增强生成(RAG)和语言模型(LLM)的结合持续受到学届和产业界的关注。本报告将介绍一种直接用检索取代生成的语言模型架构(CoG)。与传统语言模型相同，CoG也是从左往右自回归式地生成文本。不同的是，传统语言模型反复预测从词表中挑选下一个词(next-token prediction)；CoG则是每次从一个显式的外部记忆库中检索下一个片段(next phrase retrieval)。我们的分析说明，相对于传统语言模型，CoG在准确性、可解释性、可扩展性、效率等方面均具有优势；我们的原型实验也验证了CoG的有效性。同时，CoG作为一种新型语言模型架构值得进一步探索。

个人简介：

蔡登，腾讯AI Lab高级研究员。入选中国科协“青年人才托举工程”。2022年于香港中文大学获得博士学位。研究方向为自然语言处理和机器学习，特别是深度学习模型与外部显式记忆的融合、语义的符号表示与推理。在ACL、EMNLP、NAACL、NeurIPS、ICLR、AAAI等国际顶级会议或期刊发表论文30余篇。谷歌学术被引2000余次。曾获ACL杰出论文奖（第一作者）。曾在IJCAI、SIGIR等国际顶级会议开设前沿讲习班（tutorial）。

张延钊

阿里巴巴通义实验室算法工程师

主题：GTE-Embedding/Ranking：统一文本表示与排序模型

主题简介：

知识检索增强技术（RAG）是解决大模型幻觉，实时性等问题问题的有效手段。其中，文本表示模型与深度排序模型是提高检索系统的准确性与泛化性的重要模块。本次报告将重点分享阿里巴巴开源的通用文本表示向量与排序GTE系列模型的探索、思路与经验。讨论大模型对于文本表示与排序模型的影响，并探讨表示模型与排序模型现存的问题与未来的发展方向。

个人简介：

张延钊，阿里里巴巴通义实验室机器智能实验室算法工程师，2022年北京航空航天大学硕士毕业后加入阿里巴巴，一直从事自然语言处理相关的研究和工业落地，目前研究方向主要包括大模型检索增强技术，文本表示，语义匹配等。在MSMarco、TREC、MTEB等榜单多次获取第一名。

林辉

网易有道技术总监

主题：有道QAnything的落地经验分享

主题简介：

2024年初有道开源了自研的RAG引擎QAnything，吸引较多关注，截止至今已经有近万stars，其中的embedding/rerank的模型在跨语种环境下表现业界sota，在huggingface上已经累计有数百万次下载。QAnything在开源之前，已经在一系列项目中先后落地应用，包括有道翻译的文档问答、有道速读、内部销售辅助、升学咨询、小P老师等场景。在开源后，我们又做了一些2B的项目。在这次活动中，我会介绍QAnything的部分落地情况，并分享我们对RAG的认知以及如何提高准确率方面的一些经验。

个人简介：

2011年毕业于中科院计算所后加入网易有道至今，是有道AI Lab、有道智云部门的创始成员之一。负责过有道的计算广告推荐算法、有道图像识别/语音识别/语音合成、图像翻译、文档解析与文档翻译、有道数字人、QAnything等项目研发。目前在负责有道智云部门，做有道AI解决方案的2B业务，以及LLM的产品化和商业化探索。在2023年发起了有道QAnything RAG引擎的研发并主导了一系列的落地工作。

五、SIG主席

王昊奋

CCF TF知识图谱SIG主席，同济大学特聘研究员

个人简介：同济大学特聘研究员，博士生导师。全球最大的中文开放知识图谱联盟OpenKG发起人之一。负责参与多项国家级AI相关项目，发表100余篇AI领域高水平论文，被引用次数达到3100余次，H-index达到28。构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”；所构建的智能客服机器人已累计服务用户超过10亿人次。目前，担任中国计算机学会术语工委副主任，自然语言处理专委秘书长，TF SIG KG主席，上海分部秘书长，中国中文信息学会理事，语言与知识计算专委会副秘书长，上海市计算机学会自然语言处理专委会副主任，上海交通大学AI校友会秘书长等社会职位。

六、活动预告

期数	日期	所属SIG	主题	形式
TF132	5月16日	架构	AI时代的云原生架构	线上
TF133	5月23日	智能前端	智能时代的前端：新生产力与新体验	线上
TF134	5月30日	智能制造	大模型在工业智能中的应用场景探讨	线上