CNCC2024第四届网络生态治理论坛成功举办
2024年10月25日下午,CNCC2024第四届网络生态治理论坛——大模型的价值观与安全对齐(以下简称“论坛”)在浙江横店圆明新园夏苑法国馆一楼2号厅顺利举行。本次论坛汇集了来自清华大学、北京大学、哈尔滨工业大学、复旦大学等科研机构的一线学者与产业界网络安全专家,共同推进人工智能的安全、向善发展。
(虎嵩林研究员介绍论坛背景)
本次论坛由CCF杰出会员,中国科学院信息工程研究所虎嵩林研究员主持。论坛开始,虎嵩林研究员首先回顾了网络生态治理论坛的发展历程,强调了在大模型快速发展的背景下,研究和探讨其价值观和安全对齐技术的重要性。随着AI在社会各领域的深入应用,如何确保大模型在生成内容时符合人类价值观,减少偏见与有害内容,成为了亟待解决的关键议题。
(刘知远教授作主题报告)
清华大学刘知远教授带来了题为《大模型价值观对齐的技术与挑战》的报告,分享了针对模型安全防护能力不足、可控对齐数据稀缺、可控对齐机制粗放等问题,安全漏洞攻击与防御、大规模高质量的对齐数据集构建、精细对齐机制设计方面的最新进展。他也指出,大模型安全可控的研究仍严重滞后于模型能力的进步,未来还有大量问题亟待解决,引发了与会者的广泛共鸣和深刻思考。
(刘嘉教授作主题报告)
清华大学心理与认知科学系主任、北京智源人工智能研究院首席科学家刘嘉教授带来了题为《从心理动力学的视角分析对齐的挑战》的报告,深入探讨了大模型在“感性”与“理性”交织下的复杂行为,指出其产生有害信息难以完全避免。他进一步剖析了大模型的对齐问题,提出了独到的见解和思考,为解决这一前沿难题提供了新的视角和方法。
(邱锡鹏教授作主题报告)
复旦大学邱锡鹏教授带来了题为《大语言模型的机制可解释性》的报告,探讨了理解大语言模型内部机制所面临的难题,并详细展示了当下流行的稀疏自编码器架构,强调规模化稀疏自编码器研究的必要性和可行性,为推动大语言模型的可解释性研究提供了可行的思路和方法。
(秦兵教授作主题报告)
哈尔滨工业大学秦兵教授带来了题为《大语言模型下的价值观对齐》的报告,从大模型价值观的体系构建、不同层次价值观的对齐方法,以及不同语言文化与价值观之间的复杂关系等多个角度出发,阐述了多元价值观数据资源、对齐方法的创新研究成果,为推动大模型在多元文化背景下的安全应用提供了宝贵的学术参考。
(杨耀东研究员作主题报告)
北京大学AI安全与治理中心执行主任杨耀东研究员带来了《大模型可被对齐吗》的报告,深入探讨了“大语言模型可被对齐吗?、RLHF对齐算法可收敛吗?、对齐能使大模型更加安全吗?、对齐的边界是人类反馈吗?”等一系列核心问题,还指出下一代对齐技术在多目标与多模态的发展趋势,为与会者提供了关于大模型对齐的前沿性思考。
(Panel讨论环节)
论坛最后进入Panel讨论环节,邀请CCF杰出会员、理事、YOCSEF秘书长、北京赛博英杰科技有限公司创始人、董事长谭晓生,CCF自然语言处理专委主任、ACL亚太分会候任主席、复旦大学黄萱菁教授,清华大学刘嘉教授,哈尔滨工业大学秦兵教授以及北京大学杨耀东研究员等5位嘉宾,由虎嵩林研究员和谭晓生董事长共同主持,就“大模型类人心理与跨文化多元价值观的进化、大模型可解释机制的实现、大模型价值观对不齐、对齐成本控制”等热点议题,展开了产学两届的热烈讨论。期待本次讨论在引发与会者关于大模型安全的广泛关注与深刻思考的同时,也能够促进大模型价值观与安全对齐领域的创新发展。
(论坛主要人员合影)
第四届网络生态治理论坛的成功举办不仅为大模型价值观和安全对齐的研究带来了创新性启示,更搭建了产学两界的交流平台。展望未来,论坛将继续致力于促进人工智能技术的向善应用,助力网络生态治理的健康发展。