Value Compass：从AI安全到基本价值观对齐｜SPP第73期

阅读量:5 2024-02-22 收藏本文

AI能力的增长及其与人类生活日趋加深的融合对社会带来了潜在的风险(AI Safety Risks)。为促进AI的安全与可持续发展，有必要对模型生成的有害内容、例如毒性、偏见、错误信息等进行管控。然而，大语言模型呈现出反尺度现象(Inverse Scaling)和风险涌现(Emergent Risk)等性质，使得传统的针对特定安全风险的评估与解决手段难以应付未来可能愈加严重和广泛的问题。价值观对齐(Value Alignment)成为从根本上解决AI风险较有潜力的手段。本期SPP报告中将首先梳理大模型面临的风险，回顾小模型时代的解决方法，阐述它们在大模型时代面临的独特问题。随后将聚焦大模型的核心技术之一, 人机对齐(AI Alignment)，从对齐目标和对齐方法两个角度进行介绍，总结大模型在价值观对齐上面临的挑战。为了解决这些挑战，我们提出的价值观司南(Value Compass)项目，从交叉学科的角度切入，充分借鉴道德学和社会科学中的理论，以解决对价值观的定义、评测和对齐问题。欢迎参加本期SPP：12月27日（本周三） 19:30-21:00

本期直播你将收获哪些

1、学习当下最热门的大语言模型技术，了解其可能带来的风险和问题

2、了解大语言模型，尤其是对话式大模型的核心技术——对齐技术

3、从跨学科的视角进行探索，学习社会科学中的知识如何与AI结合以解决问题

演讲嘉宾

矣晓沅

CCF专业会员，微软亚洲研究院高级研究员

矣晓沅，微软亚洲研究院高级研究员，于清华大学计算机系获工学学士、博士学位，主要从事自然语言生成(NLG)与社会责任人工智能(Societal AI)的研究。致力于AI与多学科的结合，构建符合人类价值观的AI并提升社会公平。主导开发的中文古典诗歌自动创作系统“九歌”作为最著名的AI作诗系统之一，曾登上《机智过人》、《朗读者》等央视节目展示，并得到上百个国家地区用户的数千万次使用。曾获清华大学特等奖学金、海淀区十大杰出青年、央视机智先锋个人称号、新华网十大年度网络人物、西贝尔学者称号、北京市优秀毕业生、全国计算语言学大会最佳论文奖和最佳系统展示奖、IJCAI-SAIA学术新星、CCF优博等荣誉。

开课时间

2023年12月27日（本周三）19:30-21:00

CCF学生分会

Value Compass：从AI安全到基本价值观对齐｜SPP第73期