CNCC | 第四届网络生态治理论坛:大模型的价值观与安全对齐
CNCC2024
论坛简介:
第四届网络生态治理论坛:大模型的价值观与安全对齐
举办时间:10月25日13:30-17:30
地点:夏苑-法国馆一楼前区2号厅
注:如有变动,请以官网(https://ccf.org.cn/cncc2024)最终信息为准
以ChatGPT为代表的大模型飞速发展,正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。在赋能新时代发展的同时,生成式人工智能也给全球带来了前所未有的安全风险。本论坛将围绕大模型安全主题,讨论大模型价值观及其对齐技术的现状、挑战和发展趋势、探讨如何促使大模型更好地遵循人类价值观、服从人类意图、规避各类风险。
2024年,第四届网络生态治理论坛聚焦大模型价值观和安全对齐,非常荣幸地邀请到来自清华大学、北京大学、哈尔滨工业大学、复旦大学等研发团队一线专家和学者,将从心理学、计算机科学等多学科角度切入,就大模型价值观及其安全对齐分享精彩的报告。并邀请产业界网络安全专家,在Panel环节开展产学两届的深度对话。期待您的参与,共同促进大模型技术的安全、可持续发展。
论坛日程
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 从心理动力学的视角分析对齐的挑战 | 刘嘉 | 清华大学 |
2 | 大模型多元价值观对齐 | 秦兵 | 哈尔滨工业大学 |
3 | 大模型价值观对齐的技术与挑战 | 刘知远 | 清华大学 |
4 | 大语言模型的机制可解释性 | 邱锡鹏 | 复旦大学 |
5 | 大模型可被对齐吗? | 杨耀东 | 北京大学 |
Panel环节 | 谭晓生 | 北京赛博英杰科技有限公司 | |
刘嘉 | 清华大学 | ||
秦兵 | 哈尔滨工业大学 | ||
刘知远 | 清华大学 | ||
邱锡鹏 | 复旦大学 | ||
杨耀东 | 北京大学 |
论坛主席及嘉宾介绍
论坛主席
虎嵩林
CCF杰出会员、CCF杰出讲者,中国科学院信息工程研究所研究员
中国科学院特聘(核心)研究员、中国科学院大学岗位教授。主要研究方向为内容安全、大数据智能处理、大模型安全等,在包括ACL、AAAI、EMNLP、SIGMOD、VLDB、IJCAI、DAC等会议和国内外期刊上发表学术论文百余篇;应用上聚焦知识增强的内容安全,作为应用总师承建多个国家级重大工程。获中国专利奖、北京市科技进步奖等多项科技奖励。
论坛讲者
刘嘉
清华大学基础科学讲席教授、心理与认知科学系主任,北京智源人工智能研究院首席科学家
长期从事心理学、脑科学和人工智能的教学和科研工作,是国家杰出青年基金获得者、长江学者特聘教授、国家科技创新领军人才。曾获教育部自然科学一等奖,连续多年获得爱思唯尔中国高被引学者称号。
报告题目:从心理动力学的视角分析对齐的挑战
摘要:大型语言模型(LLMs)在许多应用中起着核心作用,但也面临显著的风险,特别是在生成有害内容和偏见方面。通过类比弗洛伊德精神分析理论中人类心理的冲突,即进化生存本能与社会规范遵循之间的冲突,我们认为LLMs也存在类似的基本冲突。这一冲突使LLMs容易受到对抗性攻击,从而产生有害信息。
秦兵
哈尔滨工业大学长聘教授
国家自然科学基金重点项目、国家重点研发课题负责人。科技部科技创新2030-“新一代人工智能”重大项目管理专家组专家,主持多项国家及省部级项目,获中文信息学会钱伟长中文信息处理科学技术奖一等奖、黑龙江省科学技术一等奖、黑龙江省科学技术二等奖。入选“2020年度人工智能全球女性及AI 2000最具影响力学者榜单”和“福布斯中国2020科技女性榜”,连续四年(2020-2023)入选爱思唯尔高被引学者榜单。
报告题目:大模型多元价值观对齐
摘要:随着大模型研究以及在各个行业的应用不断深入,大模型在价值观对齐方面也引起了学术界和产业界的关注,在关注价值观不同层面的对齐技术的同时,也关注到价值观与语言文化方面的关联,本次报告将从大模型价值观的体系、不同层次价值观的对齐方法以及不同语言文化和价值观的关系角度出发,介绍大模型多元价值观对齐技术。
刘知远
清华大学计算机系长聘副教授/博导
主要研究方向为自然语言处理、基础模型。已在ACL、EMNLP、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过4.9万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,入选国家青年人才项目、2020-2023连续四年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。
报告题目:大模型价值观对齐的技术与挑战
摘要:随着大语言模型的广泛应用,价值观对齐成为人工智能安全的重要问题,本演讲着重介绍大模型价值观对齐的关键技术和面临挑战,为相关研讨提供基本准备。
邱锡鹏
上海市CCF自然语言处理专委会主任,复旦大学计算机学院教授
复旦大学计算机学院教授,大模型MOSS负责人,获钱伟长中文信息处理科学技术奖一等奖,教育部“高校计算机专业优秀教师奖励计划”,著作《神经网络与深度学习》被上百家高校作为教材。
报告题目:大语言模型的机制可解释性
摘要:尽管大语言模型在人工智能多个领域显示出极强的通用性,但理解其内部机理仍缺乏可规模化的手段和理论,这给下一代大模型的设计和优化带来了挑战。自2023年以来,机理可解释性(Mechanistic Interpretability) 为大语言模型的规模化可解释性带来全新的活力,为分析大模型的行为和机理提供了很好的工具。本次报告将介绍我们在大语言模型可解释性方面的研究进展,并展望可解释性技术对大模型训练数据、幻觉、安全性等重要问题的结合点。
杨耀东
北京大学人工智能研究院研究员/博导、AI安全与治理中心执行主任
北京大学人工智能研究院助理教授。国家高层次留学人才、高层次青年人才、中科协托举计划获得者。研究方向为智能体安全交互与价值对齐。在AI领域顶会顶刊发表论文100余篇,谷歌引用五千余次,获得国际最佳论文奖/提名奖3次,新星奖2次。
报告题目:大模型可被对齐吗?
摘要:对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中,我讲介绍RLHF方法的挑战,并阐述在安全对齐、价值对齐、超级对齐上的一些新方法,新思考。
谭晓生
CCF杰出会员、理事、YOCSEF秘书长,北京赛博英杰科技有限公司创始人、董事长,高级工程师
正奇学苑网络安全创业营创始人,前360集团技术总裁、首席安全官。2020年获工业和信息化部网络安全产业发展中心首批网络安全创新创业导师称号,2018年获中国互联网发展基金会网络安全优秀人才称号,2012年获中关村高端领军人才称号,教育部安全科学与工程类专业教指委委员。
关于CNCC2024
CNCC2024将于10月24-26日在浙江省东阳市横店镇举办,大会主题为“发展新质生产力,计算引领未来”。大会为期三天,包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势,分享创新成果。预计参会者超过万人。