ADL154《大模型安全与对齐》开启报名
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCF ADL第154期
主题 大模型安全与对齐
2024年11月8日-10日 北京
随着ChatGPT、Sora等预训练模型已经在文本、视频等诸多领域取得了令人瞩目的进展,但也带来了新的安全威胁和治理挑战。如何构建更安全、可信、可靠的大模型,防止错误、偏见信息或滥用,保护用户隐私,增强模型的透明度和可解释性,提升公众信任,已经成为国际学术界的共识和前沿,对于AI产业和全社会都具有重要的现实意义和紧迫性。
本期CCF学科前沿讲习班ADL154《大模型安全与对齐》,将对预训练大模型安全和对齐领域的最新进展进行深入浅出的讲解,从前沿大模型的安全技术、大模型价值对齐、智能体安全和大模型水印技术等不同领域视角为听众介绍大模型安全和对齐领域的关键技术和最新研究成果。相信学员经过本次讲习班,能够深入了解大模型安全领域的主要挑战、基本问题、基础技术和应用场景,开阔研究视野,增强实践能力。
本期ADL学科前沿讲习班邀请了9位来自国内外著名高校与企业科研机构活跃在前沿领域的专家学者做主题报告。第一天,加拿大工程院及加拿大皇家学院院士杨强教授介绍大模型和联邦隐私计算技术,中国人民大学王希廷和北京大学杨耀东老师分别介绍大模型价值观对齐和跨模态对齐技术;第二天,清华大学董胤蓬博士和上海人工智能实验室邵婧研究员分别介绍多模态大模型和大模型智能体的安全方法;第三天,卡耐基梅隆大学李磊副教授将和加州大学圣地亚哥分校王宇翔博士、加州大学伯克利分校赵宣栋博士共同介绍大模型水印的相关技术,电子科技大学柯沛副教授介绍大模型的生成质量与安全性评价相关内容。通过三天教学,旨在带领学员实现对大模型安全从基础技术,到前沿科研动态,再到典型应用场景的深入学习与思考。
学术主任:黄民烈 清华大学 教授/苏航 清华大学 副研究员
主办单位:中国计算机学会
活动日程:
2024年11月8日(周五) | |
9:00-9:10 | 开班仪式 |
9:10-9:20 | 全体合影 |
9:20-10:50 | 专题讲座1:联邦大模型的10个研究问题 杨强,加拿大工程院及加拿大皇家学院院士。微众银行首席人工智能官,香港科技大学荣休教授,第四范式公司联合创始人 |
10:50-12:20 | 专题讲座2:大模型对齐:探索基本价值观对齐与精准神经元控制 王希廷,中国人民大学高瓴人工智能学院长聘教轨副教授 |
12:20-14:00 | 午餐 |
14:00-17:00 | 专题讲座3:跨模态大模型对齐 杨耀东,北京大学人工智能研究院助理教授 |
2024年11月9日(周六) | |
9:00-12:00 | 专题讲座4:多模态大模型的安全性与可信性 董胤蓬,清华大学计算机系博士后研究员 |
12:00-14:00 | 午餐 |
14:00-17:00 | 专题讲座5:From (M)LLMs to Agents: Reliability, Safety, and Generalizability 邵婧,上海人工智能实验室青年科学家 |
2024年11月10日(周日) | |
9:00-12:00 | 专题讲座6:大模型水印技术 李磊,卡耐基梅隆大学计算机学院助理教授; 王宇翔,加州大学圣地亚哥分校Halıcıoğlu数据科学研究所副教授; 赵宣栋,加州大学伯克利分校博士后研究员 |
12:00-14:00 | 午餐 |
14:00-17:00 | 专题讲座7:大模型的生成质量与安全性评价 柯沛,电子科技大学特聘副教授 |
学术主任
黄民烈
清华大学
简介:黄民烈,清华大学长聘教授,国家杰青获得者。CCF杰出会员,CCF学术工委秘书长。中文信息学会大模型与生成专委会副主任,研究领域为大语言模型、对话系统、自然语言生成,曾获得人工智能学会吴文俊人工智能科技进步奖一等奖、钱伟长青年创新奖等。在国际顶级会议和期刊发表论文150多篇,谷歌学术引用21000多次,h-index 71,连续多年入选Elsevier中国高被引学者、AI 2000全球最有影响力AI学者榜单,多次获得IJCAI、ACL、SIGDIAL等国际主流会议的论文奖励。
苏航
清华大学
简介:苏航,清华大学计算机系副研究员,入选国家青年拔尖人才,主要研究对抗机器学习和鲁棒视觉计算等相关领域,发表CCF推荐A类会议和期刊论文100余篇,谷歌学术论文引用10000余次,受邀担任人工智能领域顶级期刊IEEE TPAMI和Artificial Intelligence的编委,IEEE生成式大模型安全工作组主席,获得吴文俊人工智能自然科学一等奖,ICME铂金最佳论文、MICCAI青年学者奖和AVSS最佳论文等多个学术奖项。
专题讲座
杨强
微众银行
讲座题目:联邦大模型的10个研究问题
讲座摘要:随着大模型的发展,人工智能(AI) 进入了一个新时代。大模型在具体应用时的一个挑战是如何把通用大模型的知识迁移到本地化的小模型上,同时保护各方的隐私和数据安全。在本次演讲中,讲者 将讨论如何在大模型的背景下使用“联邦大模型”的框架进行大模型的本地化。讲者将首先回顾AI的发展和联邦学习的概念,然后讨论如何把联邦学习、迁移学习和大模型有机地结合,使得大模型的落地应用更加顺畅和便捷。
讲者简介:杨强,加拿大工程院及加拿大皇家学院院士,微众银行首席人工智能官,香港科技大学荣休教授,第四范式公司联合创始人,AAAI-2021大会主席,国际人工智能联合会(IJCAI)理事会前主席,香港人工智能与机器人学会(HKSAIR)理事长,智能投研技术联盟(ITL)和开放群岛开源社区(OI)主席,《ACM TIST》和《IEEE TRANS on BIG DATA》创始主编,CAAI,AAAI,ACM,IEEE,AAAS等多个国际学会Fellow。研究方向包括迁移学习和联邦学习研究及应用,著作包括《迁移学习》、《联邦学习》、《隐私计算》和《联邦学习实战》等。
王希廷
中国人民大学
讲座题目:大模型对齐:探索基本价值观对齐与精准神经元控制
讲座摘要:大模型如何准确理解和反映人类基本价值观成为一个核心问题。本报告探讨在宏观层面对基本价值观进行对齐的路径,以及在微观层面通过神经元级控制实现精确对齐的可行性和技术方法。讲者发现精确的价值观对齐和神经元控制不仅提升了模型的行为一致性,还增强了模型的可解释性和安全性。
讲者简介:王希廷,中国人民大学高瓴人工智能学院长聘教轨副教授,研究方向为模型可解释与对齐。担任IJCAI、AAAI领域主席,Q1期刊Visual Informatics编委,加入IEEE VIS组委会担任档案主席。论文两次获选CCF-A类期刊IEEE TVCG封面论文,相关成果落地全球占有量第二的必应搜索引擎及Outlook、MSN等产品,获得CCF自然科学二等奖及专利。获选AAAI 2021杰出SPC。
杨耀东
北京大学
讲座题目:跨模态大模型对齐
讲座摘要:对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中,讲者将介绍RLHF方法的挑战,面向跨模态模型,阐述在安全对齐、价值对齐、超级对齐上的一些新方法,新思考。
讲者简介:杨耀东,北京大学人工智能研究院助理教授。国家高层次留学人才、高层次青年人才、中科协托举计划获得者。研究方向为智能体安全交互与价值对齐。在AI领域顶会顶刊发表论文100余篇,谷歌引用五千余次,获得国际最佳论文奖/提名奖3次,新星奖2次。
董胤蓬
清华大学
讲座题目:多模态大模型的安全性与可信性
讲座摘要:多模态大模型近年来取得了快速发展,深刻改变了人们理解和生成图像、文本等数据的方式,并催生了如GPT-4o、Gemini、Sora等代表性成果。然而,尽管多模态大模型取得了巨大成功,其在安全性和可信性方面仍然面临着严峻的挑战。例如,这些模型很容易被诱导生成有害内容,易受对抗性攻击的干扰,且存在显著的隐私风险。本次报告将系统性介绍多模态大模型所面临的安全风险以及发现这些风险的方法。然后讨论如何降低多模态大模型的风险,保证其安全性。最后,本报告将介绍评估多模态大模型可信性的综合基准MultiTrust并展望未来可能的发展趋势。
讲者简介:董胤蓬,清华大学计算机系博士后研究员,导师为朱军教授。主要研究方向为对抗机器学习、人工智能安全,在TPAMI、IJCV、CVPR、NeurIPS等顶级国际期刊和会议上发表论文五十余篇,谷歌学术引用近一万次。担任ICLR2025领域主席,TPAMI、IJCV、ICML等期刊和会议审稿人,曾在ICML2021、AAAI2022等国际会议上组织了对抗机器学习专题研讨会。获NeurIPS2017首届国际人工智能对抗攻防赛等10余项竞赛冠亚军。曾获得CCF优秀博士学位论文激励计划、清华大学优秀博士后、微软学者奖学金、百度奖学金等,连续两年入选全球前2%顶尖科学家榜单。
邵婧
上海人工智能实验室
讲座题目:From (M)LLMs to Agents: Reliability, Safety, and Generalizability
从大语言模型到智能体:可靠性,安全行和泛用性
讲座摘要:大语言模型已经变革了许多领域。特别地,大语言模型用于开发与虚拟或现实世界交互的智能体,并能处理各种任务,这将极大地影响我们未来的生活。在本报告中,讲者将首先介绍智能体中重要的基本概念,他们在多样的应用中的泛用性,然后讨论这些智能体的局限和潜在风险。
讲者简介:邵婧,毕业于香港中文大学MMLab,曾任商汤科技研究总监,现任上海人工智能实验室青年科学家,负责研究自主、可控、可信AI,聚焦多种模态大模型及智能体安全评测与价值对齐相关研发工作。十年以来长期从事城市级的大规模视觉感知理解,及应用安全分析。在相关领域学术成果累计发表 SCI/CCF-A 论文 50 余篇,申请发明专利超 30 项,谷歌学术引用 8700 余次。多次担任学术竞赛和论坛主席,在多次国际比赛中获第一名。
李磊
卡耐基梅隆大学
王宇翔
加州大学圣地亚哥分校
赵宣栋
加州大学伯克利分校
讲座题目:大模型水印技术
讲座摘要:以ChatGPT为代表的生成式人工智能已经取得了显著的进步,但这些进步引发了对滥用的担忧,例如生成假新闻或抄袭内容。本教程介绍了文本水印作为一种解决方案,在大模型生成的文本中嵌入可检测的模式以验证其来源。我们将涵盖文本水印的演变,其现代技术和挑战,以及用于版权保护的模型水印。参与者将对水印方法,其实际应用以及这一关键领域的未来研究方向有扎实的了解。
讲者简介:
李磊,卡耐基梅隆大学计算机学院助理教授。研究方向为机器翻译、大语言模型、人工智能制药。本科毕业于上海交通大学计算机系ACM班,博士毕业于卡耐基梅隆大学计算机系。曾先后任加州大学伯克利分校博士后研究员、百度美国深度学习实验室少帅科学家、字节跳动人工智能实验室创始总监、加州大学圣巴巴拉分校计算机系长聘副教授。曾获CCF青竹奖、ACL最佳论文奖、吴文俊人工智能二等奖,ACM SIGKDD最佳博士论文Runner-up奖。研发出的产品火山翻译和小明写稿机器人获广泛使用。
王宇翔,加州大学圣地亚哥分校Halıcıoğlu数据科学研究所副教授,同时也是计算机科学与工程系的成员。他创建并担任可规模化统计机器学习实验室主任。在加入UCSD之前,他于2018年至2023年间在加州大学圣巴巴拉分校计算机系担任教职,并在2017年至2018年间在亚马逊担任科学家。王宇翔于2017年从卡内基梅隆大学(CMU)获得统计学与机器学习博士学位。他的研究兴趣包括统计理论与方法、差分隐私、强化学习、在线学习和深度学习。他的工作得到了美国国家科学基金会CAREER奖、亚马逊机器学习研究奖、谷歌研究学者奖、Adobe数据科学研究奖的支持,并在KDD'15、WSDM'16、AISTATS'19和COLT'21获得论文奖。在学科服务上,他曾担任CPAL程序委员会主席,ICML、NeurIPS、ICLR、AISTATS、COLT的领域主席,以及TMLR和IEEE TIT的执行编辑。
赵宣栋,加州大学伯克利分校博士后研究员。研究方向为大语言模型、机器学习、人工智能安全。本科毕业于浙江大学计算机系,博士毕业于加州大学圣巴巴拉分校计算机系。曾在谷歌、微软、阿里巴巴等公司实习,在机器学习和自然语言处理顶会上发表多篇论文。曾获加州大学圣巴巴拉分校校长奖学金。
柯沛
电子科技大学
讲座题目:大模型的生成质量与安全性评价
讲座摘要:大语言模型在众多自然语言处理任务上均达到最优性能,其文本生成能力已逐渐接近人类水平,这给生成文本的自动评价带来了巨大的挑战。因此,如何准确评价大模型的生成质量和安全性成为了当前自然语言处理领域的研究热点。本次报告将围绕大模型生成质量与安全性评价的核心问题和挑战,从数据、方法、平台等多个层面介绍该方向的前沿研究工作,同时探讨如何利用评价结果作为反馈信号来自动提升大模型的生成质量和安全性,实现大模型的高效对齐。
讲者简介:柯沛,电子科技大学特聘副教授,博士毕业于清华大学计算机系。主要研究方向是大语言模型、自然语言生成和对话系统。近年来,在ACL、EMNLP、IJCAI、ICLR、ICML、TACL等国际顶级会议和期刊上共发表论文20余篇,获NLPCC 2020最佳学生论文奖。谷歌学术总引用量1200余次,曾担任ACL、EMNLP、NAACL等国际会议的领域主席。担任中国中文信息学会大模型与生成专委会副秘书长,入选2023年度博士后创新人才支持计划,主持国家自然科学基金青年科学基金项目、中国博士后科学基金面上资助项目。
时间:2024年11月8日-10日
地址:北京•中科院计算所四层报告厅(北京市海淀区中关村科学院南路6号)
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)
2、报名截止日期:2024年11月6日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。
3、咨询邮箱 : adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、点击报名链接报名:
https://conf.ccf.org.cn/ADL154