返回首页
您的位置:首页 > 新闻 > CCF聚焦

CNCC|谢涛、楼建光等7位专家共论基于大模型的智能化软件工程

阅读量:421 2022-11-10 收藏本文

图片


CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办,今年CNCC技术论坛数量达到122个,内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月10日举行的【基于大模型的智能化软件工程】。


报名及了解更多技术论坛信息请识别下图二维码进入CNCC2022官网。目前早鸟票限时优惠报名正在进行,抓住机会立享大幅优惠!

图片



近年来,基于大规模预训练深度学习模型的人工智能技术取得了飞速发展,为更有效的解决各类任务(包括软件工程相关任务)带来了新的机会。同时,深度学习模型的复杂性和规模也在快速增长,外加模型的黑盒化、不可解释、无保证、难验证等给将其应用于软件工程任务带来了新的挑战。本论坛对基于大模型的智能化软件工程最新研究进展、关键理念与技术进行探讨,对相关的预训练模型、模型微调、程序分析、自然语言理解、程序综合等前沿技术进行分析。本论坛邀请来自于著名高校与企业科研机构的重量级专家学者做报告以及开展圆桌论坛讨论。他们将对大模型在支撑软件开发、维护、质量保障等方面进行探讨,展示基于大模型的智能化软件工程实践案例, 并介绍此领域面临的挑战和未来发展方向。


论坛安排


顺序

主题

主讲嘉宾

单位

1

圆桌论坛:基于大模型的代码生成:是产业实践的银弹还是梦想?

谢涛

北京大学

2

圆桌论坛:基于大模型的代码生成:是产业实践的银弹还是梦想?

楼建光

微软亚洲研究院

3

基于深度学习的程序理解与生成

李戈

北京大学

4

CodeGeeX—大规模多语言代码预训练模型

唐杰

清华大学

5

超大规模多模态预训练模型研发实践和落地应用

杨红霞

浙江大学上海高等研究院

6

面向可信代码的高效自动生成

王千祥

华为公司

7

多维度编程语言预训练及实际应用

段楠

微软亚洲研究院


论坛主席


图片

谢涛

CCF会士,CCF软件工程专委会副主任

北京大学 讲席教授


高可信软件技术教育部重点实验室(北京大学)副主任。曾任美国伊利诺伊大学香槟分校(UIUC)计算机科学系正教授。当选欧洲科学院外籍院士、国际计算机学会(ACM)会士、电气电子工程师学会(IEEE)会士、美国科学促进会(AAAS)会士。2020年中国计算机大会程序委员会主席,ICSE 2021程序委员会共同主席,《软件测试、验证与可靠性(STVR)》Wiley期刊联合主编等。


论坛共同主席


图片

楼建光

微软研究院 首席研究员


研究兴趣包括交互式数据分析机器人、自动数据理解、程序自动生成、大规模在线系统智能诊断与运维等方面。多项成果在微软公司的大规模在线系统实践中得到广泛应用,典型案例有Azure中的自动诊断和故障预测系统、微软PowerBI Mobile及Excel产品中基于自然语言的交互式数据分析功能。部分工作发表在人工智能、自然语言处理、计算机软件、系统及数据挖掘相关的知名国际会议(ACL,AAAI,IJCAI, EMNLP, ICSE,FSE,ATC,ASE,KDD,ICDM等)。 


报告及讲者介绍


图片

谢涛

CCF会士,CCF软件工程专委会副主任

北京大学 讲席教授


报告题目:基于大模型的代码生成:是产业实践的银弹还是梦想?


图灵奖获得者Fred Brooks在80年代提出软件工程没有“银弹”:无论是在技术范畴还是管理范畴,都没有哪个单一的方法能够保证在十年内提高一个数量级的软件生产率、可靠性和简单性。近年涌现出微软Copilot等基于大模型的代码自动生成系统,这些系统在特定的数据集上带来了出乎预料的好结果。本技术论坛的多位讲者及其团队近期也在这方面做出了很好的进展。此圆桌论坛旨在讨论大模型的代码自动生成是否在不远的将来能成为软件产业实践的“银弹”。

图片

楼建光

微软研究院 首席研究员


报告题目:基于大模型的代码生成:是产业实践的银弹还是梦想?


图灵奖获得者Fred Brooks在80年代提出软件工程没有“银弹”:无论是在技术范畴还是管理范畴,都没有哪个单一的方法能够保证在十年内提高一个数量级的软件生产率、可靠性和简单性。近年涌现出微软Copilot等基于大模型的代码自动生成系统,这些系统在特定的数据集上带来了出乎预料的好结果。本技术论坛的多位讲者及其团队近期也在这方面做出了很好的进展。此圆桌论坛旨在讨论大模型的代码自动生成是否在不远的将来能成为软件产业实践的“银弹”。

图片

李戈

CCF软件工程专委会 秘书长

北京大学 长聘教授


教育部长江学者,长期聚焦于“基于深度学习的程序理解与程序生成”的研究,是国际上最早从事该研究并取得代表性成果的研究者,多项研究成果被国际学者认为是“首创成果”并被广泛引用。科研转化成果aiXcoder为航天领域的重大工程、金融与IT领域的多家大型企业及数十万国际开发者提供服务。 


报告题目:基于深度学习的程序理解与生成


程序理解与程序生成是一对相互依存的经典研究任务。近年来,基于深度学习等人工智能技术的方法,与传统的程序分析与程序综合方法相结合,针对上述两项任务发展出了一系列新的解决方案。这也使程序理解与生成问题成为跨越“软件工程”和“人工智能”两个领域的研究热点。讲者以自身研究经历为背景,对基于深度学习的程序理解与生成方法的发展历程和发展状态进行简要阐述,并着重对当前研究和产业化中存在的问题进行探讨。 

图片

唐杰

CCF理事、CCF学术工作委员会主任、CCF自然语言处理专委会副主任

清华大学计算机系 教授


CCF杰出会员,获国家杰青。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。发表论文400余篇,获ACM SIGKDD Test-of-Time Award(十年最佳论文)。主持研发了大规模预训练模型“悟道”,参数超过1.75万亿。还研发了研究者社会网络挖掘系统AMiner,吸引全球220个国家/地区3000多万用户。担任国际期刊IEEE T. on Big Data、AI OPEN主编以及WWW’23大会主席、WWW’21、CIKM’16、WSDM’15的PC Chair。获国家科技进步二等奖、KDD杰出贡献奖。


报告题目:CodeGeeX—大规模多语言代码预训练模型


代码生成(code generation)或程序合成(program synthesis)是机器学习领域的一大难点问题,旨在让模型自动生成满足特定条件的代码。我将介绍我们我们团队最近的大规模预训练多语言代码生成模型CodeGeeX,参数规模130亿,使用二十多种编 程语言的开源代码进行预训练,支持多种编程语言下游任务,如求解编程题、代码翻译、代 码描述等。CodeGeeX 模型在国产平台和硬件上开发,从训练策略、算子实现等方面对训练效率进行大幅优化,在代码生成任务上不同语言能达到 40%-60% 以上正确率,在代码翻译任务上一些语言可以达到超过 90% 的正确率。

图片

杨红霞

浙江大学上海高等研究院


美国杜克大学博士,带领团队研发了AliGraph、M6、洛犀等人工智能开源平台和系统,发表顶级会议、期刊文章近100篇,美国和中国专利近20项。曾获2019年世界人工智能大会最高奖卓越人工智能引领者(Super AI Leader,简称SAIL奖),2020年国家科学技术进步奖二等奖和杭州市领军型创新团队,2021年电子学会科学技术进步奖一等奖,2022年福布斯中国科技女性50强。曾任IBM全球研发中心Watson研究员, Yahoo!计算广告主管数据科学家,阿里巴巴达摩院人工智能科学家,浙江大学上海高等研究院兼职研究员等。



报告题目:超大规模多模态预训练模型研发实践和落地应用


近年来,随着预训练技术在深度学习领域的飞速发展,超大规模模型逐渐走进人们的视野,成为人工智能领域的焦点。继OpenAI推出1750亿参数的GPT-3模型之后,我们持续推出多个版本,参数逐步从百亿规模扩展到十万亿规模,在大模型、绿色/低碳AI、AI商业化、服务化等诸多方面取得突破性进展,比如对比相同参数规模1750亿的GPT-3模型,我们只需要其1%的算力。今年,在探索算力极限的同时,我们也积极展开了针对通用模型这一预训练技术“皇冠”的探索,提出业界首个通用的统一大模型(模态、任务和架构),极大的降低模型在预训练、适配下游任务、推理过程中的难度,更加便捷的从在线模型构建、在线模型部署、应用发布的全流程预训练服务,能够支持成百上千个应用的开发与部署。

图片

王千祥

CCF软件工程专委副主任

华为云智能化软件研发 首席专家


华为云智能化软件研发首席专家,PaaS技术创新LAB主任,华为可信领域科学家,主导华为公司的智能化软件研发,结合AI技术与软件分析技术,赋能公司的系列软件研发工具。加入华为之前,他是北京大学计算机系教授。 


报告题目:面向可信代码的高效自动生成


2021年6月微软推出了Copilot,7月OpenAI发表了背后的Codex。这代表着基于大模型的代码生成取得了重大的突破,人们似乎摸到了“代码自动生成”这一计算机领域圣杯的边缘。此后,国内外的多家企业与高校持续发表或者报道了相关的研究与开发工作。本次报告将首先对相关工作进行简单的回顾,然后介绍华为结合可信软件在这方面开展的系列相关工作,对这一方向进行展望,最后就如何构建一个广泛的研发生态提出初步的设想。 

图片

段楠

微软亚洲研究院 首席研究员


CCF杰出会员,中国科学技术大学兼职博导,天津大学兼职教授,主要从事自然语言处理、编程语言处理、多模态人工智能、机器推理等研究,多次担任NLP/AI/ML相关国际会议评测主席、高级领域主席和领域主席,发表学术论文100余篇,持有专利10余项,多项研究成果用于微软各类产品。


报告题目:多维度编程语言预训练及实际应用


和自然语言相比,编程语言遵循更为严格的语法定义和书写修改规范,并且可编译执行。因此,编程语言能够从不同维度提供更加丰富的结构化信息,例如抽象语法树(Abstract Syntax Tree)、数据流(Data Flow)、控制流(Control Flow)、执行结果(Execution Result)和代码审查 (Code Review)等。本报告将介绍如何在编程语言预训练过程中利用这些信息,并展示结果模型在不同场景下的应用效果。


图片








图片

CNCC是级别高、规模大的高端学术会议,探讨计算及信息科学技术领域最新进展和宏观发展趋势,展示计算领域学术界、企业界最重要的学术、技术成果,搭建交流平台,促进科技成果转换,是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家,还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家,CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是:算力、数据、生态。


CNCC2022将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动,让参会者畅快交流,燃爆全场。如此盛会,岂能缺席!等你来,马上行动,欢迎参会报名!



图片


图片