为促进生成式人工智能技术健康发展和规范应用,国家网信办起草了《生成式人工智能服务管理办法(征求意见稿)》(以下简称“征求意见稿”),于4月11日向社会公开征求意见。“征求意见稿”指出国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。根据已知数据中挖掘并学习潜在的数据分布规律,从而实现对未来内容的预测与未知内容的自动生成,也是体现机器智能理解能力的重要手段之一。其在自动驾驶、机器人、金融投资和特效制作等领域有着重要的应用。然而,未知内容的不确定性和多选择性也给内容预测与生成带来了极大的挑战。为此,中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)广州分论坛学术委员会于4月15日举行 “大数据时代,如何实现可信的未知内容预测与生成”技术论坛。本次论坛属于YOCSEF广州ChatGPT论坛系列,邀请了来自交通、金融、电力等领域的相关专家和优秀青年教师,讨论预测生成学习在各类智能算法和产业创造中承担角色和未来趋势,并探讨如何实现大数据下的可信预测,如何让大数据下未知内容预测与生成算法满足“征求意见稿”的安全可信要求。
此次论坛由YOCSEF广州AC委员、中山大学计算机学院副教授胡建芳和YOCSEF广州候任委员、中山大学智能工程学院副教授沈颖共同担任执行主席。论坛特别邀请了中山大学智能工程学院由林麟副教授、暨南大学信息科学技术学院赖兆荣副教授、广汽研究院张天豫主任研究员作为引导发言嘉宾,中山大学智能工程学院金枝副教授、华南理工大学软件学院陈俊颖副教授、广东工业大学计算机学院朱鉴副院长作为思辨嘉宾。YOCSEF广州往届副主席吴维刚(中山大学)、高静(广东恒电信息科技股份有限公司),YOCSEF昆明候任副主席师智良,YOCSEF广州现任副主席谢光强(广东工业大学)、侯任副主席苏申(广州大学)、现任/候任AC委员及委员朱鉴(广东工业大学)、刘伟莉(广东技术师范大学)、黄培涛(广州唐邦信息科技有限公司)、吴国凯(荔峰科技(广州)有限公司)以及来自省内外多所高校及企事业的代表共30多人参加了此次论坛活动。
论坛首先由中山大学计算机学院副院长吴维刚教授代表承办单位致辞,并对参加此次特别论坛的嘉宾表示热烈的欢迎。吴维刚教授指出,随着数据规模的扩大以及人工智能的发展,内容预测与生成学习得到了更多关注,但是其可信度仍是一个挑战,对此次论坛围绕如何实现大数据下的可信预测的论坛充满期待。
图1 中山大学计算机学院副院长吴维刚教授代表承办单位致辞
在引导报告环节,首先由中山大学智能工程学院的由林麟副教授以“群体联邦计算与智慧交通个体行为预测研究”为题,指出随着信息通信技术的迅猛发展,以万物互联为目标的泛在物联网系统、以大数据为驱导的人工智能模型得到广泛应用,不断推动交通系统从被动智能向主动智慧转化。为了实现服务的自识别响应、系统的自组织运行,越来越多的智能网联设备将被接入,用以感知更细颗粒度的系统运行状态、用户个体行为数据。然而,面向新形势,以传统集中式计算为主的解决方案存在边缘端资源闲置、网络负载激增、中心云算力匮乏等技术难题,且无法有效应对恶意攻击对系统核心数据与用户隐私信息的窥探。因此,具备端边缘协同融合、数据隐私化处理的群体联邦计算技术得到广泛关注与讨论,并在智慧交通的各类应用中得到了初步的应用。林麟教授对交通系统的发展进行梳理,揭示集中式与联邦式计算的异同,诠释当前协同计算所面临的挑战,展示群体联邦计算在智慧交通中的应用成果,如:出行行为的精准预测与全局化引导、驾驶行为的协同感知与隐私化分析。
图2 中山大学由林麟副教授作引导报告
广汽研究院主任研究员张天豫以“预测学习在智能算法和产业创新中的角色与挑战”为题,从预测学习概念、应用、挑战以及未来的一些发展道路四个方面介绍了预测学习。预测学习以当前和过去的一些状态为输入,预测下一步或者下一个状态和事件,并没有固定的模式。张天豫将预测模型大概分为了四大类:自监督学习、生成模型、变分推断以及异常检测。预测学习的应用范围很广,包含天气预报、自动驾驶、轨迹预测等。但是其在数据质量、时间跨度方面还存在着挑战,这也导致训练的模型的泛化能力存在问题,地点或者时间的改变都会影响模型的准确率。张天豫也针对此问题提出了自己的想法,指出交叉验证或集成学习、加入噪声数据或对抗攻击、生成概率分布都将可能是解决的方法。预测学习还是需要构建一个大模型,如何构建也是未来必须要进一步研究的。另一方面,非平稳环境下的预测也是一大难点,环境具有不确定性和不稳定性,模型该如何适应环境的变化这一课题尚未得到解决。
图3 广汽研究院主任研究员张天豫作引导报告
最后由暨南大学信息科学技术学院的赖兆荣副教授以“基于凯利准则及指数增长率的资产配置机器学习方法”为题,从数学理论建模的角度研究怎样去利用未知时间序列的不确定性,使得自身的收益达到最大化。同时,他还详细说明了能够直接用于投资的机器学习方法是当今世界上各国金融管理部门以及各大基金公司、资产管理公司和金融科技公司的基础核心技术所在。资产配置是一种最基本和最普遍运用的投资架构,从技术路线来看可大致分为“均值——方差”模型和指数增长率模型,其中后者更贴近事实。并且还重点介绍了基于指数增长率模型的凯利准则及相关策略。
在引导报告之后,论坛进入思辨环节。与会嘉宾围绕“未知内容预测与生成,其不可信问题是否可‘解”、“保障预测与生成内容的可信性,关键在何处?”、“未知内容预测与生成,未来已来?”三个议题展开了深入思辨。
图4 暨南大学赖兆荣副教授作引导报告
思辨议题一:未知内容预测与生成,其不可信问题是否可“解”?
广东工业大学朱鉴认为,是否可解这个问题取决于所预测未知内容的复杂程度。通过讨论自由市场的可预测性和数据预测与生成的不可靠性问题,他指出,现实世界的复杂性使得完全可解是不可能的,最多只能缓解问题。谈到衍生子议题,朱鉴教授的看法是,首先,数据存在噪声,如果大到影响数据的真实性,会造成数据本身是不可信的,进而使得所生成的模型存在极大的不可信。其次,神经网络的不可解释性、模型的设计好坏以及过拟合的问题,也都会影响模型的可靠性,成为不可信的因素。
暨南大学信息科学技术学院赖兆荣教授认为,从金融预测领域看,金融市场存在诸多不可信的交易信息。此外,突发事件例如战争或经济危机,也会给市场的预测带来极大的不确定性。因此,赖教授强调善用数学工具进行概率平衡的策略,通过列举使用数学模型进行金融避险的实例,进一步阐明了未知内容预测的可解性。
图5 议题一思辨
广汽研究院主任研究员张天豫指出,在宏观和微观角度有大量的事实可证明,未来世界是不可确定的,提出一个逆向思考的问题,即我们是否有必要关注生成的内容到底是真还是假?即便生成的内容是与当前不符,也可能是一个低概率的状态,而难以讨论其是否可信。因此,张天豫认为这些模型应作为避险工具来参考,而无需关心它到底真假,重要的是关注预测模型的概率。
YOCSEF昆明候任副主席师智良认为,已知内容训练的模型和样本,对于未知内容无法收敛,因此无法做出可信预测。可信的预测和生成应该是针对已知内容或者已知领域的内容预测和生成。他认为,要做到可信的预测和生成,需要从源头开始考虑,选择真实可信的数据源、预处理数据、使用可管控的预测模型和算法等等。缺少类似流程,输出结果的可信度难以保证。
广州唐邦信息科技有限公司黄培涛引入时间维度看待这个议题,提到了缩小信息的时间维度,或许能够增加信息的可信度。他指出,可信度不是一个绝对值,而可以是相对的值,并且探讨了提高信息可信度的可能途径。最终他总结道,以发展的视野来看,未知内容的预测与生成是可见也是可行的。
中山大学由林麟副教授认为,未知内容预测的可解性与数据量以及模型规模息息相关,大数据的实行和大模型的建立将有助于提高可信性和可解性。此外,她非常关注如何挖掘关于未知内容预测的可信趋势,并指出,解释未知内容预测是通过何种方式获得大数据和大模型的支撑,对可信度的提高至关重要。广东恒电信息科技股份有限公司高静则进一步阐述了服务器算力与人工智能生成算法可信性的关联。
广州大学苏申教授则从数据安全角度为大家提供了一个非常有意义的视野,他指出对于生成内容中的偏见问题,以及可能存在的训练数据问题和监管部门问题,首要任务是确定责任,实现责任可追溯,在逆向压力下优化结果。最后,中山大学胡建芳提出在未知内容预测和生成过程中,是同时夹杂着可信和不可信这两种因素。如何去把握其内部趋势和规律,提升可信而降低不可信是我们需要研究和解决的重要问题。
思辨议题二:保障预测和生成内容的可信性,关键在何处?
对于这个议题,华南理工大学陈俊颖副教授首先分享了她的一些观点。可信AI是研究模型或方法最后得到的效果的可解释性、稳健性、隐私保护和安全等等的一个非常重要的研究领域,比如联邦学习可以用来保护隐私,因果对于可解释性是有帮助的,这些都是可信性的一个方面。陈俊颖副教授也有做鲁棒性稳健性评测的研究,即设计尽可能全面的干扰方案,在各种干扰的条件,不同的场景和条件下去测试深度学习模型这些不同的干扰情况下性能如何,以此来判断模型自身它对这种干扰的一个稳定程度,也就是模型的鲁棒性,从这个方面验证模型的可信度。
西湖大学胡浩副研究员认为除了从数据层面去研究可信性,更多地应该考虑建模的准确性,在某个领域里面的经验知识可能比数据生成出来规律可能更加可信。也就是说不一定以数据驱动的方式去研究可信性,还可以根据人的先验定义一套规则去保障可信性。
广东工业大学朱鉴副教授认为可以从确保数据可靠和算力充足来提高机器学习模型的可信性。此外,他还认为基于因果推理的机器学习可以是一种解决可信机器学习的问题的非常有效的途径。而对于未知内容生成的可信性和可用性,他认为并不要求每一个生成的内容都是可信的,我们应寻找一些有效的评估指标来评价生成内容的质量。
荔峰科技(广州)有限公司吴国凯认为算法的可信性取决于数据的准确性和数据量的大小,同时也是基于数据集和真实场景的因果关系而确定的。关于未知内容预测与生成的可信性与可用性,他认为只要算法的预测结果具有一定的可信性就是可用的,但是是否使用还需要个人自行决定。
广汽研究院张天豫研究员提出,因果关系一定是可确定的,而且是有必要去做的,前人的研究我们也可以借鉴。他还提到模型的后处理是实际上是根据人的先验经验进行的,其实是已经确定的因果。此外,对于预测和生成未知内容的可信可用怎么兼顾,张天豫认为本身未知内容我们也不知道它是对是错,这个东西既然你要生成它,是否使用还是取决于你本身的目的。
最后,华南理工大学陈俊颖、中山大学胡建芳、中山大学由林麟和广汽研究院张天豫还就数据和现象之间因果关系能否建立进行了热烈的讨论。张天豫指出就可解释性方面来说,传统机器学习模型比深度学习模型的可解释性更强,如决策树中可以通过熵的计算来得出特征对下一层的预测的权重大小,是有一定的可解释性的,而有一些数据和现象之间的这种因果关系是不存在的,是因为某些行为或者是事件发生本身存在一个统计性的规律,这个其实就是深度学习要解决的事。由林麟副教授认为在保障内容预测与生成可信性方面,数据很重要,经验规则很重要,模型也很重要,将它们结合会得到一个更好的结果。
思辨议题三:未知内容预测与生成,未来已来?
广东工业大学计算机学院朱鉴副教授提出,随着人工智能和深度学习的快速发展,未来已经到来。他指出,人工智能已成功应用在交通、金融、教育、科研诸多领域,如今的人工智能大模型例如chatGPT,对内容预测与生成技术的影响将是颠覆性的。此外,朱教授认为大模型的建立与开发实际上有助于加速解放生产力,提高生产效率,在各方面促进社会的进步。华南理工大学软件学院陈俊颖教授则持反面的观点,认为未来尚未到来。她提出未来已来的前提应该是在社会范围下产生一个普遍的信任,而现有的技术,比如chatGPT输出许多反事实的内容,未能取得人们足够的信任。
图6 议题三思辨
西湖大学胡浩副研究员认为:大模型的影响已在日常生活中得以体现,对企业和行业的发展产生广泛的影响。在可预见的未来,将解放社会生产力,增加共产主义实现的可能性。同时,他引用chatGPT自动生成可用代码的例子,指出大模型目前具备替代一些工种的能力,进而强调了其对社会就业和科技进步造成的深远影响。
暨南大学赖兆荣副教授认为,目前的人工智能还未能经过数学严格检验,仍需要更多的创新和研究,未来尚未来临。同时,他强调未来应该思考如何利用大模型生成的内容,以及其背后的数据安全问题,进而去广播成——类似金融期权市场的——一个普遍认可的行业规范。
广汽研究院张天豫研究员以AI绘画获奖为例,指出大模型虽然对人脑的运作机理未知,但其能力对一些创造型领域比如艺术创造产生不少冲击;随后又结合元宇宙、直播和短视频等行业实例,进一步说明一些创造型岗位和低端工作岗位已经存在被自动化取代的风险,侧面反映出未来已来的社会趋势。
YOCSEF昆明候任副主席师智良从行业应用视角看待这个问题,指出不同行业的人工智能应用程度存在差别。人工智能大模型在电力行业目前发展缓慢,因为其涉及到国家安全与成本投入的问题;在金融领域,由于市场的灵活性和不确定性,大模型无法准确预测市场走势,目前只能作为一种辅助手段;在程序员群体中人工智能的影响则表现明显,成为了一个面临失业的危机挑战。最后他提倡,对于人工智能的应用,应该采取开放、接纳的态度,思考其如何得以辅助日常生活的改善,而不是去排斥它。
图7 现场热议
此次论坛历时四个多小时,中山大学胡建芳副教授对此次论坛进行了总结。此次论坛围绕炸大数据下的预测学习的可信度进行了深入思辨,探讨了未知内容预测与生成是否能实现可信、如何实现可信、未来将如何发展,以及我们该如何合理应用预测模型,希望可以给相关研究和产业发展提供借鉴和帮助。最后,此次论坛在一片热烈的讨论氛围中圆满结束。
此次论坛由CCF主办,此次论坛由CCF主办,CCF YOCSEF广州学术委员会和中山大学计算机学院承办,广东恒电信息科技股份有限公司为此次活动提供赞助支持。
图8 部分与会嘉宾合影