分论坛 > 苏州 > 新闻动态
探寻大模型+生物医药的未来,“大模型助力生物医药产业发展的爆点在哪?”
2024-02-16 阅读量:61 小字

作为国家战略性新兴产业,我国的生物医药市场规模正保持着较快幅度的增长。其中,人工智能技术在生物医药领域的普及与应用更是进一步推动了产业的快速发展。在刚刚过去的2023年,以ChatGPT为代表的大模型技术在人工智能领域掀起了一场风暴,而其在应用层面的巨大潜力为生物医药产业的发展带来了新的想象空间。然而,大模型在医药产业的落地目前仍处在摸索阶段,尚未发掘出对产业发展有颠覆性贡献的新应用、新场景。大模型在生物医药产业应用的瓶颈在哪里?生物医药产业该如何从人工智能技术迭代的过程中受益?是每一个企业都关心的问题。

2024年1月20日,中国计算机学会青年计算机科技论坛(CCF YOCSEF)苏州分论坛在CCF苏州业务总部108会议室举办了“大模型助力生物医药产业发展的爆点在哪?”观点论坛。本次论坛由YOCSEF苏州分论坛AC委员晁平复(苏州大学)和孙高飞(常熟理工学院)担任执行主席。论坛邀请到中国药科大学教授兼博士生导师张亮、医图生科联合创始CEO李翛然以及苏州森博泰生物科技总经理周兆丽担任引导嘉宾。此外,受邀出席本次活动的嘉宾还有中国药科大学廖俊副教授、中科院上海营养与健康研究所博士后李杰夫、苏州大学药学院张慧灵教授、盛瑞教授、江苏大学陈秋云教授、苏州市卫健委信息中心王宝燕主任、苏州卫生职业技术学院张茂风博士、池静芸博士、北京智谱华章首席架构师、YOCSEF总部AC鄢兴雨等,共计30余人参加了本次活动。


图1       论坛开始

引导发言

第一位引导嘉宾中国药科大学教授、博士生导师、兴药领军学者张亮以《AI赋能的核酸药物设计》为题,从自身的研究成果出发,介绍了人工智能技术在以mRNA疫苗为代表的核酸药物设计过程中的显著效果。由于核酸结构本身的复杂性和多样性,使用传统算法进行药物设计存在搜索空间过大,大量无效结构筛选效率低等问题,而人工智能技术通过模式的学习,可以有效提高所设计药物结构的可用性,甚至可以利用其迁移的能力在一些新的药物领域快速地创新与突破。总的来说,当前人工智能对于加速药物设计的作用已无可取代,其未来发展的前景也令人期待。


图2       张亮引导发言

第二位引导嘉宾医图生科联合创始CEO李翛然分享了题为《AI与大模型在药物研发领域的应用》的报告,从医药企业的视角出发,分析了一个新药物想要在商业上取得成功的基本要素,包括其足够有效、市场占有率保证前三,以及合适的价格和稳定的供应。其背后则是对于药物研发效率、动物实验与临床试验风险管控以及药物生产稳定性等方面的要求。随后,李翛然从公司的多个研发成果出发,介绍了当前AI技术在基因组学分析、靶点识别等方面的作用,同时展示了公司在医药大模型方面的前期探索工作,为后续的大模型应用讨论提供了基础。


图3       李翛然引导发言

第三位引导嘉宾苏州森博泰生物科技有限公司总经理周兆丽博士则以《生物医药生产领域的AI技术探索与应用》角度,分享了自身在药物生产领域多年的经验。与药物设计领域普遍利用人工智能技术提高设计效率的思路不同,药物在生产环节遇到的挑战更为多样且繁杂。在人工智能技术的应用方面最大的挑战就是场景差异大、数据种类多且数据质量参差不齐,因此对于AI模型训练所需要数据的采集与整理较为困难,导致人工智能技术的整体应用率不高。作为药物上市前的重要环节,药物生产方面对于AI技术以及大模型的需求是必要和迫切的。


图4       周兆丽引导发言


图5       引导发言嘉宾颁发感谢牌

报告结束后,与会嘉宾利用茶歇时间进一步进行直接交流,并合影留念。茶歇结束后,围绕大模型与生物医药产业发展的关系,在场嘉宾们展开了深入的思辨。


图6       参与嘉宾合影

思辨议题一:大模型在生物医药产业的潜在发力点都有哪些?

顺着引导发言中提到的大模型探索,引导嘉宾医图生科联合创始CEO李翛然提出了企业在药物研发过程中的第一个需求:借助大量的公开论文与实验资料,为公司的生物医药研究提供思路。现有与医学和药物相关的公开资料非常多,各类文献中提到的现象和结论都很有可能为新药的发掘提供灵感,但现有的药物研发人员并没有足够的精力阅读和汇总各类资料,导致企业的药物研发方向严重依赖研发人员的过往研究经验,发现新药的效率低难度大。因此,如何借助大模型技术把丰富的医学资料利用起来推动药物发现,是一个亟待解决的问题。

中国药科大学廖俊教授则提出了另一个思路,即是否可以剥离大语言模型的语言部分,利用大模型的生成能力直接应用在蛋白质序列、基因序列等序列生成类任务中来,毕竟对于利用自然语言处理技术构建的大模型,基因、蛋白质等语言则更像是“自然”的语言。

中科院上海营养与健康研究所李杰夫研究员则进一步补充道,目前国家有40PB的基因组数据,但在大模型构建的过程中这部分数据还没有充分用于学习,利用率并不高。大模型在预训练阶段主要依赖的就是海量数据,其理论的实现无法脱离大数据的支持。因此,是否可以利用这些数据构建一个可用的医药大模型,让大模型能够理解生物结构,从而辅助研究人员的工作,例如辅助设计药物结构,辅助鉴别各类医药领域论文结论的真伪等等。

苏州大学药学院盛瑞教授则提出了在基因组蛋白组语言之外,对于生物药物化合物的语言理解是否能够得到大模型的辅助,其中一个重要的需求是如何建立药物结构与疾病之间的映射关系,并且利用这层关系挖掘更多的药物作用。

针对前面提到的各类需求,作为在大模型领域深耕的北京智谱华章首席架构师鄢兴雨给出了自己的理解。他认为,利用大模型的文本处理能力来实现对大量医药类论文的检索和归纳,是相对比较符合大模型能力的工作,未来基于这个方面的开发与应用相对可行度较高。而面向基因组、蛋白组以及生物药物化合物结构的大模型,其从原理上是可行的,毕竟和自然语言相似,基因组、蛋白组等也均为序列结构,基于Transformer架构的大模型技术是非常适用于这类结构信息的。因此,将这些基因组、蛋白组数据用于大模型训练中在理论上是可行的。但是,我们真正需要的,不是一个单纯理解和生成基因结构的大模型,而是一个能够将基因信息与人类认知对齐的大模型,即我们可以通过自然语言等方式让大模型构建对应的基因结构,而这方面将人类基因组信息和人对于疾病、药物等信息理解对齐的训练数据还十分欠缺,因此,构建一个全知全能的医药大模型工作仍然任重道远。


图7       思辨讨论嘉宾廖俊、李杰夫、盛瑞、鄢兴雨

引导嘉宾苏州森博泰生物科技总经理周兆丽博士从药物生产的角度提出了许多需求。相对于药物研发阶段的不确定性,药物生产阶段的生产部件、流程和工艺参数等都是确定的 ,许多场景都需要依赖人工智能的预测、判断以及优化等能力,前面讨论中各位专家普遍认为是相对更好进行人工智能落地应用的,但这方面的工作任务较为分散,且涉及的数据模态较为多样,更多的是需要小型AI模型,大模型的适配程度不高。

思辨议题二:实现大模型的产业应用,还存在哪些瓶颈与障碍?

围绕前面涉及的几个主要应用方向,即:1)利用大模型的文本处理能力实现大量文本的检索和总结;2)利用大规模基因与蛋白组数据构建能够理解生物结构的医药大模型;3)利用传统AI技术与大模型技术实现药物生产领域的过程优化与降本增效。在场专家们进一步深入讨论。

关于第一个方向,数据来源是一个主要难题,医图生科联合创始CEO李翛然提出,除了公开的论文数据、药物说明书等信息,在医院等场景同样可以产生大量文本数据来辅助药物的研究,以某公司的案例为例,由于在论文阅读中发现了某些药物的副作用可以作为一些疾病的治疗效果,同时一些临床数据也观察到了这个现象,故公司针对该原始药物的“副作用”作为新药的主要作用,这个药物后续被分析,改造出来作为新药物进行研发。类似过程中医疗数据的辅助是非常关键的,但这方面数据来源仍然是个难题。此外,西交利物浦的李华康教授也对数据的隐私安全和伦理约束的权责问题提出了顾虑。

对此,苏州市卫健委信息中心的王宝燕主任给出了专业的回复。以苏州为例,目前对于医疗数据的采集政府已经进行了大量的建设工作,相关医院也积极配合。从政府的角度正在积极推动这部分数据的公开,但存在两大核心挑战:数据资产的归属与价值评估以及数据的隐私保护。其中,合理的归属权与价值评估能有效提高医院数据共享收益,进而提高医院数据采集的积极性,同时所有医疗数据的分享一定要建立在保护患者隐私的基础上。因此如何更好地数据脱敏,使得数据安全得到保障的基础上,充分地保证数据价值,这部分仍然需要专业的计算机人才、政府以及企业三方合作推动。


clip_image013clip_image014

图8       思辨讨论嘉宾王宝燕、张慧灵、陈秋云、章剑

关于第二个方向,除开数据的缺口,大模型本身的能力是否能达到领域预期也成为大家普遍关心的焦点。首先,针对大模型的推理能力,引导嘉宾中国药科大学张亮教授提出在分子设计领域,大模型的推理与泛化能力是否能够有质的提升,尤其在训练数据不能覆盖整个搜索空间的情况下,大模型能否利用推理打破搜索范围,将分子设计推广到新的搜索空间,是其是否在该领域产生价值的核心点,这方面仍需验证。其次,大模型生成结果的可信性与可解释性也成为了落地应用的另一个障碍。中国药科大学廖俊教授提出,作为一门实验科学,对于同一个问题经常会产生截然相反的结论,加之大模型的幻觉问题以及深度学习的不可解释性,其生成的结果是否可以直接指导实践是值得深入研究的。而在临床试验与药物生产阶段,李翛然与周兆丽也分别进一步支持了这方面的担忧,面对临床试验高额的成本,三期临床的失败可能就意味着一个企业的终结,在这种情况下,大模型的结果只能作为方向性指引,实际操作还是要看FDA、CDC认不认,而在生产环节中,同样因为试错成本高,只有被证实过成功的案例才敢考虑推行,这些实际的困难都将是大模型推广过程中的阻碍,如何低成本的验证可行性是一个必要的研究方向,正如江苏大学陈秋云教授提到利用大模型或者AI技术构建虚拟实验环境也不失为一个未来的研究方向。

关于第三个方向,专家讨论认为相对实现可行性较高,最大的挑战在于怎样利用少量的开发成本来解决更多问题,从而降低企业的成本投入。

思辨议题三:随着大模型产业应用的逐步推广,生物医药企业实现突围的机会在哪?

引导嘉宾医图生科联合创始CEO李翛然首先提出了自己的观点:作为一个生物医药企业,能有一两款药做到商业上的成功,就已经足够使其快速的发展与成功了。而围绕引导发言中提到的几个商业成功的要素,李翛然认为目前人体还存在很多未被探明的疾病机理,各种前沿性的生物制药技术也都在处于蓬勃发展的阶段,作为初创型药物企业/生物科技公司还是有广阔空间的。想要实现突围,其中一方面就是要在药物发现方面继续技术积累,在某个特定领域积累人才和技术,产生技术壁垒,并利用大模型等技术进一步提高药物发现的速度,构筑自己的护城河。

引导嘉宾中国药科大学张亮教授则从市场推广的角度提出了自己的观点,当一个药物具有一定效果的情况下,如何让更多人认识这个药、使用这个药并且认可这个药是商业成功的另一个关键要素。而这方面大模型大有可为,例如使用数字人、短视频药物推广等手段提高药物的曝光率。此外,李翛然提出作为药物推广的重要环节,目前每年各种新药的评审获批,很多医生由于工作繁忙,可能会忽略掉一些新药的上市信息。而这些可以借助大模型技术开发的药物培训系统,可以短时间的向医生介绍新药的功能,副作用及其适应性特点,让更多更好的新药得到曝光的机会,并且加大更多的药物联用,新适应症的开发,从而提高优秀药企突围的机会。


图9       YOCSEF成员积极参与讨论

在讨论过程中,与会专家普遍认为AI与大模型技术的推广虽然一定程度上降低了企业的技术壁垒,但由于药物领域广泛的研究空间以及足够的领域专业性,医药企业并不用过分担心大模型技术会提高自身被复制被取代的风险,相反,企业应当更加积极地拥抱AI与大模型技术,提升自身研发、生产与推广的升级速度,从而在新的时代尽快站稳脚跟。

此次论坛汇集了众多专家学者的智慧,对大模型技术在生物医药产业的应用场景和前景进行了广泛热烈的探讨。论坛的讨论过程中发掘了一些切实可行的大模型与AI技术应用场景,例如在药物生产环节利用计算机视觉等传统AI技术实现过程控制与优化,实现降本增效;利用医药论文、诊疗记录等医药文本数据构建医药信息大模型,从而辅助药物研发人员实现更快、更可靠的药物筛选、发现与设计等。而对于构建一个完全理解基因序列、蛋白质构型等医学信息的大模型,与会专家认为其技术上虽存在理论可行性,但从数据层面以及价值层面仍存在较大的挑战,时机尚未成熟。此外,大模型在医药领域的推广仍存在诸多阻碍。其中,数据作为关键一环,虽然政府部门正在积极推动医院数据的资产化,但如何更安全地分享数据、更好地评估数据价值以及提高数据分享的积极性,仍需要专业计算机团队、医药企业与政府部门深度合作来实现。

论坛结束后,YOCSEF苏州分论坛主席史国良对活动进行了总结,国良提到,以苏州大学为代表的苏州高校在大模型技术方面有充足的积淀,结合苏州蓬勃的生物医药产业与苏州政府的政策支持,未来苏州的大模型生物医药之路大有可为。以本次观点论坛为起点,未来YOCSEF苏州会致力于汇聚企业、高校与政府资源,持续围绕生物医药主题开展系列活动,为企业需求提供技术支撑,发挥计算机学会的技术实力,为苏州乃至全国的医药行业发展带来实质性的助力。最后,再次感谢嘉宾们的精彩发言和积极讨论,也感谢苏州凯西德信息科技有限公司对本次活动的大力支持,期待未来开展更多的合作与交流活动。

CCF聚焦