基于人工智能的生物信息学研究：机遇和挑战 - 论坛

2021年12月26日，中国计算机学会青年计算机科技论坛（CCF YOCSEF）武汉分论坛举办线下技术论坛（论坛编号：CCF-YO-21-WH-5FT）。本次论坛以“基于人工智能的生物信息学研究：机遇和挑战”为主题，邀请了陕西师范大学、西北工业大学、邵阳学院、华中农业大学、中国地质大学（武汉）、的专家和学者作为论坛嘉宾进行发言和思辨点讨论。本次论坛由YOCSEF武汉AC、华中农业大学教授章文，YOCSEF武汉AC、华中农业大学讲师刘世超共同担任执行主席；YOCSEF武汉AC、湖北大学副教授肖奎，YOCSEF武汉通讯AC、江汉大学讲师刘哲共同担任线上执行主席；华中农业大学为本次论坛提供了支持。本期技术论坛，邀约生物信息学领域相关的专家学者，针对“基于人工智能的生物信息学研究：机遇和挑战”进行主题讨论，分析生物信息学领域面临的主要挑战，探讨人工智能技术应用在生物信息学领域中存在的若干重要问题，探索生物信息学人才培养的痛点与解决之道，把握生物信息学领域未来发展的潜在机遇。

“基于人工智能的生物信息学研究：机遇和挑战”技术论坛

论坛的引导发言环节邀请了3位嘉宾，分别是：陕西师范大学教授雷秀娟、西北工业大学教授施建宇以及邵阳学院教授黄国华。作为中国人工智能学会生物信息与人工生命专委会常务委员，雷秀娟教授带来了题为“基于人工智能的多组学数据与疾病的关联关系预测”的引导发言。雷秀娟教授首先介绍了生物信息学在多组学和疾病方面的研究应用，主要是通过多组学模型来预测疾病，所有的组学信息之间都是有相互联系的。雷教授团队整理制作了多组学与疾病的关联数据库CircR2Disease数据库V2。目前生物信息学研究的热门包括挖掘出生物学实体之间的关系之后，找出疾病靶标。网络特征学习可以采用一些通用的深度学习方法。相似性网络的构建方面，包括相似性计算差用的方法有疾病语义相似性、序列相似性、基因关联相似性等。网络特征提取方法常用的包括表示学习、图神经网络等。评价方法可采用常用的机器学习评价方法，包括混淆矩阵、ROC曲线等。损失函数方面常用Sigmoid、ReLU、LeakyReLU等。CircRNA与RBP结合位点的研究，是利用生物信息学的方法准确解析分子之间的调控机制对探索人类疾病的机理。雷教授团队在生物信息学方面取得了诸多研究成果：提出了CSCRsites方法、circRB方法、CRPBsites方法。CircRNA与疾病的关联关系预测的研究方面，提出了RWRKNN方法、CDWBMS方法、PDC-PGWNNM方法、EDNMF方法、AANE&SAE方法、PCD_MVMF方法、GATCDA方法。代谢物与疾病的关联关系预测的研究方面，提出了SSABCMDA方法、LGBMMDA方法、MDAGCN方法、DWRF方法。微生物与疾病的关联关系预测的研究方面，提出了LGRSH方法、HNGFL方法、MDHN方法。

基于人工智能的多组学数据与疾病的关联关系预测

随后，施建宇教授作为中国计算机学会生物信息学专业委员会等3个国家一级学会的专业委员会委员，结合生物信息学研究的经验与心得，进行了题为“Compound-Protein Interaction Prediction by Deep Learning: Databases, Descriptors and Models”（通过深度学习预测复合蛋白质相互作用：数据库、描述符和模型）的引导发言。施建宇教授分析了当前药物开发的大体趋势，即药物开发是个大工程，大致需要三个“十”：十年成本、十亿美元、十亿销售额。对于如此复杂庞大的工程和研发，需要跨专业科研人员的合作。靶点识别主要由生物学家来完成，而计算机科学家主要专注于化合物分析、化学结构分析、物理特性分析等。目前，AI可以帮助和加速药物研究，传统药物研究中小分子筛选需要11个月的流程，利用AI辅助可以减少至23天。药物化合物的研究中，预测某个化合物会不会和蛋白质进行相互作用。深度学习方法可以很好地帮助CPI（Compound-protein Interaction）的研究，其本质不在于分类能力，而在于深度学习的神经网络对化合物的结构化序列的刻画能力。化合物描述子的构建需要很强的领域知识，包括1D序列分析、3D结构分析等，而卷积神经网络所具备的强力的数据特征刻画能力，可以很好地帮助化合物描述子的构建。可采用的深度学习模型包括诸多经典的卷积神经网络结构、Attention-based模型、Binding complex-based模型等。对于未来的研究趋势，施建宇教授认为下列问题都非常值得深入研究：(1)如何利用生物信息学领域中大量的未标定数据；(2)如何利用大量现有的序列数据，将其迁移到3D结构的研究中；(3)如何利用深度学习模型进行单细胞测序，等等。

Compound-Protein Interaction Prediction by Deep Learning: Databases, Descriptors and Models

作为最后一位引导发言嘉宾，黄国华教授进行了题为“RNA序列的语义性及其在修饰中的应用”的引导发言。黄教授首先介绍了生物信息学研究的起源，生物信息学的研究可以追溯到1953年在Nature上发表的DNA双螺旋结构论文。DNA测序是DNA研究中的重要主题之一。全球目前大约有1700个DNA序列数据库，其中代表性的数据库包括INSD、库、EMBL库、BioSino库等等。DNA序列分析主要关注DNA序列比对，分析DNA的同源性。计算生物学的一个重要主题就是比较序列并尝试找出两个序列的公共部分。序列比对包括全局比对、局部比对、双重序列比对、多重序列比对等。其优点是通过计算找到同源分子片段，确定其功能；缺点包括计算开销大、对于没有同源性的序列不可使用、完全是形式决定内容而没有解决一词多义的问题、忽略了个体之间的联系。自然语言处理技术所解决的问题与DNA序列对比问题的本质非常相近，因此采用NLP技术解决DNA序列对比问题具有如下优点：（1）捕捉句子的抽象语义关系；（2）能够全面解释句子含义；（3）内容决定形式。在生物信息学领域中常用的人工智能技术和神经网络结构包括word2vec、CNN、LSTM、Attention、Transformer。语义性在RNA序列中的重要应用包括蛋白质翻译修饰PTM（Post-translational modifications），即通过调控修饰位点来改善或治疗疾病。对于PTM问题，黄教授团队提出了LSTMCNNsucc模型结构。对于RNA修饰问题，黄教授团队利用CNNLSTM结构实现了RNA序列的特征提取。

RNA序列的语义性及其在修饰中的应用

在思辨环节，参与论坛的所有专家和老师就以下三个议题进行了激烈的探讨：（1）从支持向量机到深度学习，人工智能的发展是否加速了生物信息学问题的解决？（2）聚焦“四个面向”战略部署，人工智能是否带来了生物信息学研究的新范式？（3）人工智能时代，生物信息学研究需要什么样的人才？这三个问题也是目前生物信息学领域需要面对和解决的问题。

对于“从支持向量机到深度学习，人工智能的发展是否加速了生物信息学问题的解决？”这个问题的思辨，专家和老师们讨论了下列子问题：1.1深度学习是否已经取代了传统的人工智能技术？1.2人工智能的哪些关键技术是未来研究的明日之星？

华中农业大学冯在文副教授认为，深度学习技术确实已经在很大成程度上取代了传统的机器学习技术，但传统的机器学习技术也不能被完全抛弃。目前深度学习技术提出了大量的新模型，但是目前还存在一些问题，例如可解释性、数据样本量的限制、技术落地应用遇到的困难。其中，具有代表性的问题如下：（1）传统的机器学习技术可能精度不如深度学习，但是可解释性优于深度学习模型。（2）深度学习需要大量的样本数据，但是在很多应用领域，例如生物信息学领域，样本量（3）特别是标注后的样本量还非常受限。因此，对于生物信息学领域中的很多实际应用问题，例如生物大数据问题，还是依赖于传统的优化方法和搜索算法。

中国地质大学（武汉）唐厂教授认为，对于深度学习是否取代传统的机器学习方法的问题，要考虑具体的研究和应用领域。深度学习效果好的前提是要有充足的算力和充足的训练样本。但是实际工程应用中，很多终端的计算能力非常有限，因而实际应用场景中仍旧采用传统的机器学习方法，依旧可以取得不错的应用效果。生物信息学中的关联关系研究，最终需要靠临床医生去验证，因此深度学习不可完全取代传统的机器学习和数据分析方法。深度学习在某些领域和场景可以获得比机器学习方法更好的效果，但是不能一概而论地说深度学习完全取代了机器学习。

华中农业大学章文教授认为，目前生物医学领域的很多研究者仍旧倾向于传统的机器学习模型，因为深度学习的模型得到的结果难以设计医学实验进行验证。

武汉理工大学李琳教授表示，人工智能NLP领域中目前常采用基于大规模数据样本预训练得到的模型。那么对于生物信息学领域的问题，是否也可以采用预训练模型来获得更好的效果？对于多种类型的数据组合问题，已有的联合表示学习等技术是否可以应用在多组学的研究上？此外，在NLP领域，目前的研究发展趋势是依赖预训练模型抽取的大规模样本的先验知识，然后让下游任务贴合上游得到的特征抽取结果。那么生物信息学是否也可以采用类似的机制？

思辨问题1：从支持向量机到深度学习，人工智能的发展是否加速了生物信息学问题的解决？

在“聚焦’四个面向’战略部署，人工智能是否带来了生物信息学研究的新范式？”的问题上，来自不同领域和方向的专家、老师们也各抒己见，讨论了下列子问题：2.1在哪些重大问题上已经取得了突破？2.2在哪些重大问题上还有待破冰？

施建宇教授认为AI技术在生物信息学领域的应用尚存在如下问题：（1）医疗影像方面，积累了大量的图像数据，可以直接应用人工智能技术辅助诊断工作。但是目前的问题是缺乏统一、权威的评价标准。（2）对于蛋白质的结构预测有个很大的突破。很多蛋白质测定不了结构，因为很多蛋白是膜蛋白，而球蛋白容易测定结构。因此，对于膜蛋白的测定是个非常有前景的研究方向。（3）药物研究的样本数量很有限，例如6000左右的样本数据，如何更好地将深度学习技术应用到小数据样本问题上是个值得研究的问题。（4）深度学习的相关技术，例如Python语言、Pytorch框架等都是国外开发研究的，国内的相关基础技术的研究较为缺乏，需要进一步研究和发展。

黄国华教授则表示，人工智能技术可以用在新型的功能分子的研究上，例如是否可以设计一些类似的功能分子，以促进合成生物的研究和发展。

思辨问题2：聚焦”四个面向”战略部署，人工智能是否带来了生物信息学研究的新范式？

在“人工智能时代，生物信息学研究需要什么样的人才？”的问题上，专家和老师们分析和讨论了如下子问题：3.1从事基于人工智能的生物信息学研究，应该具备哪些基本的知识？3.2生物背景的人才和计算机背景人才，未来谁更有优势？

雷秀娟教授认为，计算机和生物人才的优势不能一概而论，还是需要看具体的领域和问题。目前的研究需要的是高度复合型的人才，需要生物、化学、计算机、信息学等多领域多学科交叉的专业知识。雷教授目前团队中的学生以计算机专业背景为主。

施建宇教授表示，一般来说生物学背景的学生完全不懂数学和计算机，而计算机背景的学生则表示看不太明白生物方面的问题。本身生物信息学就是生物加上信息学，因此需要学生掌握生物学和信息学的基础知识，同时也要掌握最新的人工智能模型和技术。生物学背景的学生只能使用已有的方法来跑数据，对算法和模型本身难以进行研究；而计算机和信息学背景的学生对于实验结果的分析相对欠缺，对数据结果的敏感性不够。因此，学生都应该具备挖掘深层机制的驱动意识。生物和计算机人才都是有优势的，只是侧重点不同。

黄国华教授课题组里面主要是计算机背景的学生，没有生物学背景的学生。计算机学生倾向于写代码写程序，但是对于实验结果的生物学意义缺乏认识和理解，因而计算机学生对于较为复杂的建模感到吃力。因此，计算机学生和生物学学生一起合作、相互互补，才能得到更好的研究成效。

冯在文副教授提到，在2021年国家基金委的研究指南中，生物信息学的大方向是生物大数据的标准化、可视化是一个重要的研究方向，特别是生物大数据的标准化方面。因此，需要形成一个更好的协作机制，方便计算机学生和生物学学生进行讨论、分析、合作。

唐厂教授认为，计算机专业背景强调的是技术和方法，生物学专业背景强调的是机制和原理。只有计算机专业学生更好地理解了生物学的原理和机制之后，才能把技术和方法更好地应用到具体的生物信息学领域的研究中。

李琳教授表示，生物信息学的学生培养方案中加入更多的计算机相关课程，或许能得到更好的人才培养成效，生物信息学的发展主要还是依赖于生物学人才。

武汉科技大学胡威教授表示，生物信息学的培养体系中是否进行了学科交叉的课程设置？如果生物信息学的人才培养体系本身就缺乏计算机的相关课程和知识，是否应该加入相关交叉性的课程？章文教授则回答道，目前华中农业大学生物信息学专业的学生培养体系的课程中，一部分课程跟生命科学专业交叉，而另一部分则涵盖了一些编程相关的课程。即使是在生命科学专业，也是非常欢迎生物信息学学生这样的复合型人才的。

思辨问题3：人工智能时代，生物信息学研究需要什么样的人才？

与会人员合影

本次论坛历时三个小时，通过引导发言、论坛思辨，辨明了生物信息学领域在人工智能时代遇到的新问题和困惑，分析生物信息学领域面临的主要挑战，探讨人工智能技术应用在生物信息学领域中存在的若干重要问题，探索生物信息学人才培养的痛点与解决之道，将更好地推动人工智能深度学习技术在生物信息学领域中的深入应用。

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum