Skip to content

人工智能在生物信息学中应用的优化展望

前言

人工智能(AI)技术,特别是基于大模型(Large Language Models, LLMs)的研究方法,为生物信息学带来了革命性的变化。这些技术不仅提升了数据处理的效率,还为科学研究提供了全新的视角。然而,当前应用过程中也暴露出诸多挑战,例如算法性能优化、数据质量控制和跨模态数据融合等问题,这些都值得深入探讨。

本文旨在分析大模型在生物信息学中的最新进展,提出了一种新的,完全基于生物学数据的大模型思路。


大模型在生物信息学中的突破性应用

图像分析与大模型的结合

近年来,大模型在生物图像分析中取得了重要突破。2024 年《Nature》八月特辑中,Loïc A. Royer 的通信文章 Omega — harnessing the power of large language models for bioimage analysis 提出了利用 GPT 技术开发的图像分析插件 Omega。这款插件能够:

  • 对显微镜图像中的生物学实体(如细胞核)进行自动分割;
  • 基于大模型的感知能力,优化数据处理效率,减少人工干预。

通过大模型的引入,生物图像分析从以往的人工处理逐步过渡到智能化和自动化,显著提升了数据处理的精度和速度。

图像分析示例

单细胞 RNA-seq 数据分析中的应用

另一项重要进展是利用 GPT-4 进行单细胞 RNA-seq 数据的细胞类型注释。在 Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis 一文中,研究团队验证了 GPT-4 在该领域的优势:

  • 提供从全人工注释到半自动甚至全自动注释的解决方案;
  • 与人类专家和其他自动化程序相比,展示了更高的准确性。

RNA-seq 数据分析示例

这表明大模型有潜力成为 RNA-seq 数据分析的标准工具。


技术创新与挑战

跨模态特征融合的创新方法

水木分子和清华大学团队开发了一种新的训练方法,通过将不同模态的医学数据映射到统一的文本特征空间中,实现了多模态数据的高效比较和交互。他们使用了开源模型 Meta LLaMA2 并进行了针对性优化。这一方法在提升数据互操作性和模型泛化能力方面表现突出。该工作目前已经开源到 GitHub|rMolix/BioMedGPT-LM-7BHugging Face|rMolix/BioMedGPT-LM-7B 中。

跨模态特征融合示例

BioGPT 概念

目前采用自然语言模型训练生物学大模型的局限性

在我的观点看来,对于 BioGPT 这个猜想最接近的应该是上面我所介绍的,来自清华大学团队的rMolix/BioMedGPT-LM-7B 模型,他们使用了具有生物学意义的数据集进行训练。但是由于他们使用了开源的文本问答模型,在实际训练的过程中不得不考虑到将生物学意义与自然语言进行对齐的问题。

基因、蛋白、分子这些具有明确生物学科意义的东西与自然语言具有显著区别。在使用自然语言模型中,主要的问题是自然语言的表达往往包含模糊性和多义性,而生物学领域的数据和术语需要高度的精确性和一致性。例如,“基因表达”在自然语言中可能会引起误解,被模型错误解读为与“人类表达”或其他非生物学意义的词义相关。此外,生物学数据通常以表格、序列、分子结构或复杂网络图的形式呈现,这些形式难以直接嵌入传统的自然语言模型中。这种数据模式的不一致性使得训练模型时需要构建大量专门的预处理和后处理步骤,从而显著增加了研发成本和计算复杂性。

在参考了上述利用现成的自然语言生成式人工智能之后,我觉得可以从头起建立一个基于生物学的大模型,这种方法参考于目前 LLM 的训练方法,但是训练的数据集完全脱胎于自然语言,内部的逻辑摒弃了自然语言的模糊性,或许能更适应生物信息学研究的要求和预期,从根本上适配生物数据的独特性。

核心思路

在训练模型的时候依然要借助于自然语言的训练方法,只不过可以将基因当作词组,将生物学特性当作句子;基因序列可以看作是一种“语言”,不同的基因(或基因组合)是词汇,性状(如身高、疾病、代谢特征等)则是由这些词汇构成的“句子”或“段落”

但是在这里又出现了另外一个问题,生物学数据通常并不是单一的 txt 文本,包括序列、图等等,在模型建立的初期就要考虑到多模态的问题,BioGPT 要考虑到多种不同的生物学数据的输入的问题,比如说我们可以考虑给 DNA/RNA 或者蛋白质进行编码,使其统一格式

应用

BioGPT 本质还是基于GPT 架构,从大量的生物学数据中进行训练,并且能够基于大规模的学习生成高质量的,基于生物学意义的分析和预测

在我看来,BioGPT 最少要满足以下几个基本能力

  1. 基因功能预测:训练成 GPT 这样的模型之后,可以用这个模型去预测已知序列,但是未知功能的片段,甚至是预测功能区
  2. 复杂性状建模:多基因的相互作用是很难研究的,或许可以利用模型进行预测,类似于 ChatGPT 中的长难句子分析
  3. 准确理解生物学意义:生物学本质还是无法脱离生命世界,BioGPT 训练的时候就考虑到要满足生物学意义的基本要求

难点

基因到性状的表达要先进行转录、翻译,之后形成多肽之后还要进行折叠等等过程,Google 的 AlphaFold |Wikipedia 在做相关的工作,预测蛋白质结构,实际行使的功能和生物学意义

此外基因与性状之间的关系通常是非线性的且依赖环境,如何提高模型的预测准确性是一个难题,在实际训练的过程中是不是还要加入环境这一个考量因素,如何把环境这个因素给量化

此外在不同物种之间,基因的表达和调控也不同,在训练的时候如果考虑到跨物种的问题,基因的数据集将非常大,最后的训练结果也将非常不可靠,也许可以借鉴训练出不同物种的小模型,之后将小模型融合训练成通用的大模型

展望

首先需要指出的是,CS 在一定程度上已经严重影响到了本专业(指生科)的发展,在听中科院老师报告的过程中,我发现他们在研究的过程中使用了很多的 CS 技术和模型,包括一些算法,而这些工具和算法对于生科本科的学生来说,几乎是无法在课堂上学到的

一些与算法相关的课程,比如说高等数学、线性代数、离散数学等等,生科的本科生是不学习的,甚至高数都只学最简单的B1

不仅仅是生科,一些依赖转型发展或者 CS 技术的交叉学科似乎都面临着这样的问题,大家都希望借助 CS 来帮助本专业的研究,这固然是一件好事,但是对于人才的培养这本身是矛盾的——一个好的生物学家很难又成为一个计算机科学家,很难创造出比较独立/个性化的算法,很多都是利用计算机科学家已经研究得非常透彻的算法,这样的话其实存在着知识的“滞后性”,没办法把世界上最先进的两种成果马上融合起来,去创造出更好、更前沿的东西

跨学科的合作或者发展固然是无比重要的,未来也需要更多的计算机科学家投身于生物科学的研究,生物学家也要利用好计算机这一工具,要努力提升自己的 CS 水平

声明

在查阅相关文献的过程中,我发现已经存在 BioGPT 这样的一个项目,是来自 Microsoft 团队的,但是这个项目与本文中所提出的 “BioGPT”含义本质上是不一样的,他们所提出的还是基于自然语义学习,用于生物医学文本生成和挖掘的生成式预训练转换器

因此我认为他们所提出的概念与本文的不一样,在本文我还是使用“BioGPT”这种说法

参考文献

参考

最后更新于:

Released under the MIT License.