打破“反摩尔定律”成为可能,生物计算未来会有哪些颠覆性变革?

关注
生物计算到底是如何改变制药行业的?

编者按:本文来自微信公众号 纪源资本(ID:JiyuanCap),创业邦经授权转载。

「生老病死」是人类社会永恒且无法逃避的话题。医生在手术台上与病痛短兵相接,而科学家多年来则在繁复的实验中耐心寻找疾病的源头和解决办法;从「药」被记录进史料的第一刻,人类就开始了漫长而艰辛的对疾病的探索。

1918年开始的全球流感大爆发是人类医学史中最值得铭记的一笔,但也由此成了全球临床医学进步、传统医学向现代医学转型的契机;二战时研究出的青霉素是人类医药史上最重大的发现之一,它从军用转民用后的很多年中,拯救了无数人的生命;上世纪90年代早期,器官移植出现了突破性进展,让数以万计的病人重新得以生存。

但生命科学行业的演进还远远没有停止。在过去的很多年中,蛋白质结构一直是药物研发中的关键一环,对蛋白质结构的认知能让科学家更深入地了解蛋白质的分子机制和工作原理,从而了解可能导致的疾病、以及治疗方式。

640.png

早期的药物研发靠的是大量的实验室中的盲筛,在不断试错中找到最优解。由此,在医药行业一直有“反摩尔定律”的说法——尽管制药公司一直在增加投资,但投资10亿美元得到的上市新药数目,每9年就会减少一半。药物研发一直以来存在研发成本高、研发周期长的问题,而科学家能否从数万个小分子测试里筛选出对的结果、并推进到临床阶段,存在很大的不确定性。

最近几十年,得益于生物计算的发展,我们制药的进程被大大加速,打破“反摩尔定律”成为可能——基因测序让蛋白质结构预测成为现实,而技术与硬件的进步则让科学家能够在广阔的蛋白质序列和结构中,去创造一些之前并不存在的蛋白,更好地确定蛋白质靶点的可制药性以及蛋白设计。

640.jpg

刘维

我们希望预测一种围绕新靶点的药物,通过寻找与其匹配的新蛋白质。这些靶点可能是以前药物搜索中未涉及的领域,也可能是人类或自然界中原本不存在的蛋白质组合。然而,疾病背后的细胞间互作关系、细胞内部的蛋白质网络互作关系,以及不同氨基酸如何组成蛋白质,不同蛋白质的形状和功能等,所有这些信息在历史数据中都有一些碎片化的线索。通过学习这些碎片化的线索,比如我们今天所做的大模型,它从多个物种的蛋白质中学习,最终能够提炼出一些弱关联的知识,帮助我们预测特定问题。

这是生命科学研发平台百图生科的联合创始人兼CEO刘维。他们推出的生命科学大模型xTrimo,是全球首个、也是目前最大的生命科学领域的超大规模多模态模型体系,这一体系旨在加速人工设计蛋白进化的速度,从而解决生命科学行业的痛点问题。

那么,生物计算到底是如何改变制药行业的?如果我们将生物计算放在人类医药史的浩瀚长河中看,它带来的关键变革是什么、而未来还有哪些颠覆性的可能?

刘维

最早的时候,无论是中药还是像阿司匹林这样的药物,大家都知道是从树皮中找到的。那时更多的是像神农尝百草一样,把这些草药和目标细胞做一些实验就可以了。今天的很多设计并不依赖于在自然界中观测和发现的基础,而是更多地来源于人类从整个进化树或者蛋白质的可能空间中做出的预测。

正如刘维所说,传统制药是“神农尝百草”的过程。

以分子化学药物举例,新药研发通常要经过药物发现、临床前研究和临床试验这三大流程。候选药物的发现,首先需要选择和确定药物的作用靶标,而靶标是一种与某个疾病密切相关的生物分子,蛋白质就是其中的一种;如果能对这类生物分子进行干预,就有机会治愈或缓解与它们相关的疾病。药物作用的靶标确定了以后,科学家们需要根据靶标的空间结构,来设计或者合成先导化合物——这类化合物可以是全新结构的化合物,也可以来自大自然;在此之后,还需要经过大量的活性筛选等流程,筛选出最优化合物,作为候选药物,进入临床前的开发阶段。

这也多少解释了为什么「理解蛋白质结构」这件事,对生物制药而言如此重要。

在传统制药的流程中,科学家想要弄清楚未知蛋白质的结构、并且理解它对应的在细胞中的作用,要耗费数年的时间、投入大量的人力、物力、财力才有可能实现;很多时候这个过程甚至需要靠一点运气——有时候哪怕做了上千次实验,投入了数百万人民币,都有可能出不来结果。

刘维

我们刚才提到的精准靶向药物,人类现在常用的工具,比如在大分子抗体药物中,有些是从人的血液中查看那些病情好转的病人,看看他们血液中有什么不同的东西,然后把这些提取出来当药。或者,我们给小鼠注射一些目标靶点的蛋白,观察那些存活下来或抗体发展较好的小鼠,相当于用动物模型进行筛选。在生物计算出现之前,我觉得主要还是依赖于动物模型或人类的真实物理世界筛选。通过这样的筛选得到一些种子,再对这些种子进行一定的改造。

如今,依托于生物计算的制药行业,能够将大量的人力从实验室和重复实验中解脱出来;在药物发现阶段,探索并预测蛋白质结构——或者说,「解密蛋白质宇宙」的过程,可以交给计算机来做。

刘维

我们回想一下当年的化疗药物,那真的是杀敌一千,自损八百甚至一千二,实际上是全身杀伤。后来出现了一些精细化的小分子药物,它们实际上是针对某一类蛋白有结合能力。再到靶向药物,它们能够比较精准地靶向具体的某一个蛋白。再到今天我们所做的这些,或者行业里很多在做的下一代精准药物,比如我们做的免疫机器人这类药物,它不仅是在看到一个靶点蛋白时才会触发,还可能会看这个靶点蛋白所处的微环境中是否有对应的合适酶。甚至它可以判断在一个细胞上是否同时有a、b、c三个目标蛋白,只有当三个都有时才会触发,只有a、b或c都不触发。这样的话,精准度其实越来越高。

从早期“无差别攻击”的化疗药物,到科学家们逐步探索的靶向药和下一代的精准药物,制药行业内的整体趋势都在往更精细化的方向演进。

640.png

具体来说就是,在人体复杂的免疫系统中,有多达数十类、在不同组织器官环境中有不同特征的免疫细胞族群,每个细胞上又有数以万计的蛋白质,而科学家们探索的,是如何在不杀死人体正常需要分裂的细胞的同时,精准找到药物所针对的靶点蛋白,“对基因下药”。

刘维

这是两个最大的趋势:一个是精细化程度越来越高,另一个是筛选和发现的手段越来越依靠理性的建模,而不是自然的观测。我们人类的药物发现,正在从天然筛选和以天然筛选为主,逐步走向理性设计,再到现在我们所做的由生物计算大模型驱动的设计,应该称为“De novo设计”,即创新的、从头开始的设计。因为我们实际上并不依赖于在所见即所得的环境中看到一个东西,而是可以从理性设计的角度出发,设计出新的药物,然后再通过高通量的验证实验来判断它是否对目标的精细化问题起到良好作用。

正如刘维所说,生物医药行业的另一大变革就是:从天然筛选走向更为理性的设计。他所提到的De novo设计指的是基于计算机的全新药物设计,在上世纪90年代曾经出现相关的文献报道,不过当时受限于技术与计算资源等问题,De novo能直接成功的案例并不多。

近几年,深度学习与算法算力的不断进步与完善,为全新药物设计的基础设施打下更为牢固的地基;如果我们放眼全球,会发现各大科技巨头与新势力都在持续投入相关研发,推动这场由生物计算驱动的医学革命——

譬如在2016年,DeepMind开始研究蛋白质折叠问题,2年后推出的AlphaFold成功预测出了43种蛋白质中25种蛋白质的最精确结构,到了2022年,AlphaFold向公众免费开放了蛋白质结构数据库,已经实现了对98.5%的人类蛋白质的准确预测,他们的结构预测精度可以对基于结构的药物设计产生潜在影响,特别是那些还没有解析结构的新靶点。而谷歌母公司Alphabet也在2021年成立了Isomorphic Labs,利用DeepMind的技术加速药物研发。法国制药巨头赛诺菲与Exscientia建立战略合作,开发AI驱动的精准工程药物管线,而后者是英国的AI制药领头羊。

无论是更为精准的药物设计,还是愈发走向生物计算驱动,行业中这些站在前人肩膀上不断提升的努力,让药物研发的效率越来越高,也为人类攻克那些暂时无解的医学难题提供了新思路。

刘维

在我们进行生物计算之后,我们对行业中已经通过传统发现手段确定的靶点进行了新一轮的生物计算预测。通过生物计算能力,从与小鼠和人类不同的蛋白质空间中,寻找可能的新发现。这样的预测带来了亲和力的提升,亲和力是一个典型的指标。

大家都知道,我们人体的免疫系统的进化逻辑是,当它发现需要纠正的人体内的蛋白质时,它如何生成一个天然的蛋白质,与人体内的蛋白质相互作用,达到所需的亲和力和精准结合的位置,从而产生所需的功能。

自然界中有些蛋白之间的亲和力非常紧密,但在动物体内往往不会进化到过于紧密,因为过于紧密可能引发各种副作用。因此,从动物体内筛选出来的亲和力可能只是中等水平。但是,如果我们的生物计算大模型能够从更多的天然和非天然产物中学习,它可能会找到如何进一步增强亲和力的方法。因此,亲和力是一个关键指标。

我们在设计药物蛋白时,往往希望它与目标蛋白之间的亲和力较高。这种亲和力的提高,可能在已经被充分研究过的靶点上,再提高1-2个数量级。这其实只是一个开始,我们认为未来还能够不断提高。

除了亲和力的提升,在刘维的观点中,生物计算对药物研发带来的另一个指标性的变化是「特异性」。回归提升这些指标的本质,试图解决的都是靶点的精细化研究、与药物的精细化设计的问题。

刘维

人体内常见的蛋白质可能有几万种。当我们设计出一个药物后,传统的生物筛选法更多关注的是药物与目标靶点的结合是否良好,但无法穷举它与其他人体内蛋白质的结合。有时会出现一个悖论:药物与目标靶点的结合确实最好,但副作用率也最大。生物计算的好处在于,可以同时计算任何一个蛋白质与所有靶点的结合,找到Delta值最高的。因此,特异性的提高是生物计算带来的一个显著变化。

我们现在研发的药物,希望带来什么样的变化?传统基于生物筛选法的药物,更多是单一靶点,或简单地把几个靶点拼在一起。简单拼在一起的药物,可以同时结合a靶点和b靶点,在体内提高一些有效性,因为碰到a靶点或b靶点都能起作用。但这并没有提高安全性,有时甚至降低安全性。因为当药物同时针对a、b、c、d多个不同靶点时,安全性有限,浓度不敢给太高,有效性反而不高,这还是不精准的问题。

我们今天努力的方向是:首先,希望每一个药物弹头更加精准,亲和力更高,结合的表位更加精准。因为有些药物不一定是亲和力越高越好,而是越精准越好。其次,能否在每一个弹头上加上类似传感器的创新蛋白质,使其在特定环境下才触发,通过可编程蛋白质的设计实现药物的作用机理(MOA)。例如,当a靶点出现且b靶点被激活时,经过比如5毫秒,c靶点才释放。因为人体细胞有其运作规律,同样是a和b两个靶点,先打a再打b是正向作用。如果先打b再打a,a激活后发现没有b,可能反而对人体有害。

落实到我们日常可以感知的临床收益层面——正如前面刘维举例提到的,化疗药物能够从最早的“全身杀伤”变得更为精准,生物计算研发药物,对于疾病认知、预防与治疗,带来的改变是颠覆性的。

640.jpg

刘维

我认为,更多的病人将受益于药物安全性的显著提高。首先,药物的安全性是限制药物有效性和长期使用的主要问题。很多病人其实是因为药物的错误使用而受到伤害。其次,药物的有效性和长期效果也会提高。现在大量的免疫药物很快就会产生耐药性。第三,药物的适用范围和能够解决的疾病领域将大大扩展。比如,很多实体瘤的问题在于药物没有足够的浓度,无法穿透到肿瘤部位,或者在穿透过程中药物已经被损耗掉了。通过条件触发机制,以及使用具有独特穿透能力的De novo蛋白质等独特构件,可以扩展药物的实用性。

但是目前,生物制药行业依然有诸多难点亟待解决,行业效率不高就是其中之一。当下的很多药物研发企业所做的是针对单点问题的发现,他们耗费的大量的研发成本,也许能解决一个靶点的问题,但并不一定能快速应用到其他靶点;对于行业中的同行者而言,他们也很难将这些积累下来的技术发现应用到自己的领域。

行业效率的整体提升,需要依赖那些关键部件的平台级公司,而这也是百图生科正在尝试做的。

刘维

我认为,随着产品复杂度的提高,情况会发生变化。比如,早期制造汽车很简单,大家都是手工制作。当汽车的复杂度提高后,必然会出现几家专门生产变速箱的厂商。一线车厂不会自己生产变速箱,只有几家专业厂商负责这一部分。飞机发动机也是类似的情况。

今天的药物研发,很多药企花10年的时间,用动物模型围绕一个靶点开发一种药物。如果成功了,当然皆大欢喜。但其他药企可能也在做类似的药物,使用类似的技术路径,最终大家在分市场,效率不高。在这个过程中,很多东西没有积累下来,即使成功了,也无法将这个靶点快速迁移到另一个靶点。因此,发现效率都是针对单点问题的。

理想情况下,就像我们刚才提到的,如果这些算法模型达到一定水平,比如人类细胞常见的7000个目标蛋白质,我们能否把这7000个目标蛋白质对应的药物弹头都做出来,并且提前做好?不仅是做一种选择,而是做100种、1000种选择。因为在虚拟空间内做设计,做100种、1000种与做一种的本质难度差别不大。

这100种、1000种弹头有不同的亲和力水平、不同的结合表位、不同的功能,甚至不同的专利多样性,从而可以为许多药物开发企业提供现成的选择。如果某个药企想针对某个靶点,可以直接选择预制的1000个弹头中的第957号。虽然一次性制作这些东西有一定成本,但我认为这样可以避免行业内重复发明轮子。

另一方面,人类在生命科学领域的研究持续演进,但是它的实际落地能力受限于传统的动物发现等因素,存在一定的滞后性。

刘维

人们对机理已经有了初步的判断。比如,大量的疾病,包括一半以上的人类疾病,如肿瘤、自身免疫性疾病、感染,甚至衰老,都与免疫有关。现在人类对免疫的机理已经相对清楚,就是因为免疫细胞过度激活或未被激活。如何激活它们,就是在这些免疫细胞的蛋白质靶点上,找到合适的蛋白质,像开关一样,把a、b、c推开,把d、e、f降下来。

但问题在于,首先,我们设计不出更好的药物来调节这些开关。其次,这些开关在不同场景和不同人群中的规律并不完全相同,虽然大体逻辑是一样的。在实验中会发现,有些人群是这样,而另一些人群正好相反。这些不尽相同的规律和与之相关的药物设计如何实现?我认为,科学已经相对清楚,但需要我们这些企业去做出实际的努力。

这也是百图生科推出生物计算大模型的出发点之一——他们试图搭建的是一个生命科学大模型的平台,这个平台更倾向于「平台工具」属性,而不是仅为某个企业服务、或只是解决某个疾病。这个大模型能够建模和表征蛋白质细胞生命系统,从而对人体的很多问题进行预测、并且能够生成各种新的蛋白质,用这些蛋白质来做药物,解决疾病治疗、或者更广泛意义上的,与「生命」有关的问题。

刘维

生命科学领域真正的圣杯是那些难以成药的靶点,是那些从未被制药的靶点,以及那些尚未发现的疾病问题。我们现在称自己为AIGP,即AI生成蛋白。这是因为语言是人类的语言,而蛋白质有点像是造物主的语言,或者说是整个自然界的语言。

我们两年前创办这家公司,也是基于对这一趋势的分析。我们认为有几个因素正在达到临界点。第一个因素是数据。任何大模型都离不开数据,而且这些数据必须在一个合适的范围内。当数据量非常大时,可能不需要复杂的模型,就像今天的GPT,它能够整合许多弱相关的数据,给出一个答案。如果数据多到所有问题的答案都已经存在,那只需检索即可,不需要更强大的AI。同样,如果数据太少,大模型也没有用武之地。如果数据与目标问题高度相关,也不需要复杂的AI技术;如果关联性太弱,大模型也无法提取有用信息。

因此,我们两年前进入这个领域的一个重要契机是单细胞组学、单细胞CRISPR扰动及其观测等技术在过去五年内的快速成熟,达到了类似于智能手机和互联网的临界点。

单细胞组学带来的数据量是以前的几千万倍,这些数据可以映射到蛋白质。单细胞组学实际上测量的是每个细胞的基因组和转录组,这些可以翻译为细胞内的蛋白质表达。这意味着我们现在能够快速掌握大量的人体组织或动物组织中蛋白质在细胞内的组合方式,以及细胞间蛋白质的相互作用。但这些信息用传统的生物信息学和传统的任务模型是无法分析的,因为噪音太高。

第二个点是是否有好的大模型框架来表征这个问题。我认为这也是AI,或者说AI与各行业领域知识相结合,经过多年研究和准备,逐渐进入临界点的原因。就像我们今天的自然语言大模型,也是依靠人类对字词句章的理解,包括GPT-4,它实际上整合了很多跨模态的内容,比如图片和视频,如何映射到语言描述中,如何打通这些模态。我觉得我们今天面临的机遇也是类似的。在过去两年内,我们致力于将蛋白质、细胞、基因、免疫系统等整合成一套表征体系,找到如何通过蛋白质的开关来调控细胞功能的逻辑。这种逻辑既需要底层的AI设计,也需要很多生物学领域前沿的科学假设。我认为这是第二个成立的条件,否则再强大的大模型也无法应用于生命科学领域。

第三个条件是算力的快速发展。特别是在生物计算领域的大模型中,算力有一些独特的要求。因为无论是模型还是数据,这些都是不一样的。而且,生物计算的大模型往往会与物理模型有更多的融合,因为生物领域涉及很多物理问题。这些问题需要高算力的AI for Science或CAD for Science等模拟计算软件来解决。这些工具对算力的需求非常高,如何与大模型进行融合也是过去几年快速成熟的一个领域。我们依靠像百度这样的资源,能够很好地利用这些优势。

第四个条件是高通量的验证体系,这在生物领域非常重要。虽然从计算侧的视角看似乎没那么重要,但在生物领域却至关重要。GPT大模型的第一代解决的问题往往依赖互联网,通过互联网的快速闭环反馈来解决验证问题,所以压力不大。但是,在自动驾驶等领域,大模型的应用已经向这个方向发展。

很明显,如果没有自动驾驶的闭环验证体系,大模型预测出的各种结果,特别是支持的一些任务模型的预测,是很难闭环的。现在有大量新兴的实验技术,我们可以从最优秀的实验室和科学家那里整合这些技术,但系统整合是我们的核心优势。如何将其变成一个能够高速闭环验证的系统,这样大模型和任务模型才能实现快速收敛。

技术侧的条件趋于成熟,那么下一个问题则自然浮现了,从应用侧,要如何负担这样一个生命科学大模型的成本?

刘维

有时候问题不在于钱。就像GPT,如果没有大量用户使用它,或者AlphaGo如果没有很多围棋手与它对弈,这些技术也无法进一步提高。因此,回到生命科学的大模型,有没有实际的高价值药物研发项目作为测试任务和启动任务也是至关重要的。

我们认为,这种创新蛋白正好为大模型提供了难得的测试需求。由于这些项目具有高价值,无论是我们自己投入,还是我们的合作伙伴愿意投入,都可以共同推动大模型的发展。

百图生科的商业模式是AIGP驱动的co-development合作——具体来说可以分为两大块,一块是自己研发药物,此后转成共同开发,另一块则是从头就与合作伙伴共同开发。

640.jpg

百图生科目前有100个左右的药物进入了上市或临床后期的阶段,从这个角度看他们是一家药企;而换个角度看,百图生科的优势是发现创新分子、研发前沿药物,这也让他们得到不少大型药企的青睐,与其一起合作研发药物,提高行业效率。

刘维

我们有能力自己进行药物或资产项目的开发,但我们利用这种能力与其他强者联合开发,然后在合适的时机,转让我们的一部分份额。我们自己做药物,尤其是前沿药物,一般只做到IND阶段,即获得临床批件,甚至更早的阶段。我们不在后续的临床阶段进行更大的投入,因为我们的优势在于发现非常创新的分子。这些创新分子在行业内能够吸引大型药企的青睐,通常在比较早期时,他们会购买或部分转让这些分子,或者投入他们的重要资源。

比如,一个药物可能由多个不同的构件拼接而成。我们可能开发了几个新的关键构件,如新的免疫细胞调控能力。而大型药企可能在其他靶点上已经开发出上市药物。通过强强联合,可以大大加速药物的研发进程,同时避免重复发明轮子。

这种与大型药企强强联合的模式,与传统制药行业内的CRO模式并不相同。CRO模式指的是医药研发合同外包,指的是通过合同形式,为药企的药物研发提供专业外包服务;对于制药企业而言,找到专业的CRO,在一定程度上能降低他们的研发成本和试错概率。但百图生科选择了一条不同的商业路径。

刘维

这种模式我们称之为“规模化发现”模式。这是一种批量研发的模式,比起单独开发一两个药物,它的平台属性更强。相比于提供一些简单的CRO服务,尽管CRO领域有许多巨头,他们是通过多年积累起来的。有些小型CRO可能提供简单的服务或软件,能够介入很多项目,但每个项目的收益较低。

我们的联合开发模式,希望每个项目都能带来可观的收益,少则可能1亿美元,多则10亿美元甚至更多。如果项目成功,这就能支持我们的规模化发现,打造一个几十亿甚至未来上百亿的资产组合,从而让大模型的投入变得更有价值。

当然,生物医药达到如今的成就,并非是一家公司的力量可以推动的。正如我们开头提到的那些人类医药历程中的关键节点,这些发现并不只是个人成就,而是那些肩负使命的学者、公司、行业的推动。

刘维

我觉得生命科学领域最大的魅力在于它是真正的全球化。与许多行业不同,生命科学不像“零和游戏”那样大家竞争抢市场。生命科学行业本质上是大家共同与疾病作斗争。谁能攻克一个难题,或者通过合作取得突破,人类就能从中受益,新的市场也会因此出现。所以,从这个角度看,我觉得大家都在做一些非常有使命感和责任感的事情。

每个地区都有其独特的优势。美国市场在底层技术和原生态技术上非常强大,而且有很多大药厂和丰富的临床资源。欧洲也有很多优秀的药企,在疾病科学研究和前沿生物技术方面有深厚的积累。虽然欧洲本土市场不够大,但它往往通过与美国、日本等国家的药企进行全球化合作。

在中国,我们在苏州有一个大型高通量实验室,是我们的蛋白质研究中心,也是目前世界上最大的生物计算行业的蛋白质生产设施之一。在北京,我们的实验室依托北大、清华、北生所等机构,具备非常强的前沿研究能力。中东地区现在也在快速崛起。

「使命」是这个行业的关键词。无论技术如何更迭、热钱涌进了哪些赛道,又有哪些创业者看到希望、决定投身于生物医药创业,但这个行业一以贯之地坚持的,永远是那些困扰人类健康的、或是能让人类活得更好的生命科学难题——而这与商业竞争无关。

刘维

我们与去年未来科学大奖得主李文辉教授的合作非常值得一提。李教授不仅是未来科学大奖的得主,也是华人科学家中发现最有前景靶点的人之一。然而,这个靶点非常难以攻克,因为它本身非常复杂,并且在人体内有重要功能,不能简单地阻断。

对于这种难以成药的靶点,我们正在使用计算生物学的方法进行多轮迭代尝试,虽然不敢保证一定能成功,但这些问题本身就非常困难。因此,我们并不指望一次性成功,而是通过迭代快速找到方向,加速药物研发。如果我们能够在未来一段时间内证明我们能攻克这个靶点,对患者群体的收益将是巨大的。

在当前的国际形势下,我认为大家有更多合作的责任,共同为了人类的发展和生命安全而奋斗。大家都是这样的心态,希望整合全球不同的技术优势,来解决人类疾病的问题。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅