一、行业定义
AI蛋白质设计是指利用人工智能技术(如深度学习、生成模型和强化学习),结合蛋白质序列、结构和功能数据,对蛋白质进行预测、设计和优化。
蛋白质设计旨在从头设计或优化蛋白质的序列,以实现特定功能或提高天然蛋白质的性能。传统计算蛋白质设计通常采用能量函数和特定的搜索优化算法获得设计的序列。近年来,随着先进算法的发展、大数据的积累和计算机硬件算力的增长,人工智能技术得到了蓬勃发展,并逐渐应用于蛋白质设计领域。
AI在蛋白质设计中的应用主要体现在结构预测、功能优化、相互作用预测和高效筛选等方面。通过深度学习模型,根据氨基酸序列准确预测蛋白质的三维结构,这为理解其功能提供了重要依据。此外,AI还能够优化蛋白质功能,设计具备特定功能的分子,如高效催化酶或抗体,极大地加速了药物研发和生物技术应用。
AI在预测蛋白质-蛋白质相互作用方面也表现突出,通过分析大量数据,AI能够识别潜在的药物靶点,推动疾病机制研究。结合高通量筛选技术,可以在海量候选分子中快速找到最具潜力的蛋白质,减少实验验证的成本和时间。
此外,人工智能自我迭代能力使得设计过程能够实时优化,提升设计精度和效率。通过这些技术,极大地推动了蛋白质工程的发展,尤其在药物发现、工业生物催化和生物制品开发等领域具有广泛应用。
AI蛋白质设计的上中下游可以从数据收集、模型训练、设计生成、实验验证等多个层面进行细分,整体流程涉及多个环节,每个环节都依赖于高效的人工智能技术与传统生物学知识的紧密结合。
在上游阶段,首先是数据的收集与处理。这一阶段的核心任务是为AI模型提供足够丰富和高质量的输入数据。这些数据主要来源于已知的蛋白质数据库(如PDB和UniProt),包含了大量的蛋白质序列、结构和功能信息。此外,高通量实验数据、基因组学数据以及临床数据等也为AI提供了支持。数据处理的过程包括清洗、去噪和结构化,确保数据能够在后续步骤中发挥最大效用。
进入到中游阶段时,AI的主要工作是对这些数据进行建模与训练。这一过程通常依赖于深度学习和其他机器学习技术,利用算法来预测蛋白质的三维结构、功能和其他关键性质。此时,AI模型可以根据蛋白质的氨基酸序列预测其空间折叠结构,或者通过其他生物信息学工具预测蛋白质与目标分子之间的相互作用。通过这种方式,不仅可以提升蛋白质设计的效率,还能在预测蛋白质功能、优化现有蛋白质性能等方面提供精准的指导。
在下游阶段,AI所设计或优化的蛋白质将进入实验验证的环节。尽管AI能够模拟和预测蛋白质的性质,但最终是否具备预期的生物活性、稳定性或其他功能性,仍需通过实验验证。这一阶段通常包括蛋白质的合成、表达和功能验证,如通过高通量筛选实验、酶活性测试、结合亲和力实验等方式来确认设计的有效性。如果实验结果不符合预期,AI模型需要通过反馈学习进行优化,从而迭代生成新的蛋白质设计方案。
这三个阶段在AI蛋白质设计的流程中形成了一个循环反馈机制。上游的数据收集和处理为中游的模型训练提供了基础,而中游的设计与优化又为下游的实验验证提供了初步的指导。下游的实验反馈进一步优化了上游数据的选择和中游模型的训练,形成了一个闭环。这种层层递进的过程使得AI蛋白质设计在蛋白质工程与药物发现领域展现了巨大的潜力。
尽管存在数据、计算和实验验证的挑战,但随着技术的发展,将在设计效率和应用范围上进一步突破,推动生命科学迈入一个智能化的新时代。
睿兽分析整理近年来相关公司的融资情况,2019至2021年AI蛋白质设计领域融资事件快速增长,2021年达到36起的峰值,显示出投资热潮。2022年后融资事件锐减,2024年触底至18起。数据或表明AI蛋白质设计作为新兴领域,其融资趋势在经历了快速增长后,可能进入了一个筛选整合的阶段。
二、相关企业
途深智合
途深智合是一家新锐AI蛋白质设计企业,其自研的ProteinEngine平台可以实现通用、快速的蛋白质设计与改造,应用在合成生物和生物医药等多个领域。目前已与国内外多家合成生物及医药企业建立商业合作。
途深智合致力于为客户提供通用、轻量、可控的蛋白质设计和生成式AI平台,加速合成领域蛋白质工程的研发,降低合成生物和医药领域中开发新产品的难度、周期和成本。能够帮助下游的合成生物、产品公司、生物制药公司实现定位突变、体外酶改造、酶从头设计、抗体结构设计、复合蛋白设计、全新序列设计、结构设计等任务,并进行产品联合开发或研发合作。
近日,途深智合宣布完成天使+轮融资,投资方包括锡创投和上海艾特海浦。2024年3月,其完成数百万人民币天使轮融资,由诚美资本投资,该轮所得资金将用于进一步加强AI+蛋白质平台的研发。
分子之心
北京分子之心科技有限公司成立于2022年1月,其自主研发了AI大分子优化与设计平台“MoleculeOS”,运用数据驱动的深度学习方法,帮助生物技术专家识别和产生蛋白质,以将实验室研究成果规模化投射到工业级应用。这一平台既可用于多肽、抗体、酶和小蛋白的研究和设计,将大分子创新药的研发变成可预测、可编程,为药物研发全流程提效;也可应用于化学、材料、工业、农业等领域蛋白质优化与设计。
核心技术产品层面,分子之心研发了一款一站式AI蛋白质预测、优化与设计工具——MoleculeOS平台,采用先进的机器学习和深度学习算法,能够帮助科研人员快速发现和改造蛋白质,通过精确的计算和建模,大幅提升实验室研究的转化效率。此外,分子之心自主研发的AI蛋白质生成大模型NewOrigin模型,综合序列、结构、功能和进化等多个领域,可针对产业应用需求在几小时内、甚至是分钟级“定制”具有特定功能的蛋白质,大大降低实验室的筛选和验证成本,提高蛋白质优化设计整体效率。人才层面,分子之心涵盖一批来自MIT、耶鲁、加州理工、清华、北大等顶尖高校及药明、诺维信、Meta、亚马逊、百度、阿里、字节、Discovery Studio等头部公司的人才。
2024年9月消息,分子之心宣布完成A轮数亿元人民币融资,由谢诺投资与深创投联合领投,国香资本和久奕投资跟投。本轮融得的资金将主要用于人才团队扩展、技术平台完善以及推动AI蛋白技术的产业化。
百奥几何
北京百奥几何生物科技有限公司是一家生成式AI驱动的蛋白质设计研发平台公司,通过打造生成式人工智能(AIGC)大模型理解生命语言,搭建自然语言与蛋白质语言多模态大模型,重新构建蛋白质药物发现及设计过程,打造可编程的蛋白质,应用于生物医药和生物制造。
团队方面,其核心团队是生成式AI在分子生成领域的开拓者,早在2021年就将扩散模型用于分子的三维结构生成 ,是最早将扩散生成模型用于分子三维结构生成的团队,其中关键论文GeoDiff是2022年AI领域引用量排名前50的论文之一。
基于自研生成式AI大模型,百奥几何研发了GeoBiologics一站式蛋白质设计平台,目前已经与多家国内外药企关于该平台达成授权合作。另外,百奥几何也与多家上下游企业达成了战略合作,共同推进生成式人工智能在生物制造领域落地,其中包括与阿里云共建人工智能生物制造智能化解决方案,与三优生物、佰君生物等共建抗体设计生成式AI大模型,以及与祥耀生物、引加生物等推进蛋白、抗体药物产品的共同开发。
2024年6月,百奥几何完成Pre-A轮融资,本轮融资由将门创投领投,智谱AI、盛景嘉成跟投,老股东高榕创投持续追加投资。融资资金主要用于加速生成式AI大模型在生物制造领域落地,以及推进自有产品的开发。
三、热点讯息
2024年10月,诺贝尔化学奖再次花落人工智能!AlphaGo之父等三人获奖
北京时间10月9日下午,2024年诺贝尔化学奖正式揭晓。瑞典皇家科学院决定将 2024 年诺贝尔化学奖一半授予 David Baker,以表彰其对计算蛋白质设计的贡献,另一半则共同授予 Demis Hassabis 和 John M. Jumper,以表彰其对蛋白质结构预测的贡献。2024年的诺贝尔化学奖金为1100万瑞典克朗,约合750万元人民币。
2024年9月,DeepMind推出首个AI蛋白质设计模型,亲和力提升300倍
Google DeepMind宣布推出AlphaProteo,首个专为设计新型高强度蛋白质结合剂的AI模型。值得注意的是,AlphaProteo成为DeepMind首个经过湿试验验证的AI蛋白质模型。经过湿试验验证,AlphaProteo可以为多种靶蛋白产生新的蛋白质结合剂,包括与癌症和糖尿病并发症相关的VEGF-A。这是AI工具首次能够成功为VEGF-A设计蛋白质结合剂。
2024年5月,谷歌AlphaFold 3首发Nature:成功预测所有生命分子结构和相互作用
新一代 AlphaFold——由Google DeepMind和Isomorphic Labs研究团队推出的革命性人工智能(AI)模型 AlphaFold 3——登上了权威科学期刊Nature。据介绍,AlphaFold 3以前所未有的精确度成功预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用。
来源:Nature
与现有的预测方法相比,AlphaFold 3 发现蛋白质与其他分子类型的相互作用至少提高了 50%,对于一些重要的相互作用类别,预测准确率甚至提高了一倍。
2024年4月,世界首个完全由AI设计的CRISPR基因编辑器,已成功编辑人类DNA,且免费开源
2024年4月22日,AI蛋白质设计公司Profluent宣布推出OpenCRISPRTM计划,发布了世界首个开源人工智能生成基因编辑器—OpenCRISPR-1。
就像基于大语言模型的ChatGPT生成一篇新文章一样,大语言模型也能生成全新的蛋白质。而现在,Profluent展示了一种完全由人工智能从头设计的基因编辑器,并进行了首次成功的人类基因组精确编辑。值得一提的是,OpenCRISPR-1是开源的,不仅可以免费用于科学研究,而且可以免费用于商业用途。
2023年4月,AI设计蛋白质新方法登Science,利用强化学习,直接根据预想优化结构
RoseTTAFold 团队独创性方法,利用强化学习、自上而下设计蛋白质复合物结构,登上最新一期 Science。利用该方法,团队设计出了上百个蛋白质结构。经电子显微镜等观测证实,这些结构大部分都能在实验室中合成。而且预期纳米结构和实际纳米结构之间的平均偏差小于单个原子直径,即实现了精确原子级设计。