近日,生数科技完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。
值得一提的是,锦秋基金此前为生数科技天使+轮独家投资方,同时也是国内较早深度布局多模态创业公司的投资机构。自2023年8月锦秋基金投资以来,生数科技在7个月内已完成了两轮融资。
成立于2023年3月,生数科技是全球突出的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。
于国内最早开展扩散模型研究,提出全球首个Diffusion Transformer架构
从Sora的惊艳亮相到最强文生图模型Stable Diffusion 3的推出,两者采用的Diffusion Transformer架构DiT备受关注。所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。
DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。
当时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up),这项工作在CVPR 2023发表,早于DiT成为全球范围内最早被提出的Diffusion Transformer架构。
对扩散模型融合架构的前瞻创新源自于团队多年的深耕。团队从事生成式人工智能和贝叶斯机器学习研究已有20余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
目前,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等国外前沿机构采用,应用于DALL·E 2、Stable Diffusion等明星项目中。
坚持多模态原生架构,全球首个完成大规模训练任务的验证
2023年3月,团队开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上,与Stable Diffusion直接对齐。在架构上,UniDiffuser比最近才采用DiT架构的Stable Diffsion 3突出了一年。
此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。
图:图像生成效果
在统一化架构的思路下,生数科技持续进行Scale up。在图文模型的训练中,参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。
依托底层U-ViT架构的创新尝试,截至去年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中达到国际一流水平。
图:图生3D案例(上图为输入图片,下图为对应3D模型)
图:多个图生3D模型快速拼装搭建的3D场景
图:短视频生成案例
此外,生数科技也积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,并搭建了完整的数据管理和使用体系。从算法原理、算法架构,到工程实现、数据准备,生数科技打造了多维度、全方位的基础建设,这为后续多模态大模型,尤其长视频生成的训练奠定了重要基础。
从MaaS到应用工具,已初步完成商业化验证
在商业化落地方面,依托于全面突出的MaaS(模型即服务)能力,生数科技在2B、2C端同时发力,一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。
同时也于去年上线两款工具产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域提供赋能,提升创作效率,同时为创作者提供源源不断的灵感和想象力。
对于未来的规划,生数科技始终坚持“原生多模态”方向,基础模型层面会持续优化,不断提升语义理解、可控性、美观度方面的生成效果,近期则将重点突破长视频生成能力。在产品端,现有产品将持续迭代,不断满足用户需求,实现用户量的持续增长,同时公司也正在探索工具以外的全新产品形态,致力于提升每个人的创造力和生产力。
附:
查看更多项目信息,请前往「睿兽分析」.