行业定义
文生视频(Text-to-Video)是一种利用人工智能技术将文字描述转化为视频内容的技术。与之前的文本生成图像(文生图)类似,文生视频通过深度学习模型,理解和处理文本描述,然后根据这些描述生成动态的、连贯的视频序列。这种技术的核心在于结合了自然语言处理(NLP)和计算机视觉(CV)领域的最新进展。
国外谷歌和微软等“硅谷巨头”很早就开始投入多模态视频生成的研究。去年,谷歌发布了多模态大模型Gemini和视频生成模型VideoPoet,从实际效果上展示了多模态生成视频的巨大潜力。
而在国内,多模态技术的发展方向展现出了更多的可能性。不仅有百度这样的技术积累深厚的大厂,还有大模型领域的独角兽公司智谱,以及生数科技和智象未来等以多模态大模型为目标的创业公司。
在视频生成模型领域,目前国内的创业公司大致可以分为两类。一类公司,如爱诗科技、生数科技、Morph Studio和智象未来,专注于自主研发基础大模型,致力于开发适用于多种通用场景的视频生成工具。另一类公司则包括右脑科技、李白AI实验室、毛线球科技、布尔向量和MewXAI。这一类公司数量较多,且更具产品化特点,专注于解决特定场景下的问题,更像是提供AIGC在线编辑的平台。
在文生视频技术迅速崛起的背景下,整个产业链逐渐形成,其上游、中游和下游环节各自扮演着不同的角色,共同推动着文生视频技术的发展与应用。
在上游环节,数据和素材供应是重要基础。数据提供商通过提供大规模、多样化的数据集,为文生视频模型的训练提供原材料,而素材库则为模型的生成提供了丰富的视觉元素。与此同时,AI公司专注于算法和模型的开发,致力于提升文生视频的生成效果。云计算服务商和硬件供应商也在这一环节中发挥着重要作用,提供强大的计算能力和硬件支持,确保模型训练和推理的高效进行。
进入中游,AI技术公司承担了文生视频模型训练、调优和部署工作,确保模型能够准确理解文本并生成高质量的视频。平台服务商则通过提供文生视频生成平台,使企业与个人用户可以方便地使用。同时,垂直行业应用开发商根据不同领域的需求,开发出针对性的文生视频解决方案,满足影视制作、广告创作、教育培训等多样化场景的需求。
在下游,视频制作公司开始将文生视频技术应用于实际内容创作中,借此制作广告、电影等作品的效率得到了大幅提升。媒体平台则通过广泛的分发渠道,将这些生成的视频内容传播给更广泛的受众。对于营销和广告公司来说,文生视频技术也为个性化广告的创作带来了新的可能。此外,企业客户和个人用户作为终端受众,直接体验并反馈文生视频应用的效果,这些反馈不仅帮助技术的优化,也为整个产业链的健康发展提供了市场洞察。
文生视频技术的应用场景非常广泛,包括但不限于:
1.内容创作:帮助创作者快速生成视频素材,用于电影、广告或其他形式的数字内容。
2.游戏开发:生成游戏中的动态场景或角色动画。
3.教育和培训:制作教学视频,展示复杂的概念或流程。
4.虚拟现实(VR)和增强现实(AR):创建更为逼真的沉浸式体验。
虽然技术目前还在持续发展中,生成的视频质量和真实性可能目前也有待提升,但该项技术展现了巨大的潜力,尤其是在自动化内容生成和节省创作成本方面。
睿兽分析整理文生视频近年来的融资情况,截止2024年9月,有57家未上市公司发生融资事件166起,参与机构达280多家。文生视频近两年技术落地加速,于2023年融资事件数与融资金额都达到历年最高,其金额高达802.14亿人民币,而今年仅前8个月,融资事件数也达到25起之多。在融资轮次方面,文生视频相关公司的融资轮次多处于早期阶段。
相关企业
生数科技
北京生数科技有限公司成立于2023年3月,是一家产业级多模态大模型研发商,基于自研产业级多模态大模型,生数科技目前正面向图像创作、3D资产创建等细分场景打造垂类应用,服务范围覆盖C、B两端。
2022年,生数科技提出了全球首个融合Diffusion和Transformer架构的U-ViT模型,仅仅半年后便实现了重大突破,开源了基于这一融合架构的多模态扩散模型UniDiffuser,成功验证了大规模训练融合架构的可行性与其涌现能力。
2023年初,生数科技开源了基于Transformer架构的多模态扩散大模型UniDiffuser,这是首次在Diffusion Model(扩散模型)上应用U-ViT的Transformer架构,从而使得一个底层模型能够高质量地完成文生图、图生文、图文联合生成、图文改写等多种生成任务。
2024年4月,生数科技联合清华大学正式发布了国内首个全自研视频大模型Vidu,该模型在性能上全面对标OpenAI的Sora,在国内外引发了广泛关注并获得高度认可。
2024年6月,生数科技完成数亿元Pre-A+轮融资,此次融资由顺禧基金与百度战略投资部联合领投,中关村科学城公司等跟投,启明创投、卓源亚洲老股东持续加码,华兴资本担任本轮融资的独家财务顾问。同年3月,其完成Pre-A轮的数亿元融资,由启明创投领投,达泰资本、智谱AI、老股东BV百度风投和卓源亚洲跟投。该轮融资主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。去年8月,其完成了数千万元天使+轮融资,该轮融资由锦秋基金独家投资,资金主要用于算法研发、产品开发和团队扩充。
爱诗科技
北京爱诗科技有限公司成立于2023年4月,其致力于打造一个聚焦AIGC的视觉多模态算法平台 ,覆盖视觉相关的各种垂直应用场景。该平台能够支持AIGC新内容,帮用户解决内容生成、安全、版权、分发、商业化等几乎全生命周期的各项问题。爱诗科技团队成员来自清华、北大、中科院等顶级学府,曾任职于字节、快手、腾讯、微软研究院等核心技术团队。
2024年1月,爱诗科技正式推出了文生视频产品 PixVerse 的网页版,并迅速获得了全球用户的广泛关注。PixVerse 通过其出色的表现,迅速建立了稳固的创作者生态系统。该产品页面的月访问量已突破百万,并在2月份登顶全球AI产品榜(aicpb.com)的增速榜首。目前,PixVerse 的视频生成总量已超过千万次,被广泛应用于影视、广告、动漫等多个内容创作领域。爱诗科技始终以用户需求为核心,持续优化产品功能和交互体验。
2024年4月,爱诗科技正式推出了基于自研视频大模型的 C2V(Character to Video 角色一致性)功能,并已在 PixVerse 网页端上线。该功能通过精准提取人物特征,并将其深度融合到视频生成模型中,使得 PixVerse 能够锁定角色,实现连续且可控的视频生成。此功能初步解决了AI视频创作中的一致性挑战,为创作者提供了更加高效、灵活的工作流程。
2024年4月,爱诗科技完成A+轮过亿元融资,由蚂蚁集团领投。本轮融资将用于进一步迭代自研视频生成大模型,并升级团队,加快实现AI视频生成技术的行业应用。今年3月,爱诗科技完成亿级人民币A轮融资,该轮融资由国内一线投资机构达晨财智领投,光源资本担任独家财务顾问。
RightBrain AI
北京右脑科技有限公司成立于2022年9月,是一家专注于研发AI图像和视频创作工具的初创公司,致力于将AIGC技术应用于图像视频领域,以AI赋能创作。
创始团队成员均毕业于清北,是女娲、智源悟道等大模型核心成员,团队拥有业内最前沿的图像视频生成大模型的研发和落地经验。
目前,右脑科技创始团队包括多模态预训练模型女娲系列 NUWA、NUWA Infinity 的模型一作,智源悟道·文生图模型、国画模型核心贡献者和前商汤视频生成算法研究员,具备优秀的多模态、大模型技术能力,能通过模型技术持续优化,获得长期突出优势。
其中女娲(NUWA)是2021年推出的突出的多模态预训练大模型,提供了高质量的文本到图像、文本到视频以及视频预测等视觉生成能力,在 8 种跨模态合成模式下效果超过同期最好的 DALLE 等模型,成为当时多模态领域 SOTA。
目前,右脑科技是少数具备视频生成算法研发能力的公司之一,面向创作者和视觉生成的巨大需求,公司未来将持续实现更高难度的技术攻克。
2023年6月,右脑科技宣布完成数千万元天使轮融资,本轮投资方为光速光合和奇绩创坛。此次融资资金将主要用于算法研发、产品开发和团队扩充。2022年9月,其获得奇绩创坛的种子投资。
热点讯息
2024年8月,MiniMax低调发布首款文生视频模型
8月31日,MiniMax低调发布首款视频生成大模型,同时发布一条由MiniMax大模型生成的2分钟视频《魔法硬币》。值得注意的是,目前MiniMax并未公布模型的具体参数和技术要点。当天,其创始人闫俊杰在接受媒体群访时表示,“我们确实在视频模型生成方面取得很大的进展,根据内部评测以及跑分,我们比Runway的(生成视频)效果更好。”据其透露,目前的视频生成模型只是第一版,很快会有新版本,后续还会在数据、算法本身、使用细节等方面继续迭代,现在只提供文生视频。未来图生视频、文+图生成视频都会陆续出来。
2024年6月,潞晨Open-Sora开源大升级:单镜头16秒720p高清任意视频一键生成
潞晨Open-Sora团队在720p高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,并且,该版本继续全部开源,为开源社区带来亿点点震撼。自OpenAI Sora发布以来,业界对Sora的开放性期待值爆表,但现实却是持续的等待游戏。潞晨 Open-Sora 的开源,为文生视频的创新和发展注入了强劲的活力。访问其的github地址,即可零门槛免费获得模型权重和全套训练代码,这使用户从被动的内容消费者转变为积极的内容创造者。
2024年4月,全面对标Sora 生数科技联合清华推出国内首个纯自研视频大模型
4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。据悉,该模型采用Diffusion(扩散概率模型)与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技方面介绍,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。生数科技方面介绍,其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion(扩散概率模型)与Transformer融合的架构,完全由团队自主研发。
2024年3月,中国首部文生视频AI系列动画片《千秋诗颂》英文版发布
3月10日,由中央广播电视总台打造的中国首部文生视频AI系列动画片《千秋诗颂》英文版在总台CGTN正式上线发布,这是总台利用AI技术赋能国际传播的最新尝试。《千秋诗颂》系列动画片英文版同样采用总台最新AI技术译制配音完成。总台CGTN运用AI语言模型对中文脚本进行翻译润色,配音过程使用文生声、声线克隆、AI视频处理等技术,出色还原了中文配音的音色和情感。
2024年2月,奥特曼再放大招!OpenAI发布首个文生视频模型Sora
2月16日,全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。此前在2023年轰轰烈烈的多模态AI模型竞赛中,谷歌、Meta和初创公司Runway、Pika Labs都发布过类似的模型。但本次OpenAI展示的视频仍然以高质量获得关注。Sora能够从文本说明中生成长达60秒的视频,并能够提供具有多个角色,特定类型的动作和详细的背景细节的场景。Sora还能在一个生成的视频中创建多个镜头,体现人物和视觉风格。