作者|贾桂鹏
如果现在还不知道Pika Labs,那么你可能就已经OUT了。因为,这家仅成立半年的AI初创公司已经成为硅谷资本的“新宠”。
我们看到,在Pika Labs背后的投资人阵容堪称豪华,比如OpenAI两位创始成员Adam D'Angelo、Andrej Karpathy,前Github CEO Nat Friedman,HuggingFace创始人Clem Delange,Giphy联合创始人Alex Chung,YC合伙人Daniel Gross等,要知道,这几乎是硅谷AI行业的半壁江山。
其实,Pika Labs的走红并不让人意外,这家公司身上贴满了“富二代”、“美女创始人”、“学霸创业”等一个比一个吸引眼球的“标签”。但这些网红般的“标签”是Pika Labs成功的秘诀吗?
成立半年,公司仅四人,却引爆硅谷
在谈论Pika Labs的时候,绕不开95后女孩郭文景。
资料显示,郭文景母亲是麻省理工毕业高材生,而父亲则是浙江首家在国内主板上市的软件公司信雅达科技实控人郭华强,显然,郭文景手拿的是妥妥“富二代”剧本。
但在这样背景下,也掩盖不住郭文景资历的强悍,她是浙江当届第一个被哈佛本科提前录取的学生,进入哈佛后,郭文景一边攻读学业,一边去Meta、微软、谷歌大脑、Epic Games等公司实习,在拿到计算机硕士和数学本科学位后,她又来到斯坦福大学读博。
而正是到斯坦福大学读博的经历,让郭文景遇到了之后与他一起创业的孟晨琳(Chenlin Meng),今年4月,两人双双从斯坦福大学退学创业成立了Pika labs,仅仅在半年后,Pika labs就震惊了全世界。
Pika labs创始人郭文景(左)和联合创始人兼CTO孟晨琳。
11月29日,Pika labs官宣了最新的视频生成模型Pika1.0,Pika1.0能够生成和编辑3D动画、动漫、卡通和电影。几乎不需要任何门槛,用户只需要输入一句话,就可以生成想要的各种风格的视频。
在宣传片中,Pika1.0拥有强大的语义理解能力,输入“马斯克穿着太空服,3D动画”的关键词,一个身穿太空服的卡通马斯克便出现了,身后还有SpaceX的火箭。文生视频的清晰度和连贯性,远超市面上其他AI视频生成产品。正是这个宣传片让Pika“点燃”了硅谷。
(宣传片动图)
其实在11月3日,Pika labs就出现在了大众面前。在《流浪地球3》的发布会上,工业化实验室G!Lab官宣成立,战略合作伙伴包括华为、小米、商汤等,共同探索用AI技术打造电影工业化3.0。而战略合作伙伴名单中,紧挨商汤,第二排居中的就是Pika Labs。消息称,郭帆导演10月从美国考察回来后,称赞Pika对AI视频的研究非常超前。
至今,Pika labs已经完成了三轮融资,总金额5500万美元,估值超10亿元人民币。
Pika labs的走红,代表着时下日新月异的AIGC市场再次泛出了新鲜的涟漪。与此同时,很多人发出疑问,为什么这家仅成立半年、仅四人的公司能被资本热捧呢?
拨开“明星”外衣,AI生成视频价值几何?
在今年ChatGPT掀起的人工智能大模型热潮中,基于语言大模型的聊天机器人成为最热门创业方向;而在泛内容生成类AI应用中,图像生成是最主要的场景,其次是写作工具、视频生成工具。
相较于语言模型,AI生成视频是完全不同的一类模型。其与AI生成图片的模型有共通之处,但难度更高。
郭文景在接受媒体采访时表示,视频有很多与图片不一样的问题,比如要确保视频的流畅性、确保动作,视频比图像更大,需要更大的GPU内存,视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧生成的,还是一起生成的,现在很多模型是一起生成,生成的视频就很短。
孟晨琳补充,视频的每一帧都是一张图片,比生成图片困难得多。因为每一帧的生成质量要高,相邻帧之间还要有关联性。当视频很长时,确保每一帧都协调一致是个相当复杂的问题。
在训练时,处理视频数据时要处理多张图片,模型需要适应这种情况。比如,如何将100帧图片传输到GPU上是一个挑战。而在推理时,由于涉及生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。
另外,控制视频生成更难,因为模型需要生成每一帧发生的事情,而用户不会希望为每一帧都提供详细的描述。
此前,《Vice》杂志网站将AI生成的“威尔·史密斯吃意大利面”的视频评为最怪异AI生成视频。在该视频中,面容扭曲的史密斯看起来像一条怪异的鱼,并试图将成堆的面条舀进嘴里,从叉子上或手中咀嚼大块意大利面。这个噩梦般的视频,仅由一行无害的“威尔·史密斯吃意大利面”文字生成。
这也说明视频生成工具的底层模型及技术仍需要不断优化。目前,主流的文生视频模型主要依托Transformer模型和扩散模型。基于扩散模型的工具重在提升视频质量,虽然克服了效果粗糙、缺少细节的难题,但也制约了视频的长度。
另一方面,扩散模型训练过程需要非常大的内存,算力需求较大,基本只有大公司以及拿到大笔投融资的初创新星才能负担得起模型的训练成本。
但元宇宙新声认为,在AI生成视频领域中技术方面的困难只是暂时的,也不妨碍它已经成为另一条受到资本推崇的赛道。而且,这一领域的爆发将赋予了AI视频工具强大的产品功能,进而开拓出更广阔的应用场景。通过文本描述或其他简单操作,AI视频工具即可生成较高质量和完成度视频内容,这降低了视频创作门槛,让业外人士能够精准利用视频进行内容展现,有望广泛赋能各细分行业的内容生产降本增效和创意输出。
巨头抢跑AI生成视频赛道
我们看到,随着Pika 1.0的发布,AI视频领域的竞争日趋白热化。
11月23日,Adobe已经完成对AI初创公司Rephrase.ai的收购,后者主要通过AI技术将文本转换为虚拟形象视频。收购Rephrase.ai也意味着Adobe完成了在AI领域的首次收购。
Adobe高级副总裁兼总经理Ashley Still表示:“Rephrase.ai团队在生成式AI音视频技术、文本到视频生成工具方面的专业知识将扩展Adobe的生成式视频功能。”
元宇宙新声认为,在Adobe收购Rephrase.AI背后,也反映出AI生成内容大潮逐渐从文本和图片,进一步转向视频等复杂形式。
随着相关技术的应用与创新,使得AI生成视频赛道持续升温,我们看到,包括Meta的Emu模型、由谷歌投资的Runway公司发布的Gen-2模型等,均支持基于文本生成视频内容。
专注于开发人工智能产品的初创公司Stable AI也发布了其最新的AI模型Stable Video Diffusion(稳定视频扩散模型),这款模型能够通过现有图片生成视频,是基于之前发布的Stable Diffusion文本转图片模型的延伸。也是目前为止市面上少数能够生成视频的AI模型之一。
在国内,百度、阿里巴巴、腾讯、360、昆仑万维等公司也纷纷加大对视频领域大模型的投入,并推出相关的AI模型。例如,阿里巴巴已在AI模型社区“魔搭”ModelScope上线了“文本生成视频大模型”。根据介绍,整体模型参数约17亿,目前只支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
今年6月,360智脑大模型4.0版本发布,具备文字、图像、语音和视频等跨模态处理和生成能力。据了解,其中的“文生视频”多模态功能为国内首发,任何文字脚本都可生成视频,不受专业技能和素材限制。
作为当下主流的媒体内容,视频与AI碰撞迎来全新的创作方式。业内人士预测,到2030年,90%的数字内容都将是由AI生成。预计到2032年,全球AI视频生成软件的市场规模将达到21.72亿美元。
可以看到,AI视频生成技术仍在快速迭代、飞速进化中,而其中又将孕育出多少新的机遇,都还是未知数。唯一确定的是,现在已入局的玩家们竞争已然白热化。
写在最后
元宇宙新声认为,在新一轮的AI浪潮中,文生文、文生图一直并行发展,其中,ChatGPT代表了文字生成的率先突破,Midjourney将文生图推到人人可用,而随着Pika的出现则打开了市场对于文生视频的无限遐想。
当下,全球范围内生成式AI技术和应用正在迅猛发展,新涌现的图形、文本生成模型正在改变传统的AI应用格局。AIGC作为AI大规模落地的“试金石”,不仅能够帮助创作者实现更快速、更丰富的内容创造,还将降低创作门槛。可以预见,AI大模型领域的创新将会让更多人把自己的创意具象化,也会让未来虚实结合的世界离我们越来越近。