当 AI 模特开始挣钱,以及阿里这个 AI 让任意图片变角色视频

这个 AI 模特的案例,让很多人在社交媒体上分享认为,未来的网红(influencer)可能会越来越多的被各种 AI creator 所取代,有些媒体甚至打出了 RIP TikTok Influencer 的标题,而模特这个行业可能也会越来越多的出现各种类型的 AI 模特。

编者按:本文来自微信公众号 投资实习所(ID:startupboy),作者:StartupBoy,创业邦经授权转载。

昨天关于播客商业化的文章《你日常听的播客,一年仅广告就有 800 多万美金收入》,我们能感受到信息/知识的创造以及其传播的价值,从本质上来说也是对价值信息进行有效的组织和高效的再次分发,AI 的发展应该会带来更高效的方式。

而 AI 在其它领域的发展,可能正在产生更大的变革。最近,一位 AI 模特通过广告每月最高收入可达 1.1 万美金的事情得到了很大的传播,让我们对 AI 在模特经纪领域的价值有了一个新的认识。

这个 AI 模特叫 Aitana López,是西班牙一家模特经纪公司通过 AI 生成的一个虚拟模特,目前在 Instagram 的粉丝已经超过了 20 万(11 月底才 13 万),通过接广告的模式,每月最高收入已经做到了 1.1 万美金,其每个广告的报价均超过了 1000 美金,从 Ins 上的图片看目前接的广告主要是服装特别是内衣。

根据模特经纪公司 The Clueless 创始人的说法,之所以做了这样一个 AI 模特,是因为与真实模特的合作不是特别顺畅,并且有些问题是无法控制的,进而导致一些合作项目没法推进,于是用 AI 设计了这个虚拟模特。

经纪机构还对其人设做了设计,像 Aitana López 的人设就被设计为:坚强而坚定的女性,热情的天蝎座,爱好电子游戏和健身。下图里的第一个就是这个 AI 模特:

图片

这个 AI 模特的案例,让很多人在社交媒体上分享认为,未来的网红(influencer)可能会越来越多的被各种 AI creator 所取代,有些媒体甚至打出了 RIP TikTok Influencer 的标题,而模特这个行业可能也会越来越多的出现各种类型的 AI 模特。

虽然还还不至于如此,不过我觉得未来很多行业可能都将是 AI 与人(AI+Humans)的一种混合模式,就像已经有人喊出了合成社交网络概念一样,我觉得未来会是一个合成社会。而对于网红或者模特这个行业,阿里最近发表的这个 AI 技术研究,我觉得可能会加速 AI 模特的到来。

阿里巴巴智能计算研究院前两天在 GitHub 上发布了一个 AI 研究论文:Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation,通过一张图片可以实现任何角色视频的生成,其发布的几个视频在海外社交媒体得到了非常大的传播。

图片

下面是整个完整的 Demo 视频,不仅介绍了研究团队所采用的方法,也对这种方法与其它方法甚至真人的效果进行了比较。

投资实习所

,赞10

相比于直接的 AI 生成视频,这个方法看起来要简单的多,只需要一张图和一个姿势指导就可以生成非常不错的视频,视频里展示的效果已经不比真人的舞蹈动作差了。

像视频里面展示的舞蹈视频,我觉得抖音里的小姐姐以后可能都离不开 AI 了,AnimateAnyone 采用的方法基本上概括为下面这张图:

图片

研究团队在论文里说,

角色动画的目标是通过驱动信号从静态图像生成角色视频。目前,由于其强大的生成能力,扩散模型已经成为视觉生成研究的主流。然而,在图像到视频的转换领域,尤其是在角色动画中,要在时间上保持与角色详细信息的一致性仍然是一个巨大的挑战。

在本文中,我们利用扩散模型的力量,提出了一个为角色动画量身定制的新框架。为了保持参考图像中复杂外观特征的一致性,我们设计了 ReferenceNet 通过空间注意力合并细节特征。为了确保可控性和连续性,我们引入了一个高效的姿态引导器来指导角色的动作,并采用了一个有效的时间建模方法来确保视频帧之间平滑的过渡。

通过扩大训练数据,我们的方法可以为任意角色制作动画,在角色动画方面比其他图像到视频的方法取得了更优越的结果。此外,我们还在时尚视频和人类舞蹈合成的基准测试上评估了我们的方法,取得了最先进的结果。

团队也在 GitHub 对他们采用的方法做了简单的概述:

姿势序列首先使用姿势引导器进行编码,然后与多帧噪声融合,接着 Denoising UNet 进行去噪处理以生成视频。Denoising UNet 的计算块包括空间注意力、交叉注意力和时间注意力,如上图右侧虚线框所示。

参考图像的整合涉及两个方面。首先,通过 ReferenceNet 提取详细特征,并用于空间注意力。其次,通过 CLIP 图像编码器提取语义特征,用于交叉注意力。时间注意力在时间维度上操作。最后,VAE 解码器将结果解码为视频剪辑。

看完这个视频 Demo 后,我的感觉是像模特、舞蹈类网红、卡通动漫动画设计、游戏 VR、视觉特效等行业似乎都可以使用这个方式。

AnimateAnyone 这个项目是发布在 HumanAIGC 这个账号下的,而这个账号的描述是 Alibaba TongYi XR,可能是通义千问下面的 XR 团队,目前在 GitHub 的 Star 数已经超过 7200 了,而 HumanAIGC 这个账号在 2 周前才建立。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

免责申明

1.本平台专注于提供资讯分享服务,所提供的资讯内容仅代表作者个人观点,不反映本平台立场。

2.我们致力于确保所提供信息的准确性和及时性,但对信息的完整性、准确性、可靠性或适用性不做任何明示或暗示的保证。

3.用户在使用本网站提供的信息时,请自行判断并承担相应风险。本网站对用户因使用或未能使用本网站而导致的任何直接、间接、附带的损失或损害概不负责,包括但不限于利润损失、商业中断、信息丢失等。

4.免责申明可能随时修改,恕不另行通知。请定期查阅以获取最新信息。

关联标签
AI文娱