从大模型到世界模型：人工智能的进阶之路

优企酷·2024-12-09

12月3日，由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的第一个「空间智能」模型，只需一张图，就可以生成一个逼真的 3D 世界。

World Labs 是李飞飞老师和她的学生们在2024年初创办的一家空间智能公司，致力于构建大型世界模型（LWM）来感知、生成 3D 世界并与之交互。　

据介绍，对于输入的图像，这一「空间智能」系统可以估算出 3D 几何图形，填充场景中未见的部分，创建新的内容，实现各个方位的 3D 世界构建。

大多数生成模型预测像素，而预测 3D 场景则有诸多好处。预测3D场景可以实现持久现实，世界一旦生成，就会一直存在，即使你把视线移开，再回来时，场景也不会改变；同时，预测3D场景可以实现实时控制，生成场景后，你可以在场景中实时移动，你可以留心观察一朵花的细节，也可以窥探某个角落，看看会有什么发现；预测3D场景使得生成的世界拥有正确的几何形状，符合 3D 几何的基本物理规则，它们具有一种实体感和深度感，这与某些人工智能生成视频的不真实感形成了鲜明的对比。

与生成式 AI 工具生成的图片或视频等 2D 内容不同，李飞飞的世界模型以 3D 形式生成的内容具有更好的控制性和一致性。而且，该模型还可以适应各种场景类型和艺术风格，比如生成不同的相机效果、3D 效果以及经典绘画风格的 3D 内容。

这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。

世界模型的火热应用场景

世界模型的潜在应用范围极为广泛，不同领域对于其理解与预测能力有着差异化的要求。

以自动驾驶为例，世界模型需要实时精准地把握道路状况，并对其变化趋势进行精确预测，重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。在机器人技术领域，世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用，要求其能够精准地解析外部动态环境，并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面，世界模型需要敏锐地捕捉并预测更为抽象的行为动态，诸如社会交往互动以及人类决策制定等过程。

（一）泛机器人领域：技术创新引领变革

1、极佳科技：自动驾驶的先锋力量

极佳科技致力于推动视频生成和4D世界模型走向空间智能，是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。

在自动驾驶领域公司斩获了令人瞩目的创新性成果。10月，公司官宣联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强4D驾驶场景重建效果的工作。DriveDreamer4D可以大幅提升多种自动驾驶4D重建算法的效果，在user study实验中获得了超过80%的偏好投票，为走向空间智能和4D世界模型迈出了坚实的一步。

DriveDreamer4D可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。DriveDreamer4D不仅可以提升多种重建算法（PVG,S3Gaussian,Deformable-GS）的图像渲染质量，还可以提升驾驶前景（车辆）和背景（车道线）的时空一致性。

比如，它能够全面精准地模拟车辆行驶过程中的各种物理运动、交通规则以及其他道路使用者的行为变化。不仅能够精准预测前方车辆的行驶轨迹、行人的行动意图，还能将周围环境因素，如道路状况、天气影响等纳入综合考量范围，基于极佳科技 4D 数据引擎训练的自动驾驶算法都能迅速且精准地做出反应，有效避免事故发生，为驾乘者提供前所未有的安全保障。

凭借其在技术上的领先优势，极佳科技已成功与地平线、亿咖通等头部主机厂达成深度定点合作协议。这一系列合作不仅是对其技术实力的高度认可，更是其迈向更广阔市场的坚实基石。

在近日举办的现代汽车集团创新计划颁奖典礼上，极佳视界凭借其在4D世界模型和视频生成领域的卓越创新，荣膺现代集团“灯塔”创新开放计划“创新企业奖”。

2、51sim：传统巨头的转型之路

51sim 在自动驾驶仿真技术领域拥有深厚的历史积淀与广泛的市场影响力。长期以来，其传统仿真技术产品以成熟稳定的架构和性能，为众多自动驾驶研发企业提供了可靠的基础测试环境与数据支持，在特定场景模拟与简单算法验证方面积累了丰富的实践经验，也因此赢得了一大批忠实客户的信赖。

然而，随着自动驾驶技术的飞速发展，行业对仿真技术提出了更为严苛的要求，传统仿真技术的局限性逐渐暴露无遗。在数据的实时性与准确性方面，传统技术难以满足日益复杂多变的自动驾驶场景需求。

此外，面对复杂环境与极端情况的模拟，传统仿真技术更是显得力不从心。诸如暴雨、大雪等恶劣天气条件下的路况模拟，以及道路施工、交通事故等特殊场景的应对，传统技术往往无法提供足够真实、全面的虚拟测试环境，这在很大程度上制约了自动驾驶技术的进一步突破。

为了应对新兴技术的冲击与市场竞争的加剧，51sim 积极谋求转型与创新。其现核心产品涵盖智能驾驶与机器人仿真平台 SimOne、数据闭环与合成数据平台 DataOne、交通信息模型平台 TIM。通过这些努力，51sim 致力于构建通用 AGI 合成数据与仿真训练平台，以更好地适应复杂多变的真实环境和高阶且多元化的需求。

（二）泛元宇宙领域：多元竞争塑造未来

1、极佳科技：工业级元宇宙的领军者

在泛元宇宙领域，极佳科技凭借其工业级的新一代 4D 内容制作引擎，稳坐行业领军者的宝座。这一引擎专为影视传媒、游戏开发、工业设计等专业领域的严苛需求而量身定制，具备强大的大规模虚拟内容创作能力，能够轻松应对各种复杂的创作任务。

极佳科技的核心优势在于其对工业级应用的深度聚焦与精湛把控。在影视制作过程中，它能够为创作者提供无与伦比的高精度虚拟场景构建服务，无论是繁华都市的车水马龙，还是神秘外星的奇幻地貌，都能以极致的细节呈现。同时，其逼真的特效制作与细腻的角色动画生成能力更是令人赞叹不已。

例如，在制作一部史诗级科幻电影时，极佳科技的 4D 内容制作引擎能够精准地模拟光线追踪、物理碰撞等特效，使影片的视觉效果达到以假乱真的境界，为观众带来震撼人心的观影体验。

其与悟空传媒、儒意传媒等行业巨头的战略合作，更是进一步彰显了其在影视传媒领域的王者风范。通过强强联合，极佳科技不仅推动了自身技术的广泛应用，还引领了整个行业的内容创作模式向智能化、高效化方向转型升级，为影视行业的创新发展注入了强大动力。

2、可灵：快手旗下的爆款生成器

可灵，作为快手公司精心培育的基于人工智能的视频生成模型，在泛元宇宙的视频生成领域可谓是一颗耀眼的明星。其最为突出的亮点在于超长视频生成能力，能够轻松生成长达 2 分钟的视频，这一卓越性能使其在众多竞争对手中脱颖而出。

在生成 3D 动画内容时，可灵对细节的处理堪称一绝。例如，在呈现动画角色的毛发、纹理等细节时，能够达到高度逼真的效果，仿佛赋予了虚拟角色鲜活的生命。据摩根士丹利专业分析，可灵的技术实力足以与日本的 Sora 模型相媲美，这无疑为其在市场竞争中赢得了极高的声誉与强大的竞争力。

从业务数据来看，可灵 AI 成绩斐然，实现了月活超 150 万的亮眼成绩，商业化单月流水更是突破千万人民币。在内容创作实战中，可灵 AI 为短剧《山海奇镜之劈波斩浪》提供了深度技术支撑，该剧上线短短数日播放量便如火箭般突破 5000 万，创造了短剧播放量的新奇迹。这充分展示了可灵在视频生成与内容创作方面的强大实力，也有力地证明了其对提升快手平台用户规模和活跃度的关键作用，成为快手在泛元宇宙领域布局的重要战略棋子。

3、即梦：字节跳动的创意引擎

即梦，作为字节跳动重磅推出的 AI 创作平台，以其丰富多样的功能和便捷流畅的创作体验，迅速吸引了广大创作者的目光与青睐。该平台汇聚了文生图、文生视频、图生视频等多种前沿创作功能于一体，为用户精心打造了一站式的创意与艺术创作解决方案，仿佛一座创意的宝藏库，等待用户去挖掘探索。

尤为值得一提的是，即梦高度注重为用户提供创作灵感源泉。通过提供丰富多样的创意模板、素材库以及智能灵感启发工具，帮助用户轻松突破创作瓶颈，激发无限创意潜能。即使是毫无专业创作经验的新手用户，也能在即梦的助力下迅速将脑海中的奇思妙想转化为令人惊艳的可视化作品。

尽管在视频生成长度上暂时略逊于可灵，但即梦凭借其强大的综合性创作功能和字节跳动的庞大平台生态优势，在竞争激烈的市场中成功占据了一席之地。例如，用户在其平台上只需简单输入一段文字描述，即可借助先进的 AI 技术瞬间生成精美的图片或视频作品，无论是用于社交媒体分享、个人创意展示，还是商业宣传推广，都能轻松驾驭。

11 月 8 日，字节跳动自研的视频生成模型 Seaweed 面向即梦平台用户正式开放，这无疑为即梦的创作工具库增添了一把利器，使其在视频生成领域的竞争力得到进一步显著提升，续写着字节跳动在人工智能创作领域的辉煌篇章。

4、其他消费级选手：个性化体验的追求者

消费级的 sora、生数科技、爱诗科技等企业在泛元宇宙领域同样展现出了各自独特的魅力与创新活力。这些企业精准聚焦个性化的内容创作和消费体验提升，凭借先进的图像生成、动画制作等前沿技术，为用户精心打造定制化的虚拟形象、独具匠心的场景创作工具以及个性化的内容生成服务，致力于满足用户对于个性化、新奇元宇宙体验的不懈追求。

爱诗科技由前字节跳动视觉技术核心负责人创立，在技术研发创新的道路上一路疾驰。今年 10 月 29 日，其正式发布 Pixverse V3 版，彰显了其强大的技术迭代更新能力。

生数科技作为国内最早布局多模态通用大模型的先驱团队之一，联合清华大学重磅发布了国内首款全面对标 OpenAI Sora 的视频大模型 Vidu，并在 11 月迅速推出 Vidu 1.5 新版本，成功实现了对多样化输入的深度理解和“一致性”难题的重大突破。

这些企业在消费级市场中，通过持续不断的技术创新和产品优化，为用户带来了丰富多彩的个性化元宇宙体验，但在大规模工业级应用的复杂场景与高精度要求面前，仍存在一定的差距。

总体来看，世界模型的构建绝非坦途，它面临着诸多技术难题，如如何高效地整合多源异构数据，怎样构建精准且可扩展的知识表示体系，以及如何在有限的计算资源下实现复杂的推理与预测功能等。但这并不能阻挡世界模型成为人工智能发展的终极追求方向。它如同远方的灯塔，吸引着众多研究者与科技企业不断探索创新，努力突破技术瓶颈。每一次对世界模型相关技术的攻克与优化，都将使人工智能更接近能够像人类一样理解和融入世界的理想境界，为开启智能时代的新纪元奠定坚实基础。