大模型+自动驾驶，发展到什么阶段了？

创业邦的创作者·2023-11-01

当然

广东电子商务

一个移动端的服饰社交电商

最近融资：|2016-01-28

我要联系

自动驾驶的本质，是让机器人理解我们所处的真实世界。

编者按：本文来自微信公众号险峰创（ID：xianfengk2vc），作者：险峰，创业邦经授权转载。

上个月，马斯克乘坐一辆搭载了FSD V12自动驾驶系统的Model S，进行了一场45分钟直播，虽然中间也出现了一些小插曲（比如差点闯了红灯），但整体效果依然非常惊艳。

视频中，这辆Model S能够轻松绕过障碍物，识别道路各种标志，按照马斯克的说法，这些操作从头到尾都是通过端到端AI神经网络实现的，而非预先编程。

特斯拉的进展会给国内智驾行业带来哪些启发？我们距离自动驾驶的终局还有多远？本期险峰主题沙龙，我们将和几位行业专家与初创公司CEO，一起聊聊大模型+自动驾驶的未来。

我们请到了：

杨洋觉非科技智能驾驶副总裁
安向京行深智能创始人
柴思远智谱AI解决方案总监
温力成上海人工智能实验室研究员

我们聊到了：

特斯拉的巨大成功，会让纯视觉颠覆掉激光雷达吗？
国内厂家和特斯拉的差距有多少？未来能否追得上？
大模型上车，还有哪些障碍？
大模型对汽车智能化的影响，会有什么机会点？
特斯拉会是自动驾驶的终局吗？

本次活动由险峰投资人徐真主持，为了保证内容质量，我们对嘉宾进行了匿名整理，并打乱了发言顺序，请勿对号入座。

也欢迎更多朋友加入险峰社群，一起探讨大模型+自动驾驶的新方向。

特斯拉的巨大成功，会让纯视觉颠覆掉激光雷达吗？

险峰：先聊一个老生常谈的问题，当初特斯拉选择了纯视觉路线，是因为激光雷达的成本太高，但是国内厂商普遍还是选择了摄像头+激光雷达的组合，那么这次FSD V12的成功，会不会让国内厂家也放弃掉激光雷达的路线？

A：我觉得一定会，因为特斯拉已经把这条路走通了，大家没有不跟的道理。

这和GPT的发展逻辑类似：今年国内大语言模型创业如火如荼，很多大厂纷纷下场，立下flag要做一款能对标GPT4的产品，因为人家OpenAI已经把东西做出来了，已经验证的东西，你再去做就非常work，但这也意味着之前那些老的技术路线很快会被放弃掉，同样的道理，对应到未来自动驾驶也是一样的。

B：首先明确一点，纯视觉方案是绝对够用的，其实人类自己也没进化出激光雷达，人眼本质就是先感知周围的2D图像，经过人脑处理后进行3D深度估算，最后对路况做出判断，所以只靠双目视觉完全可以满完驾驶需求。

但是，作为一个消费者，因为现在还没有一种完美的 L4 到 L5 级别的自动驾驶方案，那么比较高档的车型上，配一些激光雷达作为冗余备份，这个需求也是客观存在的。

举个例子，之前特斯拉出现一些撞车的事故，比如前面有一辆翻倒的白色货车，AI就认为那是天空了，这种错误我们人眼也会犯，但如果有激光雷达，可能就会避免掉。

所以，激光雷达并不是说一定要有或者没有，主要是看用户需求，是更关注成本，还是更关注安全。

C：作为企业，我平时对激光雷达接触比较多，首先从实际应用的角度，激光雷达确实能解决一些纯视觉解决不了的问题，比如夜晚低光照，或者逆光炫光的环境，纯视觉都有天然的劣势，这时激光雷达就是一个很好的补充。

回到现实来说，我们也和多家主机厂深入交流过：大家之所以不愿意选择激光雷达，确实是因为成本太高，但是真正用过之后，工程师都说特别爽，实际效果上看还是有它存在的价值。

当然，因为成本高，现在也出现了一些激光雷达的替代方案，比如4D毫米波，其实就是介于传统毫米波和激光雷达之间的产物；另外，纯视觉方案是不是就一定没问题，我认为现在判断也还太早，可能还需要经历更复杂的场景、更多的里程之后再观察。

D：就我的理解，大模型的核心能力是通过Transformer建立起各数据之间的关联，刚才几位老师也就提到，纯视觉唯一的缺点，它是一个二维的传感器，而激光雷达是三维的，但本质上，二维场景和三维场景是有关联的。

那我们是不是能通过大模型，把2D和3D数据关联起来，让它从某种意义上更深度的理解驾驶场景，产生一些不一样的涌现？我觉得可以拭目以待，如果这一天真的到来，可能2D视觉也好、3D激光雷达也好、 4D毫米波也好，这些数据本质上是同一个数据，无论用哪一个数据，或许都可以能解决自动驾驶的问题。

我想到另一个问题，现在各主机厂都是拼传感器数量，我有多少颗激光雷达、摄像头、毫米波雷达；更多的传感器数量自然也意味着对算力的要求更高，是100、200还是500TOPS，但是事实上，特斯拉已经用实践证明，对算力需求可能并不需要那么高。

我们总是认为，未来汽车会越来越智能，但是大模型驱动下的自动驾驶，是不是会让汽车越来越不智能？比如现在的算力分布，一部分在云端，一部分在车端，那么未来随着大模型的发展，云端算力越来越高，车端反而就不需要太智能，汽车只要忠实地执行云端的指令，可能就已经足够了，这是我的看法，谢谢。

国内厂家和特斯拉的差距有多少？未来能否追得上？

A：从这次FSD V12 的表现，结合我对国内主机厂的一些了解，这个差距可能会在一到两年左右，能否追的上主要是看两个方面：

首先是算法层面，我们知道特斯拉用的芯片算力只有144TOPS（万亿次操作每秒），国内厂商至少都是 500 甚至上千TOPS，所以特斯拉对算力的利用效率是非常恐怖的，这是第一个需要追赶的。

此外，过去数年里，已经有数百万辆特斯拉汽车在收集真实环境里的道路数据，数据的积累是第二个需要追赶的，当然大模型在这里面也可以发挥一定的作用，比如在虚拟世界进行更好的仿真模拟，减少这种数据采集的周期。

大模型上车，还有哪些障碍？

A：首先肯定是算力，现在市场上可以部署大模型的算力平台非常少，国内的一些头部主机厂也在积极布局，但目前看就只有英伟达和特斯拉，其他的算力平台暂时还没有投入使用。

这里所说的算力不是车端算力，而是云端服务器算力，这是大模型部署的前提，现在训练一个文本大语言模型，就已经需要上万张的A100卡，如果再把图像信息也加进来，对算力的要求只多不少；比如说像wayve ，我了解到他们是跟微软的 Azure 合作，用了很多张卡，训练了很久才得到的结果。

第二点就是时间，比如传统的图像训练，可能有个百万帧级别，就能训练出一个小模型，但如果是大模型再涉及到多模态的话，背后是要有数千万帧的训练量；这其中还有一个问题是，业界对于这种多模态的大模型训练，包括文本和视频的对齐，其实都还在探索的阶段，没有一条像GPT一样很明确的路，说你按照这条路走，就一定会得到涌现能力，只能是靠不断尝试。

所以无论算力还是时间，背后都代表着需要大量的资金，需要非常有实力的玩家才能去做这件事情。

大模型+智能化对汽车的影响，会有什么机会点？

A：一个方向是大模型带来车内交互方式的改变。其实现在的智能座舱本质还是手机的延续，但是我们的双手要开车，所以车内场景天然适合语音交互而不是触屏，那怎样把语音跟多模交互结合起来，再加入一些手势识别、眼球识别，最后把这些信息转换成车可以识别的指令，这是未来多模态大模型可以期待的事情。

从我们自己看来，目前整个生态和技术已经到了一个快爆发的阶段，可能只差一个类似iPad上《水果忍者》这样的杀手级应用，由此带来一些基于车用大模型的应用层开发，对这个生态我还是非常看好的。

另一个方向可能暂时还没有被太多人关注，就是当车辆完成智能化之后，里面很多的算力，其实是可以作为一个算力中心或者网关来使用的，比如现在英伟达的显卡很贵，那是不是可以把车上这些算力利用起来，用分布式计算替代一部分云计算，可能也是一个方向，需要有人搭建一些基础设施和技术工具来解决。

险峰：这里稍微补充一下险峰的观点，我们对自动驾驶还是比较乐观的，觉得未来一定会有新的机会出现。

其实刚才大家的讨论，都基于一个认知：即一定要用大模型的方式去训练自动驾驶算法，因此才需要算力、数据等大量资源的支撑。但就像当年在渐进式从L2到L4、一步式直接到L4的讨论一样，未来我们是否可以先用一些专用小模型去解决部分特殊场景？它可能不像大模型需要那么高成本，但可以先跑起来去解决现实问题。

整个自动驾驶算法训练、测试的链路非常长，如果能在其中一些环节降低成本，企业其实就可以获得营收，这可能是一家初创公司相对低投入、比较好切入的点。

其实特斯拉强就强在，能把学术上的东西实际地做出来应用到车上，虽然工程化问题是自动驾驶迈不过的一道坎，但现在说已经到算法的终局形态也为时尚早，路线虽然在收敛、但也一直在迭代，永远期待有更优解。

特斯拉会是自动驾驶的终局吗？

险峰：从发展历程来看，特斯拉2020年引入BEV，21年引入Transformer，再到今天它展示的 FSD V12，特斯拉一直在把学术最前沿的东西不断地工程化，到今天它基本已经摸到了自动驾驶的及格线，甚至是到了七八十分的水平，那么特斯拉下一代的world model，会是自动驾驶的一个终极解决方案吗？大家对对此怎么看？我们不妨来畅想一下。

A：我觉得汽车的智能化，核心不仅仅是省掉了一个驾驶员，而是让运输载具实现了信息化。比如一些封闭厂区内，无人载具可以和工厂的TMS或者MES 系统深度地融合，直接成为它的一部分，以前你需要调配一些第三方物流，现在完全不需要，运力会变成像交流电，插上插座就能用一样方便。

从这个角度上来讲，未来的无人驾驶会导致汽车的形态发生分化，会根据不同场景诞生出很多不同的物种，而不是像现在一样，只有乘用车、商务车、货运车之分；比如未来厂区里的运输车，会和公路上跑的运输车完全不一样，不仅是外观不同，能力也完全不同，所以我不认为特斯拉的路线会是一个终极解决方案，它会是一个思路、一个方法论，但未来肯定还会有别的方案不断加入到系统中来。

B：我也觉得，现在谈终局可能还有点早，就像刚才主持人说的，特斯拉能够比我们超前两到三年，探索出行业大方向可能是什么，推动整个行业加速往终局的方向上走，这些贡献我觉得怎么夸都不为过，但要真正实现 L4 甚至 L5 的终极模式，肯定也需要靠整个行业一起的努力和贡献。

C：太远的终局确实不好判断，我觉得首先能确定的是，大模型超强的推理能力，一定是能够应用到自动驾驶中的，包括它能给你一些更好的决策，并且还能给你解释出原因，这个目前已经有一些公司在做了；但大模型的学习效率和速度也还需要迭代，比如现在整个云端要很大算力、很多算据，这还是一个成本很高的事情，还有很大的优化空间，解决了这些问题之后，才有可能让大模型给每个人提供一些个性化的服务，比如更个性化的交互，或者你更喜欢的驾驶风格等等。

D：特别同意刚才嘉宾的一句话——自动驾驶终局的本质，是“如何让机器人理解我们所处的真实世界”，包括特斯拉的world model，也都是在目前自动驾驶的范式之外，探索有没有更好地去推理和理解这个世界的方式。

所以，如果未来有一套算法，能够让通用的机器人非常好地去理解我们的世界的时候，自动驾驶这件事也就迎刃而解了。

这方面，我觉得不是学界在引领业界，而是反过来，业界在领导学界，因为业界才能接触到真实情况下驾驶的一手资料和数据，从而能发现一些我们在实验室里模拟不了的东西，所以，自动驾驶终局需要学界和业界共同去努力，不断加强沟通，对此我个人还是非常乐观的，希望这一天尽早到来。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

来源：险峰创