为什么模型还在开源?

关注
关键在于客户选择

编者按:本文来自微信公众号 王智远,作者:王智远,创业邦经授权转载。

上半年就讨论过这个问题。

4月份时,百度创始人李彦宏说大模型一定要闭源,当时我记得,周鸿祎在海外演讲时,还反驳说:有些名人乱说,没有开源哪有互联网。

李彦宏觉得,闭源才能赚到钱,能吸引人才和算力,开源没啥用,闭源能力会一直领先,做模型的创业公司,即做模型又做应用不是好办法。

可半年过去了,到2025年1月初,我仍然看到不少企业在开源模型。比如:

1月15日,MiniMax开源了两个模型。一个是基础语言大模型MiniMax - Text - 01,另一个是视觉多模态大模型MiniMax - VL - 01。

这两个模型厉害之处在于,它们用了一种线性注意力机制,好比给模型装了一副更高级的“眼睛”,让它能更快速、高效地处理信息。

而且,一次能处理400万token,是别的模型的20 - 30倍。前天这新闻出来时,我在群里还吐槽:Deepseek被偷家了,它们用的是传统Transformer架构,MiniMax新模型MiniMax - 01用了新型Lightning Attention架构,把架构都替换了。

还有,1月15号,CES展上,NVIDIA也开源了自己的世界模型,分别有三个型号:NVIDIA Cosmos的Nano、Super和Ultra。

Nano主要是实时推理,训练反应能力,用在智能交通、工业自动化这些地方;Super和Ultra则擅长处理复杂任务和大规模数据,能生成很逼真的物理感知视频,模拟和预测机器人和自主系统的真实结果。

昨天(1月16号)阿里云通义也开源了一个模型,叫PRM的数学推理过程奖励模型,尺寸为7B。这个模型像个数学老师,比GPT - 4o更能发现数学推理中的错误,帮助人们更好地学习和研究数学。

你看,模型开源的信息一直没断过。我让Kimi chat帮我统计了一下,2024年全年开源大模型中,品牌有10个以上。

种类和数量多得数不过来,像Llama 3、GLM - 4、Qwen系列、DeepSeek、Falcon 40B、Gemma、FLUX.1、MPT - 7B、Phi - 2等等。

你不了解它们没关系,只要记住,它们有的能处理文本、有的能生成图片、还有的能处理多模态信息就够了。

然而,一年快过去了,又回到那个问题上:模型要不要开源?开源好、闭源好?

要解答这两个问题,我认为要从最底层原理思考。什么是最底层原理呢?例如:我们得知道模型这个东西,它到底是什么?怎么用的,用在哪里的。

如果用维基百科的介绍,那我能写几千个字的模型是什么。然而,这种理论性较强的知识,并不能通俗地理解。

我来打个比方:

可以想象,现在有一个人,有一个超级大脑。大脑能处理语言、图片,甚至有的还能把多个模型整理起来处理复杂的任务。

而模型呢,像一个个强大的工具,通过学习大量数据变得更聪明,就像你学习新技能一样,练习得越多,就越熟练。

所以,模型可以看做是一个个多功能的助手,每个助手都有自己的专长、干自己的事儿,这样才能分工明确,各司其职。

问题是,开源好,还是闭源好呢?

我认为这一定要看两点,动机和用途。什么是开源?简单讲,把你的工具箱免费分享给大家,任何人都可以拿去用,还可以根据自己的需要进行改进和扩展。

这么做的好处很明显,一,能很快拉起一帮开发者,间接给自己储备人才。比如,大家都用LLaMA来练手、调教,市场上就有好多懂LLaMA的人,你招人时就可以在里面挑选需要的技术人才。

其次,全世界的工程师都能交流经验,就像有好多工程师帮你试模型,给后续改进提建议,能让开源模型更快追上闭源模型。

从做生意的角度讲,开源还能打击对手。有了免费的开源模型,那些收费的闭源模型在市场上就不好混了。

再者,开源模型能鼓励大家一起玩、一起干,加快解决问题和创新的速度。源代码公开了,全球开发者、研究者都能随便用、随便改,这样一来,技术更新换代快,门槛也低了,更多人就能参与AI研发了。

在Stability AI发布的关于新模型FreeWilly的报告里,明确指出了,LLaMA模型开源没几天,旗下衍生的大模型FreeWilly2就跑赢了LLaMA。

这说明,开源模型就像一群人在帮忙,大家一起出力,能让模型变得更好更快。

不过,开源也有一些潜在风险。比如:模型被滥用进行不当内容的生成,这就需要开发者和使用者共同关注和规范。

还有,数据隐私泄露的问题,模型的使用和改进涉及到大量数据的处理和传输,如何在开源的同时保护用户数据隐私,是需要解决的重要问题。

读懂了开源,闭源就容易理解了。

相当于一本书把它锁起来,只给特定的人才能用,这样,发明这个大脑的公司可以更好地控制它,确保它的安全和稳定,同时,也可以通过这种方式赚钱,因为别人要使用这个大脑,就需要付钱。

闭源有什么优势呢?

一,闭源能很好地保护公司的技术和知识产权。你辛辛苦苦写好的模型代码,不用担心公开后被别人“偷家”。

二,闭源能更专注于特定的场景和用户。比如,有些金融公司、银行不需要开源模型,它们只要一个专门处理金融数据的模型就行。闭源就能很好地解决这个问题。

还有一点,闭源后,公司可以持续投入有限的资源来优化、改进模型。因为只有他们能接触模型的核心代码,所以,能根据数据的反馈,不断微调,让模型变得更精准、更强大。

而且,闭源模型在商业应用上更灵活。公司根据市场需求和客户反馈,快速调整模型的功能和性能,推出新的版本,这样,就能满足不同类别的客户了。

问题是,任何技术的发展都需要商业的支持,商业的发展会推动技术的更新,所以,到底要不要开源,得看掌握「模型」的企业,想让模型在特定的环境下干啥。

我来举个例子:

拿MiniMax来说。这家公司有四种模型布局:大模型MiniMax - 01系列、视频模型(abab - video - 1、video - 01)、语音生成模型(speech - 01、T2A - 01 - HD),还有音乐生成模型music - 01。

发这么多模型,主要是为了建立「竞争壁垒」和满足不同场景的需求,从文本到音频,模型几乎涵盖了MiniMax的基础设施。

什么是基础设施呢?

就像一个底座。有了底座,可以在上面做很多事情。

比如,有视频模型,各种企业可以用这个模型开发不同的应用。TOB(面向企业)的企业可能会用它的API来开发AI剪辑视频的产品。

电影动画领域,这个视频模型可以用来生成动画场景,提高制作效率;甚至在教育领域,可以用来制作教学视频,让学习更加生动有趣等等。

再比如,有了语音生成模型,就像有一个会说话的机器人。这个机器人在智能家居中,可以通过语音控制家电,在客服领域,它可以用来生成自然的语音回复,提高客户满意度。

这些模型一起,构成MiniMax在AI领域的基础设施,就像建房子的地基,有了地基,才能盖起各种各样的房子;这样,MiniMax不仅能够满足不同场景的需求,还能在市场竞争中建立起自己的优势。这就是TOB的力量。

再来看看TOC。

MiniMax这家公司,有两个原生应用,一个叫海螺AI,类似于豆包、Kimi chat、通义和文小言,它有多模态能力,支持文本、语音、图像等多种输入方式。

还有一个叫星野。星野是什么?基于AI的内容社区,用户可以创建虚拟角色进行互动,形成类似于小红书、抖音、B站等社区的形态。

所以,两个放在一起看,就形成了C端壁垒,一个满足日常使用,一个满足产生内容后发布出去,在社区帮助创作者形成商业闭环。这样,用户不仅不会流失,还会愿意一直留在平台上,从而形成C端市场的竞争力。

了解这一点,就明白了“开源、闭源”的动机。

互联网上的所有数据,总有一天会被AI学习完。仅仅靠自己社区生态内的一点内容,完全无法满足一个模型的训练需求。

除非一个新的模型厂商能像淘宝、京东、小红书那样,拥有海量的数据和标签。只有开源,才能保证模型有足够的“食物”来不断学习和进化,保持其竞争力和准确性。

而支持闭源的人呢?

大部分更偏向于TOB客户,这些客户急需将AI的能力融入到工作场景中。例如,京东这样的公司,如果要养10万个在线客服,肯定是不划算的。

怎么办呢?可以做一个闭源模型,让它学习所有客服的知识库和QA,然后通过API接入。这样,就可以利用闭源模型自动回答客户的常见问题,提高客服效率,同时减少人力成本。

所以,闭源模型的这种定制化和专用性,在特定的场景中表现得会很好。因此,一个结论是:模型是否开源,应该站在客户选择的角度来看,而不是仅仅考虑「模型本身」。

这句话怎么理解呢?

简单讲:决定一个模型是否开源,不应该只从技术角度出发,而应该考虑客户的需求和选择。

国外有两家公司,一个叫VMWare,它的软件像“电脑管家”,主要帮客户的企业把电脑、服务器管理得井井有条。

还有一家公司叫HuggingFace,它是一个专门做人工智能的公司,他们有很多很厉害的AI模型。StarCoder是其中一个模型,功能是帮助开发人员(就是写电脑程序的人)生成代码。

但是,VMWare选择自己把StarCoder模型放在自己的服务器上,而不是用微软的Github的Copilot这样的外部系统。因为VMWare对自己的代码库(就是他们所有的代码集合)非常小心,不希望让微软(另一家大公司)看到这些代码。

而HuggingFace呢,它把StarCoder模型开源,让所有人都可以免费使用。

这样做的好处是,很多开发者都可以用这个模型来生成代码,提高他们的工作效率。开源还意味着社区的力量,全球的开发者都可以一起改进这个模型,让它变得更好。

所以,你看,VMWare更注重保护自己的代码库,虽然它也用了HuggingFace的StarCoder,但它选择闭源的方式来保护自己的数据安全。

而HuggingFace本身,把StarCoder做了开源,让更多人可以使用和改进这个模型,促进技术的快速发展和创新,这就是不同的选择,一个模型面对的客户不一样,开源闭源也不一样。

国内这样的操作更多。

阿里、腾讯都是双轮驱动。我记得,阿里云在2024年9月的云栖大会上发布的模型Qwen2.5系列,最近大半占据Hugging Face榜单,这些模型,一些对开发者,一些对企业。

腾讯2024年11月份宣布的两款产品,Hunyuan - Large(大语言模型)、Hunyuan3D - 1.0(文本加图像)也是这样。因此,这种模式不仅推动了技术的迭代,还满足了不同客户群体的需求。

说到底,到底开源好,还是闭源好?

我觉得,关键在于客户选择。如果一个模型上面做了TOC的产品,那开源肯定有利于发展。反而,这个模型是直接面对公司用的,闭源是最佳选择。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。


反馈
联系我们
推荐订阅