把GPT-3.5装进手机里？小模型爆发背后没什么神奇的魔法

腾讯科技·2024-04-28

Scaling Law（缩放定律）是AI界当下的金科玉律。简单解释的话它就是在说数据越多，参数越大，算力越强，模型最终的能力就越强。正是这一规则让OpenAI相信AGI可能到达，只要数据够多，参数够大，AGI就一定能达到。

编者按：本文来自微信公众号腾讯科技（ID：qqtech），作者：郝博阳，创业邦经授权转载。

但这一规律在近期发布的一系列模型前，似乎在面对着挑战乃至逆转。

Llama 3才火了一周，70B的“小参数”大模型就能和据说1.8T参数的GPT4掰掰手腕，而Llama 3 8B更是能力上全面超越比自己大了近10倍的Llama 2 70B。

根据其官网介绍Llama 3相对于Llama 2的主要架构更改只有从32k提升到128K 的分词器，采用了分组查询注意力（GQA）以及提升上下文长度的RoPE技术。这些改变都不算对架构的巨大改变，但小模型的能力就是在飞跃式的提升。

由此来看，参数越多模型越强这条Scaling Law的黄金法则看起来好像要失效了。

结果这两天微软又发出了Phi-3系列模型，其仅3.8B的mini版模型号称能力对标GPT3.5，拳打Llama 3 8B，脚踢 Mistreal 7B等一众比它大了一倍的知名“小模型”。微软还把它直接装进了苹果A16芯片的手机里，仅占1.8G内存，完美流畅运行。

（每秒12个token，在本地模型里算是超高速了）

这一超越人们一般认知的性能，在Phi 3的论文中被形容成当前模型的表现偏离了标准的Scaling Law。（deviate from the standard scaling-laws）

小模型到底有没有在打破Scaling Law？我们得先挖挖这些小模型是用什么妙法“突破”Scaling Law的。

01两条路，“突破” Scaling Law

虽然Llama 3 8B和Phi3 3.8B都展示出了非常好的效果，但它们选择的路径并不相同。大模型三要素：框架，数据和参数，参数既然固定是小的，框架在这么小参数下做MOE也没意义，能做的改变有限，因此他们都只能在数据这个要素上下功夫。

Llama 3:有钱任性路径

Llama 3 8B所走的路径是猛加训练数据量。一个80亿（8B）参数的模型，Meta用了15万亿（15T）的数据进行训练！这和他们训练70B模型用的量级一致。所以它是符合Scaling Law的，只不过这次增加的不是参数量，而是数据量而已。

既然如此，为什么之前很少有人做这样给小参数模型喂超大数据的尝试呢？

因为在大语言模型界一直都还有一个规则，叫Chinchilla Scaling规则。这出自一篇发布于2022年的论文，作者Hoffman试图去找到对应某种参数的最佳数据训练量。他通过三种拟合方法，最终发现大概用20倍于参数量的数据进行训练是效率最高的（即tokens/parameters为20/1）。数据比这个少的话，参数多提升也不大；数据比参数多20倍的话，模型性能的提升就没有训练更大参数模型那么明显了。所以如果有足够算力去训练更多的数据时，大多数模型都会选择对应的更大的参数量级去进行训练，因为这样可以达到在一定的算力之下效果的最优，能带来做多的泛化和最好的效果。

（Chinchilla 的最佳效率点分布）

但Meta在 Llama 3 的开发过程中对Chinchilla Scaling Law进行了一波压力测试。根据Llama 3的简易版技术文档中所述，虽然 8B 参数模型的 Chinchilla 最优训练计算量差不多是 200B token，但Meta发现，即使在模型使用超过两个数量级（大概4万亿）的数据进行训练后，模型性能仍在继续提高。所以Meta干脆直接给 8B 和 70B 参数模型喂了15T的token进行训练，结果他们发现模型能力还在继续呈对数线性改进。

针对这点，前OpenAI联合创始人Andrej Karpathy还在Llama 3 发布后特别发了一条推文，指出只要你持续加数据量，模型就是会越来越好。他还点出大家之所以不这么做，一方面是出于误解：觉得超过Chinchilla的最佳数据量，模型的能力提升会大幅收敛。Llama 3正是用事实证明了并不会。另一方面，在现在卡慌的背景下用这么多数据持续多次的训练一个小模型并不经济，因为用同等算力和数据做大模型，其能力更强。

所以只有Meta这种坐拥35万块H100，不差卡的真土豪才敢只从扩量数据这条路上去验证Scaling Law。

Phi-3:工匠雕花路线

微软虽然也不缺卡，但他们明显还是更考虑性价比的。在Phi-3的技术说明中，mini版本所用的训练集为3.3万亿个token，也大大超过了Chichilla最优，但只有Llama 3 8B的1/5。

Phi系列从其第一代开始一直走的都更偏向于另一个路径：优化数据。除了精心筛选数据外，微软还利用更大的模型生成对应的教科书和习题集，专门优化模型的推理能力。

回到优化数据这一点上，实际上目前大模型训练时用到的数据集大多来自网络抓取，它们非常杂乱，其中有相当一部分都是网络垃圾邮件或者广告等重复且无法增加信息丰度的内容。对这些数据进行处理就能使得在这个数据集上进行训练的模型效果得到显著提升。

比如最近Huggingface就发布了一个名为Fineweb的数据集，训练了 200 多个消融模型来仔细解析和过滤，排重Common Crawl从2013-2024年间的所有数据，得到了一个15T的训练集，在这个训练集上进行训练的模型最终效果可以显著提升。

最上面的是FineWeb，最下面的是一般数据

Phi3的核心数据处理方法和逻辑没有什么改变。主要是做了一些拓展和优化，把1.5T的数据集提升到了3.3T。想了解其详细的数据处理逻辑可看前文微软的AI弯道超车法：大模型卷不过，小模型我必坐头把交椅（点击文末阅读原文即可阅读）

当然Phi 3的做法更复杂，其数据包含了两个主要组成部分，a) 经过大语言模型过滤的高质量网页数据。这些数据要进一步按照"教育水平"筛选,保留更多能提高模型"推理能力"的网页。b) 由大语言模型生成的合成数据。这部分数据专门用于教授模型逻辑推理和各种特定领域的技能。

因为Phi3 mini的内容容量较小，无法容纳所有的训练数据，它还将训练分为两个独立的阶段:第一阶段主要使用网络数据源,旨在教会模型一般知识和语言理解;第二阶段将更严格过滤的网页数据与一些合成数据混合,以提高模型的逻辑推理和特定领域能力。第二阶段会覆盖掉第一阶段中不太重要的一些常识数据，为推理能力相关的数据腾出空间。

通过这通对数据的细致处理和雕花，Phi-3 mini居然能达到比它大至少50倍的GPT3.5层级的推理能力。