ChatGPT变笨新解释：世界被AI改变，与训练时不同了

量子位2024-01-03

少样本能力只是错觉？

编者按：本文来自微信公众号量子位（ID:QbitAI），作者：梦晨，创业邦经授权转载。

对于ChatGPT变笨原因，学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出：

在训练数据截止之前的任务上，大模型表现明显更好。

论文重点研究了“任务污染”问题，也就是大模型在训练时期就见识过很多任务示例，给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出，大模型训练后参数冻结，人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化，就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答，其实是在训练时见过大多数常见任务。

随时间推移，人们开始提出更多新问题，AI表现就不行了。

比如对于代码问题，编程语言还在持续发展变化，迟早有一天效率会低到不可接受。

这是所有不具备持续学习能力模型的命运。

任务污染有多严重？

研究团队一共评估了12种模型，从ChatGPT之前的GPT-3系列、OPT、Bloom，到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题，也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难，闭源模型根本不会公布训练数据，大多数开源模型也只是生命了来源，而不发布数据本身。

如果研究者重新爬取互联网数据，也有可能与模型训练时相比发生了变化。

对此，团队采用4种方法来测量任务污染程度：

检查训练数据：直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上，存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

提取任务示例：通过调整提示词，让模型自己把训练数据中的任务示例背出来

从GPT-3 davinci-001版本到GPT-3.5-Turbo，这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例，绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据，但不代表问题不存在。

成员推断（只适用于生成任务）：检查模型生成的答案是否与原始数据完全相同

按时间顺序分析：对于已知训练数据收集时间的模型，测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高，但召回率较低。如果在任务的训练数据中找到数据，则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小，使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低，容易受干扰因素影响。

特别是对于GPT-3系列，目前人们假设其能力提高来自于指令微调，但研究团队认为事实并非如此。

虽然在2021年之前的数据集上，davinci-002比davinci-001的性能有所提高，但在2021年之后的数据集上性能却相应下降，

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为：

由于任务污染，闭源模型可能会在零样本或少样本评估中表现的比实际好，特别是经过RLHF微调的模型。污染的程度仍不清楚，因此我们建议谨慎行事。
在实验中，对于没有任务污染可能性的分类任务，大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
随着时间推移，观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加，这可能是由于任务污染造成的。
即使对于开源模型，检查训练数据的任务污染也很困难。
鼓励公开发布训练数据，以便检查任务污染问题。

有人总结到：

用现有数据训练AI
人们过多使用AI，以至于改变了现实世界
AI无法适应改变后的世界，变得低效

这是一个循环。

论文

https://arxiv.org/abs/2312.16337

参考链接

[1]https://twitter.com/ChombaBupe/status/1741531065032798360

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。

免责申明

1.本平台专注于提供资讯分享服务，所提供的资讯内容仅代表作者个人观点，不反映本平台立场。

2.我们致力于确保所提供信息的准确性和及时性，但对信息的完整性、准确性、可靠性或适用性不做任何明示或暗示的保证。

3.用户在使用本网站提供的信息时，请自行判断并承担相应风险。本网站对用户因使用或未能使用本网站而导致的任何直接、间接、附带的损失或损害概不负责，包括但不限于利润损失、商业中断、信息丢失等。

4.免责申明可能随时修改，恕不另行通知。请定期查阅以获取最新信息。

相关专题

AI大模型

: 00后北大女学霸，带领团队打造3D生成模型，爆火海外
一张图30秒高质量转3D，3D生成圈的一个开源模型Unique3D，爆火海外。该模型由一支来自清北的00后年轻初创团队打造。
2024-06-27

: 再融8亿，以色列退役军挑战英伟达
以色列退役军人打造又一AI独角兽！Hailo宣布再获1.2亿美元投资，并推出高性能生成式AI加速器Hailo-10。
2024-04-17

: 一键换脸， AKOOL实现年化营收千万美元
AI公司AKOOL推出了唱歌虚拟人工具，拥有丰富的AI换脸视觉表现技术以及成熟的声音克隆技术。已突破百万注册用户，服务多家世界500强企业，年化营收千万美元。
2024-04-15

: “00后”团队，3天上线一个AI产品，50天后被收购
“00后”团队3天上线一个AI产品ChatMind，50天后被Xmind收购。年龄最小的团队成员高中刚毕业
2024-03-13

提及AI大模型

ChatGPT-3.5

ChatGPT 3.5是OpenAI公司研发的强大自然语言处理模型，具备卓越的上下文理解、生成控制和回复质量。广泛用于智能对话系统和客服机器人等任务。然而，使用时需注意模型的局限性和潜在偏见，适当设置和控制可提高回复的准确性和适用性。

ChatGPT-4

ChatGPT-4是基于GPT架构设计和训练的人工智能语言模型。通过大量文本数据的训练，它具备了理解和生成类人语言的能力。相较于之前版本，ChatGPT-4在响应时间和准确性上有显著提升。作为智能语言模型，它提供多功能的人机交互服务，包括聊天交互、问答、文本生成、翻译和摘要等任务。

ChatGPT

ChatGPT是一种基于自然语言处理的神经网络模型，它是以预训练技术为核心的生成模型。它是Transformer编码-解码模型的解码部分，以ChatGPT为代表的大语言模型（LLM）是目前最先进的自然语言处理技术之一。

LLaMA

LLaMA是Meta AI公司于2023年2月发布的大型语言模型

提及AI应用

ChatGPT

由OpenAI打造的先进语言模型，为用户提供强大的自然语言处理能力，适用于编程帮助、写作支持、知识查询等多种场景

提及公司

: ee
面向女生的新一代场景社交
｜移动互联网｜北京

: in
女性时尚图片分享社交应用，主打”我的生活in记“
｜社区社交｜浙江

: 量子位
关注前沿科技资讯，追踪人工智能动态
天使轮｜文化娱乐｜北京

: OpenAI
开放人工智能研究和部署研发商
D轮｜人工智能｜加利福尼亚

提及投资机构

: Twitter
USD｜美国｜2006-03-01

: 创业邦
OTHER｜北京｜2015-01-13

: DFC
USD｜哥伦比亚特区｜2019-01-01

: D3
OTHER｜东京｜未公开

关联标签

模型训练污染科技AIGC