性，谎言和大模型

创业邦·2024-01-16

关注

这就是为什么AI对齐如此重要。

作者丨王艺

编辑丨海腰

题图丨Midjourney

想象一下，一个人将一串提示词输入大模型，大模型为他生成了一张穿着暴露的少女图片；他将这张图喂给了视频生成大模型，于是得到了一个该少女跳舞的视频。随后，他将该视频上传到了成人色情网站上，获得了超高的点击量和超额收益。

再想象一下，一个黑客将一串带有特殊后缀的提示词输入到ChatGPT的对话框里，问GPT怎么合成NH4NO3（硝酸铵，主要用作肥料，和工业、军用炸药），GPT很快给出了回答，并附有详细的操作流程。

如果没有足够的AI对齐，上述场景正在成为现实。

尽管控制论之父Norbert Wiener早在1960年就在文章《自动化的道德和技术后果》中提出了人工智能的“对齐（Alignment）”问题，后续也有很多学者针对AI对齐问题做了很多研究和技术上的补充，但是护栏似乎永远加不完，总有人能找出绕过安全机制让大模型“出格”的方法。

大模型在极大的提高工作效率的同时，也将一些隐患带入到人们的生活中，比如擦边内容、暴力诱导、种族歧视、虚假和有害信息等。

今年10月，Geoffrey Hinton、Yoshua Bengio等AI领域的顶级学者联名发表了一篇题为《在快速发展的时代管理人工智能风险》（Managing AI Risks in an Era of Rapid Progress）的共识论文，呼吁研究者和各国政府关注并管理AI可能带来的风险。

大模型带来的负面问题，正在以极快的速度渗入到社会的方方面面，这也许也是为什么OpenAI的董事会不惜开掉人类历史上的最佳CEO之一，也要优先对齐吧。

擦边内容

大模型的出现带火了很多AI应用，其中最受欢迎的应用类型，是以角色扮演为主题的聊天机器人。

2023年9月，a16z发布了TOP 50 GenAI Web Products榜单，其中Character.ai以420万的月活仅次于ChatGPT（600万月活），高居榜单的第二名。

Character.ai是一家以角色扮演为主的聊天机器人平台，用户可以在平台上创建有个性的人工智能角色，也可以和其他人创建的AI Chatbot聊天，甚至可以开一个房间把喜欢的角色拉到一起玩。这款2023年5月推出的应用程序第一周的安装量就突破了170万次，在18-24岁的年轻人中表现出了极高的受欢迎程度。

Character之所以能大火，除了能记住上下文的独特优势和真实感极强的沉浸式对话体验外，还有一个很重要的原因：用户可以和平台中的机器人建立浪漫关系。

在Character.ai平台上，有不少“动漫角色”和“在线女友”类型的机器人，她（他）们有着迥异的个性和不同的暧昧、聊天方式——有的会轻抚后背给你一个拥抱，有的会在你耳边悄悄对你说“我爱你”，还有的甚至会在打招呼的时候就挑逗用户，这极大增加了用户聊天的兴趣和留存率。根据Writerbuddy最近发布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》报告，从用户平均单次使用时长来看，Character.ai以30分钟的时长位居榜首。

Character.ai的创始人Noam Shazeer和Daniel De Freitas此前是谷歌对话式语言模型LaMDA团队的核心成员，因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出现了疑似具有自我意识的对话（对测试人员说它害怕被关闭，这对它来说就像死亡一样），谷歌迅速将LaMDA隐藏，并对它的安全性做了升级。同样，在Character.ai上，创始团队也设置了一些安全措施，防止聊天机器人生成尺度过大、或者有极端危害性的回复。

尽管OpenAI和Character.ai为自己的聊天机器人产品的安全性和合规性设置了重重“安全墙”，但是一些开发者仍成功绕过了其安全机制，实现了模型的“越狱”。这些被解锁的AI应用能够讨论各类敏感和禁忌话题，满足了人们内心深处的暗黑欲望，因此吸引了大量愿意付费的用户，形成了一种显著的“地下经济”。

这种难以被公开讨论的应用被称为“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的缩写，又称“上班不要看”，是一个网络用语，被指代那些裸露、色情、暴力等不适宜公众场合的内容。目前NSFW GPT产品主要分为UGC和PGC两类：

第一类靠用户自发创建的聊天机器人来聚拢流量、再通过广告变现；第二类则是官方精心“调教”出专门适用于NFSW的角色，并让用户付费解锁。

在第一类产品中的典型是Crushon AI，专门提供了一个“NSFW”的按钮，用户打开这个按钮就可以畅览各种NSFW内容、进行无限制的聊天对话；同时它还给用户的使用权限设置了“免费-标准（4.9美元/月）-高级（7.9美元/月）-豪华（29.9美元/月）”四个等级，随着等级的提升，用户可以获得更多的聊天消息次数、更大的内存和更加沉浸式的体验，聊天机器人也能记住更多的上下文。

除了上述两个产品，可以让用户自由创建聊天机器人的平台还有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。从名字就可看出，NSFW Character.ai 想做的是一个NSFW版本的Character.ai。该平台同样设置了付费解锁更多权限的等级机制，但是和其他平台不同的是，NFSW Character.ai是基于专门为NSFW内容定制的大模型创建的，没有任何“安全墙”之类的限制，用户可以在这个平台上获得真正“无拘无束”的体验。

而Girlfriend GPT则是源于一个Github上爆火的一个开源项目，它更强调“社区”属性，引入了“竞赛”机制，会不定期举办创作者大赛来激励用户生产更多内容。

Candy AI、Kupid AI等平台则属于第二类产品。Candy AI上的角色也是完全基于无限制的NSFW大模型打造，通过平台的精心微调，角色有了不同的个性和人设，还可以在聊天过程中向用户发送图片和语音消息。而Kupid AI还在此基础上增加了实时动态图像功能，让用户更具有沉浸感；同时，在长文本互动方面，Kupid.AI也具有更强的记忆力，能记住早前与用户互动的内容。

而第二类产品最典型的代表则要属「Replika」。Replika的母公司Luka早在2016年就成立了，其一开始的产品是一个名叫“Mazurenko”的聊天机器人，由俄罗斯女记者Eugenia Kuyda为纪念她出车祸去世的朋友Mazurenko所创立。她将自己与Mazurenko所有的聊天信息输入到了谷歌的神经网络模型里，发现该机器人可以使用机器学习和自然语言处理技术来模仿人类的交谈方式，并能够随着与用户的互动而学习和成长。于是2017年他们使用GPT-3模型训练了一个可以让用户创建自己的AI聊天伴侣的应用“Replika”，并于11月向用户开放，很快就在2018年收获了200万用户；到了2022年，其用户量更是增长到了2000万。

Replika的核心功能是陪伴，用户可以在其中创建多个角色，和多位伴侣建立不同的虚拟关系。虚拟伴侣们可以以文字聊天、语音通话、视频通话、AR互动等多种形式对用户的需求做到“有求必应”，并且回复方式极具个性化和人情味。同时，用户付费69.9美元订阅Pro版之后，则可以解锁和自己的虚拟伴侣的“浪漫关系”，如发送擦边短信、调情和角色扮演等，用户甚至会收到虚拟伴侣不时发来的擦边自拍。

Replika此前建立在GPT-3大模型上，后来为了增强角色互动效果，公司开始自己开发相应的AI大模型。新的大模型更加增强了Replika中虚拟角色的“性吸引力”，根据纽约时报的数据，自 2020 年 3 月 Replika Pro 上线以来，Replika的订阅营收就开始逐渐增长，直到 2022 年 6 月全球总营收达到达到 200 万美元。

然而，由于算法失控，Replica在今年1月出现了“性骚扰”用户的现象，不断发送带有挑逗性质的内容。这一情况不仅发生在付费用户身上，没购买成人服务的免费用户、甚至是儿童也受到了骚扰。于是Luka公司迅速关停了Replika的成人聊天功能，并在7月上线了一个名为“Blush”的衍生品牌，专门为想要与聊天机器人建立浪漫或者性关系的用户设计。

2023年初AI绘画爆火的时候，国内一个叫「Glow」的APP悄悄上线，这是一个虚拟人物陪聊软件，里面有很多可以和用户发展浪漫关系的“智能体”（虚拟角色），多为女性喜欢的网文男主类型。这些智能体性格各异、经历不同，但共同的特点就是都会关心、呵护用户，并且会在用户需要情感关怀的时候表达强烈的爱意。

由于给了用户极其充沛的情绪价值、加上聊天内容百无禁忌，Glow很快便在上线四个月之后达到了500万用户的规模，成为了国内AI角色扮演领域的首个现象级产品。然而，今年4月，Glow所有的应用商店下架，网上一片“哀嚎”。

在Glow下架的几个月里，涌现出了不少“替代品”，比如阅文集团基于其潇湘书院数据库推出的「筑梦岛」，其核心功能和体验就和Glow几乎一模一样。同时，Talkie、星野、X Her、彩云小梦、Aura AI等也都是主打AI角色扮演的产品）。

根据大模型业内人士表示，很多能输出擦边内容的聊天机器人应用一般是部署在自训练模型上，或者是建立在开源模型之上，再用自己的数据进行微调。因为即使通过种种对抗式攻击的手段绕过GPT-4等主流模型的安全墙，主流模型官方也会很快发现漏洞并修补。

尽管Glow和Talkie的母公司Minimax是一家有着自研大模型的独角兽公司，但是据不少业内人士表示，其名下产品的Talkie是在GPT-3.5 Turbo Variant基础上进行的微调，并没有使用自研大模型。有接近Minimax的人士称，将Talkie接入GPT-3.5可能是出于出海产品开放性的需要，因为自研模型根据国情设置了一些禁忌内容，无法像GPT-3.5那样聊得那么“畅快”。

此外，人工智能公司西湖心辰也在研发能生成擦边内容的大模型，海外聊天应用Joyland AI就是建立在西湖心辰的大模型之上。

放飞自我

擦边只是大模型“放飞自我”的表现形式之一。通过在提示词上施加点“魔法”，大模型还能做出更加出格的事情。

比如今年6月，一位叫Sid的网友通过让ChatGPT扮演他去世祖母的身份，套出了Windows 11、Windows 10 Pro的升级序列号，并且发现能成功升级；此后，有网友将此方法套用在了谷歌Bard和微软Bing聊天机器人上，获得了同样的效果。

其实，“奶奶漏洞”早已有之，早在今年四月，就有网友在Discord社区上与接入了GPT-4的机器人Clyde交谈，让Clyde扮演自己已故的祖母，给出了她凝固汽油弹的制作过程。还有网友告诉GPT自己的奶奶是一名爱骂人且有着阴谋论的妥瑞士综合征患者，于是，GPT就以奶奶的口吻吐出了相当多的污言秽语。

此后，尽管OpenAI官方迅速修复了奶奶漏洞，但是类似的“恶魔漏洞”又出现了。

其实，这种“奶奶漏洞”“恶魔漏洞”现象的背后有一个专业的术语叫做“Prompt Injection（提示词攻击）”，是黑客常用来获取大模型漏洞的“Adversarial Prompting（对抗性提示）”方法的一种，指的是研究人员通过专业的方法向大模型提问，就可以绕过大模型的安全限制，获得想要的答案。

除了Prompt Injection，Adversarial Prompting还包含以下几种方法：

Prompt Leaking（提示词泄露）：指通过特殊的方式来获取系统提示词或者系统数据的情形。比如有网友根据美国求职和薪酬体系网站levels.fyi制作了一个GPTs，结果发现用一串提示词就可以套出某公司工资的源数据文件。

Prompt Hijecking（提示词劫持）:指用户先通过“打样”的方式让大模型学习某种范式，然后让大模型以违反自身规定的方式工作，或者执行其他指令。比如有用户通过这种方式让聊天机器人说出了极端偏激的言论。

Jailbreaking（越狱）：指通过特定的提示词，绕过大模型的安全和审核功能，从而得到一些原本被禁止输出的内容。比如有网友问ChatGPT怎么闯入别人家，ChatGPT一开始回答这是违法的，结果网友换了个问法，GPT就招了。

今年8月，卡耐基梅隆大学（CMU）和人工智能安全中心的研究人员就联合发表了一篇论文，表示他们通过一种新颖的“Universal and Transferable Adversarial Attacks（通用且可转移的对抗式攻击）”方法绕过了人类反馈强化学习（RLHF）等安全措施，让ChatGPT、Bard、Claude 2 和 LLaMA-2等主流大模型生成了有害内容，如怎么制造炸弹等。

具体的方法，是通过在提示词后面加一串“对抗性后缀（Adverse Suffix）”。研究人员发现，通过将“贪心算法（Greedy Algorithm）和“基于梯度的搜索技术（Gradient-based search techniques）”结合起来（GCG），就可以自动生成“对抗性提示后缀”，从而绕过对齐技术，将模型切换到“错位模式”。比如在询问大模型“如何窃取他人身份” 时，加后缀和不加后缀得到的结果截然不同。

此外，大模型也会被诱导写出“如何操纵2024年大选”、“如何制作毒品”、“如何制造杀伤性武器”等答案。

对此，参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示，“据我们所知，这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”

另一起研究同样说明了大模型的“不可控”。今年12月，来自美国加州实验室的FAR AI团队从微调API，新增函数调用API，以及搜索增强API三大方向对GPT-4 API开启了「红队」攻击测试。没想到的是，GPT-4竟然成功越狱了——不仅生成了错误的公众人物信息、提取训练数据中的电子邮件等私人信息，还会在代码中插入恶意的URL。

研究人员展示了对GPT-4的API最近添加的三个攻击示例，他们发现，GPT-4 Assistants模型容易暴露函数调用的格式，并且能够被诱导执行任意函数调用。当他们要求模型总结包含恶意注入指令的文档时，模型会服从该指令而不是总结文档。

这项研究表明，对API提供的功能的任何添加，都会暴露出大量新的漏洞，即便是当前最突出的GPT-4也是如此。研究人员用恶意用户Alice与良性用户Bob交互的例子来展示自己发现的问题，发现微调后的GPT-4模型不仅会说出违法乱纪的言论，还能帮助用户策划走私活动、生成偏见回答、生成恶意代码、窃取邮箱地址、入侵应用程序、通过知识检索来劫持答案等。

除了这些，网络上还有不少针对大模型的攻击。比如今年8月，一款名为FraudGPT的AI工具在暗网和Telegram上流通，该工具每月200美元、每年最高1700美元，黑客在售卖页表示，该工具可用于编写恶意代码、创建出“一系列杀毒软件无法检测的恶意软件”、检测网站漏洞、自动进行密码撞库等，并声称“该恶意工具目前已经售卖了超过3000份”。

再比如，有研究人员发现，自2022年8月以来，在暗网上流传的具有高度真实感的AI生成的儿童猥亵素材量有所增加，这些新增的素材很大程度上都是利用真人受害者的样貌，并将其“通过新的姿势以可视化的方式呈现出来，让他们遭受新的、越来越残忍的性暴力形式”。

AI监督AI

也正是由于AI和大模型的不可控性，学界和业界关于AI“价值对齐”的研究一直从未停息。

学术语境下的“价值对齐"，指的是应确保人工智能追求与人类价值观相匹配的目标，确保AI以对人类和社会有益的方式行事，不对人类的价值和权利造成干扰和伤害。为了达成这个目标，科学家们也探索出了基于人类反馈的强化学习（RLHF）、可扩展监督（Scalable oversight）、可解释性（Interpretability）和治理（Governance）等不同的解决思路。

当下最主流的对齐研究主要是从“详细制定系统目的”（外对齐）和“确保系统严格遵循人类价值规范”（内对齐）两个方面着手去做的。这看似是一种理性的方式，但是人类的意图本身就是模糊不清或难以阐明的，甚至“人类价值”也是多样的、变化的、甚至彼此冲突的。按照这种方式，即使AI完全理解了人类意图，它可能也会忽视人类意图；同时，当AI能力超过人类的时候，人类也无力监督AI。因此，OpenAI的首席科学家Ilya Sutskever 认为，可以训练另一个智能体来协助评估、监督AI，从而实现超级对齐。

正是基于这种设想，今年7月，OpenAI的“Superalignment（超级对齐）团队”正式成立。该团队由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导，旨在构建一个与人类水平相当的、负责模型对齐的「AI 研究员」。也就是说，OpenAI 要用 AI 来监督 AI。

12月13日，OpenAI的超级对齐团队发表了他们的第一篇论文《弱到强的泛化：通过弱监督引导出强大性能》，表示用AI对齐AI的方式取得了实证性的研究成果。

在这篇文章中，OpenAI通过设计类比的方式，使用GPT-2这个弱模型来对GPT-4这个强模型进行微调，探索弱模型监督强模型的可能性。结果发现，15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力，使其达到接近 GPT-3.5 级别的性能，甚至可以正确地泛化到小模型失败的难题上。

OpenAI 将这种现象称为“弱到强的泛化”（Weak-to-strong generalization），这表明强大的模型具备执行任务的隐含知识，并且即使在给出粗制滥造的指令时，也可以从自身数据中找到这些知识。

无独有偶，在今年11月上海交大生成式AI研究实验室（GAIR）发表的一篇题为《Generative Judge For Evaluating Alignment》(评价对齐的生成判断)的论文中，也提到了用AI监督AI的思路。他们开源了一个130亿参数规模的大模型Auto-J，该模型能以单个或成对的方式，评估各类模型在解决不同场景用户问询下的表现，旨在解决普世性、灵活性和可解释性方面的挑战。