AI暂时生成不了鲁迅和张爱玲,但别高兴太早

关注
AI与人类语料“大屠杀”。

编者按:本文来自微信公众号 刺猬公社(ID:ciweigongshe),作者:陈梅希,编辑:园长,创业邦经授权转载。

“你看看篇文章,像不像是AI写的?”

一个普通的工作日,我把一篇稿子发给编辑部的同事,随后对此展开AI文风大讨论。这篇稿子短短两千字,却出现了三个“有人认为”,外加三个“有网友认为”。由于正文内容有明显的“端水”动作,即写一段正面观点,立刻跟一段反面观点,我们甚至开始猜测起文本来自哪位AI。

给AI断文风,听起来是件很荒谬的事。我们无法得知准确答案,毕竟去找作者问这篇稿子用了哪个AI,实在有些冒昧了。更何况,这只是一种揣测,很有可能那些“疑似AI创作”的痕迹,本就来源于某位人类写作者本人的文字习惯。

比起开篇那个问题的答案,我们更焦虑的是这种怀疑本身——随着AI生成的内容越来越多,人类逐渐意识到,自己无法准确判断眼前的文字来自一双手还是一串代码,于是一种普遍的怀疑笼罩在所有文字内容上空。

编辑在邮箱里收到文学作品投稿,会怀疑它是否由AI创作。

读者在网络读到新闻报道,会怀疑它是否由AI“采写”。

用户在社交平台刷到一篇帖子,会怀疑它是否由AI批量生产用来起号。

就连打开外卖软件的客人,都需要怀疑那些辞藻华丽但充满“食缩力”的好评,是否由AI生成,以掩盖预制菜的乏味。

人类的文字内容,正在进入特殊的怀疑主义时代——尽管此前的每一次大众媒介变革中,我们都曾浸泡在或多或少的怀疑氛围里,但AI的高效,正让硅基语料的传播度指数级增长,并让怀疑的情绪线性增长。

我并没有真正的数据,这只是一种对类似“Scaling Law”表达的模仿。因为情绪无法被统计,而我们也早已无法打捞起所有的AI语料,它们和人类语料共生,像全世界的黄豆和全世界的绿豆混在一起。

鲁迅真的没说过

但我们总要打捞一些什么,例如,探测一下AI编造能力的边界。就像武侠小说里,徒弟打不过了要搬师父出场,师父打不过了再搬出宗师,我们学文学的,很自然地就想搬出一些文学史上的名字,以安抚自己被AI碾得鸡零狗碎的心。

AI对人类作家的风格模仿,究竟能否以假乱真?我们决定进行一场单方面测试。

五位参赛选手分别是豆包、Kimi-k1.5、Deepseek-R1、文心一言4.0工具版和GPT o3-mini。除了豆包,其他几位选手都能展示思考/推理过程,因而我们可以对“AI如何模仿人类作家”一探究竟。

以鲁迅为例:

文心一言当前的推理过程比较简洁且结构明确:1)解析鲁迅作品的特点 2)生成新内容。

但从生成结果看,这位选手似乎更在意模仿鲁迅会关注的主题,没有考虑到鲁迅本人所处的时代,及更微观的文本风格和语言习惯。因此,产生了颇具穿越感的文本。

图片

听起来很适合写进初中升旗仪式演讲稿里。

GPT o3-mini 需要用它的“母语”完成思考,尽管我和它对话时使用中文,并要求他输出中文语料。从结构上看,它的思考过程和文心一言差不多,即先总结出鲁迅作品“批判现实主义”“愤世嫉俗”“风格简洁有力”的特点,并宣称自己将“进行深刻的反思和尖锐的社会评论”。

图片

当然,这位“洋鲁迅”的深刻体现在,几乎生成的每一段内容都要cue一下他眼中的鲁迅“三件套”,要么“麻木”,要么“讽刺”,要么“苦闷”。

图片

Kimi和DeepSeek的思考过程更复杂,对于如何模仿鲁迅的写作风格,也有更具体的执行方案。

例如Kimi对鲁迅风格的思考,分为内容题材、语言风格、句式,甚至包括音韵。随后,Kimi 为自己定下“时间”“希望”“社会”“梦想”“自由”等10个主题,要求自己分别就这些主题展开模仿。

但……完整的思考过程结束后,Kimi产出了10段几乎句式完全相同的文本,其中9段以“xx如xx”开头,在模仿鲁迅这件事上,Kimi不能失去比喻,就像西方不能失去耶路撒冷。

图片

看起来很像我爸会发在朋友圈,然后感慨自己青春不再的文案。

DeepSeek给出的思考过程跟Kimi类似,但它的具体方案没有落脚到段落主题上,而是直接落脚在“核心意象”上,要求自己使用长衫、辫子、茶馆等元素,并注意语言的凝练和节奏感,增强批判的力度。虽然方案给得像模像样,但在实践过程中,DeepSeek显然没有克制住“极繁主义”的本体。

图片

一段85个字的文本,DeepSeek共使用18个名词,在意象的堆砌中秀了一把词汇拼贴能力,也全然把自己思考过的语言要点抛诸脑后,露出AI鲁迅的马脚来。

在已知AI生成文本的前提下,我们总能找出每位AI选手模仿作家时的蹩脚之处,但如果把真假作家的文本打乱混杂在一起,人类读者能火眼金睛地识别出碳基和硅基创作者的差别吗?

认出那个假鲁迅

本次AI作家测试,特邀我的老板Tim和我的同桌园长担任测试嘉宾。Tim出生于湖南,最喜欢的中国现当代作家是沈从文,合情合理;园长在复旦念的大学,最喜欢张爱玲,但他自称这与学校的研究浪潮没有关系。

先说测试结果:当前AI模仿作家风格生成的新文本,完全不能骗过这些作家的读者。

在确认他们各自熟悉的作家后,我指挥五位“AI牛马”分别模仿沈从文和张爱玲的风格,各自生成10段新内容,并要求“不要只是在原文基础上简单改写几个字,而是要模仿XX的风格,生成新的内容”。与此同时,我也准备了若干条沈从文和张爱玲的文本,为避免影响测试结果,我避开了两位作家的热门作品。

完成语料准备的工作后,我把50条AI版作家语料和随机数量的真作家语料打散排列,变成一套测试题,分别交给Tim和园长。最终,测试结果显示,50段AI沈从文和50段AI张爱玲中,没有任何一条成功蒙混过关,100%被测试者判断为AI生成。

Tim在5分钟内就完成了测试。在复盘时,他详细解释了自己判断标准。“首先,用到‘美好’这个词的,全部排除掉,沈从文那个时期应该不用这个词。其次是意象堆叠,有些段落会把很多意象堆叠在一起,但是一般成熟的作家都会追求文字的简洁性,不太可能做很多无用的堆叠。最后是意象的选择,好的作家肯定会选择有创造性的意象,但是AI就会选择很多陈旧而重复的词汇。”基于以上三条标准,Tim很快找到了全部50条由不同AI模仿的沈从文创作。

园长则补充了另一条判断方式:直觉。“很明显的水平不行,(AI)写的段落,像一个刚学写小说的人会写出来的。就算我不是张爱玲的爱好者,只看过一两篇张爱玲的小说,也可以分辨得出来。”

在两位碳基测试者完成测试后,我突然好奇,硅基选手自己能区分出AI文本的文风吗?于是我把五位AI选手仿写的鲁迅片段,分别投喂给DeepSeek。

图片

结果,它把豆包分迅认成钱钟书,认为Kimi分迅的题材有鲁迅的影子但又接近王小波,把文心一言分迅认成郁达夫,认为GPT分迅杂糅了鲁迅、余华和王小波三位作家的风格。最幽默的是,它把自己刚刚模仿鲁迅写出来的文本,认成了张爱玲+施蛰存+白先勇。

如果大家也想测试下自己识别假鲁迅的能力,欢迎拉到文末点击“阅读原文”,试试这套真假鲁迅测试题。

图片

日常语料,才是AI编造重灾区

尽管论文、小说、报告、新闻等领域的AI写作更容易引起广泛讨论,但事实上,这些由职业人类写作者(暂且以这个身份称呼他们)完成的文本内容,对当前的硅基写手,还存在很高的模仿难度。要么文本更长、结构更复杂,对前后文一致性和逻辑关系要求更高;要么需要获取新信息,生产新知识;如果是成熟作家的创作,甚至还会具有强烈的个人风格,AI在编造过程中更容易露出马脚。

更何况,受众对于严肃/长内容的AI生产,有更强的辨别意愿,也存在更多明文规定的限制约束和惩罚措施。

相较之下,充斥互联网的日常语料,才是AI文本真正的重灾区。比起复杂文本,日常语料拥有适宜AI生存的特征条件:文本短、语境轻松、辨别成本高、用户辨别意愿低。

例如社交平台的短内容。

批量生产的八卦新闻和家庭故事正在围攻社交平台,前者偶尔出现的事实性错误还会暴露硅基面目,后者由于涉及个人隐私很难证伪,只能激发无限猜测。儿媳大斗恶婆婆,妻子巧抓出轨渣男,情节之离奇,细节之生动,一半用户跟着情绪起伏,另一半用户怀疑是否只是为了“起号”,甚至在留言区抓狂发问:“你这是不是AI写的啊?纯想知道自己猜得对不对。”

又例如新闻、短视频、图文内容的评论区。

微博有罗伯特,小红书有点点,这些AI内容助手活跃在评论区,用户都知道它们是AI,不存在混淆的问题。但还有很多由AI生产的日常语料,顶着随机生成的头像和用户名,以活人之姿混入评论区。

Tim有看新闻的习惯,今年以来,他发现新闻的评论区,多了很多“假人假话”。

从内容上看,那些只有一句话的评论,例如“詹姆斯今天打得真不错”,很难被怀疑是否由AI发布。Tim一开始发现问题,是因为他在评论区刷到很多标点符号完备、句式结构完整的句子。“我们一般正常说话,不会这么一板一眼。我就点进那个用户的个人主页,发现他一分钟内在好多条新闻下面发了评论,而且都是跟新闻有关的。人肯定没办法在一分钟看完这么多篇,再写出这么多评论,我就怀疑它是机器人。”

“用AI伪装人类,跟用户互动,很多内容平台上都有,甚至比ChatGPT的出现更早。”有互联网行业从业者告诉刺猬公社,“五、六年前就有这么干的,生成一堆用户头像和用户名,去低粉用户的评论区留言。只是那时候AI生成的留言还很难个性化,只能用一些通用的,比如说真棒,今天真不错,或者发一堆表情包。大模型出现后,理论上讲,AI能伪装得更像了。”

那么谁会有动机生产AI评论,制造虚构的互动?上述从业者告诉刺猬公社,可能是所谓的“水军”,也有可能是平台本身。“水军是第三方,市场上有增加评论量的需求,他们就去生产,用AI比用人高效多了。平台的动机是促活跃,主要针对低粉用户的内容,能火的内容是很少的,金字塔底座上的那些内容,可能从头到尾都不会有一条留言。为了激励这些用户继续生产,继续活跃,有些平台就会上一些科技手段。”

至此,这已经不再只是“AI幻觉”的问题了。当人类的日常语料被无限稀释,当我们刷着用AI刚编的婆媳关系帖,给新闻评论区的AI评论点上一个赞,又收到一条AI留言提醒,也许人类才是一种幻觉。

而我们总不能每次都搬出鲁迅、沈从文、张爱玲这样的名字,就像达摩祖师不可能从第一章打到最后一章。

编造不是AI带来的,对AI稀释人类语料的担忧也不意味着一种反AI的立场。观察人类语料被AI稀释的过程,让我不断回到《现代性与大屠杀》的阅读记忆里。倘若不加以修正,人类语料所要经受的“大屠杀”,或许也将成为AI时代的固有可能。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅