「中杯」Claude 3.5突然上线，竟比GPT-4o还强！全新Artifacts改写模型交互

新智元·2024-06-21

关注

Anthropic曾许下要超越OpenAI的发家愿望，没想到竟然这么快就实现了。他们刚刚发布的Claude 3.5 Sonnet模型不仅成本更低、速度更快，而且在基准测试上的表现「弯道超车」GPT-4o。

编者按：本文来自微信公众号新智元（ID：AI_era），创业邦经授权转载。

继今年3月发布Claude 3之后，Anthropic在半年时间里又上新了！

就在今天，Claude 3.5 Sonnet发布，作为即将推出的Claude 3.5模型家族的「排头兵」，而且已经面向全球开启免费试用。

具体来说， Claude 3.5 Sonnet支持200K token的上下文窗口，而在多项评测中超过了OpenAI最强的GPT-4o，以及自家的Claude 3 Opus。

与此同时，Claude 3.5 Sonnet还保持着中等规模的模型所具有的速度和成本优势。

其中，在费用方面，Claude 3.5 Sonnet处理每百万输入token仅需3美元，每百万输出token则为15美元。（与前代相同）

用户可以在Claude.ai和Claude iOS应用程序上免费体验，如果订阅了Claude Pro和团队计划，则可以享受更高的速率；此外，还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI使用

生成2倍速，成本仅1/5

Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o，但在研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval）上，毋庸置疑地刷新了SOTA——

不仅大幅突出自家的前代老大哥Claude 3 Opus，而且还完成了对谷歌Gemini 1.5 Pro和Meta 4000亿参数的Llama（早期预览版）的全面超越。

它在理解细微差别、幽默和复杂指令方面有显著提升，并且能够用自然、贴近生活的语调撰写高质量内容。

在运行速度方面，Claude 3.5 Sonnet也是Claude 3 Opus的两倍。

这种性能提升，再加上高性价比，使Claude 3.5 Sonnet非常适合处理复杂任务，如上下文敏感的客户支持和多步骤工作流程的协调。

在内部的智能体编码评估中，Claude 3.5 Sonnet解决了64%的问题，优于Claude 3 Opus的38%。

结果显示，在指令和相关工具的支持下，Claude 3.5 Sonnet可以独立编写、编辑和执行代码，具备复杂的推理和故障排除能力。

尤其是，它能够轻松处理代码翻译，因此在更新遗留应用程序和迁移代码库方面效果极佳。

视觉能力超越GPT-4o

在视觉方面，Claude 3.5 Sonnet也是Anthropic迄今为止推出的最强大模型，不仅明显优于Claude 3 Opus和Gemini 1.5 Pro，而且在大部分测试中也都超过了GPT-4o。

这些改进在需要视觉推理的任务中尤为明显，例如解释图表和图形。

不仅如此，Claude 3.5 Sonnet还可以准确地从不完美的图像中转录文本——这是零售、物流和金融服务领域的核心能力。

在这些领域里，AI从图像、图形或插图中获得的信息往往要比单纯的文本来得更多。

基准测试中体现的这种强大视觉能力如何落实到现实应用中呢？下面这个demo给你答案。

像GPT-4o、Gemini这些模型虽然理解图像和视频的能力很强，但一般只能生成文字的描述内容，在这方面我们人类显然更擅长，能比模型做得更快更好。

但Claude不仅能准确识别、转录图像中的文字内容，还结合了强大的代码生成能力，多个模态真正集成在一起。

看一眼图片，立刻识别信息生成JSON文件，手速绝对快过任何程序员。

还能通过编码制造交互式图表，代码直接可运行，数据也丝毫不差。

不仅仅是代码，根据图片信息生成的网页也是图文并茂、界面精美。原本需要一晚上才能搞定的工作量，Claude帮你5分钟内赶上DDL。

领域专家最为钟爱

在附带的报告中，Anthropic还补充了一些其他测试的结果。

报告地址：https://cdn.sanity.io/files/4zrzovbb/website/fed9cc193a14b84131812372d8d5857f8f304c52.pdf

表4展示了Claude 3.5 Sonnet在「拒绝请求」时的表现。

这里，团队使用的而是Wildchat和XSTest数据集进行测试，从而衡量模型在面对无害提示时避免不必要的拒绝，同时在面对有害内容时保持适当的谨慎。

可以看到，Claude 3.5 Sonnet在这两个维度上都优于Opus：它的错误拒绝更少，正确拒绝更多。

表5、图1和图2展示了Claude 3.5 Sonnet在「大海捞针」任务中的表现。

可以看到，Claude 3.5 Sonnet和Claude 3 Opus的性能几乎不相上下，但在平均召回率方面Claude 3.5 Sonnet还是要略胜一筹。

此外，从下表中能更清晰地看到，Claude 3.5 Sonnet在所有文本长度和200K长上下文之间，召回率居然没有出现明显滑落，这是包括Opus在内的所有前代模型的突破。

在基于人类反馈的评估方面，团队把从Claude 2.1开始的所有模型都拉了出来。

其中，人类评审需要与模型进行对话，并根据任务特定的指令对其进行评估。

图3展示了与Claude 3 Opus基线相比的「胜率」（win rate）。

可以看到， Claude 3.5 Sonnet不仅在编码、文档、创意写作和视觉等核心能力上有着显著的改进，而且领域专家们也更加喜欢——在法律领域的胜率高达82%，在金融领域为73%，在哲学领域为73%。

Artifacts：让团队实现无缝协作

除了模型的更新之外，Anthropic还Claude.ai上推出了一项全新功能——Artifacts，扩展了用户与Claude互动的方式。

具体来说，当用户要求Claude生成代码片段、文本文档或网站设计等内容时，只需要一键点击，这些Artifacts会出现在对话旁边的专用窗口中。

这样就创建了一个动态工作空间，用户可以实时查看、编辑并基于Claude的创作进行构建，将AI生成的内容无缝集成到他们的项目和工作流程中。

这个功能的添加，大大增强了Claude在复杂项目中的可用性。

比如想要创建一个交互式的游戏界面，你很难在一次对话中描述清楚所有的功能与需求。即使描述清楚了，以生成模型目前的能力，未必也能一次得到满意的结果。

于是，你可以参考软件开发的流程，将需求分解为多个步骤，更方便Claude Sonnet进行「渐进式开发」和迭代。

比如下面这个demo中，想要创建一个游戏，可以先让模型用SVG格式生成你想要的角色形象。

再把所有这些SVG图像放在同一个HTML网页中。

最后，规定好角色名称和游戏规则，只需要告诉Claude让这个游戏变得「可玩」，不用操心任何代码细节，一个简单的网页游戏就制作完成了。

Artifacts的推出，标志着Claude从对话式AI向协作工作环境的转变。

当然，这还只是一个开始。

不久的将来，团队——最终是整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作，Claude将作为按需的队友提供服务。

网友：被震撼到了！

模型刚刚发布，就有早期测试者发帖表示「被震撼到了」！

我是Claude 3.5 Sonnet模型的早期测试者，我对输出的一致反应是「超神」，模型现在已向所有人开放。
Claude 3.5 Sonnet在关键评估上优于竞争模型，速度是Claude 3 Opus的两倍，但成本只有五分之一，能胜任自主编码和视觉处理等复杂任务，而且可以管理长文档，确保 RAG、搜索/检索以及比较多个长文档等任务的准确性。
以及，我个人使用体验的反馈：从来不需要跟它说「不，你没明白我的提示，请执行这个操作」，它就是能理解提示并做到了；Artifact让我更有效率；文本推理/比较的结果优秀到不可思议。

有网友表示，自己不相信基准，于是便拿了道真题来了波实测。

结果不出所料，Claude 3.5 Sonnet很快就做了出来，而GPT-4o则在一通长篇大论之后给出了错误的答案。