不服 GPT-4o ，就是干？

2024-06-21码农

OpenAI 最大的对手 Anthropic ，深夜发布了他们迄今为止最智能的模型：Claude 3.5 Sonnet。

这俩家公司的竞争愈演愈烈， Anthropic 声称新 Claude AI 超越了 GPT-4o。

通过 Anthropic 发布的测试报告来看，新模型 在推理、知识储备、代码、数学的方面都超越了竞争对手的模型， 并且新发布的模型速度是 Claude 3 Opus 的两倍，成本只有其五分之一。

非常惊艳的功能： Artifacts

除了各个任务上的评估指标表现更好，最让我感觉到惊艳的是 Artifacts 能力。

开启 Artifacts 后，Claude 会为你开辟一个新的空间， 你在左边和 AI 对话交互，右侧就能实时的去根据你的反馈生成文档、代码、 SVG 、游戏等等。

这是一种新的交互方式， 打破了之前聊天式对话你来我往的模式。你可以随时查看 AI 创作的东西，并且不断快速、效率的进行迭代。

① 能力展示：边聊天边做游戏

看一下放出的官方视频：首先让 Claude 绘制了一个像素风格的螃蟹 SVG ，随后让他模仿这种风格画一些贝壳、云彩。

然后基于刚刚 Claude 生成的螃蟹、云彩、贝壳等，做了一个一个简单的 HTML5 游戏，通过一些基本的动画让他们动了起来、可玩了起来。

② 能力展示：解释图表、图形或从不完美的图像中转录文本

该模型可以准确地从不完美的图像中提取文本 - 这是零售、物流和金融领域经常会用到的能力。现在 AI 可以从图像、图形或插图中获取更多的见解了。

可以看上演示视频，给 AI 两张图，一张是关于人类基因组测序里程碑的时间轴图表，另外一个是时间和测序成本的图表。

因为这两张表都是时序的，有时间维度和另外的指标维度，是结构化信息的图形化展示。现在使用 AI 就能提取这种不完美图片中数据，并且转化成 JSON。

随后让 AI 将两个图表合并，做成一个可以交互的图表，当你的鼠标悬停到某一个时间点，就能看到这个时间点汇聚的两张表中的信息。

③ 能力展示：推理能力、复杂指令

如下视频展示了让 Claude 写一篇好玩有趣的小说，并使用流程图把小说中的人物关系画出来，而且还能基于小说的内容进行各种推理和模拟。

Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 表现优秀。 它在理解细微差别、幽默和复杂指令方面有显著的进步，同时还能以自然的语气写作。