当前位置: 欣欣网 > 码农

不服 GPT-4o ,就是干?

2024-06-21码农

OpenAI 最大的对手 Anthropic ,深夜发布了他们迄今为止最智能的模型:Claude 3.5 Sonnet。

这俩家公司的竞争愈演愈烈, Anthropic 声称新 Claude AI 超越了 GPT-4o。

通过 Anthropic 发布的测试报告来看,新模型 在推理、知识储备、代码、数学的方面都超越了竞争对手的模型, 并且新发布的模型速度是 Claude 3 Opus 的两倍,成本只有其五分之一。

非常惊艳的功能: Artifacts

除了各个任务上的评估指标表现更好,最让我感觉到惊艳的是 Artifacts 能力。

开启 Artifacts 后,Claude 会为你开辟一个新的空间, 你在左边和 AI 对话交互,右侧就能实时的去根据你的反馈生成文档、代码、 SVG 、游戏等等。

这是一种新的交互方式, 打破了之前聊天式对话你来我往的模式。你可以随时查看 AI 创作的东西,并且不断快速、效率的进行迭代。

① 能力展示:边聊天边做游戏

看一下放出的官方视频:首先让 Claude 绘制了一个像素风格的螃蟹 SVG ,随后让他模仿这种风格画一些贝壳、云彩。

然后基于刚刚 Claude 生成的螃蟹、云彩、贝壳等,做了一个 一个简单的 HTML5 游戏,通过一些基本的动画让他们动了起来、可玩了起来。

② 能力展示: 解释图表、图形或从不完美的图像中转录文本

该模型可以准确地从不完美的图像中提取文本 - 这是零售、物流和金融领域经常会用到的能力。现在 AI 可以从图像、图形或插图中获取更多的见解了。

可以看上演示视频,给 AI 两张图,一张是关于人类基因组测序里程碑的时间轴图表,另外一个是时间和测序成本的图表。

因为这两张表都是时序的,有时间维度和另外的指标维度,是结构化信息的图形化展示。现在使用 AI 就能提取这种不完美图片中数据,并且转化成 JSON。

随后让 AI 将两个图表合并,做成一个可以交互的图表,当你的鼠标悬停到某一个时间点,就能看到这个时间点汇聚的两张表中的信息。

能力展示:推理能力、复杂指令

如下视频展示了让 Claude 写一篇好玩有趣的小说,并使用流程图把小说中的人物关系画出来,而且还能基于小说的内容进行各种推理和模拟。

Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 表现优秀。 它在理解细微差别、幽默和复杂指令方面有显著的进步,同时还能以自然的语气写作。

推荐阅读

1.

2.

3.

4.