热搜词:

GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比

4.1 与 4.5 孰大?OpenAI 刚刚给出答案:

发布GPT-4.1,比 GPT-4.5 强的那种。

新模型系列更新,一共带来三个版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano ——

与通常中杯大杯超大杯的设置不同,这回翻译过来,是中杯、小杯、超小杯。

OpenAI 表示,4.1 系列是API 专供,不过列位非开发者先别急哈,人家也补充了,在 ChatGPT 里,4.1 的能力将主要通过 "融入最新版本的 GPT-4o" 体现。

能力方面,总结起来 4.1 系列纸面上最突出的优势有两点:

长上下文,3 个型号均拥有 100 万 token 上下文窗口;

性价比,用内部老哥的说法就是:

现在你可以用 4% 的价格,畅享 GPT-4o 模型品质。

OpenAI 还表示,GPT-4.1 系列会在 API 里取代 GPT-4.5 Preview,后者将于今年(2025 年)7 月 14 日下架。

GPT-4.1:主打性价比

展开来看,OpenAI 整体上是把 GPT-4.1 和 GPT-4o 拿来对比的。

以延迟为横轴,以智能为纵轴,可以看到,GPT-4.1 比 GPT-4o 强了一丢丢,而 4.1 mini 则超出了 4o mini 一大截。

定量比较的结果是,编码方面,GPT-4.1 在衡量真实世界软件工程技能的 SWE-bench Verified 上得分为 54.6%,比 GPT-4o 的分数提高了 21.4%,比 GPT-4.5 强了 26.6%。

指令遵循方面,在 MultiChallenge 基准中,GPT-4.1 得分 38.3%,而 GPT-4o 的得分是 27.8%。

长上下文方面,在多模态长下文理解基准 Video-MME 上,GPT-4.1 刷新 SOTA,在长篇无字幕类别中得分 72.0%,比 GPT-4o 高了 6.7%。

值得注意的是,GPT-4.1 mini 在多项基准测试中超过了 GPT-4o。

比如在智能评估基准 MMLU 上,GPT-4.1 mini 的得分为 87.5%,超过了 GPT-4o 的 85.7%,同时延迟降低一半,成本降低 83%。

GPT-4.1 nano 则被定位为 OpenAI" 目前速度最快、成本最低 " 的模型。并且在部分测试中有超出 GPT-4o mini 的表现。

编码能力

OpenAI 着重强调了 GPT-4.1 的编码能力。除了在各种编程任务上都超过 GPT-4o,OpenAI 还演示了其在前端编程方面的实际优势:

能够创建功能更强大、更美观的 Web 应用。

人类评分的结果显示,在 80% 的对比测试中,GPT-4.1 的网站都比 GPT-4o 的网站更受欢迎。

比如给出同一段提示词:

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user ’ s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app ( put all styles inline ) .

GPT-4o 生成的网站长这样:

而 4.1 的结果明显更美观:

手快的网友则已经搞出了大家更想看的——小球测试。

BTW,OpenAI 提到,GPT-4.1 会在 API 里取代 GPT-4.5,GPT-4.5 Preview 将在 3 个月后(2025 年 7 月 14 日)彻底关闭,但这位老哥表示:我还是更喜欢 4.5 啊啊啊。

不过,老哥也坦承:4.5 虽好,但 4.1 确实便宜太多啦(30 倍价差)。

百万长上下文

再来看一眼长上下文方面,GPT-4.1 的具体表现。

大海捞针实验中,面对 100 万 token 上下文检索,3 个型号均能 100% 过关。

OpenAI 还开源了一个新的评估平台OpenAI-MRCR,以测试模型检索和理解多条信息、并理解信息之间相互关系的能力。也就是说更接近实际应用中,大家对长上下文的真实需求。

结果如下:

还发布了一个用于评估多跳上下文推理的数据集Graphwalks。所谓多跳,即在长上下文中进行多次逻辑跳跃,比如编写代码时在多个文件之间跳转。

在这个基准上,GPT-4.1 与 o1 性能相当,轻松击败了 GPT-4o。

性价比仍不如 DeepSeek R1

价格方面,相对于自家贵得要命的模型,GPT-4.1 系列无疑是便宜的。

尤其是对比要被替代的 GPT-4.5 Preview,2 刀 / 百万 tokens vs 75 刀 / 百万 tokens,价格属于大砍一刀只剩零头了。

但精明的网友们发现,还是比不上 DeepSeek R1:

△图源:x@bongrandpOne More Thing

以上,你觉得 GPT-4.1 如何?

反正这个命名方式确实是蛮值得吐槽的。

但没准儿,OpenAI 的意思是… 4.10>4.5?

至少奥特曼本尊有被说服到(doge)。

他还自嘲了一波:

我们能不能在今天夏天之前搞定我们的模型命名?在此之前每个人都可以再花几个月时间来取消我们(我们活该)。

参考链接:

https://openai.com/index/gpt-4-1/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

不到一周!中国 AIGC 产业峰会观众正在火热报名中  ‍♀️

全部嘉宾已就位   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日周三,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见