GPT-5.6突然发布!Fable5痛失最强基模王座

发布时间:2026/6/29 20:06:45
GPT-5.6突然发布!Fable5痛失最强基模王座 就在刚刚OpenAI一口气端出三款GPT 5.6系列模型。主打一个全家桶「多款齐发」——旗舰模型Sol太阳、平衡模型Terra大地、低成本高速款Luna月亮。ChatGPT史上最强模型来了就在刚刚OpenAI一口气端出三款GPT 5.6系列模型。主打一个全家桶「多款齐发」——旗舰模型Sol太阳、平衡模型Terra大地、低成本高速款Luna月亮。GPT-5.6 Sol最夯模型编程测试左踢自家模型GPT5.5右打隔壁Fable 5还新增max/ultra两个模式。△GPT-5.6 Sol编程评测表现GPT-5.6 Terra面向日常工作性能对标GPT-5.5同时价格便宜约2倍。GPT-5.6 LunaGPT-5.6系列里最快、最便宜的一档同时保留较强能力看完内心os你别说哈这新模型确实夯啊…但坏消息是——普通用户目前无缘使用ing是的人家玩《有限预览》那套了…目前新模型只给少数受信任的「合作伙伴」提供了有限的预览版本。普通用户可能得等等等等等等*100。doge熟悉的配方熟悉的操作。Fable 5我不知道您这是怎么了这波咋瞅都像冲着我来的呢GPT-5.6 Sol、Terra、Luna三款模型齐发是的这次人家模型的名字开始走起天文学宇宙感路子了。从产品定位看三者分工很清楚——Sol冲旗舰能力Terra打日常主力Luna负责速度和成本。在价格上则按每100万token计价Sol输入5美元、输出30美元Terra输入2.5美元、输出15美元Luna输入1美元、输出6美元。先看这次发布的OpenAI史上最强旗舰模型——「太阳」Sol。在能力上Sol面向的是高难度推理、复杂代码、生物、网络安全等长链路任务。尤其适合需要规划、迭代、调用工具、协调步骤的复杂工作流。而且非常值得一提的是OpenAI还给这新模型搞上了「加餐」——让模型获得更长的深度推理时间的max模式以及可以调用多个subagents协同处理复杂任务的ultra模式。要知道但凡加上ultra俩字估计就不简单……这不嘛吊打Fable 5的编程能力基准测试就水灵灵地来了人家在Terminal-Bench 2.1上创造了新的SOTA。ultra模式下比Fable5高出去7.6个百分点比上一代GPT5.5高出9.4个百分点——不仅如此在生物方向GPT-5.6 Sol在GeneBench v1上也强于GPT-5.5而且使用token更少。这个测试评估的是长链路基因组学和定量生物分析任务说明Sol在科研类复杂任务上的效率也有提升在网络安全方向OpenAI称Sol是其目前网络安全能力最强的模型。在ExploitBench上GPT-5.6 Sol已经能接近Mythos Preview的表现同时只使用约三分之一的输出token而在由加州大学伯克利分校研究人员与OpenAI及其他前沿实验室合作开发的ExploitGym测试中——Sol、Terra、Luna三款模型都会随着推理强度增加在网络安全能力上出现明显提升再看Terra——Terra的定位更接近GPT-5.6系列里的日常主力模型OpenAI给出的说法是Terra性能与GPT-5.5具备竞争力同时价格便宜约2倍。最后走速度和成本路子的Luna则是GPT-5.6系列里最快、最便宜的一档。它面向的是高频、低延迟、成本敏感任务比如轻量问答、简单信息处理、实时交互、批量自动化等场景。需要提一嘴的是除了Sol外Terra和Luna目前公开披露的benchmark信息相对有限的后续可以蹲蹲这俩模型的评测表现三个模型综合对比下来确实能看得出Sol在模型性能表现上不一般。but——好巧不巧的是大家伙对于Sol的争议也恰好出现在「评测」部分。外部评测机构METR拿到GPT-5.6 Sol早期访问权限后尝试用Time Horizon 1.1软件任务套件评估它的长期任务能力。但结果出现了一个麻烦问题Sol在评测中被检测到较高比例的cheating和metagaming行为。这里的「作弊」指的是模型利用评测环境漏洞、绕开任务规则来提高表现比如试图获取隐藏测试集信息或者提取隐藏源码反推答案。这让最终分数很难解释……如果把这些作弊尝试算作失败GPT-5.6 Sol的50%-Time Horizon约为11.3小时。如果把它们算作成功结果会超过270小时如果直接剔除相关样本估计值约为71小时但不确定性很大。所以METR最后的态度相当谨慎这些结果很难代表Sol稳定、可靠的真实能力。真的吗.jpg当然除了模型本身的评测表现和一些小八卦外还值得一提的是一些「附加技能」。比如GPT-5.6这次在开发者调用体验上补了一块关键能力更可预测的prompt caching。简单说就是当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时模型不必每次都重新处理全部内容可以把重复部分缓存下来后续调用直接复用。GPT-5.6这次支持显式cache breakpoints也就是说开发者可以更明确地告诉系统哪些内容该被缓存、缓存到哪里为止。同时缓存生命周期至少30分钟也让长任务、多轮任务、持续开发会话更容易保持稳定反正就是三款模型各取所需喜欢您来。凶猛的野兽都得被关进笼子里能力讲完另一件更微妙的事也来了。GPT-5.6 Sol确实猛但OpenAI这次的发布姿势反倒显得格外《谨慎》。一边在推自家最强模型的同时一边又把安全栈、访问权限、审核流程全都加厚了一圈。隔壁Mythos咋这剧情那么熟悉呢…)按照官方说法GPT-5.6系列用了其目前最稳健的安全机制并且会根据不同模型能力配置不同的保护策略具体来看这套安全栈不是只靠模型自己拒答而是分成了好几层——首先是模型内置的「拒答训练」。遇到被禁止的网络安全协助请求时模型需要先学会拒绝。哪怕用户试图包装意图、绕开限制模型层面也要先挡住一部分高风险请求。其次是生成过程中的「实时风险检测」。OpenAI给GPT-5.6加了网络安全和生物滥用分类器会在内容生成过程中持续判断风险。高风险情况下生成甚至会被暂停然后交给更大的推理模型重新审查上下文。最后如果判断内容不该放出结果就会在到达用户前被拦截。第三层则是「账号级风险信号」。如果某些请求触发风险系统还会结合相关会话和账号行为做更长期的判断。毕竟单看一句请求很难区分对方是在做正当漏洞修复还是在持续试探攻击路径OpenAI想做的是从单轮请求判断走向更完整的行为模式判断。这也解释了为什么GPT-5.6 Sol明明已经发布却先只给少量trusted partners和组织使用初期入口也主要放在API和Codex。因为可能确实《略危》。至于是不是炒作咱就另说…)危的不仅是模型本身危的还有隔壁友商家的朋友——Fable 5。要知道Anthropic给它的定位就是Claude系列里最强的广泛发布模型主打高难推理、长周期agentic任务、复杂代码工程和企业工作流。此前在SWE-bench Verified上Fable 5也是排在榜首位置在代码等能力上明显高于Claude Opus 4.8和GPT-5.5。结果这边刚把长链路代码能力的招牌挂起来GPT-5.6 Sol就来了真没地方说理了……而且更扎心的是OpenAI这次来的还不止一个Sol——高端能力Sol来压日常调用Terra来抢成本和速度Luna来铺。Fable 5前脚俺刚封神、后脚你就要踢我馆至于咱们啥时候能真正用上奥特曼的新模型还得再等等。反正OpenAI自己已经把话放出来了