Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

May 28, 2026
科技

AI 解读

Anthropic 发布了 Claude Opus 4.8 模型,重点提升了 AI 在编程、智能体、推理和知识工作方面的能力。新模型相较于前代在复杂任务中表现更稳定,能主动识别和修正自身错误,减少无依据的结论,可靠性提升约 4 倍。此外,Opus 4.8 在亲社会性指标上达到新高,欺骗行为发生率降低。配套功能方面,Claude.ai 新增了 effort 程度控制,允许用户平衡响应速度与结果质量,同时快速模式运行速度提升 2.5 倍且模型成本降低至前代的 1/3。在基准测试中,Opus 4.8 在 SWE-Bench Pro 等多项测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。

        <p data-vmark="325d"><a class="s_tag" href="https://www.ithome.com/" target="_blank">IT之家</a> 5 月 29 日消息,Anthropic 今天(5 月 29 日)宣布推出旗舰新模型 Claude Opus 4.8,<strong>主打更强的智能体编程、多领域推理和知识工作能力。</strong></p><p data-vmark="6b53">官方表示,相比较 Opus 4.7 模型,本次 Opus 4.8 更新幅度较小,在保持价格不变的情况下,主要提升编程、智能体、推理和知识工作等用户能感知的方面。</p><p data-vmark="1d0b" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1280" h="720" data-vmark="f01e" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/cf5f3846-4276-480c-a2ac-2e773bace385.jpg?x-bce-process=image/format,f_auto" width="1280" height="461"></p><p data-vmark="9d39">能力层面,官方援引多家早期测试方反馈称,表示 Opus 4.8 “更可靠,判断也更敏锐”,在复杂多步骤任务中判断更稳,能主动提问、识别自身错误,并在计划不合理时提出异议。</p><p data-vmark="9050">官方评估显示,和前代相比,Opus 4.8 放任自己所写代码缺陷、却不加说明的概率低了约 4 倍,更愿意主动标出不确定性,减少缺乏依据的结论。</p><p data-vmark="0551">对齐表现方面,Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时,欺骗等失配行为的出现率低于 Opus 4.7,并与 Claude Mythos Preview 接近。IT之家附上相关截图如下:</p><p data-vmark="4133" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1440" h="810" data-vmark="d2f2" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/42f8e2a1-e53e-4782-aed6-c37d8d606df2.png?x-bce-process=image/format,f_auto" width="1440" height="461"></p><p data-vmark="830f">配套功能方面,<span class="link-text-start-with-http">claude.ai</span> 新增 effort 程度控制,用户可平衡更高质量与更快响应。默认是 high 档,在编码任务中,token 消耗与 Opus 4.7 默认档接近,但效果更好;若选择 extra(在 Claude Code 中为 xhigh)或者 max 更高档位,模型会消耗更多 tokens 以换取更优结果。</p><p data-vmark="f684">基准测试方面,Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%,并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上,GPT–5.5 仍然领先。</p><p data-vmark="c45b" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1440" h="770" data-vmark="2546" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/746c1d9f-e07f-4f18-9615-d56465fb4073.png?x-bce-process=image/format,f_auto" width="1440" height="438"></p><p data-vmark="aafa">这次更新还带来性能和价格调整。Anthropic 表示,Opus 4.8 的快速模式运行速度提升到 2.5 倍,模型成本则降到此前模型的 1/3。</p><p data-vmark="22b8">定价方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。</p><p class="ad-tips">广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。</p>
    </div>

    
    

    


        <div class="newserror">
            <button class="water" data-nid="956827">投诉水文</button>
            <button class="error" data-nid="956827">我要纠错</button>
        </div>

        <div class="newsgrade"></div>
    <div class="shareto">
        
        <div class="bdsharebuttonbox">
            <a href="https://connect.qq.com/widget/shareqq/index.html?url=https%3a%2f%2fwww.ithome.com%2f0%2f956%2f827.htm&title=Claude+Opus+4.8+%e4%b8%8a%e7%ba%bf%ef%bc%9a%e6%8f%90%e5%8d%87+AI+%e7%bc%96%e7%a8%8b%e5%8f%af%e9%9d%a0%e6%80%a7%ef%bc%8c%e5%87%8f%e5%b0%91%e6%97%a0%e4%be%9d%e6%8d%ae%e7%bb%93%e8%ae%ba&summary=" class="bds_qzone" target="_blank" title="分享到QQ"></a>
            <a href="#" class="bds_weixin" data-cmd="weixin" title="分享到微信"></a>
            <a href="https://service.weibo.com/share/share.php?url=https%3a%2f%2fwww.ithome.com%2f0%2f956%2f827.htm&title=Claude+Opus+4.8+%e4%b8%8a%e7%ba%bf%ef%bc%9a%e6%8f%90%e5%8d%87+AI+%e7%bc%96%e7%a8%8b%e5%8f%af%e9%9d%a0%e6%80%a7%ef%bc%8c%e5%87%8f%e5%b0%91%e6%97%a0%e4%be%9d%e6%8d%ae%e7%bb%93%e8%ae%ba" target="_blank" class="bds_tsina" title="分享到新浪微博"></a>
        </div>
        <a class="down_app collapse" href="https://m.ithome.com/ithome/download/?popqr" target="_blank">
            <span class="d-p">
                <span></span>
                <span></span>
                <span></span>
                <span></span>
                <span></span>
            </span>
            <span class="d-t">下载IT之家APP,签到赚金币兑豪礼</span>
        </a>
    </div>

    
    <div class="related_post"><div class="title"><h2>相关文章</h2><div class="hot_tags"><span>关键词:<a href='/tags/Claude/' target='_blank'>Claude</a>,<a href='/tags/AI/' target='_blank'>AI</a></span></div></div><ul class="list_3"><li><a target="_blank" href="https://www.ithome.com/0/955/886.htm">继 OpenAI 后,Anthropic 的 Claude AI 也解出这道 80 年数学难题</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/955/820.htm">Anthropic Claude 有望加入 AI 熟练度评分卡,引导用户更充分使用 AI</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/955/098.htm">消息称 Anthropic 酝酿公开上线最强模型 Mythos,短暂现身 Claude Code</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/945/780.htm">“AI 抓虫能手”:Claude Security 公测上线,基于 Opus 4.7 发现漏洞</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/944/728.htm">加速你的创意落地:Claude AI 接入 Adobe、Blender 等创意软件生态</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/942/458.htm">Anthropic Claude Desktop 被指未经用户授权,向 Chrome 等 7 款浏览器“静默安装间谍软件”</a></span></li></ul>

首次亮相:央视揭秘军事智能“黑科技”机器獒

本届军博会以“无人具身智能引领,指挥控制体系赋能”为主题,旨在推动新质生产力向新质战斗力高效转化。作为该领域的前沿观察平台,此次展出的“机器獒”并非简单孤立的地面作战单元,而是一套可依据任务需求灵活配置的开放式作战基座。 这款装备被命名为“獒”,彰显出与传统“机器狗”或“机器狼”截然不同的战略定位。如果说消费级“机器狗”象征辅助与从属,此前被称为“机器狼”是强调集群协同,那么“獒”则代表着更强悍的单体性能与独立作战能力,凸显其从单纯辅助工具向班组火力节点乃至独立作战单元的深刻演进。 IT之家从官方获悉,此次展出的“机器獒”系列涵盖了“影獒”与“铁獒”两大
科技

十年研究新突破:科学家成功将固氮基因植入新菌株,减少化肥使用新路径

小麦、玉米等主要作物需大量氮肥才能茁壮生长。但如果像豌豆和大豆那样,由细菌帮助它们直接从大气中获取氮元素,情况会怎样? 华盛顿州立大学的研究人员识别出一组关键的基因簇,可以将其从固氮的根瘤菌转移到非固氮细菌中,这一突破意味着,未来或许可以通过基因工程改造栖息于谷类作物中的微生物,使其也能从大气中固氮。 据官方介绍,该研究过程历时十年,研究成果已于 5 月 27 日发表于《当代生物学》期刊。其研究聚焦于一个关键的进化过程 —— 内共生,即微生物与宿主细胞结合成一个有机体。 在这里,微生物生活在植物细胞内部。这种内共生生物对于理解植物如何在生态系统中进化和运
科技

小鹅通再冲IPO:腾讯生态里的“高级打工人”

距离首次递表失效87天后,中国私域SaaS服务商Xiaoe Inc.(简称:小鹅通)再次向港交所发起冲击。 01 18亿对赌压顶 作为微信生态中私域流量的重要服务商,小鹅通的核心业务是在微信生态里向商家提供SaaS工具,如搭建店铺、做直播、卖课程、管理客户关系、处理支付等。截至2025年底,小鹅通累计服务超50万家商家,触达7.5亿用户。 小鹅通在招股书中称,公司已成为电商行业向互动营销演进过程中的先行者。 灼识咨询数据,以2025年收入计算,小鹅通在中国交互型私域运营解决方案供应商中排名第一,市占率达10.1%,较第二名多出6.3个百分点。若放至整个私
科技