主流 AI 模型实测对比¶

氪了主流 AI 会员后，按真实高强度使用场景给出一版实测评分。

2026 年 3 月主流模型实测打分¶

这次我从三个最实用的维度做评分：

目前用下来体验最舒服的模型。逻辑链条完整，理解复杂需求的能力明显领先。可以直接当整个 project 开发的“大脑”用。

写代码这一项非常强。实测一个修改任务，6 分钟内分步执行并完成 debug，全程几乎不用人工干预。开发者最近额度也翻倍了，值得重点用起来。

最适合 idea 阶段头脑风暴，延展思路很积极。但短板也明显：偶尔会跳过深度思考直接输出结果，稳定性一般。

查逻辑漏洞、做纠错很强，适合当方案“质检员”。但综合体验和 Opus 4.6 仍有差距。

Opus 做主力思考和架构，Codex 5.3 Extra High 负责代码执行，Gemini 3.1 Pro 做 brainstorm，GPT 5.2 Thinking 做最后 review。

这套组合拳下来，效率最稳。