跳转至

主流 AI 模型实测对比

氪了主流 AI 会员后,按真实高强度使用场景给出一版实测评分。

2026 年 3 月主流模型实测打分

这次我从三个最实用的维度做评分:

  • 逻辑思考
  • 思维发散
  • 代码执行

综合评分

Claude Opus 4.6(综合王者)9.5 / 10

目前用下来体验最舒服的模型。逻辑链条完整,理解复杂需求的能力明显领先。可以直接当整个 project 开发的“大脑”用。

ChatGPT Codex 5.3(Extra High)(代码之神)9.5 / 10

写代码这一项非常强。实测一个修改任务,6 分钟内分步执行并完成 debug,全程几乎不用人工干预。开发者最近额度也翻倍了,值得重点用起来。

Gemini 3.1 Pro(创意发散担当)8 / 10

最适合 idea 阶段头脑风暴,延展思路很积极。但短板也明显:偶尔会跳过深度思考直接输出结果,稳定性一般。

ChatGPT 5.2 Thinking(严谨纠错手)8.5 / 10

查逻辑漏洞、做纠错很强,适合当方案“质检员”。但综合体验和 Opus 4.6 仍有差距。

我的实战组合

Opus 做主力思考和架构,Codex 5.3 Extra High 负责代码执行,Gemini 3.1 Pro 做 brainstorm,GPT 5.2 Thinking 做最后 review。

这套组合拳下来,效率最稳。

推荐

最近优先用 Codex 开发,额度 double 之后更香。

#opus4.6 #gemini3.1pro #codex5.3