主流 AI 模型实测对比¶
氪了主流 AI 会员后,按真实高强度使用场景给出一版实测评分。
2026 年 3 月主流模型实测打分¶
这次我从三个最实用的维度做评分:
- 逻辑思考
- 思维发散
- 代码执行
综合评分¶
Claude Opus 4.6(综合王者)9.5 / 10¶
目前用下来体验最舒服的模型。逻辑链条完整,理解复杂需求的能力明显领先。可以直接当整个 project 开发的“大脑”用。
ChatGPT Codex 5.3(Extra High)(代码之神)9.5 / 10¶
写代码这一项非常强。实测一个修改任务,6 分钟内分步执行并完成 debug,全程几乎不用人工干预。开发者最近额度也翻倍了,值得重点用起来。
Gemini 3.1 Pro(创意发散担当)8 / 10¶
最适合 idea 阶段头脑风暴,延展思路很积极。但短板也明显:偶尔会跳过深度思考直接输出结果,稳定性一般。
ChatGPT 5.2 Thinking(严谨纠错手)8.5 / 10¶
查逻辑漏洞、做纠错很强,适合当方案“质检员”。但综合体验和 Opus 4.6 仍有差距。
我的实战组合¶
Opus 做主力思考和架构,Codex 5.3 Extra High 负责代码执行,Gemini 3.1 Pro 做 brainstorm,GPT 5.2 Thinking 做最后 review。
这套组合拳下来,效率最稳。
推荐¶
最近优先用 Codex 开发,额度 double 之后更香。
#opus4.6 #gemini3.1pro #codex5.3