新功能产品评测

Claude Sonnet 4.6 深度体验:最值得关注的 5 个变化

实际使用 Claude Sonnet 4.6 两周后的深度体验报告,重点分析代码能力、中文表达、指令遵循、速度等关键维度的实际提升。

· 阅读约 2 分钟

Anthropic 持续迭代 Claude 的能力,每一代 Sonnet 都有明显进步。本文是基于实际使用的体验报告,不是官方宣传材料。

变化一:代码能力有实质性提升

这是最直观的感受。在处理复杂代码任务时,新版的 Sonnet 表现更稳定:

表现提升的场景:

  • 理解大型代码库的架构(一次性读懂 2000+ 行的代码文件)
  • 找到隐蔽的 bug(特别是涉及类型错误和边界条件的问题)
  • 重构代码时保持逻辑一致性

实测案例: 把一个 500 行的 Python 脚本重构为模块化结构,之前版本经常在重构后遗漏某些函数调用,新版几乎不出现这个问题。

变化二:中文长文写作更流畅

Claude 的中文一直不错,但最新版本在长文写作上有明显提升:

  • 段落之间的逻辑衔接更自然
  • 减少了”此外,值得注意的是”这类套话
  • 字数控制更准确(要求 800 字,基本就是 780-820 字)

之前版本在写 2000 字以上的文章时,后半段容易”跑偏”,现在改善明显。

变化三:更诚实地承认不确定性

这是一个经常被忽视但很重要的改变。当被问到不确定的信息时,Claude 现在更倾向于明确说明:

以前: 给一个听起来合理但可能有误的答案 现在: 明确说”我没有这方面的确定信息,建议你查证 [来源]”

对于需要准确性的工作(法律、医疗、财务),这个变化非常重要。

变化四:复杂指令的遵循更准确

当你给出多个约束条件时,新版 Claude 遗漏条件的情况减少了:

测试: 给出包含 8 个要求的写作任务

  • 旧版:平均遗漏 1-2 个要求
  • 新版:基本全部遵守

变化五:速度更快

在同等任务下,响应速度有明显提升,输出文字的速度更快,等待感降低。对于需要实时反馈的场景(Claude Code 编程、实时对话)体验提升明显。

哪些地方还有提升空间

诚实说几个还不够好的地方:

数学计算: 对于需要精确计算的数学题,仍然可能出错,重要的计算结果需要验证。

记忆: 在极长的对话中(超过 50 轮),早期提到的细节偶尔会被”遗忘”。

实时信息: 知识截止日期的限制依然存在,查询实时数据还是需要联网工具。

总结

Sonnet 4.6 是目前日常使用的最佳选择。如果你还在用旧版或者坚持用 Opus 处理普通任务,可以考虑切换到最新的 Sonnet,性价比更高。


本文基于实际使用体验,不同任务类型的提升幅度可能有所不同。