Anthropic 发布的 Claude 3.5 Sonnet 在多个编程基准测试中取得领先优势,包括 SWE-bench Verified、HumanEval 等几个权威评估。

在实际使用中,Claude 3.5 Sonnet 被开发者评价为“理解需求更准确”和“误报更少”,尤其在复杂代码重构、分析遗留系统等场景中表现尤为突出。

这一动态也引发了行业讨论:单一模型在编程领域的引领地位,将激层加剧列䁋工具边界的竞争。