DeepSeek-R1 671B MoE模型:推理基准接近o1水平,训练成本仅$5.5M(vs o1估计$150M+)。

核心技术

  • MoE架构——671B参数仅37B活跃/token,推理成本低
  • GRPO训练——无需额外Critic模型的强化学习
  • 蒸馏小模型——32B蒸馏版超越同级密集模型

开源(MIT许可),本地部署(8xA100可运行)。性价比最高的推理模型。

编译来源:Semianalysis (2026)