Llama 3.1 405B综合最强(自定义许可);DeepSeek-R1 671B MoE推理接近o1水平训练成本万分之一(MIT许可);Mistral 123B效率最高单台8xA100可运行(Apache 2.0)。

编译来源:Hugging Face Blog (2026)