ChatGPT-o1有什么颠覆性的体验改变吗？

发布时间：

2024-09-17 02:52

阅读量：

谢邀，“大半夜的，OpenAI 发布了 o1，我的头皮真的都发麻了。”

o1 系列的横空出世，直接给出了一个响亮的回应：“你大爷还是你大爷。”

o1 在回答之前会进行思考——它可以在响应用户之前产生一长串的内部思维链。

首先来看几组数据，彻底颠覆你的认知：

AIME 2024 数学竞赛中，o1 的预览版达到了 56.7% 的准确率，而正式版更是高达 83.3%。代码竞赛上，o1 的表现也极为抢眼，从 11% 的 GPT-4o 提升到 89%。

更令人震撼的是，在 GPQA-Diamond 这个科学问题测试中，o1 超越了人类专家水准，达到了 78% 准确率。

这些数据背后展现的不仅仅是模型在推理上提升，更是对复杂问题思考模式重构。

与之相比，GPT-4o 在许多高复杂度问题上的表现就显得力不从心。

这也是为什么 o1 系列的出现让行业中许多研究者狂喜。

推理时间延长、Context 长度的加倍，这一切都标志着 AI 在处理复杂问题上地进步。

but

大全再往下测试的时候，就发现问题了，为什么一个小学的题目，都不对呢？

我们来看看9.11和9.8比大小？

看样子 o1 上线还是有些着急了呀，不过背后的思考确实蛮有意思的，也考虑了时间的可能性。

虽然存在一些功能缺失和推理时间过长的问题，但是我相信潘多拉盒子已经打开，未来以至。

那为什么叫 o1 呢，我们看看官网回答：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译一下是：

对于需要复杂推理的任务来说，这是一个重大的进步，并且代表了人工智能能力的一个新的水平。鉴于此，我们决定将计数器重置为1，并把这个系列命名为OpenAI o1。

接下来大全一一分析 o1 讲带来哪些变革：

1、重新定义 AI 推理：从快思考到慢思考

o1 系列最大亮点就是它“慢思考”机制。

相比于过去依赖大数据和“快思考”的 GPT 系列，o1 更像是引入了人类解决复杂问题的思维，能通过逐步推理来解决高复杂度问题。

这种从快思考到慢思考转变，是 AI 走向通用人工智能（AGI）的重要一步。

在过去的模型中，我们常常见到一些大模型在简单任务上表现优异，但一旦遇到多步骤的复杂问题，或者需要更多推理和思考的场景时，模型的表现就开始下滑。

而 o1 的突破在于，它不仅能快速给出答案，还能对复杂问题进行深度拆解，推理过程更加稳定和可靠。

这正如 Greg Brockman 所说的：“人们早已发现，提示模型‘逐步思考’可以提升表现，但通过端到端的试错方式来训练模型进行推理，效果更加可靠。

”这意味着 OpenAI 成功把复杂推理能力 Scale 到了前所未有的高度。

3、Self-play RL 和 End-to-End 思维链：技术上的飞跃

o1 系列核心技术之一就是 Self-play RL（自我对弈强化学习）。

通过这种方法，模型能够在与自己互动的过程中，不断磨练思维链、纠正错误，并逐步提升推理能力。

这种能力，不仅使得 o1 可以解决以前无法应对复杂任务，还让它在面对变化的情境时能够更加灵活应对。

与 Self-play RL 相结合的，是 end-to-end 的思维链推理。

过去，AI 模型往往需要通过明确提示来逐步指导其思维过程，而 o1 已经具备了自我反思能力，可以在没有外部明确指导的情况下，独立完成复杂的推理任务。

这无疑给模型的训练和使用带来革命性变化。

这些技术进步带来的不仅是理论上的突破，也直接反映在了实际应用上。

无论是数学竞赛、科学推理还是代码生成，o1 的表现都极为的出色。

甚至在一些过去 AI 模型难以触及领域，比如化学、物理、生物学等，o1 的推理能力也展现了极高的潜力。

4、使用效果

目前，o1 系列已经向部分 ChatGPT Plus 和开发者开放，然后我激动的去看了一眼我的账号，果然有了：

这里再和大家看看不同版本的区别：

O1-preview 具有很强的推理能力和广阔的世界知识。（每周30条）

O1-mini 速度更快，成本便宜 80%，并且在编码任务方面比 O1-Preview 更具竞争力。（每周50条）

我们来看看炸裂的使用效果，据说这个题目验证，几乎没有一个大模型幸免，我们首先看看 GPT-4o 的效果：

毫无疑问，回答错误了，我们再来看看 o1 的效果：

首先让我非常震惊的就是有一个思考功能，思考了 61 秒给出了答案

那么来看看，到底思考了什么呢？

好家伙，居然思考了这么多，这意味着什么呢？

意味着之前 GPT4o 适合的一步步思考，已经思考链模式彻底无用了，而且还可能有副作用，因为现在 o1 完全会自己思考了，这样反而是越简洁的提示词，可能效果会更好。

真的是所谓提示词的技巧会慢慢消失，Ai 会越来越大众化了，不需要学习那么多复杂的技能。

对了，最后看一下答案：

大全认为，o1 不仅是 OpenAI 一次产品迭代，更是 AI 行业一次重大飞跃，从快思考到慢思考，从简单推理到复杂推理，o1 开启了 AI 迈向 AGI 重要一步。

“人类通向 AGI 的路上，真的已经没有任何阻碍了”

对啦，国内是可以免费使用的，使用非常简单，需要的话，可以联系大全 vx：DQ-Prompt

大全目前专注于小白 AI 入门领域的研究，分享从 0 到 1 入门 AI，ChatGPT 知识的系统性教程

0 基础的小白也可以学会，有基础的小伙伴也可以学到进阶的知识，这里全部免费送给大家：

大全Prompt：都是干货！超全 AI 入门， ChatGPT 资料分享！

大全的愿景是成为 AI 的布道者，带领 10 万小白入门 AI。关注 @大全Prompt 带您 AI 入门。

最后，祝大家都能寻得可以全身心投入的事情，生活愉快！记得给我一个赞。

上一篇：雷电五传的锻刀法是雷电影传下的，不是只要雷神重新传授不就恢复了吗？为什么会断绝？

下一篇：太平天国做对了什么？

END