ChatGPT-o1有什么颠覆性的体验改变吗?

发布时间:
2024-09-17 02:52
阅读量:
11

谢邀,“大半夜的,OpenAI 发布了 o1,我的头皮真的都发麻了。”

o1 系列的横空出世,直接给出了一个响亮的回应:“你大爷还是你大爷。”

o1 在回答之前会进行思考——它可以在响应用户之前产生一长串的内部思维链。

首先来看几组数据,彻底颠覆你的认知:

AIME 2024 数学竞赛中,o1 的预览版达到了 56.7% 的准确率,而正式版更是高达 83.3%。代码竞赛上,o1 的表现也极为抢眼,从 11% 的 GPT-4o 提升到 89%。

更令人震撼的是,在 GPQA-Diamond 这个科学问题测试中,o1 超越了人类专家水准,达到了 78% 准确率。

这些数据背后展现的不仅仅是模型在推理上提升,更是对复杂问题思考模式重构。

与之相比,GPT-4o 在许多高复杂度问题上的表现就显得力不从心。

这也是为什么 o1 系列的出现让行业中许多研究者狂喜。

推理时间延长、Context 长度的加倍,这一切都标志着 AI 在处理复杂问题上地进步。

but

大全再往下测试的时候,就发现问题了,为什么一个小学的题目,都不对呢?

我们来看看9.11和9.8比大小?

看样子 o1 上线还是有些着急了呀,不过背后的思考确实蛮有意思的,也考虑了时间的可能性。

虽然存在一些功能缺失和推理时间过长的问题,但是我相信潘多拉盒子已经打开,未来以至。

那为什么叫 o1 呢,我们看看官网回答:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译一下是:

对于需要复杂推理的任务来说,这是一个重大的进步,并且代表了人工智能能力的一个新的水平。鉴于此,我们决定将计数器重置为1,并把这个系列命名为OpenAI o1。


接下来大全一一分析 o1 讲带来哪些变革:

1、重新定义 AI 推理:从快思考到慢思考

o1 系列最大亮点就是它“慢思考”机制。

相比于过去依赖大数据和“快思考”的 GPT 系列,o1 更像是引入了人类解决复杂问题的思维,能通过逐步推理来解决高复杂度问题。

这种从快思考到慢思考转变,是 AI 走向通用人工智能(AGI)的重要一步。

在过去的模型中,我们常常见到一些大模型在简单任务上表现优异,但一旦遇到多步骤的复杂问题,或者需要更多推理和思考的场景时,模型的表现就开始下滑。

而 o1 的突破在于,它不仅能快速给出答案,还能对复杂问题进行深度拆解,推理过程更加稳定和可靠。

这正如 Greg Brockman 所说的:“人们早已发现,提示模型‘逐步思考’可以提升表现,但通过端到端的试错方式来训练模型进行推理,效果更加可靠。

”这意味着 OpenAI 成功把复杂推理能力 Scale 到了前所未有的高度。

3、Self-play RL 和 End-to-End 思维链:技术上的飞跃

o1 系列核心技术之一就是 Self-play RL(自我对弈强化学习)。

通过这种方法,模型能够在与自己互动的过程中,不断磨练思维链、纠正错误,并逐步提升推理能力。

这种能力,不仅使得 o1 可以解决以前无法应对复杂任务,还让它在面对变化的情境时能够更加灵活应对。

与 Self-play RL 相结合的,是 end-to-end 的思维链推理。

过去,AI 模型往往需要通过明确提示来逐步指导其思维过程,而 o1 已经具备了自我反思能力,可以在没有外部明确指导的情况下,独立完成复杂的推理任务。

这无疑给模型的训练和使用带来革命性变化。

这些技术进步带来的不仅是理论上的突破,也直接反映在了实际应用上。

无论是数学竞赛、科学推理还是代码生成,o1 的表现都极为的出色。

甚至在一些过去 AI 模型难以触及领域,比如化学、物理、生物学等,o1 的推理能力也展现了极高的潜力。

4、使用效果

目前,o1 系列已经向部分 ChatGPT Plus 和开发者开放,然后我激动的去看了一眼我的账号,果然有了:

这里再和大家看看不同版本的区别:

O1-preview 具有很强的推理能力和广阔的世界知识。(每周30条)

O1-mini 速度更快,成本便宜 80%,并且在编码任务方面比 O1-Preview 更具竞争力。(每周50条)

我们来看看炸裂的使用效果,据说这个题目验证,几乎没有一个大模型幸免,我们首先看看 GPT-4o 的效果:

毫无疑问,回答错误了,我们再来看看 o1 的效果:

首先让我非常震惊的就是有一个思考功能,思考了 61 秒给出了答案

那么来看看,到底思考了什么呢?

好家伙,居然思考了这么多,这意味着什么呢?

意味着之前 GPT4o 适合的一步步思考,已经思考链模式彻底无用了,而且还可能有副作用,因为现在 o1 完全会自己思考了,这样反而是越简洁的提示词,可能效果会更好。

真的是所谓提示词的技巧会慢慢消失,Ai 会越来越大众化了,不需要学习那么多复杂的技能。

对了,最后看一下答案:


大全认为,o1 不仅是 OpenAI 一次产品迭代,更是 AI 行业一次重大飞跃,从快思考到慢思考,从简单推理到复杂推理,o1 开启了 AI 迈向 AGI 重要一步。

“人类通向 AGI 的路上,真的已经没有任何阻碍了”

对啦,国内是可以免费使用的,使用非常简单,需要的话,可以联系大全 vx:DQ-Prompt



大全目前专注于小白 AI 入门领域的研究,分享从 0 到 1 入门 AI,ChatGPT 知识的系统性教程

0 基础的小白也可以学会 ,有基础的小伙伴也可以学到进阶的知识,这里全部免费送给大家:

大全Prompt:都是干货!超全 AI 入门, ChatGPT 资料分享!

大全的愿景是成为 AI 的布道者,带领 10 万小白入门 AI。关注 @大全Prompt 带您 AI 入门。

最后,祝大家都能寻得可以全身心投入的事情,生活愉快!记得给我一个赞。

END