ai工具吧 关注:94贴子:229
  • 0回复贴,共1

OpenAl O1初体验:成为AI先行者的秘诀!

只看楼主收藏回复

OpenAI 正式发布了一系列全新的 AI 大模型,被传为美谈的“草莓”终于上线了。然而,它并没有被正式命名为“草莓”,而是叫做o1。
(最近,先行者云科技上新了一款平替OpenAl O1,大家可以自行尝试对比。)

一、为什么会选择这个名字呢?
OpenAI 给出了解释:对于复杂的推理任务来说,这是一个重大的突破,代表着人工智能能力的新水平。基于此,我们将计数器重新设置为1,并将这一系列命名为 OpenAI o1。
这次 OpenAI 推出的全新 AI 大模型不再延续以往的命名规范,直接选用o1作为名称,这意味着它代表了一个新的起点,也代表了目前最高水平。与之前的 GPT-o1 不同,官方名称为 OpenAI o1 的原因在于其目标和技术路线与 GPT-4o 不同。

GPT-4o 是不同模态的大一统,对于模型智力水平的提升帮助不大,它无法完成复杂任务。而指望图片、视频数据大幅提升智力水平几乎是不可能的。GPT-4o 主要是弥补大模型对多模态世界的感知能力,而不是认知能力。后者仍然需要 LLM 文本模型。
相比之下,OpenAI o1 则是探索 AGI 能够走多远的一步。提升认知能力的核心在于复杂逻辑推理,能力越强,解锁的复杂应用场景就越多。大模型的天花板也就越高。因此,提升文本模型的逻辑推理能力是最重要的事情,毋庸置疑。
二、为什么说 "慢思考、强逻辑" 的能力有所不同呢?
看下面两组数据:在 AIME 2024 数学竞赛中,o1 的预览版准确率达到了56.7%,而正式版更高达83.3%。在代码竞赛上,o1 在 GPT-4o 的表现也从11%提升到了89%。新模型在复杂推理或数学计算等方面的能力可以说是非常突出的。

设想一下,如果有人问你:简单问题:意大利首都在哪里?你会立即回答罗马;复杂问题:帮我写个商业计划书/小说……你会停顿片刻,不断自我反思,思考时间越长,结果往往越好。这个例子解释了推理的作用,将思考时间转化为更好的结果的能力。其中之一就是“慢思考”,o1 模型在回答问题之前会经过深思熟虑,这个过程可能需要额外的时间,但它能够生成一个内部的长思维链,尝试不同的策略,并识别自身的错误。
另外一个就是“强逻辑”,o1 模型在逻辑推理任务上表现出色,能够处理复杂的科学、数学和编程问题。比如,在国际数学奥林匹克(IMO)的资格考试中,o1 模型的正确率高达83%,而之前的 GPT-4o 模型只有13%的正确率。在 chatgpt 之前的模型并不擅长复杂推理,在简单任务上表现不错,但一旦遇到多步骤的复杂问题,或者需要更多推理和思考的场景时,模型的表现就开始下滑,而 o1 则成功解决了这个问题。
三、核心是什么
OpenAI的o1模型训练方法的核心原理是一项称为自我对弈强化学习(Self-play Reinforcement Learning,简称RL)的训练方法。
这种方法通过模拟环境和自我对抗来提升模型性能,模型在没有外部指导的情况下,通过不断尝试和错误来学习策略和优化决策。这就像是模型在与自己下棋,一边玩一边学,过程中不依赖他人教导,而是靠自己的尝试、失败、再次尝试,逐渐学会如何制定决策和解决问题。
举例来说,AlphaGo和AlphaZero就采用了这种方法。 o1模型系列包含o1-preview和o1-mini两个版本,其中o1-preview注重于深度思考和科学推理,而o1-mini则更加经济高效,适用于STEM领域,特别是数学和编码任务。


IP属地:广东1楼2024-10-21 06:21回复