李宗瑞种子 OpenAI第12天：新品o3发布会的8大看点，第5个让民众齐坐不住了

23 2024-12
李宗瑞种子 OpenAI第12天：新品o3发布会的8大看点，第5个让民众齐坐不住了

发布日期：2024-12-23 08:06 点击次数：169
The following article is from AI 深度议论员 Author AI 职责坊李宗瑞种子
作家 | AI 职责坊
开首 | AI 深度议论员管缄默慧
筹商配合 | 13699120588
著述仅代表作家本东说念主不雅点
就在刚刚，OpenAI 第 12 天发布会上的一则重磅音问让民众科技圈情愿：新一代 AI 模子 o3 过头 o3-mini 厚爱亮相。这不是一场无为的家具发布会，而是一次足以改变 AI 程度的首要事件。
让民众为之瞩蓄意是，o3 展现出了超越前代的惊东说念主才略。在编程领域，它展示出了忘形顶级神志员的实力；在科学推理方面，它创造了多项新记载；更令东说念主期待的是，它的精简版 o3-mini 将在 1 月底向公众怒放，这意味着这项改变性本事很快就将走入无为东说念主的生计。
究竟 o3 有哪些突破性的创新？它又将若何改变咱们的畴昔？让咱们全部来望望这场发布会上的八大看点，止境是第五点，它可能会再行影响咱们对东说念主工智能的扫数分解。
看点 1. 窒碍东说念主类极限的 AI 天才
好多东说念主齐在问：o3 到底有多强？让我用最直不雅的花样告诉你——它几乎强得离谱！这个全新的 AI 模子在各个领域齐展现出了惊东说念主的实力（如下图），其中最引东说念主注蓄意是它在编程领域的进展。
（多个要津领域测试，止境是在编程和数学推理才略）
在编程界，有一个叫 CodeForces 的平台，这就像是神志员的奥林匹克竞赛。o3 在这个平台上的预期评分杰出 2700 分！对无为东说念主来说，这个数字可能没什么嗅觉，但请听我说完：一个无为神志员，可能死力一辈子齐够不上 2000 分。而 2700 分，这照旧是天下顶尖水平了！
不仅是编程，o3 在 GPQA 测试中拿到了 87.7% 的钻石级收成。这个收成比谷歌的 Gemini Flash 2 高出了整整 25.7 个百分点！要知说念，在 AI 领域，1% 的进步齐辱骂常可贵的，而 o3 一下子最初这样多，几乎即是降维打击！这种差距就像是高考状元和无为考生之间的差距，几乎是降维打击。
而在软件工程领域，o3 创下了 71.7% 的新记载。关于一个 AI 来说，这意味着它照旧大致认识、联想和收尾复杂的软件系统。这就像一个机器东说念主不仅会作念菜，还能联想和筹画一通盘米其林餐厅！
草榴社区
看点 2. AI 超越传统念念维才略
o3 最卓尔不群的场所在于它的 " 念念考花样 "。传统的 AI 就像是一个超等贵府库，而 o3 更像是一个大致零丁念念考的大脑。它弃取了一种叫作念 " 深度学习驱动的神志搜索系统 " 的本事，这种本事让它大致像东说念主类通常进行创造性念念考。
说到这里，我不得不共享一个真理真理的类比：传统 AI 就像是一个死记硬背的学生，熟习时只会照搬讲义上的谜底。而 o3 则像是一个信得过认识常识的学霸，大致交融交融，举一反三。它使用了近似于 AlphaZero 的蒙特卡罗树搜索设施，这使得它大致像东说念主类通常进行创造性念念考。
比如说，迎靠近一个从未见过的问题时：
传统 AI 会像翻字典通常，在数据库里寻找近似的谜底
而 o3 会像东说念主类通常，先分析问题的本体，然后一步步推理出解决有蓄意
这种念念维花样的突破，让 o3 大致解决更多复杂和创新性的问题。它不仅能酬报 " 是什么 "，还能阐明 " 为什么 "，致使能建议 " 若何更好 "。这种才略的突破，让它大致粗放各式前所未见的挑战。
看点3. 令东说念主神往的不菲狡计资本
不外，这种坚决的才略也带来了宽广的狡计资本。说到 o3 的资本，好多东说念主齐被吓到了：解决一个复杂问题可能需要破耗数千好意思元，耗尽数千万个狡计符号。但我要告诉你一个不通常的视角。
让咱们作念个陋劣的狡计：
一个高等神志员的年薪可能在 50 万以上李宗瑞种子
解决一个复杂问题可能需要几周致使几个月
而 o3 可能几个小时就能责罚
从这个角度来看，o3 的资本其实辱骂常合算的！何况，OpenAI 照旧默示，畴昔代币价钱有望着落。这就像昔日的狡计机，从最初的天价到当今东说念主手一台，o3 的使用资本也会变得越来越亲民。
看点 4. 不得不承认的 " 短板 "
o3 也有它的局限性，何况这些局限性止境真理真理，致使有点 " 可儿 "。它最大的局限在于缺少与现实天下的径直互动才略。
源头，它有点像一个 " 表面家 "。诚然能给出完满的解决有蓄意，但即是没法亲身入手作念。这让我想起了那些在实验室里指引山河的科学家，能联想出完满的实验有蓄意，但可能连试管齐拿不稳。o3 即是这样，它能告诉你奈何作念，但不行信得过 " 入手 " 去作念。
更特真理的是，它还离不开 " 东说念主类老诚 "。它需要依赖大家标注的念念维链数据来学习，就像一个恒久长不大的学生，总需要老诚在摆布指挥。这极少和围棋 AI AlphaZero 造成了披露对比，AlphaZero 不错通过自我对弈总计自主学习，而 o3 还作念不到这极少。
看点5. 距离 " 通用东说念主工智能 " 有多远？
（AGI 测试：东说念主类是 85%VS o3 是 87.5%，东说念主类完败）
好多东说念主合计 o3 如斯坚决，是不是就意味着咱们收尾了传奇中的 " 通用东说念主工智能 "（AGI）？我要说：别急，事情没那么陋劣。
让我告诉你一个真理真理的气候：在行将发布的 ARC-AGI-2 测试中，o3 即使开足马力，瞻望得分也就 30 分不到。陋劣说，咱们在学校熟习时，频繁会有不同难度的试卷。有基础题，也有大致考察学生信得过认识才略的玄虚题。ARC-AGI-2 测试就像是为东说念主工智能准备的一个特等 " 熟习 "。
这个 " 熟习 " 止境特真理。它不是考 AI 背诵了几许常识，而是测试 AI 是否的确具备 " 认识力 " 和 " 念念考力 "。打个譬如：
无为熟习可能会问："1+1=？"
而 ARC-AGI-2 会问近似这样的问题：" 如若你有一个苹果，一又友又给你一个苹果，你该奈何狡计总额？为什么要这样狡计？如若是梨子呢？"
这种测试止境锐利的场所在于，它考察的是 AI 是否的确 " 懂 "，而不是陋劣的 " 记着 "。就像分别一个背题的学生和信得过认识常识的学生通常。
真理真理的是，在这个测试中，o3 这个超等锐利的 AI，瞻望只可得到 30 分傍边，而无为东说念主类随敷衍便就能得 95 分以上。这阐明什么呢？这阐明诚然 o3 在某些方面很锐利（比如编程），但在信得过认识和念念考问题的才略上，还远远比不上东说念主类。这就像一个学霸，数学考 100 分，英语也考 100 分，但让他处理一些生计中的践诺问题时，反而不如一个无为东说念主来得庖丁解牛。
这个气候告诉咱们什么？
AI 的 " 智能 " 和东说念主类的 " 智能 " 是不同的
o3 诚然在某些领域超越了东说念主类，但在通用性方面还远远不够
信得过的 AGI 应该具备更全面的才略，而不是只在特定领域进展出色
是以，这个 ARC-AGI-2 测试就像是一面镜子，它明晰地告诉咱们：AI 当今到底发展到了什么水平，还有哪些不及需要改革。这关于通盘 AI 领域的发展齐止境弥留。
看点6. AI 进化史上的里程碑时辰！
回来 AI 的发展流程，从 GPT-3 到 o3 的每一步进展齐清亮可见：
GPT-3：ARC-AGI 测试得分为 0
GPT-4：接近 0 分
GPT-4o：达到 5 分
o3：收尾首要突破
这短短几年的进化史，展现了 AI 本事突飞大进的发展速率。最早的 GPT-3 就像是一个懵懂的学前儿童，在 ARC-AGI 这个专门熟习 AI 简直认识力的测试中，总计无法粗放，拿了个令东说念主无语的零分。这个阶段的 AI 诚然照旧能和东说念主类对话，但在信得过需要深度念念考的问题眼前却显得安坐待毙。
当 GPT-4 登场时，AI 界迎来了第一缕晨曦。它在测试中诚然只得回了接近于零的收成，但这隐微的向上却让议论东说念主员看到了但愿。这就像一个孩子终于迈出了踉跄的第一步，诚然还很不幽静，却预示着更大的突破行将到来。GPT-4o 的出现则标志着 AI 启动信得过具备了初步的推理才略。5 分的收成看似微不及说念，但却代表着质的飞跃。
而今天，o3 的横空出世绝对改写了 AI 的历史程度。这种向上就像东说念主类从会走路到会跑步，再到会开车，临了径直会飞通常！何况，这个向上主要体当今两个中枢才略上：
常识储备更坚决了：就像给大脑装了个超等硬盘
常识行使更无邪了：不仅会背，还会用，还能创新！
看点 7. o3 的开源筹画
当今告诉你一个超等粗野东说念主心的音问：OpenAI 筹画在 2025 年鼓动 o3 的开源复现！这是什么办法？
这就像把一个超等天才的大脑复制给全天下的科学家议论。通过开源，更多的议论者和建造者将大致参与到 o3 的改革中来，这可能会催生出更多令东说念主惊喜的创新应用。
同期，议论团队正在建造全新的 ARC-AGI-2 基准测试，这将为通盘 AI 行业制定新的轨范。这种轨范的进步，将鼓动 AI 本事向更高水平发展。
看点 8. 想参与改变历史吗
临了要说的是，OpenAI 当今怒放了红队测试请求！这意味着什么？这意味着你有契机：
成为首批体验 o3 的东说念主
参与塑造 AI 的畴昔
为 AI 安全性作出孝敬
这就像参与了一场改变东说念主类历史的伟大实验，何等可贵的契机啊！
加入联结 https://openai.com/index/early-access-for-safety-testing/
写在临了：
o3 的出现不单是是一个新家具的发布，而是通盘东说念主类社会上前迈出的一大步。诚然它还不完满，还不是信得过的 AGI，但它照旧向咱们展示了 AI 的无尽可能。
畴昔已来，要津是咱们若何与之共处，若何利用它来创造更好意思好的天下。
PS：你对 o3 有什么方针？宽待在评述区留言筹商！
原视频联结：https://openai.com/index/early-access-for-safety-testing/

李宗瑞种子 OpenAI第12天：新品o3发布会的8大看点，第5个让民众齐坐不住了

热点资讯

相关资讯