OpenAI的12天：更接近AGI的o3模型为发布会划上句号

2024-12-22 20:00:01来源：新媒体

文章导读: （原标题：OpenAI的12天：更接近AGI的o3模型为发布会划上句号） 12月21日，OpenAI的“马拉松”发布会来到最后一天，OpenAI推出了o1模型的下一代模型o3。 OpenAI的o系列模型更聚焦推理能力，和GPT系 ...

（原标题：OpenAI的12天：更接近AGI的o3模型为发布会划上句号）

12月21日，OpenAI的“马拉松”发布会来到最后一天，OpenAI推出了o1模型的下一代模型o3。

OpenAI的o系列模型更聚焦推理能力，和GPT系列模型并列，是其另一条重要的产品线。其中，o3迷你型（mini）模型预计将于2025年1月上线，o3模型将在后续推出。OpenAI首席执行官山姆·奥特曼表示，跳过o2命名是为了避免和英国电信运营商O2冲突。

自12月6日起，OpenAI开启了一场为期12天的直播发布会，每个工作日都会推出新的产品或功能。不过，每场直播的时间都仅有10分钟至25分钟。

o3模型的AGI评测突破人类水平门槛

今年9月，OpenAI发布了更擅长处理复杂推理任务的o1系列模型，其核心技术是“思维链”，它要求模型在回答复杂问题前，先生成一个内部的思考过程，类似于人类在处理复杂问题时一步步推理的过程。通过这种方式，o1模型能够将复杂问题分解成更简单的部分，并且识别并纠正错误。相比o1模型，o3模型的能力进步明显。

在为通用人工智能（AGI）准备的测试ARC-AGI中，o3模型在“低思考模式”和“高思考模式”两种设置里，元宇宙之家消息，分别获得了75.7和87.5的分数。ARC-AGI是一个由一系列任务构成的测试数据集，旨在测试参与者的推理能力和抽象思维。OpenAI的演示人员在直播中称，o3模型的这一项分数是一个重要的里程碑，因为人类在这项测试中达到的分数阈值为85，这说明o3模型的水平更接近AGI。

在OpenAI的直播演示中，o3模型在编程竞赛平台Codeforces上得分为2727，远高于o1模型的1891。OpenAI研究高级副总裁MarkChen在直播中表示，他本人的得分也只有2500，这意味着o3模型的编程能力已经能和专业程序员比肩。

在数学领域，o3模型在美国数学邀请赛（AIME 2024）测试中的准确率达到了96.7%，而o1模型的准确率是83.3%。

OpenAI在直播中还发布了o3模型的mini版本，mini版本的模型尺寸更小，使用成本会有所降低。o3 mini设置了低、中、高三种推理模式，用户能根据任务复杂度灵活调整模型的思考时间。

OpenAI预计o3 mini将于1月向所有用户推出，而完整版o3模型则将在后续发布。此外，OpenAI为安全研究人员开放了早期访问权限的申请，以此表示对AI安全性的重视。奥特曼也在社交媒体上呼吁，希望安全研究人员考虑申请帮助测试o3 mini和o3。

OpenAI的12天

在这12天的直播发布会里，OpenAI分别在首日和最后一天发布了o1系列模型的正式版以及o3模型的预览版，这说明OpenAI仍然更加重视模型能力升级。

除了首日和最后一天，第3天的发布也备受关注。当天OpenAI正式推出了AI视频生成模型Sora。此前，Sora已经预告了近300天时间。在此期间，国内外已有字节跳动、快手、生数科技和谷歌等超过20家公司推出了类似的文生视频模型及应用。

在直播活动的第5天和第11天，OpenAI主要展示了他们和苹果公司的合作，尤其是终端侧的AI应用。奥特曼表示，苹果正在将ChatGPT整合到手机（iPhone）、平板电脑（iPad）和苹果系统（iPad）上。

整合的内容包括：苹果的智能语音助手Siri能将复杂任务移交给ChatGPT处理；苹果用户可以使用ChatGPT撰写文档，还能进行文档细化和总结；iPhone 16手机的相机控制功能也进行更新，通过视觉智能让用户更深入地了解拍摄对象，例如利用搜索功能快速识别眼前物品，或借助ChatGPT深入了解识别的内容；ChatGPT已与苹果笔记本电脑实现了应用整合，支持与Warp（文件共享应用）、Xcode（编辑器）等应用联动，并可在语音模式下与苹果备忘录等应用协同工作。

余下几天的直播发布会，OpenAI主要发布与聊天机器人ChatGPT相关的新功能。

第2天，Open AI发布了面向企业用户的“强化微调”技术，用户使用极少的训练数据就能在特定领域创建专家模型，预计该功能将在明年正式上线。

第4天，OpenAI为ChatGPT推出了全新的并行设计界面Canvas。Canvas能让代码和文本处理更加高效，并提供了多种实用的写作工具。

第6天，OpenAI上线了和人类对话更加自然的高级语音模式和实时通话、理解屏幕等功能。在演示中，ChatGPT可以通过摄像头记住4位直播人员的名字，并能在遭打断谈话后再自然地接话。

在第7天和第8天，OpenAI分别推出了Projects In ChatGPT功能以及ChatGPT搜索功能。前者能将ChatGPT的各种功能整合至一处，便于用户创建并管理各类项目文件夹，后者则是强化了联网检索能力。

第10天，OpenAI拓展了吸引新用户的渠道，推出了“热线”的互动方式，它允许新用户通过电话和通讯程序WhatsApp与ChatGPT互动。

此外，OpenAI在第9天的发布会上，集中宣布了定价及价格调整的相关策略。当天，OpenAI开放了o1模型的应用程序编程接口（API），并宣布了一系列定价：o1模型每分析约75万字收费15美元，每生成约75万字收费60美元，这一费用是其最新非推理模型GPT-4o的3—4倍。

OpenAI也宣布了将GPT-4o音频模型的API定价降低60%，降价后的价格为每100万输入Tokens（大模型数据的基本单元）收费40美元，每100万输出Tokens收费80美元。OpenAI即将正式上线的GPT-4o mini模型API定价更便宜，每100万输入和输出Tokens的价格分别为10美元和20美元。同时，GPT-4o mini的文本token费率也大幅下调，输入token的起步价为0.6美元，输出token起步价为2.4美元。

除了通过API推进商业化，OpenAI还在直播活动中推出了ChatGPT Pro这项月费200美元的新订阅服务。ChatGPT Pro主要针对需要高级AI能力的专业人士，允许他们无限制地使用包括o1在内的高级模型。

例如，所有ChatGPT付费用户均可通过ChatGPT选择切换至o1模型，而o1 pro版本则需要ChatGPT Pro用户才能直接访问。此外，现阶段Sora仅面向ChatGPT Plus和Pro两类会员用户开放，Plus用户每月享有50条视频生成配额，Pro用户则高达5000条。

fund