OpenAI发布最强推理模型o3及其精简版o3-mini：推理能力提升至接近人类水平

2024-12-21 16:04:38 2984 大屏时代

2024年12月21日，OpenAI在其为期12天的发布活动中，推出了新一代推理系列模型——o3及其精简版o3-mini。作为o1系列的继任者，这两款模型专为增强推理能力而设计，旨在提升模型在回答问题前的思考深度，最终提高回答的准确性。

o3：接近人类水平的推理能力

o3模型的发布标志着OpenAI在人工智能推理能力上的重大突破。通过在ARC-AGI基准测试中的优异表现，o3成为了首个突破该基准的AI模型，展现出接近人类的推理能力。根据测试结果，o3模型在ARC-AGI基准上的最低性能为75.7%，在更多计算资源的支持下，性能更是能够提升至87.5%。

这一突破证明了o3系列在复杂问题求解中的优势，尤其在编程、数学和推理任务中展现了显著的能力。尤其值得注意的是，o3在SWE-bench Verified基准上的准确率达到71.7%，比前代o1模型提升了20%以上。在“Competition Code”竞赛基准中，o3的得分为2727Elo，而o1仅为1891，展现了在编程任务上的强大性能。

此外，o3还在数学问题的解决能力上取得了显著进展。在数学竞赛中，o3的准确率达到96.7%，在GPQA Diamond基准测试中表现同样出色，准确率高达87.7%。这一切都表明，o3模型在推理和问题解决的能力上，已经接近或超越了现有的人工智能系统。

o3-mini：高效推理，低成本

为满足不同应用场景的需求，OpenAI还推出了o3的精简版——o3-mini。o3-mini模型专注于提升推理速度并降低计算成本，同时仍保持高水平的性能。其主要特点是能够快速完成推理任务，尤其适用于编程任务。o3-mini特别适合需要较快响应和较低计算资源消耗的应用，能够为开发者提供一种更加高效、实用的AI工具。

OpenAI计划在2025年一月底左右推出o3-mini，并在不久后推出完整的o3模型。尽管o3系列不会直接公开发布，OpenAI目前已经开始进行外部安全测试，并向注册的安全研究人员提供预览访问权限。选定的研究人员将有机会探索o3和o3-mini的潜力，并为进一步的安全评估做出贡献。

新型安全评估方法：审议式对齐（Deliberative Alignment）

随着o3系列模型的推出，OpenAI还介绍了一种新的安全评估方法——“审议式对齐”（Deliberative Alignment）。这一方法旨在通过直接教授模型遵循安全规范的新方式，确保模型能够在回答问题之前，首先回忆并严格遵循安全标准。这种新的对齐方法已经被应用于o系列模型，以确保它们在执行推理时，能够严格遵循OpenAI的安全政策，并在处理复杂任务时减少潜在的风险。

审议式对齐的应用使得o3模型在进行推理时更加稳健，符合OpenAI在人工智能安全方面的高标准。通过这种创新的对齐方法，OpenAI不仅提升了模型的推理能力，还确保了AI系统在高效执行任务的同时，能够精确遵守安全规范。