OpenAI的一名员工近日公开指责埃隆·马斯克旗下的xAI公司发布的最新AI模型Grok 3在基准测试中的结果存在误导性。此指责引发了两家公司的激烈争论。
xAI在其官方博客中发布了一张图表,显示Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025(2025年高难度数学考试)上的表现超越了OpenAI的最强可用模型o3-mini-high。然而,这一结果很快引起了质疑,特别是OpenAI的员工指出,xAI的图表没有包括o3-mini-high在“cons@64”条件下的AIME得分。
“cons@64”是指“consensus@64”基准,允许模型在每个问题上进行64次尝试,选择出现频率最高的答案作为最终答案。这种方法通常会大大提高模型的分数,因此在缺少这一数据的情况下,可能会给人错误的印象,认为Grok 3的表现优于OpenAI的模型,尽管实际情况可能并非如此。
在AIME 2025的“@1”条件下,即每个模型首次尝试的得分,Grok 3的表现低于o3-mini-high。Grok 3 Reasoning Beta的得分甚至略低于OpenAI的o1模型在“中等计算”条件下的表现。然而,xAI仍然在宣传Grok 3为“世界上最聪明的AI”,这一宣传引发了更多争议。
xAI的联合创始人伊戈尔·巴布什金(Igor Babushkin)在X平台上回应称,OpenAI过去也曾发布类似的基准测试图表,尽管这些图表主要用于展示其自身模型的表现。
为了更准确地呈现数据,一位中立的第三方重绘了一张基于更真实数据的图表。而AI研究员内森·兰伯特(Nathan Lambert)指出,或许最为重要的指标仍然是每个模型达到最佳得分所需的计算和金钱成本。他表示,这表明当前大多数AI基准测试在展示模型优势与局限性方面仍存在显著不足。
此次事件揭示了AI基准测试在评估模型性能时仍然面临的挑战和复杂性,如何确保数据的透明性和准确性,将是行业继续讨论的焦点。
相关文章
苹果紧急撤回iOS 18.4 Beta 1更新:iPhone 12等设备遭遇无限重启问题
苹果iOS 18.4测试版引发“变砖”BUG,iPhone 12等机型遭遇启动循环问题
ALEF飞行汽车Model A即将量产:垂直起降技术挑战传统汽车与飞行器设计
无需X账号,Grok AI网页版震撼上线:轻松体验智能对话与图像生成