准确率_3D标签 - 大屏时代

OpenAI发布最强推理模型o3及其精简版o3-mini：推理能力提升至接近人类水平

2024年12月21日，OpenAI在其为期12天的发布活动中，推出了新一代推理系列模型——o3及其精简版o3-mini。作为o1系列的继任者，这两款模型专为增强推理能力而设计，旨在提升模型在回答问题前的思考深度，最终提高回答的准确性。o3：接近人类水平的推理能力o3模型的发布标志着OpenAI在人工智能推理能力上的重大突破。通过在ARC-AGI基准测试中的优异表现，o3成为了首个突破该基准的AI...

OpenAI o1-preview 在复杂医疗病例诊断中超越医生，研究显示其优越性

2024年12月25日，AIbase基地报道 —— 一项由哈佛医学院与斯坦福大学联合进行的最新研究表明，OpenAI 的 o1-preview 人工智能系统在诊断复杂医疗病例方面，可能优于人类医生。研究显示，o1-preview 在多个医疗测试中表现出色，其诊断准确率远超人类医生，尤其在复杂病例的推理和决策方面。o1-preview 超越医生：诊断准确率显著提高这项研究的重点是 o1-previe...

AI惨败！「人类最后一次考试」揭示LLM能力极限，DeepSeek力挽狂澜

近日，由Scale AI和Center for AI Safety（CAIS）联合发起的全球AI挑战——「人类最后一次考试」（Humanity’s Last Exam，简称 HLE）公布了最新测试结果。令人震惊的是，即便是当前最强的AI大模型，正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型，均未能展现出预期的智能表现，而中国的DeepSee...

DeepSeek推理模型暴露弱点：频繁切换思路导致“欠思考”，最短答案常为正确

尽管DeepSeek等推理大模型在人工智能领域掀起了技术革命，但最新的研究揭示了这些模型在解决复杂问题时的明显弱点。研究表明，当DeepSeek等模型遇到高难度问题时，频繁切换思路而不深入探讨现有路径，导致了所谓的“欠思考”（Underthinking）现象。这种现象不仅降低了推理效率，还显著影响了模型的准确性。“三心二意”的问题：频繁思维切换降低推理质量近日，腾讯AI实验室、苏州大学和上海交通大...

中国大模型逆袭全球！DeepSeek引爆中美云巨头"抢滩战"

当全球AI竞赛进入白热化阶段，一款中国大模型正以燎原之势重构国际云服务市场格局。2025年2月3日，随着百度、阿里、华为、腾讯四大云厂商同步官宣，DeepSeek大模型的商业化浪潮正式席卷全球云市场。更令人瞩目的是，英伟达、亚马逊、微软三大硅谷巨头罕见地在24小时内集体接入这款中国AI引擎，上演了一场横跨太平洋的"技术抢滩战"。国产大模型的"云上闪电战"在百度智能云千帆平台，开发者现可零门槛调用D...

微软发布OmniParser V2.0：DeepSeek与AI智能体开启操控电脑新时代

2025年2月17日，全球人工智能技术再度迎来一项突破性进展——微软发布了OmniParser工具的最新版本V2.0。通过这一工具，DeepSeek、OpenAI的多个模型以及其他顶尖人工智能技术能即时转变为能够操控计算机的智能体，开辟了AI操作系统的新领域。对于科技创新公司，尤其是创意公司来说，这一技术进展无疑将带来巨大的应用前景和挑战。OmniParser V2.0：AI智能体操控计算机的未来...

首页 1 尾页