OpenAI 於週二(10 日)正式推出最新 AI 模型 「o3-pro」,並宣稱這是他們目前為止最強(qiáng)大的推理 AI 模型,超越 o1-pro、Gemini 2.5 Pro 與 Claude 4 Opus。
o3-pro 是先前已發(fā)布的 o3 推理模型的升級版本,具備更精準(zhǔn)的邏輯思考能力,特別適用於物理、數(shù)學(xué)與程式設(shè)計(jì)等嚴(yán)謹(jǐn)?shù)膽?yīng)用領(lǐng)域。
這款 AI 模型即日起已向 ChatGPT Pro 和 Team 用戶開放使用,企業(yè)和教育用戶則預(yù)計(jì)於下週獲得使用權(quán)限。此外,o3-pro 也同步整合進(jìn)入 OpenAI 的開發(fā)者 API。
根據(jù) OpenAI 公布,o3-pro 價格只有 o1-pro 的 87%,每百萬個輸入字符僅(token)20 美元、輸出字符 80 美元。百萬個輸入字符約等同 75 萬個字,略高於小說《戰(zhàn)爭與和平》的總字?jǐn)?shù)。
根據(jù) OpenAI 公開的更新日誌,在專家評測中,o3-pro 在各項(xiàng)表現(xiàn)均超越原版 o3,特別在科學(xué)研究、教育教學(xué)、程式設(shè)計(jì)輔助、商業(yè)應(yīng)用以及寫作支援方面表現(xiàn)亮眼。
專家一致給予更高評分,認(rèn)為 o3-pro 的清晰度、全面性、指令遵循度、準(zhǔn)確度方面表現(xiàn)更加優(yōu)秀。
更值得注意的是,在 AIME 2024 數(shù)學(xué)能力測驗(yàn)、GPQA、Codeforces 三大測試中,o3-pro 也拿下了最高分,碾壓 o1-pro 和 o3。
另外,在更嚴(yán)格的「4/4 可靠性」評估標(biāo)準(zhǔn)中,o3-pro 在數(shù)學(xué)、程式設(shè)計(jì)、博士級科學(xué)問答中,也大幅超越 o1-pro 和 o3。
根據(jù) OpenAI 的內(nèi)部測試資料,在 AIME 2024 數(shù)學(xué)能力測驗(yàn)中,o3-pro 成績更是擊敗了 Google (GOOGL.US) 的 Gemini 2.5 Pro;而在博士級科學(xué)知識測試 GPQA Diamond 中,則超越了 Anthropic 最新的旗艦 AI 模型 Claude 4 Opus。
此外,o3-pro 支援多種強(qiáng)大工具,例如網(wǎng)頁搜尋、PDF 和文件分析、視覺推理處理、Python 語言運(yùn)算、回應(yīng)個人化(透過記憶功能)等。這些功能使 o3-pro 在科學(xué)教育與商業(yè)決策等高階場景中擁有更高實(shí)用性。
不過 OpenAI 也指出,目前 o3-pro 的回應(yīng)速度比前一代 o1-pro 稍慢,且臨時聊天功能暫時停用,也尚不支援圖像生成與 Canvas 協(xié)作功能。
(美股為即時串流報(bào)價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網(wǎng)