蘋果近期發(fā)表一項(xiàng)具指標(biāo)性的 AI 研究報(bào)告,震撼揭露目前市場(chǎng)上號(hào)稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實(shí)際上只是進(jìn)行「進(jìn)階記憶遊戲」,根本談不上真正的邏輯推理。
為了避開常見的訓(xùn)練資料污染問題,蘋果研究團(tuán)隊(duì)自訂了一組從未出現(xiàn)在資料集中的 邏輯謎題,用來測(cè)試 AI 模型是否具備真正的 理解與推理能力。這些謎題設(shè)計(jì)精巧,能明確區(qū)分出模型是「理解內(nèi)容」還是「死記硬背」。
研究指出,當(dāng)謎題進(jìn)入較高複雜度時(shí),這些模型的表現(xiàn)明顯崩盤。甚至出現(xiàn)放棄解題、胡亂回答等「自暴自棄」現(xiàn)象。實(shí)驗(yàn)結(jié)果可歸納為三個(gè)階段:
- 低複雜度:普通模型反而表現(xiàn)更穩(wěn)定
- 中等複雜度:標(biāo)榜「會(huì)思考」的模型稍占優(yōu)勢(shì)
- 高複雜度:所有模型表現(xiàn)接近失效
而現(xiàn)實(shí)生活中的問題,絕大多數(shù)正好落在「高複雜度」區(qū)間。
蘋果指出,即便給予這些 AI 模型明確提示,它們依然無法完成問題解答。例如,模型能成功解出百步的河內(nèi)塔,卻卡在只需 4 步的渡河謎題,顯示 AI 並非理解問題本質(zhì),而只是根據(jù)模式記憶進(jìn)行猜測(cè)。
這項(xiàng)研究直指目前主流大型語言模型(LLM) 的根本限制:它們?nèi)狈φ嬲摹高壿嬫湕l構(gòu)建能力」,無法如人類般進(jìn)行深層推理。
Google 執(zhí)行長 Pichai 提出「AJI」,稱 AI 表現(xiàn)起伏大
與此同時(shí),Google 執(zhí)行長 Sundar Pichai 則創(chuàng)造新詞「AJI」,即「人工鋸齒智慧」(Artificial Jagged Intelligence),形容 AI 表現(xiàn)起伏極大,時(shí)而令人驚豔,時(shí)而荒謬可笑。
他舉例說:「有時(shí) AI 回答讓你讚嘆不已,下一秒?yún)s連草莓裡有幾個(gè) R 都數(shù)不清?!惯@種「不穩(wěn)定性」正是當(dāng)今 AI 的真實(shí)狀態(tài)。
儘管如此,Pichai 對(duì) AI 發(fā)展仍抱持樂觀。他認(rèn)為,即便通用人工智慧(AGI) 無法如預(yù)期在 2030 年實(shí)現(xiàn),AI 仍將在知識(shí)擴(kuò)散、氣候變遷、醫(yī)療研究、經(jīng)濟(jì)發(fā)展 等領(lǐng)域發(fā)揮重大影響。
社群反應(yīng)兩極:AI 還能超越人類思考嗎?
這份蘋果研究迅速在科技社群掀起論戰(zhàn)。一派認(rèn)為這證實(shí)了當(dāng)前 LLM 架構(gòu)不足以支撐 AGI 的實(shí)現(xiàn);另一派則指出:「推理本身就是一種模式學(xué)習(xí)」,不應(yīng)對(duì) AI 判斷太過悲觀。
無論是哪種觀點(diǎn),這份研究都明確提醒我們:AI 並非萬能,距離「真正會(huì)思考」仍有距離。
「JaggedAI.com」等相關(guān)關(guān)鍵詞已被高價(jià)搶註,象徵著這波由「鋸齒智慧」引發(fā)的新一輪 AI 詮釋熱潮才剛剛開始。未來 AI 發(fā)展不只要追求表現(xiàn),更要正視它的局限。
新聞來源 (不包括新聞圖片): 鉅亨網(wǎng)