在 Google I/O 2025 大會中,除了 Gemini 2.5 系列與 Veo 3 模型掀起話題之外,Google (GOOGL.US) 也悄然發(fā)布旗下首款擴散模型(Diffusion Model)Gemini Diffusion。雖非主舞臺焦點,但這款新模型憑藉超高速語言生成能力與技術(shù)潛力,迅速引起 AI 社群高度關(guān)注。
Gemini Diffusion 是 Google 首次將擴散式(Diffusion)生成機制應(yīng)用於人工智慧文字生成領(lǐng)域的實驗性產(chǎn)品。目前僅提供限量實驗體驗,須註冊候補名單才能試用。
與 GPT-4 等傳統(tǒng)自回歸語言模型不同,Gemini Diffusion 採用非自回歸的擴散架構(gòu),從隨機指令出發(fā),經(jīng)多輪精煉後生成完整文本。
這種全新方法不再逐字產(chǎn)出,而是一次性建構(gòu)整段語意內(nèi)容,提高語言生成效率與邏輯一致性,展現(xiàn)出大語言模型的新進化方向。
Gemini Diffusion 速度超快「不是開玩笑」
Gemini Diffusion 的一大亮點就是速度。根據(jù)實測,模型達(dá)到每秒產(chǎn)出 1479 個 token、啟動延遲僅 0.84 秒,遠(yuǎn)超目前主流語言模型,包括 GPT-4、Claude 等,特別適合即時對話生成、智慧客服、互動式應(yīng)用等場景。
Django 框架共同創(chuàng)辦人 Simon Willison 親自測試 Gemini Diffusion,輸入「建立模擬聊天應(yīng)用」的提示後,模型在數(shù)秒內(nèi)便產(chǎn)出含 HTML 與 JavaScript 的互動頁面,生成速度達(dá)每秒 857 token,展現(xiàn)出驚人的實用性與生成效率。
Willison 表示:「Google 說它快,真的不是開玩笑。」
外部基準(zhǔn)測試成績亮眼:程式設(shè)計與數(shù)學(xué)推理表現(xiàn)強勢
Google DeepMind 將 Gemini Diffusion 與自家 Flash-Lite 模型進行對比,成績?nèi)缦拢?/p>
- HumanEval 程式碼測試通過率:89.6%(與 Gemini Flash-Lite 相當(dāng))
- AIME 2025 數(shù)學(xué)準(zhǔn)確率:23.3%(勝過 Gemini Flash-Lite 的 20.0%)
- LiveCodeBench 即時編程得分:30.9%(高於 Gemini Flash-Lite 的 28.5%)
這些數(shù)據(jù)顯示 Gemini Diffusion 在程式設(shè)計、數(shù)學(xué)與邏輯推理任務(wù)上具備頂尖能力,有望成為 AI 工具開發(fā)的全新基礎(chǔ)架構(gòu)。
知識與推理任務(wù)仍有進步空間
儘管在專業(yè)領(lǐng)域表現(xiàn)優(yōu)秀,Gemini Diffusion 在通用任務(wù)方面仍略顯劣勢,與現(xiàn)今最強模型如 GPT-4 存在差距:
- MMLU 多任務(wù)問答得分:69.1%(GPT-4 為 86.4%)
- GPQA Diamond 科學(xué)推理:40.4%(低於 Gemini Flash-Lite 的 56.5%)
Google 引領(lǐng)擴散語言模型浪潮,AI 四巨頭中率先實作
此次發(fā)布,使 Google 成為「AI 四巨頭」微軟 (MSFT.US) 、Google、亞馬遜 (AMZN.US) 和 Meta (META.US) 中首家正式推出語言擴散模型的企業(yè),對 AI 生態(tài)發(fā)展意義重大。
Google DeepMind 主任科學(xué)家 Jack Rae 表示,Gemini Diffusion 的發(fā)布「感覺就像 AI 發(fā)展中的一座重要里程碑」。
Gemini Diffusion 展現(xiàn)了擴散大型語言模型(Diffusion Large Language Model、dLLM) 的未來可能性,並具備以下關(guān)鍵應(yīng)用優(yōu)勢:
- 智慧代理加速:高效處理長篇任務(wù)與多步驟規(guī)劃。
- 進階推理能力:內(nèi)建糾錯機制,修正幻覺與錯誤資訊。
- 生成過程可控:支持內(nèi)容編輯與非線性 token 排列。
- 部署於邊緣設(shè)備:低延遲、高效率,適合 IoT 或資源受限環(huán)境。
專家預(yù)測,未來語言模型可能結(jié)合擴散模型的高速生成能力與自回歸模型的精細(xì)潤飾特性。例如:先由擴散模型快速構(gòu)建初稿,再由自回歸模型進行優(yōu)化;反之亦然。
這種混合策略可能成為下一代 AI 模型研發(fā)重點,挑戰(zhàn)目前由 GPT-4、Claude 3 等模型主導(dǎo)的 LLM 生態(tài),推動自然語言處理(NLP)技術(shù)的再進化。
Gemini Diffusion 的誕生不僅突破語言生成速度瓶頸,也為語言模型架構(gòu)開創(chuàng)新方向。隨著擴散模型技術(shù)持續(xù)成熟,未來 LLM 的速度、效率與控制力將全面提升,AI 創(chuàng)作與智慧應(yīng)用的發(fā)展也將邁入全新階段。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網(wǎng)