
瀕臨 Claude Opus 4.6 和 GPT Codex 5.3 的是非攻勢,谷歌反手即是一個Gemini 3 Deep Think的重要升級。

在 Codeforces(一個包含多樣競技編程挑戰(zhàn)的基準(zhǔn)測試平臺)上,它獲取了驚東說念主的3455? Elo 分?jǐn)?shù),額外于宇宙第 8 名。

這下子,公共唯一 7 東說念主的編程水平能排在它前邊了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的實力不啻于此,它還平直把ARC-AGI-2——這個公認(rèn)測試 AI 推理才能的前沿基準(zhǔn),給刷到了史無先例的84.6%。
要知說念,之前最強模子的得分在 60%-70% 之間耽擱,Claude Opus 4.6 的收獲也唯一 68.8%。
在東說念主類終末執(zhí)行(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的收獲。

官方暗示,新版 Deep Think 是谷歌挑升開采的推理花式,旨在鼓吹智能前沿發(fā)展,并處治科學(xué)、扣問和工程邊界的當(dāng)代挑戰(zhàn)。
另一位"堯舜禹"——清華物理系神話特獎得主姚順宇(Shunyu Yao),客歲 9 月加入谷歌 DeepMind,亦然這次 Deep Think 新模子的參與者。

新版 DeepThink 仍是走進(jìn)了實驗室
升級后的 Gemini 3 Deep Think 實力究竟有多強?
它的貪心不啻于贏得基準(zhǔn)測試,而是要走進(jìn)科研和工程邊界,匡助工程師處理復(fù)雜任務(wù)。
新版 Deep Think 不錯分析草圖,對復(fù)雜形勢進(jìn)行建模,并平直生成用于 3D 打印的實體文獻(xiàn)。這是它打印的一個條記本電腦支架:

谷歌 VP Josh Woodward 在 X 上曬出了打印的后果,看起來對草圖額外復(fù)原:

羅格斯大學(xué)的數(shù)學(xué)家 Lisa Carbone,運用 Gemini 3 Deep Think 審閱了一篇高度??频臄?shù)學(xué)論文。
為止 Gemini 3 Deep Think 奏效地識別出了一個輕飄的邏輯劣勢,而這個劣勢在此前的東說念主工同業(yè)評審中均未被發(fā)現(xiàn)。

杜克大學(xué)的王安實驗室,運用 Gemini 3 Deep Think 本領(lǐng)優(yōu)化了復(fù)雜晶體孕育的制備措施,以期發(fā)現(xiàn)新的半導(dǎo)體材料。
為止 Gemini 3 Deep Think 奏效聯(lián)想了一種大致孕育厚度大于 100 微米薄膜的工藝,達(dá)到了以往措施難以企及的精準(zhǔn)主張。

在 X 上,DeepSeek 多模態(tài)團(tuán)隊扣問員 XiaoKang Chen 也暗示:Gemini 3 Deep Think 至極擅所長理科學(xué)邊界中的長尾任務(wù)。
他給 Deep Think 輸入了一張復(fù)雜分子結(jié)構(gòu)的圖片,隨后模子便準(zhǔn)確地打算出了分子式。

勇奪三項新 SOTA,推理資本裁汰 82%
客歲 Deep Think 挑升版仍是 IMO 等海外競賽中奪下金牌。目下,全新升級后的 Deep Think 又在多項高難度的基準(zhǔn)測試中全面刷新 SOTA:
不使用任何器用,在 HLE 中獲取新 SOTA ——48.4%;
在 ARC-AGI-2 測試中獲取前所未有的84.6%的收獲,并經(jīng) ARC Prize 基金會考據(jù);
在 Codeforces 上獲取了驚東說念主的3455? Elo 分?jǐn)?shù);
在 2025 年海外數(shù)學(xué)奧林匹克競賽中達(dá)到金牌水平。

其中,ARC-AGI-2 被譽為 AI 界的"圖靈測試",旨在估量模子處理從未見過的新穎推理任務(wù)的才能。
要知說念,客歲 12 月剛發(fā)布的初代 Deep Think 得分照舊 45.1%,不到三個月時間仍是飆升到 84.6%,比 Opus 4.6 還要強出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 獲取了 96% 的收獲,平直頂?shù)教旎ò辶恕?/p>

性能普及的同期,推理資本也在大幅著落。初代 Deep Think 實行每項任務(wù)的資本為 77.16 好意思元。這次升級讓資本裁汰了 82%,金沙電玩城app下載每項任務(wù)僅需13.62 好意思元。

由于 1 和 2 都被 Gemini 刷爆了,目下 ARC Prize 仍是在構(gòu)建 ARC-AGI-3 了……
除了數(shù)學(xué)和編程,升級后的 Deep Think 在化學(xué)和物理等泛泛的科學(xué)邊界相似發(fā)達(dá)出色。
在 2025 年海外物理奧林匹克競賽和化學(xué)奧林匹克競賽中,Gemini 3 Deep Think 在筆試部分獲取了金牌級別的收獲。
{jz:field.toptypename/}此外,它還展現(xiàn)了在高等表面物理方面的才能,在 CMT-Benchmark 測試中獲取了 50.5% 的分?jǐn)?shù)。

華東說念主帶隊,打造最強推理模子
Gemini 3 Deep Think 的研發(fā)團(tuán)隊中,有不少華東說念主身影。
中樞成員包括 95 后華東說念主科學(xué)家Yi Tay,他在 Gemini 團(tuán)隊中從事強化學(xué)習(xí)和推理標(biāo)的的扣問使命。

此前,他曾在 Google Brain 共同指引早期大言語模子神志,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 使命 3 年多之后,2023 – 2024 年間,Yi Tay 曾旋即離開谷歌,動作王人集首創(chuàng)東說念主創(chuàng)辦了一家獨角獸 AI 初創(chuàng)公司—— Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的扣問東說念主員創(chuàng)立,其創(chuàng)辦初志是打造功能龐雜且高效的基礎(chǔ)模子,目下也開采界面聯(lián)想、應(yīng)用邏輯以至極他應(yīng)用方面的器用。
在創(chuàng)業(yè)一年半后,Yi Tay 便重返谷歌 DeepMind,擔(dān)任高檔資深扣問科學(xué)家,連續(xù)從事東說念主工智能和大言語模子的扣問。
客歲剛從 Anthropic 跳槽到谷歌 DeepMind 的清華學(xué)友姚順宇,也參與了 Deep think 新模子的開采。

姚順宇本科就讀于清華大學(xué)物理系,曾拿下過清華本科生非凡獎學(xué)金(清華授予在校優(yōu)秀本科生的最高獎學(xué)金榮譽)。
本科時間,他就已在《Physical Review Letters》(海外物理學(xué)邊界最頂級的學(xué)術(shù)期刊之一)發(fā)表高水平論文,初度在海外上給出了對于非厄米系統(tǒng)的拓?fù)淠軒П砻妫粌H準(zhǔn)確預(yù)計了有關(guān)征象,還界說了兩個新的物理成見。
本科畢業(yè)后,他赴斯坦福大學(xué)連續(xù)攻讀博士,專注于量子多體暗昧、綻開量子系統(tǒng)能源學(xué)等前沿問題,師從 Douglas Stanford(好意思國表面物理學(xué)家,被同業(yè)視為頂尖且有后勁編削物理學(xué)發(fā)展標(biāo)的的年青科學(xué)家之一)、Zhenbin Yang(楊振斌,華僑好意思國科學(xué)家,公認(rèn)的 20 世紀(jì)最貧乏的物理學(xué)家之一)等著明學(xué)者。
博士畢業(yè)后,他先是去 UC 伯克利作念博士后扣問,隨后加入了 Anthropic。在 Anthropic 使命的一年時間里,他參與組建了強化學(xué)習(xí)基礎(chǔ)團(tuán)隊,幽靜了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本強化學(xué)習(xí)表面。
離開 Anthropic 之后,姚順宇轉(zhuǎn)戰(zhàn)谷歌 DeepMind,連續(xù)從事 AI 方面的扣問。這次 Deep Think 新模子發(fā)布,亦然他在谷歌的首秀之作。
參考聯(lián)結(jié):
[ 1 ] https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
[ 2 ] https://x.com/ShunyuYao14/status/2022013770843967900
[ 3 ] https://x.com/YiTayML/status/2021988841142534287
[ 4 ] https://x.com/NoamShazeer/status/2021988459519652089
[ 5 ] https://x.com/PKUCXK/status/2022144532272623990
— ?寬容 AI 家具從業(yè)者共建 ?—
? ?「AI 家具學(xué)問庫」是量子位智庫基于恒久家具庫跟蹤和用戶行動數(shù)據(jù)推出的飛書學(xué)問庫,旨在成為 AI 行業(yè)從業(yè)者、投資者、扣問者的中樞信息要害與方案相沿平臺。
一鍵暖和 ? ? 點亮星標(biāo)
科技前沿進(jìn)展逐日見

備案號: