
文 | 全國模子工廠
Google可能要放大招了。
就在Google I/O 2026開幕前夜,兩條由Google尚未發(fā)布的新視頻模子Gemini Omni生成的視頻偷偷流出。
莫得任何官方預(yù)報,莫得任何發(fā)布會造勢,所有這個詞酬酢媒體都炸翻了。
一條視頻是一位磨真金不怕火站在黑板前,手持粉筆,一步步推導(dǎo)三角恒等式;
另一條是兩名男士坐在海邊高級餐廳,稱心地吃意大利面。
Reddit和X的接洽區(qū),威望洶洶的都是并吞句話:\"這不可能是現(xiàn)存的技巧水平。\"
兩個看似普通的日常場景,為什么讓見慣了AI生成實質(zhì)的技巧圈集體祛除?
令東談主戰(zhàn)栗的視頻
先說“磨真金不怕火黑板授課”視頻,生成它只用了一條prompt:
\"一位磨真金不怕火在傳統(tǒng)黑板上寫出三角恒等式的數(shù)學(xué)闡發(fā),同期用言語解釋他刻下正在推導(dǎo)的法度。\"
一條教導(dǎo),莫得多輪對話,莫得分法度限度。
出來的效果是,磨真金不怕火手持粉筆,遲緩寫下公式,同期啟齒素養(yǎng),畫面運(yùn)動,板書工致。

聽起來好像平平無奇。
但若是你了解刻下視頻生成模子的技巧規(guī)模在何處,就會顯著Gemini Omni同期作念到了三件事,而這三件事,以前從來不會同期出現(xiàn)。
第一,推理對了。
黑板上的闡發(fā)經(jīng)過在數(shù)學(xué)上是確立的,不是視覺上長得像公式的標(biāo)志堆砌,而是數(shù)學(xué)興致上確實有用的推導(dǎo)。
要作念到這極少,模子至少要在token量度以外,具備一定的標(biāo)志推理才調(diào)(symbolic reasoning)。
即知談下一步應(yīng)該出現(xiàn)什么公式,而不是當(dāng)場采樣一個看起來像數(shù)學(xué)的圖案。
語義準(zhǔn)確性重復(fù)在視覺生成之上,恰是大多半視頻模子會在這類測試中失敗的原因。
第二,空間連系對了。
評測者形容,粉筆書寫時的手部和手臂作為\"讀起來是天然的\",黑板上的方程式了了可辨。
手部,是AI視頻生成里公認(rèn)最容易穿幫的場地。
手指數(shù)目非常、樞紐誤解、與物體的空間連系失真,這是行業(yè)里險些每一代視頻模子都栽過的坑。
一支粉筆被正確持持,在黑板上留住挑升想的字跡,手腕的力談、落筆的角度,都在合理的鴻溝內(nèi)。
這一關(guān),比畫一只正常的手還要難,因為手在這里還要和黑板、粉筆、書寫行徑,變成完滿的空間邏輯。
第三,時序?qū)α恕?/p>
這是最被低估的一件事。
磨真金不怕火寫下某個推導(dǎo)法度的同期,理論素養(yǎng)的恰是這個法度,板書進(jìn)程與語音實質(zhì)保持同步。
這不僅僅音視頻的幀級對皆(frame-level alignment),而是視覺事件、語義事件、時辰事件三者之間的跨模態(tài)聯(lián)結(jié)。
任何一個維度的領(lǐng)略出現(xiàn)偏差,效果就會是\"手在寫A,嘴在講C\"。
這種錯位,東談主類不雅眾一眼就能感知到。
若是這三件事僅僅分離作念到,咱們不錯合計是三個專項模塊拼在通盤的效果。
但三者同期確立、互相聯(lián)結(jié),更可能是模子在某個表征層面上,照舊對\"磨真金不怕火在黑板上授課\"這件事變成了舉座性的語義領(lǐng)略。
換句話說,它知談這件事在執(zhí)行全國里是什么形勢,知談其中各個元素之間的經(jīng)管連系。
這亦然為什么\"全國模子\"這個詞,會在這條視頻流出后初始被頻頻說起。
在黑板視頻流出的同期,還有另一條視頻通盤曝光:兩名男士在海邊高級餐廳吃意大利面。
這個場景的接受,不是當(dāng)場的。
2024年,一段AI生成的\"Will Smith吃意大利面\"視頻在網(wǎng)上瘋傳。
畫面里的手指數(shù)目分歧,2026美加墨世界杯中國認(rèn)證平臺面條像活物一樣扭動,叉子和嘴的空間連系實足失控。
那段視頻成了早期AI視頻生成才調(diào)的羞恥柱。

圖為\"Will Smith吃意大利面\"視頻截圖
而這一次,Gemini Omni生成的效果,有用戶接洽是\"令東談主難以置信地確實\"。
這背后考驗的,是模子對剛體與柔性體之間動態(tài)交互的建模才調(diào):
叉子是硬的,面條是軟的,兩者在斗爭時會產(chǎn)生形變,而形變的理論必須合適執(zhí)行全國里的物理直觀。
這恰是早期生成模子在隱式物理模擬(implicit physics simulation)上的致命短板。
一個模子,在兩條視頻里,分離遭遇了視頻生成最難的兩類問題:
一類是標(biāo)志、語音與畫面的同步,另一類是東談主與物體、剛體與柔性體的交互,并把這些問題激動到一個更可用的景色。
Gemini Omni展示的,更像是一個對全國有著更深領(lǐng)略的基座模子。
OD體育(ODSports)官網(wǎng)入口Gemini Omni的沖擊
遣散咫尺,Google還莫得發(fā)布Gemini Omni的任何技巧文檔,也莫得公開任何模子參數(shù)或基準(zhǔn)測試數(shù)據(jù)。
但對于Gemini Omni的架構(gòu),咫尺外界存在三種解讀。
最保守的說法是,Omni僅僅Veo的品牌重定名,底層推理引擎莫得根底變化;
第二種說法是,Omni是在Gemini架構(gòu)下重新考研的全新視頻模子,與Veo并行但穩(wěn)重;
第三種說法最激進(jìn),合計Omni是一個確實興致上的原生多模態(tài)合資模子,在單一架構(gòu)里原生處理筆墨、圖像、視頻和音頻。
基于以上兩段視頻的發(fā)達(dá),第三種解讀反而像是\"Omni\"這個定名最合理的指向,畢竟在拉丁語中,\"omnis\"意味著所有這個詞。
若是Omni確實買通了多模態(tài)鏈路,模子競爭的焦點(diǎn)就會發(fā)生根人道的滾動。
不再是誰能拍出更像電影的畫面,而是誰是實質(zhì)創(chuàng)作家的獨(dú)一指標(biāo)地。
誠然當(dāng)今還弗成說Gemini Omni照舊是全國模子,但它至少闡發(fā),視頻生成正在靠晚全國模子要措置的問題:
如安在時辰中守護(hù)一個可解釋、可編著、可麇集推演的場景。
家具層面的沖擊一樣箝制淡薄。
今天一條AI視頻的坐褥鏈路,寬泛需要串聯(lián)言語模子寫劇本、圖像模子作念故事板、視頻模子作念動畫渲染、再加外部編著軟件作念后期處理。
每一次跨用具切換,都意味著信息損耗和格調(diào)漂移。
一朝Gemini Omni對話式視頻編著確立,這條鏈路就可能被一個對話窗口替代了。
更樞紐的是,若是Omni被放入Gemini進(jìn)口,并與Gmail、Google Docs、YouTube、Android深度買通,這是字節(jié)Seedance、快手Kling在分發(fā)層面根底無法復(fù)制的生態(tài)上風(fēng)。
技巧才調(diào)決定上限,生態(tài)決定例模。
Gemini Omni確實的威迫,大要不在于它今天生成的視頻有多好,而在于它把視頻生成才調(diào)放在了一個競爭敵手根底進(jìn)不去的場地,后者對前者險些組成降維打擊。
全國模子時刻大要駕臨
往日幾年,生成式AI的進(jìn)化旅途相對了了。
言語模子學(xué)會了讀和寫,圖像模子學(xué)會了看和畫,視頻模子學(xué)會了動。
每一個模態(tài)都在我方的賽談上快速迭代,但它們之間歷久存在一談隱形的墻。
模子知談筆墨,也知談圖像,但它不睬解筆墨和圖像之間、聲息和作為之間、邏輯和畫面之間的經(jīng)管連系。
若是說ChatGPT時刻界說了言語的規(guī)模,Sora時刻界說了視頻的規(guī)模,那Gemini Omni指向的,很可能是第一個確實興致上的\"全國模子時刻\"。
模子第一次初始領(lǐng)略,模態(tài)與模態(tài)之間在執(zhí)行全國里的經(jīng)管連系,而不僅僅分離生成它們。
這是一次質(zhì)的飛躍。
天然,Gemini Omni是否確實收尾了這極少,在5月19日Google I/O 2026大會之前,莫得東談主能給出詳情的謎底。
但泄涌現(xiàn)來的視頻,給出的信號照舊滿盈有勁。
接下來Google會在臺上說什么,咱們很快就會知談。