【安恒觀察】開年王炸“Sora”:炸在哪里?有何風(fēng)險(xiǎn)?
安恒觀察
有政策解讀,有技術(shù)探討,有行業(yè)理解。
我們不僅關(guān)注“現(xiàn)在”,更著眼“未來”;
不僅傳遞觀點(diǎn),更倡導(dǎo)實(shí)踐;
不僅瞄準(zhǔn)機(jī)遇,更描繪前行路徑;
不僅關(guān)注風(fēng)險(xiǎn),更關(guān)心解決之策。
引領(lǐng)方向,服務(wù)市場
攜手筑牢安全屏障,為客戶保駕護(hù)航!
信息量大、細(xì)節(jié)生動(dòng)、場景逼真、鏡頭切換流暢自然......
近日,OpenAI發(fā)布了首個(gè)文生視頻模型Sora,可以用文字指令生成長達(dá)1分鐘的高清視頻。Sora重新定義了AI文生視頻在現(xiàn)階段的技術(shù)極限,給2024年開年后的AI生成世界扔了個(gè)“王炸”,在全社會(huì)引發(fā)熱議,媒體關(guān)注不斷。
在OpenAI官方出具的技術(shù)報(bào)告中,對Sora的定位為“作為世界模擬器的視頻生成模型”。近日,安恒信息CTO劉博,安恒研究院院長、高級副總裁王欣等多位技術(shù)專家接受媒體采訪,針對Sora是什么?國內(nèi)的Sora什么時(shí)候出現(xiàn)?大模型的實(shí)現(xiàn)技術(shù)邏輯是什么?可能的安全風(fēng)險(xiǎn)在哪里?等多個(gè)問題進(jìn)行了詳細(xì)解答與回復(fù),系統(tǒng)闡述了Sora以及大模型技術(shù)帶來的里程碑式改變。

一、Sora是什么?炸在哪里?
簡單來說,Sora可以理解為具備視頻生成、視頻合成、圖片生成三大核心功能的世界模擬器。
它能夠理解用戶的文字提示,直接生成長達(dá)一分鐘不同尺寸的視頻,且這一分鐘的視頻并非單一場景,而是由多個(gè)鏡頭組成。且能夠確保多個(gè)鏡頭之間的人物、場景等整體3D效果與細(xì)節(jié)的一致性,并實(shí)現(xiàn)不同主題和場景組成的視頻之間的無縫過渡。
它的強(qiáng)項(xiàng)在于:
一、精準(zhǔn)理解
它能依據(jù)背后復(fù)雜的邏輯體系,僅通過文字精準(zhǔn)分析出你想要視頻是什么樣子。
二、貼近現(xiàn)實(shí)
它生成的圖或視頻包含復(fù)雜的多角度鏡頭和富有情感的多角色,但都很合理,也很貼合實(shí)際生活。比如視頻中看到的下雪、反光等復(fù)雜自然系統(tǒng)中的場景,符合現(xiàn)實(shí)邏輯。
三、細(xì)節(jié)真實(shí)
生成視頻背景細(xì)致入微,動(dòng)物的毛發(fā)都非常清晰,可以真正把你想表達(dá)東西具像化呈現(xiàn),甚至比你想要的還更真實(shí)更炫酷。

二、技術(shù)上的難點(diǎn)在哪里?
主要的技術(shù)突破點(diǎn)在于生成式基礎(chǔ)——通用人工智能(AGI),采用游戲、無人駕駛和機(jī)器人領(lǐng)域驗(yàn)證的世界模型,構(gòu)建出的文生視頻模型,達(dá)到模擬世界的能力。它可以模擬生成圖片、一首詩或一首歌。但是,視頻遠(yuǎn)比圖片、文字要復(fù)雜。究其原因,視頻的邏輯性、連貫性、對細(xì)節(jié)的關(guān)注度非??粗?。
文生視頻,需要依托大模型,對海量現(xiàn)有圖片和視頻數(shù)據(jù)進(jìn)行訓(xùn)練。只有充分了解背后的邏輯,才能生成更合理的邏輯。以GPT為例,它要生成一首七言絕句,就必須得見過足夠多的七言絕句樣本。
文生視頻的難度在于,視頻本身數(shù)據(jù)量大且非常復(fù)雜。大語言模型如果要捕捉到視頻數(shù)據(jù)的邏輯,會(huì)面臨巨大的挑戰(zhàn)。但是,Sora可以做到。它不僅能捕捉到視頻中的細(xì)節(jié)信息,也能涵蓋宏觀場景化信息,進(jìn)而生成非常合理、看上去都找不到破綻的視頻。

三、從生成圖到生成視頻,
其背后最大的突破就在哪?
一方面是對數(shù)據(jù)量的考驗(yàn)。一張1000×1000像素的圖片可以將圖片內(nèi)容表達(dá)得較為清晰。但是視頻的轉(zhuǎn)換邏輯不同。每一秒鐘都要處理幾十幀或者上百幀高清圖片,才能保證視頻的邏輯性和連貫性。以海洋生物騎自行車為例,要想顯得合理,動(dòng)物要長腳,還要穿鞋。類似這樣邏輯性、連貫性很強(qiáng)的視頻,要比圖片復(fù)雜100倍甚至1000倍。這種復(fù)雜度背后便是對模型算力的要求。
另一方面,Sora使用了Transformer架構(gòu),建立在DALL·E 3和GPT模型之上。尤其是要生成長達(dá)1分鐘的有運(yùn)動(dòng)、多機(jī)位的視頻,需要穿梭表達(dá)這些信息,至少是10倍或者100倍復(fù)雜度的提升。

四、大模型可以實(shí)現(xiàn)文生視頻的
底層邏輯是什么?
無論是視頻、圖片還是語言,都是基于多種技術(shù)進(jìn)行編碼,進(jìn)而轉(zhuǎn)化成矢量矩陣,最終用數(shù)字來呈現(xiàn)。
我們可以稱其為跨媒體的轉(zhuǎn)換,例如語音轉(zhuǎn)換視頻、視頻轉(zhuǎn)換文字等。所以它的底層編碼過程是屏蔽不同媒體介質(zhì)差別的過程,最終將其變成統(tǒng)一的表達(dá)方式。
不管通過什么樣的方式,都可以通過transformer技術(shù)計(jì)算相似度、邏輯性。因此,無論是語言,還是文字、圖片、音頻還是視頻,對于大模型來講,底層表達(dá)邏輯區(qū)別并不大,區(qū)別主要在于計(jì)算的復(fù)雜度,以及如何構(gòu)造你的編碼和transformer技術(shù),從而更好地表達(dá)所承載的介質(zhì)及其關(guān)系。
其底層模型,均為通用的大語言模型。即對于自然語言,甚至于計(jì)算技術(shù)承載的數(shù)字化介質(zhì)來說,都可以通過統(tǒng)一的數(shù)字矩陣方式進(jìn)行表達(dá),抹掉差別,用統(tǒng)一的模型支撐不同的任務(wù)。
首先通過編碼,將文字變成數(shù)字化矩陣,然后依托該矩陣,從海量視頻數(shù)據(jù)中抓取匹配場景,再自動(dòng)化生成。視頻也是同理,需要通過編碼一幀幀生成。
值得一提的是,Sora在視頻內(nèi)容的合理性層面實(shí)現(xiàn)重大突破。例如,以前的AI視頻經(jīng)常會(huì)產(chǎn)生1個(gè)人有6個(gè)手指或某根手指突然間比其他手指要粗一點(diǎn)。因?yàn)槟承┐竽P秃茈y捕捉到如此細(xì)節(jié)的畫面,導(dǎo)致會(huì)出現(xiàn)“常識性錯(cuò)誤”。但Sora在很多細(xì)節(jié)上的處理不錯(cuò)。它的實(shí)現(xiàn)主要是human feedback,即通過人的反饋,再持續(xù)增強(qiáng)學(xué)習(xí)。

五、面對新技術(shù),需要去注意什么?
面對一個(gè)未成熟的新技術(shù),我們已經(jīng)看到它巨大的可能性和潛力。
首先,我們要擁抱它,大量使用它,研究原理,從而助力我們自身技術(shù)和產(chǎn)業(yè)的升級。
第二,隨著AI生成內(nèi)容的真實(shí)性越來越高,如何區(qū)分真實(shí)視頻和AI生成視頻,以及如何確保內(nèi)容的真實(shí)性和透明度,將成為社會(huì)需要共同面對的挑戰(zhàn)。
舉個(gè)例子,隨著文生視頻、文生文、文生圖操作的便捷化,自然而然就會(huì)產(chǎn)生造假等問題,比如未來虛假消息、虛假視頻、虛假圖片的真?zhèn)舞b別。比如詐騙文案、釣魚詐騙的鑒別,比如未來會(huì)不會(huì)利用虛假視頻、虛假消息等進(jìn)行輿論戰(zhàn)。

六、當(dāng)前階段,面對AI的高速發(fā)展,
作為企業(yè)有什么樣的呼吁?
第一,從當(dāng)前來看,國內(nèi)要大力發(fā)展自主可控的芯片,同時(shí)希望政府給予更多的算力支持。國家在政策、人才、基礎(chǔ)設(shè)施方面,對AI產(chǎn)業(yè)的投入還是比較大。全國各地在建立AI計(jì)算中心,以比較低廉的價(jià)格供應(yīng)給相關(guān)企業(yè)使用,讓我們都可以以較低的成本來使用AI的算力,國家針對AI算力的科研經(jīng)費(fèi)及產(chǎn)業(yè)的專項(xiàng)支撐,提供了較大的支持,對AI類型想擁抱AI企業(yè)來講,都是一個(gè)很好機(jī)遇。
第二,國家的監(jiān)管機(jī)構(gòu),需要進(jìn)行全方位的有效監(jiān)管。例如利用技術(shù)手段識別哪些視頻的真實(shí)性。可以采取在人工生成視頻上打水印、加特殊標(biāo)簽等方式,確保視頻可以追溯,從而保護(hù)個(gè)人隱私,保護(hù)個(gè)人合法權(quán)利。

七、Sora的發(fā)布及近期大模型技術(shù)變革,
會(huì)如何影響技術(shù)發(fā)展的進(jìn)程?
與前三次工業(yè)革命類似,每一次工業(yè)革命并不是一個(gè)應(yīng)用上的突破,而是基礎(chǔ)能力上的突破,這會(huì)導(dǎo)致生產(chǎn)力提升,生產(chǎn)成本大幅下降。AI大模型技術(shù)有可能會(huì)成為第四次工業(yè)革命的重要驅(qū)動(dòng)。
我們看到,Sora在媒體領(lǐng)域具備很大潛力。當(dāng)然,它并非橫空出世或一枝獨(dú)秀。我們更應(yīng)該將其看成一個(gè)重要的里程碑。羅馬不是一天建成的,類似研究機(jī)構(gòu)和企業(yè),其實(shí)都在逐步推進(jìn)相關(guān)技術(shù)和產(chǎn)品的進(jìn)步。我們每個(gè)人都可以抓住這樣的機(jī)遇,參與到偉大變革中。

八、安恒信息會(huì)如何應(yīng)對大模型變革
所伴隨的機(jī)遇和挑戰(zhàn)?
第一,從自身出發(fā),很多員工已經(jīng)開始將AI作為工作助理,例如寫代碼、報(bào)告、PPT等,大幅提升工作效率。
第二,我們充分認(rèn)識到大模型技術(shù)對網(wǎng)絡(luò)安全技術(shù)的推動(dòng)力。
當(dāng)前,我們在做的數(shù)據(jù)安全、威脅檢測等,都可以通過大模型技術(shù)提升精準(zhǔn)度和可理解性??蛻粼谑褂梦覀兊漠a(chǎn)品時(shí),能夠大大降低使用成本,同時(shí)讓我們的產(chǎn)品變得可控。可以說,大模型技術(shù)能夠幫助我們的產(chǎn)品實(shí)現(xiàn)大的跨越。
并且,我們已經(jīng)推出了網(wǎng)絡(luò)安全垂直領(lǐng)域的大模型——恒腦,來解決更多的問題。這是我們的一個(gè)探索,未來該技術(shù)也會(huì)不斷地拓展其邊界,應(yīng)用到更多領(lǐng)域。

九、當(dāng)前階段,浙江乃至中國要做出
極具影響力的大模型,
我們重點(diǎn)應(yīng)該在哪些方面發(fā)力?
1、加快算力基礎(chǔ)設(shè)施建設(shè)。
大模型技術(shù)的發(fā)展基于海量的數(shù)據(jù)和再加海量的算力。所有信息需要通過大模型技術(shù)捕捉,對于算力的要求非常高。因此,要充分調(diào)動(dòng)資源,加快建設(shè)相關(guān)的算力基礎(chǔ)設(shè)施。
2、加快AI人才培養(yǎng)。
技術(shù)發(fā)展過程并非一帆風(fēng)順。當(dāng)前,我們對于大模型、算法有精準(zhǔn)了解的人才還是比較稀缺。針對于模型訓(xùn)練全生命周期可以做到全對全、端對端的全流程調(diào)優(yōu)的人才,也非常欠缺。因此,要加快在該領(lǐng)域人才的培養(yǎng)和引進(jìn)。
展望未來

經(jīng)過前期發(fā)展,我國在AI領(lǐng)域積累了大量人才。國外頂級研究團(tuán)隊(duì)中不乏華人身影。所以我們具備很好的人才基礎(chǔ)。
通過算力技術(shù)的進(jìn)步,相信我們能在不久的將來就會(huì)迎頭趕上世界頂尖水平。在以AI大大模型為驅(qū)動(dòng)的第四次工業(yè)革命中,中國完全有機(jī)會(huì)走在世界前列,成為最主要的“頭部玩家”。
讓我們擁抱AI,乘風(fēng)而起,扶搖直上。
往期精彩回顧


