首頁 > 關(guān)于我們 > 安恒動(dòng)態(tài) > 2024 > 正文

【安恒觀察】開年王炸“Sora”：炸在哪里？有何風(fēng)險(xiǎn)？

閱讀量：次 文章來源：安恒信息

安恒觀察

有政策解讀，有技術(shù)探討，有行業(yè)理解。

我們不僅關(guān)注“現(xiàn)在”，更著眼“未來”；

不僅傳遞觀點(diǎn)，更倡導(dǎo)實(shí)踐；

不僅瞄準(zhǔn)機(jī)遇，更描繪前行路徑；

不僅關(guān)注風(fēng)險(xiǎn)，更關(guān)心解決之策。

引領(lǐng)方向，服務(wù)市場

攜手筑牢安全屏障，為客戶保駕護(hù)航！

信息量大、細(xì)節(jié)生動(dòng)、場景逼真、鏡頭切換流暢自然......

近日，OpenAI發(fā)布了首個(gè)文生視頻模型Sora，可以用文字指令生成長達(dá)1分鐘的高清視頻。Sora重新定義了AI文生視頻在現(xiàn)階段的技術(shù)極限，給2024年開年后的AI生成世界扔了個(gè)“王炸”，在全社會(huì)引發(fā)熱議，媒體關(guān)注不斷。

在OpenAI官方出具的技術(shù)報(bào)告中，對Sora的定位為“作為世界模擬器的視頻生成模型”。近日，安恒信息CTO劉博，安恒研究院院長、高級副總裁王欣等多位技術(shù)專家接受媒體采訪，針對Sora是什么？國內(nèi)的Sora什么時(shí)候出現(xiàn)？大模型的實(shí)現(xiàn)技術(shù)邏輯是什么？可能的安全風(fēng)險(xiǎn)在哪里？等多個(gè)問題進(jìn)行了詳細(xì)解答與回復(fù)，系統(tǒng)闡述了Sora以及大模型技術(shù)帶來的里程碑式改變。

一、Sora是什么？炸在哪里？

簡單來說，Sora可以理解為具備視頻生成、視頻合成、圖片生成三大核心功能的世界模擬器。

它能夠理解用戶的文字提示，直接生成長達(dá)一分鐘不同尺寸的視頻，且這一分鐘的視頻并非單一場景，而是由多個(gè)鏡頭組成。且能夠確保多個(gè)鏡頭之間的人物、場景等整體3D效果與細(xì)節(jié)的一致性，并實(shí)現(xiàn)不同主題和場景組成的視頻之間的無縫過渡。

它的強(qiáng)項(xiàng)在于：

一、精準(zhǔn)理解

它能依據(jù)背后復(fù)雜的邏輯體系，僅通過文字精準(zhǔn)分析出你想要視頻是什么樣子。

二、貼近現(xiàn)實(shí)

它生成的圖或視頻包含復(fù)雜的多角度鏡頭和富有情感的多角色，但都很合理，也很貼合實(shí)際生活。比如視頻中看到的下雪、反光等復(fù)雜自然系統(tǒng)中的場景，符合現(xiàn)實(shí)邏輯。

三、細(xì)節(jié)真實(shí)

生成視頻背景細(xì)致入微，動(dòng)物的毛發(fā)都非常清晰，可以真正把你想表達(dá)東西具像化呈現(xiàn)，甚至比你想要的還更真實(shí)更炫酷。

二、技術(shù)上的難點(diǎn)在哪里？

主要的技術(shù)突破點(diǎn)在于生成式基礎(chǔ)——通用人工智能（AGI），采用游戲、無人駕駛和機(jī)器人領(lǐng)域驗(yàn)證的世界模型，構(gòu)建出的文生視頻模型，達(dá)到模擬世界的能力。它可以模擬生成圖片、一首詩或一首歌。但是，視頻遠(yuǎn)比圖片、文字要復(fù)雜。究其原因，視頻的邏輯性、連貫性、對細(xì)節(jié)的關(guān)注度非?？粗?。

文生視頻，需要依托大模型，對海量現(xiàn)有圖片和視頻數(shù)據(jù)進(jìn)行訓(xùn)練。只有充分了解背后的邏輯，才能生成更合理的邏輯。以GPT為例，它要生成一首七言絕句，就必須得見過足夠多的七言絕句樣本。

文生視頻的難度在于，視頻本身數(shù)據(jù)量大且非常復(fù)雜。大語言模型如果要捕捉到視頻數(shù)據(jù)的邏輯，會(huì)面臨巨大的挑戰(zhàn)。但是，Sora可以做到。它不僅能捕捉到視頻中的細(xì)節(jié)信息，也能涵蓋宏觀場景化信息，進(jìn)而生成非常合理、看上去都找不到破綻的視頻。

三、從生成圖到生成視頻，

其背后最大的突破就在哪？

一方面是對數(shù)據(jù)量的考驗(yàn)。一張1000×1000像素的圖片可以將圖片內(nèi)容表達(dá)得較為清晰。但是視頻的轉(zhuǎn)換邏輯不同。每一秒鐘都要處理幾十幀或者上百幀高清圖片，才能保證視頻的邏輯性和連貫性。以海洋生物騎自行車為例，要想顯得合理，動(dòng)物要長腳，還要穿鞋。類似這樣邏輯性、連貫性很強(qiáng)的視頻，要比圖片復(fù)雜100倍甚至1000倍。這種復(fù)雜度背后便是對模型算力的要求。

另一方面，Sora使用了Transformer架構(gòu)，建立在DALL·E 3和GPT模型之上。尤其是要生成長達(dá)1分鐘的有運(yùn)動(dòng)、多機(jī)位的視頻，需要穿梭表達(dá)這些信息，至少是10倍或者100倍復(fù)雜度的提升。

四、大模型可以實(shí)現(xiàn)文生視頻的

底層邏輯是什么？

無論是視頻、圖片還是語言，都是基于多種技術(shù)進(jìn)行編碼，進(jìn)而轉(zhuǎn)化成矢量矩陣，最終用數(shù)字來呈現(xiàn)。

我們可以稱其為跨媒體的轉(zhuǎn)換，例如語音轉(zhuǎn)換視頻、視頻轉(zhuǎn)換文字等。所以它的底層編碼過程是屏蔽不同媒體介質(zhì)差別的過程，最終將其變成統(tǒng)一的表達(dá)方式。

不管通過什么樣的方式，都可以通過transformer技術(shù)計(jì)算相似度、邏輯性。因此，無論是語言，還是文字、圖片、音頻還是視頻，對于大模型來講，底層表達(dá)邏輯區(qū)別并不大，區(qū)別主要在于計(jì)算的復(fù)雜度，以及如何構(gòu)造你的編碼和transformer技術(shù)，從而更好地表達(dá)所承載的介質(zhì)及其關(guān)系。

其底層模型，均為通用的大語言模型。即對于自然語言，甚至于計(jì)算技術(shù)承載的數(shù)字化介質(zhì)來說，都可以通過統(tǒng)一的數(shù)字矩陣方式進(jìn)行表達(dá)，抹掉差別，用統(tǒng)一的模型支撐不同的任務(wù)。

首先通過編碼，將文字變成數(shù)字化矩陣，然后依托該矩陣，從海量視頻數(shù)據(jù)中抓取匹配場景，再自動(dòng)化生成。視頻也是同理，需要通過編碼一幀幀生成。

值得一提的是，Sora在視頻內(nèi)容的合理性層面實(shí)現(xiàn)重大突破。例如，以前的AI視頻經(jīng)常會(huì)產(chǎn)生1個(gè)人有6個(gè)手指或某根手指突然間比其他手指要粗一點(diǎn)。因?yàn)槟承┐竽Ｐ秃茈y捕捉到如此細(xì)節(jié)的畫面，導(dǎo)致會(huì)出現(xiàn)“常識性錯(cuò)誤”。但Sora在很多細(xì)節(jié)上的處理不錯(cuò)。它的實(shí)現(xiàn)主要是human feedback，即通過人的反饋，再持續(xù)增強(qiáng)學(xué)習(xí)。

五、面對新技術(shù)，需要去注意什么？

面對一個(gè)未成熟的新技術(shù)，我們已經(jīng)看到它巨大的可能性和潛力。

首先，我們要擁抱它，大量使用它，研究原理，從而助力我們自身技術(shù)和產(chǎn)業(yè)的升級。

第二，隨著AI生成內(nèi)容的真實(shí)性越來越高，如何區(qū)分真實(shí)視頻和AI生成視頻，以及如何確保內(nèi)容的真實(shí)性和透明度，將成為社會(huì)需要共同面對的挑戰(zhàn)。

舉個(gè)例子，隨著文生視頻、文生文、文生圖操作的便捷化，自然而然就會(huì)產(chǎn)生造假等問題，比如未來虛假消息、虛假視頻、虛假圖片的真?zhèn)舞b別。比如詐騙文案、釣魚詐騙的鑒別，比如未來會(huì)不會(huì)利用虛假視頻、虛假消息等進(jìn)行輿論戰(zhàn)。

六、當(dāng)前階段，面對AI的高速發(fā)展，

作為企業(yè)有什么樣的呼吁？

第一，從當(dāng)前來看，國內(nèi)要大力發(fā)展自主可控的芯片，同時(shí)希望政府給予更多的算力支持。國家在政策、人才、基礎(chǔ)設(shè)施方面，對AI產(chǎn)業(yè)的投入還是比較大。全國各地在建立AI計(jì)算中心，以比較低廉的價(jià)格供應(yīng)給相關(guān)企業(yè)使用，讓我們都可以以較低的成本來使用AI的算力，國家針對AI算力的科研經(jīng)費(fèi)及產(chǎn)業(yè)的專項(xiàng)支撐，提供了較大的支持，對AI類型想擁抱AI企業(yè)來講，都是一個(gè)很好機(jī)遇。

第二，國家的監(jiān)管機(jī)構(gòu)，需要進(jìn)行全方位的有效監(jiān)管。例如利用技術(shù)手段識別哪些視頻的真實(shí)性。可以采取在人工生成視頻上打水印、加特殊標(biāo)簽等方式，確保視頻可以追溯，從而保護(hù)個(gè)人隱私，保護(hù)個(gè)人合法權(quán)利。

七、Sora的發(fā)布及近期大模型技術(shù)變革，

會(huì)如何影響技術(shù)發(fā)展的進(jìn)程？

與前三次工業(yè)革命類似，每一次工業(yè)革命并不是一個(gè)應(yīng)用上的突破，而是基礎(chǔ)能力上的突破，這會(huì)導(dǎo)致生產(chǎn)力提升，生產(chǎn)成本大幅下降。AI大模型技術(shù)有可能會(huì)成為第四次工業(yè)革命的重要驅(qū)動(dòng)。

我們看到，Sora在媒體領(lǐng)域具備很大潛力。當(dāng)然，它并非橫空出世或一枝獨(dú)秀。我們更應(yīng)該將其看成一個(gè)重要的里程碑。羅馬不是一天建成的，類似研究機(jī)構(gòu)和企業(yè)，其實(shí)都在逐步推進(jìn)相關(guān)技術(shù)和產(chǎn)品的進(jìn)步。我們每個(gè)人都可以抓住這樣的機(jī)遇，參與到偉大變革中。

八、安恒信息會(huì)如何應(yīng)對大模型變革

所伴隨的機(jī)遇和挑戰(zhàn)？

第一，從自身出發(fā)，很多員工已經(jīng)開始將AI作為工作助理，例如寫代碼、報(bào)告、PPT等，大幅提升工作效率。

第二，我們充分認(rèn)識到大模型技術(shù)對網(wǎng)絡(luò)安全技術(shù)的推動(dòng)力。

當(dāng)前，我們在做的數(shù)據(jù)安全、威脅檢測等，都可以通過大模型技術(shù)提升精準(zhǔn)度和可理解性?？蛻粼谑褂梦覀兊漠a(chǎn)品時(shí)，能夠大大降低使用成本，同時(shí)讓我們的產(chǎn)品變得可控。可以說，大模型技術(shù)能夠幫助我們的產(chǎn)品實(shí)現(xiàn)大的跨越。

并且，我們已經(jīng)推出了網(wǎng)絡(luò)安全垂直領(lǐng)域的大模型——恒腦，來解決更多的問題。這是我們的一個(gè)探索，未來該技術(shù)也會(huì)不斷地拓展其邊界，應(yīng)用到更多領(lǐng)域。

九、當(dāng)前階段，浙江乃至中國要做出

極具影響力的大模型，

我們重點(diǎn)應(yīng)該在哪些方面發(fā)力？

1、加快算力基礎(chǔ)設(shè)施建設(shè)。

大模型技術(shù)的發(fā)展基于海量的數(shù)據(jù)和再加海量的算力。所有信息需要通過大模型技術(shù)捕捉，對于算力的要求非常高。因此，要充分調(diào)動(dòng)資源，加快建設(shè)相關(guān)的算力基礎(chǔ)設(shè)施。

2、加快AI人才培養(yǎng)。

技術(shù)發(fā)展過程并非一帆風(fēng)順。當(dāng)前，我們對于大模型、算法有精準(zhǔn)了解的人才還是比較稀缺。針對于模型訓(xùn)練全生命周期可以做到全對全、端對端的全流程調(diào)優(yōu)的人才，也非常欠缺。因此，要加快在該領(lǐng)域人才的培養(yǎng)和引進(jìn)。

展望未來