{首页主词},&

文生視頻大模型Sora引爆網(wǎng)絡(luò)，此類模型創(chuàng)新背后有哪些專利布局？

作者：來(lái)源：中國(guó)知識(shí)產(chǎn)權(quán)報(bào)瀏覽次數(shù)：次發(fā)布時(shí)間：2024-02-29

日前，人工智能研究公司OpenAI繼一年前發(fā)布ChatGPT后，再次發(fā)布了文生視頻大模型Sora，引起人們的廣泛關(guān)注。該模型的出圈，也帶火了相關(guān)技術(shù)和產(chǎn)業(yè)的話題。有消息稱，國(guó)內(nèi)相關(guān)創(chuàng)新主體正在推出相關(guān)模型，該模型創(chuàng)新的背后有哪些專利布局？

　　文生視頻成為熱點(diǎn)

　　文生視頻是指根據(jù)描述文本生成與描述文本語(yǔ)義匹配且連貫的視頻，需要運(yùn)算模型結(jié)合文本信息捕獲視頻的時(shí)空運(yùn)動(dòng)模式，是一項(xiàng)極具挑戰(zhàn)性的跨模態(tài)轉(zhuǎn)換任務(wù)。

　　基于人工智能技術(shù)的文生視頻模型雖然是新興技術(shù)，但并非前無(wú)古人。《瞬息全宇宙》幕后的技術(shù)公司Runway于2023年6月發(fā)布了視頻編輯工具Gen-2，可以根據(jù)提示詞生成視頻。在2023年11月，Stability AI發(fā)布Stable Video Diffusion模型；Meta公司推出的Emu Video功能，可以根據(jù)純文本、純圖像或組合的文本和圖像輸入來(lái)生成視頻。谷歌公司于2023年12月30日發(fā)布了零鏡頭視頻生成模型VideoPoet，又于今年1月發(fā)布Lumiere，其采用先進(jìn)的空間時(shí)間U-Net架構(gòu)，實(shí)現(xiàn)一次性生成整個(gè)視頻。國(guó)內(nèi)大廠也不甘示弱，2024年1月，字節(jié)跳動(dòng)正式發(fā)布MagicVideo-V2文生視頻大模型；百度推出了能夠處理文本和圖像組合輸入的UniVG；騰訊發(fā)布了VideoCrafter2；阿里有自研的Animate Anyone。每一個(gè)產(chǎn)品的公布都會(huì)帶來(lái)業(yè)界的熱烈討論和股市的強(qiáng)烈反應(yīng)。

　　Sora緣何引爆網(wǎng)絡(luò)呢？我們只需輸入一段文字，Sora就能創(chuàng)建一個(gè)與真實(shí)世界接近的虛擬世界，并且時(shí)長(zhǎng)可達(dá)60秒。Sora還展示出AI對(duì)現(xiàn)實(shí)物理空間和物體間相互作用關(guān)系的想象。在幾段演示視頻中，潛水視頻中改進(jìn)的取景角度仍然可以使觀眾感受到真實(shí)的眩暈感，沖浪視頻中由靜態(tài)處理為動(dòng)態(tài)的波濤洶涌能夠產(chǎn)生裸眼3D的效果。

　　在Sora展示的新興仿真功能中，隨著攝像機(jī)角度的移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中始終如一地移動(dòng)，以簡(jiǎn)單的方式模擬影響世界狀態(tài)的動(dòng)作。這些性能可以成為數(shù)字孿生和虛擬現(xiàn)實(shí)技術(shù)的基礎(chǔ)。業(yè)界專家猜測(cè)，Sora還不具備對(duì)物理世界自然規(guī)律的全面理解，但其蘊(yùn)含的技術(shù)已在觀察學(xué)習(xí)現(xiàn)實(shí)世界、嘗試表現(xiàn)現(xiàn)實(shí)世界中踏出了一大步。

　　技術(shù)創(chuàng)新前景廣闊

　　從Sora的技術(shù)報(bào)告中可以看出，Sora采用時(shí)空Patch技術(shù)和DiT或擴(kuò)散型Transformer架構(gòu)。國(guó)內(nèi)業(yè)界表示，從技術(shù)上來(lái)看，目前，國(guó)內(nèi)的研究大部分也基于DiT架構(gòu)，試圖在技術(shù)浪潮中占有一席之地。

　　從專利來(lái)看，文生視頻領(lǐng)域的專利申請(qǐng)主要從2023年開始。2023年5月，騰訊提交一種視頻生成方法專利申請(qǐng)，利用視頻的隱式空間而非直接在原始視頻數(shù)據(jù)上建模去噪網(wǎng)絡(luò)，實(shí)現(xiàn)更加高效快速和更節(jié)省資源的模型計(jì)算，方案還探索了兩種應(yīng)用——VideoLoRA是個(gè)性化的視頻生成模型的微調(diào)，使得用戶也可以訓(xùn)練屬于他們的視頻生成模型；VideoControl是加入除了文本之外的條件到視頻生成模型中來(lái)，使得視頻生成的結(jié)構(gòu)信息也能夠由用戶控制，解決通用模型視頻生成過程人為控制度不高的問題。

　　2023年8月，百度提交一種基于人工智能的應(yīng)用于AIGC等場(chǎng)景的內(nèi)容生成方法專利申請(qǐng)，同月，其關(guān)聯(lián)公司度小滿科技（北京）有限公司提出一種文生視頻生成方法，該專利通過將視頻壓縮至頻譜隱空間中，在頻譜隱空間中將一個(gè)視頻內(nèi)容壓縮并解耦后的特征可以支持多個(gè)特征自由融合，所需的資源遠(yuǎn)小于原視頻空間，解決現(xiàn)有模型算力消耗大且生成視頻時(shí)長(zhǎng)受限的問題。

　　2023年11月，清華大學(xué)提交了一種定制化多主體文生視頻方法專利申請(qǐng)，解決現(xiàn)有的文生視頻方法只能生成對(duì)單一主體的定制化文本生成對(duì)應(yīng)的視頻，實(shí)現(xiàn)多個(gè)主體的定制化文本生成在同一畫面的視頻中。

　　阿里巴巴達(dá)摩院在視頻生成過程中同時(shí)獲取描述文本和參考圖像，將描述文本和參考圖像輸入包含圖像參考分支和視頻生成分支的雙分支的視頻生成模型，通過圖像參考分支提取參考圖像特征，通過視頻生成分支基于參考圖像特征和描述文本的文本特征，生成目標(biāo)視頻的序列幀，進(jìn)而生成目標(biāo)視頻，提升生成視頻的質(zhì)量。

　　2024年1月，上海巖芯數(shù)智發(fā)布國(guó)內(nèi)首個(gè)非Attention機(jī)制的通用自然語(yǔ)言大模型——Yan模型，采用全新自研的“Yan架構(gòu)”代替Transformer架構(gòu)，達(dá)到計(jì)算量更小、難度更低的線性計(jì)算，提高了建模效率和訓(xùn)練速度，效率翻倍的同時(shí)實(shí)現(xiàn)了成本的降低。

　　文生視頻的應(yīng)用場(chǎng)景廣闊。鑒于現(xiàn)有文生視頻模型的缺陷，通用模型的定制化、小型化，特定文化背景下文本含義的理解，現(xiàn)有模型架構(gòu)的重構(gòu)等均為備受關(guān)注的研發(fā)方向。