作者:劉宗智
在ChatGPT問世一年多后,OpenAI再度“進(jìn)化”,日前發(fā)布首個(gè)AI文字生成視頻模型Sora。使用者只需通過文字描述場景,Sora就能生成類似電影的逼真場景,涵蓋多個(gè)角色、不同類型動(dòng)作和背景細(xì)節(jié)等,最高能生成1分鐘左右的1080P高清視頻,引發(fā)業(yè)界極大的震撼。Sora的出現(xiàn)被看作“人工智能領(lǐng)域的一次重大突破”,顯著提高了AI文字生成視頻的能力上限,為今后的文明進(jìn)步帶來更多樣的可能性。Sora究竟是什么?未來將給影視行業(yè)帶來哪些變化與挑戰(zhàn)?
效果媲美“大片”
近日,由Sora生成的一段時(shí)長59秒的視頻,在社交網(wǎng)絡(luò)上廣為流傳。畫面中,一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人,漫步在東京街頭,鏡頭流暢地推到了她的臉部,可以清晰地看到她臉上的雀斑和皮膚紋理。這個(gè)一鏡到底的視頻不需要人來拍攝和剪輯,只要把一段文字描述輸入Sora后由AI直接生成。此外,OpenAI還公布了其他幾段視頻,幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近、一個(gè)毛茸茸的小怪物跪在融化的紅蠟燭旁邊……視頻質(zhì)量媲美“大片”,視覺效果也十分逼真。
除了生成的畫面高度接近現(xiàn)實(shí)物理世界,OpenAI介紹,Sora可以實(shí)現(xiàn)視頻中的主題始終保持一致,即使暫時(shí)離開視野也不會(huì)發(fā)生變化,并可以一次性生成多機(jī)位視頻,還可以依靠對語言的深入理解準(zhǔn)確地解釋提示詞,保留角色和視覺風(fēng)格。有網(wǎng)友感慨,“它將把視頻內(nèi)容帶入‘零基礎(chǔ)創(chuàng)作’時(shí)代”。
電影學(xué)者李超在接受齊魯晚報(bào)采訪時(shí),向記者展示了一段由AI提煉的相關(guān)背景介紹:Sora模型的核心是擴(kuò)散模型,它從“隨機(jī)噪聲”開始,經(jīng)過上百個(gè)細(xì)致的處理階段,最終演化成為一個(gè)連貫且生動(dòng)的視頻場景。此外,Sora還結(jié)合了語言理解和視覺生成技術(shù),能夠創(chuàng)建復(fù)雜的場景和角色。“Sora實(shí)際上是物理世界通用模擬器?!崩畛M(jìn)一步解釋說。
不少科技從業(yè)人員也從不同角度對Sora進(jìn)行點(diǎn)評。馬斯克在社交平臺上踴躍發(fā)言,“人類愿賭服輸”“人類借助AI之力將創(chuàng)造出卓越作品”;AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人克里斯托瓦爾·巴倫蘇埃拉感慨后浪拍前浪,以前需要花費(fèi)一年的進(jìn)展,變成了幾個(gè)月就能實(shí)現(xiàn),又變成了幾天、幾小時(shí);出門問問創(chuàng)始人李志飛在朋友圈感嘆:“LLM(大型語言模型)ChatGPT是虛擬思維世界的模擬器,以LLM為基礎(chǔ)的視頻生成模型Sora是物理世界的模擬器,物理和虛擬世界都被建模和模擬了,到底什么是現(xiàn)實(shí)?”
360創(chuàng)始人、董事長周鴻祎近日則公開表示,這意味著AGI(人工通用智能)實(shí)現(xiàn)將從10年縮短到1年。他預(yù)言Sora“可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆”,并且認(rèn)為OpenAI“手里的武器并沒有全拿出來”“AGI不是10年、20年的問題,可能一兩年很快就可以實(shí)現(xiàn)”。
Sora將會(huì)替代誰
Sora的出現(xiàn)也為影視行業(yè)的發(fā)展,帶來了更為廣闊的想象空間。有業(yè)內(nèi)人士認(rèn)為,未來一些不需要特別復(fù)雜情節(jié)的視頻,能夠借助Sora完成。Sora會(huì)像當(dāng)年的智能手機(jī)一樣,降低內(nèi)容創(chuàng)作者門檻,從而使內(nèi)容供給更加豐富。
在李超看來,以Sora為首的人工智能文字生成視頻模型,將會(huì)帶來三方面的變化。一是影視行業(yè)本身,二是拓展到社會(huì),三是將會(huì)給人類的科技文明帶來極大提升?!霸谟耙晞?chuàng)作中,但凡涉及想象類的,都需要構(gòu)建世界觀,比如里面的重力磁場、能量交換模式等。傳統(tǒng)模式下,需要依靠人類對物理世界規(guī)則的理解,而Sora已經(jīng)掌握了人類所有的知識,它會(huì)比人更具系統(tǒng)性和全面性。那么在此前提下,Sora模擬的場景在物理規(guī)則方面會(huì)更加完整。Sora作為物理世界的通用模擬器,今后很有可能會(huì)應(yīng)用于社會(huì)場景。在由人工智能構(gòu)建的虛擬世界中,我們會(huì)有完善的社會(huì)系統(tǒng)、社會(huì)身份、個(gè)人資產(chǎn),還會(huì)有能源交換行為和情感交換行為??萍紝用?,以往不便于研究的微觀和宏觀世界也可以在其中進(jìn)行模擬、實(shí)驗(yàn)。”
技術(shù)浪潮下的影視產(chǎn)業(yè),重塑與變革必然勢不可當(dāng)。不過,面對新事物的產(chǎn)生,人們不免喜憂參半。不少網(wǎng)友擔(dān)憂地表示,未來導(dǎo)演、攝像、化妝、道具、剪輯、配音等一大批從業(yè)人員或?qū)⑹I(yè)。對此,李超認(rèn)為,Sora將會(huì)代替大部分基礎(chǔ)性、重復(fù)性的工作,很可能會(huì)出現(xiàn)兩種分化,一種是擅長使用AI工具的人,一種是創(chuàng)新性人才,“越是創(chuàng)意維度高的工作,替代性越低”,視頻作品的創(chuàng)意性、故事性、藝術(shù)性,將在更加海量的作品競爭中標(biāo)準(zhǔn)越來越高。
最大短板是“靈韻”
1分鐘的視頻并不長,但對于AI文字生成視頻可以算是巨大飛躍。過去一年多,ChatGPT、Midjourney等現(xiàn)象級爆款應(yīng)用橫空出世,AI生成文字、生成圖片技術(shù)的飛速發(fā)展讓人興奮,相比之下,AI生成視頻領(lǐng)域雖有Runway、Pika、Meta、谷歌等多個(gè)明星公司入局,但因技術(shù)難度更大,發(fā)展仍處于早期,每次生成的視頻只能達(dá)到十多秒的時(shí)長。而Sora將視頻長度拉長到了60秒,這一突破意味著,由其生成的視頻信息承載力更強(qiáng),內(nèi)容更豐富,達(dá)到了很多短視頻平臺的內(nèi)容發(fā)布要求。Sora在細(xì)節(jié)處理、語言理解、視頻擴(kuò)展等方面的表現(xiàn)令人耳目一新,這也是它與其他AI生成視頻模型能夠拉開差距的重要原因。
Sora雖然能力驚人,但水平還不夠“封神”。OpenAI稱,它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系的具體實(shí)例。此外,該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。
短時(shí)期內(nèi)Sora或許存在一定的硬性技術(shù)問題,但當(dāng)這些問題被很好地解決以后,Sora就與藝術(shù)家們創(chuàng)作的影視作品完全相同了嗎?本雅明在《機(jī)械復(fù)制時(shí)代的藝術(shù)作品》一書中提出了“靈韻”的概念,在他看來,靈韻是事物為彰顯自身的獨(dú)特性而散發(fā)的一種微妙的氣質(zhì),藝術(shù)一方面宣稱自身的獨(dú)一無二,另一方面又與日常生活和普通事物保持一定的距離感。Sora能對影視場景進(jìn)行大眾化生產(chǎn),但與“真人創(chuàng)作的影視作品”相比,缺失了獨(dú)特性和距離感,這就導(dǎo)致了靈韻的消逝。
由此看來,即使技術(shù)升級的Sora能創(chuàng)作所謂的長篇影視作品,但這些作品和“真人創(chuàng)作的作品”最大的區(qū)別也是最后的區(qū)隔就在于靈韻的有無,Sora可以帶來絢麗的畫面、逼真的場景,可以“整合”經(jīng)典電影場景,但可能永遠(yuǎn)無法為我們帶來一個(gè)演員面對戲劇沖突時(shí)真人的“應(yīng)激”表演?!罢嫒恕眲?chuàng)造出的藝術(shù)作品是具有靈韻的,能讓我們無比期待,Sora能做到嗎?
編輯:李君超