<pre id="t200d"><optgroup id="t200d"><tbody id="t200d"></tbody></optgroup></pre>
      1. 又一視頻生成模型刷屏!名副其實(shí)?

           Sora爆火后,谷歌重磅官宣Genie。

           據谷歌官網(wǎng),Genie擁有110億參數,能夠用一張圖片、草圖合成可操控的虛擬世界。

           Genie到底是什么?與Sora相比,兩者有何異同?世界模擬器又是什么?據此,第一財經(jīng)、藍鯨財經(jīng)進(jìn)行了相關(guān)報道。

           以下是報道全文。(請點(diǎn)擊查看原文)

           “Sora熱”未退,新一款視頻生成模型——Genie強勢來(lái)襲。

           2月26日,谷歌Deep Mind團隊發(fā)布基礎世界模型Genie,一個(gè)虛擬生成的可交互環(huán)境,110 億參數,通過(guò)給模型投喂視頻數據進(jìn)行訓練,生成照片、草圖甚至可以操控的虛擬世界。

           這意味著(zhù),僅靠一張圖片,Genie便能開(kāi)啟無(wú)限世界的大門(mén)。

           很多人表示:谷歌又來(lái)領(lǐng)導 AI 技術(shù)了。

           但,這只是 AI 技術(shù)的新突破嗎?事情真的這么簡(jiǎn)單嗎?

           1 Genie是什么?

        圖片來(lái)源:視覺(jué)中國

           據谷歌介紹,Genie是一個(gè)110億參數的基礎世界模型,能從互聯(lián)網(wǎng)視頻中學(xué)習顆粒度的控制,不僅能了解哪些部分是可控的,還能推斷出生成的環(huán)境中的潛在動(dòng)作。

           它由三部分組成:一個(gè)簡(jiǎn)單且可擴展的潛在動(dòng)作模型推斷每對幀之間的潛在動(dòng)作、一個(gè)視頻分詞器將原始視頻幀轉換為離散標志(token),以及一個(gè)動(dòng)態(tài)模型,在給定潛在動(dòng)作和過(guò)去幀token的情況下預測下一幀。

           根據藍鯨財經(jīng)記者觀(guān)察,這是指當給Genie提供不同的圖像(類(lèi)似不同版本的馬里奧通關(guān)環(huán)境)時(shí),圖像中的小人能在遇到障礙時(shí)表現出同樣的彈跳、躲避障礙的動(dòng)作,且符合物理規律,但這些視頻非?ㄍɑ。

           官網(wǎng)也表示:“我們專(zhuān)注于 2D 平臺游戲和機器人技術(shù)的視頻,但我們的方法是通用的,應該適用于任何類(lèi)型的領(lǐng)域,并且可以擴展到更大的互聯(lián)網(wǎng)數據集!

        Genie生成的視頻截圖。圖片來(lái)源:Google Genie官網(wǎng)

           在官網(wǎng)上,Genie也生成了模擬機器人動(dòng)作的視頻。Genie團隊訓練了一個(gè)較小的 2.5B 模型,與游戲平臺的情況一樣,具有相同潛在動(dòng)作序列的軌跡通常會(huì )表現出相似的行為。這表明 Genie 能夠學(xué)習符合一貫規律的動(dòng)作空間,可能適合訓練多面手智能體(機械臂)。Genie 還可以模擬可以變形的物體。

        Genie生成的機械臂視頻截圖。圖片來(lái)源:Google Genie官網(wǎng)

           2 Sora、Genie誰(shuí)更牛?

           與競爭對手OpenAI兩周前火遍全球的文生視頻模型Sora相同,Genie同樣是一個(gè)“物理世界模擬器”,能夠在虛擬世界中做物理世界的實(shí)驗。不同的是,Sora是直接從文字生成視頻,這更加“大力出奇跡”,且生成視頻長(cháng)度可達一分鐘;而Genie從目前官網(wǎng)披露的情況看,大部分情況下需要先用文生圖模型來(lái)生成起始幀圖片,再用Genie 生成視頻,且視頻在一兩秒左右,更像是動(dòng)圖。

           且與Sora呈現出來(lái)的高清晰度、高真實(shí)度相比,Genie似乎不那么強調畫(huà)面真實(shí)性,而是將重點(diǎn)放在潛在動(dòng)作預測上。生成高真實(shí)度的視頻并非目前Genie的著(zhù)力點(diǎn)。

           “Genie的獨特之處在于它能夠專(zhuān)門(mén)從互聯(lián)網(wǎng)視頻中學(xué)習細顆粒度的控制。這是一個(gè)挑戰,因為互聯(lián)網(wǎng)視頻通常不會(huì )標注其正在執行哪個(gè)動(dòng)作、應該控制圖像中的哪一部分。Genie不僅了解觀(guān)察的哪些部分是可控制的,而且能根據生成的環(huán)境來(lái)推測出多種潛在的動(dòng)作。請注意相同的潛在操作如何在不同的提示圖像下產(chǎn)生相似的行為!

           據了解,動(dòng)作可控是目前AI視頻的一個(gè)難點(diǎn),有創(chuàng )作者告訴第一財經(jīng)記者,PIKA等視頻生成工具多是做視差動(dòng)畫(huà),看上去動(dòng)了,但運動(dòng)合理性還有很大改進(jìn)空間,大幅度運動(dòng)、人物對話(huà)較難實(shí)現。一段長(cháng)視頻要具備劇情,還保持在同一個(gè)風(fēng)格里,AI很難做到,Sora通過(guò)多鏡頭巧妙地規避了這個(gè)問(wèn)題,但還不能確認解決了問(wèn)題。從這個(gè)角度看,AI理解物理世界并控制物體動(dòng)作是一個(gè)重要方向。

           3 Sora、Genie的本質(zhì)是什么?

           如果只把Sora、Genie當做生成視頻的影視工具,就大材小用了。

        Sora生成的一個(gè)視頻中,跑步機倒著(zhù)跑。圖片來(lái)源:OpenAI Sora官網(wǎng)

           Sora、Genie的本質(zhì)是“世界模擬器”,讓虛擬世界模仿現實(shí)物理世界的各種屬性(重力、摩擦力、動(dòng)能、光、聲、電、材料、生物等等),在虛擬世界中操控物體動(dòng)作,在仿真的物理條件下來(lái)做實(shí)驗。

           Sora此前發(fā)布視頻中的金毛犬、吹蠟燭的老太太、冰川上的猛犸象等,都是Sora通過(guò)視頻數據集來(lái)“理解”現實(shí)世界是如何構成的、有什么物理規律、人類(lèi)有怎樣的行為,來(lái)模擬生成的。所以,Sora自行理解提煉的模擬世界中的規律也可能不符合現實(shí)物理世界,比如老太太吹不滅蠟燭、人在跑步機上倒著(zhù)走、籃球直接穿籃而過(guò)等等。

           世界存在龐大的信息量,我們需要開(kāi)發(fā)出能夠分析并理解這些海量數據的模型和算法,生成模型是朝向這個(gè)目標邁進(jìn)的最有希望的方法之一。世界模型的一個(gè)好處或許在于,人類(lèi)可以把需要試錯的部分放在虛擬世界中進(jìn)行。

           在谷歌發(fā)布的Genie之前,有不少視頻生成模型在全球火爆。2023年12月底,Pika Labs推出Pika 1.0,生成視頻長(cháng)度在3秒左右,以單鏡頭為主。Runway視頻模型于2023年2月發(fā)布,支持最多18s視頻生成,鏡頭相對固定。2024年2月16日,全球明星AI創(chuàng )業(yè)公司OpenAI發(fā)布文生視頻模型Sora,有精細的畫(huà)質(zhì)、多鏡頭拍攝、多角度運鏡,對于真實(shí)人類(lèi)世界的模擬度極高。

         

        時(shí)間:2024-02-29 來(lái)源:中國記協(xié)網(wǎng)-“中國記協(xié)”微信公眾號
        作者:中國記協(xié) 編輯:劉卓文
        欧美性爱网,未满十八岁禁止入内,起碰免费公开97在线视频人妻