新一輪生成AI技術(shù)更新。

谷歌更新生成式AI,推出視頻模型VEO 2和最新版Imagen3

2024-12-18 09:26:55發(fā)布     來源:多知    作者:Penny  

  多知12月18日消息,谷歌公告稱,發(fā)布了視頻生成模型 Veo 2,官方聲稱新模型可以更好地理解現(xiàn)實世界物理、人類運動及表達的細微差別,進一步提升整體細節(jié)和逼真度。

  谷歌 Veo 2 模型可以生成分辨率最高 4K(4096 x 2160 像素),時長為 2 分鐘的視頻片段,分辨率是 OpenAI 的 Sora 模型的 4 倍,時長是Sora 的 6 倍。

  不過目前在 Google 的實驗性視頻創(chuàng)建工具 VideoFX 中,Veo 2 模型分辨率上限為 720p,長度為 8 秒。

  DeepMind 產(chǎn)品副總裁 Eli Collins 表示:" 在接下來的幾個月里,我們將根據(jù)用戶的反饋繼續(xù)進行迭代。"

  與 Veo 一樣,Veo 2 可以在給定文本提示或文本和參考圖像的情況下生成視頻,還可以更真實地模擬運動、流體動力學和光的屬性。據(jù) DeepMind 稱,這包括不同的鏡頭和電影效果。

  谷歌表示,雖然視頻生成模型往往會生成不需要的細節(jié),例如多余的手指或物體等,但Veo 2在這一方面的表現(xiàn)更為真實,生成錯誤的頻率較低。

  Deepmind 表示,為了降低 Deepfake 的風險,利用專有的水印技術(shù) SynthID,它將隱形標記嵌入到 Veo 2 生成的幀中。

  谷歌還改進了Imagen 3圖像生成模型,現(xiàn)在該模型可以生成更明亮、構(gòu)圖更好的圖像。它現(xiàn)在可以更準確地渲染更多不同的藝術(shù)風格——從照片寫實主義到印象派,從抽象到動漫。此次升級還可以更忠實地遵循提示,并渲染更豐富的細節(jié)和紋理。

WechatIMG22.jpg

( Imagen 3生成的圖像 )

  最新的 Imagen 3 模型將在全球 100 多個國家/地區(qū)推出。

  此外,谷歌還推出了Whisk,這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。允許用戶輸入或創(chuàng)建能夠表達您心中主題、場景和風格的圖像。然后,您可以將它們組合在一起并重新混合,以創(chuàng)建屬于用戶自己的獨特物品,從數(shù)字毛絨玩具到琺瑯別針或貼紙。