国产在线视频精品视频,国产亚洲精品久久久久久青梅 ,国产麻豆精品一区,国产真实乱对白精彩久久,国产精品视频一区二区三区四

當前位置:聚焦>正文

環(huán)球熱點評!視頻生成模型 Zeroscope開源 免費無水印

2023-06-27 10:40:53    來源:站長之家    

站長之家(ChinaZ.com)6月26日 消息:據huggingface 頁面顯示,一款名為 Zeroscope_v2_576w 的視頻生成模型現已開源。

Zeroscope_v2_576w 基于 Modelscope 打造,是一個具有17億個參數的多級文本到視頻擴散模型。它根據文本描述生成視頻內容。并且提供更高的分辨率,沒有 Shutterstock 水印,并且寬高比更接近16:9。


(相關資料圖)

Zeroscope 具有兩個組件: Zeroscope_v2567w,專為以576x320像素的分辨率快速創(chuàng)建內容以探索視頻概念而設計。然后可以使用 Zeroscope_v2XL 將優(yōu)質視頻升級到1024x576的“高清”分辨率。

對于視頻生成,該模型需要7.9GB 的 VRam(分辨率為576x320像素、幀速率為每秒30幀)和15.3GB 的 VRam(分辨率為1024x576像素、幀速率為每秒)。因此,較小的型號應該可以在許多標準顯卡上運行。

Zeroscope 的訓練涉及將偏移噪聲應用于9,923個剪輯和29,769個標記幀,每個幀包含24幀。偏移噪聲可能涉及視頻幀內對象的隨機移動、幀時序的輕微變化或輕微的失真。

訓練期間引入的噪聲增強了模型對數據分布的理解。因此,該模型可以生成更多樣化的真實視頻,并更有效地解釋文本描述的變化。

根據擁有 Modelscope 經驗的 Zeroscope 開發(fā)者“Cerspense”的說法,用24GB VRam 微調模型并不“超級困難”。他在微調過程中刪除了 Modelscope 水印。

他將自己的模型描述為“旨在挑戰(zhàn) Gen-2”,即 Runway ML 提供的商業(yè)文本到視頻模型。根據 Cespense 的說法,Zerscope 完全免費供公眾使用。

目前,文本到視頻仍處于起步階段。人工智能生成的剪輯通常只有幾秒鐘長,并且存在許多視覺缺陷。然而,圖像人工智能模型最初面臨類似的問題,但在幾個月內就實現了照片級真實感。但與這些模型不同的是,視頻生成無論是訓練還是生成都需要消耗更多的資源。

谷歌已經推出了Phenaki 和 Imagen Video,這兩種文本到視頻模型能夠生成高分辨率、更長、邏輯連貫的剪輯,盡管它們尚未發(fā)布。Meta 的Make-a-Video(文本轉視頻模型)也尚未發(fā)布。

目前,只有Runway 的 Gen-2已商用,并且現已在 iPhone 上提供。Zeroscope 標志著第一個高質量開源模型的出現。

上一篇:無障礙環(huán)境建設法草案明確無障礙環(huán)境建設應當與適老化改造相結合 當前視點
下一篇:最后一頁