當前位置：聚焦>正文

環(huán)球熱點評！視頻生成模型 Zeroscope開源免費無水印

2023-06-27 10:40:53 來源：站長之家

站長之家（ChinaZ.com）6月26日消息:據huggingface 頁面顯示，一款名為 Zeroscope_v2_576w 的視頻生成模型現已開源。

Zeroscope_v2_576w 基于 Modelscope 打造，是一個具有17億個參數的多級文本到視頻擴散模型。它根據文本描述生成視頻內容。并且提供更高的分辨率，沒有 Shutterstock 水印，并且寬高比更接近16:9。

(相關資料圖)

Zeroscope 具有兩個組件: Zeroscope_v2567w，專為以576x320像素的分辨率快速創(chuàng)建內容以探索視頻概念而設計。然后可以使用 Zeroscope_v2XL 將優(yōu)質視頻升級到1024x576的“高清”分辨率。

對于視頻生成，該模型需要7.9GB 的 VRam（分辨率為576x320像素、幀速率為每秒30幀）和15.3GB 的 VRam(分辨率為1024x576像素、幀速率為每秒)。因此，較小的型號應該可以在許多標準顯卡上運行。

Zeroscope 的訓練涉及將偏移噪聲應用于9，923個剪輯和29，769個標記幀，每個幀包含24幀。偏移噪聲可能涉及視頻幀內對象的隨機移動、幀時序的輕微變化或輕微的失真。

訓練期間引入的噪聲增強了模型對數據分布的理解。因此，該模型可以生成更多樣化的真實視頻，并更有效地解釋文本描述的變化。

根據擁有 Modelscope 經驗的 Zeroscope 開發(fā)者“Cerspense”的說法，用24GB VRam 微調模型并不“超級困難”。他在微調過程中刪除了 Modelscope 水印。

他將自己的模型描述為“旨在挑戰(zhàn) Gen-2”，即 Runway ML 提供的商業(yè)文本到視頻模型。根據 Cespense 的說法，Zerscope 完全免費供公眾使用。

目前，文本到視頻仍處于起步階段。人工智能生成的剪輯通常只有幾秒鐘長，并且存在許多視覺缺陷。然而，圖像人工智能模型最初面臨類似的問題，但在幾個月內就實現了照片級真實感。但與這些模型不同的是，視頻生成無論是訓練還是生成都需要消耗更多的資源。

谷歌已經推出了Phenaki 和 Imagen Video，這兩種文本到視頻模型能夠生成高分辨率、更長、邏輯連貫的剪輯，盡管它們尚未發(fā)布。Meta 的Make-a-Video（文本轉視頻模型）也尚未發(fā)布。

目前，只有Runway 的 Gen-2已商用，并且現已在 iPhone 上提供。Zeroscope 標志著第一個高質量開源模型的出現。

国产在线视频精品视频,国产亚洲精品久久久久久青梅 ,国产麻豆精品一区,国产真实乱对白精彩久久,国产精品视频一区二区三区四