Stable Video Diffusion是Stability AI發(fā)布的視頻生成大模型,于2023年11月正式發(fā)布。
基于Stability AI原有的Stable Diffusion文生圖模型,Stable Video Diffusion可實(shí)現(xiàn)文生視頻。
Stable Video Diffusion能夠適應(yīng)各種下游任務(wù),包括多視圖合成,Stability AI計(jì)劃擴(kuò)展這個(gè)基礎(chǔ),建立各種模型。該模型以兩種形式發(fā)布,可以生成14和25幀的視頻,幀率可定制。
一、多階段訓(xùn)練策略
Stable Video Diffusion采用了多階段的訓(xùn)練策略,包括文本到圖像的預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練以及高質(zhì)量視頻微調(diào)。這種分階段的訓(xùn)練方法使得模型能夠逐步學(xué)習(xí)到從文本到圖像,再到視頻的復(fù)雜映射關(guān)系,提高了生成視頻的質(zhì)量和準(zhǔn)確性。
二、強(qiáng)大的基礎(chǔ)模型
該技術(shù)在訓(xùn)練過(guò)程中,借助精心準(zhǔn)備的大規(guī)模數(shù)據(jù)集和系統(tǒng)化的策劃流程,構(gòu)建了一個(gè)強(qiáng)大的基礎(chǔ)模型。這個(gè)基礎(chǔ)模型不僅為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征,還具備多視圖3D先驗(yàn)?zāi)芰Γ瑸樯啥鄠€(gè)視圖的對(duì)象提供基礎(chǔ)。
三、高效的數(shù)據(jù)處理和過(guò)濾策略
Stable Video Diffusion在數(shù)據(jù)處理方面采用了多種策略,包括使用密集光流來(lái)注釋數(shù)據(jù)集、應(yīng)用光學(xué)字符識(shí)別來(lái)清除包含大量文本的剪輯等。這些策略有效地提高了數(shù)據(jù)集的質(zhì)量,去除了可能對(duì)模型性能產(chǎn)生負(fù)面影響的示例。同時(shí),通過(guò)CLIP嵌入來(lái)注釋每個(gè)剪輯的關(guān)鍵幀,進(jìn)一步豐富了數(shù)據(jù)集的信息量。
四、靈活的應(yīng)用場(chǎng)景
由于Stable Video Diffusion提供了強(qiáng)大的多視圖3D先驗(yàn)和運(yùn)動(dòng)表征能力,它可以廣泛應(yīng)用于各種場(chǎng)景,包括文本到視頻的生成、圖像到視頻的生成以及對(duì)攝像機(jī)運(yùn)動(dòng)特定的適應(yīng)性等。此外,該模型還可以以前饋方式生成對(duì)象的多個(gè)視圖,具有較小的算力需求和優(yōu)于基于圖像方法的性能。
五、高質(zhì)量的生成效果
通過(guò)多階段的訓(xùn)練策略和精心準(zhǔn)備的數(shù)據(jù)集,Stable Video Diffusion能夠生成高質(zhì)量、動(dòng)作連貫且時(shí)間一致的視頻內(nèi)容。