Runway前脚刚发布Gen-3 Alpha,Google后脚就跟了个王炸。
北京时间6月18日凌晨,Google Deepmind发布了视频生成音频(Video-to-Audio,V2A)技术的进展,可以为视频创建戏剧性的背景音乐,逼真的音效,甚至是人物之间的对话。
V2A技术支持为AI生成视频“配乐”,Google还特别强调了官网发布的Demo视频都是由自家在五月份发布的生成视频模型“Veo”和V2A技术合作打造。
有不少网友表示,这下终于可以给用Luma生成的meme视频配上声音了!
从Google Deepmind官网发布的Blog上看,V2A技术会采用视频像素和文本提示来生成与底层视频同步的音频波形。
首先,V2A会对视频和文本提示进行编码,并通过扩散模型迭代运行,将随机噪声细化为与视频和所提供的文本提示相匹配的真实音频,最后再对音频进行解码并与视频数据相结合。
X网友纷纷表示太赞了,但就是有一个小小小小的问题,和同样是凌晨发布的Runway的视频生成模型Gen-3 Alpha一样,这
又是一个大家都用不上的超赞模型,到底啥时候开源让咱们试试水!