1. 首页 > 科技前沿

Generating audio for video - DeepMind视频音频生成技术



DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景

- DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。  
- V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。  
- V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。  
- V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。  
- V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。  
- 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。  
- V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。  
- 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。  
- DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。  
- V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

网址:https://deepmind.google/discover/blog/generating-audio-for-video/

 

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.xansun.com/kjqy/245.html

联系我们

在线咨询:点击这里给我发消息

微信号: