今天,我要分享一个名为Linly-Dubbing的项目,这是一个能够一键处理视频,实现多语言AI配音、视频翻译及字幕生成的工具。
在部署这个项目的初期,我确实遇到了一些挑战。因此,除了提供整合包外,我还为那些希望自行部署的朋友们准备了一份详尽的部署指南,其中包含了可能遇到的问题及其解决方案。

Linly-Dubbing不仅支持一键视频多语言AI配音,还能进行视频翻译、字幕生成、人声分离以及自动下载视频(适用于WIN/MAC)。
该项目基于YouDub-webui进行拓展和优化,在多语言配音的自然性和准确性方面取得了新的突破,广泛应用于国际教育、全球娱乐内容本地化等领域,助力团队将优质内容推向全球。

使用此工具非常简单,只需访问相关页面,输入你想要处理的视频URL即可。该项目支持从数千个网站下载视频,具体支持的网站列表请点击下方链接查看。需要注意的是,在下载国外网站的视频时,需确保网络环境配置正确。

接下来,根据你的原视频选择合适的分辨率,如果原视频没有4K,选择4K也无济于事。当然,你也可以保持默认设置。

随后,你需要选择对应的人声分离模型。不同的模型处理效率和质量会有所不同。


此部分功能用于识别视频中的声音并生成相应的文本。ASR模型有两个选择:WhisperX和FunASR。WhisperX基于OpenAI的开源项目Whisper,具备单词级时间戳和说话者辨识功能;而FunASR则是由阿里巴巴达摩院开发的端到端语音识别工具包。

如果选择WhisperX,还需要根据配置情况选择合适的模型大小。如果视频中只有一个说话者,可以取消勾选相关选项;如果有多个说话者,则需要指定和。


接下来是设置翻译方式和目标语言。翻译方式有五种可选:LLM(本地大模型翻译)、OpenAI(使用GPT模型翻译)、Google Translate(谷歌翻译)、Bing Translate(Bing翻译)以及ERNIE(百度提出的预训练语言模型)。

需要注意的是,如果你选择本地LLM翻译方式可能会遇到“总结失败”的问题。此时可以尝试多点击几次生成按钮,或者更换翻译方式。如果既没有OpenAI的网络环境又想保持稳定翻译效果,可以选择Google Translate或Bing Translate。

目标语言应与上面保持一致。将翻译好的文本内容合成对应的语音时,有三种语音生成方法可选:XTTS(eXtended Text-to-Speech)、CosyVoice和EdgeTTS。其中CosyVoice是阿里巴巴通义实验室开源的多语言、多情感声音克隆模型;EdgeTTS则是微软Microsoft Edge的在线文本转语音服务。

如果选择EdgeTTS还可以在对应的声音中选择合适的音色。最后对输出的视频进行设置并根据需要进行调整即可开始处理视频了!如果遇到任何部署或使用过程中遇到的问题可以参考文中提供的解决方案进行排查和修复以确保项目能够顺利运行并发挥最大效用!希望大家都能成功部署并使用好这个强大的工具!同时别忘了关注公众号并发送【LinlyDubbing】获取整合包哦!记得检查是否包含空格哦!制作不易如果本文对您有帮助还请点个免费的赞或在看感谢阅读!