Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

AI百科3个月前发布 快创云
62 0

今天分享一个视频多语言AI配音的项目——Linly-Dubbing。该项目作者提供一键处理视频的功能,你只需要填入视频链接,就可以得到该视频翻译后并添加字幕的视频。

该项目的部署过程中确实遇到了一些问题,踩了很多坑。除了提供整合包之外,我还为那些打算自行部署的朋友们准备了部署过程中出现的问题的解决方案。

Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

Linly-Dubbing是一个智能视频多语言AI配音和翻译工具,该项目在YouDub-webui的基础上进行拓展和优化。

Linly-Dubbing 在多语言配音的自然性和准确性方面达到了新的高度,适用于国际教育、全球娱乐内容本地化等多种场景,帮助团队将优质内容传播到全球各地。

使用很简单,首先来到这里。

输入你想要处理的视频URL。

该项目视频下载使用的是项目,支持数千个网站下载,具体支持哪些网站可以点击下方链接进行查看。

὎;需注意的是下载国外的网站视频时需开启对应的网络环境。

https//github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md

然后分辨率这里根据你原视频选择,如果原视频没4K的,你选4K也没有用。或者保持默认也可以。

这里选择对应的人声分离模型,不同的模型处理的效率和质量也不一样。

这部分用来识别视频中的声音生成对应的文本。

ASR模型有两个选择:

WhisperX

WhisperX 是一个基于OpenAI开源项目Whisper的识别工具,具备单词级时间戳和说话者辨识功能,支持高效准确的转文本。

FunASR

FunASR 是由阿里巴巴集团的达摩院的一个端到端的识别工具包,旨在连接学术研究和工业应用。支持识别(ASR)、活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话识别等。

如果选择WhisperX的话需要选择模型大小。配置较低的话可以选择

如果你视频中只有一个人说话,取消勾选选项。如果是多个,则需要指定和。

设置翻译的方式和最后翻译的语言。

翻译方式有5种。默认是LLM(本地大模型进行翻译)。

OpenAI

使用gpt模型进行翻译。

使用该选项时需要到项目根目录下的文件设置

LLM

使用Qwen1.5-4B-Chat模型

Google Translate

谷翻译

Bing Translate

Bing翻译

ERNIE

ERNIE(Enhanced Representation through kNowledge IntEgration)是由百度提出的一系列预训练语言模型,旨在通过整合知识图谱等多源丰富知识来增强文本表示的效果。ERNIE模型在自然语言处理(NLP)领域取得了显著的成果,特别是在中文语料的处理上。

使用该选项时需要到项目根目录下的文件设置

὎;注意注意,坑来了!

如果你选择的是选项,可能会遇到这个问题:总结失败

这是由于该项目使用4B的模型,有时候这个大模型能力不足导致的。

怎么解决?

重新再点击生成,多尝试几次就可以。(亲测,刚开始我以为是我环境配置的问题,结果同样的设置,重新点击生成后又成功了)换个翻译方式,别死磕本地LLM,换个的,很稳定。如果你既没有openAI的网络环境,还想要稳定的话,直接选或。直接翻译完事。

目标语言选择你最后要翻译的结果语言。

将翻译好的文本内容合成对应的。

生成方法有三种:

xtts

XTTS(eXtended Text-to-Speech)是一个先进的文本转(TTS)模型,它能够通过一个简短的6秒音频剪辑克隆不同语言的。

CosyVoice

CosyVoice 是阿里巴巴通义实验室开源的多语言、多情感声音克隆模型,专注于自然生成,支持多语言、音色和情感控制。

EdgeTTS

微软 Microsoft Edge 的在线文本转服务

目标语言跟上面保持一致。如果你选择的是EdgeTTS,可以在选择对应的声音。

对最后输出的视频进行设置。根据自己的需要选择即可。

最后点击等待视频处理。

如果你只使用整合包可以直接忽略这部分,这部分是给想自己本地部署的小伙伴们一个参考。

Model has been downloaded but the SHA256 checksum does not not match. Please retry loading the model.

报错说模型SHA256 校验和不匹配。怀疑下载过程中文件损坏,重新下载了,还是报错。

解决方法

Windows

MAC

whisperx和Torch的BUG,目录下的文件删除。解决。

Library cublas64_12.dll is not found or cannot be loaded

安装的torch版本问题。

我之前安装的版本是

重新安装cuda12.1版本的torch就可以。

cosyvoice.utils.common.ras_sampling

使用cosyvoice遇到的问题。

cosyvoice模型的问题,这个是由于cosyvoice模型部分添加了一个采样器,但 GitHub 上开源的代码中没有包含该采样器。

解决方法

打开项目目录下的文件

屏蔽这段代码,解决。

unknown format 3

使用cosyvoice遇到的问题。

修改文件中的函数。

修改116行

生成的视频有水印问题。

修改文件

以上就是我部署过程中遇到的问题。希望可以帮到大家。

ὄ;Ἷ;ὄ;Ἷ;ὄ;Ἷ;下方下方下方ὄ;Ἷ;ὄ;Ἷ;ὄ;Ἷ;

关注公众,发送【LinlyDubbing】关键字获取整合包。

如果发了关键词没回复你!记得看下的时候是不是把空格给粘贴进去了!

Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

© 版权声明

相关文章