AI声音克隆教程

AI百科5个月前更新 快创云
72 0

  大家好,最近 ChatGPT 和 Stable Diffusion 在文本、图像生成领域掀起热潮,但 AI 的生成能力远不止于此。在音频领域,也出现了许多令人瞩目的项目。我亲自使用自己的音频数据,训练了一个 AI 模型,并生成了几段歌曲,效果已在我的最新视频中展示,感兴趣的朋友不妨一看:

https://www.bilibili.com/video/BV1x24y147yq

  视频和教程的制作不易,恳请各位给予三连支持,哪怕是一个免费的赞也是莫大的鼓励。

勿用技术做恶

  首先,必须强调勿用 AI 技术从事诈骗等违法行为。请严格遵守《互联网信息服务深度合成管理规定》等相关法律法规。本教程仅供交流学习使用,同时,我不会提供任何已训练好的音频模型。

准备工作

  视频中使用的是 so-vits-svc 技术,它支持音频转音频和音色转换。由于项目不直接提供音频训练模型,因此想要体验必须自己训练模型。建议使用 NVIDIA 显卡且显存 8G 以上,我的显卡是 RTX 2060 S,训练模型大约耗时 14 个小时。训练数据非常关键,至少需要 1 个小时的音频数据,且数据质量越高效果越好。我的训练数据来自往期视频的音频,时长为 1 个小时。本教程以 Windows 系统为例。

  项目所需代码、环境和工具已打包,可一键运行:

  下载地址(网盘提取码:qi2p):

https://pan.baidu.com/s/1Jm-p_DZ2IVcNkkOYVULerg?pwd=qi2p

  当然,也可直接使用开源代码进行部署:

https://github.com/StarStringStudio/so-vits-svc

  请注意,本项目不支持文本转音频。如果需要文本转音频功能,请查看以下项目:

https://github.com/jaywalnut310/vits

数据准备与训练模型

  1. 准备干声数据:训练和预测的数据都必须是人物的干声(即不包含背景音、伴奏和合声)。需要使用 UVR5 等工具进行数据处理。提供的整合包中包含 UVR5 工具。在 Windows 下可直接使用 UVR5 分离人声和伴奏,再进一步去除合声。处理后的音频即可用于训练。由于音频较长容易爆显存,建议使用音频切分工具(整合包中也提供)将音频切片。将处理好的数据放入指定文件夹(如 jackcui_processed)。
  2. 模型训练:运行整合包中的“数据预处理.bat”脚本进行数据预处理。之后,运行“训练.bat”开始模型训练。可通过调整 batch_size 提高训练速度(配置文件位于 configs/config.json)。训练时间大约几个小时。

推理预测

  同理,新运行“训练聚类模型.bat”生成 pt 文件(几分钟即可)。然后修改 app.py 中的路径设置为你训练好的模型地址及配置文件路径,最后是生成的 pt 文件路径。确保 app.py 修改正确以避免后续错误。最后运行“推理预测.bat”文件,程序将启动一个 webui 界面,将 URL 复制到浏览器即可使用。该界面支持简单的音色转换操作。

  确认流程无误后,可尝试调整参数以优化效果(主要依赖于训练数据质量)。

最后提醒

  再次强调勿用技术做恶!我的训练数据较为单一且缺乏歌唱数据,因此生成效果在高低起伏上有所欠缺但已足够用于普通对话的音色转换。视频结尾展示的效果更为惊艳因为使用了更丰富的歌手数据。对于新关注我的朋友们简单介绍下:我是 90 后帝都算法工程师拥有 985 小硕学历热爱 coding 并拥有多年互联网大厂从业经验。Github 轻度用户中国区 top100 开源了多个大型项目和教程帮助了数以万计的读者。我的个人微信公众号会第一时间推送人工智能最新进展、技术教程等欢迎关注:想要加入 AI 声音克隆交流群的小伙伴请关注我的微信公众号并回复“AI声音克隆”即可加入与志同道合的朋友一起玩 vits。期待你在这里有所收获有所感触悄悄拔节惊艳所有~

© 版权声明

相关文章