一个无聊的坏东西

随便写点什么,证明我来过

【.CONFIG】sovits4.0长期折腾记录

作为一个长期更新的帖子,作为系列开端会长期更新(有空有精力就写)一些关于这些开源项目的折腾和实验过程,以上。

两个帖子一起食用。这算本帖的前置贴,本帖更多作为链接内容的详细补充和个人实验结果。
https://www.yuque.com/umoubuton/ueupp5/zmxisze10hlfidsk#TdWX2

关于sovit训练步数

sovit其实最重要的不是训练走了多少步,实际上step在15600和18400以及21600左右通常会出效果很不错的模型。但是这三个步数是基于足够清晰且无底噪的游戏内解包语音音频来训练的,基本相当于是能使用的质量最高的音频,如果质量低于这种模式,通常情况下还是要优先提升raw cut的质量,然后在尝试添加扩散模型并且增加训练步数。

RAW CUT,音频的提取与降噪

如上文所写的,raw cut质量>训练步数>扩散模型底模,通常情况使用Ultimate Vocal Remover来进行降噪以及vocal的提取。这个软件也是目前最强的开源ai模型,闭源就不做研究了。

这里只记录N卡项目的更新地址,更多显卡去github扒库。https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe

具体设置方法看以下链接文章,基本是中文互联网最详细了,版本写的是5.6.0(23年11月)
https://www.bilibili.com/read/cv27499700/

省流重点就是MDX23C模型提取vocal(默认设置) / 5HP karaoke去除和声(最激进是5,次要6,44100也不错。最小windows,aggression 5左右常用,按需调整) / DEEcho去除混响(dereverb最激进,aggressive重度,normal一般)

23.12.25 23:51更新。mbp键盘真难用,输入法也屎。

实际上效果不会变得尤其理想或者是怎么样,实测下来MDX23C的粗分离效果已经很不错了,但是实际上想要声音真的比较干净的话还是需要进软件细调,不然分离出来的vocal还是比较容易出现电音,怪声,或者是其他很奇怪的声音,这会直接导致推理出来的声音出现这些瑕疵。能拿到人声轨当然是最好的了,但是实际上99的资源都是不会有分轨给你的,所以更多的还是需要自行去尝试分离vocal和伴奏。目前开源软件也只有UVR而已了,闭源的按理种类是不少的,但是目前国内最实用的应该就是火山引擎的功能了,调用云端的算力以及模型来进行分离,本体主要为api模式,这样的话还是相对而言是比较稳定且方便的,不止一篇文章中提到火山引擎质量很好,目前暂时还没有时间去进行测试。有机会会去试一下,但是实际上更多的还是使用UVR加软件来进行提取与降噪。

脑袋完全不清楚的情况写的乱七八糟的,草,更新时间应该是23.12.27 11:?? ,没注意时间,那个时候困个半死。(27号醒了补充)

目前更多来说还是想试一下找一点质量高点的干声什么的用来做基准文件测试或者自己手搓点高质量的干声。说实话按照我现在的要求来看UVR MDX23C 直出效果还是比较模糊的,简单来说就是像隔壁SD的text2img 一样。prompt可能本身来说是很清楚的,但是实际上出的图的效果还是模棱两可的,绝大多数细节都是很模糊的,仔细一看一股浓浓的AI味,mdx出来的效果也是这样的,跑不脱的电音,模糊,高唱功要求的干声质量出出来是真的不好。可能按照目前这个模型的水平,又或者按照现在开源的现状,只能对一些口水歌起到很好的提取效果。其实更多的还是越实验越能感觉到原始作者的不可替代性,技巧越高超,越难以学习都是越难以替代的。

此类技巧对人类如此,对机器学习更是如此,我深刻地认为其中最重的还是感情这种东西,共情这种能力以目前来看依旧是壁垒,人类依旧没有能够成功研究明白自身,我想在这之前机器学习终归还是难以取代“艺术”这样东西的。

目前侧重的点依旧还应该是:1)AI是否能够有效降低这些需要大量时间经验研究学习实验的领域的门槛(only focus on ART) 2)此类技术的运行原理,进行一定数量的测试与实验。3)在抛开版权人权等棘手问题之后,这些技术是否能够帮助我改善并且提升我的工作流质量与效率。

嘛反正也无所谓其他什么东西的,花了不少成本,总归一定要学到点什么,带来点什么思考,依旧是只有不断吸纳学习新的技术不断思考才有可能不断进步精进的。

停下思考,大脑就会变得平滑。就会一点点开始变得麻木啊。

23.12.27 21:27 睡回笼觉之前写的,啧,写完之后再看看觉得真他妈矫情哈哈哈。该咋咋,这类技术必须要盯紧了,不扯远的,不然以后不留神挨骗了都不晓得,现在ai感在被逐渐削弱,越来越真,懂得越多越不容易中招,但是切记半吊子。

模型训练

推理

其实这段才应该是最长的,声音类型最基本的是要区分声音的度数的,不光是男声或者是女声,中间还分女高女低女中男高男低男中这样子。度数高的模型在推理的时候通常来说的不需要变调的. E.X. 推理出来的佳代子模型和爱丽丝模型。佳代子的游戏内语音都是情感比较平和,度数不高,爱丽丝就相反。实际上这也体现在了推理出来的结果里面,使用crpe 具体记不清楚叫啥了,大电脑没开之后不上加0的f0预测调整,同一首歌佳代子哑音严重,因为整体调子会比较高,需要放弃使用f0预测调整使用变调功能提高8个数值左右才能相对正常地唱完,但是期间究极多的鬼叫和电。爱丽丝整体度数比较高就直接不用变调直接使用最高准度的f0预测即可,虽然依旧有哑音以及鬼叫和电,但是我认为是我仅仅粗略使用MDX23C直接提取vocal的问题,vocal直接听也是不少鬼叫加电的。有空一定要用一版达到我要求的最高质量的vocal来测试。目前还没有基准文件导致我目前判断模型训练质量的标准还是比较模糊的,而且听多了难免会逐渐“习惯”这种声音影响我的判断。之后有空要赶紧把这个提上日程。

23.12.27 21:44更新

sovit模型文件路径: sovit根目录/logs/44k。这个用得最多 保留G模型即可

这里再写一下具体模型的后缀名:
模型:.pth //// logs/44k //// 独立目录位置 models
模型配置文件:.json //// configs //// models
扩散模型:.pt //// logs/44k/diffusion //// models/diffusion
扩散config: .yaml //// configs //// models
kmeans聚类模型: .pt //// logs/4k //// models
特征索引模型:.pkl //// 同上 //// models

独立目录模式需要在webui里面启用
独立目录模式需要在webui里面启用
独立目录模式需要在webui里面启用

**改名规则:

     G_xxxx.pth  更名  Aris_vec768112.pth (speaker name_编码器.pth)
     config.json  更名 Aris_vec768112.json (规则同上,后缀是经典json)**

扩散模型和聚类模型后缀一样,命名务必进行区分
扩散模型和聚类模型后缀一样,命名务必进行区分
扩散模型和聚类模型后缀一样,命名务必进行区分

模型大小大可以算一下,57000steps的模型全部保存大概是65g左右,4090单卡大概是跑了8个小时左右。要挂着睡觉的话起码留100G左右保险。

24.01.02 06:08 update

测试,看一下还会不会丢数据

很烦,网站丢了两次数据,重启了一下好了,运行了16天半左右,还是得重新写,访问到是没有问题,但是数据不能保存写入就很麻烦。多花20多分钟算是排除完了,今天晚上睡觉的时候准备算忧的。
再写第三遍吧,最近睡觉一直都在跑底模,今天抽了点时间专门调了推理的数据,基本总结一下,对于BA这种,录音水平高,但是音质压缩严重的解包音频可以使用以下模板:

NSF_hifigan增强 >>>> rmvpe + 0的f0预测过滤值 + 0~4左右的hifigan音域增强

剩下的更是懒得写了,根据raw来选歌,raw最好感情丰富点,老一种感情很难推理出好的,选歌符合raw集更容易出彩。
没了

24.01.10 22:23 第三次update.

发表评论

电子邮件地址不会被公开。 必填项已用*标注