RVC-WebUIでモデルを作成する方法

僕はAIボイスチェンジャーVC-Clientを使っている
VC-Clientは色々な変換(RVC、DDSP-SVC、Beatrice等)をサポートしていて僕はRVCを利用していた
最初はboothにあるフリーの学習データを使って遊んでたけど自分用のモデルを作成してみた

1.RVCを起動

RVC(Retrieval-based-Voice-Conversion)からダウンロードする
(以下、2.2.231006を使用)
フォルダ内のgo-web.batを起動するとコマンドプロンプトが起動し、待機してたらブラウザが開く

起動直後

2.学習元の音声データ用意

音声データは
・合計10分以上が推奨(10~50分が目安、長すぎると過学習が起こるみたい)
・長すぎるファイルは事前に複数ファイルに分ける(自分は10~20秒を目安にリサイズした・・・けどもしかしたら3秒くらいの長さのほうが良い気がする?)
・声のみのデータにする(BGMやノイズが無い、除去されたもの)
という感じで準備する

3.モデルの作成

「トレーニング」タブを開く

まずは”ステップ1″と”ステップ2a”
「モデル名」と「トレーニング用フォルダのパス」を入力、サンプリングレートは用意した音声データにあわせ、ほかの選択肢も画像を参考に設定したら「データ処理」を押す

横の「出力情報」が動き始め、「end preprocess」と出力されるまで待機する

データ処理が終わったら次に”ステップ2b”
GPUの選択と抽出アルゴリズムを選択後「特徴抽出」を押す
「出力情報」が動き始め、「end preprocess」と出力されるまでまた待機する

※抽出アルゴリズムは簡単に書くと、
pm側 = 負荷が軽い
rmvpe_gpu側 = 負荷重い
って感じ!GPUがないならpm、高スペックGPUならrmvpe_gpuを選択って感じでいいと思う)

最後に”ステップ3″
選択肢を画像のように設定して「ワンクリックトレーニング」を押す完成!
ちなみにブラウザ側だと動いてるか分からないけどcmd見るとめっちゃ頑張ってる感が分かる

総エポック数は僕が試した感じ120~160付近が一番ボイチェンの変換後音声がいい感じなことが多かった
音声ファイルの数や長さによって適正が変わるし、(のちに記載するが、)「エポックごとの保存頻度」を20に設定して途中のpthも保存するからそれぞれ確認して良さそうなとこを使っていくのがいい
まだ学習足りてなさそうな場合は総エポック数を増やしてみるといい

出力は時間がかかる(1~2時間くらい)
GPUの性能がいいなら「GPUごとのバッチサイズ」の値を増やすと早くなる!けど適正値が分からないから増やすにしても少しずつ試していったほうがいい(値を上げすぎると逆に生成が遅くなるみたい)

生成したモデルはRVCフォルダのassets→weightsに入ってる

C:◯◯◯\RVC1006Nvidia\assets\weights

4.出力モデルの動作確認

(あらかじめ動作確認用に声変換前のテスト音源を用意しておく)
「モデル推論」タブを開く

音源推論、ピッチ変更、処理対象ファイルパス、インデックスパスを画像を参考に選択する

・音源推論
さきほど作成したモデルがドロップダウンにない場合、横の「音源リストとインデックスパスの更新」を押したら出てくるはず

・ピッチ変更
男→男・女→女 => 0
男→女 => 12
女→男 => -12
をいれる(モデルの動作確認だから単純に1オクターブ上下させる)

・処理対象ファイルパス
ボイチェンさせる音源のパスを指定

・インデックスパスの自動検出
ここもドロップダウンでさきほど作成したフォルダがあるはず

あとは「変換」を押したら変換できる!
出力できたらその場で再生とダウンロードができる!!!

これでボイチェン後の音声が問題ないならOKなんだけど、微妙な場合は!

4-2.エポックごとの動作確認

音源推論で指定するときに「test-model_e20_s540.pth」みたいに変な数字が付いたpthデータもあったはず!
これは、ステップ3で「各保存時点の小モデルを全部weightsフォルダに保存するかどうか」に「はい」を選択してたら保存されるもの
モデル学習中のデータが定期的に保存されてるものだからこれを確認して一番よさそうなものを使えばいいと思う!
(数値が低いと学習少なくて変換がボロボロに、逆に数値が高すぎると過学習でこっちでもボロボロになる)

雑談として、
最近はApplio っていうのでもpthを作成できるらしいけど結局このRVC-WebUIで作成した
理由としてはApplioとRVC-WebUIはベースが同じだから(同じ設定の場合)クオリティに差がほとんどでないらしい
細かい設定はApplioのほうが触れるらしいけど今回のRVC-WebUIで僕は十分綺麗に学習できてると感じた

コメントする