一, 主要流程
数据集整理->搭建环境->训练数据->推理结果
二, 数据集的获取和整理
- 整理干净的同一情绪下的人声,20-30分钟,切割成3s~10s. 转换音频格式 (1天时间)
- 数据集整理是一次性的工作
三, 搭建环境
这里分两种,一种是TTS(文本转语音),另一种是VITS(语音转语音),顺利的话,都大约需要1小时,每次操作都需要先搭建开发环境。
四, 训练数据
至少1天30000步以上,训练好的模型,下次直接可用。TTS和VITS需要分别训练不同的模型,可以理解为一次性的工作。
五, 推理结果
每次推理,需要先搭建环境,加载训练模型,TTS稍微简单点,约为1-2小时,只要准备要说的文字即可,但可能AI说话情绪比较平。VITS约为3-4小时,需要准备要说的话的人声,AI语音会参照该人声去生成,但有时候发音会不太准。AI生成语音会有长度限制,超过2分钟可能会暴显卡,只能分别生成两个1分钟的,再用其他工具合并语音,会需要额外的时间来处理。
文章评分2次,平均分3.0:★★★☆☆