TTS和VITS各自需要的训练时间参考

tiandi 2024-04-08 2403 0

一，主要流程

数据集整理->搭建环境->训练数据->推理结果

二，数据集的获取和整理

整理干净的同一情绪下的人声，20-30分钟，切割成3s~10s. 转换音频格式 (1天时间)
数据集整理是一次性的工作

三, 搭建环境

这里分两种,一种是TTS（文本转语音），另一种是VITS（语音转语音），顺利的话，都大约需要1小时，每次操作都需要先搭建开发环境。

四，训练数据

至少1天30000步以上，训练好的模型，下次直接可用。TTS和VITS需要分别训练不同的模型，可以理解为一次性的工作。

五，推理结果

每次推理，需要先搭建环境，加载训练模型，TTS稍微简单点，约为1-2小时，只要准备要说的文字即可，但可能AI说话情绪比较平。VITS约为3-4小时，需要准备要说的话的人声，AI语音会参照该人声去生成，但有时候发音会不太准。AI生成语音会有长度限制，超过2分钟可能会暴显卡，只能分别生成两个1分钟的，再用其他工具合并语音，会需要额外的时间来处理。

文章评分2次，平均分3.0：★★★☆☆

TTS VITS

千丝海阁

挨踢人，自由软件开发者Tiandi的技术博客

TTS和VITS各自需要的训练时间参考

一，主要流程

二，数据集的获取和整理

三, 搭建环境

四，训练数据

五，推理结果

您可能还会对以下文章感兴趣：

最新评论

我的朋友

标签

微信公众号

站点统计

千丝海阁

挨踢人，自由软件开发者Tiandi的技术博客

TTS和VITS各自需要的训练时间参考

一， 主要流程

二， 数据集的获取和整理

三, 搭建环境

四， 训练数据

五， 推理结果

您可能还会对以下文章感兴趣：

最新评论

我的朋友

标签

微信公众号

站点统计

一，主要流程

二，数据集的获取和整理

四，训练数据

五，推理结果