首先确定一件事,我们需要做的是通俗的,易懂的,有趣的。单独PPT拿出来就可以诉说很多东西的。

所以我想的是TTS的模型转换。开源的模型最近的有GPT-sovits,由B站花儿不哭大佬制作,最近更新为2025-0604,V2PRO版本。

从文本转语音的原理讲起,接着对比各种TTS的原理,最后推荐开源的GPT-SOVITS!

所以现在需要搞懂什么是TTS

我找到了一个TTS算法综述,发表于20230820.

大意就是有很多种方式,生成的在23年比较先进,年底又推出了sovoit,接着就是花儿不哭的讲解。主要观点是在soviot的基础上进行改进……