GST (Global Style Token) 是一种从参考音频中提取风格特征的方法。模型学习将情感、语速、语调等风格信息编码成一组 Token, 在推理时可以通过选择或插值这些 Token 来控制合成风格。
用户提供一段带有目标情感的参考音频,编码器提取其风格特征向量。这个向量作为条件输入到 TTS 模型, 指导生成相似风格的语音。
现代 TTS 模型(如 CosyVoice、F5-TTS)支持细粒度的风格控制,包括:
💡 情感控制: 现代 TTS 系统不仅能合成自然的语音,还能精确控制情感、语速、语调等风格特征。这使得 AI 配音可以适应不同的应用场景,从平静的客服对话到激昂的演讲。