feat: enhance demo components with consistent styling and info boxes
- Add standardized header and info box components to all demo files - Improve visual consistency with theme colors and spacing - Add max-height and overflow-y for better content containment - Update package.json build script with --force flag - Add .gitignore entries for REFACTORING files - Fix table formatting in audio-intro.md
This commit is contained in:
@@ -151,12 +151,12 @@ _很多人以为 AI 直接处理"声音",但实际上 AI 处理的是**数字
|
||||
|
||||
### 4.1 自回归 vs 非自回归
|
||||
|
||||
| 特性 | 自回归 (AR) | 非自回归 (NAR) | 流匹配 (Flow) |
|
||||
|------|------------|---------------|--------------|
|
||||
| 生成方式 | 逐个时间步 | 一次性生成 | 流匹配路径 |
|
||||
| 速度 | 慢 | 快 | 很快 |
|
||||
| 音质 | 高 | 中高 | 高 |
|
||||
| 代表模型 | Tacotron 2 | FastSpeech 2 | F5-TTS |
|
||||
| 特性 | 自回归 (AR) | 非自回归 (NAR) | 流匹配 (Flow) |
|
||||
| -------- | ----------- | -------------- | ------------- |
|
||||
| 生成方式 | 逐个时间步 | 一次性生成 | 流匹配路径 |
|
||||
| 速度 | 慢 | 快 | 很快 |
|
||||
| 音质 | 高 | 中高 | 高 |
|
||||
| 代表模型 | Tacotron 2 | FastSpeech 2 | F5-TTS |
|
||||
|
||||
### 4.2 关键组件
|
||||
|
||||
@@ -285,15 +285,15 @@ GST (Global Style Token) 是一种从参考音频中提取风格特征的方法
|
||||
|
||||
## 附录:常用术语表 (Vocabulary)
|
||||
|
||||
| 术语 | 英文 | 解释 |
|
||||
| :------------- | :--------------------------- | :------------------------------------------- |
|
||||
| **采样率** | Sample Rate | 每秒采集的音频样本数(如 44.1kHz)。 |
|
||||
| **梅尔频谱** | Mel-Spectrogram | 模拟人耳感知的频谱表示,音频 AI 的核心输入。 |
|
||||
| **声码器** | Vocoder | 将频谱图还原为音频波形的模型。 |
|
||||
| **TTS** | Text-to-Speech | 文本转语音,让 AI 说话的技术。 |
|
||||
| **ASR** | Automatic Speech Recognition | 自动语音识别,让 AI 听懂的技术。 |
|
||||
| **零样本克隆** | Zero-Shot Cloning | 只需几秒参考音频就能模仿任何声音。 |
|
||||
| **流匹配** | Flow Matching | 一种高效的生成方法,用于最新的 TTS 模型。 |
|
||||
| **声音编码器** | Speaker Encoder | 提取声音身份特征的神经网络。 |
|
||||
| **GST** | Global Style Token | 全局风格 Token,用于情感控制。 |
|
||||
| **神经编解码器**| Neural Codec | 将音频压缩为离散 Token 的模型。 |
|
||||
| 术语 | 英文 | 解释 |
|
||||
| :--------------- | :--------------------------- | :------------------------------------------- |
|
||||
| **采样率** | Sample Rate | 每秒采集的音频样本数(如 44.1kHz)。 |
|
||||
| **梅尔频谱** | Mel-Spectrogram | 模拟人耳感知的频谱表示,音频 AI 的核心输入。 |
|
||||
| **声码器** | Vocoder | 将频谱图还原为音频波形的模型。 |
|
||||
| **TTS** | Text-to-Speech | 文本转语音,让 AI 说话的技术。 |
|
||||
| **ASR** | Automatic Speech Recognition | 自动语音识别,让 AI 听懂的技术。 |
|
||||
| **零样本克隆** | Zero-Shot Cloning | 只需几秒参考音频就能模仿任何声音。 |
|
||||
| **流匹配** | Flow Matching | 一种高效的生成方法,用于最新的 TTS 模型。 |
|
||||
| **声音编码器** | Speaker Encoder | 提取声音身份特征的神经网络。 |
|
||||
| **GST** | Global Style Token | 全局风格 Token,用于情感控制。 |
|
||||
| **神经编解码器** | Neural Codec | 将音频压缩为离散 Token 的模型。 |
|
||||
|
||||
Reference in New Issue
Block a user