feat: enhance demo components with consistent styling and info boxes

- Add standardized header and info box components to all demo files
- Improve visual consistency with theme colors and spacing
- Add max-height and overflow-y for better content containment
- Update package.json build script with --force flag
- Add .gitignore entries for REFACTORING files
- Fix table formatting in audio-intro.md
This commit is contained in:
sanbuphy
2026-02-14 12:14:07 +08:00
parent cd2ce9e661
commit ebe2bf6109
70 changed files with 12307 additions and 10445 deletions
+18 -18
View File
@@ -151,12 +151,12 @@ _很多人以为 AI 直接处理"声音",但实际上 AI 处理的是**数字
### 4.1 自回归 vs 非自回归
| 特性 | 自回归 (AR) | 非自回归 (NAR) | 流匹配 (Flow) |
|------|------------|---------------|--------------|
| 生成方式 | 逐个时间步 | 一次性生成 | 流匹配路径 |
| 速度 | 慢 | 快 | 很快 |
| 音质 | 高 | 中高 | 高 |
| 代表模型 | Tacotron 2 | FastSpeech 2 | F5-TTS |
| 特性 | 自回归 (AR) | 非自回归 (NAR) | 流匹配 (Flow) |
| -------- | ----------- | -------------- | ------------- |
| 生成方式 | 逐个时间步 | 一次性生成 | 流匹配路径 |
| 速度 | 慢 | 快 | 很快 |
| 音质 | 高 | 中高 | 高 |
| 代表模型 | Tacotron 2 | FastSpeech 2 | F5-TTS |
### 4.2 关键组件
@@ -285,15 +285,15 @@ GST (Global Style Token) 是一种从参考音频中提取风格特征的方法
## 附录:常用术语表 (Vocabulary)
| 术语 | 英文 | 解释 |
| :------------- | :--------------------------- | :------------------------------------------- |
| **采样率** | Sample Rate | 每秒采集的音频样本数(如 44.1kHz)。 |
| **梅尔频谱** | Mel-Spectrogram | 模拟人耳感知的频谱表示,音频 AI 的核心输入。 |
| **声码器** | Vocoder | 将频谱图还原为音频波形的模型。 |
| **TTS** | Text-to-Speech | 文本转语音,让 AI 说话的技术。 |
| **ASR** | Automatic Speech Recognition | 自动语音识别,让 AI 听懂的技术。 |
| **零样本克隆** | Zero-Shot Cloning | 只需几秒参考音频就能模仿任何声音。 |
| **流匹配** | Flow Matching | 一种高效的生成方法,用于最新的 TTS 模型。 |
| **声音编码器** | Speaker Encoder | 提取声音身份特征的神经网络。 |
| **GST** | Global Style Token | 全局风格 Token,用于情感控制。 |
| **神经编解码器**| Neural Codec | 将音频压缩为离散 Token 的模型。 |
| 术语 | 英文 | 解释 |
| :--------------- | :--------------------------- | :------------------------------------------- |
| **采样率** | Sample Rate | 每秒采集的音频样本数(如 44.1kHz)。 |
| **梅尔频谱** | Mel-Spectrogram | 模拟人耳感知的频谱表示,音频 AI 的核心输入。 |
| **声码器** | Vocoder | 将频谱图还原为音频波形的模型。 |
| **TTS** | Text-to-Speech | 文本转语音,让 AI 说话的技术。 |
| **ASR** | Automatic Speech Recognition | 自动语音识别,让 AI 听懂的技术。 |
| **零样本克隆** | Zero-Shot Cloning | 只需几秒参考音频就能模仿任何声音。 |
| **流匹配** | Flow Matching | 一种高效的生成方法,用于最新的 TTS 模型。 |
| **声音编码器** | Speaker Encoder | 提取声音身份特征的神经网络。 |
| **GST** | Global Style Token | 全局风格 Token,用于情感控制。 |
| **神经编解码器** | Neural Codec | 将音频压缩为离散 Token 的模型。 |