feat: update docs and components, fix DLQ demo bug

This commit is contained in:
sanbuphy
2026-01-18 12:21:49 +08:00
parent 26ed39e1eb
commit e41063a1cd
159 changed files with 54236 additions and 2525 deletions
+13 -10
View File
@@ -11,6 +11,7 @@
**多模态大模型 (VLM)** 的出现,相当于给这个大脑装上了一双**眼睛**。
但这并不容易。因为:
- **大脑 (LLM)** 只懂**文字**(准确说是 Token ID)。
- **眼睛 (摄像头)** 看到的是**像素**(RGB 颜色数值)。
@@ -64,6 +65,7 @@ LLM 习惯读单词。为了配合它,我们得把一张完整的图片切成
Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**文本特征向量**(LLM 的输入)。
你可以把它理解为**外语翻译器**
- **输入**:视觉语言(ViT output
- **处理**:翻译(矩阵变换)
- **输出**LLM 语言(LLM embedding
@@ -103,17 +105,17 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
1. **眼睛 (Vision Encoder)**
- 负责看图。
- 通常直接借用现成的、训练好的视觉模型(如 CLIP, SigLIP)。
- *它就像视网膜,负责感光。*
- _它就像视网膜,负责感光。_
2. **视神经 (Projector)**
- 负责传输和翻译信号。
- 这是 VLM 训练的重点。
- *它连接眼睛和大脑。*
- _它连接眼睛和大脑。_
3. **大脑 (LLM)**
- 负责思考和回答。
- 借用现成的强大 LLM(如 Vicuna, Qwen)。
- *它负责理解看到了什么,并组织语言回答。*
- _它负责理解看到了什么,并组织语言回答。_
---
@@ -157,6 +159,7 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
简单说,就是**“拼图法”**。
如果图片很大(比如 $1000 \times 1000$),模型不会强行把它缩小,而是:
1. 把它切成好几张 $336 \times 336$ 的小图。
2. 分别看这些小图(看细节)。
3. 再把全图缩小看一遍(看全貌)。
@@ -184,10 +187,10 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
## 7. 名词速查表 (Glossary)
| 名词 | 全称 | 解释 |
| :--- | :--- | :--- |
| **VLM** | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。 |
| **ViT** | Vision Transformer | **视觉模型**。VLM 的“眼睛”,负责把像素变成向量。 |
| **Patch** | - | **图像块**。图片被切成的小方块,相当于“视觉单词”。 |
| **Projector** | - | **投射器/翻译官**。连接眼睛和大脑的桥梁。 |
| **Alignment** | - | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |
| 名词 | 全称 | 解释 |
| :------------ | :-------------------- | :--------------------------------------------------------- |
| **VLM** | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。 |
| **ViT** | Vision Transformer | **视觉模型**。VLM 的“眼睛”,负责把像素变成向量。 |
| **Patch** | - | **图像块**。图片被切成的小方块,相当于“视觉单词”。 |
| **Projector** | - | **投射器/翻译官**。连接眼睛和大脑的桥梁。 |
| **Alignment** | - | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |