feat: update docs and components, fix DLQ demo bug
This commit is contained in:
@@ -11,6 +11,7 @@
|
||||
**多模态大模型 (VLM)** 的出现,相当于给这个大脑装上了一双**眼睛**。
|
||||
|
||||
但这并不容易。因为:
|
||||
|
||||
- **大脑 (LLM)** 只懂**文字**(准确说是 Token ID)。
|
||||
- **眼睛 (摄像头)** 看到的是**像素**(RGB 颜色数值)。
|
||||
|
||||
@@ -64,6 +65,7 @@ LLM 习惯读单词。为了配合它,我们得把一张完整的图片切成
|
||||
Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**文本特征向量**(LLM 的输入)。
|
||||
|
||||
你可以把它理解为**外语翻译器**:
|
||||
|
||||
- **输入**:视觉语言(ViT output)
|
||||
- **处理**:翻译(矩阵变换)
|
||||
- **输出**:LLM 语言(LLM embedding)
|
||||
@@ -103,17 +105,17 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
|
||||
1. **眼睛 (Vision Encoder)**:
|
||||
- 负责看图。
|
||||
- 通常直接借用现成的、训练好的视觉模型(如 CLIP, SigLIP)。
|
||||
- *它就像视网膜,负责感光。*
|
||||
- _它就像视网膜,负责感光。_
|
||||
|
||||
2. **视神经 (Projector)**:
|
||||
- 负责传输和翻译信号。
|
||||
- 这是 VLM 训练的重点。
|
||||
- *它连接眼睛和大脑。*
|
||||
- _它连接眼睛和大脑。_
|
||||
|
||||
3. **大脑 (LLM)**:
|
||||
- 负责思考和回答。
|
||||
- 借用现成的强大 LLM(如 Vicuna, Qwen)。
|
||||
- *它负责理解看到了什么,并组织语言回答。*
|
||||
- _它负责理解看到了什么,并组织语言回答。_
|
||||
|
||||
---
|
||||
|
||||
@@ -157,6 +159,7 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
|
||||
简单说,就是**“拼图法”**。
|
||||
|
||||
如果图片很大(比如 $1000 \times 1000$),模型不会强行把它缩小,而是:
|
||||
|
||||
1. 把它切成好几张 $336 \times 336$ 的小图。
|
||||
2. 分别看这些小图(看细节)。
|
||||
3. 再把全图缩小看一遍(看全貌)。
|
||||
@@ -184,10 +187,10 @@ Projector 的工作就是把**视觉特征向量**(ViT 的输出)转换成**
|
||||
|
||||
## 7. 名词速查表 (Glossary)
|
||||
|
||||
| 名词 | 全称 | 解释 |
|
||||
| :--- | :--- | :--- |
|
||||
| **VLM** | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。 |
|
||||
| **ViT** | Vision Transformer | **视觉模型**。VLM 的“眼睛”,负责把像素变成向量。 |
|
||||
| **Patch** | - | **图像块**。图片被切成的小方块,相当于“视觉单词”。 |
|
||||
| **Projector** | - | **投射器/翻译官**。连接眼睛和大脑的桥梁。 |
|
||||
| **Alignment** | - | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |
|
||||
| 名词 | 全称 | 解释 |
|
||||
| :------------ | :-------------------- | :--------------------------------------------------------- |
|
||||
| **VLM** | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。 |
|
||||
| **ViT** | Vision Transformer | **视觉模型**。VLM 的“眼睛”,负责把像素变成向量。 |
|
||||
| **Patch** | - | **图像块**。图片被切成的小方块,相当于“视觉单词”。 |
|
||||
| **Projector** | - | **投射器/翻译官**。连接眼睛和大脑的桥梁。 |
|
||||
| **Alignment** | - | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |
|
||||
|
||||
Reference in New Issue
Block a user