feat: update docs and components, fix DLQ demo bug

2026-01-18 12:21:49 +08:00
parent 26ed39e1eb
commit e41063a1cd
159 changed files with 54236 additions and 2525 deletions
@@ -11,6 +11,7 @@
 **多模态大模型 (VLM)** 的出现，相当于给这个大脑装上了一双**眼睛**。

 但这并不容易。因为：
+
 - **大脑 (LLM)** 只懂**文字**（准确说是 Token ID）。
 - **眼睛 (摄像头)** 看到的是**像素**（RGB 颜色数值）。

@@ -64,6 +65,7 @@ LLM 习惯读单词。为了配合它，我们得把一张完整的图片切成
 Projector 的工作就是把**视觉特征向量**（ViT 的输出）转换成**文本特征向量**（LLM 的输入）。

 你可以把它理解为**外语翻译器**：
+
 - **输入**：视觉语言（ViT output）
 - **处理**：翻译（矩阵变换）
 - **输出**：LLM 语言（LLM embedding）
@@ -103,17 +105,17 @@ Projector 的工作就是把**视觉特征向量**（ViT 的输出）转换成**
 1.  **眼睛 (Vision Encoder)**：
    - 负责看图。
    - 通常直接借用现成的、训练好的视觉模型（如 CLIP, SigLIP）。
-    - *它就像视网膜，负责感光。*
+    - _它就像视网膜，负责感光。_

 2.  **视神经 (Projector)**：
    - 负责传输和翻译信号。
    - 这是 VLM 训练的重点。
-    - *它连接眼睛和大脑。*
+    - _它连接眼睛和大脑。_

 3.  **大脑 (LLM)**：
    - 负责思考和回答。
    - 借用现成的强大 LLM（如 Vicuna, Qwen）。
-    - *它负责理解看到了什么，并组织语言回答。*
+    - _它负责理解看到了什么，并组织语言回答。_

 ---

@@ -157,6 +159,7 @@ Projector 的工作就是把**视觉特征向量**（ViT 的输出）转换成**
 简单说，就是**“拼图法”**。

 如果图片很大（比如 $1000 \times 1000$），模型不会强行把它缩小，而是：
+
 1.  把它切成好几张 $336 \times 336$ 的小图。
 2.  分别看这些小图（看细节）。
 3.  再把全图缩小看一遍（看全貌）。
@@ -184,10 +187,10 @@ Projector 的工作就是把**视觉特征向量**（ViT 的输出）转换成**

 ## 7. 名词速查表 (Glossary)

-| 名词 | 全称 | 解释 |
-| :--- | :--- | :--- |
-| **VLM** | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。 |
-| **ViT** | Vision Transformer | **视觉模型**。VLM 的“眼睛”，负责把像素变成向量。 |
-| **Patch** | - | **图像块**。图片被切成的小方块，相当于“视觉单词”。 |
-| **Projector** | - | **投射器/翻译官**。连接眼睛和大脑的桥梁。 |
-| **Alignment** | - | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |
+| 名词          | 全称                  | 解释                                                       |
+| :------------ | :-------------------- | :--------------------------------------------------------- |
+| **VLM**       | Vision-Language Model | **多模态大模型**。能看懂图的 GPT。                         |
+| **ViT**       | Vision Transformer    | **视觉模型**。VLM 的“眼睛”，负责把像素变成向量。           |
+| **Patch**     | -                     | **图像块**。图片被切成的小方块，相当于“视觉单词”。         |
+| **Projector** | -                     | **投射器/翻译官**。连接眼睛和大脑的桥梁。                  |
+| **Alignment** | -                     | **对齐**。让图像特征和文本特征在同一个空间里“互相听得懂”。 |