{{ msg.content }}
+ diff --git a/.trae/documents/Add VLM, Image Generation, and Audio Model Introductions.md b/.trae/documents/Add VLM, Image Generation, and Audio Model Introductions.md
new file mode 100644
index 0000000..fa95007
--- /dev/null
+++ b/.trae/documents/Add VLM, Image Generation, and Audio Model Introductions.md
@@ -0,0 +1,71 @@
+我将严格参照 `llm-intro.md` 的结构(**引言 -> 基础单元 -> 核心机制 -> 架构演进 -> 训练目标 -> 总结**)来撰写这三个新章节,确保风格统一且深入浅出。
+
+### 1. 创建 `docs/zh-cn/appendix/vlm-intro.md` (多模态大模型:给 AI 装上眼睛)
+
+* **0. 引言**: 从“读万卷书”到“行万里路”。VLM 的核心任务:把图像信号翻译成大模型能懂的语言信号。
+
+* **1. 第一步:视觉翻译 (Visual Tokenization)**:
+ * **ViT (Vision Transformer)**: 计算机怎么“看”图?将图片切成 16x16 的小方块 (Patches),就像把句子切成词 (Tokens)。
+ * **Qwen-VL 的创新**: 提到 **Naive Dynamic Resolution**(动态分辨率),不强制压缩图片,而是根据图片比例动态切分 Patch,像人眼一样看清细节(分辨率自适应),解决了传统模型“看不清长图”的问题。
+
+* **2. 核心难题:跨界沟通 (Projection)**:
+ * 视觉向量 vs 语言向量。我们需要一个“适配器” (Projector),把视觉特征映射到文本空间。
+ * **架构对比**:
+ * **Linear (LLaVA)**: 简单粗暴的线性投影,训练快,保留信息多。
+ * **Q-Former (BLIP-2)**: 使用查询向量 (Query) 提取关键视觉信息,更轻量。
+ * **C-Abstractor (Qwen-VL)**: 结合注意力机制,更高效地压缩视觉信息。
+
+* **3. 进化之路:ViT + LLM**:
+ * Vision Transformer (ViT) 负责“看”,LLM 负责“想”和“说”。
+ * **M-LLM**: 像 GPT-4V 或 Qwen2-VL,已经不仅是“拼接”,而是深度的多模态融合,甚至能处理视频(视为连续的图片帧)。
+
+* **4. 训练揭秘:从对齐到对话**:
+ * **阶段一 (Pre-training)**: 像 CLIP 一样,在大规模图文对上预训练,学会“这张图是猫”。
+ * **阶段二 (Instruction Tuning)**: 学会“看图说话”,使用 `
{{ modules[selectedModule].description }}
+ +{{ modules[selectedModule].code }}
+ {{ challenges[selectedChallenge].description }}
+探索 Agent 技术的发展趋势和应用前景
+{{ timeline[selectedEra].detailDescription }}
+ +{{ levels[selectedLevel].description }}
+ +{{ step.code }}
+ {{ steps[currentStep].explanation }}
+ +{{ steps[currentStep]?.detail }}
+ +{{ frameworks[selectedFramework].tagline }}
+| 特性 | +{{ fw.name }} | +
|---|---|
| 学习曲线 | +{{ fw.learningCurve }} | +
| 社区规模 | +{{ fw.community }} | +
| 最佳用途 | +{{ fw.bestFor }} | +
| GitHub Stars | +{{ fw.stars }} | +
回答几个问题,帮你找到最适合的框架!
+ ++ 💡 + 计算机无法直接处理连续的声波,需要把它转换成数字。 + 这个过程叫模数转换 (ADC):每隔一小段时间测量一次声音的强度,记录成数字。 +
+
+ 自回归 (如 VALL-E) 像人说话一样,必须说完上一个字才能说下一个字,所以很慢。
+
+ 流匹配 (如 F5-TTS) 像画画一样,可以同时在画布的所有角落开始上色,效率提升了 10-20 倍。
+
频谱图将一维的声音信号变成了二维图像,这样我们就可以用 CNN (卷积神经网络) 等图像模型来处理声音了!
+ +
+ Diffusion 就像在迷雾中摸索,路径充满了随机性,需要走很多弯路(步数多)才能到达终点。
+
+ Flow Matching 就像使用了 GPS 导航,直接找到了从噪声到图像的直线最优路径 (Optimal Transport),因此只需要极少的步数。
+
负责"听懂"你的描述,把它翻译成计算机能理解的数学向量。
+核心创造者。在潜空间(Latent Space)中通过预测噪声来构思画面。
+负责"翻译"回图像。把大脑构思的模糊特征还原成高清像素图片。
++ 💡 + 交叉注意力机制让 AI 理解提示词的每个词。 + 当生成图片时,AI 会"关注"不同的词: + "cyberpunk" 影响整体风格,"cat" 决定主体,"neon lights" 控制灯光效果。 + 词的顺序和权重都会影响最终画面! +
+请选择一个业务场景开始体验
++ 原理: LLM 并不是一次性写出整段话,而是像上面这样,基于前面的内容(Context),计算下一个最可能出现的 Token 的概率,然后选择一个(Sampling)填上去,再重复这个过程。 +
++ RNN 从左到右逐个读取。注意看 Memory(记忆),随着句子变长,最早的信息("The")可能会被后面的信息冲淡,这就是“长距离依赖”问题。 +
++ Current Focus: "{{ transformerWords[hoveredWordIndex] }}" +
++ Paying attention to: + + + "{{ transformerWords[attn.idx] }}" ({{ Math.round(attn.score * 100) }}%) + + +
+👆 鼠标悬停在任意单词上,查看它在“关注”谁。
+
+ Transformer 一眼看完整个句子(并行)。Self-Attention 机制让每个词都能直接“看见”其他词,无论距离多远。
+
例如:悬停在 "it" 上,你会发现它强烈关注 "animal",因为它指代的就是 animal。
+
9.11 和 9.9 哪个大?
++ 💡 + Note: + LLM 不直接理解单词,它们处理的是数字(Token IDs)。 + 对于英文,一个 Token 通常是一个单词或单词的一部分(如 "ing"); + 对于中文,一个 Token 通常是一个汉字或词组。 +
+计算机首先将文本切分为最小的语义单位(Token)。
+在词表(Vocabulary)中查找每个 Token 对应的唯一数字 ID。
+每个 ID 对应一个预训练好的高维向量(这里简化为 4 维)。
+所有向量堆叠在一起,形成了输入矩阵(Shape: [Batch, Seq_Len, Dim])。这就是 LLM 真正“看见”的东西。
+LLM 的本能是“续写”:它并不懂对话,只是根据上文猜下一个词。
+P(blue | The sky is) = 90%
+ 如何让它对话? 我们用“剧本”包装输入,让模型以为自己在续写一段对话。
+Training (训练原理): 模型通过大量数据的“填空题”训练。计算预测结果与真实结果的差异(Loss),并不断调整参数以降低 Loss。
+从“胡说”到“好助手”:通过 RLHF (人类反馈) 让模型学会礼貌和安全。
+Text is converted into vectors (Embeddings) and processed by the Transformer to predict the next word.
++ 💡 + 计算机将图片切成 14x14 = 196 个小方块(Patch)。 + 然后把这些方块“拉直”成一长串序列,就像把一段话里的单词排成一排一样。 + 这就是 Visual Tokenization。 +
+<Image: 🐱>, <Text: "一只猫">
+ 任务:让图像向量与文本向量距离变近。
+User: <Image: 🐱> 这只猫在干嘛?
Assistant: 它在睡觉。
+ 任务:根据图像和问题生成回答。
+{{ items[activeIndex].desc }}
+.box {
+ /* 内容尺寸 */
+ width: {{ width }}px;
+ height: {{ height }}px;
+
+ /* 内边距 */
+ padding: {{ padding }}px;
+
+ /* 边框 */
+ border: {{ borderWidth }}px {{ borderStyle }} {{ borderColor }};
+
+ /* 外边距 */
+ margin: {{ margin }}px;
+
+ /* 内容背景色 */
+ background-color: {{ contentColor }};
+}
+
+/* 总尺寸计算 */
+/* 总宽度: {{ totalWidth }}px */
+/* 总高度: {{ totalHeight }}px */
+ .container {
+ display: flex;
+ flex-direction: {{ flexDirection }};
+ justify-content: {{ justifyContent }};
+ align-items: {{ alignItems }};
+ flex-wrap: {{ flexWrap }};
+ gap: {{ gap }}px;
+}
+
+.item {
+ flex: {{ items[0].flex }}; /* 第一个项目的值 */
+}
+ // 获取元素
+const element = document.getElementById('target-element');
+
+// 修改文本内容
+element.textContent = '{{ text }}';
+
+// 修改样式
+element.style.backgroundColor = '{{ backgroundColor }}';
+element.style.color = '{{ color }}';
+element.style.fontSize = '{{ fontSize }}px';
+element.style.padding = '{{ padding }}px';
+element.style.borderRadius = '{{ borderRadius }}px';
+
+// 显示/隐藏
+element.style.display = '{{ isHidden ? 'none' : 'block' }}';
+ {{ step.command }}
+ | 特性 | +TCP | +UDP | +
|---|---|---|
| 连接 | +面向连接 | +无连接 | +
| 可靠性 | +可靠(确认重传) | +不可靠(尽最大努力) | +
| 速度 | +较慢 | +很快 | +
| 开销 | +高(20字节头部) | +低(8字节头部) | +
| 流量控制 | +有(滑动窗口) | +无 | +
| 应用 | +HTTP, FTP, SMTP, SSH | +DNS, DHCP, 视频流 | +
段落
+点击按钮改变标题!
+ +