Merge pull request #97 from okwn/contrib/easy-vibe/fix-formula-display

fix: repair formula display in AI capabilities appendix 3.1.3 (closes #2)
This commit is contained in:
Sanbu 散步
2026-05-21 09:29:45 +08:00
committed by GitHub
4 changed files with 8 additions and 4 deletions
@@ -915,7 +915,11 @@ TexttoImage 模型通常同时支持多风格、多分辨率输出:通
在 NeRF 中,整个 3D 场景被建模为一个连续函数:
![](https://ecn00p15ubf1.feishu.cn/space/api/box/stream/download/asynccode/?code=ZjYyZTc5MWFhY2QxM2FjNTI1MDFhNDM5NTEwNTBkNGFfM3RvSngwZnhwc1hMRFQxaXVXMkFNem5RSFFqUkppdkdfVG9rZW46TVltUGJUUWRib1NGV2V4dklHZ2NYandjbkJlXzE3NjcxMDU4ODM6MTc2NzEwOTQ4M19WNA)
$$
F_\theta(\mathbf{x}, \mathbf{d}) = (\sigma, \mathbf{c})
$$
其中 $\mathbf{x}$ 表示三维空间中的点位置,$\mathbf{d}$ 表示观察方向,$\sigma$ 表示体密度,$\mathbf{c}$ 表示颜色,$\theta$ 为网络参数。
给定三维空间中的一个点位置 x 和观察方向 d,网络会输出该点对应的体密度 σ 与颜色 c。沿着相机视线方向对这个映射函数做体渲染积分运算,我们就能得到该相机位姿下的像素颜色;反过来,只要给定一组多视角照片及其相机参数,我们就能通过最小化渲染结果与真实图像的误差,求解出模型的参数 θ。待模型训练完成后,只需改变相机位姿,就能合成那些 “从未被真实拍摄过” 的新视角图像(Novel View Synthesis)。
@@ -3,7 +3,7 @@
在开始之前,建议你先补两块“基础砖”:
- **Token 是什么**:可以先阅读 [大语言模型入门](./llm-intro.md) 的「分词 & Token」部分。
- **Token 是什么**:可以先阅读 [大语言模型入门](./llm-principles.md) 的「分词 & Token」部分。
- **Prompt 是什么**:如果你还不熟悉 System / User / Assistant 的基本结构,可以先看 [提示词工程](./prompt-engineering/)。
---
@@ -5,7 +5,7 @@
## 0. 引言:给大脑装上眼睛
在 [大语言模型入门](./llm-intro) 中,我们知道 LLM 本质上是一个被关在黑盒子里、只能通过**文字**来了解世界的“大脑”。
在 [大语言模型入门](./llm-principles.md) 中,我们知道 LLM 本质上是一个被关在黑盒子里、只能通过**文字**来了解世界的“大脑”。
**多模态大模型 (VLM)** 的出现,相当于给这个大脑装上了一双**眼睛**。
@@ -34,7 +34,7 @@ AI 模型像一个**黑盒子**:我们知道输入(提示词)和输出(
2. **更准确**:符合你的特定格式和逻辑要求。
3. **更高效**:一步到位,不需要反复纠正。
> ℹ️ **背景知识**:如果你对模型是如何训练出来的感兴趣(预训练 vs 微调),可以阅读附录中的 [大语言模型入门](../llm-intro.md)。或者查看下方的详细原理解析。
> ℹ️ **背景知识**:如果你对模型是如何训练出来的感兴趣(预训练 vs 微调),可以阅读附录中的 [大语言模型入门](../llm-principles.md)。或者查看下方的详细原理解析。
### 深度解析:从训练数据看模型行为