Step 1: Tokenization (分词)
计算机首先将文本切分为最小的语义单位(Token)。
(注:此处演示简化为按字切分,真实模型通常使用 BPE 算法,如“人工智能”可能合并为一个 Token)
Step 2: ID Mapping (索引映射)
在词表(Vocabulary)中查找每个 Token 对应的唯一数字 ID。
{{ token.text }}
→
Vocab Lookup
→
{{ token.id }}
Step 3: Embedding Lookup (向量查表)
每个 ID 对应一个预训练好的高维向量(这里简化为 4 维)。
{{ token.id }}
→
[
{{ val.toFixed(2) }}
]
Step 4: Matrix Construction (构建矩阵)
所有向量堆叠在一起,形成了输入矩阵(Shape: [Batch, Seq_Len,
Dim])。这就是 LLM 真正“看见”的东西。
Shape: ({{ tokens.length }}, 4)