test-repo/docs/zh-cn/appendix/5-data/data-tracking.md

# 数据埋点：记录用户在应用中做了什么

::: tip 🎯 本章要解决的问题
**我们怎么知道用户在应用里做了什么？**

想象你开了一家线下奶茶店。你可以站在柜台后面，亲眼观察每位顾客：他们走进来先看了菜单多久？点了哪款饮品？有没有犹豫后放弃离开？

但如果你的"店铺"是一个手机 App 或网站，你无法亲眼看到用户的操作。这时候就需要一种技术手段，在应用的关键位置"埋"下记录点，自动帮你记录用户的每一步操作。这就是**数据埋点（Event Tracking）**。

"埋点"这个词听起来很专业，但它的核心思路很简单：**在用户可能操作的地方，放一个"记录器"，把用户做了什么记下来。**

本章将分四步讲解这个过程：

1. **选择采集方案** — 决定在哪里放记录器、怎么放
2. **设计数据格式** — 决定每条记录应该包含哪些信息
3. **传输与缓存** — 把记录从用户手机安全送到服务器
4. **清洗与入库** — 整理数据，去掉重复和错误，存入数据库
:::

---

## 第一步：选择采集方案 — 在哪里放记录器？

**目标**：决定用什么方式来记录用户的操作。

举个例子：产品经理想知道"有多少用户点击了购买按钮"。要回答这个问题，开发者需要在"购买按钮"的代码里加上一段记录逻辑 — 每当用户点击这个按钮，就自动记一笔。

但这里有一个选择题：我们是**只在重要的地方放记录器**（比如只记录"购买"和"注册"），还是**在所有地方都放记录器**（记录用户的每一次点击、滑动、停留）？

不同的选择，对应不同的埋点方案。

<DataTrackingDemo tab="methods" />

**💡 三种主流的埋点方式**

行业中常用的埋点方案有三种，各有优劣：

**方式一：代码埋点（Code Tracking）— 手动精确记录**

开发者在代码中手动指定：当用户做了某个操作时，记录一条数据。

打个比方：这就像在奶茶店的收银台专门安排一个人，只记录"谁买了什么、花了多少钱"。记录的信息非常详细和准确。

- *优势*：可以记录非常详细的业务信息，比如用户用了哪张优惠券、账户余额是多少
- *代价*：每增加一个新的记录点，都需要开发者写代码、测试、发布新版本，流程较长

**方式二：可视化埋点（Visual Tracking）— 点击圈选记录**

不需要写代码。系统提供一个可视化工具，运营人员可以直接在应用界面上"圈选"想要监测的按钮或区域，系统自动开始记录。

打个比方：这就像在奶茶店的监控画面上，用鼠标框选"收银台区域"，系统就自动开始统计这个区域的人流量。

- *优势*：不需要开发者参与，运营人员自己就能配置，效率很高
- *代价*：只能记录"用户点了什么"这类界面操作，无法记录"订单金额"等深层业务数据

**方式三：全埋点（Auto Tracking）— 自动记录一切**

在应用中集成一个 SDK（可以理解为一个"工具包"），它会自动记录用户的所有操作：每一次点击、每一次滑动、在每个页面停留了多久。

打个比方：这就像在奶茶店的每个角落都装上摄像头，记录顾客的一举一动。

- *优势*：不会遗漏任何操作，覆盖最全面
- *代价*：数据量非常大，其中很多是无用信息（比如用户无意识的滑动），后续需要花大量精力筛选和清理

**本步小结**：选好了埋点方式后，我们的应用就具备了"记录用户操作"的能力。

**但这里有一个新问题**：记录器虽然能捕获到用户的操作，但如果每个记录器记下来的格式都不一样（比如有的写"用户ID"，有的写"userID"，有的干脆没记），后续就没法统一分析。所以下一步，我们需要规定一个统一的记录格式。

---

## 第二步：设计数据格式 — 每条记录应该包含什么？

**前置条件**：我们已经选好了埋点方式（比如代码埋点），应用已经能够捕获用户的操作了。

**本步目标**：规定一个统一的"记录模板"，让所有埋点记录的格式保持一致。

**为什么需要统一格式？** 想象一下：如果奶茶店有三个店员同时记录销售情况，一个写"小明买了珍珠奶茶 15 元"，另一个写"15，奶茶，珍珠"，第三个写"珍珠奶茶一杯"。到了月底汇总的时候，这些记录格式完全不同，整理起来会非常痛苦。所以我们需要一张统一的"记录表"，规定每条记录必须填写哪些栏位。

<DataTrackingDemo tab="model" />

**💡 核心原理：4W1H 记录模板**

无论记录什么操作，每条数据都需要回答以下五个问题（简称 4W1H）：

**Who — 谁做的？**

我们需要知道这条记录是哪个用户产生的。

- 如果用户已经登录，就用他的账号 ID（比如 `user_id: "zhangsan123"`）
- 如果用户没有登录，就用设备的唯一标识（比如手机的设备编号），这样至少能区分"这是同一台手机上的操作"

**When — 什么时候做的？**

记录操作发生的精确时间，精确到毫秒。

这里有一个细节：如果你的应用有海外用户，北京时间下午 3 点和纽约时间下午 3 点其实差了 13 个小时。为了避免混乱，所有时间统一转换为 UTC 标准时间（可以理解为"世界统一时间"）。

**Where & How — 在什么环境下做的？**

这部分记录用户操作时的设备和网络环境，称为**公共属性**。之所以叫"公共"，是因为无论用户做了什么操作，这些信息都会自动附带上去。例如：

- 设备型号：iPhone 15 / 小米 14
- 网络类型：WiFi / 5G / 4G
- App 版本号：v1.2.3
- 操作系统：iOS 18 / Android 15

这些信息的价值在于：如果发现某个 Bug 只在特定机型上出现，公共属性可以帮助快速定位问题。

**What — 具体做了什么？**

这部分记录操作的具体业务细节，称为**自定义属性**。不同的操作需要记录不同的信息。例如：

- 用户点击"加入购物车"：需要记录商品名称、商品价格、商品数量
- 用户完成支付：需要记录订单金额、支付方式、优惠券编号

**本步小结**：通过 4W1H 模板，我们把用户的每一个操作都转化成了一条格式统一的数据记录。在技术实现中，这条记录通常以 JSON 格式存储（JSON 是一种通用的数据格式，上方的交互组件展示了它的样子）。

**但这里又有一个新问题**：数据格式统一了，但如果应用的用户量很大（比如促销活动期间，每秒钟可能产生上万条记录），用户手机不可能每产生一条记录就立刻发送一次 — 这样既费电又费流量，服务器也扛不住。所以下一步，我们需要设计一个更聪明的传输方式。

---

## 第三步：传输与缓存 — 怎么把数据安全送到服务器？

**前置条件**：用户的每个操作已经被记录成了格式统一的 JSON 数据。

**本步目标**：把这些数据从用户的手机（或浏览器）可靠地传输到我们的服务器，即使在网络不好的情况下也不丢数据。

**为什么不能直接发送？** 如果每产生一条记录就立刻发一次网络请求，就像每写一封信就跑一趟邮局一样 — 效率太低了。更合理的做法是：攒一批信，一次性送过去。

<DataTrackingDemo tab="pipeline" />

**💡 核心原理：数据传输的三道保障**

数据从用户手机到服务器，需要经过三道保障机制，确保既高效又不丢数据：

**第一道：攒一批再发（批量聚合）**

SDK（埋点工具包）不会每产生一条记录就发送一次，而是先把记录暂存在手机内存里。当攒够一定数量（比如 30 条），或者等待超过一定时间（比如 5 秒），再把这一批数据打包，一次性发送出去。

这就像寄快递：你不会买一件东西就跑一趟快递站，而是攒几件一起寄，省时省力。对手机来说，这样做能减少网络请求次数，省电省流量。

**第二道：断网也不丢（本地存储）**

用户在电梯里、地铁隧道中，手机经常没有网络信号。如果数据只存在内存里，用户一关闭 App，数据就没了。

所以 SDK 会把还没发送的数据存到手机的本地存储中（类似于把信先放进抽屉）。等网络恢复后，再自动把这些数据补发出去。这样即使用户短暂断网，数据也不会丢失。

**第三道：服务器不被压垮（消息队列）**

数据到达服务器后，并不会直接写入数据库。为什么？因为在促销活动等高峰期，可能每秒有几万条数据同时涌入，数据库如果直接处理这么大的量，可能会崩溃。

解决方案是在中间加一个"缓冲区"，技术上叫**消息队列**（常用的工具叫 Kafka）。它的作用就像餐厅的取号排队系统：高峰期顾客（数据）先排队等候，厨房（数据库）按自己的节奏一个一个处理，不会被同时涌入的订单压垮。

**本步小结**：通过"攒一批再发 → 断网本地存储 → 消息队列缓冲"这三道保障，数据已经安全抵达了服务器。

**但还有一个问题**：因为断网重连后会自动补发数据，同一条记录有可能被发送了两次。如果不处理就直接存入数据库，数据就会重复（比如一笔 100 元的订单被记成了两笔，销售额就虚高了）。所以下一步，我们需要对数据进行"清洗"。

---

## 第四步：清洗与入库 — 整理数据，去掉"脏数据"

**前置条件**：数据已经通过传输管道安全抵达服务器。

**本步目标**：在数据正式存入数据库之前，先做一次"体检"— 去掉重复的、修复格式有问题的，确保最终存储的数据干净、准确。

**为什么需要清洗？** 就像收到一箱快递后，你需要检查一下：有没有重复发货的？有没有发错的？有没有包装破损的？数据也是一样，直接存入数据库之前，需要先检查和整理。

这个过程在技术上叫做 **ETL**，是三个英文单词的缩写：
- **E**xtract（提取）：从消息队列中取出数据
- **T**ransform（转换）：检查和修复数据格式
- **L**oad（加载）：把清洗好的数据写入数据库

<DataTrackingDemo tab="overview" />

**💡 核心原理：清洗数据的两个关键动作**

**动作一：去重 — 去掉重复的记录**

前面提到，断网重连后 SDK 会自动补发数据，这可能导致同一条记录被发送了多次。怎么识别哪些是重复的？

方法很简单：在客户端打包数据时，给每条记录分配一个全球唯一的编号（叫做 `dedup_id`，类似于快递单号）。服务器在存储数据前，先检查这个编号是否已经存在 — 如果已经存在，说明是重复数据，直接丢弃。

**动作二：校验与格式统一 — 修复不规范的记录**

应用会不断更新版本，不同版本的埋点代码可能存在细微差异。比如：

- 旧版本把用户 ID 字段命名为 `userId`，新版本改成了 `user_id`
- 某些记录的时间戳明显不合理（比如显示为 1970 年）
- 某些字段的值无法识别

在这一步，系统会编写转换规则来统一处理这些问题：字段名不一致的统一对齐，时间戳异常的记录予以丢弃，无法识别的值标记为 `unknown`。

**本步小结**：经过去重和格式校验后，数据以干净、统一的形式写入**数据仓库**（一种专门用于存储和分析大量数据的数据库，常见的有 ClickHouse、Hive 等）。数据分析师可以直接用 SQL 语句查询这些数据，获得可靠的分析结果。

---

## 完整流程回顾

以下是数据埋点从采集到入库的四步流程总结：

| 步骤 | 做了什么 | 得到了什么 | 还剩什么问题 |
|------|----------|-----------|-------------|
| **1. 选择采集方案** | 决定用哪种方式记录用户操作 | 应用具备了记录能力 | 各记录器的数据格式不统一 |
| **2. 设计数据格式** | 用 4W1H 模板统一记录格式 | 每条记录都是标准的 JSON | 用户量大时逐条发送扛不住 |
| **3. 传输与缓存** | 攒批发送、断网存储、队列缓冲 | 数据安全抵达服务器 | 重试可能导致数据重复 |
| **4. 清洗与入库** | 去重、校验、格式统一 | ✅ 干净的数据存入数据仓库 | — |

---

## 结语

当用户在应用中点击一个按钮时，表面上只是一个瞬间的动作。但在这背后，一条完整的数据链路已经开始运转：

1. 埋点代码捕获到这次点击，按照 4W1H 模板生成一条标准记录
2. 记录被暂存在手机本地，攒够一批后统一发送到服务器
3. 服务器通过消息队列平稳接收，再经过去重和格式校验
4. 最终，一条干净、准确的数据被写入数据仓库

这就是数据埋点的完整过程。它把用户分散的、看不见的操作行为，转化成了可以查询、可以分析的结构化数据。产品经理可以据此了解用户喜欢什么功能、在哪里流失；运营人员可以评估活动效果；开发者可以定位问题出现在哪个版本。

这套"采集 → 建模 → 传输 → 清洗"的体系，是数据驱动决策的基础设施。