# 异步任务队列与生产消费模型

::: tip 前言
**用户点了"导出报表"按钮，然后盯着转圈的加载动画等了 30 秒——这合理吗？** 当一个操作需要几秒甚至几分钟才能完成时，让用户干等着显然不是好体验。异步任务队列就是解决这个问题的核心架构模式——把耗时操作丢到后台去处理，让用户立刻得到响应。
:::

**这篇文章会带你学什么？**

学完这章后，你将获得：

- **同步异步对比**：理解为什么某些操作必须异步化，以及异步化带来的用户体验提升
- **生产消费模型**：掌握 Producer-Consumer 模式的核心思想和工作流程
- **Worker 池机制**：了解任务如何被分发到多个 Worker 并行处理
- **可靠性保障**：掌握任务重试、幂等性、死信队列等保障机制
- **技术选型能力**：了解主流异步任务框架的特点和适用场景

| 章节 | 内容 | 核心概念 |
|-----|------|---------|
| **第 1 章** | 为什么需要异步 | 同步阻塞 vs 异步非阻塞 |
| **第 2 章** | 生产消费模型 | Producer、Queue、Consumer |
| **第 3 章** | Worker 工作池 | 并发处理、任务分发 |
| **第 4 章** | 可靠性保障 | 重试策略、幂等性、死信队列 |
| **第 5 章** | 框架选型 | Celery、Sidekiq、Bull、RQ |

---

## 0. 全景图：为什么不能让用户"干等着"？

想象你去餐厅点餐。好的餐厅会在你点完餐后立刻给你一个取餐号，然后你可以去找座位、玩手机，等餐好了再来取。而不是让你站在柜台前，盯着厨师做完整道菜。

Web 应用中有很多类似的"做菜"操作：

- **发送邮件/短信**：调用第三方 API，可能需要几秒
- **生成报表/PDF**：大量数据计算，可能需要几十秒
- **图片/视频处理**：压缩、转码、加水印，可能需要几分钟
- **数据同步**：跨系统数据同步，耗时不确定

::: tip 异步任务的核心思想
把耗时操作从"请求-响应"的主流程中剥离出来，放到后台队列中异步处理。用户提交请求后立刻得到"已收到，正在处理"的响应，处理完成后通过通知、轮询或 WebSocket 告知结果。
:::

---

## 1. 同步 vs 异步：一个订单的故事

当用户提交一个订单时，后端需要做很多事情：扣减库存、创建订单记录、发送确认邮件、更新推荐系统、记录审计日志……

在同步模式下，这些操作串行执行，用户必须等所有操作完成才能看到结果。在异步模式下，只需要完成核心操作（扣减库存、创建订单），其余操作丢到队列里后台处理。

<AsyncTaskFlowDemo />

| 对比维度 | 同步处理 | 异步处理 |
|---------|---------|---------|
| 用户等待时间 | 所有操作总耗时 | 仅核心操作耗时 |
| 系统吞吐量 | 低（线程被阻塞） | 高（快速释放线程） |
| 失败影响 | 非核心失败导致整体失败 | 非核心失败不影响主流程 |
| 实现复杂度 | 简单 | 需要额外的队列基础设施 |
| 数据一致性 | 强一致 | 最终一致 |

::: tip 什么时候该用异步？
三个判断标准：**耗时长**（超过 1-2 秒）、**非核心**（失败不应影响主流程）、**可延迟**（不需要立刻得到结果）。满足其中任意两个，就应该考虑异步化。
:::

---

## 2. 生产消费模型：任务的"流水线"

异步任务队列的核心是经典的 **生产者-消费者模式（Producer-Consumer Pattern）**。这个模式有三个角色：

- **生产者（Producer）**：产生任务的一方，通常是 Web 服务器处理用户请求时
- **队列（Queue）**：存储待处理任务的缓冲区，通常用 Redis、RabbitMQ 等实现
- **消费者（Consumer/Worker）**：从队列中取出任务并执行的工作进程

<TaskWorkerDemo />

::: tip 队列的三大价值
1. **解耦**：生产者不需要知道谁来处理任务，消费者不需要知道任务从哪来
2. **削峰填谷**：突发流量时任务先堆积在队列中，消费者按自己的节奏处理
3. **可靠性**：任务持久化在队列中，即使消费者崩溃也不会丢失
:::

| 组件 | 职责 | 常见实现 |
|------|------|---------|
| 消息中间件 | 存储和转发任务消息 | Redis、RabbitMQ、Kafka |
| 序列化器 | 将任务参数序列化/反序列化 | JSON、MessagePack、Pickle |
| 调度器 | 管理定时任务和延迟任务 | Cron、APScheduler、node-cron |
| 结果存储 | 保存任务执行结果 | Redis、数据库、S3 |

---

## 3. 可靠性保障：任务不能"丢了"也不能"重复"

在分布式环境中，网络抖动、服务重启、资源不足等问题随时可能发生。异步任务系统必须具备完善的可靠性保障机制。

最核心的两个问题：**任务丢失**（消费者处理到一半崩溃了）和**重复执行**（任务被投递了两次）。

<TaskRetryDemo />

::: tip 可靠性三板斧
1. **ACK 机制**：消费者处理完任务后才发送确认（ACK），未确认的任务会被重新投递
2. **重试策略**：任务失败后按策略重试，指数退避 + 抖动是最佳实践
3. **幂等性设计**：同一个任务执行多次和执行一次的效果相同，通过唯一 ID 去重实现
:::

| 机制 | 解决的问题 | 实现方式 |
|------|-----------|---------|
| ACK 确认 | 任务丢失 | 处理完成后手动确认，超时未确认则重新投递 |
| 死信队列（DLQ） | 反复失败的"毒消息" | 重试超过上限后转入死信队列，人工介入处理 |
| 幂等性 | 重复执行 | 用任务唯一 ID 做去重，数据库唯一约束 |
| 优先级队列 | 任务饥饿 | 高优先级任务优先处理，避免被低优先级任务阻塞 |
| 超时控制 | 任务卡死 | 设置最大执行时间，超时自动终止并重试 |

---

## 4. 框架选型：选择适合你的工具

不同语言生态有不同的异步任务框架，它们在功能丰富度、性能、易用性上各有侧重。选择框架时，首先考虑你的技术栈，然后根据项目规模和需求做决定。

<AsyncComparisonDemo />

::: tip 选型建议
- **Python 项目**：中大型用 Celery，小型用 RQ
- **Node.js 项目**：首选 BullMQ（Bull 的下一代）
- **Ruby 项目**：Sidekiq 几乎是唯一选择
- **Java 项目**：Spring 生态用 Spring Batch，高吞吐用 Kafka Streams
- **Go 项目**：Asynq（基于 Redis）或 Machinery

如果你的项目已经在用 Redis，那么基于 Redis 的方案（Celery+Redis、BullMQ、Sidekiq）是最简单的起步方式。
:::

---

## 总结

异步任务队列是后端架构中不可或缺的基础设施。它让系统能够优雅地处理耗时操作，提升用户体验的同时提高系统吞吐量。

回顾本章的关键要点：

1. **异步化的判断标准**：耗时长、非核心、可延迟，满足两个就该异步化
2. **生产消费模型**：Producer → Queue → Consumer，三者解耦协作
3. **Worker 池**：多个 Worker 并行消费，提高处理能力
4. **可靠性保障**：ACK 确认 + 重试策略 + 幂等性，三者缺一不可
5. **框架选型**：根据技术栈和项目规模选择，Redis 是最常见的消息中间件

## 延伸阅读

- [Celery 官方文档](https://docs.celeryq.dev/) - Python 最流行的分布式任务队列
- [BullMQ 文档](https://docs.bullmq.io/) - Node.js 高性能任务队列
- [Sidekiq Wiki](https://github.com/sidekiq/sidekiq/wiki) - Ruby 生态的任务处理标杆
- [RabbitMQ Tutorials](https://www.rabbitmq.com/tutorials) - 消息中间件入门教程
- [异步任务最佳实践](https://brandur.org/job-drain) - 任务队列的设计模式与陷阱