feat: add AI integration documentation images and updates

This commit is contained in:
sanbuphy
2026-01-20 23:32:48 +08:00
parent 4bb9333b37
commit 84b1e83f4e
15 changed files with 153 additions and 133 deletions
Binary file not shown.

After

Width:  |  Height:  |  Size: 110 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.2 MiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 69 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 809 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 44 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 121 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 272 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 659 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 6.9 MiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 2.5 MiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.7 MiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 512 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 4.0 MiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 183 KiB

@@ -286,13 +286,162 @@ caption = caption_image(image_path)
![](images/index-2026-01-20-15-35-41.png) ![](images/index-2026-01-20-15-35-41.png)
# 4. 接入图像生成 APIQwen Image / Qwen Image Edit # 4. 接入图像生成 APISeedream 即梦
在前面的部分我们主要和文本相关的任务打交道,接下来我们将尝试接入图片生成的功能,支持从文字描述生成图片,或者对图片进行修改。 在前面的部分我们主要和文本相关的任务打交道,接下来我们将尝试接入图片生成的功能,支持从文字描述生成图片,或者对图片进行修改。
::: info ️ 原理延伸 ::: info ️ 原理延伸
如果你想了解更多原理相关的内容,请查看附录:[图像生成入门](/zh-cn/appendix/image-gen-intro)。 如果你想了解更多原理相关的内容,请查看附录:[图像生成入门](/zh-cn/appendix/image-gen-intro)。
::: details 了解更多:什么是 [Seedream 即梦](https://seed.bytedance.com/en/seedream4_5)
![](images/index-2026-01-20-23-15-17.png)
> 也许你已经知道 Nano Banana(Google 开发),但你最好不要错过 Seedream。Seedream 4.5 是字节跳动打造的新一代图像创作模型。它将图像生成和图像编辑能力集成到一个统一的架构中。这使得它能够灵活处理复杂的多模态任务,如基于知识的生成、复杂推理和参考一致性。此外,它的推理速度比前代产品快得多,并且可以生成分辨率高达 4K 的令人惊叹的高清图像。
>
> ![](images/index-2026-01-20-23-15-38.png)
> ![](images/index-2026-01-20-23-15-50.png)
**主要能力:**
- **文生图**:用文字描述生成图片,支持多种风格(写实、卡通、水墨、赛博朋克等)
- **风格迁移**:将一张图片转换成指定的艺术风格
- **图像变体**:基于参考图生成相似风格的新图
- **分辨率提升**:增强图片清晰度和细节
- **图像编辑**:在现有图片上进行编辑和修改,通过自然语言指令
**为什么选择 Seedream**
- **国内网络稳定**:国内访问速度快,延迟低
- **效果优秀**:在电商、素材场景下表现稳定可靠
- **中文优化**:对中文提示词理解更准确,适合国内用户
- **速度快**:生成效率高,响应时间短
- **质量稳定**:生成分辨率高达 4K 的高清图像
**典型应用场景:**
- 电商:生成主图、详情页配图、促销海报
- 社交媒体:生成头像、表情包、配图
- 设计:快速出概念图、素材图、背景图
- 营销:制作广告图、活动 banner、节日海报
**与 Qwen3 VL 的配合:**
这两个 API 可以串联使用:先用 Qwen3 VL 分析参考图,理解画面内容;再用 Seedream 基于分析参考图的提示词内容生成新图片。
:::
你可能在抖音、B 站或 YouTube 上看到的很多 "AI 海报 / AI 主图 / AI 角色图",本质上都是用到这部分介绍的技术。你需要做的事情很简单:把用户输入整理成一句话,请求图片 API,然后把返回的图片展示出来。此时用到的模型叫做图片生成 / 图片编辑模型。
我们将逐步演示如何将 Seedream API 集成到你的项目中(通过 AI IDE 辅助完成)。
[访问首页页面](https://www.volcengine.com/experience/ark?launch=seedream)后,点击登录。
![](images/index-2026-01-20-23-12-07.png)
登录后,找到页面右上角的充值选项。
![](images/index-2026-01-20-23-12-22.png)
进行充值需要实名认证。
![](images/index-2026-01-20-23-12-30.png)
认证成功后,你可以[充值 1 元用于测试](https://console.volcengine.com/finance/fund/recharge)。
返回[初始界面](https://www.volcengine.com/experience/ark?launch=seedream)并点击 API 访问。
![](images/index-2026-01-20-23-12-43.png)
首先,创建一个 API key,然后点击选择选项。
![](images/index-2026-01-20-23-13-01.png)
这将带你进入第 2 步。在这里,你需要确认调用的服务是 Seedream 4.5,并复制提供的调用示例。(此处截图时间比较早起,故而模型版本仍然是 4.0)
![](images/index-2026-01-20-23-13-11.png)
准备好 API Key 和调用示例后,你可以直接将它们粘贴到 AI IDE 中,让它生成前端交互演示或把能力接入现有原型。注意到在图片中可以选择是文生图还是多张图片生成单张图,你需要根据当前的需求进行选择参考代码。
::: warning ⚠️ 重要提示
这里的默认示例相对复杂。记得禁用 **"添加水印"** 和 **"流式响应"**,以确保不生成水印且不会发生请求失败。
:::
由于我们之后使用的是参考图生成模式,我们先去的是多张图生成单张图的功能。参考代码复制如下:
```
curl -X POST https://ark.cn-beijing.volces.com/api/v3/images/generations \
-H "Content-Type: application/json" \
-H "Authorization: Bearer xxxxxxx" \
-d '{
"model": "doubao-seedream-4-5-251128",
"prompt": "将图1的服装换为图2的服装",
"image": ["https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_1.png", "https://ark-project.tos-cn-beijing.volces.com/doc_image/seedream4_imagesToimage_2.png"],
"sequential_image_generation": "disabled",
"response_format": "url",
"size": "2K",
"stream": false,
"watermark": true
}'
```
有了图像参考代码后,我们让 AI IDE 支持电商中常用的图像任务功能:
```
请你基于下面 API,帮我实现这个工程中,电商业务的常见功能(例如海报生成、抖音电商首图生成等等)
<此处粘贴 API KEY以及图像编辑代码>
```
实现效果如下:
![](images/index-2026-01-20-23-21-13.png)
值得注意的是,由于生成图片可能会经常遇到一些奇怪的问题,建议你需要让 AI IDE 能够显示完整的报错信息,方便复制粘贴进行修改(否则可能会反复显示生成失败但是不知道为什么),例如你可以说:
```
不要只显示图片生成失败,每次都显示完整的失败原因,比如图片不匹配、请求错误、超时等等!
```
有时候修改后更新并不会应用到网页中,如果你发现修改后网页一直还在报错(反复多次),也可以试试直接对 AI IDE 说:请你重启这个项目。
在电商的业务中,我们可能会想让用户上传的衣服能够自动穿在人物身上,又或者是自动生成商品吸引人的售卖图、海报。这里我们尝试的提示词是让它生成一个电商海报:
![](images/index-2026-01-20-23-14-10.png)
你可以根据自己想象的业务场景,使用文生图或者图生图 API 实现不同的功能。
## 更多不同图像服务选型
下面给出其他选择。建议你先跑通 Qwen 生图的结果,再根据效果与成本使用下列服务做替换(根据实际使用感受选择)。
### Recraft 集成
如果你的原型更偏“设计生产”(例如生成品牌风格插画、营销海报、矢量风格素材),Recraft 往往会更顺手。接入方式与上一节完全一致:**拿到 Key + 找到官方示例 + 让 AI IDE 把示例落到你的按钮/页面里**。
::: details 了解更多:什么是 Recraft
> Recraft 是一款面向设计师、插画师和营销人员的 AI 工具——于 2022 年在美国成立,总部位于伦敦。它帮助生成/迭代视觉效果(图像、矢量艺术、3D 图形),具有高质量输出(任何文本大小/长度)、精确元素定位和品牌一致性设计等优势。受到 200 个国家/地区 300 多万用户(包括奥美、Netflix)的信任,并已创建了 3.5 亿多张图像,其团队旨在使其成为必备的设计师工具,确保创作者能够控制他们的 AI 辅助工作流程。
>
> ![](images/index-2026-01-20-23-23-34.png)
> ![](images/index-2026-01-20-23-23-42.png)
首先,我们仍然需要找到[ API 入口](https://www.recraft.ai/profile/api)以获取 API Key。
由于这里没有提供免费额度,我们需要自己充值 1,000 积分。这个网站支持支付宝和微信支付,所以很容易获得 1,000 积分(注意:不要充值超过必要的金额)。
![](images/image40.png)
之后,我们仍然遵循同样的方法:去官方文档找到相应的请求示例:
- <https://www.recraft.ai/docs/api-reference/getting-started>
- <https://www.recraft.ai/docs/api-reference/usage>
- <https://www.recraft.ai/docs/api-reference/guides>
:::
### Qwen Image / Qwen Image Edit 集成
如果你希望使用更简单的方式接入图像生成服务,可以考虑 Qwen Image(通义万相)。思路同样不变:把它当成一个"图片生成 API",接到你的原型按钮上即可。
::: details 了解更多:Qwen Image / Qwen Image Edit 是什么? ::: details 了解更多:Qwen Image / Qwen Image Edit 是什么?
**Qwen Image**(也称通义万相)是阿里云通义团队推出的图像生成模型系列,主要包括两大模型: **Qwen Image**(也称通义万相)是阿里云通义团队推出的图像生成模型系列,主要包括两大模型:
@@ -343,22 +492,15 @@ caption = caption_image(image_path)
- 社交媒体:生成头像、表情包、配图 - 社交媒体:生成头像、表情包、配图
- 设计:快速出概念图、素材图、背景图 - 设计:快速出概念图、素材图、背景图
- 营销:制作广告图、活动 banner、节日海报 - 营销:制作广告图、活动 banner、节日海报
**与 Qwen3 VL 的配合:**
这两个 API 可以串联使用:先用 Qwen3 VL 分析参考图,理解画面内容;再用 Qwen Image 根据分析结果生成新图;最后用 Qwen Image Edit 进行局部优化。这种「理解 → 生成 → 编辑」的流程,是 AI 素材生成的完整链路。
::: :::
你可能在抖音、B 站或 YouTube 上看到的很多 “AI 海报 / AI 主图 / AI 角色图”,本质上都是用到这部分介绍的技术。你需要做的事情很简单:把用户输入整理成一句话,请求图片 API,然后把返回的图片展示出来。此时用到的模型叫做图片生成 / 图片编辑模型 查看 [SiliconFlow](https://siliconflow.cn/) 的官网。左侧有一个"Playground"部分,你可以在不进行 API 调用的情况下试用不同的模型。在网页顶部有一个"Filters"按钮;点击它可以筛选右侧的模型列表
查看 SiliconFlow 的官网。左侧有一个“Playground”部分,你可以在不进行 API 调用的情况下试用不同的模型。在网页顶部有一个“Filters”按钮;点击它可以筛选右侧的模型列表 如果你选择"Image",你将只看到当前支持的所有文生图模型。在这种情况下,我们将使用 Qwen/Qwen-Image
如果你选择“Image”,你将只看到当前支持的所有文生图模型。在这种情况下,我们将使用 Qwen/Qwen-Image。
![](images/index-2026-01-20-15-52-56.png) ![](images/index-2026-01-20-15-52-56.png)
一切设置好后,我们需要参考相应的图像生成 API 文档。你可以在官方文档页面找到任何标记为API Reference的部分。点击它,然后导航到[图像生成的 API 部分](https://docs.siliconflow.cn/cn/api-reference/images/images-generations)并找到相关的请求示例。 一切设置好后,我们需要参考相应的图像生成 API 文档。你可以在官方文档页面找到任何标记为"API Reference"的部分。点击它,然后导航到[图像生成的 API 部分](https://docs.siliconflow.cn/cn/api-reference/images/images-generations)并找到相关的请求示例。
你可以把下列请求示例和 API KEY 一起发给 AI IDE, 即可实现图像生成的功能。 你可以把下列请求示例和 API KEY 一起发给 AI IDE, 即可实现图像生成的功能。
@@ -376,10 +518,6 @@ curl --request POST \
``` ```
这里的模型可以使用 Qwen/Qwen-Image 或者 Qwen/Qwen-Image-Edit-2509。 这里的模型可以使用 Qwen/Qwen-Image 或者 Qwen/Qwen-Image-Edit-2509。
但是,我们注意到对于这个 API 来说,只有提示词 prompt,并没有输入图片的接口,没法用来进行图像编辑的操作。
在电商的业务中,我们可能会想让用户上传的衣服能够自动穿在人物身上,又或者是自动生成商品吸引人的售卖图、海报,故而需要用到编辑模型,我们可以用下面的 API 进行图像编辑请求:
::: details 图像编辑参考代码 ::: details 图像编辑参考代码
复制下列代码和 key,一起发送给 AI IDE: 复制下列代码和 key,一起发送给 AI IDE:
@@ -492,124 +630,6 @@ else:
``` ```
::: :::
有了图像编辑代码后,我们让 AI IDE 支持电商中常用的图像任务功能:
```
基于下面 API,帮我实现这个工程中,电商业务的常见功能(例如海报生成、抖音电商首图生成等等)
<此处粘贴 API KEY以及图像编辑代码>
```
实现效果如下:
![](images/index-2026-01-20-16-58-51.png)
值得注意的是,由于生成图片可能会经常遇到一些奇怪的问题,建议你需要让 AI IDE 能够显示完整的报错信息,方便复制粘贴进行修改(否则可能会反复显示生成失败但是不知道为什么),例如你可以说:
```
不要只显示图片生成失败,每次都显示完整的失败原因,比如图片不匹配、请求错误、超时等等!
```
有时候修改后更新并不会应用到网页中,如果你发现修改后网页一直还在报错(反复多次),也可以试试直接对 AI IDE 说:请你重启这个项目。
## 更多不同图像服务选型
下面给出其他选择。建议你先跑通 Qwen 生图的结果,再根据效果与成本使用下列服务做替换(根据实际使用感受选择)。
### Recraft 集成
如果你的原型更偏“设计生产”(例如生成品牌风格插画、营销海报、矢量风格素材),Recraft 往往会更顺手。接入方式与上一节完全一致:**拿到 Key + 找到官方示例 + 让 AI IDE 把示例落到你的按钮/页面里**。
::: details 了解更多:什么是 Recraft
> Recraft 是一款面向设计师、插画师和营销人员的 AI 工具——于 2022 年在美国成立,总部位于伦敦。它帮助生成/迭代视觉效果(图像、矢量艺术、3D 图形),具有高质量输出(任何文本大小/长度)、精确元素定位和品牌一致性设计等优势。受到 200 个国家/地区 300 多万用户(包括奥美、Netflix)的信任,并已创建了 3.5 亿多张图像,其团队旨在使其成为必备的设计师工具,确保创作者能够控制他们的 AI 辅助工作流程。
>
> ![](images/image37.png)
>
> ![](images/image38.png)
>
> ![](images/image39.png)
首先,我们仍然需要找到 API 入口以获取 API Key<https://www.recraft.ai/profile/api>
由于这里没有提供免费额度,我们需要自己充值 1,000 积分。这个网站支持支付宝和微信支付,所以很容易获得 1,000 积分(注意:不要充值超过必要的金额)。
![](images/image40.png)
之后,我们仍然遵循同样的方法:去官方文档找到相应的请求示例:
- <https://www.recraft.ai/docs/api-reference/getting-started>
- <https://www.recraft.ai/docs/api-reference/usage>
- <https://www.recraft.ai/docs/api-reference/guides>
:::
### Seedream即梦 集成
如果你希望使用国内网络更稳定、且效果不错的图像生成服务,可以考虑 Seedream(火山引擎)。思路同样不变:把它当成一个“图片生成 API”,接到你的原型按钮上即可。
::: details 了解更多:什么是 Seedream 即梦?
模型介绍:<https://seed.bytedance.com/en/seedream4_0>
![](images/image43.png)
> 也许你已经知道 Nano Banana(Google 开发),但你最好不要错过 Seedream。Seedream 4.0 是字节跳动打造的新一代图像创作模型。它将图像生成和图像编辑能力集成到一个统一的架构中。这使得它能够灵活处理复杂的多模态任务,如基于知识的生成、复杂推理和参考一致性。此外,它的推理速度比前代产品快得多,并且可以生成分辨率高达 4K 的令人惊叹的高清图像。
>
> ![](images/image44.png)
>
> ![](images/image45.png)
>
> ![](images/image46.png)
我们将逐步演示如何将 Seedream API 集成到你的项目中(通过 AI IDE 辅助完成)。
入口:<https://www.volcengine.com/experience/ark?launch=seedream>
访问页面后,点击登录。
![](images/image47.png)
登录后,找到页面右上角的充值选项。
![](images/image48.png)
进行充值需要实名认证。
![](images/image49.png)
认证成功后,你可以充值 1 元用于测试。
充值入口:<https://console.volcengine.com/finance/fund/recharge>
![](images/image50.png)
返回初始界面并点击 API 访问。
![](images/image51.png)
首先,创建一个 API key,然后点击选择选项。
![](images/image52.png)
这将带你进入第 2 步。在这里,你需要确认调用的服务是 Seedream 4.0,并复制提供的调用示例。
![](images/image53.png)
准备好 API Key 和调用示例后,你可以直接将它们粘贴到 AI IDE 中,让它生成前端交互演示或把能力接入现有原型。
::: warning ⚠️ 重要提示
这里的默认示例相对复杂。记得禁用 **“添加水印”** 和 **“流式响应”**,以确保不生成水印且不会发生请求失败。
![](images/image54.png)
输入提示词后,你将收到生成的结果。享受它吧!
![](images/image55.png)
:::
# 附录:如何找到“当前更强”的 AI 模型 # 附录:如何找到“当前更强”的 AI 模型
文字模型(也常被叫作“大语言模型”)的发展速度非常快,我们总是需要确保我们用的是表现更好的模型之一。通过以下两个网站,你可以很方便地看到“现在大家常用、评价也更好的模型”。 文字模型(也常被叫作“大语言模型”)的发展速度非常快,我们总是需要确保我们用的是表现更好的模型之一。通过以下两个网站,你可以很方便地看到“现在大家常用、评价也更好的模型”。