API 文档

参照 Gemini API 与 Google Nano Banana 官方文档,通过 OpenAI 兼容接口调用对话模型,并通过原生 generateContent 调用图片、视频与音乐。本文档涵盖鉴权、端点、Nano Banana 图片生成详解、流式输出与计费。

概述

Aisoui 模型中转站将主流 AI 模型封装为易于集成的 HTTP API。 对外 API 地址为 https://api.aisoui.com/v1,提供 OpenAI Chat Completions 兼容 接口,现有 OpenAI SDK / 客户端只需替换 Base URL 与 API Key 即可接入。

控制台还提供网页端「游乐场」「图片工作室」,适合调试;生产环境建议使用 API Key 调用 /v1/chat/completions

快速开始

  1. 注册 / 登录控制台,在「API 密钥」创建密钥(格式 sk-...)。
  2. 将请求 Base URL 设为 https://api.aisoui.com/v1(域名 api.aisoui.com)。
  3. 请求头添加 Authorization: Bearer YOUR_API_KEY
  4. model 字段指定模型 ID,如 gemini-3.5-flash
  5. 账户需有足够余额;新用户注册赠送 ¥5,详见「定价与计费」。

身份验证

API Key(对外接口)

所有对外 API 均需在 Header 中携带:

Authorization: Bearer sk-xxxxxxxx

接口范围与 Key 权限:

  • OpenAI 兼容/v1/models/v1/chat/completions
  • Gemini 兼容POST /v1beta/models/{model}:generateContent(图片、音乐等)

创建 Key 时可选择权限:

  • 完全访问:全部 /v1/* 与 /v1beta/* 接口
  • 标准:模型列表 + 对话 + generateContent
  • 只读:仅 GET /v1/models

模型

请求中的 model 使用下方模型 ID(与 Google Gemini 官方 ID 一致)。可通过 List Models 接口获取完整列表。

列出模型
curl https://api.aisoui.com/v1/models \
  -H "Authorization: Bearer YOUR_API_KEY"
Gemini 3.5 Flash 已正式发布 (GA) — 稳定可靠,可大规模用于生产。作为最智能的 Flash 模型,在智能体执行、编码和长期任务方面持续提供前沿性能,推荐作为默认对话模型。

主流对话模型

模型模型 ID说明
Gemini 3.5 Flash GAgemini-3.5-flash默认推荐。最智能的 Flash 模型,适合智能体、编码与长期任务,可大规模用于生产
Gemini 3.1 Progemini-3.1-pro-preview复杂推理与深度分析
Gemini 3 Flashgemini-3-flash-previewGemini 3 Flash 预览版
Gemini 3.1 Flash-Litegemini-3.1-flash-lite轻量高速,成本更低

图片模型(Nano Banana 系列 · 控制台图片工作室)

模型模型 ID说明
Nano Banana 2gemini-3.1-flash-imageGemini 3.1 Flash Image,Pro Image 的高效版,针对速度与高容量开发者场景优化
Nano Banana Progemini-3-pro-imageGemini 3 Pro Image,专为专业资产制作设计,支持高级推理(「思考」)与复杂指令、高保真文本
Nano Bananagemini-2.5-flash-imageGemini 2.5 Flash Image,专为速度与效率设计,适合海量低延迟任务

视频模型(Veo 系列)

模型模型 ID说明
Veo 3.1 Standardveo-3.1-generate-001高质量视频+音频同步生成(GA),720p/1080p 同价,支持 4K
Veo 3.1 Fastveo-3.1-fast-generate-001快速视频+音频生成(GA),适合高频迭代
Veo 3.1 Liteveo-3.1-lite-generate-001最经济档,适合预览与批量,不支持 4K
Veo 3 Standardveo-3.0-generate-001稳定版高质量视频+音频(GA)
Veo 3 Fastveo-3.0-fast-generate-001稳定版快速视频+音频(GA)

音乐模型(Lyria 3 系列)

模型模型 ID说明
Lyria 3 Cliplyria-3-clip-preview固定 30 秒 MP3,适合短片段、循环与预览;含人声、歌词与完整编曲,44.1 kHz 立体声
Lyria 3 Prolyria-3-pro-preview完整歌曲(约数分钟),主歌/副歌/桥段结构;支持文本或图片输入,MP3/WAV 输出

对话 API

POST /v1/chat/completions — 兼容 OpenAI Chat Completions

参数类型说明
modelstring必填,模型 ID
messagesarray必填,{ role, content } 消息数组
streamboolean可选,true 启用 SSE 流式
temperaturenumber可选,采样温度
curl https://api.aisoui.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "messages": [
      { "role": "user", "content": "你好" }
    ]
  }'

流式输出

设置 "stream": true 后,响应为 Server-Sent Events(SSE),与 OpenAI 流式格式兼容。 控制台「游乐场」即基于此实现。反向代理需关闭 proxy_buffering 并设置足够长的 proxy_read_timeout

curl https://api.aisoui.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "stream": true,
    "messages": [
      { "role": "user", "content": "写一首短诗" }
    ]
  }'

Nano Banana 图片生成

用自然语言描述场景即可生成、编辑、迭代视觉内容。Aisoui 提供 Gemini 兼容的 POST /v1beta/models/{model}:generateContent 接口,请求/响应格式与 Google 官方文档 一致;使用 API Key 鉴权(Authorization: Bearer sk-…)。

Nano Banana 简介

Nano Banana 是 Gemini 原生图片生成能力的统称。模型可对话式地生成与处理图像,支持纯文本、参考图、多轮历史组合输入,实现文生图、局部编辑、风格迁移与复杂排版。

名称Gemini 模型 ID定位
Nano Banana 2gemini-3.1-flash-image默认推荐。速度与智能平衡,支持 512~4K、Google 搜索 grounding、最多 14 张参考图
Nano Banana Progemini-3-pro-image专业资产:复杂指令、「思考」过程、高保真文字、最高 4K
Nano Bananagemini-2.5-flash-image轻量高速,1024px 级输出,适合海量低延迟

所有生成图片均含 SynthID 数字水印。计费按 Token 用量,详见「定价与计费」。

如何选择模型

  • 日常 / 高并发gemini-3.1-flash-image(Nano Banana 2)
  • 海报、信息图、精确文字、复杂构图gemini-3-pro-image(Pro)
  • 简单图标、快速草稿gemini-2.5-flash-image
核心原则:用叙事性段落描述场景,而不是堆关键词。模型对自然语言理解远强于逗号分隔的标签列表。

图片工作室

登录控制台 →「图片工作室」,可在网页上调试 Prompt、管理多轮历史与参考图。 生产环境请使用下方 REST 接口,Base URL 为 https://api.aisoui.com/v1beta

单次生成通常 30 秒~2 分钟;4K 或复杂 Prompt 可能更久。建议客户端超时 ≥ 120s。

文生图(Text-to-Image)

调用 generateContent,在 generationConfig 中设置 responseModalities: ["TEXT", "IMAGE"]。响应 parts 中可能同时包含说明文字与 inlineData 图片(Base64)。

REST(Nano Banana 2 · Aisoui API)
curl -s -X POST \
  "https://api.aisoui.com/v1beta/models/gemini-3.1-flash-image:generateContent" \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"}
      ]
    }],
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"]
    }
  }'
JavaScript 解析响应
for (const part of response.candidates[0].content.parts) {
  if (part.text) {
    console.log(part.text)
  } else if (part.inlineData) {
    const buffer = Buffer.from(part.inlineData.data, 'base64')
    fs.writeFileSync('output.png', buffer)
  }
}

图生图与编辑(Text + Image → Image)

parts 中同时传入文本与 inline_data,可添加/删除元素、改风格、换背景、inpainting 语义蒙版等。请确保对上传图片拥有合法使用权。

  • 元素增删:「在这张猫照片上给它加一顶针织巫师帽,光线与原图一致」
  • 语义 inpainting:「只把蓝色沙发换成棕色 Chesterfield,其余不变」
  • 高保真保留:详细描述需保留的人脸/Logo 细节 + 修改项
  • 多图合成:最多 14 张参考(3.1 Flash:10 物体 + 4 角色;Pro:6 物体 + 5 角色)
REST 图生图 + 2K 16:9
curl -s -X POST \
  "https://api.aisoui.com/v1beta/models/gemini-3.1-flash-image:generateContent" \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Create a picture of my cat eating a nano-banana in a fancy restaurant"},
        {"inline_data": {"mime_type": "image/png", "data": "<BASE64_IMAGE_DATA>"}}
      ]
    }],
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {"aspectRatio": "16:9", "imageSize": "2K"}
    }
  }'

多轮对话式编辑

推荐用多轮会话迭代图片:每轮将上一轮 model 输出的图片放入 contents 数组,再发送新指令。

Gemini 3 图像模型在复杂 Prompt 下会启用 Thinking:可能先产生 interim「思考图」(默认不展示、不计入最终输出),再生成终稿。多轮时需保留 thought_signature(官方 SDK 自动处理;手动拼 history 时需按官方说明回传)。

多轮 contents 结构(第二语言本地化示例)
{
  "contents": [
    {
      "role": "user",
      "parts": [{"text": "Create a vibrant infographic explaining photosynthesis…"}]
    },
    {
      "role": "model",
      "parts": [{"inline_data": {"mime_type": "image/png", "data": "<PREVIOUS_IMAGE>"}}]
    },
    {
      "role": "user",
      "parts": [{"text": "Update this infographic to be in Spanish. Do not change layout."}]
    }
  ],
  "generationConfig": {
    "responseModalities": ["TEXT", "IMAGE"],
    "imageConfig": {"aspectRatio": "16:9", "imageSize": "2K"}
  }
}

Gemini 3 图像模型能力

分辨率

3.x:5121K2K4K(须大写 K)。2.5 Flash 默认约 1024px。

宽高比

1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9;3.1 Flash 另支持 1:4、4:1、1:8、8:1。

Google 搜索 Grounding

工具 google_search,基于实时信息生成信息图、天气图等。在请求体 tools 中配置,详见 Google 官方文档。

Thinking 级别

3.1 Flash:minimal(低延迟,默认)/ highincludeThoughts 控制是否在响应中返回思考过程文本。

宽高比1K2K4K
1:11024×10242048×20484096×4096
16:91376×7682752×15365504×3072
9:16768×13761536×27523072×5504

完整像素与 Token 对照见 Google 官方文档 Aspect ratios 表格。

generateContent 常用参数

请求体遵循 Gemini API 格式。路径中的 {model} 为模型 ID(如 gemini-3.1-flash-image)。

字段类型说明
contentsarray对话轮次;每轮含 parts(text / inline_data)
generationConfig.responseModalitiesarray图片生成设为 ["TEXT","IMAGE"]["IMAGE"]
generationConfig.imageConfig.aspectRatiostring1:1、16:9、9:16 等,默认 1:1
generationConfig.imageConfig.imageSizestring512 / 1K / 2K / 4K,仅 Gemini 3 图像模型
toolsarray可选,启用 Google 搜索 grounding(google_search
generationConfig.thinkingConfigobject3.1 Flash:thinkingLevel(minimal / high)、includeThoughts

解析响应

成功时返回 Gemini 标准 JSON。遍历 candidates[0].content.parts, 其中 inlineData 为 Base64 图片;跳过 thought: true 的中间图(除非调试)。 Token 用量见 usageMetadata

{
  "candidates": [{
    "content": {
      "parts": [
        { "text": "Generated an isometric city scene…" },
        { "inlineData": { "mimeType": "image/png", "data": "<BASE64>" } }
      ]
    }
  }],
  "usageMetadata": {
    "promptTokenCount": 1120,
    "candidatesTokenCount": 1120
  }
}

Prompt 指南与示例

描述场景,不要只列关键词。叙事性段落几乎总是比标签堆叠效果更好。

写实摄影

一位年迈的日本陶艺家的特写肖像,深皱纹与温暖笑容,在阳光充足的工作坊里检查茶碗。85mm 人像镜头,浅景深,黄金时刻侧光,竖构图。

使用摄影术语:焦段、光线、景深、构图方向。

贴纸 / 图标

一只 happy 红熊猫 kawaii 贴纸,戴小竹帽,粗线条、赛璐璐上色,背景必须为纯白(模型不支持透明 PNG)。

明确风格与背景;透明背景需后期处理。

品牌文字

为咖啡店 The Daily Grind 设计极简黑白圆形 Logo,无衬线粗体,巧妙融入咖啡豆元素。

Pro / 3.1 Flash Image 更擅长可读文字。

产品摄影

极简哑光黑陶瓷咖啡杯产品照,抛光混凝土台面,三点柔光箱,45° 俯拍,蒸汽细节清晰,方形构图。

电商主图:材质、灯光、角度写清楚。

搜索 grounding

将旧金山未来 5 天天气预报可视化为现代信息图,并标注每日穿搭建议。

需开启 googleSearch;基于实时信息生成。

风格迁移

将这张现代城市夜景照片转为梵高《星夜》风格,保留建筑与车辆构图,旋转笔触,蓝黄对比色。

上传原图 + 描述目标风格,而非只列关键词。

专业技巧

  • 极度具体:写材质、光线、镜头、情绪,而非「高质量」「精美」
  • 说明用途:「高端护肤品牌极简 Logo」比「做个 Logo」更好
  • 分步指令:复杂场景拆成「先背景 → 再主体 → 再文字」
  • 迭代 refine:「很好,把光线再暖一点」「保持构图,只改文字为西班牙语」
  • 相机语言:wide-angle、macro、low-angle、85mm bokeh 等
  • 语义负向:用正向描述替代「不要车」→「空无一车的安静街道」

限制与最佳实践

  • 最佳语言:中文、英语及 Google 文档列出的主要语言
  • 不支持透明背景 PNG;需要透明请后期抠图
  • 不保证严格输出用户指定的图片张数
  • 2.5 Flash 参考图建议 ≤3 张;3 Pro 高保真 ≤5 张,合计最多 14 张
  • 含文字的复杂排版:建议 Pro 或 3.1 Flash + 2K/4K
  • 上传人物/品牌素材请遵守版权与 Google 使用政策
  • 失败常见原因:余额不足、安全过滤、上游超时 — 见「错误处理」

视频生成

视频生成基于 Google Veo 模型,支持文生视频、图生视频,默认输出带同步音频。 计费按成功生成的视频秒数 × 分辨率单价,与 Gemini API 官方一致。

  • 常用时长:4 / 6 / 8 秒(视模型而定)
  • 分辨率:720p、1080p;Standard / Fast 另支持 4K
  • 模型 ID 示例:veo-3.1-generate-001veo-3.1-fast-generate-001
  • 生成为异步长任务,需轮询操作状态;仅生成成功时扣费

登录控制台 →「视频工作室」,可在网页上调试 Prompt、时长、分辨率与参考图。

音乐生成

音乐生成基于 Google Lyria 3,通过 generateContent 调用,支持文本或图片(最多 10 张)多模态输入,输出 44.1 kHz 高保真立体声 MP3(Pro 可选 WAV)。

  • lyria-3-clip-preview — 固定 30 秒片段,适合快速试 prompt
  • lyria-3-pro-preview — 完整歌曲,可用 [Verse] / [Chorus] 标签或时间戳控制结构
  • 响应含歌词文本 + 音频二进制,需遍历所有 parts(歌词顺序不固定)
  • generationConfig 需设置 responseModalities: ["AUDIO", "TEXT"]
REST 示例(Clip · Aisoui API)
curl -s -X POST \
  "https://api.aisoui.com/v1beta/models/lyria-3-clip-preview:generateContent" \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{ "text": "Create a 30-second cheerful acoustic folk song with guitar and harmonica." }]
    }],
    "generationConfig": {
      "responseModalities": ["AUDIO", "TEXT"]
    }
  }'

Base URL:https://api.aisoui.com/v1beta。可在控制台「音乐工作室」体验,或通过 API Key 调用。

定价与计费

对话与图片按 Token 用量 后付费;视频按 生成秒数 计费;音乐按 每次生成 计费。

新用户注册

赠送 ¥5

充值赠送(最低 ¥10)

  • 充 ¥100赠送 ¥5
  • 充 ¥500赠送 ¥30
  • 充 ¥1000赠送 ¥80

余额不足时 API 返回错误,请先在控制台「财务账单」充值。消费明细可在同一页面查看。

对话模型费率

模型模型 ID输入 / 1K输出 / 1K

图片模型费率

模型模型 ID输入 / 1K输出 / 1K

图片单次生成约 1120 输入 + 1120 输出 Token(以实际 usage 为准)。

视频模型费率

模型模型 ID720p ¥/秒1080p ¥/秒

示例:Veo 3.1 Fast 生成 8 秒 1080p 视频 ≈ ¥1.17 × 8 = ¥9.36(以实际秒数为准)。

音乐模型费率

模型模型 ID单价

Clip 固定 30 秒/首;Pro 按完整歌曲计 1 首。官方仅成功生成时计费。

错误处理

HTTP 状态含义
401API Key 无效或未提供
403API Key 权限不足(如只读 Key 调用对话接口)
400参数错误、余额不足、模型不存在
429请求过于频繁(如有速率限制)
504上游 Gemini 超时,请检查网络或代理
500服务端内部错误

错误响应体为 JSON:{ "error": "描述信息" }