可观测与计费/模型定价

透明计费体系——按模型和提供商的定价、计费项目、成本优化策略与常见问题。

模型定价

UniGateway 使用透明的计费系统,确保每次调用都精确计量和计费。不同模型定价不同,同一模型在不同提供商处的定价也可能不同。

查看价格

模型详情页

在 UniGateway 控制台的模型详情页查看每个提供商的定价。每个提供商展示详细的计费标准,包括输入 Token、输出 Token 和特殊功能的费用。

对于阶梯定价的模型,费率按使用量层级显示,帮助你了解不同消费水平的成本。

Models API

通过 Models API 以编程方式获取定价信息:

curl https://api.unigateway.ai/v1/models \
  -H "Authorization: Bearer $UNIGATEWAY_API_KEY"
from openai import OpenAI

client = OpenAI(
    api_key="<YOUR_UNIGATEWAY_API_KEY>",
    base_url="https://api.unigateway.ai/v1",
)

models = client.models.list()
for model in models.data:
    print(f"{model.id}")
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.UNIGATEWAY_API_KEY,
  baseURL: "https://api.unigateway.ai/v1",
});

const models = await client.models.list();
for (const model of models.data) {
  console.log(model.id);
}

计费项目

UniGateway 按以下项目类型计费:

计费项目代码说明
输入 Tokenprompt处理输入提示词的费用
输出 Tokencompletion模型生成输出的费用
图像处理image图像处理或生成费用
基础请求费requestAPI 请求的基础费用
网页搜索web_search调用网页搜索功能的费用
缓存读取input_cache_read缓存读取操作的费用
缓存写入input_cache_write缓存写入操作的费用
缓存写入(5 分钟)input_cache_write_5_min5 分钟缓存写入操作的费用
缓存写入(1 小时)input_cache_write_1_h1 小时缓存写入操作的费用
内部推理internal_reasoning内部推理计算的费用

每次调用的计量和计费均保证准确。在请求日志中查看单次调用费用详情和费率明细。

定价因素

多个因素影响 API 调用的最终费用:

因素影响
模型不同模型有不同的单 Token 费率
提供商同一模型在不同提供商处可能有不同费率
Token 类型输入 Token 和输出 Token 分别定价
缓存使用缓存读取比完整提示词处理便宜得多
特殊功能网页搜索、图像处理和推理有额外费用
阶梯定价部分模型在更高使用量下提供批量折扣

成本优化

Prompt 缓存

缓存感知定价可显著降低重复提示词模式的成本:

项目相比 Prompt 的典型节省
input_cache_read比完整 prompt 处理便宜约 90%
input_cache_write写入成本略高于 prompt,但后续读取可节省费用
input_cache_write_5_min写入成本较低,缓存 TTL 较短
input_cache_write_1_h写入成本较高,缓存 TTL 较长

模型选择

策略方法
简单任务使用小模型对简单提示词选择 gpt-5.4-nano 而非 gpt-5.4

Token 管理

策略影响
减少提示词长度更少的输入 Token = 更低的费用
限制 max_tokens防止意外产生过长(且昂贵)的输出
总结对话历史减少多轮对话中的上下文窗口使用
高效使用系统提示词保持系统提示词简洁且利于缓存

了解你的账单

按量付费(Pay As You Go)

费用从你的账户余额按 Token、按调用扣除。每次调用的费用计算方式为:

总费用 = (输入 Token × 输入费率) + (输出 Token × 输出费率) + 特殊功能费用

成本分析中查看实时支出,在请求日志中查看单次调用详情。

常见问题

Q:为什么同一模型在不同提供商处费用不同? A:不同提供商可能对同一模型提供不同的定价。在模型定价页对比各提供商费率。

Q:如何在发起请求前预估费用? A:在控制台的模型详情页查看单 Token 费率。粗略估算方法:将预期的输入/输出 Token 数量分别乘以相应费率。

Q:缓存读取真的更便宜吗? A:是的。缓存读取(input_cache_read)通常比完整提示词处理便宜约 90%。具体费率请查看模型详情页。

Q:在哪里可以查看每次调用的确切费用? A:在请求日志中将鼠标悬停在 Cost 列上查看单次计费详情,或在请求详情页查看详细费率明细。

Example request

Run it in your stack

Pick the SDK style that matches your app and copy the snippet directly into your project.

from openai import OpenAI

client = OpenAI(api_key="<YOUR_UNIGATEWAY_API_KEY>", base_url="https://api.unigateway.ai/v1")
models = client.models.list()
for model in models.data:
    print(model.id)