模型定价
UniGateway 使用透明的计费系统,确保每次调用都精确计量和计费。不同模型定价不同,同一模型在不同提供商处的定价也可能不同。
查看价格
模型详情页
在 UniGateway 控制台的模型详情页查看每个提供商的定价。每个提供商展示详细的计费标准,包括输入 Token、输出 Token 和特殊功能的费用。
对于阶梯定价的模型,费率按使用量层级显示,帮助你了解不同消费水平的成本。
Models API
通过 Models API 以编程方式获取定价信息:
curl https://api.unigateway.ai/v1/models \
-H "Authorization: Bearer $UNIGATEWAY_API_KEY"
from openai import OpenAI
client = OpenAI(
api_key="<YOUR_UNIGATEWAY_API_KEY>",
base_url="https://api.unigateway.ai/v1",
)
models = client.models.list()
for model in models.data:
print(f"{model.id}")
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.UNIGATEWAY_API_KEY,
baseURL: "https://api.unigateway.ai/v1",
});
const models = await client.models.list();
for (const model of models.data) {
console.log(model.id);
}
计费项目
UniGateway 按以下项目类型计费:
| 计费项目 | 代码 | 说明 |
|---|---|---|
| 输入 Token | prompt | 处理输入提示词的费用 |
| 输出 Token | completion | 模型生成输出的费用 |
| 图像处理 | image | 图像处理或生成费用 |
| 基础请求费 | request | API 请求的基础费用 |
| 网页搜索 | web_search | 调用网页搜索功能的费用 |
| 缓存读取 | input_cache_read | 缓存读取操作的费用 |
| 缓存写入 | input_cache_write | 缓存写入操作的费用 |
| 缓存写入(5 分钟) | input_cache_write_5_min | 5 分钟缓存写入操作的费用 |
| 缓存写入(1 小时) | input_cache_write_1_h | 1 小时缓存写入操作的费用 |
| 内部推理 | internal_reasoning | 内部推理计算的费用 |
每次调用的计量和计费均保证准确。在请求日志中查看单次调用费用详情和费率明细。
定价因素
多个因素影响 API 调用的最终费用:
| 因素 | 影响 |
|---|---|
| 模型 | 不同模型有不同的单 Token 费率 |
| 提供商 | 同一模型在不同提供商处可能有不同费率 |
| Token 类型 | 输入 Token 和输出 Token 分别定价 |
| 缓存使用 | 缓存读取比完整提示词处理便宜得多 |
| 特殊功能 | 网页搜索、图像处理和推理有额外费用 |
| 阶梯定价 | 部分模型在更高使用量下提供批量折扣 |
成本优化
Prompt 缓存
缓存感知定价可显著降低重复提示词模式的成本:
| 项目 | 相比 Prompt 的典型节省 |
|---|---|
input_cache_read | 比完整 prompt 处理便宜约 90% |
input_cache_write | 写入成本略高于 prompt,但后续读取可节省费用 |
input_cache_write_5_min | 写入成本较低,缓存 TTL 较短 |
input_cache_write_1_h | 写入成本较高,缓存 TTL 较长 |
模型选择
| 策略 | 方法 |
|---|---|
| 简单任务使用小模型 | 对简单提示词选择 gpt-5.4-nano 而非 gpt-5.4 |
Token 管理
| 策略 | 影响 |
|---|---|
| 减少提示词长度 | 更少的输入 Token = 更低的费用 |
限制 max_tokens | 防止意外产生过长(且昂贵)的输出 |
| 总结对话历史 | 减少多轮对话中的上下文窗口使用 |
| 高效使用系统提示词 | 保持系统提示词简洁且利于缓存 |
了解你的账单
按量付费(Pay As You Go)
费用从你的账户余额按 Token、按调用扣除。每次调用的费用计算方式为:
总费用 = (输入 Token × 输入费率) + (输出 Token × 输出费率) + 特殊功能费用
常见问题
Q:为什么同一模型在不同提供商处费用不同? A:不同提供商可能对同一模型提供不同的定价。在模型定价页对比各提供商费率。
Q:如何在发起请求前预估费用? A:在控制台的模型详情页查看单 Token 费率。粗略估算方法:将预期的输入/输出 Token 数量分别乘以相应费率。
Q:缓存读取真的更便宜吗?
A:是的。缓存读取(input_cache_read)通常比完整提示词处理便宜约 90%。具体费率请查看模型详情页。
Q:在哪里可以查看每次调用的确切费用? A:在请求日志中将鼠标悬停在 Cost 列上查看单次计费详情,或在请求详情页查看详细费率明细。