API 参考

LLM Gateway 提供完全兼容 OpenAI API 的接口，让您可以无缝切换和使用多个 LLM 提供商。

基础信息

基础 URL: https://your-domain.com/v1
认证方式: Bearer Token
请求格式: JSON
响应格式: JSON / 流式响应

认证

所有 API 请求都需要在 HTTP 头中包含认证令牌：

Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx

您可以在 LLM Gateway 管理界面的「令牌管理」页面创建和管理 API 令牌。

智能路由

LLM Gateway 支持多种智能路由策略，通过请求头指定：

X-Route-Strategy: cost          # 成本优化
X-Route-Strategy: performance   # 性能优先
X-Route-Strategy: load_balance  # 负载均衡
X-Route-Strategy: balanced      # 综合平衡

如果不指定策略，将使用系统默认策略。

跳过缓存和防火墙

您可以通过请求头跳过语义缓存和 Prompt 防火墙：

X-Skip-Semantic-Cache: true     # 跳过语义缓存
X-Skip-Prompt-Firewall: true    # 跳过 Prompt 防火墙

错误处理

API 遵循 HTTP 状态码标准：

200 - 成功
400 - 请求错误
401 - 认证失败
403 - 权限不足/已达限额
429 - 请求过于频繁
500 - 服务器内部错误

错误响应格式：

{
  "error": {
    "message": "错误描述",
    "type": "error_type",
    "code": "error_code"
  }
}

支持的端点

目前 LLM Gateway 支持以下 OpenAI 兼容的 API 端点：

Chat Completions

最常用的对话补全接口，支持所有主流 LLM 模型。

端点: POST /v1/chat/completions

用于生成对话响应，支持单轮和多轮对话。

Embeddings

文本嵌入向量生成接口。

端点: POST /v1/embeddings

用于生成文本的向量表示，常用于语义搜索、相似度计算等。

Models

获取可用模型列表接口。

端点: GET /v1/models

返回当前可用的所有 LLM 模型列表及其信息。

限制说明

单次请求最大 payload: 100MB
默认请求超时: 300 秒
并发连接限制: 根据系统配置
速率限制: 根据令牌配置

具体限制可能因您的配置和订阅计划而异。

基础信息​

认证​

智能路由​

跳过缓存和防火墙​

错误处理​

支持的端点​

Chat Completions​

Embeddings​

Models​

限制说明​