> ## Documentation Index
> Fetch the complete documentation index at: https://docs.tooken.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# 模型与路由

# **模型与路由**

## **3.1 支持的模型列表**

### **国际顶级模型**

| **模型 ID**         | **提供商**   | **上下文窗口** | **特点**    | **Credits/1K Token** |
| ----------------- | --------- | --------- | --------- | -------------------- |
| `gpt-5`           | OpenAI    | 128K      | 综合最强，推理顶尖 | 15                   |
| `gpt-5-mini`      | OpenAI    | 128K      | 性价比，速度快   | 0.6                  |
| `claude-opus-4`   | Anthropic | 200K      | 代码 + 长文最强 | 15                   |
| `claude-sonnet-4` | Anthropic | 200K      | 均衡首选      | 3                    |
| `claude-haiku-4`  | Anthropic | 200K      | 极速，低成本    | 0.25                 |
| `gemini-ultra`    | Google    | 1M        | 多模态顶级     | 10                   |
| `gemini-flash`    | Google    | 1M        | 超快速，多模态   | 0.3                  |

### **国产优选模型**

| **模型 ID**      | **提供商**  | **上下文窗口** | **特点**      | **Credits/1K Token** |
| -------------- | -------- | --------- | ----------- | -------------------- |
| `kimi-k2`      | 月之暗面     | 128K      | 中文最强，长文理解   | 0.5                  |
| `deepseek-v3`  | DeepSeek | 64K       | 代码极强，开源最优   | 0.2                  |
| `minimax-text` | MiniMax  | 245K      | 超长上下文，国产性价比 | 0.3                  |
| `qwen-max`     | 阿里云      | 128K      | 工具调用优秀      | 0.6                  |
| `doubao-pro`   | 字节跳动     | 128K      | 中文创意写作      | 0.4                  |

### **Auto 路由模型**

| **模型 ID**      | **说明**          |
| -------------- | --------------- |
| `auto`         | 全自动路由，综合成本与质量最优 |
| `auto-fast`    | 优先速度，适合实时交互场景   |
| `auto-cheap`   | 优先成本，适合批量处理场景   |
| `auto-quality` | 优先质量，适合高要求输出场景  |

***

## **3.2 Auto 智能路由**

Auto 路由是平台的核心差异化能力，**让平台代替你做模型选择决策**。

### **工作原理**

```
输入请求
    ↓
任务类型分析（延迟 < 5ms）
    ├── 代码生成？→ Claude Opus / DeepSeek-v3
    ├── 中文写作？→ Kimi / Doubao-pro
    ├── 数学推理？→ GPT-5 / Claude Opus（思考模式）
    ├── 图片理解？→ Gemini Ultra / GPT-5
    ├── 简单问答？→ Claude Haiku / Gemini Flash
    └── 长文处理？→ MiniMax / Gemini Flash（1M 上下文）
    ↓
综合评分（质量权重 × 成本权重 × 当前延迟）
    ↓
选定模型 → 发送请求
```

### **路由策略配置**

通过请求头或请求体参数自定义路由策略：

```
response = client.chat.completions.create(
    model="auto",
    messages=[...],
    extra_body={
        "route_strategy": {
            "cost_weight": 0.8,       # 成本权重（0-1，越高越省钱）
            "quality_weight": 0.2,    # 质量权重
            "max_cost_per_1k": 5,     # 单次请求最高成本上限（Credits/1K Token）
            "preferred_regions": ["cn"],  # 优先国内模型
            "exclude_models": ["gpt-5"]   # 排除特定模型
        }
    }
)
```

### **路由透明度**

每次响应都会在 Headers 中返回实际使用的模型：

```
X-Routed-Model: kimi-k2
X-Route-Reason: chinese-text-optimized
X-Cost-Saved: 0.87          # 相比默认模型节省的 Credits
```

***

## **3.3 模型能力对比矩阵**

| **能力维度** | **GPT-5** | **Claude Opus** | **Gemini Ultra** | **Kimi K2** | **DeepSeek V3** |
| -------- | --------- | --------------- | ---------------- | ----------- | --------------- |
| 通用推理     | ★★★★★     | ★★★★★           | ★★★★☆            | ★★★★☆       | ★★★★☆           |
| 代码生成     | ★★★★★     | ★★★★★           | ★★★★☆            | ★★★☆☆       | ★★★★★           |
| 中文理解     | ★★★★☆     | ★★★★☆           | ★★★☆☆            | ★★★★★       | ★★★★★           |
| 长文处理     | ★★★★☆     | ★★★★★           | ★★★★★            | ★★★★★       | ★★★☆☆           |
| 多模态      | ★★★★★     | ★★★☆☆           | ★★★★★            | ★★★☆☆       | ★★☆☆☆           |
| 工具调用     | ★★★★★     | ★★★★★           | ★★★★☆            | ★★★★☆       | ★★★★☆           |
| 响应速度     | ★★★★☆     | ★★★★☆           | ★★★★★            | ★★★★★       | ★★★★★           |
| 成本效率     | ★★☆☆☆     | ★★☆☆☆           | ★★★☆☆            | ★★★★★       | ★★★★★           |

***

## **3.4 故障自愈与秒级切换**

### **问题背景**

传统 API 中转站的致命缺陷：

* 单账号封禁 → 全平台不可用
* 上游节点故障 → 用户请求失败
* 限速触发 → 响应变慢甚至超时
* 没有重试机制 → 错误直接暴露给用户

### **我们的解决方案：账号池动态路由**

```
请求进入
    ↓
账号池调度器（实时监控所有账号健康状态）
    ├── 按地区调度：选择最低延迟节点
    ├── 按余额调度：优先余额充足账号
    ├── 健康度调度：降低频繁报错账号权重
    └── 模型调度：匹配支持该模型的账号
    ↓
主账号发送请求
    ├── 成功 → 返回结果
    └── 失败（封号 / 限速 / 超时）
            ↓
        秒级切换备用账号
            └── 对用户完全透明，无感知
```

### **监控指标**

| **指标** | **正常范围** | **告警阈值** |
| ------ | -------- | -------- |
| 账号可用率  | > 99%    | \< 95%   |
| 平均响应时间 | \< 2s    | > 5s     |
| 封号检测延迟 | \< 30s   | > 60s    |
| 切换成功率  | > 99.9%  | \< 99%   |

***

## **3.5 ROI 监测面板**

> **核心洞察：企业不是在买 Token，他们在买业务结果。**

ROI 面板帮助企业量化 AI 投入的实际回报：

### **内置 ROI 模型**

**客服场景：**

```
今日消耗：200,000 Token（成本：¥5）
成功处理咨询：1,200 条
平均每条成本：¥0.004
人工替代成本（按 ¥30/小时，每条 5 分钟）：¥3,000
ROI = 3000 / 5 = 600x
```

**内容生产场景：**

```
本周消耗：1,000,000 Token（成本：¥25）
生产文章：500 篇
每篇成本：¥0.05
人工写作成本（按 ¥200/篇）：¥100,000
ROI = 100000 / 25 = 4000x
```

### **自定义 ROI 指标**

通过 API 上报业务事件，平台自动关联 Token 成本：

```
# 在你的业务代码中上报成果事件
import requests

requests.post("https://api.tooken.ai/v1/roi/event",
    headers={"Authorization": "Bearer sk-your-api-key"},
    json={
        "session_id": "chat-session-001",   # 关联到具体对话
        "event_type": "order_saved",         # 挽回订单
        "value": 299.00,                     # 业务价值（元）
        "currency": "CNY"
    }
)
```

***
