模型与路由

3.1 支持的模型列表

国际顶级模型

模型 ID	提供商	上下文窗口	特点	Credits/1K Token
`gpt-5`	OpenAI	128K	综合最强，推理顶尖	15
`gpt-5-mini`	OpenAI	128K	性价比，速度快	0.6
`claude-opus-4`	Anthropic	200K	代码 + 长文最强	15
`claude-sonnet-4`	Anthropic	200K	均衡首选	3
`claude-haiku-4`	Anthropic	200K	极速，低成本	0.25
`gemini-ultra`	Google	1M	多模态顶级	10
`gemini-flash`	Google	1M	超快速，多模态	0.3

国产优选模型

模型 ID	提供商	上下文窗口	特点	Credits/1K Token
`kimi-k2`	月之暗面	128K	中文最强，长文理解	0.5
`deepseek-v3`	DeepSeek	64K	代码极强，开源最优	0.2
`minimax-text`	MiniMax	245K	超长上下文，国产性价比	0.3
`qwen-max`	阿里云	128K	工具调用优秀	0.6
`doubao-pro`	字节跳动	128K	中文创意写作	0.4

Auto 路由模型

模型 ID	说明
`auto`	全自动路由，综合成本与质量最优
`auto-fast`	优先速度，适合实时交互场景
`auto-cheap`	优先成本，适合批量处理场景
`auto-quality`	优先质量，适合高要求输出场景

3.2 Auto 智能路由

Auto 路由是平台的核心差异化能力，让平台代替你做模型选择决策。

工作原理

输入请求
    ↓
任务类型分析（延迟 < 5ms）
    ├── 代码生成？→ Claude Opus / DeepSeek-v3
    ├── 中文写作？→ Kimi / Doubao-pro
    ├── 数学推理？→ GPT-5 / Claude Opus（思考模式）
    ├── 图片理解？→ Gemini Ultra / GPT-5
    ├── 简单问答？→ Claude Haiku / Gemini Flash
    └── 长文处理？→ MiniMax / Gemini Flash（1M 上下文）
    ↓
综合评分（质量权重 × 成本权重 × 当前延迟）
    ↓
选定模型 → 发送请求

路由策略配置

通过请求头或请求体参数自定义路由策略：

response = client.chat.completions.create(
    model="auto",
    messages=[...],
    extra_body={
        "route_strategy": {
            "cost_weight": 0.8,       # 成本权重（0-1，越高越省钱）
            "quality_weight": 0.2,    # 质量权重
            "max_cost_per_1k": 5,     # 单次请求最高成本上限（Credits/1K Token）
            "preferred_regions": ["cn"],  # 优先国内模型
            "exclude_models": ["gpt-5"]   # 排除特定模型
        }
    }
)

路由透明度

每次响应都会在 Headers 中返回实际使用的模型：

X-Routed-Model: kimi-k2
X-Route-Reason: chinese-text-optimized
X-Cost-Saved: 0.87          # 相比默认模型节省的 Credits

3.3 模型能力对比矩阵

能力维度	GPT-5	Claude Opus	Gemini Ultra	Kimi K2	DeepSeek V3
通用推理	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★★☆
代码生成	★★★★★	★★★★★	★★★★☆	★★★☆☆	★★★★★
中文理解	★★★★☆	★★★★☆	★★★☆☆	★★★★★	★★★★★
长文处理	★★★★☆	★★★★★	★★★★★	★★★★★	★★★☆☆
多模态	★★★★★	★★★☆☆	★★★★★	★★★☆☆	★★☆☆☆
工具调用	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★★☆
响应速度	★★★★☆	★★★★☆	★★★★★	★★★★★	★★★★★
成本效率	★★☆☆☆	★★☆☆☆	★★★☆☆	★★★★★	★★★★★

3.4 故障自愈与秒级切换

问题背景

传统 API 中转站的致命缺陷：

单账号封禁 → 全平台不可用
上游节点故障 → 用户请求失败
限速触发 → 响应变慢甚至超时
没有重试机制 → 错误直接暴露给用户

我们的解决方案：账号池动态路由

请求进入
    ↓
账号池调度器（实时监控所有账号健康状态）
    ├── 按地区调度：选择最低延迟节点
    ├── 按余额调度：优先余额充足账号
    ├── 健康度调度：降低频繁报错账号权重
    └── 模型调度：匹配支持该模型的账号
    ↓
主账号发送请求
    ├── 成功 → 返回结果
    └── 失败（封号 / 限速 / 超时）
            ↓
        秒级切换备用账号
            └── 对用户完全透明，无感知

监控指标

指标	正常范围	告警阈值
账号可用率	> 99%	< 95%
平均响应时间	< 2s	> 5s
封号检测延迟	< 30s	> 60s
切换成功率	> 99.9%	< 99%

3.5 ROI 监测面板

核心洞察：企业不是在买 Token，他们在买业务结果。

ROI 面板帮助企业量化 AI 投入的实际回报：

内置 ROI 模型

客服场景：

今日消耗：200,000 Token（成本：¥5）
成功处理咨询：1,200 条
平均每条成本：¥0.004
人工替代成本（按 ¥30/小时，每条 5 分钟）：¥3,000
ROI = 3000 / 5 = 600x

内容生产场景：

本周消耗：1,000,000 Token（成本：¥25）
生产文章：500 篇
每篇成本：¥0.05
人工写作成本（按 ¥200/篇）：¥100,000
ROI = 100000 / 25 = 4000x

自定义 ROI 指标

通过 API 上报业务事件，平台自动关联 Token 成本：

# 在你的业务代码中上报成果事件
import requests

requests.post("https://api.tooken.ai/v1/roi/event",
    headers={"Authorization": "Bearer sk-your-api-key"},
    json={
        "session_id": "chat-session-001",   # 关联到具体对话
        "event_type": "order_saved",         # 挽回订单
        "value": 299.00,                     # 业务价值（元）
        "currency": "CNY"
    }
)

​模型与路由

​3.1 支持的模型列表

​国际顶级模型

​国产优选模型

​Auto 路由模型

​3.2 Auto 智能路由

​工作原理

​路由策略配置

​路由透明度

​3.3 模型能力对比矩阵

​3.4 故障自愈与秒级切换

​问题背景

​我们的解决方案：账号池动态路由

​监控指标

​3.5 ROI 监测面板

​内置 ROI 模型

​自定义 ROI 指标

模型与路由

3.1 支持的模型列表

国际顶级模型

国产优选模型

Auto 路由模型

3.2 Auto 智能路由

工作原理

路由策略配置

路由透明度

3.3 模型能力对比矩阵

3.4 故障自愈与秒级切换

问题背景

我们的解决方案：账号池动态路由

监控指标

3.5 ROI 监测面板

内置 ROI 模型

自定义 ROI 指标