跳转到主要内容

模型与路由

3.1 支持的模型列表

国际顶级模型

模型 ID提供商上下文窗口特点Credits/1K Token
gpt-5OpenAI128K综合最强,推理顶尖15
gpt-5-miniOpenAI128K性价比,速度快0.6
claude-opus-4Anthropic200K代码 + 长文最强15
claude-sonnet-4Anthropic200K均衡首选3
claude-haiku-4Anthropic200K极速,低成本0.25
gemini-ultraGoogle1M多模态顶级10
gemini-flashGoogle1M超快速,多模态0.3

国产优选模型

模型 ID提供商上下文窗口特点Credits/1K Token
kimi-k2月之暗面128K中文最强,长文理解0.5
deepseek-v3DeepSeek64K代码极强,开源最优0.2
minimax-textMiniMax245K超长上下文,国产性价比0.3
qwen-max阿里云128K工具调用优秀0.6
doubao-pro字节跳动128K中文创意写作0.4

Auto 路由模型

模型 ID说明
auto全自动路由,综合成本与质量最优
auto-fast优先速度,适合实时交互场景
auto-cheap优先成本,适合批量处理场景
auto-quality优先质量,适合高要求输出场景

3.2 Auto 智能路由

Auto 路由是平台的核心差异化能力,让平台代替你做模型选择决策

工作原理

输入请求
    ↓
任务类型分析(延迟 < 5ms)
    ├── 代码生成?→ Claude Opus / DeepSeek-v3
    ├── 中文写作?→ Kimi / Doubao-pro
    ├── 数学推理?→ GPT-5 / Claude Opus(思考模式)
    ├── 图片理解?→ Gemini Ultra / GPT-5
    ├── 简单问答?→ Claude Haiku / Gemini Flash
    └── 长文处理?→ MiniMax / Gemini Flash(1M 上下文)
    ↓
综合评分(质量权重 × 成本权重 × 当前延迟)
    ↓
选定模型 → 发送请求

路由策略配置

通过请求头或请求体参数自定义路由策略:
response = client.chat.completions.create(
    model="auto",
    messages=[...],
    extra_body={
        "route_strategy": {
            "cost_weight": 0.8,       # 成本权重(0-1,越高越省钱)
            "quality_weight": 0.2,    # 质量权重
            "max_cost_per_1k": 5,     # 单次请求最高成本上限(Credits/1K Token)
            "preferred_regions": ["cn"],  # 优先国内模型
            "exclude_models": ["gpt-5"]   # 排除特定模型
        }
    }
)

路由透明度

每次响应都会在 Headers 中返回实际使用的模型:
X-Routed-Model: kimi-k2
X-Route-Reason: chinese-text-optimized
X-Cost-Saved: 0.87          # 相比默认模型节省的 Credits

3.3 模型能力对比矩阵

能力维度GPT-5Claude OpusGemini UltraKimi K2DeepSeek V3
通用推理★★★★★★★★★★★★★★☆★★★★☆★★★★☆
代码生成★★★★★★★★★★★★★★☆★★★☆☆★★★★★
中文理解★★★★☆★★★★☆★★★☆☆★★★★★★★★★★
长文处理★★★★☆★★★★★★★★★★★★★★★★★★☆☆
多模态★★★★★★★★☆☆★★★★★★★★☆☆★★☆☆☆
工具调用★★★★★★★★★★★★★★☆★★★★☆★★★★☆
响应速度★★★★☆★★★★☆★★★★★★★★★★★★★★★
成本效率★★☆☆☆★★☆☆☆★★★☆☆★★★★★★★★★★

3.4 故障自愈与秒级切换

问题背景

传统 API 中转站的致命缺陷:
  • 单账号封禁 → 全平台不可用
  • 上游节点故障 → 用户请求失败
  • 限速触发 → 响应变慢甚至超时
  • 没有重试机制 → 错误直接暴露给用户

我们的解决方案:账号池动态路由

请求进入
    ↓
账号池调度器(实时监控所有账号健康状态)
    ├── 按地区调度:选择最低延迟节点
    ├── 按余额调度:优先余额充足账号
    ├── 健康度调度:降低频繁报错账号权重
    └── 模型调度:匹配支持该模型的账号
    ↓
主账号发送请求
    ├── 成功 → 返回结果
    └── 失败(封号 / 限速 / 超时)
            ↓
        秒级切换备用账号
            └── 对用户完全透明,无感知

监控指标

指标正常范围告警阈值
账号可用率> 99%< 95%
平均响应时间< 2s> 5s
封号检测延迟< 30s> 60s
切换成功率> 99.9%< 99%

3.5 ROI 监测面板

核心洞察:企业不是在买 Token,他们在买业务结果。
ROI 面板帮助企业量化 AI 投入的实际回报:

内置 ROI 模型

客服场景:
今日消耗:200,000 Token(成本:¥5)
成功处理咨询:1,200 条
平均每条成本:¥0.004
人工替代成本(按 ¥30/小时,每条 5 分钟):¥3,000
ROI = 3000 / 5 = 600x
内容生产场景:
本周消耗:1,000,000 Token(成本:¥25)
生产文章:500 篇
每篇成本:¥0.05
人工写作成本(按 ¥200/篇):¥100,000
ROI = 100000 / 25 = 4000x

自定义 ROI 指标

通过 API 上报业务事件,平台自动关联 Token 成本:
# 在你的业务代码中上报成果事件
import requests

requests.post("https://api.tooken.ai/v1/roi/event",
    headers={"Authorization": "Bearer sk-your-api-key"},
    json={
        "session_id": "chat-session-001",   # 关联到具体对话
        "event_type": "order_saved",         # 挽回订单
        "value": 299.00,                     # 业务价值(元)
        "currency": "CNY"
    }
)