模型网关路由策略:便宜模型不是低质量模型的代名词
一、模型路由不是简单切供应商
大模型应用接入多个模型后,很多团队会做模型网关:统一鉴权、计费、限流、日志和路由。路由策略如果只按供应商可用性切换,就浪费了模型分层的价值。不同任务对质量、延迟、成本和稳定性的要求不同,应该走不同模型。
便宜模型不等于低质量模型,它可能正好适合分类、抽取、改写这类任务。
我见过一个典型的反例:团队的模型网关最初只有两个策略——正常走 GPT-4,GPT-4 故障切 Claude Sonnet。看起来很合理,问题是所有任务都走最强模型。一个简单的"翻译成英文"任务也消耗了 GPT-4 的配额成本。后来做了任务分类之后,翻译、摘要、分类这类简单任务走轻量模型,复杂推理才走强模型,整体成本降了约六成,延迟反而更低。关键是不把所有任务一刀切。
二、先给任务分类
flowchart TD A[请求进入网关] --> B[任务识别] B --> C{任务类型} C --> D[分类/抽取] C --> E[复杂推理] C --> F[长文生成] D --> G[轻量模型] E --> H[高质量模型] F --> I[长上下文模型]路由前要识别任务类型。可以由业务传入,也可以通过轻量分类器判断,但不要让网关完全靠 prompt 猜。
model_routing: intent_classification: model: small-fast max_latency_ms: 500 contract_analysis: model: strong-reasoning require_eval_pass: true任务类型越清楚,模型路由越稳定。
路由还可以考虑当前时段和租户等级。付费租户在高峰期的复杂任务走质量最高的模型,免费租户的同类任务可能走降级模型。不是看不起免费用户,而是资源有限时需要保障付费体验。不过这个策略需要公开,不能让用户觉得"偷偷被降级了"。
三、路由规则要可解释
type RouteDecision struct { TaskType string Model string Reason string BudgetCents int }每次路由都应该记录原因:因为任务简单、因为租户预算不足、因为主模型故障、因为延迟要求高。没有原因,后续成本异常或质量下降时很难复盘。
还要把模型评测结果接入路由。某个模型在摘要任务上便宜且稳定,就可以优先使用;在代码生成上错误率高,就不要硬切。路由不能只看价格。
可解释的另一个好处是,当业务方质疑"为什么我的请求走了小模型"时,你能拿出证据:因为你的 task_type 是 classification,classification 任务的评测显示 gpt-4o-mini 的准确率和 gpt-4 差距不到 2%,但价格差 10 倍。有数据支撑的策略才有底气。
四、降级要有边界
模型故障或预算不足时,可以降级,但降级结果要告诉上层。比如从强模型切到轻量模型后,系统可以降低回答置信度、要求人工复核,或者只返回结构化草稿。
fallback_policy: allow_fallback: true mark_response_degraded: true block_fallback_for: - legal_decision - payment_risk不是所有任务都能降级。法律、财务、风控、生产操作这类高风险任务,宁愿失败也不要偷偷用低质量模型给出结论。做过支付风控的人都知道"好像安全"和"确认安全"之间的差距有多大。
路由策略还要控制抖动。模型健康状态短暂波动时,如果所有请求来回切换,会让结果不一致。可以设置熔断窗口和恢复观察期,避免频繁跳变。比如连续 3 次超时才触发切换,恢复后观察 2 分钟无异常才切回,防止模型在临界状态下来回抖动。
最后,网关要做 A/B 验证。新模型加入路由前,先用少量流量验证质量、延迟和成本。别因为供应商宣传便宜,就直接替换生产主模型。
路由还要考虑数据合规。有些任务不能发给外部模型,有些租户要求固定供应商,有些内容只能走私有化部署。网关不能只看技术指标,还要读取租户和数据策略。
compliance_routing: pii_task: private_model_only tenant_locked_provider: true record_provider_region: true如果策略冲突,比如便宜模型不满足合规要求,应优先合规。成本优化不能越过数据边界。
数据合规不能只在网关做一次判断就算了。如果下游有重试、缓存、本地落盘等环节,还要确保这些环节也遵循同样的合规策略。尤其在跨国业务场景下,数据不出境是硬性要求。
路由结果也要回写账单和质量分析。后续复盘某个任务为什么贵、为什么慢、为什么回答质量下降,都需要知道当时到底选了哪个模型。模型路由的决策日志和业务日志一样重要——它是解释"为什么这么回答"的关键证据链。
五、总结
模型网关路由策略要结合任务类型、评测结果、预算、延迟、风险等级和模型健康状态。
便宜模型可以很有价值,前提是用在适合它的任务上。路由设计清楚,成本优化才不会变成质量事故。能用数据解释为什么走了这个模型,比"系统自动选的"有说服力得多。