1. 项目背景与核心价值
如果你正在寻找一个免费、好用且性能不俗的大语言模型(LLM)来搭建自己的AI应用,比如做个聊天机器人、文档助手或者翻译工具,那你大概率会一头扎进OpenRouter这类聚合平台。平台上的免费模型(Free-tier)琳琅满目,从Nemotron、Gemma到Trinity Mini,个个都宣称自己“又快又好”。但问题来了:这些免费午餐,到底哪一份最实在?是号称30B参数的“大块头”更聪明,还是那些专为速度优化的“小快灵”更实用?面对文档处理、代码生成、泰语翻译等具体任务,它们各自的表现如何?光看厂商的宣传文档可不行,我们需要一场真刀真枪的横向评测。
这正是OpenClaw项目的由来。它不是一个商业产品,而是一个由开发者发起的个人AI网关项目,核心目标就是充当你的“试吃员”,系统性地评测OpenRouter上免费模型的实际表现。我花了大量时间,设计了涵盖11个真实应用场景的测试集,对8个主流免费模型进行了全面“体检”。结果有点意外:有两个模型(DeepSeek R1和OpenRouter Free)在测试中途就“下线”无法访问了,这本身就揭示了免费服务的不稳定性。而剩下的6位“选手”,经过从准确性、完整性、响应速度到泰语支持能力的多轮比拼,最终呈现出了一份清晰的能力图谱。无论你是想找一个全能的“瑞士军刀”,还是一个专精泰语任务的“本地通”,或是追求极致速度的“闪电侠”,这份基于真实API调用和数据打分的评测报告,都能给你最直接的参考。
2. 评测体系深度解析:我们如何定义“好模型”
在开始解读具体结果前,我们必须先统一标准:什么是“好模型”?如果只比谁说话“听起来更聪明”,那评测就变成了主观臆断。OpenClaw的评测框架核心在于量化与场景化,旨在模拟一个开发者或产品经理选择模型时的真实决策过程。
2.1 五大核心评分维度及其权重设计
我们的总分(10分制)由五个加权维度构成,这个权重分配反映了实际应用中的优先级:
- 准确性(30%):这是模型的“生命线”。权重最高,因为它直接关系到输出的可信度。我们严格检查事实性错误、幻觉(Hallucination)和逻辑矛盾。例如,在财务分析任务中,计算错误的模型会在此项严重失分。
- 完整性(25%):考察模型是否“听懂了话”并完成了所有要求。如果任务要求列出三点建议,模型只给出了两点,即使那两点很精彩,也会扣分。这模拟了API调用中对
system prompt和user prompt的遵循程度。 - 连贯性(20%):关注输出的可读性和逻辑结构。答案是否条理清晰、段落分明、语言流畅?这对于生成报告、文章等长文本至关重要。一个支离破碎的答案,即使内容正确,实用价值也大打折扣。
- 相关性(15%):防止模型“答非所问”或“过度发挥”。我们检查输出是否紧扣主题,有无添加不必要或离题的背景信息。这在构建精准的对话机器人时是关键指标。
- 速度(10%):对于交互式应用,响应速度直接影响用户体验。我们记录从发送请求到收到完整回复的时间。为公平起见,设定了一个基准线:响应时间低于5秒即可获得满分10分(速度项)。这意味着,只要足够快(<5s),速度就不会成为拉分项,但更慢的模型会在此项失分。
注意:这个权重体系是面向“实用”的。如果你的场景极端追求事实正确(如法律咨询),可能需要进一步提高“准确性”的权重;如果是创意写作,或许“连贯性”和“相关性”的权重可以调整。OpenClaw的框架是模块化的,你可以根据自己需求调整
rubric.md中的权重。
2.2 十一项测试活动的设计逻辑
我们设计了11项测试活动,它们并非孤立的任务,而是对应着几大类常见的LLM应用场景:
- 文档处理(Document Reading/Writing):模拟了从海量信息中提取要点(阅读摘要)和生成结构化商业文件(撰写报告)的能力。这是知识工作者最常需要的功能。
- 分析与推理(Financial/Text Analysis):测试模型处理结构化数据(简易财务报表)和非结构化情感分析的能力,考察其逻辑思维和基础计算能力。
- 代码生成(Code Generation):给定一个明确的算法描述(如“实现一个快速排序函数”),要求模型输出可直接运行或稍作调试即可用的代码。这是判断模型逻辑严谨性的试金石。
- 语言任务(Translation, Creative Writing):包括中英翻译和创意故事写作。翻译考验语言精确度和文化适配;创意写作则考察模型的想象力、叙事能力和语言风格。
- 指令遵循(Instruction Following):给出包含多个具体步骤的复杂指令,看模型是否能逐一、准确地执行。这直接反映了模型对提示词(Prompt)的理解深度和控制度。
- 泰语专项(Thai Summarization/Creative/Instructions):这是本次评测的一大特色。针对泰语使用者,我们设置了与英语任务对等的三项测试,专门评估模型对非拉丁语系、资源相对较少语言的支持能力。
2.3 测试环境与可复现性
为了保证结果公平、可复现,所有测试均在严格控制的条件下进行:
- API端点:统一使用OpenRouter的Chat Completions接口(仅文本)。
- 参数一致性:温度(Temperature)设置为0.3,以获得更确定、可比较的输出;最大生成长度(Max Tokens)为2048。
- 网络与限速:在请求间加入了8秒的延迟,以避免触发OpenRouter的速率限制,确保网络条件不是影响速度的主要变量。
- 超时处理:设置120秒超时,超时任务记为失败。
这套方法确保了评测结果不是一次性的偶然数据,而是具备参考价值的基准。你可以根据我们开源的scoresheet.csv和测试用例,在自己的环境中进行验证或扩展测试。
3. 六大免费模型实战表现全景解读
经过超过60次API调用和详细的人工评估,6个可用免费模型的表现差异显著。下面我们抛开枯燥的排名,深入每个模型的“性格”和“特长”。
3.1 全能冠军:Nemotron 30B
- 综合得分:8.60(排名第一)
- 核心优势:速度与质量的完美平衡。
- 详细表现:Nemotron 30B就像班上的“学霸”,没有明显偏科。在文档写作、财务分析、代码生成等硬核任务上,它全部拿到了9.0的满分,响应速度更是稳定在0.5秒左右,与体积小得多的模型持平。这说明其底层推理和工程优化非常出色。
- 唯一短板:在“泰语创意写作”任务中意外出错(ERR),未能完成输出。这暴露了大模型在特定语言、特定任务上可能存在的不可预测性。但在另一项泰语任务(指令遵循)中,它又拿到了8.8的高分,表明其泰语理解能力基础是好的,可能只是在生成创造性泰语文本时存在稳定性问题。
- 适用场景:如果你需要一个应对各种通用任务(尤其是英文任务)的“默认选择”,且对响应速度有要求,Nemotron 30B是目前免费层中最稳妥、最强大的选择。
3.2 稳定之选:Step 3.5 Flash
- 综合得分:8.57(排名第二)
- 核心优势:100%的可靠性,最强的泰语支持。
- 详细表现:Step 3.5 Flash是唯一一个在全部11项测试中均成功完成的模型,可靠性无出其右。在泰语相关的三项测试中,它与Gemma 3 27B并列第一,尤其在泰语创意写作上表现最佳。它的输出风格稳健、格式规范,非常适合需要稳定输出的生产环境。
- 主要代价:速度是其主要短板,平均响应时间2.9秒,在翻译任务中甚至达到4.2秒。对于实时对话场景,这个延迟可能被感知。
- 适用场景:构建面向泰语用户的商业应用(如泰语客服机器人、内容生成工具),或者任何将“稳定性”和“任务完成率”置于“极致速度”之上的场景。它是你项目里那个最让人放心的“老黄牛”。
3.3 速度王者:Trinity Mini
- 综合得分:8.49(排名第三)
- 核心优势:极致的响应速度(0.5s)与顶尖的代码、翻译能力。
- 详细表现:Trinity Mini在“文档写作”、“财务分析”、“代码生成”、“翻译”和“指令遵循”五个项目中夺冠或并列夺冠,尤其在代码和翻译上展现了极高的精准度。0.5秒的平均响应时间带来了无与伦比的流畅交互体验。
- 明显弱点:对泰语的支持是其主要软肋。在“泰语摘要”任务中得分最低(6.35),明显落后于其他模型。这表明它可能主要针对英语等主流语言进行了优化。
- 适用场景:开发英文编程助手(如VS Code插件)、实时翻译工具或任何对延迟极度敏感的交互式应用。如果你的用户群不说泰语,Trinity Mini的性能价格比(免费)极高。
3.4 泰语专家:Gemma 3 27B
- 综合得分:8.44(排名第四)
- 核心优势:与Step 3.5 Flash并列的泰语能力,更快的速度。
- 详细表现:Gemma 3 27B在泰语任务上的表现与Step 3.5 Flash旗鼓相当,但平均响应时间(1.1秒)却快了一倍多。它在通用任务上也表现扎实,没有严重短板。
- 稳定性问题:在“文本分析”和“代码生成”两个任务中失败,通过率82%。这说明它在某些特定类型的推理任务上可能存在间歇性的不稳定。
- 适用场景:适合那些需要较好泰语支持,同时又希望响应速度比Step 3.5 Flash更快的项目。可以将其作为Step 3.5 Flash的备选或AB测试对象。
3.5 多模态潜力股:Nemotron VL 12B
- 综合得分:8.41(排名第五)
- 核心优势:具备视觉(Vision)能力,且速度飞快(0.7s)。
- 详细表现:作为评测中唯一明确具备多模态能力的模型(12B VL版本),它在纯文本任务上的表现令人惊喜,速度位列第一梯队。在“文档阅读”和“财务分析”等任务中得分不错。
- 最大问题:通过率最低(64%),在写作、翻译、创意等多个任务上失败。这表明其文本生成的稳定性或对复杂提示词的理解能力有待加强。
- 适用场景:如果你的应用未来有处理图像描述、视觉问答等需求,Nemotron VL 12B是一个值得关注的免费起点。但目前,应仅将其用于视觉任务,或对文本生成结果要求不高的场景。
3.6 均衡但迟缓:Gemma 3 12B
- 综合得分:8.40(排名第六)
- 核心优势:表现均衡,无明显致命缺陷。
- 详细表现:Gemma 3 12B可以看作是一个“缩小版”的27B大哥,能力轮廓相似,在大多数任务上都能拿到可接受的分数,泰语支持也优于Trinity Mini。
- 突出短板:速度是硬伤,平均响应时间4.4秒,在所有模型中垫底,严重影响交互体验。
- 适用场景:适合对实时性要求不高的后台异步任务处理,例如批量生成内容、处理邮件等。在需要同时调用多个模型进行实验,且网络条件允许等待时,它也是一个可靠的备选。
4. 关键任务场景下的模型选型指南
了解了每个模型的个性后,我们可以根据你的具体任务来“按图索骥”。这里提供一份可直接操作的选型建议:
4.1 场景一:构建通用聊天机器人或智能助手
- 首要目标:应对用户五花八门的问题,要求反应快、知识面广、说话有条理。
- 首选模型:Nemotron 30B。它的综合得分最高,响应速度极快(0.5s),在文档、分析、代码等各类任务上表现均衡,能提供最好的整体用户体验。
- 备选模型:Trinity Mini(如果用户以英文为主,且追求极致速度)、Step 3.5 Flash(如果最看重稳定性和100%的响应率)。
- 实操提示:对于通用助手,建议将温度(Temperature)参数稍微调高(例如0.7),可以让回答更具趣味性和多样性,避免过于机械。
4.2 场景二:开发泰语内容生成或客服系统
- 首要目标:精准理解并生成流畅、地道的泰语,稳定性至关重要。
- 首选模型:Step 3.5 Flash。它在泰语任务上得分最高,且拥有100%的任务通过率,是生产环境的安心之选。
- 备选模型:Gemma 3 27B。泰语能力与Step 3.5 Flash相当,且速度更快,但需接受其约18%的失败率风险,务必在关键流程中加入重试或降级逻辑。
- 实操提示:针对泰语任务,在系统提示词(System Prompt)中明确指定语言和格式要求,例如“คุณเป็นผู้ช่วย AI ที่พูดภาษาไทยอย่างคล่องแคล่วและเป็นทางการ”(你是一个能说流利、正式泰语的AI助手),能显著提升输出质量。
4.3 场景三:创建编程辅助工具(如代码补全、解释)
- 首要目标:生成准确、可运行、符合最佳实践的代码,响应要快。
- 首选模型:Trinity Mini。它在代码生成任务上获得满分(9.0),且响应速度最快(0.7s),非常适合集成在IDE中提供实时建议。
- 备选模型:Nemotron 30B。同样代码满分,速度同样快,可以作为备选或用于更复杂的代码规划任务。
- 实操提示:在提示词中具体化编程语言、框架和功能要求。例如,不只是说“写一个排序函数”,而是说“用Python实现一个快速排序函数,包含类型注解和详细的docstring,并处理空列表的情况”。
4.4 场景四:实现实时翻译功能(英↔泰)
- 首要目标:翻译准确、迅速,语言自然。
- 首选模型:Trinity Mini。在翻译任务上获得满分(9.0),且速度遥遥领先(0.4s),用户体验最佳。
- 备选模型:Gemma 3 27B。翻译质量(8.8)接近满分,但速度(1.1s)稍慢。
- 实操提示:对于翻译任务,较低的温度(如0.1-0.3)有助于获得更确定、更一致的输出。可以在提示词中指定风格,如“翻译成日常口语”或“翻译成正式商务文件”。
4.5 场景五:处理后台异步任务(摘要、报告生成)
- 首要目标:任务成功率高,输出质量稳定,对延迟不敏感。
- 首选模型:Step 3.5 Flash。100%的可靠性让它成为异步任务队列中最省心的选择,无需担心任务因模型错误而失败重试。
- 备选模型:Nemotron 30B 或 Gemma 3 27B。如果任务不涉及泰语,Nemotron 30B是高质量选择;如果涉及泰语且可以容忍一定失败率,Gemma 3 27B速度更快。
- 实操提示:对于异步任务,可以适当增加
max_tokens和超时时间,并务必实现完善的错误处理(Error Handling)和重试机制(Retry Logic),特别是对于通过率非100%的模型。
5. 实战避坑指南与经验总结
在实际调用这些免费模型API的过程中,我踩过不少坑,也总结出一些让项目更稳健的经验。
5.1 免费模型的“生存现状”与稳定性管理
本次评测中,DeepSeek R1和OpenRouter Free两个模型在测试期间“消失”,这给我们敲响了警钟:免费资源是动态变化的。厂商可能随时调整、下线或限制免费模型。
- 策略一:永远要有备选方案(Fallback)。在设计你的AI网关时,不要只依赖一个模型。可以设置一个主用模型(如Nemotron 30B)和一个或多个备用模型(如Step 3.5 Flash)。当主用模型返回错误或超时时,自动切换到备用模型。
- 策略二:实施健康检查(Health Check)。定期(如每小时)向你的目标模型发送一个简单的ping请求(例如,让它回复“hello”),监控其可用性和响应延迟。这能让你在用户投诉前发现问题。
- 策略三:关注社区动态。OpenRouter的Discord或相关开源社区是获取模型状态更新的好地方。
5.2 提示词工程:免费模型更需要“好好说话”
免费模型通常能力或上下文窗口有限,因此精心设计的提示词(Prompt)比调用付费模型时更重要。
- 结构化你的指令:使用清晰的标记,如“### 任务:”、“### 要求:”、“### 输出格式:”。这能帮助模型更好地解析你的意图。
- 提供少量示例(Few-Shot):对于格式固定的任务(如生成JSON、特定风格的摘要),在提示词中给出一两个输入输出的例子,能极大提升模型输出的准确性和一致性。
- 角色扮演(Role-Playing):明确告诉模型“你是一个专业的财务分析师”或“你是一个简洁的技术文档写手”,能引导其采用更合适的语调和知识范围。
- 分步思考(Chain of Thought):对于复杂推理任务,可以要求模型“让我们一步步思考”,这有时能激发免费模型更好的表现。
5.3 性能与成本权衡:速度、质量与稳定性三角
选择模型本质上是权衡速度、输出质量和稳定性(可靠性)这三个角。
- Nemotron 30B:占据了质量和速度的平衡点,稳定性稍逊于Step 3.5 Flash(91% vs 100%)。
- Step 3.5 Flash:占据了质量和稳定性的顶点,但牺牲了速度。
- Trinity Mini:占据了速度和质量的顶点(针对英文任务),但稳定性和泰语支持是短板。
- 你的选择:问问你的应用,哪一个角对你来说是最不能妥协的?是用户等待超过2秒就会离开的“速度”,是输出错误会造成损失的“质量”,还是任务失败会导致流程中断的“稳定性”?
5.4 监控与评估:建立你自己的模型性能看板
不要将本次评测结果视为一成不变的真理。模型会更新,你的使用场景也独一无二。
- 记录关键指标:在你的应用日志中,记录每次API调用的模型名称、响应时间、输出token数和任务是否成功。简单的CSV日志就足够开始。
- 定义你自己的评分:针对你的核心任务,设计一个简化版的评估函数。例如,对于摘要任务,可以自动计算输出与参考摘要的ROUGE分数;对于分类任务,记录准确率。
- 定期A/B测试:每月或每季度,用你的真实流量对2-3个候选模型进行小比例的A/B测试,用实际数据决定哪个模型更适合你的用户。
最终,没有“最好”的模型,只有“最适合”你当前需求的模型。OpenClaw的这份评测报告,提供了一张精细的地图,但通往目的地的路,还需要你结合自己的具体场景去走。免费模型的生态充满活力也充满变数,保持开放心态,建立弹性架构,持续评估迭代,才是用好这些强大工具的关键。