一、为什么我会换到V4?
其实V3我用得挺顺手的。我们团队做AI应用开发,V3的API调用量每个月都不小。性价比摆在那,所以一直没想过换。
换到V4纯属偶然。
上个月有个需求要做PDF文档的信息抽取,V3的长上下文是128K,一份大一点的财报PDF转成文本就超了,只能切好几段分别处理,非常麻烦。
听说V4把上下文提到了256K,就申请了API试了试,结果这一试就没换回去。
二、几个印象深刻的高光时刻
2.1 不再被截断的PDF
以前处理厚一点的PDF,V3到后半部分就开始乱答。不是因为它笨,是因为前面的内容它已经忘了。
V4的256K上下文是真的能用满的。我测试过一份200多页的公开技术报告,全文丢进去,问最后几章提到的某一个数据,它能准确引用前面章节的内容。
实测下来,大概150页以内的普通文档,整份丢进去问答基本没问题。超过这个量,有概率会忽略开头内容,但至少不会像V3那样直接断掉。
2.2 代码重构:它居然懂我意图
有一次我写了一个函数,逻辑有点绕,注释写的是“过滤掉无效订单并计算总金额”。
V3给出的重构版本严格按照字面意思做,过滤掉“无效”状态的订单,然后sum。
但V4做了一件事让我愣住。它在重构时把我没明说但是隐含的一个需求也实现了,它发现我上游传入的数据里有些订单的金额是负数,主动加了max(0, amount)的处理,还注释了一句“防止负数金额影响汇总”。
这不是我要求的,但它确实是我需要的。当时第一个反应是:这模型是不是把我代码库的历史都记住了?后来想想应该就是推理能力变强了,能从上下文推断出我的真实意图。
2.3 帮新人看懂老代码
我们组来了个实习生,被分配去改一个三年前的服务。那代码写得怎么说呢……反正原作者自己现在看了也头疼。
我让实习生把最绕的那个文件丢给V4,问“这段代码在做什么,能不能用通俗的语言解释一下”。
V4把整个数据流转画成了文字版的流程图,还指出了几处看起来像错误但实际上“符合预期”的地方。实习生说比自己看快多了。
这让我想起一个观点:AI最大的价值不是写代码,而是帮人理解代码。V4在这方面明显比V3强。
三、翻过车的几个地方
翻车一:盲目相信多模态
刚开始用V4的多模态时,我直接把一个数据库ER图截图丢进去,问它“帮我生成建表语句”。结果生成的SQL里,有几个字段的类型识别错了,还有一个外键关系完全反了。
后来我学乖了:多模态识别出来的内容,一定要复核。V4的图文理解能力比V3强,但离“放心用”还有距离。
翻车二:system prompt没写清楚
V4比较“聪明”,但聪明有时候也会带来麻烦。有一次我做测试,忘了给system prompt,它自己发挥,回了一大堆完全不需要的内容,token消耗直接翻倍。
后来我给每个请求都加了一句话:“简洁回答,不要多余的解释,不要markdown格式除非必要”。效果好了很多。
翻车三:以为它什么都知道
V4的知识截止于训练数据。我们公司内部有个私有协议,我问它怎么解析,它给了一个看起来挺专业的方案——但完全不对。因为那协议是我们自己定义的,它不可能知道。
所以涉及到内部系统、私有协议这类东西,还是得靠自己。
四、性价比
我们团队每月的API调用量不算特别大,但这笔账还是值得算一下。
| 模型 | 输入价格($/M tokens) | 输出价格($/M tokens) | 每月成本(估算) |
|---|---|---|---|
| GPT-4o | ~2.5 | ~10 | ~$500 |
| Claude 3.5 Sonnet | ~3 | ~15 | ~$600 |
| DeepSeek V3 (~80B) | ~0.14 | ~0.28 | ~$15 |
| DeepSeek V4 (1T) | ~0.27 | ~1.10 | ~$50 |
这是公开价格的大致对比,具体可能有浮动。
V4比V3贵了一些,但考虑到效果提升,我觉得值。而且V4的输出速度快了不少,这个对用户体验的影响挺直接的,用户等3秒和等1秒,感受完全不同。
我们会把非实时的批量处理任务(比如离线文档分析)用V3跑,实时对话用V4,混着用兼顾成本和效果。
五、什么时候用V4,什么时候用回V3?
用了一段时间,我总结了一个大概的判断标准:
| 场景 | 用什么 | 理由 |
|---|---|---|
| 复杂代码生成/重构 | V4 | 理解意图更准,产出质量更高 |
| 长文档分析(>100页) | V4 | 只有V4装得下 |
| 逻辑推理/数学计算 | V4 | 错误的代价比Token贵 |
| 简单问答/分类 | V3就够了 | V3又快又便宜 |
| 批量离线处理 | V3 | 量大的时候成本差距明显 |
| 图文识别 | V4 | V3不支持,但结果要复核 |
| 内部系统提示词优化 | V4 | 润色提示词的效果比V3好 |
六、要不要换?
如果你现在用V3用得挺好,没什么不满意的,那V4不是非换不可。V3依然是性价比很高的选择,我们还有些任务跑在V3上。
但如果你是以下情况,可以考虑升级:
经常处理长文档:V3的128K不够用,切分处理非常痛苦
代码生成要求高:V4的正确率和可读性确实更好
逻辑推理是刚需:做Agent、做RAG,推理能力直接影响效果
想省人工审核时间:V4的答案更靠谱,你花在改代码、纠错误上的时间更少
七、个人观点
从V3换到V4这两周,我最大的感受不是“哇,好牛”,而是“嗯,确实比之前省心”。
V3像个勤奋但偶尔犯傻的实习生,活儿能干,但你得盯着、得改。V4像个靠谱的正式员工,交代的事大部分能办好,偶尔需要你指出问题,但不用每件事都手把手教。
当然,它还是没有完全取代我们的工作。遇到复杂业务逻辑、涉及团队沟通、需要做技术决策的时候,最后还是人来做。
但至少,它把那些重复、繁琐、耗时的事情接过去了。对我来说,这就够了。