国产项目管理工具崛起:数据主权时代的技术突围与生态重构
2026/5/6 22:27:43
大模型应用里,流式输出几乎是标配。
用户问一个复杂问题时,如果系统等全部生成完再返回,体验会很差:
用户点击发送 等待 8 秒 突然出现一整段回答而流式输出可以变成:
用户点击发送 0.8 秒看到第一个 token 后面持续输出用户感知差异非常大。
但很多团队第一次做流式输出时会遇到问题:
1. 后端确实在 yield,但前端收不到 2. 本地正常,上 Nginx 后不流了 3. 生成一半断连,后端还在继续跑 4. 浏览器刷新后模型任务没有取消 5. 流式输出中途报错,前端不知道怎么处理 6. token 很碎,前端渲染抖动我之前遇到过一个典型问题:
FastAPI 本地测试流式正常。
但部署到线上后,用户仍然是等 10 秒后一次性看到全部内容。
最后排查发现:
Nginx 开启了 proxy_buffering它把后