33.人工智能实战：大模型流式输出怎么做才稳定？SSE、Nginx 缓冲、断连处理与前端体验优化-酒店常州论坛

大模型应用里，流式输出几乎是标配。

用户问一个复杂问题时，如果系统等全部生成完再返回，体验会很差：

用户点击发送 等待 8 秒 突然出现一整段回答

而流式输出可以变成：

用户点击发送 0.8 秒看到第一个 token 后面持续输出

用户感知差异非常大。

但很多团队第一次做流式输出时会遇到问题：

1. 后端确实在 yield，但前端收不到 2. 本地正常，上 Nginx 后不流了 3. 生成一半断连，后端还在继续跑 4. 浏览器刷新后模型任务没有取消 5. 流式输出中途报错，前端不知道怎么处理 6. token 很碎，前端渲染抖动

我之前遇到过一个典型问题：

FastAPI 本地测试流式正常。

但部署到线上后，用户仍然是等 10 秒后一次性看到全部内容。

最后排查发现：

Nginx 开启了 proxy_buffering

它把后

企业官网建设流程全解析