最近在折腾大模型的时候,我越来越有一种很真实的感受:以前是「模型好不好用」,现在更多变成了「模型等得我烦不烦」。尤其是写点代码或者做长文本生成的时候,一个字一个字往外蹦,真的很考验耐心。
DiffusionGemma 给我的感觉就不太一样。它是 Google DeepMind 在 2026 年发布的基于离散扩散的文本生成模型,采用 26B 参数混合专家(Mixture-of-Experts, MoE)架构,总参数 25.2B、活跃参数仅 3.8B,属于那种「看起来很大,用起来还挺轻」的类型。
最直观的变化其实是速度。它不再是传统那种逐 token 输出,而是用块级并行扩散去生成文本,有点像不是在「打字」,而是在一整段一段地「改稿子」。结果就是在单卡 H100 上能跑到 1,100+ tokens/s,那种流畅感确实会让人愣一下。
结构上也挺有意思:编码器负责理解和缓存上下文,解码器在文本「画布」上并行去噪生成,再加上 MoE 稀疏激活,效率和能力之间做了一个比较舒服的平衡。
它还支持通过<|think|>标记启动逐步推理模式,处理复杂任务;最长支持 256K tokens 上下文,对长文档场景基本是直接拉满。
说实话,这种模型最让我有点感慨的是:以前我们在追「更聪明的模型」,现在已经开始习惯「又聪明又不等人」的模型了。
教程链接:https://go.openbayes.com/X2X0H
使用云平台: OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
首先点击「公共教程」,找到「DiffusionGemma:基于离散扩散的高速文本生成模型」,单击打开。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。
若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可;若显示「运行中」,点击「打开工作空间」。
使用步骤如下:
1.页面跳转后,点击左侧 README.ipynb 文件,依据指示输入 API 网址,点击上方「运行」。
2.运行完成,即可点击右侧 API 地址跳转至 demo 页面。