350 tokens/秒!Step 3.5 Flash多token预测技术突破推理速度极限
2026/6/1 6:56:33 网站建设 项目流程

350 tokens/秒!Step 3.5 Flash多token预测技术突破推理速度极限

【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash

阶跃星辰StepFun推出的Step 3.5 Flash模型,凭借创新的多token预测技术,将AI推理速度提升至惊人的350 tokens/秒,为开发者和普通用户带来前所未有的高效智能体验。这款开源基础模型不仅具备前沿的推理能力和代理功能,还通过独特的稀疏混合专家(MoE)架构实现了效率与性能的完美平衡。

突破性的多token预测技术

Step 3.5 Flash采用了创新的3路多token预测(MTP-3)技术,这是其实现超高推理速度的核心所在。该技术通过专门设计的MTP Head,结合滑动窗口注意力机制和密集前馈网络(FFN),能够在单次前向传递中同时预测4个token,显著加速了推理过程而不降低质量。

在典型使用场景中,Step 3.5 Flash的生成吞吐量可达100-300 tokens/秒,而在单流编码任务中更是达到350 tokens/秒的峰值。这种速度优势使得复杂的多步骤推理链能够实时响应,极大提升了用户体验。

高效的稀疏混合专家架构

Step 3.5 Flash的高效性能源于其先进的稀疏混合专家(MoE)Transformer架构。与传统密集模型不同,它采用细粒度路由策略:

  • 每层包含288个路由专家和1个共享专家(始终激活)
  • 每个token仅选择Top-8专家
  • 结果是模型保留了196B参数模型的"记忆",但执行速度却与11B模型相当

这种架构设计使得Step 3.5 Flash在保持高性能的同时,大幅降低了计算资源需求,为本地部署创造了有利条件。

全面的技术规格

Step 3.5 Flash的技术规格彰显了其在性能和效率之间的精妙平衡:

  • 骨干网络:45层Transformer(4,096隐藏维度)
  • 上下文窗口:256K
  • 词汇量:128,896 tokens
  • 总参数:196.81B(196B骨干 + 0.81B头部)
  • 激活参数:约11B(每token生成)

快速开始使用Step 3.5 Flash

获取API密钥

您可以在OpenRouter或StepFun平台注册账号,获取API密钥。OpenRouter目前为Step 3.5 Flash提供免费试用。

环境设置

安装标准的OpenAI SDK(与两个平台兼容):

pip install --upgrade "openai>=1.0"

实现示例

以下示例展示了如何开始与Step 3.5 Flash进行对话:

from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.stepfun.ai/v1", # 或 "https://openrouter.ai/api/v1" # 可选:OpenRouter headers for app rankings default_headers={ "HTTP-Referer": "<YOUR_SITE_URL>", "X-Title": "<YOUR_SITE_NAME>", } ) completion = client.chat.completions.create( model="step-3.5-flash", # OpenRouter使用 "stepfun/step-3.5-flash" messages=[ { "role": "system", "content": "You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages.", }, { "role": "user", "content": "Introduce StepFun's artificial intelligence capabilities." }, ], ) print(completion.choices[0].message.content)

本地部署选项

Step 3.5 Flash针对本地推理进行了优化,支持多种行业标准后端:

vLLM部署

推荐使用最新的vLLM nightly版本:

# 通过pip安装(nightly wheels) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly

启动服务器(fp8模型示例):

vllm serve <MODEL_PATH_OR_HF_ID> \ --served-model-name step3p5-flash \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}' \ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}' \ --trust-remote-code \ --quantization fp8

SGLang部署

安装SGLang:

# 从源码安装(pip) pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git"

启动服务器(bf16模型示例):

sglang serve --model-path <MODEL_PATH_OR_HF_ID> \ --served-model-name step3p5-flash \ --tp-size 8 \ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000

总结

Step 3.5 Flash通过创新的多token预测技术和稀疏混合专家架构,实现了350 tokens/秒的推理速度突破。这一开源模型不仅为开发者提供了高效的AI工具,也为AI应用的普及和发展开辟了新的可能。无论是复杂的编码任务还是多步骤推理,Step 3.5 Flash都能以其卓越的性能和效率,为用户带来流畅、快速的智能体验。

要开始使用Step 3.5 Flash,您可以通过以下命令克隆仓库:

git clone https://gitcode.com/StepFun/Step-3.5-Flash

加入Step 3.5 Flash的开源社区,体验新一代AI推理技术带来的无限可能!🚀

【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询