350 tokens/秒!Step 3.5 Flash多token预测技术突破推理速度极限
【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash
阶跃星辰StepFun推出的Step 3.5 Flash模型,凭借创新的多token预测技术,将AI推理速度提升至惊人的350 tokens/秒,为开发者和普通用户带来前所未有的高效智能体验。这款开源基础模型不仅具备前沿的推理能力和代理功能,还通过独特的稀疏混合专家(MoE)架构实现了效率与性能的完美平衡。
突破性的多token预测技术
Step 3.5 Flash采用了创新的3路多token预测(MTP-3)技术,这是其实现超高推理速度的核心所在。该技术通过专门设计的MTP Head,结合滑动窗口注意力机制和密集前馈网络(FFN),能够在单次前向传递中同时预测4个token,显著加速了推理过程而不降低质量。
在典型使用场景中,Step 3.5 Flash的生成吞吐量可达100-300 tokens/秒,而在单流编码任务中更是达到350 tokens/秒的峰值。这种速度优势使得复杂的多步骤推理链能够实时响应,极大提升了用户体验。
高效的稀疏混合专家架构
Step 3.5 Flash的高效性能源于其先进的稀疏混合专家(MoE)Transformer架构。与传统密集模型不同,它采用细粒度路由策略:
- 每层包含288个路由专家和1个共享专家(始终激活)
- 每个token仅选择Top-8专家
- 结果是模型保留了196B参数模型的"记忆",但执行速度却与11B模型相当
这种架构设计使得Step 3.5 Flash在保持高性能的同时,大幅降低了计算资源需求,为本地部署创造了有利条件。
全面的技术规格
Step 3.5 Flash的技术规格彰显了其在性能和效率之间的精妙平衡:
- 骨干网络:45层Transformer(4,096隐藏维度)
- 上下文窗口:256K
- 词汇量:128,896 tokens
- 总参数:196.81B(196B骨干 + 0.81B头部)
- 激活参数:约11B(每token生成)
快速开始使用Step 3.5 Flash
获取API密钥
您可以在OpenRouter或StepFun平台注册账号,获取API密钥。OpenRouter目前为Step 3.5 Flash提供免费试用。
环境设置
安装标准的OpenAI SDK(与两个平台兼容):
pip install --upgrade "openai>=1.0"实现示例
以下示例展示了如何开始与Step 3.5 Flash进行对话:
from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.stepfun.ai/v1", # 或 "https://openrouter.ai/api/v1" # 可选:OpenRouter headers for app rankings default_headers={ "HTTP-Referer": "<YOUR_SITE_URL>", "X-Title": "<YOUR_SITE_NAME>", } ) completion = client.chat.completions.create( model="step-3.5-flash", # OpenRouter使用 "stepfun/step-3.5-flash" messages=[ { "role": "system", "content": "You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages.", }, { "role": "user", "content": "Introduce StepFun's artificial intelligence capabilities." }, ], ) print(completion.choices[0].message.content)本地部署选项
Step 3.5 Flash针对本地推理进行了优化,支持多种行业标准后端:
vLLM部署
推荐使用最新的vLLM nightly版本:
# 通过pip安装(nightly wheels) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly启动服务器(fp8模型示例):
vllm serve <MODEL_PATH_OR_HF_ID> \ --served-model-name step3p5-flash \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}' \ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}' \ --trust-remote-code \ --quantization fp8SGLang部署
安装SGLang:
# 从源码安装(pip) pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git"启动服务器(bf16模型示例):
sglang serve --model-path <MODEL_PATH_OR_HF_ID> \ --served-model-name step3p5-flash \ --tp-size 8 \ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000总结
Step 3.5 Flash通过创新的多token预测技术和稀疏混合专家架构,实现了350 tokens/秒的推理速度突破。这一开源模型不仅为开发者提供了高效的AI工具,也为AI应用的普及和发展开辟了新的可能。无论是复杂的编码任务还是多步骤推理,Step 3.5 Flash都能以其卓越的性能和效率,为用户带来流畅、快速的智能体验。
要开始使用Step 3.5 Flash,您可以通过以下命令克隆仓库:
git clone https://gitcode.com/StepFun/Step-3.5-Flash加入Step 3.5 Flash的开源社区,体验新一代AI推理技术带来的无限可能!🚀
【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考