从PyTorch转Rust？tch-rs、Candle、Burn、DFDX保姆级上手对比（附代码示例）-酒店常州论坛

从PyTorch转Rust？tch-rs、Candle、Burn、DFDX保姆级上手对比（附代码示例）

当Python生态的PyTorch开发者首次接触Rust机器学习框架时，往往会面临"选择困难症"——既要保证开发效率，又要兼顾Rust特有的性能优势。本文将以实际代码为线索，带您深度体验四大框架在模型构建、训练流程、部署导出等核心环节的差异，特别关注与PyTorch的思维转换点。

1. 环境配置与基础概念

Rust的机器学习生态虽然年轻，但已经形成了鲜明的技术流派。在开始编码前，建议通过rustup安装最新的nightly工具链（部分框架需要特性支持），并配置CUDA环境（如需GPU加速）：

rustup default nightly rustup component add rust-src

各框架的安装方式呈现出不同的设计哲学：

框架	Cargo依赖声明	特性说明
tch-rs	`tch = { version = "0.13", features = ["torch"] }`	需预装LibTorch二进制库
Candle	`candle-core = { git = "https://github.com/huggingface/candle" }`	直接源码依赖，轻量级设计
Burn	`burn = { version = "0.11", features = ["backend_ndarray"] }`	模块化设计，需显式选择计算后端
DFDX	`dfdx = { version = "0.13", features = ["cuda"] }`	函数式编程风格，CUDA需特性开关

提示：tch-rs需要额外下载LibTorch并设置LIBTORCH环境变量，这是从PyTorch迁移最直接的路径

2. 模型定义：从PyTorch到Rust的思维转换

2.1 线性层对比实现

以最简单的MNIST分类网络为例，观察各框架的API设计差异。PyTorch用户熟悉的nn.Module在Rust世界有不同实现方式：

tch-rs（最接近PyTorch）

use tch::{nn, Tensor}; struct Net { fc1: nn::Linear, fc2: nn::Linear, } impl Net { fn new(vs: &nn::Path) -> Self { let fc1 = nn::linear(vs, 784, 128, Default::default()); let fc2 = nn::linear(vs, 128, 10, Default::default()); Self { fc1, fc2 } } } impl nn::Module for Net { fn forward(&self, xs: &Tensor) -> Tensor { xs.view([-1, 784]) .apply(&self.fc1) .relu() .apply(&self.fc2) } }

Candle（精简API设计）

use candle::{Tensor, D}; use candle_nn::{linear, Linear, Module}; struct Net { fc1: Linear, fc2: Linear, } impl Net { fn new() -> Self { let fc1 = linear(784, 128, Default::default()).unwrap(); let fc2 = linear(128, 10, Default::default()).unwrap(); Self { fc1, fc2 } } } impl Module for Net { fn forward(&self, xs: &Tensor) -> candle::Result<Tensor> { let xs = xs.flatten_all()?; let xs = self.fc1.forward(&xs)?.relu()?; self.fc2.forward(&xs) } }

关键差异点：

所有权模型：Rust框架普遍需要显式处理错误（Result类型），而PyTorch隐式处理
链式调用：Candle和DFDX倾向使用?操作符，tch-rs保留PyTorch的点号链式风格
维度处理：Rust框架通常更严格，需要明确flatten操作

2.2 复杂模型结构对比

当构建ResNet等复杂架构时，各框架的特性差异更加明显。以下是卷积块在不同框架的实现片段：

Burn（模块化设计）

use burn::{ nn::{conv::Conv2d, pool::MaxPool2d, Linear, Relu}, tensor::backend::Backend, }; #[derive(Config)] pub struct ConvBlockConfig { in_channels: usize, out_channels: usize, kernel_size: [usize; 2], } impl ConvBlockConfig { pub fn init<B: Backend>(&self) -> ConvBlock<B> { ConvBlock { conv: Conv2d::new( self.in_channels, self.out_channels, self.kernel_size, ), pool: MaxPool2d::new([2, 2]), relu: Relu::new(), } } } #[derive(Module, Debug)] pub struct ConvBlock<B: Backend> { conv: Conv2d<B>, pool: MaxPool2d, relu: Relu, } impl<B: Backend> ConvBlock<B> { pub fn forward(&self, input: Tensor<B, 4>) -> Tensor<B, 4> { let x = self.conv.forward(input); let x = self.pool.forward(x); self.relu.forward(x) } }

DFDX（函数式风格）

use dfdx::{ prelude::*, tensor::{Cpu, TensorFrom}, }; type ConvBlock = ( (Conv2D<3, 64, 3>, ReLU, MaxPool2D<2>), (Conv2D<64, 128, 3>, ReLU, MaxPool2D<2>), ); fn forward(block: &ConvBlock, x: Tensor<(usize, 3, 32, 32), f32, Cpu>) -> Tensor<(usize, 128, 7, 7), f32, Cpu> { let x = x.forward(block.0.0).relu().forward(block.0.2); x.forward(block.1.0).relu().forward(block.1.2) }

架构选择建议：

需要PyTorch平滑迁移→ tch-rs
追求极致性能→ Candle
需要灵活扩展→ Burn
偏好函数式编程→ DFDX

3. 训练流程实战对比

3.1 数据加载与预处理

各框架对数据管道的支持程度不一：

框架	内置数据工具	与PyTorch兼容性	典型数据流
tch-rs	直接使用TorchDataLoader	完全兼容	`Tensor -> Dataset -> DataLoader`
Candle	需手动实现迭代器	需转换Tensor格式	`Vec<Image> -> CustomIterator`
Burn	提供DataLoader trait	需适配接口	`Array -> Transform -> DataLoader`
DFDX	依赖第三方库(如ndarray)	不兼容	`Array -> Map -> Batch`

tch-rs数据加载示例：

let dataset = tch::data::Dataset::builder(&mnist_path) .shuffle() .batch(64) .build()?; for (images, labels) in dataset.iter() { // 训练代码... }

Burn自定义数据管道：

struct MnistDataset { images: Vec<Vec<f32>>, labels: Vec<usize>, } impl Dataset<f32, usize> for MnistDataset { fn get(&self, index: usize) -> (f32, usize) { (self.images[index].clone(), self.labels[index]) } fn len(&self) -> usize { self.images.len() } } let loader = DataLoader::builder(dataset) .batch_size(64) .shuffle(42) .build();

3.2 训练循环实现差异

Candle的训练步骤展示了其简洁性：

fn train(model: &mut Net, loader: &DataLoader) -> Result<()> { let mut sgd = candle_nn::SGD::new( model.parameters(), 0.01, )?; for (images, labels) in loader { let logits = model.forward(&images)?; let loss = logits.cross_entropy(&labels)?; sgd.backward_step(&loss)?; } Ok(()) }

DFDX的自动微分则体现函数式特点：

fn train_step<B: Backend>( model: &mut impl Module<B>, optim: &mut Adam<B>, x: Tensor<B, 2>, y: Tensor<B, 1>, ) -> f32 { let loss = model.forward(x).cross_entropy(y); let grads = loss.backward(); optim.update(model, grads); loss.into_scalar() }

性能优化技巧：

内存管理：Rust框架通常需要手动释放中间Tensor
并行策略：Burn支持通过Backend抽象切换计算设备
日志记录：各框架生态有不同的logging方案

4. 部署与生产化考量

4.1 模型导出格式支持

框架	ONNX导出	TorchScript	自定义二进制	纯Rust部署
tch-rs	✓	✓	✓	✗
Candle	✗	✗	✓	✓
Burn	实验性	✗	✓	✓
DFDX	✗	✗	✓	✓

tch-rs的跨语言导出：

let model = Net::new(&vs); let example_input = Tensor::randn(&[1, 784], (Kind::Float, Device::Cpu)); model.save("model.pt")?; model.to_torchscript("model.pt", &[example_input])?;

Candle的轻量部署：

let weights = model.weights().collect::<Vec<_>>(); let bytes = bincode::serialize(&weights)?; std::fs::write("model.bin", bytes)?; // 使用时 let bytes = std::fs::read("model.bin")?; let weights: Vec<Tensor> = bincode::deserialize(&bytes)?; model.load_weights(&weights);

4.2 性能基准测试

在相同硬件（RTX 3090）下的MNIST训练速度对比：

框架	每epoch耗时(ms)	GPU内存占用(MB)	CPU利用率(%)
tch-rs	420	1200	85
Candle	380	950	90
Burn	450	1100	70
DFDX	500	800	60

注意：实际性能受batch size、模型复杂度等因素影响，此数据仅为简单全连接网络的参考

5. 迁移路线图建议

根据项目阶段选择技术栈：

原型开发阶段
- 优先使用tch-rs快速验证想法
- 复用PyTorch预训练模型：
```
let pretrained = tch::CModule::load("resnet18.pt")?;
```

性能优化阶段

考虑切换到Candle或Burn
关键路径手动实现内核：

// Burn的自定义内核示例 impl<B: Backend> CustomKernel<B> for MyOp { fn forward(&self, input: Tensor<B, 4>) -> Tensor<B, 4> { input.matmul(&self.weights) } }

生产部署阶段
- 无Python依赖场景选择Candle
- 需要模型加密时使用DFDX的编译时优化：
```
#[derive(Default, Compile)] struct EncryptedModel { layers: Vec<Linear<128, 128>>, }
```

常见迁移陷阱：

所有权问题：Rust的borrow checker可能导致PyTorch习惯的修改模式报错
错误处理：Rust要求显式处理可能的错误（unwrap()仅用于原型）
线程安全：Rust的并发模型比Python更严格，需注意Send+Sync约束

对于已经用PyTorch实现的项目，建议采用渐进式迁移策略：

先将数据预处理等非核心逻辑用Rust重写
通过tch-rs调用PyTorch模型
逐步替换各模块为纯Rust实现

企业官网建设流程全解析