从Sigmoid到ReLU:我踩过的那些激活函数‘坑’与实战避雷指南
2026/3/31 10:20:56
想要快速体验ViT模型对中文日常物品的图像分类能力?只需简单几步:
cd /root进入工作目录python /root/推理.py启动分类程序brid.jpg放入/root目录即可整个过程无需复杂配置,5分钟内即可看到分类效果。下面我们将深入解析核心代码的实现逻辑。
推理脚本首先会加载预训练的ViT模型:
from transformers import ViTForImageClassification, ViTFeatureExtractor model = ViTForImageClassification.from_pretrained("阿里开源模型路径") feature_extractor = ViTFeatureExtractor.from_pretrained("同模型路径")关键点说明:
输入图像会经过标准化处理:
def preprocess_image(image_path): image = Image.open(image_path) inputs = feature_extractor(images=image, return_tensors="pt") return inputs处理步骤包括:
核心推理函数实现如下:
def predict(image_path): inputs = preprocess_image(image_path) outputs = model(**inputs) logits = outputs.logits predicted_class_idx = logits.argmax(-1).item() return model.config.id2label[predicted_class_idx]工作流程:
可通过修改以下变量调整运行行为:
# 图像路径设置 IMAGE_PATH = "/root/brid.jpg" # 默认图片路径 # 置信度阈值 CONFIDENCE_THRESHOLD = 0.7 # 只显示置信度大于70%的结果 # 是否显示中间结果 DEBUG_MODE = False # 设为True可打印调试信息预训练模型包含以下重要配置:
执行分类只需一行命令:
python /root/推理.py程序会自动处理/root/brid.jpg图片,输出类似:
预测结果:鸟 (置信度:92.3%)如需批量处理多张图片,可修改代码如下:
import glob for img_file in glob.glob("/root/images/*.jpg"): result = predict(img_file) print(f"{img_file}: {result}")通过本文我们详细解析了:
这个阿里开源的ViT模型特别适合中文日常物品识别,准确率高且使用简单。建议尝试更换不同类别的图片,观察模型的分类表现。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。