掌握Ollama命令,轻松管理AI模型
2026/6/30 0:59:24 网站建设 项目流程

常用命令行(代码在下面,解释在上面)

运行指定模型(最常用),可加--temperature--num-ctx等参数

ollama run llama3.1:8b

查看本地所有已下载模型

ollama list

从仓库下载模型到本地(替换模型名和标签)

ollama pull qwen2:7b

启动 Ollama 后台 API 服务(默认监听 localhost:11434)

ollama serve

查看当前在内存中运行的模型进程

ollama ps

停止正在运行的指定模型,释放显存

ollama stop llama3.1

查看模型基本信息(大小、格式、许可证等)

ollama show llama3.1

查看模型的具体参数(如温度、上下文长度)

ollama show llama3.1 --parameters

查看模型的内置系统提示词(System Prompt)

ollama show llama3.1 --system

复制/重命名一个本地模型

ollama cp llama3.1 my-model

永久删除本地模型文件

ollama rm llama3.1

使用自定义 Modelfile 创建一个新模型

ollama create my-model -f Modelfile

将本地模型推送至仓库(需先登录)

ollama push username/my-model

登录 Ollama 官方或私有注册中心

ollama login

退出登录

ollama logout

查看全部命令帮助

ollama help

查看某个子命令(如 run)的详细帮助

ollama help run

查看当前 Ollama 版本号

ollama --version

输出服务运行日志(用于调试)

ollama logs

校验模型文件完整性

ollama validate llama3.1

二、常用环境变量(启动ollama serve前设置,按频率排序)

服务监听地址(默认 127.0.0.1:11434,改为 0.0.0.0 允许局域网访问)

export OLLAMA_HOST=0.0.0.0:11434

模型空闲保留时间(默认 5m,设为 -1 永久驻留)

export OLLAMA_KEEP_ALIVE=10m

模型下载存放目录(默认 ~/.ollama/models)

export OLLAMA_MODELS=/path/to/models

最大并发请求数(默认 1,高配 GPU 可调大)

export OLLAMA_NUM_PARALLEL=2

全局默认上下文窗口大小(覆盖模型默认值)

export OLLAMA_CONTEXT_LENGTH=8192

开启调试日志(0 关闭,1 开启)

export OLLAMA_DEBUG=1

为显卡预留显存(单位字节,示例 512 MB)

export OLLAMA_GPU_OVERHEAD=536870912

单 GPU 最多同时加载的模型数量(默认自动)

export OLLAMA_MAX_LOADED_MODELS=2

开启 Flash Attention 加速(1 开,0 关)

export OLLAMA_FLASH_ATTENTION=1

强制模型分散到所有可用 GPU(1 开启)

export OLLAMA_SCHED_SPREAD=1

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询