常用命令行(代码在下面,解释在上面)
运行指定模型(最常用),可加--temperature、--num-ctx等参数
ollama run llama3.1:8b查看本地所有已下载模型
ollama list从仓库下载模型到本地(替换模型名和标签)
ollama pull qwen2:7b启动 Ollama 后台 API 服务(默认监听 localhost:11434)
ollama serve查看当前在内存中运行的模型进程
ollama ps停止正在运行的指定模型,释放显存
ollama stop llama3.1查看模型基本信息(大小、格式、许可证等)
ollama show llama3.1查看模型的具体参数(如温度、上下文长度)
ollama show llama3.1 --parameters查看模型的内置系统提示词(System Prompt)
ollama show llama3.1 --system复制/重命名一个本地模型
ollama cp llama3.1 my-model永久删除本地模型文件
ollama rm llama3.1使用自定义 Modelfile 创建一个新模型
ollama create my-model -f Modelfile将本地模型推送至仓库(需先登录)
ollama push username/my-model登录 Ollama 官方或私有注册中心
ollama login退出登录
ollama logout查看全部命令帮助
ollama help查看某个子命令(如 run)的详细帮助
ollama help run查看当前 Ollama 版本号
ollama --version输出服务运行日志(用于调试)
ollama logs校验模型文件完整性
ollama validate llama3.1二、常用环境变量(启动ollama serve前设置,按频率排序)
服务监听地址(默认 127.0.0.1:11434,改为 0.0.0.0 允许局域网访问)
export OLLAMA_HOST=0.0.0.0:11434模型空闲保留时间(默认 5m,设为 -1 永久驻留)
export OLLAMA_KEEP_ALIVE=10m模型下载存放目录(默认 ~/.ollama/models)
export OLLAMA_MODELS=/path/to/models最大并发请求数(默认 1,高配 GPU 可调大)
export OLLAMA_NUM_PARALLEL=2全局默认上下文窗口大小(覆盖模型默认值)
export OLLAMA_CONTEXT_LENGTH=8192开启调试日志(0 关闭,1 开启)
export OLLAMA_DEBUG=1为显卡预留显存(单位字节,示例 512 MB)
export OLLAMA_GPU_OVERHEAD=536870912单 GPU 最多同时加载的模型数量(默认自动)
export OLLAMA_MAX_LOADED_MODELS=2开启 Flash Attention 加速(1 开,0 关)
export OLLAMA_FLASH_ATTENTION=1强制模型分散到所有可用 GPU(1 开启)
export OLLAMA_SCHED_SPREAD=1