鴥彼晚风
发布于 2026-05-25 / 2 阅读
0
0

基于 Docker 部署的 Ollama 常用管理命令速查表

以下是基于 Docker 部署的 Ollama 常用管理命令速查表,已按使用场景分类:

1. 容器生命周期管理

# 启动 / 停止 / 重启
docker start ollama
docker stop ollama
docker restart ollama

# 查看实时日志(排查问题必备)
docker logs -f ollama

# 进入容器内部 Shell
docker exec -it ollama bash

# 更新 Ollama 到最新版
docker pull ollama/ollama
docker stop ollama && docker rm ollama
# 然后重新执行之前的 docker run 启动命令(数据卷不会丢失)

2. 模型管理(核心操作)

💡 提示:以下命令均通过 docker exec 在容器内执行,也可进入容器 Shell 后直接运行 ollama xxx

# 拉取模型
docker exec -it ollama ollama pull qwen2.5:7b        # 指定版本
docker exec -it ollama ollama pull llama3.1           # 默认 latest

# 列出已下载的模型
docker exec -it ollama ollama list

# 查看模型详细信息(参数量、量化方式、文件大小等)
docker exec -it ollama ollama show qwen2.5:7b

# 删除模型(释放磁盘空间)
docker exec -it ollama ollama rm 模型名:标签

# 复制/重命名模型
docker exec -it ollama ollama cp qwen2.5:7b my-qwen:v1

3. 对话与测试

# 交互式对话
docker exec -it ollama ollama run qwen2.5:7b

# 单次提问(适合脚本调用)
docker exec -it ollama ollama run qwen2.5:7b "用Python写一个快排"

# 指定系统提示词
docker exec -it ollama ollama run qwen2.5:7b --system "你是一个资深Linux运维专家"

4. API 调用与服务检查

# 检查服务是否正常运行
curl -s http://localhost:11434/api/tags | python3 -m json.tool

# 流式对话请求
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [{"role": "user", "content": "你好"}],
  "stream": true
}'

# 查看当前正在加载的模型及显存占用
curl -s http://localhost:11434/api/ps | python3 -m json.tool

# 卸载内存中的模型(释放显存)
curl -X POST http://localhost:11434/api/generate -d '{"model":"qwen2.5:7b","keep_alive":0}'

5. GPU 与性能监控

# 实时监控 GPU 使用率(每1秒刷新)
watch -n 1 nvidia-smi

# 查看 Docker 容器资源占用
docker stats ollama

# 确认容器是否正确识别 GPU
docker exec -it ollama nvidia-smi

注意事项

  • 数据安全:所有模型存储在 ollama_data 数据卷中,删除容器 (docker rm) 不会删除模型,但删除数据卷 (docker volume rm ollama_data) 会清空所有模型。

  • 显存管理:RTX 3060 (12GB) 同时只能加载一个 7B~9B 模型。如果切换模型时卡顿,可先用 api/ps 检查旧模型是否已卸载。

  • 别名技巧:频繁操作可在宿主机添加快捷命令:

    echo 'alias o="docker exec -it ollama ollama"' >> ~/.bashrc
    source ~/.bashrc
    # 之后可直接使用:o list / o pull xxx / o run xxx
    


评论