为什么在 VPS 上跑 AI?
把 AI 跑在自己的 VPS 上有三个好处:数据不离开你的服务器(隐私)、不需要 API 密钥(省钱)、7×24 在线(随时用)。VPS 的 CPU 推理速度虽然慢于 GPU,但 1-4B 的量化模型已经可以做到实用。
安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
选模型(基于内存限制)
| 内存 | 推荐模型 | 能力水平 |
|---|---|---|
| 2GB | qwen3:0.6b | 基础对话 |
| 4GB | qwen3:1.7b / minicpm5 | 一般问答 |
| 8GB | qwen3:4b | 良好(≈Qwen2.5-7B) |
| 16GB | qwen3:8b | 优秀(≈Qwen2.5-14B) |
基本使用
# 拉取模型
ollama pull qwen3:4b
# 命令行对话
ollama run qwen3:4b
# API 调用(兼容 OpenAI 格式)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen3:4b","messages":[{"role":"user","content":"你好"}]}'
搭 Web 界面(Open WebUI)
docker run -d --name open-webui -p 3000:8080 -v open-webui:/app/backend/data ghcr.io/open-webui/open-webui:main
访问 http://你的IP:3000,注册账号,选择模型,跟 ChatGPT 几乎一样的体验。
性能优化
- 模型加载需要几十秒,用
OLLAMA_KEEP_ALIVE=24h让模型常驻内存 - 加 swap(至少同等于模型大小)防止 OOM
- 设置 num_ctx=4096 或 8192 控制上下文窗口,越长越吃内存