Ollama 提供商

使用 Ollama 在本地运行开源模型,保护隐私并节省成本。

前置步骤

  1. 安装 Ollama:ollama.ai
  2. 拉取模型:ollama pull llama3.2
  3. 启动服务:ollama serve
  4. 验证:ollama list

配置

[auth]
provider = "ollama"

[model]
provider_id = "ollama"
model = "llama3.2"
base_url = "http://localhost:11434/v1"

常用模型

模型大小说明
llama3.23B/1BMeta 最新 Llama
llama3.18B/70B上一代
mistral7BMistral AI 模型
codellama7B/13B/34B代码专用 Llama
deepseek-coder6.7B代码生成
phi33.8B微软小型模型
qwen2.57B/14B/72B阿里通义千问

拉取模型:

ollama pull llama3.2
ollama pull qwen2.5
ollama pull codellama

快速调用

savfox -m ollama:llama3.2 exec "解释这个文件"
savfox --oss exec "分析这个项目"

配置选项

[model.ollama]
base_url = "http://localhost:11434/v1"
temperature = 0.7
num_ctx = 4096
num_gpu = 1

GPU 加速

Ollama 在 GPU 可用时自动启用:

  • macOS:Metal(Apple Silicon)
  • Linux:CUDA(NVIDIA)
  • Windows:CUDA(NVIDIA)

内存需求

模型大小所需内存
3B8 GB
7B16 GB
13B32 GB
70B128 GB+

常见问题

连接失败

  1. 确认 Ollama 正在运行:ollama serve
  2. 检查 base_url 设置
  3. 默认端口:11434

内存不足

  1. 使用更小的模型
  2. 减小 num_ctx
  3. 关闭其他占用内存的应用

响应缓慢

  1. 检查 GPU 是否正常加速
  2. 使用更小的模型
  3. 减少上下文长度