私有模型接入指南

模型类型模型名称说明
聊天模型qwen2.5:72b72b 参数量聊天模型,更准确需要更多资源
推理模型deepseek-r1:32bR1 推理模型,支持复杂推理任务
向量模型bge-m3:latest用于文档向量化和语义检索
视觉模型qwen2.5vl:32b支持图像理解和多模态对话

安装 ollama

  • 【可选】配置 ollama 对外服务,默认情况下 ollama 默认只允许本地 11434 端口访问,需要配置 ollama 对外服务。
systemctl edit ollama.service

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

systemctl daemon-reload
systemctl restart ollama

运行私有模型

# 聊天模型,70b 代表参数集合数量,越大越准确,但是消耗资源越多
ollama run qwen2.5:72b
# 推理模型 R1 模型
ollama run deepseek-r1:32b
# 向量模型,只需要 pull
ollama pull bge-m3:latest
# 视觉模型
ollama run qwen2.5vl:32b
  • 如下图:两块(A6000 + 48GB)

模型接入