私有模型接入指南

私有模型接入要求

PIG AI 支持通过在线配置接入私有化(ollama/vllm)模型,部署前请确保满足以下基础要求:

  • 硬件资源:使用专业级 GPU 服务器,CPU 不适用(两个并发推理 100% 宕机)
  • 显存要求:根据模型规模需预留充足 VRAM(32B 模型建议 48G+,70B 模型建议 80G+)
  • 生产环境:推荐使用 NVIDIA A/H 及以上专业计算卡,消费级显卡可能无法满足持续推理需求
模型类型模型名称说明
聊天模型qwen2.5:72b72b 参数量聊天模型,更准确需要更多资源
推理模型deepseek-r1:32bR1 推理模型,支持复杂推理任务
向量模型bge-m3:latest用于文档向量化和语义检索
视觉模型qwen2.5vl:32b支持图像理解和多模态对话

安装 ollama

版本要求

Ollama 版本必须为 0.5.0 及以上才能支持本文档中介绍的所有功能特性。

  • 【可选】配置 ollama 对外服务,默认情况下 ollama 默认只允许本地 11434 端口访问,需要配置 ollama 对外服务。
systemctl edit ollama.service

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

systemctl daemon-reload
systemctl restart ollama
网络配置

如果 Ollama 服务部署在远程服务器,需要配置 OLLAMA_HOST 为 0.0.0.0 以允许外部访问。本地部署可跳过此配置。

运行私有模型

# 聊天模型,70b 代表参数集合数量,越大越准确,但是消耗资源越多
ollama run qwen2.5:72b
# 推理模型 R1 模型
ollama run deepseek-r1:32b
# 向量模型,只需要 pull
ollama pull bge-m3:latest
# 视觉模型
ollama run qwen2.5vl:32b
硬件资源要求

运行 70b 模型为生产级模型,需要 GPU 80G+ 的显存,无法在普通 CPU 条件推理,模型推理速度(可以理解为提问响应速度)取决于硬件配置。

  • 如下图:两块(A6000 + 48GB)
GPU资源监控

模型接入

配置注意事项

请注意配置的模型和如上 ollama 运行时模型名称一致,否则无法正常调用。

1
打开模型配置

进入模型配置页面,点击"新增模型"

2
配置模型参数
  • 供应商:选择 Ollama
  • 类型:根据需求选择聊天或推理模型
  • 模型名称:选择已在 Ollama 运行的模型,如 PIG AI 前端没有此模型选项可以输入添加
模型配置界面 模型运行示例