本章节内容为可选阅读,仅供参考。由于不同的硬件配置与部署环境可能存在差异,实际问题也会有所不同。建议按照本文环境及操作步骤执行,如遇异常可随时向 AI 寻求帮助,或咨询vllm官方,PIG AI 无法提供支持。
请确保你的设备满足以下最低配置:
可通过 nvcc --version 命令检查 CUDA 是否已正确安装。
打开终端,依次执行以下命令:
建议将 export HF_ENDPOINT=https://hf-mirror.com 添加到 ~/.bashrc 文件中,避免每次重启终端后重新设置。
在激活的 paddle-ocr-vl 环境中,运行以下命令启动模型服务:
--trust-remote-code:允许加载模型仓库中的自定义代码(PaddleOCR-VL 需要)。--max-num-batched-tokens 16384:提升批量处理能力,适应长文本或复杂布局。--no-enable-prefix-caching:关闭前缀缓存,避免多模态输入下的兼容性问题。--mm-processor-cache-gb 0:禁用多模态处理器缓存,节省显存。
首次运行会自动从 HF-Mirror 下载模型(约数 GB),请耐心等待。
默认服务地址:http://localhost:8000PaddlePaddle/PaddleOCR-VLhttp://localhost:8000/v1)
PaddleOCR-VL 支持输出带格式的文本(如段落、表格结构等),但不直接返回 JSON。 若需结构化字段(如"发票号""金额"),需结合后处理规则或调用辅助模型进行解析。
