🟢GTC 2026 — 企业级推理基础设施

llm.Port

Self-hosted all-in-one LLM platform

路由、保护和观测本地 LLM 运行时与远程提供商之间的流量 ── 为团队提供端到端管理 LLM 服务的统一平台。

Zero-to-Inference

# Install the CLI
$ pip install llmport-cli

# Check prerequisites & deploy
$ llmport doctor
$ llmport deploy

# Enable optional modules
$ llmport module enable pii
$ llmport module enable rag

快速开始 GitHub

支持 English、Deutsch、Español、中文

工作原理

🔀

API 网关

兼容 OpenAI 的 /v1/* 端点。路由到 vLLM、llama.cpp、Ollama、TGI 及远程提供商（OpenAI、Azure 等）。SSE 流式传输、基于别名的模型解析、重试和速率限制。

🛡️

PII 层

Microsoft Presidio 集成，用于实时检测和脱敏。租户级策略，可配置实体类型和故障安全模式。

⚡

GPU 编排

自动检测 NVIDIA (CUDA)、AMD (ROCm) 和 Intel GPU。使用正确的镜像（CUDA / ROCm / Legacy）启动 vLLM 容器。HuggingFace 缓存挂载实现快速模型加载。

🗄️

存储

PostgreSQL + pgvector 用于向量搜索（RAG）。Redis 用于速率限制、会话缓存和分布式租约。MinIO 用于兼容 S3 的文档存储。

📊

可观测性

Langfuse 用于 LLM 追踪（含隐私模式）。Grafana + Loki + Alloy 用于集中式日志。OpenTelemetry + Jaeger 用于分布式追踪。Prometheus 指标。

⚙️

控制平面

FastAPI 后端，用于 RBAC、设置、Docker 编排、模块生命周期、Agent 基础设施和带版本跟踪的 Compose 栈管理。

功能概览

🔀

网关与路由

兼容 OpenAI 的 API 端点 (/v1/*)，可将请求路由到本地运行时（vLLM、llama.cpp、Ollama、TGI）和远程提供商（OpenAI、Azure 等）。基于别名的模型解析、SSE 流式传输与 TTFT 提取，以及自动重试。

🛡️

安全与隐私

完整的 RBAC 与 JWT 认证、OAuth / SSO / OIDC、Redis 速率限制、并发租约和 Fernet 加密的数据库密钥。基于 Presidio 的 PII 检测，支持租户级策略、可配置的实体类型和故障安全模式。

📊

可观测性

Langfuse 追踪与隐私模式、Loki + Alloy 集中式日志、OpenTelemetry + Jaeger 分布式追踪，以及嵌入 Grafana 面板的仪表板。每个网关请求和管理操作均有审计日志。

📚

RAG 管道

多租户检索，支持向量、关键词和混合搜索。虚拟容器树，具有草稿/发布工作流、MinIO 预签名上传、收集器插件和通过 Taskiq + RabbitMQ 的异步处理。

🖥️

运维控制台

完整的容器生命周期管理、带 SSE 进度的镜像拉取、Compose 栈部署/回滚（含版本和审计跟踪）。多厂商 GPU 自动检测（NVIDIA、AMD、Intel、Apple Metal）。

💬

聊天控制台

内置聊天界面，支持 SSE 流式传输、拖放式会话管理、错误重试、深色/浅色主题以及按模型的使用量跟踪。支持所有通过网关连接的模型。

llm.port 对比

功能	llm.port	LiteLLM	Ollama
兼容 OpenAI 的网关	✅	✅	✅
管理界面	✅ Built-in	💰 Paid	❌
PII 脱敏层	✅ Native	❌	❌
RAG 管道	✅ Built-in	❌	❌
Chat Console with Memory	✅	❌	❌
GPU 自动检测	✅ Auto-detect	❌	✅
Langfuse Tracing	✅ Embedded	🔌 Plugin	❌
Grafana + Loki Logging	✅ Pre-configured	❌	❌
RBAC / 多租户	✅	💰 Partial	❌
国际化（4 种语言）	✅	❌	❌
CLI 工具	✅ llmport deploy	❌	❌
License	Apache 2.0	MIT + Paid	MIT