Self-hosted all-in-one LLM platform
Enruta, asegura y observa el tráfico entre runtimes LLM locales y proveedores remotos — brindando a los equipos un único lugar para gestionar servicios LLM de extremo a extremo.
# Install the CLI
$ pip install llmport-cli
# Check prerequisites & deploy
$ llmport doctor
$ llmport deploy
# Enable optional modules
$ llmport module enable pii
$ llmport module enable ragDisponible en English, Deutsch, Español, 中文
Endpoint /v1/* compatible con OpenAI. Enruta a vLLM, llama.cpp, Ollama, TGI y proveedores remotos (OpenAI, Azure, …). Streaming SSE, resolución de modelos basada en alias, reintentos y limitación de tasa.
Integración con Microsoft Presidio para detección y redacción en tiempo real. Políticas por inquilino con tipos de entidad configurables y modos fail-safe.
Detección automática de GPUs NVIDIA (CUDA), AMD (ROCm) e Intel. Inicia contenedores vLLM con la imagen correcta (CUDA / ROCm / Legacy). Montaje de caché HuggingFace para carga rápida de modelos.
PostgreSQL con pgvector para búsqueda vectorial (RAG). Redis para limitación de tasa, caché de sesiones y leasing distribuido. MinIO para almacenamiento de documentos compatible con S3.
Langfuse para trazado LLM con modos de privacidad. Grafana + Loki + Alloy para registro centralizado. OpenTelemetry + Jaeger para trazado distribuido. Métricas Prometheus.
Backend FastAPI para RBAC, configuraciones, orquestación Docker, ciclo de vida de módulos, infraestructura de agentes y gestión de stacks Compose con seguimiento de revisiones.
Endpoint API compatible con OpenAI (/v1/*) que enruta a runtimes locales (vLLM, llama.cpp, Ollama, TGI) y proveedores remotos (OpenAI, Azure, …). Resolución de modelos basada en alias, streaming SSE con extracción de TTFT y reintentos automáticos.
RBAC completo con autenticación JWT, OAuth / SSO / OIDC, limitación de tasa con Redis, leasing de concurrencia y secretos de BD cifrados con Fernet. Detección de PII basada en Presidio con políticas por inquilino, tipos de entidad configurables y modos fail-safe.
Trazado Langfuse con modos de privacidad, registro centralizado Loki + Alloy, trazado distribuido OpenTelemetry + Jaeger, y un panel con embeds de Grafana. Cada solicitud al gateway y acción administrativa queda en el registro de auditoría.
Recuperación multi-inquilino con búsqueda vectorial, por palabras clave e híbrida. Árbol de contenedores virtual con flujos de borrador/publicación, cargas presignadas a MinIO, plugins de recolección y procesamiento asíncrono vía Taskiq + RabbitMQ.
Gestión completa del ciclo de vida de contenedores, pulls de imágenes con progreso SSE, deploy/rollback de stacks Compose con revisiones y registro de auditoría. Detección automática de GPU multi-fabricante (NVIDIA, AMD, Intel, Apple Metal).
Interfaz de chat integrada con streaming SSE, gestión de sesiones con arrastrar y soltar, reintento de errores, temas oscuro/claro y seguimiento de uso por modelo. Compatible con todos los modelos conectados al gateway.
| Funcionalidad | llm.port | LiteLLM | Ollama |
|---|---|---|---|
| Gateway compatible con OpenAI | ✅ | ✅ | ✅ |
| UI de administración | ✅ Built-in | 💰 Paid | ❌ |
| Capa de redacción PII | ✅ Native | ❌ | ❌ |
| Pipeline RAG | ✅ Built-in | ❌ | ❌ |
| Chat Console with Memory | ✅ | ❌ | ❌ |
| Detección automática de GPU | ✅ Auto-detect | ❌ | ✅ |
| Langfuse Tracing | ✅ Embedded | 🔌 Plugin | ❌ |
| Grafana + Loki Logging | ✅ Pre-configured | ❌ | ❌ |
| RBAC / multi-inquilino | ✅ | 💰 Partial | ❌ |
| i18n (4 idiomas) | ✅ | ❌ | ❌ |
| Herramientas CLI | ✅ llmport deploy | ❌ | ❌ |
| License | Apache 2.0 | MIT + Paid | MIT |
IA soberana por defecto — mantén los datos on-prem cuando sea necesario, usa proveedores remotos cuando esté permitido, sin cambiar tus aplicaciones ni perder gobernanza y observabilidad. Una plataforma reemplaza un parche de proxies, dashboards y scripts.
Los equipos que despliegan los modelos y arquitecturas de aceleradores presentados en GTC 2026 necesitan más que un runtime — necesitan un gateway seguro. llm.port proporciona la capa de producción que falta: un API gateway compatible con OpenAI con redacción PII integrada, RBAC y observabilidad completa — todo ejecutándose dentro de tu VPC privada. Ningún dato sale de tu perímetro.
IBM Docling para extracción enriquecida de documentos — tablas, imágenes, páginas. El servicio base existe; integración con pipeline RAG en progreso.
Servicio dedicado de autenticación para gestión de proveedores de identidad externos. Framework y perfil Compose definidos.
Servicio dedicado de envío de correos para restablecimiento de contraseñas, alertas de administración e invitaciones del sistema.
Framework de licencias listo (Ed25519 JWT). Implementaciones Pro para PII, RAG y Gateway próximamente.
TensorRT-LLM, SGLang y proveedores de API gestionados adicionales.
Analíticas de uso por inquilino, modelo y usuario con límites de presupuesto y soporte de chargeback.
Dashboard
Chat Console
Container Management
LLM Providers
Provider Details
Local Runtime
Models
Logging
Trace Viewer
Cost & Request Trends
Security Overview
User Profile
PII Detection
Knowledge Base
RAG Collectors
Scheduled Publishing
Modules
Settings
API PlaygroundFunciones enterprise disponibles para equipos que necesitan SSO, tokenización PII avanzada y gobernanza. Contáctanos →