Self-hosted all-in-one LLM platform
Leitet, sichert und überwacht den Datenverkehr zwischen lokalen LLM-Runtimes und Remote-Anbietern — und gibt Teams einen zentralen Ort zur Verwaltung von LLM-Diensten.
# Install the CLI
$ pip install llmport-cli
# Check prerequisites & deploy
$ llmport doctor
$ llmport deploy
# Enable optional modules
$ llmport module enable pii
$ llmport module enable ragVerfügbar in English, Deutsch, Español, 中文
OpenAI-kompatibler /v1/*-Endpunkt. Leitet Anfragen an vLLM, llama.cpp, Ollama, TGI und Remote-Anbieter (OpenAI, Azure, …) weiter. SSE-Streaming, alias-basierte Modellauflösung, Retry und Rate-Limiting.
Microsoft Presidio-Integration für Echtzeit-Erkennung und -Schwärzung. Mandantenspezifische Richtlinien mit konfigurierbaren Entitätstypen und Fail-Safe-Modi.
Automatische Erkennung von NVIDIA (CUDA), AMD (ROCm) und Intel GPUs. Startet vLLM-Container mit dem korrekten Image (CUDA / ROCm / Legacy). HuggingFace-Cache-Mounting für schnelles Laden von Modellen.
PostgreSQL mit pgvector für Vektorsuche (RAG). Redis für Rate-Limiting, Sitzungscache und verteiltes Leasing. MinIO für S3-kompatiblen Dokumentenspeicher.
Langfuse für LLM-Tracing mit Datenschutzmodi. Grafana + Loki + Alloy für zentralisiertes Logging. OpenTelemetry + Jaeger für verteiltes Tracing. Prometheus-Metriken.
FastAPI-Backend für RBAC, Einstellungen, Docker-Orchestrierung, Modullebenszyklus, Agenten-Infrastruktur und Compose-Stack-Management mit Revisionsverfolgung.
OpenAI-kompatibler API-Endpunkt (/v1/*), der Anfragen an lokale Runtimes (vLLM, llama.cpp, Ollama, TGI) und Remote-Anbieter (OpenAI, Azure, …) weiterleitet. Alias-basierte Modellauflösung, SSE-Streaming mit TTFT-Extraktion und automatische Wiederholung.
Vollständiges RBAC mit JWT-Authentifizierung, OAuth / SSO / OIDC, Redis-Rate-Limiting, Concurrency-Leasing und Fernet-verschlüsselten DB-Geheimnissen. Presidio-basierte PII-Erkennung mit mandantenspezifischen Richtlinien, konfigurierbaren Entitätstypen und Fail-Safe-Modi.
Langfuse-Tracing mit Datenschutzmodi, Loki + Alloy zentralisiertes Logging, OpenTelemetry + Jaeger verteiltes Tracing und ein Dashboard mit eingebetteten Grafana-Panels. Jede Gateway-Anfrage und Admin-Aktion wird im Audit-Log erfasst.
Mandantenfähiges Retrieval mit Vektor-, Stichwort- und Hybridsuche. Virtueller Container-Baum mit Entwurf-/Veröffentlichungs-Workflows, vorsignierte MinIO-Uploads, Collector-Plugins und asynchrone Verarbeitung über Taskiq + RabbitMQ.
Vollständiges Container-Lifecycle-Management, Image-Pulls mit SSE-Fortschritt, Compose-Stack-Deploy/Rollback mit Revisionen und Audit-Trail. Multi-Vendor-GPU-Erkennung (NVIDIA, AMD, Intel, Apple Metal).
Integrierte Chat-UI mit SSE-Streaming, Drag-and-Drop-Sitzungsverwaltung, Fehlerwiederholung, Dark-/Light-Theming und nutzungsbasiertem Tracking pro Modell. Unterstützt alle über das Gateway verbundenen Modelle.
| Funktion | llm.port | LiteLLM | Ollama |
|---|---|---|---|
| OpenAI-kompatibles Gateway | ✅ | ✅ | ✅ |
| Admin-UI | ✅ Built-in | 💰 Paid | ❌ |
| PII-Schwärzungsschicht | ✅ Native | ❌ | ❌ |
| RAG-Pipeline | ✅ Built-in | ❌ | ❌ |
| Chat Console with Memory | ✅ | ❌ | ❌ |
| GPU-Erkennung | ✅ Auto-detect | ❌ | ✅ |
| Langfuse Tracing | ✅ Embedded | 🔌 Plugin | ❌ |
| Grafana + Loki Logging | ✅ Pre-configured | ❌ | ❌ |
| RBAC / Mandantenfähigkeit | ✅ | 💰 Partial | ❌ |
| i18n (4 Sprachen) | ✅ | ❌ | ❌ |
| CLI-Tooling | ✅ llmport deploy | ❌ | ❌ |
| License | Apache 2.0 | MIT + Paid | MIT |
Souveräne KI als Standard — Daten bei Bedarf lokal halten, Remote-Anbieter nutzen wenn erlaubt, ohne Apps zu ändern oder Governance und Observability zu verlieren. Eine Plattform ersetzt ein Flickwerk aus Proxies, Dashboards und Skripten.
Teams, die die auf der GTC 2026 vorgestellten Modelle und Beschleuniger-Architekturen einsetzen, benötigen mehr als eine Runtime — sie brauchen ein sicheres Gateway. llm.port liefert die fehlende Produktionsschicht: ein OpenAI-kompatibles API-Gateway mit integrierter PII-Schwärzung, RBAC und vollständiger Observability — alles innerhalb Ihrer privaten VPC. Keine Daten verlassen Ihren Perimeter.
IBM Docling für erweiterte Dokumentenextraktion — Tabellen, Bilder, Seiten. Service-Gerüst vorhanden; Integration mit RAG-Pipeline in Arbeit.
Dedizierter Auth-Service für externe Identity-Provider-Verwaltung. Framework und Compose-Profil definiert.
Dedizierter E-Mail-Versanddienst für Passwort-Resets, Admin-Benachrichtigungen und Systemeinladungen.
Lizenz-Framework bereit (Ed25519 JWT). Pro-Implementierungen für PII, RAG und Gateway in Kürze.
TensorRT-LLM, SGLang und weitere verwaltete API-Anbieter.
Nutzungsanalysen pro Mandant, Modell und Benutzer mit Budgetlimits und Chargeback-Unterstützung.
Dashboard
Chat Console
Container Management
LLM Providers
Provider Details
Local Runtime
Models
Logging
Trace Viewer
Cost & Request Trends
Security Overview
User Profile
PII Detection
Knowledge Base
RAG Collectors
Scheduled Publishing
Modules
Settings
API PlaygroundEnterprise-Funktionen verfügbar für Teams, die SSO, erweiterte PII-Tokenisierung und Governance benötigen. Kontakt aufnehmen →