Ollama + Open WebUI 2026: Lokale LLMs für DSGVO-konforme KI

Aktualisiert: 18. Mai 2026

Bank, Versicherung, Pharma, öffentliche Verwaltung: 2026 stehen Tausende Unternehmen vor der gleichen Frage. Wie nutzen wir Large Language Models, ohne Trainings-Daten an US-Konzerne abzugeben? Wie erfüllen wir DSGVO, EU AI Act und ISO 27001 gleichzeitig? Die Antwort heißt für viele: Ollama + Open WebUI.

Dieses Werkzeug-Set lässt dich in 15 Minuten ein vollwertiges ChatGPT-Pendant auf eigener Hardware aufsetzen. Llama 4, Mistral oder DeepSeek laufen lokal, keine Daten verlassen das Unternehmensnetz. Die Open-WebUI-Oberfläche ist so poliert, dass auch Nicht-Techniker damit arbeiten können.

In diesem Artikel zeige ich dir die Installation Schritt für Schritt, den 2026er-Modell-Katalog, Hardware-Empfehlungen für unterschiedliche Unternehmens-Größen und die Compliance-Story für IT-Leiter, Datenschutz-Beauftragte und CISO.

Inhaltsverzeichnis

Was ist Ollama und Open WebUI?

Ollama ist eine Open-Source-Runtime für lokale LLMs, gestartet 2023 in San Francisco. Ein einziges Binary, das Modelle herunterlädt, in den GPU-Speicher lädt und über eine HTTP-API bereitstellt. Plattformen: macOS, Linux, Windows.

Open WebUI (vormals Ollama WebUI) ist die ChatGPT-ähnliche Web-Oberfläche obendrauf. Multi-User, RBAC, RAG mit eigenen Dokumenten, Web-Suche, Python-Code-Interpreter. Lizenziert unter MIT, läuft als Docker-Container.

Zusammen bilden beide das De-facto-Standard-Set für On-Premise-LLMs in DACH-Unternehmen. Im KI-Tools-Hub KI Tools Software Testing ist Ollama unsere Default-Empfehlung für Compliance-strikte Pilotprojekte.

Installation in 5 Minuten

Drei-Schritt-Setup auf Ubuntu 24.04 oder vergleichbarem Linux-Server:

# 1. Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# 2. Erstes Modell laden
ollama pull llama3.3:70b

# 3. Test-Chat
ollama run llama3.3:70b "Erkläre mir RAG in 3 Sätzen."

Für die Web-Oberfläche Open WebUI via Docker:

docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Browser auf http://localhost:3000, Admin-Account anlegen, Modell auswählen, los geht es. Das gesamte Setup ist in 5 Minuten erledigt, wenn die GPU-Treiber bereits sauber installiert sind.

Modell-Katalog: Welche LLMs lokal laufen

Ollama supported 2026 über 200 Modelle. Die Top-Picks für deutsche Enterprise-Setups:

ModellGrößeStärkeVRAM (Q4)
Llama 4 Scout109B / 17B aktivFrontier, Long-Context~60 GB
Llama 3.3 70B70BDense, robust~40 GB
Mistral Small 3.122BCoding + Multilingual~13 GB
DeepSeek R1 70B70BReasoning-Spezialist~40 GB
Qwen 2.5 72B72BMultilingual inkl. CJK~42 GB
Phi-4 14B14BEffizientes Reasoning~9 GB
Gemma 3 27B27BGoogle-Modell, multilingual~16 GB
OpenLLaMa 7B7BApache 2.0, lizenz-puristisch~5 GB

Modell-Pull per ollama pull mistral:small3.1 oder vergleichbar. Quantisierungs-Varianten (Q4, Q5, Q8) sind im Tag-System abrufbar, z.B. llama3.3:70b-q4_K_M.

Open WebUI: ChatGPT-Clone für eigene Modelle

Open WebUI ist deutlich mehr als ein simples Chat-Interface. Features 2026:

  • Multi-User mit RBAC: Admin, Power-User, Standard-User, individuelle Modell-Berechtigungen
  • RAG (Retrieval Augmented Generation): PDF/DOCX/MD/Markdown hochladen, Open WebUI baut Vektor-Index, Antworten zitieren Quellen
  • Web-Suche: Über SearXNG oder Tavily-Integration für aktuelle Informationen
  • Python Code Interpreter: Sandboxed Python-Ausführung für Datenanalyse
  • Image-Generation: Über Stable Diffusion via Automatic1111 oder ComfyUI
  • Function Calling: Custom-Tools per OpenAPI-Schema einbinden
  • Audit-Logs: Wer hat wann was gefragt - wichtig für Compliance

Für Test Automation Engineers besonders interessant: Open WebUI als interne Test-Generation-Plattform. Tester laden User-Stories als Markdown, das RAG-System nutzt sie als Context, das LLM generiert passende Test-Cases.

Hardware-Empfehlungen 2026

Drei Setups je nach Unternehmensgröße und Anspruch:

SetupHardwareKostenModelle möglich
Solo-PilotMacBook M3 Max, 64 GB unified~5.000 EURBis 32B Q4 (Mistral, Phi-4)
Team-SetupWorkstation mit RTX 5090 (32 GB VRAM)~5.000 EURBis 70B Q5 (Llama 3.3)
Enterprise-Cluster2x NVIDIA H100 (80 GB) oder A10050.000-80.000 EURFrontier-Modelle inkl. Llama 4 Scout

Cloud-Alternative: Hetzner GPU-Server, Scaleway H100-Pods oder AWS p5.48xlarge (mit EU-Region-Zwang). Cloud-Setup ist günstiger pro Stunde, aber für Compliance-strikte Setups oft nicht akzeptabel, weil das Modell auf fremder Hardware läuft.

Use-Cases für Unternehmen

Aus Beratungs-Projekten 2026 sechs Use-Cases, die produktiv laufen:

  • Interner Chat-Assistent: Mitarbeiter:innen stellen Fragen zu HR-Doku, Prozessen, IT-Helpdesk. RAG indexiert das Confluence oder Sharepoint
  • Code-Review-Bot: Pull Requests in GitLab/GitHub werden lokal analysiert, Kommentare automatisch als Draft hinterlegt
  • Test-Case-Generation: User-Stories aus Jira gehen ans LLM, Tester bekommt Test-Skelett-Vorschläge
  • Translation und Summarization: Multilinguale Doku-Verwaltung ohne DeepL-Cloud
  • Compliance-Auditierung: Verträge, Policies und Reports gegen interne Regeln prüfen
  • Datenschutz-konforme Analytics: Mitarbeiter-Feedback, Kundenanfragen klassifizieren, ohne dass Daten US-Cloud sehen

DSGVO, EU AI Act und ISO 27001 - die Compliance-Story

Sehr geehrte:r Leser:in, dieser Abschnitt richtet sich an IT-Leitung, Datenschutz-Beauftragte und CISO. Hier zählt Präzision, nicht Speed.

Die Compliance-Story für Ollama + Open WebUI ist außergewöhnlich klar:

  • DSGVO (Datenschutz-Grundverordnung): Sämtliche Inferenz-Daten verbleiben in Ihrer Infrastruktur. Keine Übermittlung an Drittländer, keine Auftragsverarbeiter, kein Standardvertrags-Klauseln-Theater. Artikel 32 (Sicherheit der Verarbeitung) erfüllen Sie durch Netzwerk-Segmentierung und Zugriffskontrollen Ihrer Wahl.
  • EU AI Act: Open-Source-Modelle (Llama 4, Mistral, OpenLLaMa) fallen unter eine vereinfachte Compliance-Pflicht, weil Sie selbst der Deployer sind, nicht der Anbieter. Die Transparenz-Pflichten ab August 2026 betreffen primär die Modell-Hersteller (Meta, Mistral), nicht Sie als Anwender.
  • ISO 27001: Lokales LLM-Hosting passt sauber in Ihr bestehendes ISMS. Annex A.5.34 (Datenschutz und PII) wird durch das On-Premise-Setup deutlich einfacher zu auditieren als bei Cloud-LLM-Nutzung.
  • Sektorale Regulierung (BAIT, VAIT, KAIT, BSI IT-Grundschutz): Lokales Hosting ist die einfachste Compliance-Strategie für regulierte Branchen. Für Banken nach BAIT 6 (IT-Auslagerung) entfällt die komplette Outsourcing-Diskussion.

Wir empfehlen Ihnen bei jedem Pilot ein dreistufiges Vorgehen:

  1. Phase 1 (4 Wochen): Setup auf abgeschirmter Workstation, Datenschutz-Beauftragte einbinden, erste Use-Cases definieren
  2. Phase 2 (8-12 Wochen): Server-Setup mit RBAC, Audit-Log-Integration in SIEM, 10-30 Pilot-User
  3. Phase 3 (laufend): Rollout pro Fachabteilung mit individueller Schulung, Capability-Erweiterung mit Fine-Tuning

Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei Compliance-strikten LLM-Setups gilt das doppelt: Sie müssen die Sicherheits-Annahmen Ihres Self-Hosting aktiv überprüfen, nicht passiv hoffen.

Ollama vs. LM Studio vs. vLLM vs. LocalAI

ToolStärkeLizenzUse-Case
OllamaEinfaches Setup, breite Modell-BibliothekMITDefault für Server-Setups
LM StudioPolierte Desktop-App, GUI-FirstProprietär (kostenlos)Solo-Entwickler:innen, MacBook-Pilot
vLLMHohe Throughput, Production-SkalierungApache 2.0High-Volume-Production
LocalAIOpenAI-API-kompatibelMITDrop-in-Ersatz für bestehende OpenAI-Clients
llama.cppLow-Level-Runtime, höchste PerformanceMITEmbedded, Edge, Custom-Builds

Faustregel: Ollama für die meisten Setups (90 Prozent unserer Pilots), LM Studio für Solo-Entwickler:innen, vLLM für Production-Hochlast, LocalAI bei OpenAI-API-Migrations-Setups.

Stolperfallen

Aus Beratungs-Erfahrung 2026 vier Fallen:

  • GPU-Treiber-Hölle: CUDA, ROCm, MPS - jeder Stack hat eigene Versions-Inkompatibilitäten. Vor Pilot-Start einen ganzen Tag für Treiber-Setup einplanen
  • RAM oder VRAM verwechseln: 70B-Modelle brauchen 40+ GB GPU-VRAM, nicht System-RAM. MacBooks mit unified Memory sind ausnahmen
  • Sicherheits-Update vernachlässigt: Open WebUI hat 2025 mehrere CVEs gehabt. Automatisches Update via Watchtower oder regelmäßige Manual-Updates einplanen
  • Modell-Drift: Du machst einen Pilot mit Llama 3.3, sechs Monate später Llama 4 raus. Modell-Pin im Setup-Skript sonst werden Re-Tests nötig

Fazit

Ollama + Open WebUI ist 2026 das De-facto-Standard-Werkzeug-Set für Compliance-strikte LLM-Setups in DACH. Setup in unter 15 Minuten, 200+ Modelle verfügbar, DSGVO und ISO 27001 deutlich einfacher zu erfüllen als bei Cloud-LLM-Nutzung. Für Bank, Versicherung, Pharma und öffentliche Verwaltung ist es oft die einzige juristisch saubere Option.

Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei lokalen LLM-Setups erstreckt sich der Vertrag auch auf Hardware-Verfügbarkeit, Modell-Updates und Sicherheits-Patches. Brauchst du Unterstützung bei On-Premise-LLM-Pilot, Compliance-Beratung oder Fine-Tuning? Unser KI-Testing-Service deckt die ganze Pipeline ab.

FAQ: Häufige Fragen zu Ollama

Was kostet Ollama?

Ollama und Open WebUI sind kostenlos und Open Source (MIT-Lizenz). Kosten entstehen nur für Hardware (GPU, Server, Storage) und Betrieb (Strom, Wartung, Sicherheits-Updates).

Welche Hardware brauche ich für Llama 3.3 70B?

Mindestens 40 GB GPU-VRAM (eine NVIDIA A100 80GB oder zwei RTX 4090) für 4-bit-Quantisierung. Für bessere Qualität (Q5/Q6) brauchst du 50-60 GB. MacBook M3 Max mit 64 GB unified Memory schafft Llama 3.3 70B Q4 ebenfalls.

Ist Ollama wirklich DSGVO-konform?

Ja, weil sämtliche Daten in deiner eigenen Infrastruktur bleiben. Du bist verantwortlich für die typischen DSGVO-Maßnahmen (Zugriffskontrolle, Verschlüsselung, Audit-Logs). Aber Cloud-Datenübermittlungen entfallen vollständig.

Kann ich Open WebUI für mein Team produktiv nutzen?

Ja. Mit RBAC, Audit-Logs, RAG-Pipeline und SSO-Integration ist Open WebUI Team-tauglich. Für Production-Setups empfehlen wir Kubernetes-Deployment oder ein dediziertes Docker-Compose-Setup mit Backup-Strategie.

Welches Modell soll ich nehmen für einen ersten Pilot?

Für deutschsprachige Use-Cases Mistral Small 3.1 oder Llama 3.3 70B. Für reine Performance Llama 4 Scout. Für maximale Lizenz-Sicherheit OpenLLaMa. Tiefer im KI-Tools-Vergleich.

Wie ist die Performance gegenüber ChatGPT oder Claude?

Lokale 70B-Modelle liegen 2026 noch 10-20 Prozentpunkte hinter Claude Opus 4.7 oder GPT-5 in komplexen Reasoning-Benchmarks. Für viele Standard-Use-Cases (RAG, Chat, Klassifikation) ist die Lücke aber nicht praktisch spürbar.

Testautomatisierung Beratung

Sie möchten Ihre Testautomatisierung optimieren? Unsere Experten helfen Ihnen bei der Auswahl der richtigen Tools, Best Practices und CI/CD-Integration.

Jetzt anfragen

Finden Sie weitere interessante Artikel zum Thema: