Ollama + Open WebUI 2026: Lokale LLMs für DSGVO-konforme KI

Q: Welche Hardware brauche ich für Llama 3.3 70B?

Mindestens 40 GB GPU-VRAM (NVIDIA A100 80GB oder zwei RTX 4090) für 4-bit-Quantisierung. MacBook M3 Max mit 64 GB unified Memory schafft es ebenfalls.

Q: Ist Ollama wirklich DSGVO-konform?

Ja, weil sämtliche Daten in eigener Infrastruktur bleiben. Du bist verantwortlich für DSGVO-Maßnahmen, aber Cloud-Datenübermittlungen entfallen.

Q: Kann ich Open WebUI für mein Team produktiv nutzen?

Ja. RBAC, Audit-Logs, RAG-Pipeline und SSO-Integration sind Team-tauglich. Production-Setups via Kubernetes oder Docker-Compose.

Q: Wie ist die Performance gegenüber ChatGPT oder Claude?

Lokale 70B-Modelle liegen 10-20 Prozentpunkte hinter Claude Opus 4.7 oder GPT-5 in Reasoning-Benchmarks. Für Standard-Use-Cases nicht praktisch spürbar.

Aktualisiert: 18. Mai 2026

Von Wilson Campero · 🕒 10 Min. Lesezeit

Bank, Versicherung, Pharma, öffentliche Verwaltung: 2026 stehen Tausende Unternehmen vor der gleichen Frage. Wie nutzen wir Large Language Models, ohne Trainings-Daten an US-Konzerne abzugeben? Wie erfüllen wir DSGVO, EU AI Act und ISO 27001 gleichzeitig? Die Antwort heißt für viele: Ollama + Open WebUI.

Dieses Werkzeug-Set lässt dich in 15 Minuten ein vollwertiges ChatGPT-Pendant auf eigener Hardware aufsetzen. Llama 4, Mistral oder DeepSeek laufen lokal, keine Daten verlassen das Unternehmensnetz. Die Open-WebUI-Oberfläche ist so poliert, dass auch Nicht-Techniker damit arbeiten können.

In diesem Artikel zeige ich dir die Installation Schritt für Schritt, den 2026er-Modell-Katalog, Hardware-Empfehlungen für unterschiedliche Unternehmens-Größen und die Compliance-Story für IT-Leiter, Datenschutz-Beauftragte und CISO.

Inhaltsverzeichnis

Was ist Ollama und Open WebUI?
Installation in 5 Minuten
Modell-Katalog: Welche LLMs lokal laufen
Open WebUI: ChatGPT-Clone für eigene Modelle
Hardware-Empfehlungen 2026
Use-Cases für Unternehmen
DSGVO, EU AI Act und ISO 27001 - die Compliance-Story
Ollama vs. LM Studio vs. vLLM vs. LocalAI
Stolperfallen
Fazit
FAQ: Häufige Fragen zu Ollama

Was ist Ollama und Open WebUI?

Ollama ist eine Open-Source-Runtime für lokale LLMs, gestartet 2023 in San Francisco. Ein einziges Binary, das Modelle herunterlädt, in den GPU-Speicher lädt und über eine HTTP-API bereitstellt. Plattformen: macOS, Linux, Windows.

Open WebUI (vormals Ollama WebUI) ist die ChatGPT-ähnliche Web-Oberfläche obendrauf. Multi-User, RBAC, RAG mit eigenen Dokumenten, Web-Suche, Python-Code-Interpreter. Lizenziert unter MIT, läuft als Docker-Container.

Zusammen bilden beide das De-facto-Standard-Set für On-Premise-LLMs in DACH-Unternehmen. Im KI-Tools-Hub KI Tools Software Testing ist Ollama unsere Default-Empfehlung für Compliance-strikte Pilotprojekte.

Installation in 5 Minuten

Drei-Schritt-Setup auf Ubuntu 24.04 oder vergleichbarem Linux-Server:

# 1. Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh

# 2. Erstes Modell laden
ollama pull llama3.3:70b

# 3. Test-Chat
ollama run llama3.3:70b "Erkläre mir RAG in 3 Sätzen."

Für die Web-Oberfläche Open WebUI via Docker:

docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Browser auf http://localhost:3000, Admin-Account anlegen, Modell auswählen, los geht es. Das gesamte Setup ist in 5 Minuten erledigt, wenn die GPU-Treiber bereits sauber installiert sind.

Modell-Katalog: Welche LLMs lokal laufen

Ollama supported 2026 über 200 Modelle. Die Top-Picks für deutsche Enterprise-Setups:

Modell	Größe	Stärke	VRAM (Q4)
Llama 4 Scout	109B / 17B aktiv	Frontier, Long-Context	~60 GB
Llama 3.3 70B	70B	Dense, robust	~40 GB
Mistral Small 3.1	22B	Coding + Multilingual	~13 GB
DeepSeek R1 70B	70B	Reasoning-Spezialist	~40 GB
Qwen 2.5 72B	72B	Multilingual inkl. CJK	~42 GB
Phi-4 14B	14B	Effizientes Reasoning	~9 GB
Gemma 3 27B	27B	Google-Modell, multilingual	~16 GB
OpenLLaMa 7B	7B	Apache 2.0, lizenz-puristisch	~5 GB

Modell-Pull per ollama pull mistral:small3.1 oder vergleichbar. Quantisierungs-Varianten (Q4, Q5, Q8) sind im Tag-System abrufbar, z.B. llama3.3:70b-q4_K_M.

Open WebUI: ChatGPT-Clone für eigene Modelle

Open WebUI ist deutlich mehr als ein simples Chat-Interface. Features 2026:

Multi-User mit RBAC: Admin, Power-User, Standard-User, individuelle Modell-Berechtigungen
RAG (Retrieval Augmented Generation): PDF/DOCX/MD/Markdown hochladen, Open WebUI baut Vektor-Index, Antworten zitieren Quellen
Web-Suche: Über SearXNG oder Tavily-Integration für aktuelle Informationen
Python Code Interpreter: Sandboxed Python-Ausführung für Datenanalyse
Image-Generation: Über Stable Diffusion via Automatic1111 oder ComfyUI
Function Calling: Custom-Tools per OpenAPI-Schema einbinden
Audit-Logs: Wer hat wann was gefragt - wichtig für Compliance

Für Test Automation Engineers besonders interessant: Open WebUI als interne Test-Generation-Plattform. Tester laden User-Stories als Markdown, das RAG-System nutzt sie als Context, das LLM generiert passende Test-Cases.

Hardware-Empfehlungen 2026

Drei Setups je nach Unternehmensgröße und Anspruch:

Setup	Hardware	Kosten	Modelle möglich
Solo-Pilot	MacBook M3 Max, 64 GB unified	~5.000 EUR	Bis 32B Q4 (Mistral, Phi-4)
Team-Setup	Workstation mit RTX 5090 (32 GB VRAM)	~5.000 EUR	Bis 70B Q5 (Llama 3.3)
Enterprise-Cluster	2x NVIDIA H100 (80 GB) oder A100	50.000-80.000 EUR	Frontier-Modelle inkl. Llama 4 Scout

Cloud-Alternative: Hetzner GPU-Server, Scaleway H100-Pods oder AWS p5.48xlarge (mit EU-Region-Zwang). Cloud-Setup ist günstiger pro Stunde, aber für Compliance-strikte Setups oft nicht akzeptabel, weil das Modell auf fremder Hardware läuft.

Use-Cases für Unternehmen

Aus Beratungs-Projekten 2026 sechs Use-Cases, die produktiv laufen:

Interner Chat-Assistent: Mitarbeiter:innen stellen Fragen zu HR-Doku, Prozessen, IT-Helpdesk. RAG indexiert das Confluence oder Sharepoint
Code-Review-Bot: Pull Requests in GitLab/GitHub werden lokal analysiert, Kommentare automatisch als Draft hinterlegt
Test-Case-Generation: User-Stories aus Jira gehen ans LLM, Tester bekommt Test-Skelett-Vorschläge
Translation und Summarization: Multilinguale Doku-Verwaltung ohne DeepL-Cloud
Compliance-Auditierung: Verträge, Policies und Reports gegen interne Regeln prüfen
Datenschutz-konforme Analytics: Mitarbeiter-Feedback, Kundenanfragen klassifizieren, ohne dass Daten US-Cloud sehen

DSGVO, EU AI Act und ISO 27001 - die Compliance-Story

Sehr geehrte:r Leser:in, dieser Abschnitt richtet sich an IT-Leitung, Datenschutz-Beauftragte und CISO. Hier zählt Präzision, nicht Speed.

Die Compliance-Story für Ollama + Open WebUI ist außergewöhnlich klar:

DSGVO (Datenschutz-Grundverordnung): Sämtliche Inferenz-Daten verbleiben in Ihrer Infrastruktur. Keine Übermittlung an Drittländer, keine Auftragsverarbeiter, kein Standardvertrags-Klauseln-Theater. Artikel 32 (Sicherheit der Verarbeitung) erfüllen Sie durch Netzwerk-Segmentierung und Zugriffskontrollen Ihrer Wahl.
EU AI Act: Open-Source-Modelle (Llama 4, Mistral, OpenLLaMa) fallen unter eine vereinfachte Compliance-Pflicht, weil Sie selbst der Deployer sind, nicht der Anbieter. Die Transparenz-Pflichten ab August 2026 betreffen primär die Modell-Hersteller (Meta, Mistral), nicht Sie als Anwender.
ISO 27001: Lokales LLM-Hosting passt sauber in Ihr bestehendes ISMS. Annex A.5.34 (Datenschutz und PII) wird durch das On-Premise-Setup deutlich einfacher zu auditieren als bei Cloud-LLM-Nutzung.
Sektorale Regulierung (BAIT, VAIT, KAIT, BSI IT-Grundschutz): Lokales Hosting ist die einfachste Compliance-Strategie für regulierte Branchen. Für Banken nach BAIT 6 (IT-Auslagerung) entfällt die komplette Outsourcing-Diskussion.

Wir empfehlen Ihnen bei jedem Pilot ein dreistufiges Vorgehen:

Phase 1 (4 Wochen): Setup auf abgeschirmter Workstation, Datenschutz-Beauftragte einbinden, erste Use-Cases definieren
Phase 2 (8-12 Wochen): Server-Setup mit RBAC, Audit-Log-Integration in SIEM, 10-30 Pilot-User
Phase 3 (laufend): Rollout pro Fachabteilung mit individueller Schulung, Capability-Erweiterung mit Fine-Tuning

Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei Compliance-strikten LLM-Setups gilt das doppelt: Sie müssen die Sicherheits-Annahmen Ihres Self-Hosting aktiv überprüfen, nicht passiv hoffen.

Ollama vs. LM Studio vs. vLLM vs. LocalAI

Tool	Stärke	Lizenz	Use-Case
Ollama	Einfaches Setup, breite Modell-Bibliothek	MIT	Default für Server-Setups
LM Studio	Polierte Desktop-App, GUI-First	Proprietär (kostenlos)	Solo-Entwickler:innen, MacBook-Pilot
vLLM	Hohe Throughput, Production-Skalierung	Apache 2.0	High-Volume-Production
LocalAI	OpenAI-API-kompatibel	MIT	Drop-in-Ersatz für bestehende OpenAI-Clients
llama.cpp	Low-Level-Runtime, höchste Performance	MIT	Embedded, Edge, Custom-Builds

Faustregel: Ollama für die meisten Setups (90 Prozent unserer Pilots), LM Studio für Solo-Entwickler:innen, vLLM für Production-Hochlast, LocalAI bei OpenAI-API-Migrations-Setups.

Stolperfallen

Aus Beratungs-Erfahrung 2026 vier Fallen:

GPU-Treiber-Hölle: CUDA, ROCm, MPS - jeder Stack hat eigene Versions-Inkompatibilitäten. Vor Pilot-Start einen ganzen Tag für Treiber-Setup einplanen
RAM oder VRAM verwechseln: 70B-Modelle brauchen 40+ GB GPU-VRAM, nicht System-RAM. MacBooks mit unified Memory sind ausnahmen
Sicherheits-Update vernachlässigt: Open WebUI hat 2025 mehrere CVEs gehabt. Automatisches Update via Watchtower oder regelmäßige Manual-Updates einplanen
Modell-Drift: Du machst einen Pilot mit Llama 3.3, sechs Monate später Llama 4 raus. Modell-Pin im Setup-Skript sonst werden Re-Tests nötig

Fazit

Ollama + Open WebUI ist 2026 das De-facto-Standard-Werkzeug-Set für Compliance-strikte LLM-Setups in DACH. Setup in unter 15 Minuten, 200+ Modelle verfügbar, DSGVO und ISO 27001 deutlich einfacher zu erfüllen als bei Cloud-LLM-Nutzung. Für Bank, Versicherung, Pharma und öffentliche Verwaltung ist es oft die einzige juristisch saubere Option.

Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei lokalen LLM-Setups erstreckt sich der Vertrag auch auf Hardware-Verfügbarkeit, Modell-Updates und Sicherheits-Patches. Brauchst du Unterstützung bei On-Premise-LLM-Pilot, Compliance-Beratung oder Fine-Tuning? Unser KI-Testing-Service deckt die ganze Pipeline ab.

FAQ: Häufige Fragen zu Ollama

Was kostet Ollama?

Ollama und Open WebUI sind kostenlos und Open Source (MIT-Lizenz). Kosten entstehen nur für Hardware (GPU, Server, Storage) und Betrieb (Strom, Wartung, Sicherheits-Updates).

Welche Hardware brauche ich für Llama 3.3 70B?

Mindestens 40 GB GPU-VRAM (eine NVIDIA A100 80GB oder zwei RTX 4090) für 4-bit-Quantisierung. Für bessere Qualität (Q5/Q6) brauchst du 50-60 GB. MacBook M3 Max mit 64 GB unified Memory schafft Llama 3.3 70B Q4 ebenfalls.

Ist Ollama wirklich DSGVO-konform?

Ja, weil sämtliche Daten in deiner eigenen Infrastruktur bleiben. Du bist verantwortlich für die typischen DSGVO-Maßnahmen (Zugriffskontrolle, Verschlüsselung, Audit-Logs). Aber Cloud-Datenübermittlungen entfallen vollständig.

Kann ich Open WebUI für mein Team produktiv nutzen?

Ja. Mit RBAC, Audit-Logs, RAG-Pipeline und SSO-Integration ist Open WebUI Team-tauglich. Für Production-Setups empfehlen wir Kubernetes-Deployment oder ein dediziertes Docker-Compose-Setup mit Backup-Strategie.

Welches Modell soll ich nehmen für einen ersten Pilot?

Für deutschsprachige Use-Cases Mistral Small 3.1 oder Llama 3.3 70B. Für reine Performance Llama 4 Scout. Für maximale Lizenz-Sicherheit OpenLLaMa. Tiefer im KI-Tools-Vergleich.

Wie ist die Performance gegenüber ChatGPT oder Claude?

Lokale 70B-Modelle liegen 2026 noch 10-20 Prozentpunkte hinter Claude Opus 4.7 oder GPT-5 in komplexen Reasoning-Benchmarks. Für viele Standard-Use-Cases (RAG, Chat, Klassifikation) ist die Lücke aber nicht praktisch spürbar.

Testautomatisierung Beratung

Sie möchten Ihre Testautomatisierung optimieren? Unsere Experten helfen Ihnen bei der Auswahl der richtigen Tools, Best Practices und CI/CD-Integration.

Jetzt anfragen

Als Experte für Softwarequalität und ISTQB Certified Full Advanced Tester informiere ich Sie auf Qytera.de über Testautomatisierung, Performance Testing und Testmanagement.

Mein Antrieb: Mehr Zeit für neue Features statt nerviger Bugs. Und dadurch die Softwarewelt ein Stück besser machen.

Vernetzen Sie sich mit mir auf LinkedIn