Bank, Versicherung, Pharma, öffentliche Verwaltung: 2026 stehen Tausende Unternehmen vor der gleichen Frage. Wie nutzen wir Large Language Models, ohne Trainings-Daten an US-Konzerne abzugeben? Wie erfüllen wir DSGVO, EU AI Act und ISO 27001 gleichzeitig? Die Antwort heißt für viele: Ollama + Open WebUI.
Dieses Werkzeug-Set lässt dich in 15 Minuten ein vollwertiges ChatGPT-Pendant auf eigener Hardware aufsetzen. Llama 4, Mistral oder DeepSeek laufen lokal, keine Daten verlassen das Unternehmensnetz. Die Open-WebUI-Oberfläche ist so poliert, dass auch Nicht-Techniker damit arbeiten können.
In diesem Artikel zeige ich dir die Installation Schritt für Schritt, den 2026er-Modell-Katalog, Hardware-Empfehlungen für unterschiedliche Unternehmens-Größen und die Compliance-Story für IT-Leiter, Datenschutz-Beauftragte und CISO.
Inhaltsverzeichnis
- Was ist Ollama und Open WebUI?
- Installation in 5 Minuten
- Modell-Katalog: Welche LLMs lokal laufen
- Open WebUI: ChatGPT-Clone für eigene Modelle
- Hardware-Empfehlungen 2026
- Use-Cases für Unternehmen
- DSGVO, EU AI Act und ISO 27001 - die Compliance-Story
- Ollama vs. LM Studio vs. vLLM vs. LocalAI
- Stolperfallen
- Fazit
- FAQ: Häufige Fragen zu Ollama
Was ist Ollama und Open WebUI?
Ollama ist eine Open-Source-Runtime für lokale LLMs, gestartet 2023 in San Francisco. Ein einziges Binary, das Modelle herunterlädt, in den GPU-Speicher lädt und über eine HTTP-API bereitstellt. Plattformen: macOS, Linux, Windows.
Open WebUI (vormals Ollama WebUI) ist die ChatGPT-ähnliche Web-Oberfläche obendrauf. Multi-User, RBAC, RAG mit eigenen Dokumenten, Web-Suche, Python-Code-Interpreter. Lizenziert unter MIT, läuft als Docker-Container.
Zusammen bilden beide das De-facto-Standard-Set für On-Premise-LLMs in DACH-Unternehmen. Im KI-Tools-Hub KI Tools Software Testing ist Ollama unsere Default-Empfehlung für Compliance-strikte Pilotprojekte.
Installation in 5 Minuten
Drei-Schritt-Setup auf Ubuntu 24.04 oder vergleichbarem Linux-Server:
# 1. Ollama installieren
curl -fsSL https://ollama.com/install.sh | sh
# 2. Erstes Modell laden
ollama pull llama3.3:70b
# 3. Test-Chat
ollama run llama3.3:70b "Erkläre mir RAG in 3 Sätzen."
Für die Web-Oberfläche Open WebUI via Docker:
docker run -d -p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Browser auf http://localhost:3000, Admin-Account anlegen, Modell auswählen, los geht es. Das gesamte Setup ist in 5 Minuten erledigt, wenn die GPU-Treiber bereits sauber installiert sind.
Modell-Katalog: Welche LLMs lokal laufen
Ollama supported 2026 über 200 Modelle. Die Top-Picks für deutsche Enterprise-Setups:
| Modell | Größe | Stärke | VRAM (Q4) |
|---|---|---|---|
| Llama 4 Scout | 109B / 17B aktiv | Frontier, Long-Context | ~60 GB |
| Llama 3.3 70B | 70B | Dense, robust | ~40 GB |
| Mistral Small 3.1 | 22B | Coding + Multilingual | ~13 GB |
| DeepSeek R1 70B | 70B | Reasoning-Spezialist | ~40 GB |
| Qwen 2.5 72B | 72B | Multilingual inkl. CJK | ~42 GB |
| Phi-4 14B | 14B | Effizientes Reasoning | ~9 GB |
| Gemma 3 27B | 27B | Google-Modell, multilingual | ~16 GB |
| OpenLLaMa 7B | 7B | Apache 2.0, lizenz-puristisch | ~5 GB |
Modell-Pull per ollama pull mistral:small3.1 oder vergleichbar. Quantisierungs-Varianten (Q4, Q5, Q8) sind im Tag-System abrufbar, z.B. llama3.3:70b-q4_K_M.
Open WebUI: ChatGPT-Clone für eigene Modelle
Open WebUI ist deutlich mehr als ein simples Chat-Interface. Features 2026:
- Multi-User mit RBAC: Admin, Power-User, Standard-User, individuelle Modell-Berechtigungen
- RAG (Retrieval Augmented Generation): PDF/DOCX/MD/Markdown hochladen, Open WebUI baut Vektor-Index, Antworten zitieren Quellen
- Web-Suche: Über SearXNG oder Tavily-Integration für aktuelle Informationen
- Python Code Interpreter: Sandboxed Python-Ausführung für Datenanalyse
- Image-Generation: Über Stable Diffusion via Automatic1111 oder ComfyUI
- Function Calling: Custom-Tools per OpenAPI-Schema einbinden
- Audit-Logs: Wer hat wann was gefragt - wichtig für Compliance
Für Test Automation Engineers besonders interessant: Open WebUI als interne Test-Generation-Plattform. Tester laden User-Stories als Markdown, das RAG-System nutzt sie als Context, das LLM generiert passende Test-Cases.
Hardware-Empfehlungen 2026
Drei Setups je nach Unternehmensgröße und Anspruch:
| Setup | Hardware | Kosten | Modelle möglich |
|---|---|---|---|
| Solo-Pilot | MacBook M3 Max, 64 GB unified | ~5.000 EUR | Bis 32B Q4 (Mistral, Phi-4) |
| Team-Setup | Workstation mit RTX 5090 (32 GB VRAM) | ~5.000 EUR | Bis 70B Q5 (Llama 3.3) |
| Enterprise-Cluster | 2x NVIDIA H100 (80 GB) oder A100 | 50.000-80.000 EUR | Frontier-Modelle inkl. Llama 4 Scout |
Cloud-Alternative: Hetzner GPU-Server, Scaleway H100-Pods oder AWS p5.48xlarge (mit EU-Region-Zwang). Cloud-Setup ist günstiger pro Stunde, aber für Compliance-strikte Setups oft nicht akzeptabel, weil das Modell auf fremder Hardware läuft.
Use-Cases für Unternehmen
Aus Beratungs-Projekten 2026 sechs Use-Cases, die produktiv laufen:
- Interner Chat-Assistent: Mitarbeiter:innen stellen Fragen zu HR-Doku, Prozessen, IT-Helpdesk. RAG indexiert das Confluence oder Sharepoint
- Code-Review-Bot: Pull Requests in GitLab/GitHub werden lokal analysiert, Kommentare automatisch als Draft hinterlegt
- Test-Case-Generation: User-Stories aus Jira gehen ans LLM, Tester bekommt Test-Skelett-Vorschläge
- Translation und Summarization: Multilinguale Doku-Verwaltung ohne DeepL-Cloud
- Compliance-Auditierung: Verträge, Policies und Reports gegen interne Regeln prüfen
- Datenschutz-konforme Analytics: Mitarbeiter-Feedback, Kundenanfragen klassifizieren, ohne dass Daten US-Cloud sehen
DSGVO, EU AI Act und ISO 27001 - die Compliance-Story
Sehr geehrte:r Leser:in, dieser Abschnitt richtet sich an IT-Leitung, Datenschutz-Beauftragte und CISO. Hier zählt Präzision, nicht Speed.
Die Compliance-Story für Ollama + Open WebUI ist außergewöhnlich klar:
- DSGVO (Datenschutz-Grundverordnung): Sämtliche Inferenz-Daten verbleiben in Ihrer Infrastruktur. Keine Übermittlung an Drittländer, keine Auftragsverarbeiter, kein Standardvertrags-Klauseln-Theater. Artikel 32 (Sicherheit der Verarbeitung) erfüllen Sie durch Netzwerk-Segmentierung und Zugriffskontrollen Ihrer Wahl.
- EU AI Act: Open-Source-Modelle (Llama 4, Mistral, OpenLLaMa) fallen unter eine vereinfachte Compliance-Pflicht, weil Sie selbst der Deployer sind, nicht der Anbieter. Die Transparenz-Pflichten ab August 2026 betreffen primär die Modell-Hersteller (Meta, Mistral), nicht Sie als Anwender.
- ISO 27001: Lokales LLM-Hosting passt sauber in Ihr bestehendes ISMS. Annex A.5.34 (Datenschutz und PII) wird durch das On-Premise-Setup deutlich einfacher zu auditieren als bei Cloud-LLM-Nutzung.
- Sektorale Regulierung (BAIT, VAIT, KAIT, BSI IT-Grundschutz): Lokales Hosting ist die einfachste Compliance-Strategie für regulierte Branchen. Für Banken nach BAIT 6 (IT-Auslagerung) entfällt die komplette Outsourcing-Diskussion.
Wir empfehlen Ihnen bei jedem Pilot ein dreistufiges Vorgehen:
- Phase 1 (4 Wochen): Setup auf abgeschirmter Workstation, Datenschutz-Beauftragte einbinden, erste Use-Cases definieren
- Phase 2 (8-12 Wochen): Server-Setup mit RBAC, Audit-Log-Integration in SIEM, 10-30 Pilot-User
- Phase 3 (laufend): Rollout pro Fachabteilung mit individueller Schulung, Capability-Erweiterung mit Fine-Tuning
Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei Compliance-strikten LLM-Setups gilt das doppelt: Sie müssen die Sicherheits-Annahmen Ihres Self-Hosting aktiv überprüfen, nicht passiv hoffen.
Ollama vs. LM Studio vs. vLLM vs. LocalAI
| Tool | Stärke | Lizenz | Use-Case |
|---|---|---|---|
| Ollama | Einfaches Setup, breite Modell-Bibliothek | MIT | Default für Server-Setups |
| LM Studio | Polierte Desktop-App, GUI-First | Proprietär (kostenlos) | Solo-Entwickler:innen, MacBook-Pilot |
| vLLM | Hohe Throughput, Production-Skalierung | Apache 2.0 | High-Volume-Production |
| LocalAI | OpenAI-API-kompatibel | MIT | Drop-in-Ersatz für bestehende OpenAI-Clients |
| llama.cpp | Low-Level-Runtime, höchste Performance | MIT | Embedded, Edge, Custom-Builds |
Faustregel: Ollama für die meisten Setups (90 Prozent unserer Pilots), LM Studio für Solo-Entwickler:innen, vLLM für Production-Hochlast, LocalAI bei OpenAI-API-Migrations-Setups.
Stolperfallen
Aus Beratungs-Erfahrung 2026 vier Fallen:
- GPU-Treiber-Hölle: CUDA, ROCm, MPS - jeder Stack hat eigene Versions-Inkompatibilitäten. Vor Pilot-Start einen ganzen Tag für Treiber-Setup einplanen
- RAM oder VRAM verwechseln: 70B-Modelle brauchen 40+ GB GPU-VRAM, nicht System-RAM. MacBooks mit unified Memory sind ausnahmen
- Sicherheits-Update vernachlässigt: Open WebUI hat 2025 mehrere CVEs gehabt. Automatisches Update via Watchtower oder regelmäßige Manual-Updates einplanen
- Modell-Drift: Du machst einen Pilot mit Llama 3.3, sechs Monate später Llama 4 raus. Modell-Pin im Setup-Skript sonst werden Re-Tests nötig
Fazit
Ollama + Open WebUI ist 2026 das De-facto-Standard-Werkzeug-Set für Compliance-strikte LLM-Setups in DACH. Setup in unter 15 Minuten, 200+ Modelle verfügbar, DSGVO und ISO 27001 deutlich einfacher zu erfüllen als bei Cloud-LLM-Nutzung. Für Bank, Versicherung, Pharma und öffentliche Verwaltung ist es oft die einzige juristisch saubere Option.
Tests sind kein Add-on. Tests sind der Vertrag, den Code und CI miteinander schließen. Bei lokalen LLM-Setups erstreckt sich der Vertrag auch auf Hardware-Verfügbarkeit, Modell-Updates und Sicherheits-Patches. Brauchst du Unterstützung bei On-Premise-LLM-Pilot, Compliance-Beratung oder Fine-Tuning? Unser KI-Testing-Service deckt die ganze Pipeline ab.
FAQ: Häufige Fragen zu Ollama
Was kostet Ollama?
Ollama und Open WebUI sind kostenlos und Open Source (MIT-Lizenz). Kosten entstehen nur für Hardware (GPU, Server, Storage) und Betrieb (Strom, Wartung, Sicherheits-Updates).
Welche Hardware brauche ich für Llama 3.3 70B?
Mindestens 40 GB GPU-VRAM (eine NVIDIA A100 80GB oder zwei RTX 4090) für 4-bit-Quantisierung. Für bessere Qualität (Q5/Q6) brauchst du 50-60 GB. MacBook M3 Max mit 64 GB unified Memory schafft Llama 3.3 70B Q4 ebenfalls.
Ist Ollama wirklich DSGVO-konform?
Ja, weil sämtliche Daten in deiner eigenen Infrastruktur bleiben. Du bist verantwortlich für die typischen DSGVO-Maßnahmen (Zugriffskontrolle, Verschlüsselung, Audit-Logs). Aber Cloud-Datenübermittlungen entfallen vollständig.
Kann ich Open WebUI für mein Team produktiv nutzen?
Ja. Mit RBAC, Audit-Logs, RAG-Pipeline und SSO-Integration ist Open WebUI Team-tauglich. Für Production-Setups empfehlen wir Kubernetes-Deployment oder ein dediziertes Docker-Compose-Setup mit Backup-Strategie.
Welches Modell soll ich nehmen für einen ersten Pilot?
Für deutschsprachige Use-Cases Mistral Small 3.1 oder Llama 3.3 70B. Für reine Performance Llama 4 Scout. Für maximale Lizenz-Sicherheit OpenLLaMa. Tiefer im KI-Tools-Vergleich.
Wie ist die Performance gegenüber ChatGPT oder Claude?
Lokale 70B-Modelle liegen 2026 noch 10-20 Prozentpunkte hinter Claude Opus 4.7 oder GPT-5 in komplexen Reasoning-Benchmarks. Für viele Standard-Use-Cases (RAG, Chat, Klassifikation) ist die Lücke aber nicht praktisch spürbar.