Cowork-AI · Live Showcase

Live-Demo · Bauwesen · 90 Sek

"Erstelle ein Ytong-Gebäude 5 × 4 × 2,5 m mit Pultdach"

Hermes-4-405B parst die Sprach-Eingabe, ruft ShapeLLM für die Geometrie, CADCrafter für die Bauteilliste, SearXNG für Bauhaus-Preise (Mai 2026), und rendert das Ergebnis als interaktives Three.js-Modell + druckfähige Materialliste. Beide Outputs sind live nebenstehend eingebettet — Sie können das 3D-Modell drehen, View-Modi wechseln, und die Materialliste per Klick als PDF speichern.

/3d Erstelle ein Ytong-Gebäude 5x4x2,5m mit Pultdach + Materialliste

1 Telegram/OWUI-Input → 2 ShapeLLM 7B (Geometrie) → 3 CADCrafter (Bauteile) → 4 SearXNG (Bauhaus-Preise) → 5 Three.js Render + HTML-Output

Output 1 · 3D-Architekturmodell Vollbild öffnen ↗

Output 2 · Materialliste · A4 druckfähig Vollbild öffnen ↗

Was Sie sehen: Beide Outputs wurden in ~90 Sekunden aus einem einzigen Sprach-Befehl generiert. Das 3D-Modell ist parametrisch (Maße ändern → Geometrie passt sich an), die Materialliste ist Bauhaus-Einkaufsfertig mit recherchierten Preisen Mai 2026. Für Ihre Branche gilt das Pattern analog: Pharma-SOP → Validierungs-Doku · Bank-Kreditprozess → 4-Augen-Approval-Flow · Industrie-Lastenheft → CAD-Bridge → Onshape-Modell.

Plattform-Berater

Modelle

qwen3.6-35B (lokal)

Hermes-4-405B

Claude Opus 4.7

DeepSeek-R3

Wissens-KB

📚 Plattform-Doku

📁 Eigene Uploads

Plattform-Berater Chat qwen3.6-35B-A3B (lokal · 0 € pro Aufruf)

📎 Doku-RAG aktiv · Voice ✓

Erstelle ein Ytong-Gebäude 5×4×2,5m mit Pultdach + Materialliste mit aktuellen Bauhaus-Preisen

⚡

Verstanden — ich generiere ein parametrisches 3D-Modell + bestellfertige Materialliste:

▸ ShapeLLM 7B → Geometrie (5×4×2,5m, Pultdach 4,3°)

▸ CADCrafter → 8 Bauteile · Wandstärke 17,5cm Ytong

▸ SearXNG → Bauhaus-Preise Mai 2026 (Live-Crawl)

Beide Outputs sind oben in der Use-Case-Section live eingebettet — drehen Sie das 3D-Modell, drucken Sie die Materialliste.

            
            472 Token · 0,001 € · 1,8 s · qwen3.6-35B lokal
          

Mock-Preview · Open WebUI ist eine echte Single-Page-App und schützt sich vor iframe-Embedding. Klicken Sie ▶ Live öffnen für die echte Chat-UI.

Stage 0 · Cloud Quick-Start

companyAI Agent / galena.ai

aus der companyCloud · keine Hardware nötig · DSGVO-Region EU

ab 0 € Capex
OPEX pro User/Monat

Sofort starten · in 1 Tag live
Pilot · Proof-of-Value · Demo-Termine
Hermes-Agent + 600+ Modelle vorkonfiguriert
Eigene Wissens-KB hochladbar
Migration zu Stage 1-4 jederzeit möglich

galena.ai · companyCloud · EU-Region

Stage 1 · On-Prem Pilot

1-2× DGX Spark

GB10 Grace-Blackwell · 128 GB unified · ~1 PFLOP FP4 · 2U · ~4 kW

≈ 5–10 k€

Eigene Hardware on-prem
~12–18 concurrent User
Modelle bis ~70B (Q4)
Pilot · Engineering-Demos
Datenhoheit ab Tag 1

Stage 2 · Power-Workstation

1× DGX Station GB300

GB300 Superchip · 784 GB unified · ~500 TFLOP FP4 · Tower 4U · ~2 kW

≈ 100 k€

671B-Modelle stabil (DeepSeek V3.2/V4)
~40–60 concurrent User
Engineering-Pilot-Hardware
3,5× günstiger als B300
Brücken-Stufe vor Multi-Tenant

Stage 3 · Produktiv-Skala

1× DGX B300

8× Blackwell-Ultra · 1,2 TB unified · ~1 PETAFLOP FP4 · Rack 4U · 10 kW

≈ 350 k€

Frontier-Modelle parallel
~150–250 concurrent User
3D-CAD-Generative · Voice 50+ Streams
Multi-Tenant-Isolation
Ziel-Hardware für 500+ MA

Stage 4 · Hybrid & Smart-Router

Cloud + On-Prem + Burst

LiteLLM-Gateway routet automatisch · 80% lokal · 20% Cloud-Fallback

flexibel
je nach Mix

Best-of-both: Datenhoheit + Frontier-Qualität
companyAI als Spillover bei Spitzen
Cost-Cap pro Tenant + Auto-Throttle
Failover EU-Cloud bei Wartung
Migration ohne Daten-Bewegung

⚙ Parallel-Track · optional, früh empfohlen

x86 Daten-Workstation

Lenovo ThinkStation P-Series oder Dell Precision 7960 · 64+ Cores · 512 GB+ RAM · 1-2× RTX 6000 Ada · ≈ 60 k€. Entlastet die DGX-Linie von Datenplattform-Last (Trino/Airbyte/BI) und ermöglicht x86-only Tools (h2oGPT, .NET Connectors, Legacy/Windows-Tools).

Was läuft hier konkret?

→ Trino · Airbyte · OpenMetadata
→ Microsoft Graph + Business Central (.NET)
→ BI-Stacks · Legacy-Connectors
→ 3D-CAD-Bridges (Onshape/FreeCAD x86)

Annahmen · Ihre Zahlen

Mitarbeiter (FTE gesamt)700

Aktive KI-Nutzung der Belegschaft50 %

Effizienz-Faktor pro Anwender15 %

Vollkosten / FTE / Jahr75 000 €

Investition Hardware-Stufe350 000 €

Stage 0 ≈ 0 € · Spark ≈ 10 k€ · Station ≈ 100 k€ · B300 ≈ 350 k€ · +x86 ≈ 60 k€

Ergebnis · live

FTE-Hebel

FTE-Äquivalente / Jahr

Jährliche Einsparung

3,9 M€

bei voller Adoption

Payback

1,1

Monate bis Break-Even

ROI Year-1

1024 %

Return on Investment

Lese-Hilfe: Effizienz-Faktor = wieviel Zeit ein Anwender durch KI pro Tag spart (15% ≈ 1,2h von 8h). McKinsey/BCG 2025/26 nennen 12–28% je Funktion als realistisch — wir rechnen defensiv mit 15%. Bei Stage 0 (Cloud-Quick-Start) ist Capex 0 → Payback nahezu sofort.

FTE-Hebel pro Hardware-Stufe (konservatives Modell)

Erwartetes Nutzungsprofil

Standard-Chat / Tag (70B-Modell)2 000

Reasoning / Tag (Frontier 671B)100

Voice-Sessions parallel5

3D-CAD-Sessions / Tag20

Long-Context (≥ 32k Tokens)10

Datenplattform-Last (Trino/Airbyte/RAG)30 %

Empfehlung pro Stufe

Stufe	Reicht?	Headroom	Kosten

Empfehlung: …

⚙ Wie wird gerechnet? (Annahmen offenlegen)

Capacity-Modell pro Stufe (vLLM 0.6+, p99 < 2,3s, 4k In + 1k Out):
• Stage 0 Cloud: 500 Chat / 50 Reason / 20 Voice / 10 CAD / 30 Long (skalierbar)
• Stage 1 Spark: 18 Chat / 0 Reason / 2 Voice / 0 CAD / 1 Long
• Stage 2 Station GB300: 60 Chat / 8 Reason / 8 Voice / 4 CAD / 6 Long
• Stage 3 B300: 250 Chat / 35 Reason / 50 Voice / 20 CAD / 30 Long

Workload-Konkurrenz: Capacity wird um × (1 - data%×0,5) reduziert wenn Datenplattform parallel läuft.

Quellen: vLLM Performance Guide, TensorRT-LLM Benchmarks, NVIDIA DGX-Specs Q1 2026.

Modell-Klasse	Größe	VRAM	Cloud (S0)	Spark (S1)	Station (S2)	B300 (S3)	Bemerkung
Llama-3 70B Q4	70 B	17–21 GB	✓	✓ live	✓	✓	tägliche Workloads
Qwen3.6-35B-A3B FP8 (MoE)	36B / 3B	~35 GB	✓	✓ Primary	✓	✓	Multimodal Vision
Mistral Large 2	123 B	30–38 GB	✓	✓	✓	✓	Reasoning
Hermes-4-405B	405 B	~820 GB	✓ via OpenRouter	✗ OOM	✓ knapp · TP	✓	Premium Reasoning
DeepSeek V3.2 (MoE)	671B / 37B	168–210 GB	✓ via Cloud	✗ instabil	✓ stabil	✓ komfortabel	Frontier-Reasoning
Claude Opus 4.7	cloud	—	✓	✓ via API	✓ via API	✓ via API	Anthropic direkt + Failover
ShapeLLM 7B (NL→3D-CAD)	7 B	4–8 GB	~ partial	✓	✓	✓	Sprache → CAD
Hunyuan3D-1.3B	1,3 B	~24 GB	~	✓ einzeln	✓ parallel	✓ parallel	3D-Mesh-Generation
Whisper Large-v3	1,5 B	~6 GB	✓	✓	✓	✓	Voice-Input

Verboten

Hochrisiko

Begrenzt

Minimal

Engineering-Doku & Reports

—

Pilot

live

Compliance-Auto-Scans

—

Pilot

—

Bonitäts-/Kreditscoring

—

Hochrisiko

—

Ticket-Triage Service

—

live

3D-CAD aus Lastenheft

—

Pilot

—

Voice-Tickets

—

live

Daten-Orchestrierung

—

live

HR-Vorauswahl (NICHT geplant)

verboten

—

Was Sie als Kunde bekommen: Pro Risikoklasse fertige Workflow-Templates: Disclosure-Banner, PII-Filter (Presidio), 4-Augen-Approval, Audit-Trail SHA-256 + WORM 10 Jahre, Notified-Body-Audit-Pack auf Knopfdruck. Hochrisiko-Use-Cases (Bonität, Kreditscoring, Personal-Vorauswahl) bekommen automatisch zusätzliche Pflicht-Schritte aus EU-AI-Act Art. 6/9/13/16/50/52.

DGX Spark / Station / B300

NVIDIA-Server für KI auf ARM (Grace+Blackwell). Spark ≈ 10 k€ · Station GB300 ≈ 100 k€ (671B-Modelle stabil) · B300 ≈ 350 k€ (Multi-Tenant-Rack). Plus x86-Workstation ≈ 60 k€ für Datenplattform.

Concurrent User

Wieviele Mitarbeiter gleichzeitig die KI nutzen ohne Slowdown. Nicht zu verwechseln mit Gesamtnutzern — die können beliebig hoch sein.

RAG · Retrieval Augmented Generation

KI bekommt zur Frage passende interne Dokumente mitgeliefert und antwortet mit Quellenangabe. Verhindert Halluzinationen.

FTE-Hebel

Wieviel Stunden Mitarbeiter-Arbeit die KI ersetzt. Hier reden wir von Effizienzgewinn — nicht Stellen-Abbau.

Smart-Router (LiteLLM)

Entscheidet bei jeder Anfrage: einfach → lokal (gratis), schwierig → Cloud (kostet). >80% bleiben lokal = niedrige API-Kosten.

Hermes Superagent

Generalist-Agent im Browser-Chat (Open-WebUI). Wählt selbst das passende Modell, kann Tools aufrufen (Web-Suche, Code, Daten-Query, 3D-Generation).

Claws (NemoClaw, SecClaw, …)

Spezialisierte Telegram-Bots, jeder mit klarem Job. Zusammen ein autonomer 24/7-Schwarm.

EU-AI-Act / DSGVO

Plattform scannt sich täglich selbst auf Compliance. Personendaten werden automatisch gefiltert vor jedem Modell-Call. Disclosure-Banner inklusive.

Schritt 1 · Tag 1–30

Cloud Quick-Start

companyAI Agent in der companyCloud / galena.ai live nehmen. Keine Hardware-Beschaffung. 2-3 Pilot-Use-Cases identifizieren, KPIs definieren, Anwender-Schulung.

≈ 0 € Capex · OPEX nach Adoption

Schritt 2 · Monat 2–6

On-Prem Pilot · Spark + x86

1-2× DGX Spark + optionale x86-Workstation für Daten-Stack. Datenhoheit für sensible Use-Cases. Telemetrie zu Adoption sammeln, Hochrisiko-Use-Cases identifizieren.

≈ 10–70 k€ Capex · ROI < 6 Monate

Schritt 3 · Monat 6–12

Skalierung · Station oder B300

Datenbasiert entscheiden: Bei <60 concurrent reicht Station GB300 (~100 k€). Bei 100+ concurrent oder Frontier-Workloads → B300 (~350 k€). Hybrid mit companyAI als Spillover für Spitzen.

≈ 100–350 k€ Capex · Zielgröße erreicht

Bottom-Line für die Geschäftsführung: Mit dem Cloud-Quick-Start (companyAI / galena.ai) starten Sie ohne Capex und beweisen den ROI in den ersten 30 Tagen. Mit der Spark-Stufe (≈ 10 k€) holen Sie Datenhoheit, Pilot-Hardware und Engineering-Demos ins Haus — ROI < 6 Monate. Erst wenn Adoption über 60 concurrent klettert, fällt die größere Station-/B300-Investition. Der Pfad ist datengetrieben rechtfertigbar bevor jede Stufe gezogen wird. Optional ergänzt um eine x86-Data-Workstation (~60 k€) für Trino/Airbyte/h2oGPT-Workloads, die auf ARM-Grace nicht performant laufen.

Hermes 3D-Artefakt

Lassen Sie das LLM eine 3D-Szene live im Telegram-Chat generieren — z.B. Kugel, Sonnensystem, Architektur-Modell.

/3d Eine rotierende Erde mit Mond

In Telegram öffnen →

Mit Hermes chatten

Hermes Agent in Open WebUI · System-Prompt mit Plattform-Wissen · 9 Tools (Crawl, GraphRAG, n8n etc.).

"Erstelle eine SVG der 6 Claws und ihrer Funktionen"

Chat öffnen →

Plattform-Status live

Aktuelle Uptime und Health-Status aller 60+ Container · zeigt Live-Operations als Beweis.

Hermes-Tool: platform_status() → Tabelle aller Services

Status öffnen →

SVG-Architektur generieren

Lassen Sie sich eine maßgeschneiderte Architektur-Skizze für die Anforderung des Kunden zeichnen.

"Zeichne mir die Architektur als Mermaid-Diagramm: 5 Microservices auf k8s"

In Chat versuchen →

💊

Pharma · GxP-Konform

Persona: Compliance-Officer

Audit-pflichtige Dokumenten-Reviews mit SHA-256-Hash-Chain · GxP-Templates automatisiert · WORM-Speicher 10 Jahre.

Validierung gegen ICH-Q9 (Risk-Mgmt)
OpenMythos-Pen-Test pro Use-Case
eIDAS-Sign-Workflow via Documenso

🏦

Bank/FinDl · BaFin/MaRisk

Persona: CISO + Risiko-Vorstand

1500+ Copilot-Agenten unter zentraler Governance · 6 Agent-Kontrollen + 4 Pflichten-Hochrisiko · Audit-Pack in 18 Tagen.

BaFin MaRisk AT 9 + KAIT automatisch gemappt
Pre-Production-Gate erzwingt 4-Augen-Sign
Live-Cockpit für Vorstand → VWFS-Demo

🧠

Beratung · 50-FTE-Skalierung

Persona: Partner + COO

Plattform-Berater Chat mit 1000+ Wissens-Einträgen · jeder FTE bekommt Cowork-AI als Kollegen · 30+ Use-Cases pro Tag.

ROI: 3,21 M EUR p.a. bei 50 FTEs
Onboarding 30/60/90 Tage strukturiert
Voice-Input via Whisper · mobil-fähig

⚙️

Industrie · Knowledge-Graph

Persona: Head of R&D

Neo4j Knowledge-Graph mit 192 Knoten · Crawl4AI füllt aus Confluence/SharePoint · GraphRAG findet Querverbindungen.

Daten-Hoheit: keine Egress an OpenAI/Google
Lokale LLMs (qwen3, gemma-4) als Default
Plattform-aware Hermes-Bot mit /search

Beratungs-Sektor · 50 FTEs · 1 Jahr

3,21 M EUR p.a.

Eingesparte Tageszeit pro FTE: 1,2 Std × 220 Arbeitstage × 100 EUR/h = 26.400 EUR/FTE × 50 = 1,32 M (Soft-Save) + 1,89 M Mehrumsatz durch frei werdende Senior-Kapazität.

Plattform-Berater Chat ersetzt manuellen Wissens-Lookup
Voice-Input für Mobile-Konsultationen
Auto-Doku per DevClaw aus Meeting-Mitschnitt
Custom-Modell mit eigenem Wissen (kein Cloud-Lockin)

# LiteLLM-Token-Kosten
Hermes-4-405B: $1 / 1M Tok
Hermes-4-70B: $0,13 / 1M Tok
qwen3-30b lokal: 0 € (eigene HW)

# Realistisches Volumen
50 FTE × 30 Calls/Tag × 220 Tage
= 330 k Calls/Jahr
Avg 3 k Token/Call = 990 M Tok

# Cloud-Anteil 20%
198 M Tok × $1 ≈ $200/Jahr
80% lokal = 0 EUR
Auto-Fallback bei Cloud-Cap-Erreichen

Feature	Cowork-AI Medialine	ChatGPT Enterprise	Microsoft Copilot	Custom Stack (self-built)
On-prem · keine Daten-Egress	✓ DGX Spark	✗ Azure-bound	✗ Azure-bound	✓ (DIY)
Multi-Tenant-Isolation	✓ 4 Tenants live	~ Workspaces	~ Tenants in M365	~ DIY
Eigene LLMs lokal	✓ qwen3, gemma-4, Ollama	✗ nur GPT	✗ nur GPT	✓
600+ Modelle via Gateway	✓ LiteLLM	✗	✗	~ DIY
Autonome 24/7-Bots	✓ 6 Claws	✗	✗	~
Audit-Trail SHA-256	✓ Langfuse + WORM 10J	~ Logs	~ Logs	~ DIY
EU-AI-Act-konform	✓ 80% (Disclosure+PII+Audit)	~ Disclosure	~ Disclosure	~ DIY
Knowledge-Graph 192 Knoten	✓ Neo4j+GraphRAG	✗	✗	~
3D-Artefakt-Generierung	✓ Hermes /3d	✗	✗	✗
Pen-Test-Stack	✓ OpenMythos 43 Cases	✗	✗	~ DIY
Time-to-Production	✓ 30 Tage	✓ 7 Tage	✓ 7 Tage	✗ 6-12 Monate
Lock-In-Risiko	✓ Kein Lock-In	✗ OpenAI	✗ Microsoft	✓

Was unterscheidet Cowork-AI von ChatGPT-Enterprise?

Multi-Tenant-Isolation · jeder Kunde bekommt eigene Daten-Sandbox (4 Tenants live)
Eigene Modelle on-premise · qwen3.6 35B-A3B lokal auf DGX (kein Cloud-Vendor-Lockin)
EU-AI-Act-konform · Disclosure-Banner, PII-Filter (Presidio), Audit-Trail (Langfuse), DSGVO-Retention (180d)
Autonome Agenten · 6 Claws als 24/7-Bot-Federation (kein Vergleichbares bei OpenAI)
Self-Heal-Stack · autoheal + bot-watchdog + restic-backup · 99,9% Uptime ohne Manual-Touch

Was kostet ein Hermes-Aufruf?

Hermes-4-70B ~$0,13 pro 1M Tokens (cheap-paid via OpenRouter)
Hermes-4-405B ~$1 pro 1M Tokens (premium)
qwen3.6 lokal · 0 € pro Aufruf (eigene Hardware)
Realistische Anfrage: 0,02 ct pro 405B-Call · 250.000 Premium-Anfragen mit $50-Budget
Auto-Fallback auf lokal sobald Cloud-Credit erschöpft → keine plötzlichen Kosten-Explosionen

Wie funktioniert die Daten-Trennung zwischen Kunden?

Mehrschichtig:

Network-Layer: separate Docker-Networks pro Tenant (kiguru-net, medialine-net etc.)
App-Layer: separate OpenWebUI-Instanzen mit eigenen Datenbanken (PostgreSQL pro Tenant)
Modell-Layer: LiteLLM-Tenant-Keys mit Budget-Caps pro Kunde
RAG-Layer: separate Qdrant-Collections (kb_busching, kb_vwfs, kb_knauber, etc.)
Audit-Layer: Langfuse mit Tenant-Tagging · jeder Call ist nachverfolgbar

Kann der Kunde eigene Daten hochladen?

Ja · per OpenWebUI-Upload (DOCX/PDF/MD/TXT)
Automatische Indexierung in Qdrant (bge-m3 Embeddings)
Knowledge-Base wird automatisch im RAG verwendet
Daten bleiben on-premise · verlassen NICHT die DGX

Was kann ich Demo-fähig im Termin zeigen?

3D-Generation via Telegram-Bot · QR-Code scannen · "/3d ein Smartphone-Modell"
Live-Chat auf chat.medialine.app · Hermes Agent mit Plattform-Wissen
Knowledge-Graph-Abfrage · "Was steht in unserer Wissensbasis zu DSGVO?"
Web-Recherche live · Hermes ruft SearXNG, fasst Treffer zusammen
Architektur-Skizze · "Zeichne mir die Architektur als Mermaid"

Was kommt als Nächstes (Roadmap)?

W31 P2 · AnythingLLM + paperqa Pro · ARM-natives RAG-Frontend mit Multi-Workspace und Doc-Upload (ersetzt h2oGPT-Roadmap, da h2oGPT x86-only und auf DGX/ARM nicht lauffähig ist)
W34 P2 · LLaMA Factory als Training-UI · Fine-Tuning lokaler Modelle direkt auf DGX (ersetzt h2o LLM Studio, ARM-fähig, LoRA + QLoRA + DPO)
W36 P3 · Whisper-Pipeline (Audio-to-Action) · Voice-Stack-Erweiterung mit Tone.js + Vapi.ai-Integration
W47 · API-Gateway als Public-API für Kunden-Integrationen · OpenAPI 3.1-Spec + Tenant-Keys
Cycle 307 · Paperclip.ai für Goal-driven Agent-Orchestration
W54 · DR-Cluster Schweiz (Disaster-Recovery für Enterprise-Kunden)

Warum nicht h2oGPT in der Roadmap?

Hardware-Inkompatibilität: h2oGPT-Stack (inkl. h2o-wave, h2o-llm-studio) ist x86-only — die DGX Spark läuft auf ARM64
ARM-tauglicher Ersatz: AnythingLLM (Mintplex Labs, Multi-Arch Docker) bietet identische h2oGPT-Features (Doc-Upload, RAG, Multi-Workspace, LLM-Provider-Abstraction)
Training-UI: LLaMA Factory ersetzt h2o LLM Studio · ARM-Docker · LoRA + QLoRA + DPO für die geplanten Custom-Modelle
Alternative Optionen evaluiert: Khoj, danswer/Onyx, LibreChat — alle ARM-fähig, AnythingLLM ist closest-fit zu h2oGPT-Use-Case
Plan: W31 → AnythingLLM-PoC im VWFS-Tenant · W32 → Multi-Tenant-Rollout

F01Wieso nicht ChatGPT-Enterprise?

Daten verlassen Dein Haus nicht. EU-Cloud heißt nicht EU-Hoheit. Du bekommst 600+ Modelle statt 5, lokale Inferenz, eigene Audit-Hashes, custom Skills+Crews. Cost reduziert sich nach 4 Monaten unter ChatGPT-Enterprise-Niveau.

F02Hardware-Investment lohnt sich?

DGX Spark Cluster startet bei ~180 k€ (4 Nodes). Bei 50 FTE Beratung: ROI in 14–22 Wochen. Wenn Du nur 10 FTE hast, lohnt sich Cloud-Inferenz mit Anthropic-direct + OpenRouter erstmal mehr.

F03Wer wartet das System?

Self-Healing-Stack: autoheal restartet Container, gitops-watcher 60s sync, Restic 3-2-1-1-0 Backup, restic-restore-Test 4× bestanden. Plus Dein Plattform-Partner (Wartungsvertrag empfohlen).

F04Was passiert bei Ausfall?

Disaster-Recovery in < 15 Minuten dokumentiert + getestet. 3-Node-Cluster mit Witness-Quorum, Restic Off-Site-Backup, Failover-Chain läuft auch bei einem Node-Down.

F05Wie teuer ist Lizenz/Run?

Open-Source 95 %, also keine Lizenzkosten. Cloud-Modelle nach Use (Anthropic + OpenRouter üblich 200–2000 €/Monat). Plattform-Run (Strom + Internet + Backup-Storage) ~600 €/Monat.

F06Kann ich eigene Modelle trainieren?

Ja — Welle 32 (Self-Distillation): User-Audit-Logs → Synthetic-Data → LoRA-Fine-Tune lokales Modell. Per-Mandant-Custom-NemoClaw mit eurer Sprache + euren Konventionen.

F07DSGVO-Auftragsverarbeitung?

Bei vollständigem on-prem-Setup keine AVV nötig für KI-Schicht (kein Drittland-Transfer). Bei Hybrid mit Cloud-LLMs: AVV mit Anthropic/OpenAI nach Schrems-II-Prüfung.

F08Was ist mit Halluzinationen?

Multi-Layer-Defense: NeMo-Guardrails, LLM-Guard, Presidio-PII, Cohere-Reranker, Source-Citation in jeder Antwort, Confidence-Score, Eval-Datasets in Langfuse, manuelle Review-Queue für Hochrisiko-Outputs.

F09Integriert sich in MS365 / Google?

Ja, n8n hat 200+ Connectors: SharePoint, Outlook, Teams, GMail, Drive, Calendar, Tasks, OneNote. KIS, ERP, CRM über generische REST/SOAP/JDBC.

F10Wie ist der Privacy-Layer?

Presidio anonymisiert PII pre-prompt, audit_events mit SHA-256-Hash, Per-User-RBAC in Keycloak, Per-Team-Budgets in LiteLLM, Tracing in Langfuse mit Redaction. Optional: SOPS-encrypted-Secrets in Git.

F11Skaliert auf 500 Mitarbeiter?

Ja — K3s-Cluster (geplant W26), Multi-Tenant-Workspaces, NemoClaw-pro-Mandant. DGX H200 für Training-Workloads. DGX Station GB300 für Long-Context. Edge-Jetson für Außenstellen.

F12Wer hat das schon im Einsatz?

5 Lighthouse-Mandanten (Pharma, Bank, Beratung, Manufacturing, Healthcare). Referenzen unter NDA verfügbar. Live-Status: 65+ Container, 99,97 % Uptime 30 T, 30+ Tasks/Tag Durchsatz autonomous-worker.

Cowork-AI in 3 Klickslive demonstriert.

Live-Plattform · Stand jetzt

Die 6 Claws · Telegram-Bot-Federation

NemoClaw

OpenClaw

MarketClaw

SecClaw

DevClaw

HermesClaw NEU

KI-Use-Case · Vom Lastenheft-Text zu 3D-Modell + Materialliste

"Erstelle ein Ytong-Gebäude 5 × 4 × 2,5 m mit Pultdach"

Live-Chat im Termin · ohne Tab-Wechsel

Der Weg zur eigenen KI-Plattform

ROI-Rechner · live mitschieben

Annahmen · Ihre Zahlen

Ergebnis · live

FTE-Hebel pro Hardware-Stufe (konservatives Modell)

Workload-Qualifizierer · welche Stufe für Ihren Mix?

Erwartetes Nutzungsprofil

Empfehlung pro Stufe

Modelle & harte Grenzen pro Stufe

EU-AI-Act · Risiko-Klassifikation der Use-Cases

Glossar fürs Management

DGX Spark / Station / B300

Concurrent User

RAG · Retrieval Augmented Generation

FTE-Hebel

Smart-Router (LiteLLM)

Hermes Superagent

Claws (NemoClaw, SecClaw, …)

EU-AI-Act / DSGVO

Entscheidungs-Empfehlung · 3 Schritte

Cloud Quick-Start

On-Prem Pilot · Spark + x86

Skalierung · Station oder B300

Test-Drives · Direkt im Termin

Hermes 3D-Artefakt

Mit Hermes chatten

Plattform-Status live

SVG-Architektur generieren

Branchen-Cases · 4 Vertriebs-Szenarien

Pharma · GxP-Konform

Bank/FinDl · BaFin/MaRisk

Beratung · 50-FTE-Skalierung

Industrie · Knowledge-Graph

ROI · Beispielrechnung 50 FTEs

Beratungs-Sektor · 50 FTEs · 1 Jahr

Cowork-AI vs ChatGPT-Enterprise vs Microsoft Copilot vs Custom-Stack

Letzte Aktivität · live aus /api/news

Plattform-Changelog · letzte 5 Einträge

Sales-Talking-Points

Häufige Fragen

Termin buchen

30-Minuten Sales-Demo anfragen

Cowork-AI in 3 Klicks
live demonstriert.