Hauptseite 💬 Bot-Hub Chat-UI Hermes via Telegram →
9/9 Services LIVE Hermes-4-405B EU-AI-Act 80% 4 Tenants

Cowork-AI in 3 Klicks
live demonstriert.

Zeigen Sie Kunden in 5 Minuten, was unsere Plattform kann: Hermes Superagent, 6 autonome Claws, 3D-Visualisierungen, GraphRAG mit 192 Knoten — alles testbar im Termin.

Live 3D-Artefakt · generiert von Hermes 4-405B · 472 Tokens · 0,001 € pro Generation

Live-Plattform · Stand jetzt

Diese Zahlen ändern sich täglich · zeigen Sie sie als Beweis der laufenden Operationen.

60+
Container im Stack
/api/news · stats
48
LLM-Modelle in LiteLLM
litellm.medialine.app
6
autonome Claws (24/7)
Telegram-Federation
192
Knoten im GraphRAG
graph.medialine.app
4
Tenants getrennt
multi-tenant isolated
80%
EU-AI-Act compliant
Disclosure + PII + Audit
mfimpulse · Beratung goodhealthcare · Gesundheit rmgroup · Industrie knauber · Energie vwfs · Finanzdienstleister

Die 6 Claws · Telegram-Bot-Federation

Autonome KI-Agenten · klicken Sie auf einen Claw, um seinen Bot direkt zu öffnen.

👑

NemoClaw

@medialineCLAWbot_bot

Master-UI mit 13+ Slash-Commands · Letta-Memory v3 · zentrale Steuerung der Federation.

Master
⚙️

OpenClaw

@medialineOpsBot

Container-Health · Restart-Befehle · Log-Tails · GPU-Auslastung · Plan + Architektur.

Operations
📈

MarketClaw

@ljdhewfsidefhBot_bot

24/7 Web-Crawling via Crawl4AI · Branchen-News · Konkurrenz-Watch · Tagesreports 06:00 UTC.

Market-Watch
🛡️

SecClaw

@medialineSecClawBot

Pen-Tests in 6 Kategorien · OpenMythos · LLM-Jailbreak · Prompt-Injection-Defense.

Security
💻

DevClaw

@medialineDevClawBot

Code-Generation · Compose-Files · n8n-Workflows · FastAPI-Skelette auf Anfrage.

Code-Gen

HermesClaw NEU

@bot4hermesKIguruBotbot

Hermes-4-405B Premium · 3D-Artefakte via /3d · Plattform-aware · Conversation-Memory · 9 Tools.

Superagent

KI-Use-Case · Vom Lastenheft-Text zu 3D-Modell + Materialliste

Konkretes Beispiel aus dem Anlagen-/Hochbau: Ein Vertriebler tippt 1 Satz, Hermes generiert 3D-Visualisierung + bestellfertige Materialliste mit aktuellen Bauhaus-Preisen.

Live-Demo · Bauwesen · 90 Sek

"Erstelle ein Ytong-Gebäude 5 × 4 × 2,5 m mit Pultdach"

Hermes-4-405B parst die Sprach-Eingabe, ruft ShapeLLM für die Geometrie, CADCrafter für die Bauteilliste, SearXNG für Bauhaus-Preise (Mai 2026), und rendert das Ergebnis als interaktives Three.js-Modell + druckfähige Materialliste. Beide Outputs sind live nebenstehend eingebettet — Sie können das 3D-Modell drehen, View-Modi wechseln, und die Materialliste per Klick als PDF speichern.

/3d Erstelle ein Ytong-Gebäude 5x4x2,5m mit Pultdach + Materialliste
1 Telegram/OWUI-Input 2 ShapeLLM 7B (Geometrie) 3 CADCrafter (Bauteile) 4 SearXNG (Bauhaus-Preise) 5 Three.js Render + HTML-Output
Output 1 · 3D-Architekturmodell Vollbild öffnen ↗
Output 2 · Materialliste · A4 druckfähig Vollbild öffnen ↗
Was Sie sehen: Beide Outputs wurden in ~90 Sekunden aus einem einzigen Sprach-Befehl generiert. Das 3D-Modell ist parametrisch (Maße ändern → Geometrie passt sich an), die Materialliste ist Bauhaus-Einkaufsfertig mit recherchierten Preisen Mai 2026. Für Ihre Branche gilt das Pattern analog: Pharma-SOP → Validierungs-Doku · Bank-Kreditprozess → 4-Augen-Approval-Flow · Industrie-Lastenheft → CAD-Bridge → Onshape-Modell.

Live-Chat im Termin · ohne Tab-Wechsel

Open WebUI direkt in dieser Seite eingebettet · Demo-Account voreingestellt für Vertriebs-Termine.

Plattform-Berater
Modelle
qwen3.6-35B (lokal)
Hermes-4-405B
Claude Opus 4.7
DeepSeek-R3
Wissens-KB
📚 Plattform-Doku
📁 Eigene Uploads
Plattform-Berater Chat qwen3.6-35B-A3B (lokal · 0 € pro Aufruf)
📎 Doku-RAG aktiv · Voice ✓
Erstelle ein Ytong-Gebäude 5×4×2,5m mit Pultdach + Materialliste mit aktuellen Bauhaus-Preisen
Verstanden — ich generiere ein parametrisches 3D-Modell + bestellfertige Materialliste:
▸ ShapeLLM 7B → Geometrie (5×4×2,5m, Pultdach 4,3°)
▸ CADCrafter → 8 Bauteile · Wandstärke 17,5cm Ytong
▸ SearXNG → Bauhaus-Preise Mai 2026 (Live-Crawl)
Beide Outputs sind oben in der Use-Case-Section live eingebettet — drehen Sie das 3D-Modell, drucken Sie die Materialliste.
472 Token · 0,001 € · 1,8 s · qwen3.6-35B lokal
Mock-Preview · Open WebUI ist eine echte Single-Page-App und schützt sich vor iframe-Embedding. Klicken Sie ▶ Live öffnen für die echte Chat-UI.
Sales-Pfad · Kunden-Mapping

Der Weg zur eigenen KI-Plattform

Vom Cloud-Quick-Start mit unserer companyAI-Agent / galena.ai bis zur on-prem Multi-Tenant-Skala. Fünf Stufen, jede mit klarem Ziel und transparenter Investition.

Stage 0 · Cloud Quick-Start
companyAI Agent / galena.ai
aus der companyCloud · keine Hardware nötig · DSGVO-Region EU
ab 0 € Capex
OPEX pro User/Monat
  • Sofort starten · in 1 Tag live
  • Pilot · Proof-of-Value · Demo-Termine
  • Hermes-Agent + 600+ Modelle vorkonfiguriert
  • Eigene Wissens-KB hochladbar
  • Migration zu Stage 1-4 jederzeit möglich
galena.ai · companyCloud · EU-Region
Stage 1 · On-Prem Pilot
1-2× DGX Spark
GB10 Grace-Blackwell · 128 GB unified · ~1 PFLOP FP4 · 2U · ~4 kW
≈ 5–10 k€
  • Eigene Hardware on-prem
  • ~12–18 concurrent User
  • Modelle bis ~70B (Q4)
  • Pilot · Engineering-Demos
  • Datenhoheit ab Tag 1
Stage 2 · Power-Workstation
1× DGX Station GB300
GB300 Superchip · 784 GB unified · ~500 TFLOP FP4 · Tower 4U · ~2 kW
≈ 100 k€
  • 671B-Modelle stabil (DeepSeek V3.2/V4)
  • ~40–60 concurrent User
  • Engineering-Pilot-Hardware
  • 3,5× günstiger als B300
  • Brücken-Stufe vor Multi-Tenant
Stage 3 · Produktiv-Skala
1× DGX B300
8× Blackwell-Ultra · 1,2 TB unified · ~1 PETAFLOP FP4 · Rack 4U · 10 kW
≈ 350 k€
  • Frontier-Modelle parallel
  • ~150–250 concurrent User
  • 3D-CAD-Generative · Voice 50+ Streams
  • Multi-Tenant-Isolation
  • Ziel-Hardware für 500+ MA
Stage 4 · Hybrid & Smart-Router
Cloud + On-Prem + Burst
LiteLLM-Gateway routet automatisch · 80% lokal · 20% Cloud-Fallback
flexibel
je nach Mix
  • Best-of-both: Datenhoheit + Frontier-Qualität
  • companyAI als Spillover bei Spitzen
  • Cost-Cap pro Tenant + Auto-Throttle
  • Failover EU-Cloud bei Wartung
  • Migration ohne Daten-Bewegung
⚙ Parallel-Track · optional, früh empfohlen
x86 Daten-Workstation
Lenovo ThinkStation P-Series oder Dell Precision 7960 · 64+ Cores · 512 GB+ RAM · 1-2× RTX 6000 Ada · ≈ 60 k€. Entlastet die DGX-Linie von Datenplattform-Last (Trino/Airbyte/BI) und ermöglicht x86-only Tools (h2oGPT, .NET Connectors, Legacy/Windows-Tools).
Was läuft hier konkret?
  • → Trino · Airbyte · OpenMetadata
  • → Microsoft Graph + Business Central (.NET)
  • → BI-Stacks · Legacy-Connectors
  • → 3D-CAD-Bridges (Onshape/FreeCAD x86)

ROI-Rechner · live mitschieben

Bewegen Sie die Schieber. Alle Zahlen rechnen sich live neu — FTE-Hebel, jährliche Einsparung, Payback-Monate für Ihre Investition.

Annahmen · Ihre Zahlen

Stage 0 ≈ 0 € · Spark ≈ 10 k€ · Station ≈ 100 k€ · B300 ≈ 350 k€ · +x86 ≈ 60 k€

Ergebnis · live

FTE-Hebel
52
FTE-Äquivalente / Jahr
Jährliche Einsparung
3,9 M€
bei voller Adoption
Payback
1,1
Monate bis Break-Even
ROI Year-1
1024 %
Return on Investment
Lese-Hilfe: Effizienz-Faktor = wieviel Zeit ein Anwender durch KI pro Tag spart (15% ≈ 1,2h von 8h). McKinsey/BCG 2025/26 nennen 12–28% je Funktion als realistisch — wir rechnen defensiv mit 15%. Bei Stage 0 (Cloud-Quick-Start) ist Capex 0 → Payback nahezu sofort.

FTE-Hebel pro Hardware-Stufe (konservatives Modell)

Workload-Qualifizierer · welche Stufe für Ihren Mix?

6 Fragen zum Nutzungsprofil. Capacity-Modell aus vLLM-Benchmarks und realer Workload-Konkurrenz mit der Datenplattform.

Erwartetes Nutzungsprofil

Empfehlung pro Stufe

StufeReicht?HeadroomKosten
Empfehlung:
⚙ Wie wird gerechnet? (Annahmen offenlegen)
Capacity-Modell pro Stufe (vLLM 0.6+, p99 < 2,3s, 4k In + 1k Out):
• Stage 0 Cloud: 500 Chat / 50 Reason / 20 Voice / 10 CAD / 30 Long (skalierbar)
• Stage 1 Spark: 18 Chat / 0 Reason / 2 Voice / 0 CAD / 1 Long
• Stage 2 Station GB300: 60 Chat / 8 Reason / 8 Voice / 4 CAD / 6 Long
• Stage 3 B300: 250 Chat / 35 Reason / 50 Voice / 20 CAD / 30 Long

Workload-Konkurrenz: Capacity wird um × (1 - data%×0,5) reduziert wenn Datenplattform parallel läuft.

Quellen: vLLM Performance Guide, TensorRT-LLM Benchmarks, NVIDIA DGX-Specs Q1 2026.

Modelle & harte Grenzen pro Stufe

Was läuft auf welcher Stufe stabil — und ab wann es kippt. Ehrlicher Faktencheck zur "Frontier-Modelle"-Story.

Modell-KlasseGrößeVRAMCloud (S0)Spark (S1)Station (S2)B300 (S3)Bemerkung
Llama-3 70B Q470 B17–21 GB✓ livetägliche Workloads
Qwen3.6-35B-A3B FP8 (MoE)36B / 3B~35 GB✓ PrimaryMultimodal Vision
Mistral Large 2123 B30–38 GBReasoning
Hermes-4-405B405 B~820 GB✓ via OpenRouter✗ OOM✓ knapp · TPPremium Reasoning
DeepSeek V3.2 (MoE)671B / 37B168–210 GB✓ via Cloud✗ instabil✓ stabil✓ komfortabelFrontier-Reasoning
Claude Opus 4.7cloud✓ via API✓ via API✓ via APIAnthropic direkt + Failover
ShapeLLM 7B (NL→3D-CAD)7 B4–8 GB~ partialSprache → CAD
Hunyuan3D-1.3B1,3 B~24 GB~✓ einzeln✓ parallel✓ parallel3D-Mesh-Generation
Whisper Large-v31,5 B~6 GBVoice-Input

EU-AI-Act · Risiko-Klassifikation der Use-Cases

Welche typischen Anwendungsfälle in welche EU-AI-Act-Risikoklasse fallen — wir liefern die passenden Workflow-Templates.

Verboten
Hochrisiko
Begrenzt
Minimal
Engineering-Doku & Reports
Pilot
live
Compliance-Auto-Scans
Pilot
Bonitäts-/Kreditscoring
Hochrisiko
Ticket-Triage Service
live
live
3D-CAD aus Lastenheft
Pilot
Pilot
Voice-Tickets
live
live
Daten-Orchestrierung
live
live
HR-Vorauswahl (NICHT geplant)
verboten
Was Sie als Kunde bekommen: Pro Risikoklasse fertige Workflow-Templates: Disclosure-Banner, PII-Filter (Presidio), 4-Augen-Approval, Audit-Trail SHA-256 + WORM 10 Jahre, Notified-Body-Audit-Pack auf Knopfdruck. Hochrisiko-Use-Cases (Bonität, Kreditscoring, Personal-Vorauswahl) bekommen automatisch zusätzliche Pflicht-Schritte aus EU-AI-Act Art. 6/9/13/16/50/52.

Glossar fürs Management

Die Begriffe, die in jeder KI-Diskussion fallen — in einfachen Worten, ohne Tech-Jargon.

DGX Spark / Station / B300

NVIDIA-Server für KI auf ARM (Grace+Blackwell). Spark ≈ 10 k€ · Station GB300 ≈ 100 k€ (671B-Modelle stabil) · B300 ≈ 350 k€ (Multi-Tenant-Rack). Plus x86-Workstation ≈ 60 k€ für Datenplattform.

Concurrent User

Wieviele Mitarbeiter gleichzeitig die KI nutzen ohne Slowdown. Nicht zu verwechseln mit Gesamtnutzern — die können beliebig hoch sein.

RAG · Retrieval Augmented Generation

KI bekommt zur Frage passende interne Dokumente mitgeliefert und antwortet mit Quellenangabe. Verhindert Halluzinationen.

FTE-Hebel

Wieviel Stunden Mitarbeiter-Arbeit die KI ersetzt. Hier reden wir von Effizienzgewinn — nicht Stellen-Abbau.

Smart-Router (LiteLLM)

Entscheidet bei jeder Anfrage: einfach → lokal (gratis), schwierig → Cloud (kostet). >80% bleiben lokal = niedrige API-Kosten.

Hermes Superagent

Generalist-Agent im Browser-Chat (Open-WebUI). Wählt selbst das passende Modell, kann Tools aufrufen (Web-Suche, Code, Daten-Query, 3D-Generation).

Claws (NemoClaw, SecClaw, …)

Spezialisierte Telegram-Bots, jeder mit klarem Job. Zusammen ein autonomer 24/7-Schwarm.

EU-AI-Act / DSGVO

Plattform scannt sich täglich selbst auf Compliance. Personendaten werden automatisch gefiltert vor jedem Modell-Call. Disclosure-Banner inklusive.

Entscheidungs-Empfehlung · 3 Schritte

Konkreter Pfad für Ihre nächsten 12 Monate. Keine Big-Bang-Investition — datengetriebener Ausbau.

Schritt 1 · Tag 1–30

Cloud Quick-Start

companyAI Agent in der companyCloud / galena.ai live nehmen. Keine Hardware-Beschaffung. 2-3 Pilot-Use-Cases identifizieren, KPIs definieren, Anwender-Schulung.

≈ 0 € Capex · OPEX nach Adoption
Schritt 2 · Monat 2–6

On-Prem Pilot · Spark + x86

1-2× DGX Spark + optionale x86-Workstation für Daten-Stack. Datenhoheit für sensible Use-Cases. Telemetrie zu Adoption sammeln, Hochrisiko-Use-Cases identifizieren.

≈ 10–70 k€ Capex · ROI < 6 Monate
Schritt 3 · Monat 6–12

Skalierung · Station oder B300

Datenbasiert entscheiden: Bei <60 concurrent reicht Station GB300 (~100 k€). Bei 100+ concurrent oder Frontier-Workloads → B300 (~350 k€). Hybrid mit companyAI als Spillover für Spitzen.

≈ 100–350 k€ Capex · Zielgröße erreicht
Bottom-Line für die Geschäftsführung: Mit dem Cloud-Quick-Start (companyAI / galena.ai) starten Sie ohne Capex und beweisen den ROI in den ersten 30 Tagen. Mit der Spark-Stufe (≈ 10 k€) holen Sie Datenhoheit, Pilot-Hardware und Engineering-Demos ins Haus — ROI < 6 Monate. Erst wenn Adoption über 60 concurrent klettert, fällt die größere Station-/B300-Investition. Der Pfad ist datengetrieben rechtfertigbar bevor jede Stufe gezogen wird. Optional ergänzt um eine x86-Data-Workstation (~60 k€) für Trino/Airbyte/h2oGPT-Workloads, die auf ARM-Grace nicht performant laufen.

Test-Drives · Direkt im Termin

Vier konkrete Demos die Sie Kunden in 30 Sekunden zeigen können.

01

Hermes 3D-Artefakt

Lassen Sie das LLM eine 3D-Szene live im Telegram-Chat generieren — z.B. Kugel, Sonnensystem, Architektur-Modell.

/3d Eine rotierende Erde mit Mond
In Telegram öffnen →
02

Mit Hermes chatten

Hermes Agent in Open WebUI · System-Prompt mit Plattform-Wissen · 9 Tools (Crawl, GraphRAG, n8n etc.).

"Erstelle eine SVG der 6 Claws und ihrer Funktionen"
Chat öffnen →
03

Plattform-Status live

Aktuelle Uptime und Health-Status aller 60+ Container · zeigt Live-Operations als Beweis.

Hermes-Tool: platform_status() → Tabelle aller Services
Status öffnen →
04

SVG-Architektur generieren

Lassen Sie sich eine maßgeschneiderte Architektur-Skizze für die Anforderung des Kunden zeichnen.

"Zeichne mir die Architektur als Mermaid-Diagramm: 5 Microservices auf k8s"
In Chat versuchen →

Branchen-Cases · 4 Vertriebs-Szenarien

Konkrete Anwendungsfälle pro Branche · adressieren Sie den Kunden in seiner Sprache.

💊

Pharma · GxP-Konform

Persona: Compliance-Officer

Audit-pflichtige Dokumenten-Reviews mit SHA-256-Hash-Chain · GxP-Templates automatisiert · WORM-Speicher 10 Jahre.

🏦

Bank/FinDl · BaFin/MaRisk

Persona: CISO + Risiko-Vorstand

1500+ Copilot-Agenten unter zentraler Governance · 6 Agent-Kontrollen + 4 Pflichten-Hochrisiko · Audit-Pack in 18 Tagen.

🧠

Beratung · 50-FTE-Skalierung

Persona: Partner + COO

Plattform-Berater Chat mit 1000+ Wissens-Einträgen · jeder FTE bekommt Cowork-AI als Kollegen · 30+ Use-Cases pro Tag.

⚙️

Industrie · Knowledge-Graph

Persona: Head of R&D

Neo4j Knowledge-Graph mit 192 Knoten · Crawl4AI füllt aus Confluence/SharePoint · GraphRAG findet Querverbindungen.

ROI · Beispielrechnung 50 FTEs

Konservativ kalkuliert · keine "Phantom-AI-Magic".

Beratungs-Sektor · 50 FTEs · 1 Jahr

3,21 M EUR p.a.
Eingesparte Tageszeit pro FTE: 1,2 Std × 220 Arbeitstage × 100 EUR/h = 26.400 EUR/FTE × 50 = 1,32 M (Soft-Save) + 1,89 M Mehrumsatz durch frei werdende Senior-Kapazität.
  • Plattform-Berater Chat ersetzt manuellen Wissens-Lookup
  • Voice-Input für Mobile-Konsultationen
  • Auto-Doku per DevClaw aus Meeting-Mitschnitt
  • Custom-Modell mit eigenem Wissen (kein Cloud-Lockin)
# LiteLLM-Token-Kosten
Hermes-4-405B: $1 / 1M Tok
Hermes-4-70B: $0,13 / 1M Tok
qwen3-30b lokal: 0 € (eigene HW)

# Realistisches Volumen
50 FTE × 30 Calls/Tag × 220 Tage
= 330 k Calls/Jahr
Avg 3 k Token/Call = 990 M Tok

# Cloud-Anteil 20%
198 M Tok × $1 ≈ $200/Jahr
80% lokal = 0 EUR
Auto-Fallback bei Cloud-Cap-Erreichen

Cowork-AI vs ChatGPT-Enterprise vs Microsoft Copilot vs Custom-Stack

Was ist möglich · was nicht · in welcher Tiefe.

Feature Cowork-AI
Medialine
ChatGPT
Enterprise
Microsoft
Copilot
Custom Stack
(self-built)
On-prem · keine Daten-Egress✓ DGX Spark✗ Azure-bound✗ Azure-bound✓ (DIY)
Multi-Tenant-Isolation✓ 4 Tenants live~ Workspaces~ Tenants in M365~ DIY
Eigene LLMs lokal✓ qwen3, gemma-4, Ollama✗ nur GPT✗ nur GPT
600+ Modelle via Gateway✓ LiteLLM~ DIY
Autonome 24/7-Bots✓ 6 Claws~
Audit-Trail SHA-256✓ Langfuse + WORM 10J~ Logs~ Logs~ DIY
EU-AI-Act-konform✓ 80% (Disclosure+PII+Audit)~ Disclosure~ Disclosure~ DIY
Knowledge-Graph 192 Knoten✓ Neo4j+GraphRAG~
3D-Artefakt-Generierung✓ Hermes /3d
Pen-Test-Stack✓ OpenMythos 43 Cases~ DIY
Time-to-Production✓ 30 Tage✓ 7 Tage✓ 7 Tage✗ 6-12 Monate
Lock-In-Risiko✓ Kein Lock-In✗ OpenAI✗ Microsoft

Letzte Aktivität · live aus /api/news

Plattform-Releases der letzten Tage · echter Beweis für aktive Weiterentwicklung.

Plattform-Changelog · letzte 5 Einträge

Quelle: /api/news · daily-Cron 06:00 UTC · letztes Update:
$curl -s https://medialine.app/api/audit/latest
a3f8b91c2d56e0f7... Beispiel-Hash · SHA-256 audit_event-Chain · WORM 10 Jahre · eIDAS-signiert · jeder Tool-Use, jede Modell-Antwort, jede Approval-Entscheidung

Sales-Talking-Points

Ausklappbar · für jede Kunden-Frage die richtige Antwort.

Was unterscheidet Cowork-AI von ChatGPT-Enterprise?
  • Multi-Tenant-Isolation · jeder Kunde bekommt eigene Daten-Sandbox (4 Tenants live)
  • Eigene Modelle on-premise · qwen3.6 35B-A3B lokal auf DGX (kein Cloud-Vendor-Lockin)
  • EU-AI-Act-konform · Disclosure-Banner, PII-Filter (Presidio), Audit-Trail (Langfuse), DSGVO-Retention (180d)
  • Autonome Agenten · 6 Claws als 24/7-Bot-Federation (kein Vergleichbares bei OpenAI)
  • Self-Heal-Stack · autoheal + bot-watchdog + restic-backup · 99,9% Uptime ohne Manual-Touch
Was kostet ein Hermes-Aufruf?
  • Hermes-4-70B ~$0,13 pro 1M Tokens (cheap-paid via OpenRouter)
  • Hermes-4-405B ~$1 pro 1M Tokens (premium)
  • qwen3.6 lokal · 0 € pro Aufruf (eigene Hardware)
  • Realistische Anfrage: 0,02 ct pro 405B-Call · 250.000 Premium-Anfragen mit $50-Budget
  • Auto-Fallback auf lokal sobald Cloud-Credit erschöpft → keine plötzlichen Kosten-Explosionen
Wie funktioniert die Daten-Trennung zwischen Kunden?

Mehrschichtig:

  • Network-Layer: separate Docker-Networks pro Tenant (kiguru-net, medialine-net etc.)
  • App-Layer: separate OpenWebUI-Instanzen mit eigenen Datenbanken (PostgreSQL pro Tenant)
  • Modell-Layer: LiteLLM-Tenant-Keys mit Budget-Caps pro Kunde
  • RAG-Layer: separate Qdrant-Collections (kb_busching, kb_vwfs, kb_knauber, etc.)
  • Audit-Layer: Langfuse mit Tenant-Tagging · jeder Call ist nachverfolgbar
Kann der Kunde eigene Daten hochladen?
  • Ja · per OpenWebUI-Upload (DOCX/PDF/MD/TXT)
  • Automatische Indexierung in Qdrant (bge-m3 Embeddings)
  • Knowledge-Base wird automatisch im RAG verwendet
  • Daten bleiben on-premise · verlassen NICHT die DGX
Was kann ich Demo-fähig im Termin zeigen?
  • 3D-Generation via Telegram-Bot · QR-Code scannen · "/3d ein Smartphone-Modell"
  • Live-Chat auf chat.medialine.app · Hermes Agent mit Plattform-Wissen
  • Knowledge-Graph-Abfrage · "Was steht in unserer Wissensbasis zu DSGVO?"
  • Web-Recherche live · Hermes ruft SearXNG, fasst Treffer zusammen
  • Architektur-Skizze · "Zeichne mir die Architektur als Mermaid"
Was kommt als Nächstes (Roadmap)?
  • W31 P2 · AnythingLLM + paperqa Pro · ARM-natives RAG-Frontend mit Multi-Workspace und Doc-Upload (ersetzt h2oGPT-Roadmap, da h2oGPT x86-only und auf DGX/ARM nicht lauffähig ist)
  • W34 P2 · LLaMA Factory als Training-UI · Fine-Tuning lokaler Modelle direkt auf DGX (ersetzt h2o LLM Studio, ARM-fähig, LoRA + QLoRA + DPO)
  • W36 P3 · Whisper-Pipeline (Audio-to-Action) · Voice-Stack-Erweiterung mit Tone.js + Vapi.ai-Integration
  • W47 · API-Gateway als Public-API für Kunden-Integrationen · OpenAPI 3.1-Spec + Tenant-Keys
  • Cycle 307 · Paperclip.ai für Goal-driven Agent-Orchestration
  • W54 · DR-Cluster Schweiz (Disaster-Recovery für Enterprise-Kunden)
Warum nicht h2oGPT in der Roadmap?
  • Hardware-Inkompatibilität: h2oGPT-Stack (inkl. h2o-wave, h2o-llm-studio) ist x86-only — die DGX Spark läuft auf ARM64
  • ARM-tauglicher Ersatz: AnythingLLM (Mintplex Labs, Multi-Arch Docker) bietet identische h2oGPT-Features (Doc-Upload, RAG, Multi-Workspace, LLM-Provider-Abstraction)
  • Training-UI: LLaMA Factory ersetzt h2o LLM Studio · ARM-Docker · LoRA + QLoRA + DPO für die geplanten Custom-Modelle
  • Alternative Optionen evaluiert: Khoj, danswer/Onyx, LibreChat — alle ARM-fähig, AnythingLLM ist closest-fit zu h2oGPT-Use-Case
  • Plan: W31 → AnythingLLM-PoC im VWFS-Tenant · W32 → Multi-Tenant-Rollout

Häufige Fragen

12 Antworten auf typische Bedenken — von Hardware-Investment über DSGVO bis Halluzinations-Schutz.

F01Wieso nicht ChatGPT-Enterprise?
Daten verlassen Dein Haus nicht. EU-Cloud heißt nicht EU-Hoheit. Du bekommst 600+ Modelle statt 5, lokale Inferenz, eigene Audit-Hashes, custom Skills+Crews. Cost reduziert sich nach 4 Monaten unter ChatGPT-Enterprise-Niveau.
F02Hardware-Investment lohnt sich?
DGX Spark Cluster startet bei ~180 k€ (4 Nodes). Bei 50 FTE Beratung: ROI in 14–22 Wochen. Wenn Du nur 10 FTE hast, lohnt sich Cloud-Inferenz mit Anthropic-direct + OpenRouter erstmal mehr.
F03Wer wartet das System?
Self-Healing-Stack: autoheal restartet Container, gitops-watcher 60s sync, Restic 3-2-1-1-0 Backup, restic-restore-Test 4× bestanden. Plus Dein Plattform-Partner (Wartungsvertrag empfohlen).
F04Was passiert bei Ausfall?
Disaster-Recovery in < 15 Minuten dokumentiert + getestet. 3-Node-Cluster mit Witness-Quorum, Restic Off-Site-Backup, Failover-Chain läuft auch bei einem Node-Down.
F05Wie teuer ist Lizenz/Run?
Open-Source 95 %, also keine Lizenzkosten. Cloud-Modelle nach Use (Anthropic + OpenRouter üblich 200–2000 €/Monat). Plattform-Run (Strom + Internet + Backup-Storage) ~600 €/Monat.
F06Kann ich eigene Modelle trainieren?
Ja — Welle 32 (Self-Distillation): User-Audit-Logs → Synthetic-Data → LoRA-Fine-Tune lokales Modell. Per-Mandant-Custom-NemoClaw mit eurer Sprache + euren Konventionen.
F07DSGVO-Auftragsverarbeitung?
Bei vollständigem on-prem-Setup keine AVV nötig für KI-Schicht (kein Drittland-Transfer). Bei Hybrid mit Cloud-LLMs: AVV mit Anthropic/OpenAI nach Schrems-II-Prüfung.
F08Was ist mit Halluzinationen?
Multi-Layer-Defense: NeMo-Guardrails, LLM-Guard, Presidio-PII, Cohere-Reranker, Source-Citation in jeder Antwort, Confidence-Score, Eval-Datasets in Langfuse, manuelle Review-Queue für Hochrisiko-Outputs.
F09Integriert sich in MS365 / Google?
Ja, n8n hat 200+ Connectors: SharePoint, Outlook, Teams, GMail, Drive, Calendar, Tasks, OneNote. KIS, ERP, CRM über generische REST/SOAP/JDBC.
F10Wie ist der Privacy-Layer?
Presidio anonymisiert PII pre-prompt, audit_events mit SHA-256-Hash, Per-User-RBAC in Keycloak, Per-Team-Budgets in LiteLLM, Tracing in Langfuse mit Redaction. Optional: SOPS-encrypted-Secrets in Git.
F11Skaliert auf 500 Mitarbeiter?
Ja — K3s-Cluster (geplant W26), Multi-Tenant-Workspaces, NemoClaw-pro-Mandant. DGX H200 für Training-Workloads. DGX Station GB300 für Long-Context. Edge-Jetson für Außenstellen.
F12Wer hat das schon im Einsatz?
5 Lighthouse-Mandanten (Pharma, Bank, Beratung, Manufacturing, Healthcare). Referenzen unter NDA verfügbar. Live-Status: 65+ Container, 99,97 % Uptime 30 T, 30+ Tasks/Tag Durchsatz autonomous-worker.

Termin buchen

Wir zeigen Cowork-AI auf Ihrem realen Use-Case · 30-60 Minuten · on-prem oder remote.

30-Minuten Sales-Demo anfragen

Kurz Bedarf skizzieren · wir melden uns mit Termin-Vorschlag (Benny Gosper oder Sales-Team).

Alternativ direkt: [email protected] · [email protected]
DSGVO-konform EU-AI-Act 80% on-premise · DGX Spark SHA-256 Audit-Trail WORM 10 Jahre eIDAS-Sign ISO 27001 · in Vorbereitung ISO 42001 · Q4-2026