Cloud oder lokal? Wo eure KI läuft, entscheidet über eure Datensouveränität

ChatGPT hier, Claude da, vielleicht noch ein bisschen Copilot für die Entwickler. KI ist längst im Unternehmensalltag angekommen. Die Frage „Welches Modell nehmen wir?“ wird diskutiert, verglichen, abgewogen. Aber eine andere Frage wird fast nie gestellt: Wo läuft das Ding eigentlich und wer hat Zugriff auf meine Daten und Anfragen? Denn wo die KI läuft, entscheidet über die Datensouveränität.

Dabei ist genau das die entscheidende Frage, sobald echte Daten im Spiel sind. Sie bestimmt, wer eure Prompts liest, wer eure Kontextdaten sieht und ob ihr überhaupt noch Herr über eure eigene KI-Infrastruktur seid.

Cloud-KI ist bequem. Klar. Aber Bequemlichkeit hat einen Preis. Und der steht selten in der Rechnung.

Gescribbelter großer SUV überblickt Parkplatz

Cloud-KI vs. On-Premises: Zwei Welten, zwei Philosophien

Es gibt zwei grundsätzliche Wege, KI im Unternehmen zu betreiben.

Cloud-KI: Ihr nutzt ein Modell über einen externen Anbieter wie OpenAI, Anthropic, Google oder Microsoft. Es ist sofort verfügbar, ihr braucht keine eigene Infrastruktur, habt theoretisch eine riesige Modellauswahl und könnt auf Knopfdruck skalieren.

Lokale KI (On-Premises): Das Modell läuft auf eurer eigenen Hardware im Rechenzentrum, auf dedizierten Servern und ist in eurer Infrastruktur eingebunden. Kein Externer kommt ran und ihr bestimmt, was passiert.

Kriterium	Cloud-KI	On-Premises
Datensouveränität	❌ Daten verlassen das Unternehmen	✅ Volle Kontrolle
Kosten	❌ API-Kosten steigen mit der Nutzung	✅ Einmalige Hardware-Kosten
Compliance & DSGVO	❌ Erschwerte Absicherung, z. B. durch DLP Anbieter haben Zugriff. Behördenzugriff ist je nach Anbieter-Jurisdiktion möglich, z. B. über den US Cloud Act.	✅ Volle Compliance-Kontrolle
Skalierbarkeit	✅ Sofort verfügbar, keine eigene Infrastruktur nötig	⚠️ Abhängig von der vorhandenen Hardware
Technisches Know-how	✅ Kein eigenes Team nötig	❌ Expertenwissen für das initiale Setup erforderlich

Die Abwägung klingt nach klassischem IT-Entscheidungstheater. Ist sie aber nicht. Denn sobald ihr versteht, was bei jeder KI-Anfrage wirklich passiert, wird klar: Es geht nicht um Technik. Es geht darum, wer eure Daten sieht.

Inferenz: Der Moment, in dem eure Daten das Haus verlassen

Wenn ihr einer KI eine Frage stellt und sie antwortet, nennt man das Inferenz. Technisch gesehen bekommt das Modell Input (euren Prompt plus Kontext), verarbeitet ihn und liefert Output.

Der entscheidende Punkt: Wo diese Verarbeitung stattfindet, da liegen eure Daten offen. Und zwar nicht nur für den Moment der Anfrage.

In der Cloud bedeutet das, dass eure Daten das Unternehmen verlassen. Sie landen auf Servern in den USA, in Irland, in Singapur – je nachdem, wo euer Anbieter gerade Kapazität hat.
On-Premises bleiben alle Daten, Anfragen und Ergebnisse auf eurer Hardware in eurem Netzwerk und eben unter eurer eigenen Kontrolle.

Wer ChatGPT, Claude oder ein anderes Cloud-Modell nutzt, ohne sich darüber Gedanken zu machen, schickt im Zweifel vertrauliche Kundeninfos, interne Prozesse oder Geschäftsgeheimnisse direkt an OpenAI, Anthropic oder Microsoft. DSGVO-konform ist das in den seltensten Fällen. Und Compliance? Viel Glück beim Erklären.

Cloud-KI: Drei Risiken, die ihr kennen solltet

Risiko 1: Der Anbieter sieht alles.

Jeder Prompt, jeder Kontext und jede Information, die ihr der KI gebt. Ob der Anbieter das auswertet, speichert oder für Training nutzt, steht in den Nutzungsbedingungen, die sich jederzeit ändern können.

Preise? Können steigen.
Features? Können verschwinden.
Modelle? Können vom Markt genommen werden.

OpenAI hat die Preise für GPT-4 mehrfach angepasst. Anthropic hat Modelle eingestellt. Google hat Features geändert.

Ihr habt dabei kein Mitspracherecht. Ihr bekommt eine E-Mail, dass sich die Bedingungen ändern und könnt entweder zustimmen oder den Service nicht mehr nutzen. Eure Workflows, eure Integrationen, eure Prozesse? Euer Problem.

Risiko 2: Der US Cloud Act.

Er erlaubt US-Strafverfolgungsbehörden, auf Daten zuzugreifen, die bei US-Unternehmen liegen – egal, wo die Server physisch stehen. Auch wenn eure Daten in einem europäischen Rechenzentrum von Microsoft oder Google liegen, können US-Behörden theoretisch darauf zugreifen, wenn das Unternehmen US-amerikanisch ist.

Risiko 3: Niemand weiß, was im Modell steckt.

Mit welchen Daten wurde das Modell trainiert? Welche politischen Narrative sind eingeflossen? Welche wirtschaftlichen Interessen? Große Modelle aus den USA oder China sind oft intransparent. Selbst Open-Weight-Modelle verraten nicht, womit sie trainiert wurden.

Beispiel DeepSeek: Das chinesische Modell liefert laut Benchmarks teils bessere Ergebnisse als westliche Modelle. Aber welche Zensur, welche politischen Vorgaben und welche blinden Flecken es mitbringt, steht nirgendwo.
Selbst ein Anbieter mit deutschem Firmensitz ist keine Garantie. Es gab Fälle, in denen Daten nicht aktiv missbraucht, aber so schlecht gesichert waren, dass sie abgegriffen wurden. Datenschutz auf dem Papier hilft wenig, wenn die Infrastruktur löchrig ist.

RAG und MCP: Warum „teilweise lokal“ manchmal nicht reicht

Noch brisanter wird es, wenn Unternehmen ihre eigenen Datenquellen mit der KI verknüpfen: Stichwort RAG (Retrieval-Augmented Generation).

Was ist RAG überhaupt?

Normal funktioniert KI so: Ihr stellt eine Frage, das Modell antwortet auf Basis dessen, womit es trainiert wurde. Wenn das Wissen nicht im Modell steckt, erfindet es was oder sagt „weiß ich nicht“.

RAG ändert das. Bevor die KI antwortet, holt sie sich zusätzliche Informationen aus euren internen Dokumenten, Wikis oder Datenbanken. Das Ganze basiert oft auf Vektordatenbanken: Eure Dokumente werden in mathematische Repräsentationen (Vektoren) umgewandelt. Wenn ihr eine Frage stellt, sucht die KI nach den semantisch ähnlichsten Dokumenten.

Das Problem: Wo liegen die Daten?

Cloud-Datenquellen (z. B. SharePoint Online, Google Drive): Hier gelten dieselben Risiken wie bei der Cloud-Inferenz. Eure internen Dokumente, Kundeninfos, Projektdaten landen beim Cloud-Anbieter.
Lokale Schnittstelle (z. B. überMCP – Model Context Protocol): Selbst wenn ihr lokale Schnittstellen nutzt, gehen die Ergebnisse oft trotzdem an den Cloud-Inferenz-Provider.

Beispiel: Ihr nutzt ein lokales MCP-Gateway, das auf eure interne Datenbank zugreift. Die Abfrage läuft lokal. Aber die Antwort geht an ChatGPT in der Cloud, weil dort die Inferenz stattfindet. Eure Daten verlassen das Unternehmen.

Safeguards und Gateways: Sinnvoll, aber kein Freifahrtschein

Es gibt Systeme, die man vor die KI schalten kann, sogenannte Safeguard-Gateways. Sie filtern Eingaben, blockieren sensible Inhalte, prüfen Prompts auf Compliance-Verstöße und können bei Bedarf auf andere Systeme umleiten.

Aber – und das ist der Haken – viele dieser Gateways sind selbst Cloud-Dienste. Ihr tauscht eine Abhängigkeit gegen die nächste. Statt eure Daten direkt an den KI-Anbieter zu schicken, schickt ihr sie erst an ein Gateway in der Cloud, dass sie dann an den KI-Anbieter weiterleitet. Gewonnen habt ihr damit nichts.

Aber – und das ist der Haken – viele dieser Gateways sind selbst Cloud-Dienste.

Das bedeutet nicht, dass sie nutzlos sind. Sie bieten eine wichtige Kontrollebene und können auch bei lokaler Inferenz sinnvoll sein.

Was sie beispielsweise lösen:

Regelbasierte Kontrolle: Ihr könnt steuern, was erfragt und beantwortet werden darf.
Dokumenten-Zugriff: Ihr könnt definieren, welche internen Dokumente für eine RAG-Anfrage genutzt werden dürfen.

Was sie NICHT lösen: Das Kernproblem: Die Daten verlassen trotzdem euer Unternehmen. Wenn ihr ein Geschäftsgeheimnis in einen Prompt packt, um euch bei einer Managemententscheidung helfen zu lassen, landet diese Information erst beim Gateway-Anbieter und dann beim Inferenz-Anbieter.

Ihr gewinnt an Regel-Kontrolle, aber verliert die Daten-Vertraulichkeit. Genau diese Vertraulichkeit ist bei lokaler Inferenz garantiert.

Wer echte Datensouveränität will, muss die gesamte Kette im Blick haben: vom Prompt über das Gateway bis zur Inferenz

Was kostet lokale KI? On-Premises vs. Cloud im Kostenvergleich

Die sicherste Methode, um mit KI zu arbeiten, ohne sich permanent Gedanken darüber machen zu müssen, was mit den eigenen Daten passiert, ist, sie lokal zu betreiben. Dabei stellt sich natürlich die Frage, wie hoch die Kosten dafür sind.

Die kurze Antwort: kommt drauf an.

Modellgröße	Parameterbereich ca.	Hardware-Anforderungen Enterprise	Anschaffungskosten Stand 2026	Typische Use Cases
Kleine Modelle	10⁵ bis 10⁷ ca. 0,1 bis 10 Mio.	Dedizierte Edge-Server oder Embedded-AI-Boards, z. B. Jetson oder NPU-Karte, mindestens 16 bis 32 GB RAM, feste Kühlung.	Ab ca. 2.500 € pro Inferenz-Node, zusätzlich Wartung, Netzwerk und Redundanz.	Lokale Chatbots, einfache Dokumentenklassifikation, Sensordatenfilterung, Zugriffskontrolle.
Mittlere Modelle	10⁷ bis 10⁹ ca. 10 bis 1.000 Mio.	Mindestens eine moderne GPU- oder TPU-Karte pro Node, z. B. A10, A2 oder H100 in kleinerem Paket, 64 bis 256 GB RAM, redundante Netzwerkanbindung.	5.000 € bis 20.000 € pro Node, je nach GPU-Verfügbarkeit und Rechenzentrumskosten.	Enterprise-Dokumentenanalysen, präzise Bild- oder Videoanalyse, leichte Code-Assistants, Prozessmonitoring.
Große Modelle	10⁹ bis 10¹¹ ca. 1 bis 100 Mrd.	Mehrere leistungsstarke GPUs oder TPUs pro Node, oft als Cluster-Setup, mit hohen Anforderungen an Kühlung und Netzwerk.	Ab 20.000 € bis deutlich über 100.000 € pro Cluster-Installation. Hardware-Knappheit kann die Kosten stark beeinflussen.	Lokale On-Premises-LLM-Gateways, komplexe Entscheidungsassistenten, Risiko- und Compliance-Überwachung.

Kleine, spezialisierte Modelle reichen für viele Aufgaben völlig aus und laufen auf einem einzelnen Server oder sogar auf leistungsfähigen Workstations.

Größere Modelle brauchen dedizierte GPUs, mehr RAM, mehr Rechenleistung. Aber: Ihr zahlt einmal für die Hardware, dann nur noch Strom und Wartung.

Größer ist nicht gleich besser, sondern manchmal nur teurer.

Stellt euch einen SUV vor. Bequem, leistungsstark, macht auf der Autobahn eine gute Figur. Aber auf der Suche nach einem Parkplatz in der Innenstadt? Schwerfällig, stressig und man braucht dreimal so lang. Große Modelle sind wie große SUVs: beeindruckend auf dem Papier, aber in vielen Alltagssituationen schlicht überdimensioniert. Wer für jede Routineanfrage ein 70-Milliarden-Parameter-Modell anwirft, zahlt das in Rechenzeit, Hardware-Auslastung und Stromkosten – und gewinnt oft nichts dabei.

Auch wer einen SUV fährt, nimmt manchmal lieber den Stadtflitzer, weil der für den Zweck einfach besser geeignet ist. Genau so läuft es bei KI-Infrastrukturen: Ein kleines, schnelles Modell erledigt Routineaufgaben effizienter als ein großes und das große darf glänzen, wenn’s wirklich komplex wird. Der Mix macht’s.

Der cloutomatige Ansatz: Multi-Model-Architektur. Ein kleines, schnelles Modell für Routineaufgaben. Ein größeres für komplexe Anfragen. Ein spezialisiertes für Fachthemen und einweiteres, smartes Modell, das den Informationsfluss regelt – wie ein cleverer Azubi. Er nimmt jede Anfrage entgegen, versteht sofort, welcher Experte im Haus dafür zuständig ist, und legt ihm die richtige Akte vor. Dieses Vorgehen ist oft günstiger und performanter als ein einziges, teures „Superhirn“, das alles selbst machen muss.

Cloutomate kann euch dabei unterstützen: Wir helfen bei der Architektur, der Hardware-Auswahl, dem Setup und dem laufenden Betrieb – ohne Vendor Lock-in.

Wie trefft ihr die richtige Entscheidung?

Wie sensibel sind die Daten, mit denen die KI arbeiten soll?

Kundendaten, Geschäftsgeheimnisse, strategische Informationen oder personenbezogene Daten → lokale Inferenz. Punkt. Alles andere ist ein Compliance-Risiko, das ihr nicht eingehen solltet. Für öffentliche Daten, wie bei einem Website-Chatbot, ist ein skalierenden Cloud-Anbieter zwar eine Option, doch auch hier schützen offene Standards vor dem Vendor Lock-in.

Was steht an Budget für den Start und den laufenden Betrieb zur Verfügung?

Cloud-KI hat niedrige Einstiegskosten, aber hohe laufende Kosten. Lokale KI hat höhere Einstiegskosten, aber niedrigere laufende Kosten. Die Frage ist, was sich langfristig für euch rechnet.

Wie viel technisches Know-how ist intern vorhanden oder realistisch aufbaubar?

Lokale KI braucht Know-how. Nicht zwingend ein ganzes Team, aber jemanden, der weiß, was er tut. Wenn das intern nicht da ist: Könnt ihr es aufbauen oder holt ihr euch externe Unterstützung?

Cloud oder lokal ist keine Technikfrage, sondern eine Machtfrage

Was zählt ist, dass die Entscheidung bewusst getroffen wird. Wer einfach das Nächstbeste nimmt, weil es bequem ist, gibt Kontrolle ab und kann sie im Zweifel auch nicht mehr zurückholen. Wer aber tatsächlich darüber nachdenkt, wie und wo KI am besten für ihn arbeiten kann, kann sie auch sicher einsetzen.

Die bequeme Antwort ist: Cloud.
Die ehrliche Antwort ist: Es kommt drauf an.
Und die cloutomatige Antwort ist: Wer seine Daten nicht kontrolliert, kontrolliert auch seine KI nicht.

Wenn ihr wissen wollt, was das für euch bedeutet, redet mit uns. Wir helfen euch, die richtige Architektur zu finden – von der Hardware-Auswahl bis zum Setup.