ENTSCHEIDUNGSORIENTIERTE ANALYTIK
Datenanalyse & Insight Engineering
Wir verbinden Marketingdaten nicht mit Dashboards, sondern mit Entscheidungsmechanismen. KPI-Tree, dbt-Modellierung, Bayesian MMM, incrementality-Tests und Self-Serve-Analytics — keine Mess-, sondern eine Handlungsinfrastruktur.
Analytik ist kein 'Dashboard-Bauen'; sie ist ein Betriebssystem, in dem jede Grafik unmittelbar eine Entscheidung auslöst.
Die meisten Unternehmen ertrinken in 40+ Dashboards, erhalten aber auf dieselbe Frage fünf verschiedene Antworten aus fünf Quellen. KPIs werden diskutiert, Entscheidungen verschoben, der HiPPO gewinnt. Die Analytics-Operations von Roibase bauen auf sechs Prinzipien, die diese Unsicherheit beseitigen; jedes Prinzip produziert keine Dashboards, sondern Entscheidungen.
METHODIK
DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE
Die sechs Schichten der Analytics-Operations; jede liefert ein eigenes Artefakt und speist aufeinander aufbauend den Entscheidungs-Loop.
DIAGNOSE
Entscheidungsinventar + Fragekatalog
Die 30 Fragen, die Entscheider wöchentlich stellen, werden aufgelistet; Antwortquelle, Frequenz, SLA und Wirkung werden geklärt.
MODEL
KPI-Tree + Datenmodell
dbt-Modelle + LookML oder Metabase-semantic-Layer; versioniert, testbar, dokumentiert.
BUILD
Dashboard + Alert-System
Dashboards nach Entscheidungsgruppe (CAC, retention, Revenue Quality); Schwellwert-Alerts + Trigger-Vorlagen.
AUTOMATE
Pipeline + Refresh + Monitoring
Refresh-Orchestrierung mit Airflow / Dagster / dbt Cloud; Pipeline Health + Data-Quality-Tests + Slack-Bot.
VALIDATE
A/B-Test + incrementality + MMM Validation
Die Modellausgaben werden mit Experimenten abgeglichen; Kalibrierung durch incrementality-Test + MMM-Scenario-Simulation.
EDUCATE
Data Council + Self-Serve-Training
Monatliches Data-Council-Meeting: Welche Frage blieb unbeantwortet, welches Dashboard wurde nicht genutzt, welches Self-Serve-Training ist nötig.
— VERGLEICH
Worin liegt unser Unterschied? Klassische BI vs. entscheidungsorientierte Analytik
Ein Unternehmen mag 100 Dashboards für 'Analytics' halten. Der eigentliche Wert entsteht erst, wenn jedes Dashboard an eine Entscheidung und jede Entscheidung an eine Aktion gebunden ist.
| Dimension | In-house BI allein | Klassische Reporting-Agentur | Roibase entscheidungsorientierte Analytik |
|---|---|---|---|
| KPI-Definition | Zwischen Bereichen uneinheitlich | Vorlage der Agentur | KPI-Tree + schriftliches Ownership |
| Dashboard-Philosophie | Grafikflut | Quarterly-PPT-fokussiert | Jede Grafik eine Entscheidung |
| Datenmodellierungsschicht | Ad-hoc SQL + Excel | Plattform-internes Reporting | dbt + versioniert + getestet |
| Cohort- + LTV-Engineering | Auf Durchschnittsmetriken beschränkt | Nicht im Report | D1-D90 + Segment + LTV-Kurve |
| MMM + incrementality | Nicht vorhanden | Excel-basierter Versuch | Bayesian MMM + Geo-Holdout |
| Anomalie-/Alert-System | Manuelle Kontrolle | Nicht vorhanden | ML-Drift-Detector + Slack/E-Mail |
| Self-Serve-Kultur | Data-Team-Bottleneck | Report-getrieben | Fachbereich fragt selbst |
| Governance + PII | Keine Richtlinie | Kein Bewusstsein | PII-Tagging + Retention + Audit |
PROOF
Outcomes, measured
Anzahl strategischer Fragen, die im ersten Sprint beantwortbar werden.
Zurückgewonnene Stunden des Marketing-Teams bei manueller Dashboard-Vorbereitung.
Erneuerungsrhythmus je nach Saison- + Kanal-Mix-Änderungen.
Minimal erforderlicher täglicher Datenzeitraum für MMM + Forecast.
SLA aus dbt + Airflow + Monitoring; Data-Quality-Tests inklusive.
Durchschnittliche Zeit vom Brief bis zum Live-Gang eines neuen Entscheidungs-Panels.
WHAT WE DO
Engagement scope
Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.
KPI-Tree-Architektur
Jede Marketing-Metrik wird direkt an ein Geschäftsergebnis gekoppelt; jede Metrik hat einen Owner, eine Quelle, einen Schwellenwert und eine ausgelöste Entscheidung.
Decision-Tree-Dashboards
Keine Grafiken, sondern Entscheidungen: Panels nach der Logik 'Bei dieser Schwelle diese Aktion' designt; jedes Panel für eine Rolle, in einer Frequenz.
dbt + warehouse + BI-Layer
Mit dbt versionierte + testbare Datenmodelle; auf BigQuery / Snowflake / Redshift; mit LookML-/Metabase-/Lightdash-Oberfläche.
Cohort- & Retention-Engineering
D1/D7/D30/D90-cohort-Tabellen, LTV-Kurven, segmentbasierte churn- und resurrection-Analyse — echtes Verhalten unter dem Durchschnitt.
Bayesian MMM
Media-, Promo-, Saison- und Makrovariablen werden gemeinsam modelliert; Robyn + PyMC; quartalsweise refresh + confidence band.
Attributionsmodellierung
Ansätze GA4 DDA + Multi-Touch-Attribution + Shapley Value; Entscheidungsmodell jenseits des Plattform-Bias im Reporting.
Incrementality Testing
Geo-holdout + matched-market-Tests; Meta Lift, GeoLift, in-house framework; Referenzgenauigkeit für Budgetentscheidungen.
Anomalieerkennung
ML-basierter Drift-Detector + Forecast-Band + Slack/E-Mail-Alert für schleichend verschlechterte Metriken; stündlich, nicht am nächsten Morgen.
Self-Serve-Analytics
Eine Umgebung, in der Fachbereiche ihre Fragen selbst beantworten (Metabase, Lightdash, Hex) + Training + Mentoring.
Data governance
PII-Tagging, schema registry, Retention-Richtlinie, Datenzugriffs-Audit, Dokumentenpaket; KVKK- + DSGVO-konformer Betrieb.
— ERGEBNIS
Die Wirkung von Data-Operations auf der Entscheidungsseite
Je schneller, datenbasierter und wiederholbarer die Entscheidungen einer Organisation sind, desto weiter ist sie unter unvorhersehbaren Marktbedingungen voraus.
Entscheidungsgeschwindigkeit
Die Antwort aller 30 strategischen Fragen steht im Panel; im Meeting wird keine Zahl mehr diskutiert, sondern die Handlung.
HiPPO-Reduktion
Nicht die Meinung der bestbezahlten Person, sondern die Daten lösen die Entscheidung aus; die Diskussion ist metrikreferenziert.
Reporting-Zeitersparnis
Die manuellen Excel-Routinen des Marketing-Teams entfallen; die gewonnenen Stunden fließen in strategische Analysen.
Frühwarnung + Aktion
Mit ML-Drift-Detector + Schwellwert-Alert-System werden sich verschlechternde Metriken innerhalb von Stunden erkannt.
Self-Serve-Kultur
Der Fachbereich beantwortet seine Fragen selbst, ohne auf das Data-Team zu warten; das Data-Team konzentriert sich auf strategische Arbeit.
MMM + Forecast-Genauigkeit
Durch Bayesian MMM + incrementality-Kalibrierung liegt die Forecast-Abweichung im Band von ±8 %; Budgetentscheidungen sind verlässlich.
LIEFERUMFANG
Monatliche + quartalsweise Outputs
Die konkreten Artefakte der Analytics-Operations; jedes wird an Ihr Team übergeben und läuft ab dem 12. Monat als vollständiges runbook autonom.
Entscheidungsinventar + 30-Fragen-Katalog
Liste der Fragen, die Entscheider wöchentlich stellen, Antwortquelle, SLA und Lücken in den erforderlichen Daten.
KPI-Tree
Quelle, Owner, Schwellenwert und ausgelöste Entscheidung jeder Metrik — ein einziges Miro-/FigJam-Board, versioniert.
dbt-Repo + Modelle
Versioniertes + testbares dbt-Projekt; Staging-/Intermediate-/Marts-Schicht, Dokumentation inklusive.
Semantic Layer (LookML / Metabase Models)
Die gemeinsame Schicht der Metric Definitions hinter den vom Fachbereich gestellten Fragen.
Dashboard-Paket
Erste 15-25 Panels nach Entscheidungsgruppen (CAC, retention, Revenue Quality); jedes nach Rolle + Frequenz.
Schwellwert-Alert-System
ML-Drift-Detector + Forecast-Band + Slack-/E-Mail-Integration; sich verschlechternde Metriken lösen innerhalb von Stunden einen Alarm aus.
Cohort- + Retention-Report
D1-/D7-/D30-/D90-Tabellen + LTV-Kurven + Churn-Segment-Analyse + Resurrection-Rate.
MMM-Modell + Report
Bayesian MMM (Robyn/PyMC); Kanal-Contribution + Saturation + Adstock + confidence band.
Incrementality-Test-Protokoll
Geo-Holdout- und Matched-Market-Test-framework; Vorlagen für Planung + Durchführung + Analyse.
Data-Governance-Runbook
PII-Tagging, schema registry, Retention-Richtlinie, Zugriffs-Audit — KVKK- + DSGVO-konform.
Monatliche Data-Council-Zusammenfassung
Welche Frage wurde beantwortet, welche steht noch aus, welches Dashboard wurde genutzt, Prioritätenliste für den Folgemonat.
Self-Serve-Schulungsmaterial
Metabase-/Lightdash-/Hex-Trainingsvideos für den Fachbereich + SQL-/Jargon-Glossar + Practice-Datensatz.
— LEISTUNGSUMFANG
Was ist enthalten, was nicht?
Die Grenzen der Analytics-Operations sind klar. Ein vorab sichtbarer Scope verhindert falsche Erwartungen und scope creep.
Leistungen dieses Services
- Entscheidungsinventar + erster Sprint mit 30 Fragen
- KPI-Tree + schriftliches Ownership + versioniertes Dokument
- dbt-Repo-Setup + Staging/Intermediate/Marts-Schichten
- Warehouse-Integration (BigQuery / Snowflake / Redshift / Databricks)
- LookML oder Metabase semantic layer
- Erste 15-25 Dashboards + quartalsweise Ergänzungen
- ML-basierte Anomaly Detection + Schwellwert-Alert-System
- Cohort- + LTV- + Retention-Analytik — quartalsweises Update
- Bayesian MMM (3 Refreshes pro Jahr)
- Incrementality-Test-Protokoll + Durchführung
- Data-Governance-Runbook (PII, Retention, Audit)
- Monatliches Data Council + Self-Serve-Schulungsablauf
Nicht enthaltene Leistungen (optionaler Zusatz)
- Finanz-/Buchhaltungs-BI (ERP-Seite separate Beratung)
- Warehouse-Compute / Lizenzkosten (Kundenvertrag)
- Custom-ML-Model-Training (außerhalb Forecasting)
- Real-Time-Streaming-Infrastruktur (Kafka, Kinesis — separater Scope)
- Data-Privacy-/Rechtsberatung (mit Partneranwalt)
- Lizenzerneuerungen für BI-Tools
- Third-party-Datenkauf (Panel, Survey)
- Marketing-Operations selbst (PPC / SEO / CRO separater Service)
HOW WE WORK
Ablauf: Analytics-Operations von Woche 1 Diagnose bis Monat 6+ Governance
Woche 1-2 — Entscheidungsinventar + Audit
Liste der 30 strategischen Fragen, Inventar der bestehenden Dashboards, Gesundheit der Datenquellen und SLA-Diagnose.
Woche 3 — KPI-Tree + Schema
Schriftlicher KPI-Tree, Metric Definitions, Ownership; Entscheidung über warehouse-Schema + Staging-Schicht.
Woche 4-5 — dbt-Modelle + erstes Dashboard
dbt Staging + Intermediate + Marts; Veröffentlichung der ersten 5-8 Dashboards; Stakeholder-Review.
Woche 6-8 — Alert + cohort + Refresh
Schwellwert-Alert-System, Cohort- + Retention-Reports, dbt-Cloud-/Airflow-Refresh-Pipeline.
Monat 3 — MMM-Training + erstes Ergebnis
Bayesian MMM mit 18-monatiger Historie; Kanal-Contribution + Saturation + erste Budgetrevisions-Empfehlung.
Monat 4 — Incrementality-Test-Protokoll
Geo-Holdout- oder Matched-Market-framework; erster Test live, Ergebnis nach 4-6 Wochen.
Monat 5 — Data Council + Self-Serve-Training
Monatliche Data-Council-Routine startet; Self-Serve-Schulungsablauf mit Metabase / Lightdash für den Fachbereich.
Monat 6+ — Quartalsweiser Refresh + Governance
Quartalsweiser MMM-Refresh, Incrementality-Test-Cycle, Data-Governance-Audit; im 12. Monat ist die vollständige Übergabe möglich.
— TOOL-STACK
Analytics-Stack vom warehouse bis zur BI
Wir arbeiten tool-agnostisch; aber in jeder Schicht gibt es klare Tool-Empfehlungen, die den meisten Mehrwert schaffen. Wir passen uns Ihrem bestehenden Stack an.
WAREHOUSE
MODELLIERUNG & TRANSFORM
BI & VISUAL
ML & MMM
QUESTIONS
Frequently asked
— GLOSSAR
Terminologie der Analytik
Wenn derselbe Begriff zwischen Teams dasselbe bedeutet, beschleunigt die Diskussion die Entscheidung; wenn nicht, beschleunigt sich nur der Zweifel.
- KPI Tree
- Eine hierarchische Baumstruktur von Metriken, die sich vom Kernergebnis eines Geschäfts nach unten verzweigt; jeder Knoten ist ein Entscheidungsauslöser.
- dbt
- Data build tool — SQL-basiertes, versioniertes, testbares framework für Datentransformation; der Standard des Analytics Engineering.
- Semantic Layer
- Die Schicht gemeinsamer Metric Definitions + Business Logic hinter dem BI-Tool; mit Tools wie LookML, Metabase Models, Cube.
- Cohort
- Eine Gruppe von Nutzern mit einem gemeinsamen Merkmal (Registrierungsdatum, acquisition-Kanal); ihr Verhalten wird über die Zeit analysiert.
- LTV (Lifetime Value)
- Der gesamte lebenslange Wert eines Kunden; Gross Margin × Retention × Bestellhäufigkeit × Warenkorbwert.
- Retention
- Anteil gewonnener Nutzer, die in einem definierten Zeitfenster (D1, D7, D30, M1, M3) noch aktiv sind. In SaaS und Mobile Games ein direkter Indikator für Product-Market-Fit; eine Kohorten-Kurve, die abflacht, ist die Signatur eines gesunden Produkts.
- Churn
- Anteil der Nutzer, die in einem definierten Zeitfenster die aktive Kundenbasis verlassen. Im Subscription-Geschäft trifft Churn die MRR direkt; im E-Commerce ist er das Gegenteil der Repeat Rate. Voluntary (gekündigt) vs. involuntary (Zahlungsproblem); Senkung über Onboarding, Pricing und Lifecycle-Kommunikation.
- MMM (Marketing Mix Modeling)
- Ein Modell mit Bayesian-Statistik, das Kanal-Contribution schätzt; erfordert 18-24 Monate historische Daten.
- Incrementality
- Die zusätzlichen Conversions, die ohne einen Kanal nicht entstanden wären; gemessen mit Geo-Holdout-Tests, attributionsunabhängig.
- Anomaly Detection
- Sammelbegriff für Techniken, die in Zeitreihen-Metriken (KPI, Conversion, Latency, Fraud-Signal) automatisch Werte außerhalb des Erwartungsbereichs markieren. Eingesetzt: STL-Zerlegung, Prophet, Isolation Forest, neuronale OoD-Modelle; Hirn hinter Alerting und Observability-Dashboards.
- Self-Serve Analytics
- Eine Analytics-Umgebung, in der Fachbereiche ohne Data-Team ihre eigenen Fragen beantworten können; mit Metabase, Lightdash, Hex.
- Data Governance
- Die Gesamtheit aus Datenqualität, Zugriffskontrolle, PII-Management, Retention und Audit-Richtlinien; KVKK-/DSGVO-konform.
- ETL / ELT
- Extract → Transform → Load (alt) vs. Extract → Load → Transform (modern). Ansätze, Daten von der Quelle ins Warehouse zu bringen. ELT setzt auf günstige Cloud-DW-Compute; dbt + BigQuery/Snowflake/Databricks ist heute der Standard.
- Data Lake
- Zentraler Speicher für strukturierte und unstrukturierte Daten (Logs, Bilder, Video, Raw Events) ohne erzwungenes Schema. Auf S3, GCS oder ADLS mit Parquet/Iceberg/Delta Lake; ergänzt das Warehouse und bildet die Basis der Lakehouse-Architektur.
- Stream Processing
- Daten nicht in Batches, sondern als Echtzeit-Event-Strom verarbeiten. Übliche Stacks: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; Use Cases: Fraud Detection, Echtzeit-Personalisierung, IoT-Telemetrie, Anomaly Alerting.
- Data Contract
- Vorab vereinbarter Vertrag zwischen Datenproduzenten und -konsumenten zu Schema, Semantik, SLA und Ownership. Umgesetzt mit dbt + Great Expectations + JSON Schema; die zuverlässigste Mauer gegen die "Downstream-Modell ist kaputt"-Überraschung.
- LLM (Large Language Model)
- Allzweck-Sprachmodell mit Milliarden Transformer-Parametern, vortrainiert auf riesigen Textkorpora. GPT-5, Claude, Gemini, Llama; das Arbeitstier für Chat, Code, Summarisation, Übersetzung, Retrieval und Agent-Tasks — Spezialisierung via Fine-Tuning oder Prompt Engineering.
- Transformer
- Neuronale-Netz-Architektur aus "Attention Is All You Need" (2017), die Long-Range-Beziehungen in sequenziellen Daten per Self-Attention erfasst. Nachfolger von RNN und LSTM; Substrat jedes modernen LLM (GPT, Claude, Llama, Gemini) und auch Vision-Modelle (ViT).
- Embedding
- Hochdimensionale Vektor-Repräsentation eines Wortes, Satzes, Bildes oder Nutzers — semantische Ähnlichkeit über Vektor-Nähe messbar. Gemeinsame Währung für Recommendation, Semantic Search, RAG, Clustering und Anomaly Detection; OpenAI ada, Cohere, sentence-BERT als Erzeuger.
- RAG (Retrieval-Augmented Generation)
- Architektur, in der das LLM vor der Antwort relevante Dokumente aus einer externen Wissensbasis (Vector DB, Doc Store) holt und in den Kontext injiziert. Reduziert Halluzinationen und ist der Standardweg, dem Modell aktuelle/private Daten als "Open-Book" zu geben — Triple aus Embedding + Retriever + LLM.
- Vector Database
- Datenbank, die Embeddings im hochdimensionalen Vektor-Raum speichert und mit ANN-Algorithmen (Approximate Nearest Neighbor) in Millisekunden ähnliche Vektoren findet. Pinecone, Weaviate, Qdrant, pgvector, Chroma; der eigentliche Motor der Retrieval-Schicht im RAG.
- Fine-tuning
- Prozess, ein vortrainiertes Foundation-Model mit zusätzlichen (meist kleinen) gelabelten Daten für eine spezifische Aufgabe oder Domain neu zu trainieren. Full Fine-Tune, LoRA/QLoRA und Instruction-Tuning sind die üblichen Varianten; Basis für "Custom Assistant"-Use-Cases auf ChatGPT & Co.
- LoRA (Low-Rank Adaptation)
- Parameter-effiziente Fine-Tuning-Technik, die kleine "Adapter"-Matrizen einfügt statt alle Foundation-Model-Gewichte zu aktualisieren. Trainiert ~0,1-1 % der Parameter, senkt GPU-Speicher um 70 %+; Per-Task-Adapter-Swap macht Multi-Task-Serving praktikabel.
- RLHF (Reinforcement Learning from Human Feedback)
- Letzte Stufe der LLM-Trainings-Pipeline, die die Outputs des Modells an Präferenzen menschlicher Rater ausrichtet. Reward-Model + PPO/DPO-Algorithmus lenkt das Modell zu "hilfreich, ehrlich, harmlos"; Basis des ChatGPT-Alignments.
- Hallucination
- Wenn ein LLM eine nicht existierende Quelle, ein Faktum oder Zitat selbstbewusst erfindet. Entsteht, wenn das Modell auf Fragen außerhalb seiner Trainings-Datenverteilung mit derselben Sicherheit antwortet wie auf In-Distribution-Fragen; gemildert durch RAG, Citation Grounding und Self-Consistency-Checks — nie vollständig eliminiert.
- Prompt Engineering
- Disziplin, den Prompt (Instruction + Kontext + Beispiele + Format) systematisch so zu designen, dass das LLM die gewünschte Ausgabe liefert. Few-Shot, Chain-of-Thought, Role Assignment, Output-Schema, System-Prompt; die "Wie spricht man damit"-Schicht jeder Production-AI-App.
- Context Window
- Anzahl Tokens (Input + Output), die ein LLM in einem Call verarbeiten kann. Reicht von 8K-128K (GPT-4) über 200K (Claude) bis 1M+ (Gemini); entscheidende Kapazität für Langdokument-Analyse, Multi-Turn-Konversation und Agent-State — RAG ist die alternative Methode, Kontext zu "erweitern".
- Function Calling / Tool Use
- Fähigkeit des LLM, eine externe Funktion (API, DB-Query, Code-Runner) per strukturiertem JSON aufzurufen statt freien Text zu produzieren. OpenAI tools, Anthropic tool_use; das offizielle Protokoll, mit dem Agents in die reale Welt greifen.
- AI Agent
- Software-Konstrukt, das ein LLM als Decision-Engine nutzt und Multi-Step-Aufgaben über Tool Calling + Memory + Plan-Execute-Loop autonom abarbeitet. ReAct, AutoGPT, Claude/GPT Agents, LangGraph; die "Recherchieren → Planen → Tools ausführen → Ziel erreichen"-Architektur.
- Foundation Model
- Großes Modell, vortrainiert auf breiten, diversen Internet-Skala-Daten, transferierbar auf Downstream-Tasks — LLMs, Vision-Modelle (CLIP, ViT), multimodale Modelle (GPT-4o, Gemini). Anwendungen entstehen darauf über Fine-Tuning, Prompt Engineering oder RAG.
- Multimodal AI
- KI-System, in dem dasselbe Modell mehrere Modalitäten versteht und erzeugt — Text + Bild + Audio + Video. GPT-4o, Gemini, Claude 3.5 Vision; Substrat für Cross-Modal-Use-Cases wie OCR, Image Captioning, Video Q&A, Audio-Transkription und Screen-aware Agents.
- NLP (Natural Language Processing)
- KI-Teildisziplin rund um die Fähigkeit eines Computers, natürliche Sprache (Türkisch, Englisch usw.) zu verstehen, zu generieren und zu transformieren. Tokenization, POS-Tagging, NER, Sentiment-Analyse, Maschinen-Übersetzung; LLMs sind heute die stärksten Allzweck-Tools in diesem Feld.
- Token
- Kleinste Texteinheit, die ein LLM verarbeitet — kann ein Wort, Wortteil oder einzelnes Zeichen sein. Ein Tokenizer (BPE, WordPiece, SentencePiece) wandelt Text in Tokens um; OpenAI-Preise + Context-Window-Limits werden in Tokens gerechnet (1 englisches Wort ≈ 1,3 Tokens).
- Temperature
- Parameter, der die "Zufälligkeit" der LLM-Output-Verteilung steuert — 0 = immer das wahrscheinlichste Token (deterministisch), 1+ = kreativer/diverser. Übliche Werte: 0-0,3 für Code/JSON/Zahlen, 0,7-1,2 für Story/Brainstorm; zusammen mit top_p justiert.
- Semantic Search
- Such-Ansatz, der bedeutungsbasierte Ergebnisse liefert, indem er Query- und Dokument-Embeddings vergleicht statt Keywords zu matchen. Unabhängig von Schreibweise, erfasst Synonyme; Retrieval-Engine von RAG — mit Vector DB + ANN umgesetzt.
- Inference
- Phase, in der ein trainiertes AI-Modell auf Live-Daten Predictions/Generations liefert (Gegenteil von Training). Hebel: Latenz, Throughput, Cost-per-Request und der Model-Serving-Stack (vLLM, TGI, Triton); macht ~90 % der Produktions-Seite von MLOps aus.
- OLTP (Online Transaction Processing)
- Datenbank-Ansatz, optimiert für hochvolumige, zeilen-basierte Lese-/Schreibvorgänge mit geringer Latenz. PostgreSQL, MySQL, MongoDB; Standard-Speicher hinter Live-Application-Backends — E-Commerce-Warenkorb, User-Session, Reservierung.
- OLAP (Online Analytical Processing)
- Spalten-basierter DB-Ansatz, optimiert für großmaßstäbliche Analyse-Queries. BigQuery, Snowflake, Redshift, ClickHouse; scannt Millionen Zeilen in Sekunden für Aggregation, GROUP BY und Zeitreihen — Infrastruktur von BI und Dashboards.
- ACID
- Vier Garantien transaktionaler Datenbanken: Atomicity (alles oder nichts), Consistency (Regeln bleiben), Isolation (parallele Ops sehen einander nicht), Durability (Committed Data bleibt). Kernvertrag von RDBMS wie PostgreSQL, MySQL, Oracle.
- BASE
- Lockerer Garantie-Satz verteilter/NoSQL-Systeme: Basically Available, Soft State, Eventual Consistency. Gegenteil von ACID — akzeptiert kurze Inkonsistenz für Availability + Skalierung. Philosophie hinter DynamoDB, Cassandra, Riak.
- Sharding
- DB nach einem Schlüssel (user_id mod 16, Zeitbereich) aufteilen und jeden Shard auf einen eigenen Server legen. Methode der horizontalen Skalierung; Cross-Shard-JOINs werden unpraktikabel, die Shard-Key-Wahl ist eine unumkehrbare architektonische Entscheidung.
- Replication
- Eine Live-Kopie der Datenbank auf mehreren Servern halten — zur Verteilung der Leselast (Read Replicas) und für Failover. Async (Postgres Streaming) ist verzögert aber schnell, Sync ist konsistent aber langsam; jede Strategie ist ein Tradeoff.
- Eventual Consistency
- In verteilten Systemen braucht ein Update Zeit, um sich auf alle Replicas auszubreiten — für eine kurze Zeit liefern verschiedene Nodes ggf. unterschiedliche Werte. DynamoDB- und Cassandra-Default; ungeeignet fürs Banking, ideal für Social Media.
- CDC (Change Data Capture)
- Pattern, das INSERT/UPDATE/DELETE-Events aus einer Datenbank in Echtzeit erfasst und an Downstream-Systeme (Warehouse, Search Index, Cache) liefert. Debezium, Kafka Connect; basiert auf Replication Slots + Log-Tailing, moderne Alternative zum Polling.
- Star Schema
- Warehouse-Modellierungs-Ansatz, bei dem eine zentrale Fact-Tabelle (z. B. orders) sternförmig von Dimensions-Tabellen (customer, product, date) umgeben ist. BI-Queries brauchen wenige JOINs = schnell; kanonische Architektur für BigQuery, Snowflake.
- Materialized View
- Datenbank-Objekt, das das Ergebnis einer SELECT-Query physisch auf Disk schreibt und cached. Berechnet eine komplexe Aggregation vor statt sie jedes Mal neu zu rechnen; Refresh-Strategie (manuell, geplant, inkrementell) ist der Tradeoff.
- Normalization
- Prozess, ein DB-Schema in verwandte Tabellen zu zerlegen, um Redundanz und Update-Anomalien zu eliminieren (1NF, 2NF, 3NF, BCNF). Standard für OLTP; garantiert, dass jedes Update an einer Stelle passiert — auf Kosten von mehr JOINs.
- Denormalization
- Normalisierte Tabellen bewusst zusammenführen und Redundanz akzeptieren — im Tausch gegen Query-Performance. Standard für OLAP / Data Warehouse; senkt JOIN-Kosten, verwaltet das Inkonsistenz-Risiko über ETL/CDC.
- Time-series Database
- Datenbank, optimiert für hochvolumige Writes zeitgestempelter Metriken (CPU-Usage, IoT-Sensoren, Finance-Ticker) und Zeitbereichs-Queries. InfluxDB, TimescaleDB, Prometheus, ClickHouse; Downsampling + Retention-Policy sind Kern-Features.
- Iceberg / Hudi / Delta Lake
- Open-Source-Projekte, die eine "Tabellenformat"-Schicht über Object Storage (S3, GCS) legen — bringen Schema-Evolution, ACID, Time-Travel und Concurrent-Writer-Support. Die drei Standard-Engines der Lakehouse-Architektur.
- Data Quality
- Disziplin, ein Dataset auf Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Uniqueness zu messen. Great Expectations, Monte Carlo, Soda automatisieren die Tests; einzige echte Verteidigung gegen "Garbage in, Garbage out".
- Data Lineage
- Nachvollziehbarer Graph aller Transformations-Schritte, die ein Datenpunkt von der Quelle (Raw Event) bis zum Endnutzer (Dashboard-KPI) durchläuft. Atlan, OpenMetadata, dbt docs; die deterministische Antwort auf "Woher kommt dieses KPI?" plus Impact-Analyse.
- Data Mesh
- Struktur aus domänen-basierten (Marketing, Finance, Product) Self-Serve-Datenprodukten statt eines zentralen Data Teams. Aufgebaut auf Domain-Ownership + Product Thinking + Federated Governance; Antwort auf das "Data-Team-ist-Bottleneck"-Problem im Großmaßstab.
- Data Catalog
- Zentraler Katalog, der alle Daten-Assets einer Organisation (Tabelle, Dashboard, ML-Model, Spalte) mit Suche, Beschreibungen und Ownership indiziert. Atlan, Collibra, OpenMetadata, Amundsen; Antwort auf "Gibt es diese Daten, wem gehören sie?"
- Schema Evolution
- Fähigkeit eines Datenformats (Avro, Parquet, JSON), sich über Zeit zu ändern ohne bestehende Consumer beim Hinzufügen neuer Felder zu brechen. Erfordert Disziplin bei Backward + Forward Compatibility, Optional Fields und Defaults; kritisch für CDC, Event Sourcing, Lakehouse.
- AWS DynamoDB
- Serverless NoSQL Key-Value + Document Database von AWS. Einstellige ms-Latenz bei Milliarden Requests/Sek., automatisches Partitioning, Point-in-Time-Recovery und Global Tables (Multi-Region). Ideal für Game-Backends, IoT-Telemetrie, Session-Storage, Leaderboards.
- GCP Spanner
- Googles global skalierbare, ACID-konforme, horizontal skalierende relationale Datenbank. SQL-Syntax + DynamoDB-Skalierung + PostgreSQL-Transaktionen; Multi-Region 99,999 % Uptime; betreibt Google Ads/Maps, ideal für Fintech.
- Azure Cosmos DB
- Global skalierbare, Multi-Model-NoSQL-Datenbank von Microsoft Azure. SQL-, MongoDB-, Cassandra-, Gremlin-(Graph)-, Table-APIs auf derselben Engine; fünf Consistency-Level (Strong → Eventual); SLA-gebundene Latency und Throughput.
- Prometheus
- Metrics-Schicht des Cloud-Native-Monitoring-Stacks. Pull-basiertes Scraping holt /metrics von Target-Endpoints; PromQL für Time-Series-Queries; Alertmanager verwaltet Alert-Regeln. De-facto Standard für Kubernetes und moderne Microservice-Architekturen.
- Grafana
- Open-Source-Plattform für Datenvisualisierung und Dashboards. Vereint 100+ Data Sources (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) in einer Oberfläche; Alerting, Annotations, Panel-Templating; im SRE-Alltag Standard für NOC-Screens.
- Jaeger
- CNCF-Plattform für Distributed Tracing. Erfasst jeden Hop eines User-Requests über Microservices als Span; visualisiert Latenz-Engpässe, fehlende Dependencies und Error-Propagation. 100 % kompatibel mit dem OpenTelemetry-Standard.
- OpenTelemetry (OTel)
- CNCF-Projekt, das Observability (Metrics, Logs, Traces) unter einem vendor-neutralen Standard vereint. SDKs und Auto-Instrumentation machen Application-Code portabel zwischen Datadog, New Relic, Honeycomb, Jaeger — bricht Vendor-Lock-in.
- ELK Stack
- Elasticsearch + Logstash + Kibana — Open-Source-Stack für Log-Aggregation, Indexierung und Visualisierung. Logstash ingestiert, Elasticsearch indexiert für Full-Text-Search, Kibana liefert Dashboards. Loki + Grafana gewinnt bei Scale, ELK bleibt aber sehr verbreitet.
- SLI (Service Level Indicator)
- Numerischer Indikator für die Service-Gesundheit — Erfolgsrate, p99-Latenz, Verfügbarkeit. Messgrundlage eines SLO; objektive Antwort auf "Welcher Anteil der Requests lief unter 200 ms?". Kernkonzept aus Googles SRE-Book.
- SLO (Service Level Objective)
- Interner Zielwert, den ein SLI treffen soll — z. B. "p99-Latenz < 200 ms für 99,9 % eines 30-Tage-Fensters". Die Antwort des Engineering-Teams auf "wie zuverlässig ist zuverlässig genug"; Grundlage des Error Budgets.
- SLA (Service Level Agreement)
- Externer Vertrag zwischen Service-Provider und Kunde; juristische Spiegelung eines SLO. Bei Bruch greifen Strafen wie Refunds/Credits. Faustregel: SLA < SLO < SLI — Engineering zielt strenger als die öffentliche Garantie.
- Error Budget
- Aus einem SLO abgeleitete "erlaubte Ausfallmenge". 99,9 % SLO = 0,1 % Error Budget = ~43 Min. Downtime pro Monat. Budget übrig → Risiken eingehen (neue Releases); Budget aufgebraucht → Stabilisierungsmodus. SRE-Balance zwischen Innovation und Reliability.
- Diffusion Model
- Familie generativer Modelle, die lernen, Daten schrittweise mit Rauschen zu überlagern und den Prozess umzukehren. Kernarchitektur moderner Image-/Video-Generatoren wie Stable Diffusion, Midjourney, DALL-E 3, Sora. Trainiert weit stabiler als GANs und liefert deutlich vielfältigere Outputs.
- GAN (Generative Adversarial Network)
- Generatives Modell, in dem zwei neuronale Netze — Generator (Fakes) und Discriminator (Real-/Fake-Richter) — gegeneinander trainieren. 2014 von Ian Goodfellow vorgestellt; Technik hinter frühen Deepfakes, StyleGAN-Porträts und Super-Resolution. Heute weitgehend von Diffusion-Modellen abgelöst.
- CLIP (Contrastive Language-Image Pre-training)
- OpenAI-Modell von 2021, das Bilder und ihre Captions in einem gemeinsamen Embedding-Raum ausrichtet — das Embedding von "Foto einer Katze" landet nahe echten Katzenfotos. Text-to-Image-Conditioner in Stable Diffusion und Fundament für Zero-Shot-Image-Classification und Bildsuche.
- ControlNet
- Architektur von 2023, die Diffusion-Modelle um ein zusätzliches Conditioning-Signal erweitert. Steuert Generation über Referenzen wie Pose, Depth-Map, Canny-Edges oder Scribbles und ermöglicht "diese Pose, andere Kleidung". Eines der meistgenutzten Add-ons im Stable-Diffusion-Ökosystem.
- Adapter Tuning
- Fine-Tuning-Ansatz, bei dem kleine "Adapter"-Layer in ein großes Sprachmodell eingefügt werden, statt alle Parameter neu zu trainieren. Beliebte Varianten: LoRA, QLoRA, IA³; weniger als 1 % der Originalparameter werden trainiert, GPU-Kosten sinken dramatisch.
- PEFT (Parameter-Efficient Fine-Tuning)
- Sammelbegriff für Ansätze, die nur einen kleinen Teil der Parameter eines 70B-Parameter-LLM trainieren statt vollständigem Fine-Tuning. LoRA, Prompt-Tuning, Prefix-Tuning, Adapter-Tuning sind alle PEFT-Varianten. HuggingFaces peft-Library ist Standard.
- Quantization (LLM)
- Technik, die Float32/Float16-Gewichte eines Modells auf Int8, Int4 oder sogar Int2 komprimiert. Speicher sinkt 4-8×, Inference wird 2-3× schneller, Qualitätsverlust meist klein. Llama.cpp, GGUF-Format und die Algorithmen AWQ/GPTQ sind die üblichen Werkzeuge.
- Knowledge Distillation
- Technik, die das Verhalten eines großen "Teacher"-Modells in ein kleines "Student"-Modell überträgt. Indem die weichen Wahrscheinlichkeits-Outputs des Teachers als Ziel dienen, erreicht der Student fast identische Accuracy mit weit weniger Parametern. Trick hinter DistilBERT, TinyLlama, Phi-3.
- Mixture of Experts (MoE)
- Architektur, die statt eines monolithischen Modells jeden Token durch eine sparse Auswahl (einen oder zwei) kleiner "Expert"-Submodule routet. Eingesetzt in Mixtral 8x7B, GPT-4, DeepSeek; senkt aktive Parameteranzahl bei hoher Kapazität und reduzierten Inference-Kosten.
- Speculative Decoding
- Technik, die LLM-Inference beschleunigt: ein kleines "Draft"-Modell schlägt mehrere Tokens voraus, das große "Target"-Modell verifiziert sie parallel und akzeptiert die korrekten. 2-3× schneller bei gleicher Qualität. Standard in vLLM und llama.cpp.
- KV Cache
- Optimierung, die in Transformer-Attention-Layern berechnete Key- und Value-Matrizen für vorherige Tokens im Speicher hält. Jeder neue Token berechnet nur sein eigenes K/V statt die Geschichte zu wiederholen. 10-100× schnellere Inference, bei langem Kontext aber das Memory-Bottleneck.
- Attention Head
- Einer von mehreren parallel laufenden kleinen Attention-Mechanismen innerhalb eines Transformers. Jeder Head fokussiert eine andere Eingabe-Eigenschaft — Syntax, Position, Long-Range-Dependencies. Modelle wie GPT-4 nutzen 96+ Heads pro Layer; Baustein der Multi-Head-Attention.
- BPE Tokenizer (Byte-Pair Encoding)
- Tokenisierungs-Algorithmus, der Text in die häufigsten Subword-Stücke zerlegt — z. B. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral nutzen alle BPE-Varianten (tiktoken, SentencePiece); Vokabular-Größe bleibt fix (~32K-128K), OOV-Problem ist gelöst.
- DPO (Direct Preference Optimization)
- Einfachere Alternative zu RLHF. Statt Reward-Modell + PPO direktes Logistic-Regression auf Paaren "preferred vs rejected" Responses. Stanford 2023; stabiler, weniger Hyperparameter, Alignment-Methode der Wahl in Modellen wie Llama 3.
- Constitutional AI
- 2022 von Anthropic vorgestellte Methode, die ein Modell mit einer schriftlichen "Verfassung" (Liste ethischer Prinzipien) statt menschlicher Reviewer alignt. Das Modell kritisiert und verbessert eigene Outputs gegen die Verfassung; Fundament von Claudes Alignment, RLAIF (Reinforcement Learning from AI Feedback).
- Chain-of-Thought (CoT)
- Prompting-Technik, die ein LLM auffordert "Schritt für Schritt zu denken" und die Zwischenlogik vor der Antwort auszuschreiben. 2022 von einem Google-Paper eingeführt; verbessert Performance bei Mathe, Logik und Multi-Step-Fragen drastisch. "Let's think step by step" ist der Zauberspruch. Basis moderner Reasoning-Modelle (o1, DeepSeek-R1).
- Few-Shot Prompting
- Technik, die 2-5 Beispiele (Input-Output-Paare) im Prompt liefert, damit das LLM dasselbe Muster auf neuen Input anwendet. Schnelle Adaption ohne Fine-Tuning — "antworte wie in diesen Beispielen". Praktischste Lösung für klassifizierten Text und formatierte Extraktion.
- Zero-Shot Prompting
- Prompting-Ansatz, bei dem die Aufgabe ohne Beispiele direkt an das LLM beschrieben wird — z. B. "Übersetze diesen Text ins Deutsche". Stützt sich allein auf das Pre-Training-Wissen; bei Frontier-Modellen (GPT-4, Claude) für die meisten Aufgaben ausreichend.
- Grounding (LLM)
- Technik, die die Antwort eines LLM in einer externen Wissensquelle "verankert" — Dokumente, Datenbank oder Websuche. Statt rein parametrischer Erinnerung wird der retrieved Context genutzt; Halluzination sinkt drastisch, Citations möglich, Wissen bleibt in Echtzeit aktuell.
- Structured Output (LLM)
- Fähigkeit, den Output eines LLM einem definierten JSON-Schema, Pydantic-Modell oder Regex zu unterwerfen. OpenAI Structured Outputs, Anthropic Tool Use, vLLM Grammar-constrained Sampling. Schlüssel zum Übergang von Freitext zu deterministischen, produktionsreifen Datenflüssen.
- Tool Use (Agent)
- Fähigkeit eines LLM, externe Tools aufzurufen — Web-Search, Code-Interpreter, Calculator, Custom APIs. Über das Function-Calling-Protokoll liefert das Modell "Tool-Name + Parameter", die Runtime führt es aus und gibt das Ergebnis zurück. Kern moderner Agent-Architekturen (Claude Agent SDK, AutoGen, LangGraph).
- Cross-Modal Embedding
- Embeddings, die verschiedene Modalitäten (Text, Bild, Audio) im selben Vektorraum repräsentieren. CLIP für Bild+Text, ImageBind für Text+Bild+Audio+Video+Depth+Thermal+IMU. Kritisch für Multimodale Suche ("finde Marketing-Text ähnlich zu diesem Foto"), Cross-Modal-Retrieval und Medien-RAG.
- Hybrid Search (BM25 + Vector)
- Retrieval-Strategie, die klassische Keyword-Suche (BM25/lexikal) mit Vektor-Similarity kombiniert. BM25 gewinnt bei Exact-Match-Queries (Numeric-IDs, Produktcodes); Vektoren bei semantischen ("wie gebe ich das zurück" → "Return Policy"). Goldstandard modernen RAGs.
- Data Fabric
- Integrierte Architektur, die verteilte Datenquellen (Cloud, On-Prem, SaaS) zu einer einzigen logischen Datenschicht vereint. Metadata-getrieben und AI-augmented; bietet eine "zentralisierte Integration" als Alternative zum verteilten Ownership-Modell des Data Mesh. Talend, Informatica, IBM Cloud Pak sind Schlüsselprodukte.
- Medallion Architecture
- Von Databricks populär gemachtes Data-Lake-Organisationsmuster — Bronze (Roh), Silver (bereinigt, conformed), Gold (Business-Ready, aggregiert). Jede Schicht baut auf der vorhergehenden auf; trennt Lineage, Qualität und Reprocessing sauber.
- Apache Spark
- In-Memory verteilte Daten-Processing-Engine. Der 10-100× schnellere Nachfolger von Hadoop MapReduce; vereint SQL, Streaming, ML (MLlib) und Graph (GraphX) in einer API. Kern von Databricks, managed in AWS EMR, GCP Dataproc, Azure HDInsight; PySpark macht es zum Hauptwerkzeug von Data-Engineers.
- Apache Flink
- True-Streaming-Engine (Event-für-Event). Im Vergleich zum Micro-Batch-Modell von Spark Streaming: Millisekunden-Latenz, Exactly-Once-Semantik, Stateful Processing. Bei Alibaba, Uber, Netflix für Real-Time-Fraud- und Anomalie-Detection im Einsatz.
- Kafka Connect
- Source-/Sink-Connector-Framework von Apache Kafka. Bringt CDC oder Batch-Ingestion aus 100+ Systemen (Postgres, MySQL, S3, Elasticsearch, Snowflake …) nach Kafka und streamt Daten zurück in externe Systeme. Confluents 1.000+ Connector-Katalog ist die Referenz.
- Singer
- Open-Source-Daten-Integrations-Protokoll von Stitch (jetzt Talend), das JSON-Streams zwischen "Taps" (Extract) und "Targets" (Load) bewegt. Modulares, herstellerneutrales ELT-Framework; Kern von Open-Source-ELT-Plattformen wie Meltano.
- Apache Airflow
- Workflow-Orchestrierungs-Plattform, deren DAGs (Directed Acyclic Graphs) in Python definiert werden. 2014 bei Airbnb entstanden, dann an die Apache Foundation gespendet. Scheduling, Retries, Dependency-Management, Web-UI; De-facto-Standard für Daten-Pipelines.
- Dagster
- Modernes Asset-basiertes Daten-Orchestrierungs-Framework. Während Airflow Task-zentriert ist, fokussiert Dagster "Data Assets" — mit Lineage, Type-Checking, Software-Defined Assets und integriertem Testing. Erstklassige Integrationen mit dbt, Fivetran, Snowflake.
- Prefect
- Modernes, pythonisches Daten-Orchestrierungs-Tool mit dynamischen DAGs. Löst Airflows Static-DAG-Limit — Flows können zur Laufzeit variieren —, mit Hybrid-Execution (Cloud + Self-Hosted) und granularen Retry-Policies. Auch für ML-Pipelines beliebt.
- Snowflake
- Cloud-natives Managed Data Warehouse. Compute (Warehouse) und Storage sind vollständig entkoppelt und skalieren unabhängig. SQL-Queries auf semi-strukturierte Daten (JSON, Parquet), Secure Data Sharing, Time Travel (bis 90 Tage); starke Alternative zu BigQuery und Redshift.
- BigQuery
- Serverless, columnar, petabyte-skalierendes Data Warehouse von Google Cloud. Pay-per-Slot; SQL-getriebenes ML-Training (BQML); natives Export-Ziel von GA4; integrierte Optimierungen für Geo, JSON und PARTITION/CLUSTER. Zentrum des GCP-Analytics-Stacks.
- Databricks
- Lakehouse-Plattform, gegründet von den Schöpfern von Apache Spark. Bündelt Bronze/Silver/Gold (Medallion), Delta Lake, MLflow, Unity Catalog und Notebook-Workspaces in einem Produkt. Entworfen für Data-Engineer + Analyst + ML-Engineer-Kollaboration; nativ auf AWS, Azure, GCP.
- Apache Iceberg
- Open Table Format für Petabyte-Daten (ursprünglich Netflix). Ergänzt Parquet um ACID-Transaktionen, Schema-Evolution, Time Travel, Hidden Partitioning, Branching. Unterstützt von Snowflake, Databricks, BigQuery, Trino; die Standardantwort gegen Data-Warehouse-Lock-in.
- Delta Lake
- Open Table Format, entwickelt von Databricks und Rivale zu Apache Iceberg. ACID, Time Travel, Schema-Enforcement, MERGE/UPDATE/DELETE; engste Integration im Spark-Ökosystem. Default-Format auf Databricks-Seite der Lakehouse-Architektur.
- Parquet
- Columnar-Speicherformat — jede Spalte liegt in eigenen Blöcken. Nur benötigte Spalten werden gelesen, Predicate-Pushdown wird unterstützt, Snappy/Zstd liefern starke Kompression. Default-Format für Spark, Iceberg, Delta, Snowflake; 10-100× schnellere Analytics als zeilenbasiertes CSV/JSON.
- Apache Avro
- Binäres Serialisierungsformat mit JSON-definierten Schemas. Starke Schema-Evolution (Forward/Backward Compatibility); besonders beliebt für Kafka-Message-Payloads. Wird zusammen mit einer Schema Registry verwendet; das zeilenorientierte Gegenstück zu Parquet.
- Schema Registry
- Service, der Avro-/Protobuf-/JSON-Schemas zentral speichert, versioniert und auf Kompatibilität prüft. Teil des Kafka-Stacks von Confluent; setzt den Producer-Consumer-Schema-Vertrag durch und fängt Breaking Changes vor Production ab.
- Window Function (SQL)
- SQL-Funktionen, die über eine Zeilenmenge ("Window") rechnen. ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY …). Anders als GROUP BY werden Zeilen nicht aggregiert — jede Zeile bekommt ihr eigenes Ergebnis. Unverzichtbar bei Time-Series, Rankings, Running Totals.
- ELT (Extract, Load, Transform)
- Umkehr des klassischen ETL: Rohdaten landen zuerst im Warehouse/Lake und werden dort mit SQL/dbt transformiert. Mit günstigem Cloud-DWH-Storage und starkem Compute ist ELT zum Default-Paradigma geworden; bringt Transformations-Logik näher an Analysten.
- Feature Store
- Plattform, die Features (historisch + Echtzeit), die ML-Modelle konsumieren, zentral speichert und ausliefert. Löst den Training-Serving-Skew, indem Offline- (Batch) und Online-Views (Low-Latency) aus einer einzigen Definition erzeugt werden. Hauptprodukte: Feast, Tecton, Hopsworks.
- MLOps
- Disziplin, die den Develop-Train-Deploy-Monitor-Retrain-Zyklus von ML-Modellen automatisiert. DevOps auf ML angewendet — Experiment-Tracking (MLflow), Model-Registry, CI/CD für Modelle, Drift-Detection und Retraining-Pipelines.
- OpenLineage
- Offener Standard für Data-Lineage-Events (LF AI & Data). Erlaubt Airflow, Spark, dbt, Flink u. a., Lineage-Events im gleichen Format zu emittieren. Integriert in Marquez, Datakin, Astronomer; vendor-neutraler Träger des Metadata-Flusses.
- Great Expectations
- Open-Source Data-Quality-/Validierungs-Framework. Tausende vorgefertigte Checks wie "expect_column_values_to_be_unique" oder "expect_column_mean_to_be_between"; bindet sich in Airflow/dbt-Pipelines ein und erzeugt automatisch HTML-Data-Docs.
- Apache Atlas
- Open-Source-Tool für Metadata-Management und Data-Governance aus dem Hadoop-Ökosystem. Tag-basierte Zugriffskontrolle, Lineage-Graphen, Business-Glossar, Klassifikationen (PII/PCI). Standard im Hortonworks/Cloudera-Enterprise-Stack; moderne Alternativen: Amundsen, DataHub.
- Lambda Architecture (Data)
- Datenarchitektur, die Real-Time- und Batch-Ergebnisse fusioniert. Der Speed-Layer (Storm/Flink) liefert latenzarme Approximationen, der Batch-Layer (Spark/Hadoop) genaue, aber langsame Ergebnisse; der Serving-Layer vereint beide. Nicht mit AWS Lambda zu verwechseln; heute zunehmend Richtung Kappa-Architektur.
- Differential Privacy
- Mathematisches Framework, das sicheren Zugriff auf Populations-Statistiken ermöglicht, ohne individuelle Datensätze zu offenbaren. Kalibriertes Rauschen wird zu Query-Ergebnissen addiert; ein Angreifer kann nicht feststellen, ob eine Person im Datensatz ist. Genutzt von Apples iOS-Keyboard, Google Play und dem US-Census 2020.
- Federated Learning
- Technik, die das Modell lokal auf Nutzergeräten trainiert und nur Gradienten- bzw. Gewichtsaktualisierungen an den zentralen Server schickt, nie die Rohdaten. Googles Gboard-Auto-Suggest, Apples Siri und privacy-erhaltendes ML auf Gesundheitsdaten sind kanonische Anwendungsfälle.
- On-Chain Analytics
- Disziplin, aus den öffentlichen Transaktionsdaten einer Blockchain Insights zu ziehen — Wallet-Aktivität, Token-Holder-Konzentration, Exchange-Flow, Smart-Money-Tracking, NFT-Volumen. Dune Analytics (SQL on-chain), Nansen (gelabelte Addresses), Glassnode, Arkham sind führend.
- Oracle (Blockchain)
- Bridge-Service, der Off-Chain-Daten — Preise, Wetter, Sportergebnisse, IoT-Sensoren — vertrauenswürdig in On-Chain-Smart-Contracts liefert. Chainlink ist Marktführer; Pyth, Band, RedStone sind Alternativen. Vitale Infrastruktur für DeFi-Liquidationen, Insurance und Prediction Markets.
- Brand Lift Study
- Studie, die misst, wie eine Werbekampagne Brand-Metriken — Ad Recall, Brand Awareness, Message Association, Purchase Intent — durch Vergleich Control- vs. Exposed-Gruppe bewegt. Meta, YouTube und TikTok bieten es nativ an; CPM typisch 5-15 $.
- Incrementality Test
- Test, der Ad-getriebene Conversions mit einem "hätte-nicht-gelaufen"-Baseline vergleicht, um zu messen, wie viele Conversions wirklich inkrementell sind. Methoden: PSA-Placebo-Ads, Ghost-Bidding, Geo-Holdouts; heilt die "jede Conversion ist meine"-Illusion klassischer Attribution. Goldstandard für modernen Paid-Media-ROI.
- Geo Holdout Test
- Quasi-Experiment, das inkrementellen Impact misst, indem Ads in einer bestimmten Region (z. B. New York) abgeschaltet werden und in anderen weiterlaufen. Cookie-frei, Identifier-frei, ATT-sicher; Matched-Markets / Synthetic-Control ist Standard moderner Marketing-Science.
- MTA (Multi-Touch Attribution)
- Modell, das jedem Touchpoint (Ad, E-Mail, Organic, Direct), der zu einer Conversion beigetragen hat, gewichtetes Credit zuweist. Methoden: Linear, Time-Decay, Position-Based, Data-Driven. Cookie-Deprecation und ATT haben MTA-Genauigkeit geschwächt — Kombination mit MMM + Incrementality ist heute gesünder.
- Data-Driven Attribution (DDA)
- Attributionsmodell, das per Machine Learning den marginalen Beitrag jedes Touchpoints lernt — statt alles dem Last-Click zuzuschreiben. Default in Google Ads + GA4; Shapley-Value-basiert; vergleicht Kanäle auf gleicher Funnel-Stufe fair. Hat klassische Rule-based-Modelle abgelöst.
- View-Through Conversion (VTC)
- Conversion von Nutzern, die eine Anzeige gesehen — aber nicht geklickt — und später konvertiert haben. In Display- und Video-Kampagnen können 30-60 % der Conversions VTC sein; falsch bewertet, wird der Channel über- oder unterbewertet. Der Unterschied zu Click-only-Attribution ist kritisch.
- Attribution Window
- Zeitfenster, in dem eine Conversion einer Anzeige nach Click oder View zugerechnet wird. Alte Norm: 7-Day-Click + 1-Day-View; mit iOS 14.5 wurde 7-Day-Click + 1-Day-View + Same-Day-View ATT-Default. Je kürzer das Fenster, desto weniger Conversions scheinen Channels zu bekommen.
- Retention Curve (S-Curve)
- Erwartetes Muster einer Kohorten-Retention, die irgendwann abflacht. In gesunden Apps nach ~90 Tagen plat; in viralen / Habit-forming Apps horizontal; fällt sie weiter, ist PMF schwach. Andrew Chens "Smiling Curve" ist die moderne Referenz.
- Activation Rate
- Anteil neu registrierter Nutzer, die die erste wertvolle Aktion abschließen. Slack misst "die 40 %, die eine erste Nachricht senden", Notion "die 50 %, die eine erste Page anlegen", Spotify "die 85 %, die einen ersten Song spielen". Aktivierung ist der direkteste Indikator für PMF + Onboarding und korreliert stark mit LTV.
- TTV (Time-to-Value)
- Zeit, bis der Nutzer den ersten echten Wert erlebt (Aha-Moment). Linear: 30 Sekunden; Figma: 5 Minuten; Slack: 1 Woche. Je kürzer TTV, desto höher Retention; einzige Nordstern modernen Onboardings.
- Activation Metric (Aha-Moment Metric)
- Datengetriebene Schwelle nach dem Muster "wenn der Nutzer N Aktionen in T Zeit schafft, retained er". Facebook fand "10 Freunde in 14 Tagen", Slack "2K Messages", Twitter "30 Follows". Das ganze Onboarding wird darauf optimiert; Nordstern des Growth-Teams.
- pLTV (Predictive LTV)
- Mit Machine Learning aus den ersten Events (Sign-up, First Purchase, Day-1-Session, IAP) den 30-/90-/365-Tage-LTV vorhersagen. Standardlösung für iOS-Attribution nach SKAdNetwork; AppsFlyer, Adjust, Singular haben pLTV in ihre Marketing-Optimization-Stacks integriert.
- Uplift Modeling
- ML-Ansatz, der findet, in welchen Nutzersegmenten eine Intervention (Coupon, Push, E-Mail) wirklich Netto-Mehrwert schafft. Findet das "Persuadable"-Segment, schont den Rest. Algorithmen: T-Learner, X-Learner, Causal Forest. Steigert CRM-Kampagnen-ROI 2-3×.
- Crashlytics / Sentry Mobile
- Plattformen, die Mobile-Crashes, ANRs und JS-Errors einsammeln und mit Stack-Trace, Device-Daten und Breadcrumbs clustern. Firebase Crashlytics (Google, gratis), Sentry, Bugsnag, Embrace als Hauptoptionen. Crash-Free-Users-Ziel 99,5 %+; unter 99 % killt das App-Store-Rating.
- Mobile APM (Application Performance Monitoring)
- Plattform, die App-Performance auf realen Devices misst: Startup-Time, Screen-Render, Network-Requests, Memory, Battery, ANRs. Firebase Performance, New Relic Mobile, Embrace, Datadog Mobile RUM als Optionen. Macht UX-Probleme sichtbar, die keine Crashes sind.
- Headless BI
- Analytics-Engine ohne eigene Visualisierungsschicht, die alle Metric- und Dimension-Berechnungen via API und GraphQL bereitstellt. Cube, GoodData, AtScale sind führend; Output wird von Tableau, Looker, Notion, Hex, Excel oder einer Custom-React-App konsumiert. Modernes Paradigma, das die BI-Tool-Monogamie bricht.
- Metric Layer
- Metric-only-Variante der Semantic Layer — Abstraktion, die die "Single-Truth"-Metric-Definitionen des Unternehmens in YAML oder SQL hält. Slacks Spectacles, Airbnbs Minerva, dbt Semantic Layer als Beispiele. Wenn "Active User" im Marketing 15 % und in Finance 10 % ist, beginnt der Drift hier.
- Data Activation
- Prozess, Insights aus dem Warehouse in operative Systeme zu pushen — CRM, Ad-Plattformen, Support-Tools, In-App-Messaging. Reverse ETL ist die technische Pipe; Brücke zwischen "Data Analytics" und "Marketing Automation". Census, Hightouch, Polytomic sind die führenden Tools.
- Composable CDP
- Ansatz, der das Warehouse (Snowflake, BigQuery) ins Zentrum stellt — statt eines Single-Vendor-CDP (Segment, mParticle) — und nur die nötigen Schichten (Audience, Real-Time-Activation, Identity-Resolution) draufsetzt. Hightouch + Census + RudderStack + Snowplow als typischer Composable-CDP-Stack.
- Operational Analytics
- Prinzip, dass analytische Insights nicht im Dashboard bleiben, sondern in operativen Systemen Action auslösen. "Dieser Nutzer ist seit 7 Tagen inaktiv" landet im Klaviyo-Win-Back-Flow, nicht in einer Chart. Business-Seite von Reverse ETL — moderne Form von "Actionable Analytics".
- Looker LookML
- Lookers YAML-artige Data-Modeling-DSL. Tabellen werden zu "Views", Beziehungen zu "Explores", Metriken zu "Measures"; SQL-generierender, code-zentrischer BI-Ansatz. Alle Analyst:innen sprechen eine Sprache, Version-Control + Git-Workflows funktionieren — die Lingua Franca moderner Data-Teams.
- Mode Analytics
- BI-Plattform, die SQL, Python-Notebooks und Dashboards in einem Produkt vereint (2023 von ThoughtSpot übernommen). Sweet Spot für Data-Analysten: SQL für Queries, Python für ML, dann teilbares Dashboard. Power-User-Pendant zu Tableaus GUI-only-Ansatz.
- Hex (Notebook BI)
- 2020 gegründete Analytics-Plattform, die SQL, Python und No-Code-Interactive-Apps an einem Ort vereint. Notebook-UI + Magic-AI + Shareable-App-Builder; gemeinsamer Raum für Data Scientists, Analyst:innen und Business-Stakeholder. Aufsteigender Star modernen hybriden BIs.
- Sigma Computing
- Moderne BI-Plattform, die ein Spreadsheet-artiges Interface auf Snowflake oder BigQuery setzt. Nutzer machen Excel-Style-Pivots, -Formeln und What-If-Analysen ohne SQL — aber die Engine bleibt Warehouse-nativ. Starker Looker-Konkurrent in Finance- und Ops-Teams.
- Streamlit
- Python-basiertes Open-Source-Framework, mit dem man eine interaktive Web-App in 100 Zeilen Script ausliefert (2022 von Snowflake übernommen). Default-Weg für Data Scientists, um Internal-Tools, Prototypen und ML-Demos zu shippen; Plotly Dash und Gradio als nahe Konkurrenten.
- Snowflake Streams & Tasks
- Snowflakes Duo aus Change-Data-Capture (Streams) und geplanter SQL-Ausführung (Tasks). Ein Stream stellt Inserts/Updates/Deletes einer Tabelle in eine Offset-basierte Queue, ein Task verarbeitet sie zyklisch. ELT-Pipelines bekommen Snowflake-native Automatisierung — ohne Airflow.
- dbt Tests
- Daten-Qualitäts-Assertions auf dbt-Models: not_null, unique, accepted_values, relationships, Custom-SQL. Laufen in der CI; validieren die Daten vor dem Model-Build. Test-Suite ist mit dbt-utils und Great-Expectations-Integration erweiterbar.
- dbt Snapshots
- dbt-native Implementierung von Slowly Changing Dimension Type 2. Für mutable Quelltabellen (z. B. orders.status ändert sich) bewahrt jeder Snapshot-Run Historie über dbt_valid_from/to-Spalten. Basis für Audit-Historie und "wie sah es am Datum X aus"-Queries.
- Materialization Strategy (Table / View / Incremental / Ephemeral)
- Wie ein dbt-Model im Warehouse gespeichert wird. View: günstig, rechnet bei jeder Query neu — für kleine Daten. Table: voller Rebuild — für klein bis mittel. Incremental: nur neue Zeilen — für große Daten. Ephemeral: als CTE inline, kein persistenter Output.
- SCD (Slowly Changing Dimension)
- Pattern, um die Historie langsam wandernder Dimensionen wie Customer, Product, Employee zu speichern. Type 1: nur aktueller Wert; Type 2: bei jeder Änderung neue Zeile + valid_from/to (Historie bleibt); Type 3: einzelne Previous-Value-Spalte. Mit modernem DWH + dbt-Snapshots ist SCD2 Default.
- Idempotent Pipeline
- ETL/ELT-Pipeline, die mit gleichem Input dasselbe Output liefert und bei Re-Run keine zusätzlichen Seiteneffekte erzeugt. Garantiert, dass Backfills, Retries und Late-Arriving Data den Datensatz nicht zerstören. Erreicht via MERGE, Primary-Key-Dedup, Transaktionen.
- Backfill Strategy
- Plan, eine Pipeline gegen historische Daten neu zu fahren. Datumsranges werden parametrisiert, Partitions in Batches neu berechnet; Idempotent-Pipeline + Atomic-Writes + Concurrency-Control sind Pflicht. Ein falscher Backfill ist Production-Datenverlust — vorher in Staging proben.
- dbt Layers (Staging / Intermediate / Marts)
- Empfohlenes 3-Schichten-Modeling-Muster eines dbt-Projekts. Staging: pro Quelle 1:1-bereinigte Tabelle (Rename, Cast, Dedup). Intermediate: Build-Blocks der Business-Logik. Marts: business-ready Dim-/Fact-Final-Layer. Liefert Konsistenz, Reuse und einen sauberen DAG.
- Source Freshness
- dbt-Feature, das überwacht, wann jede Source-Tabelle zuletzt aktualisiert wurde. "dbt source freshness" feuert Warning- und Error-Schwellen (z. B. 12 h Warn, 24 h Error) und fängt Stale Data, auch wenn die Pipeline lief. Operationaler Wachhund.
- OBT (One Big Table)
- Modeling-Alternative zum Star-Schema — alle Dimensions ins Fact denormalisieren und eine breite Tabelle mit 50-200+ Spalten erzeugen. In Columnar-DWHs wie Snowflake/BigQuery sind Joins teuer; OBT ist für Analyst:innen schneller und oft performanceoptimal.
- Cube.js
- Open-Source Headless-BI-Engine. Generiert SQL, cached, bietet REST/GraphQL-APIs und sitzt auf Snowflake, BigQuery oder Postgres. Erlaubt Frontend-Entwickler:innen, eigene Dashboards zu shippen; entwicklerfreundliche Alternative zu Tableau / Looker.
- Snowpark
- Snowflakes DataFrame-API für Python/Scala/Java. ML-Training, komplexe Transforms, UDFs und Stored Procedures laufen, ohne dass Daten das Warehouse verlassen. Modin + Pandas-on-Snowflake liefern Data-Scientists ein vertrautes Local-Feeling; moderne Bewegung Richtung Zero-Data-Movement.
- Polars
- In Rust geschriebene, multi-threaded, columnar (Arrow-basierte) DataFrame-Library. 5-30× schneller als Pandas, mit Lazy Evaluation und eingebauter Query-Optimization. Pandas-Ersatz moderner Analyst:innen; Bindings für Python, R, JS, Rust.
- DuckDB
- In-Process columnar OLAP-Datenbank — Analytics-Pendant zu SQLite mit MotherDuck als Cloud-Extension. Single File, Single Process; queryt Pandas-DataFrames oder Parquet direkt per SQL. Verdaut auf dem Laptop 1 Mrd. Zeilen in 30 Sek.; täglicher Begleiter moderner Analyst:innen.
- LLM Eval Harness
- Test-Framework, das die Leistung eines LLM über viele Aufgaben automatisch misst. Beispiele: HELM, lm-eval-harness, BigBench, HELM Lite — fahren Benchmarks wie MMLU, HumanEval, GSM8K, ARC. Pflicht-Infrastruktur für Model-Launch und Regression-Tests.
- Prompt Eval
- Test-Set, das die Qualität eines spezifischen Prompts systematisch misst. 50-500 Input × Expected-Output-Paare, automatisch gescored (LLM-as-Judge, BLEU, ROUGE, Exact Match). Pflicht, um Regressionen bei Prompt-Änderungen zu fangen; Tools: PromptLayer, Langfuse, Braintrust.
- Golden Dataset
- Manuell verifiziertes Test-Set, das als Ground-Truth dient. Eval-Harness-Inputs und Expected-Outputs leben hier; nach jedem LLM-Update wird gegen es gescored. Typisch 200-2.000 Beispiele, von Domain-Expert:innen geprüft.
- Faithfulness (RAG)
- Mass dafür, wie treu eine RAG-Antwort dem retrieved Context bleibt. Halluziniert das LLM außerhalb des Kontexts, sinkt Faithfulness; ein LLM-as-Judge prüft pro Satz "gibt es Belege im Kontext?". Kernmetrik in RAGAS und TruLens.
- Answer Relevance (RAG)
- Score, wie relevant die LLM-Antwort für die User-Query ist. Fängt korrekte, aber irrelevante Antworten — "Schönes Wetter heute, aber Paris ist die Hauptstadt von Paris". Gemessen via Cosine-Similarity (Answer-Embedding ↔ Query-Embedding) oder LLM-as-Judge.
- Context Precision / Recall (RAG)
- Zwei Metriken für Retrieval-Qualität in RAG. Precision: wie viele der retrieved Chunks waren wirklich relevant; Recall: wie viele der echten relevanten Chunks wurden geholt. Niedrige Precision = Noise, niedriger Recall = Informationsverlust. Automatisch messbar in RAGAS, ARES.
- Model Routing
- Smarte Schicht, die eine Frage je nach Schwierigkeit, Latenz oder Kostenbudget an unterschiedliche LLMs schickt. Einfache Fragen an Haiku / 3.5-mini, komplexe an Opus / 4.5. OpenRouter, Portkey, Martian bieten Routing-as-a-Service; senkt Durchschnittskosten 5-20×.
- Cascading Models
- Pipeline, in der erst ein kleines/günstiges Modell versucht; bei zu geringer Confidence oder Fail bei Validation wird zum großen/teureren Modell eskaliert. Fail-Over-Variante von Model-Routing; in echten LLM-Apps werden 80 % Traffic zu 20 % Kosten gelöst — ohne Qualitätsverlust.
- RAG Reranker
- Zweite Stufe, die die Top-50-Chunks aus dem Vector-Retrieval per LLM-as-Judge oder Cross-Encoder neu ordnet. Cohere Rerank, BGE-Reranker, Jina Reranker verbreitet; Precision +20-40 %, Retrieval-Faithfulness-Metric verbessert.
- Chunk Strategy
- Wie ein Dokument für RAG zerlegt wird. Optionen: Fixed-Size (z. B. 512 Token), Recursive-Character (Absatz/Satz), Semantic-Chunking (Embedding-basiert), Markdown-aware. Schlechte Chunks = niedrige Retrieval-Precision; Chunk-Size + Overlap treiben RAG-Qualität direkt.
- Embedding Drift
- Embedding-Verteilung echter User-Queries in Produktion wandert über die Zeit von der RAG-Korpus-Embedding-Verteilung weg. Neue Slang/Produkte/Begriffe erhöhen Drift, Retrieval-Recall sinkt. Lösung: Quartalsweise Embedding-Regeneration + New-Data-aware Reindex.
- HNSW Index (Hierarchical Navigable Small World)
- ANN-Indexalgorithmus (Approximate Nearest Neighbor), den die meisten Vector-DBs nutzen. Multi-Layer-Graph; Millisekunden-Latenz über Trillionen Embeddings. Default in Pinecone, Weaviate, Qdrant, Milvus, pgvector.
- ANN (Approximate Nearest Neighbor)
- Algorithmen-Klasse, die statt der exakten Nearest Vectors "gut-genug"-Ergebnisse liefert — Genauigkeit gegen Speed und Speicher tauscht. Beispiele: HNSW, IVF, PQ, ScaNN; bei 95 % Recall sinkt Latenz bis 1.000×. Motor von Vector-Search.
- Model Card
- 2019 von Google eingeführte Standardkarte, die Zweck, Training-Data, Performance, Grenzen, ethische Bedenken und Fair-Use-Szenarien eines AI-Modells dokumentiert. Bei Foundation-Model-Launches inzwischen Pflicht; Fundament transparenter AI-Entwicklung.
- AI Observability
- Plattform, die Produktions-LLM-Apps über Traces, Cost, Latenz und Quality-Metrics monitort. Tools: Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; jeder LLM-Call (Prompt, Response, Tokens, Cost, Eval-Score) wird geloggt. LLM-nativer Nachfolger des klassischen APM.
- Matchmaking (ELO / MMR)
- Algorithmus, der Spieler in PvP-Games nach Skill paart. Varianten: ELO (Schach-Erbe), Glicko, TrueSkill, MMR (Match-Making Rating). Trade-off: Smurf-Schutz für Neue gegen Skill-Relax für lange Queues; Kern von League of Legends, Valorant, Dota 2.
- ARPDAU (Average Revenue Per Daily Active User)
- Durchschnittsumsatz pro Daily Active User. Casual-Mobile-Games 0,05-0,20 $, Mid-Core 0,20-0,80 $, Hardcore-RPG 1 $+. Nordstern-Metrik für Live-Ops; mit pLTV gepaart Basis fürs Paid-Acquisition-Budget.
- Whales / Dolphins / Minnows
- Spend-Segmente in F2P-Games. Whales: Top-1 % mit 1.000 $+ Spend; Dolphins: 5-10 % mit 50-1.000 $; Minnows: 15-30 % mit 1-50 $; Free-Rider: 60-80 % nie zahlend. Pareto-Verteilung — Whales liefern 70 %+ Umsatz; sie zu verlieren ist tödlich.
- Scope 1 / Scope 2 / Scope 3 Emissions
- GHG-Protocol-Drei-Eimer-Klassifikation der CO2-Emissionen. Scope 1: direkte Emissionen (Fabrik-Boiler, Firmenfahrzeuge). Scope 2: eingekaufte Elektrizität/Wärme/Kühlung. Scope 3: Supply Chain + Produkt-Lifetime — meist größter Anteil 75-85 %. Skelett des ESG-Reportings.
- Carbon Footprint
- Gesamtsumme der Treibhausgas-Emissionen einer Person, eines Produkts, Unternehmens oder Events über den gesamten Lebenszyklus (in CO₂-Äquivalent). iPhone-Herstellung ~70 kg CO₂e; Transatlantik-Flug ~1,6 t. Im ESG-Reporting Summe von Scope 1 + 2 + 3.
- Carbon Offset
- Externe Projektinvestition zum Ausgleich emittierter Treibhausgase — Aufforstung, Renewables, Methane-Capture, Direct-Air-Capture. Voluntary Carbon Market 2024 ~2 Mrd. $; "Greenwashing"-Kritik stark; Verra, Gold Standard, ICVCM als Qualitäts-Stempel. Umstrittenes Instrument für Net-Zero.
- CDP (Carbon Disclosure Project)
- Globale Plattform, auf der Unternehmen Klima-, Wasser- und Wald-Emissionen standardisiert offenlegen. 2024 berichteten 24.000 Unternehmen und 1.100 Städte; A-D-Scoring erzeugt Druck von Institutional Investors und Customers. Apple, Microsoft, Unilever führen; Supply-Chain-Disclosure-Pflichten breiten sich schnell aus.
- ESG Reporting (Environmental, Social, Governance)
- Standardisierte Berichterstattung der Umwelt-, Sozial- und Governance-Performance eines Unternehmens. Globaler Schirm: CSRD (EU), SEC-Climate-Rule (USA), TCFD-Empfehlungen; Frameworks: SASB, GRI, CDP. Ab 2024 50.000+ EU-Unternehmen CSRD-pflichtig.
- CSRD (Corporate Sustainability Reporting Directive)
- EU-Richtlinie ab 2024, die 50.000+ Großunternehmen (Banken + Versicherer + 250+ MA + 40 Mio. €+ Umsatz) Sustainability-Reporting vorschreibt. Auf ESRS-Standards, mit Double-Materiality (Impact des Unternehmens auf Umwelt + Umwelt auf Unternehmen) + Third-Party-Assurance.
- Net Zero
- Ziel auf Unternehmens-/Länderebene, Emissionen auf Minimum zu reduzieren und den Rest über Offsets/Removals auszugleichen. SBTi (Science Based Targets) validieren das; globales Ziel 2050. Unterschied zu Carbon-Neutral: Net Zero ist strenger — entfernt den Rest, statt ihn nur zu kompensieren.
- Carbon Neutral vs Net Zero
- Carbon-Neutral: Emissionen via Offsets neutralisiert, echte Reduktion nicht erforderlich. Net Zero: zuerst aggressive Emissionsreduktion, dann Rest via Removals (nicht nur Offsets) neutralisiert. Microsoft 2030 Carbon Negative, Apple 2030 Net Zero, Google 2030 24/7-Carbon-Free-Energy.
- PUE (Power Usage Effectiveness)
- Stromeffizienz-Metrik eines Data Centers — Total Facility Power durch IT-Equipment-Power. Ideal 1,0; 2,0 bedeutet je IT-Einheit eine zusätzliche Cooling-/Lighting-Einheit. Hyperscaler (Google, AWS, Azure) im Schnitt 1,10-1,15; On-Prem-Enterprise-DCs 1,5-2,0. Schlüssel-KPI für Sustainability.
- Green Software Foundation
- Linux-Foundation-Projekt, gegründet von Microsoft, Accenture, GitHub, ThoughtWorks, das nachhaltige Software-Entwicklung standardisiert. Pflegt SCI-Standard (Software Carbon Intensity), Green-Software-Practitioner-Zertifizierung, Green-Software-Patterns-Katalog. Sustainability-Guide moderner Dev-Teams.
- SCI (Software Carbon Intensity)
- ISO/IEC-21031-Standard, der CO₂-Äquivalent-Emissionen pro funktionaler Software-Einheit misst. Formel: Energy × Region-Carbon-Intensity + Embodied Emissions. Standardantwort auf "wie viel CO₂ kostet dieser API-Call?" — Fundament moderner Green-Software-Metriken.
- Renewable Energy Credit (REC)
- Handelbares Zertifikat, das 1 MWh erneuerbare Energie repräsentiert. Statt Solar aufs Dach kauft eine Firma RECs und kann ihren Strom als erneuerbar reporten; in den USA Green-e, in Europa GO (Guarantee of Origin). Hauptinstrument der RE100-Commitments.
- PPA (Power Purchase Agreement)
- Direkter, langfristiger (10-25 Jahre) Fixpreis-Vertrag zum Kauf erneuerbarer Energie direkt vom Erzeuger. Rückgrat der Carbon-Free-Energy-Strategien von Hyperscalern wie Google, Amazon, Microsoft; globales Corporate-PPA-Volumen 2024 geschätzt > 50 GW.
- LCA (Life Cycle Assessment)
- ISO-14040-Methodik, die den gesamten Umweltimpact eines Produkts von Rohstoff → Produktion → Nutzung → End-of-Life quantifiziert. Scope: Cradle-to-Grave oder Cradle-to-Cradle. Apples "iPhone hat 70 kg Carbon Footprint" ist ein LCA-Output.
- Circular Economy
- Ökonomisches Modell, das das lineare "Produzieren-Nutzen-Wegwerfen" ablöst und Produkte von Anfang an wiederverwendbar, reparierbar, recyclebar designt. Pionier: Ellen MacArthur Foundation; IKEA Buyback, Patagonia Worn Wear, Apple Self-Service Repair als konkrete Beispiele.
- Greenwashing
- Wenn ein Unternehmen via Marketing "grüner" wirkt, als seine reale Emissions-Performance rechtfertigt. CMA (UK), FTC (USA), EU-CSRD regulieren Greenwashing nun rechtlich; Shell, BP, Volkswagen zahlten über Jahre Multi-Mio.-$-Strafen. Ethische rote Linie der Sustainability-Kommunikation.
- Carbon Border Adjustment Mechanism (CBAM)
- EU-"CO₂-Importsteuer", ab 2026 voll wirksam. Importeure von Stahl, Zement, Aluminium, Dünger, Wasserstoff, Strom in die EU zahlen den ETS-Preis, den die Güter bei EU-Produktion hätten zahlen müssen. Erste große Tarif-Reform, die Lieferketten emissionsbasiert neu ordnet.
- EPR (Extended Producer Responsibility)
- Regulierung, die Hersteller für End-of-Life-Abfall + Recycling-Kosten ihrer Produkte verantwortlich macht. Beispiele: EU-Verpackungsrichtlinie, FR LOM, DE VerpackG, Türkei Sıfır Atık. Hersteller von PET-Flaschen, Kleidung, Elektronik zahlt pro verkaufter Einheit Umweltabgabe.
- Sustainable Procurement
- Einbettung von Umwelt- und Sozialkriterien in die Beschaffungsentscheidungen eines Unternehmens. Lieferanten-Code-of-Conduct, EcoVadis-Sustainability-Rating, Recycled-Material-Anforderung, Fair-Trade-Zertifizierung. Großteil von Scope 3 entsteht hier; operatives Herz modernen CSRD-Reportings.
- TCFD (Task Force on Climate-related Financial Disclosures)
- 2017 vom G20 Financial Stability Board veröffentlichtes Framework, das Klima-Risiken und -Chancen in die Finanz-Berichterstattung integriert. Vier Säulen: Governance, Strategy, Risk Management, Metrics & Targets. UK-PRA, Neuseeland, Japan haben es verpflichtend gemacht. Klima-Bein des ESG-Reportings.
- SBTi (Science Based Targets initiative)
- Unabhängige Organisation, die Emissions-Reduktionsziele von Unternehmen gegen den 1,5 °C / Well-below-2 °C-Wissenschaftspfad des Paris-Abkommens validiert. 5.000+ Unternehmen validiert — Microsoft, IKEA, Unilever, Nike, Maersk u. a. Pflicht-Stempel hinter jedem glaubhaften Net-Zero-Claim.
- EV Charging Network (Tesla Supercharger / Ionity / Electrify America)
- Infrastruktur fürs schnelle Laden von E-Autos. Tesla Supercharger 50.000+ Stationen weltweit, NACS-Standard; Europa: Ionity (BMW + VW + Mercedes-Konsortium); USA: Electrify America. Ab 2024 öffnete Tesla NACS für andere EV-Marken; Standard-Konsolidierung beschleunigt.
- North Star Framework
- Von Sean Ellis + Amplitude populär gemacht: Framework, das die eine "Value-for-Customer"-Metrik eines Unternehmens definiert. Spotify "Time Spent Listening", Airbnb "Nights Booked", Slack "Messages Sent in Active Workspaces". Kompass aller Growth- und Produkt-Entscheidungen.
- Driver Tree
- Analyse, die eine Ziel-Metrik (z. B. Revenue) in ihre dahinterliegenden Treiber aufklappt. Naher Verwandter des KPI Trees, kausaler — strukturelle Antwort: "ARR erhöhen via neue Logos oder Expansion?". Klassisches Problem-Solving-Tool bei McKinsey + Bain.
- Executive Dashboard
- Ein-Seiten-Dashboard für C-Suite und Board mit 7-12 Top-Metriken. Business-Decision-Grade-KPIs: MRR, NRR, CAC, Magic Number, Runway, Rule of 40; Weekly-Review. Klassische Formate in Tableau Executive, Looker C-suite, Mode Reports.
- Operational Dashboard
- Dashboard für stündliche/tägliche operative Entscheidungen — Marketing-CPM-Trend, Support-Ticket-Queue, Ops-Order-Backlog. Real-Time oder Near-Real-Time-Refresh; Alerting + Pivot-Drill-Down Pflicht. Verbreitet: Looker Studio, Power BI, Grafana.
- Drill-Down
- Analyse-Verhalten, das per Klick von aggregierter Metrik in Details geht — "Total Revenue" → "by Region" → "by Product" → "by SKU" → "by Transaction". Signature-Self-Service-Analytics-Feature von OLAP-Cubes und modernen BI-Tools (Power BI, Tableau, Looker).
- Slice & Dice
- Multidimensionale Daten entlang verschiedener Dimensionen schneiden und betrachten. "Slice": eine Dimension fixieren, Rest analysieren; "Dice": zwei+ Dimensionen filtern und Subset bilden. Grundverhalten der Pivot-Table, aus OLAP-Cube-Terminologie übernommen.
- Pivot Table
- Excels 1993er-Erfindung — Drag-&-Drop multidimensionaler Daten als Rows, Columns, Values, Filter. Vorfahre modernen BIs; Tableau, Power BI, Looker, Hex tragen das Pivot-Table-Mental-Model ins UX. Lingua Franca der Datenanalyse.
- Funnel Visualization
- Conversion-Flow als schrittweise verengender Funnel-Chart — Awareness → Consideration → Purchase → Retention — um Drop-offs in jedem Schritt zu sehen. Mixpanel, Amplitude, Heap, GA4 mit nativen Funnel-Reports; Kern-Visual für CRO-, Produkt- und Marketing-Teams.
- Cohort Heatmap
- Matrix, die Cohort-Retention (Woche 0 → Woche N) per Farbintensität visualisiert. Y-Achse: Signup-Woche; X-Achse: Post-Signup-Woche; Farbe: Retention-Rate. Zeigt PMF, Onboarding-Qualität und Effekt aktueller Produkt-Changes auf einen Blick.
- Sankey Diagram
- Visualisierung, die Flüsse — User-Journeys, Energy-Flow, Conversion-Pfade — als proportional dicke Bänder zeigt. Ideal für Google-Analytics-Behavior-Flow, Churn-Analyse, Attribution-Journey. Mit d3.js, Plotly oder Power-BI-Sankey-Custom-Visual gebaut.
- Bullet Chart
- Von Stephen Few designt — minimaler Chart, der KPI-Ziel, Actual-Performance und Tier-Bands in einer horizontalen Zeile zeigt. Wesentlich lesbarer als Gauges/Speedometer. Klassiker auf Executive-Dashboards; Tableau + Power BI mit Custom-Visual-Support.
- Data Storytelling
- "Erzähl eine Story und untermauere sie mit Daten" — statt Zahlen + Charts an die Audience zu werfen. Cole Nussbaumer Knaflics "Storytelling with Data" ist das Manifest; schließt die "So-what?"-Lücke zu Entscheider:innen. Umsetzung: Tableau Story, Power BI Bookmarks, Notion-Narrative.
- Self-Service Analytics
- Modell, in dem Business-User eigene Queries + Dashboards bauen — ohne Analyst-Abhängigkeit. Looker LookML, Tableau Ask Data, Power BI Q&A, ThoughtSpot Search-Driven; Semantic-Layer + Data-Governance + Training Pflicht. "Demokratisierungs"-Ziel modernen BIs.
- Power BI
- BI-Plattform von Microsoft — tief im Excel-Ökosystem integriert, am häufigsten genutzte Enterprise-BI. Power Query (ETL), DAX (Formula Language), Power BI Service (Cloud + Collaboration). Mit Microsoft Fabric wachsen Data-Engineering- und AI-Copilot-Integration.
- Tableau
- "Visueller Goldstandard" des BI — stärkstes Drag-&-Drop-Tool für eindrucksvolle Charts. 2003 aus Stanford ausgegründet, 2019 von Salesforce für 15,7 Mrd. $ gekauft. Tableau Desktop + Server + Cloud noch flexibler + künstlerischer als Power BI.
- ThoughtSpot
- Pionier des Search-Driven BI — Nutzer:in tippt natürliche Sprache "show me revenue by region last quarter", Plattform baut SQL + Chart. SpotIQ liefert ML-Auto-Insights — vorne in AI-Augmented BI. 2023 Mode Analytics für 200 Mio. $ übernommen.
- Microsoft Fabric
- 2023 von Microsoft gelauncht — Analytics-Plattform, die Power BI, Synapse, Data Factory, Real-Time-Analytics und Copilot in einem SaaS bündelt. OneLake zielt auf "Lakehouse for the masses"; direkter Konkurrent zu Snowflake + Databricks.
- Real-Time Dashboard
- Dashboard, das in Sekunden refresht und "was passiert gerade" zeigt. WebSocket + Streaming-SQL + Push-Notification-Combo. Trading-Plattformen, Gaming-Live-Ops, Real-Time-Support-Queue, IoT-Device-Monitoring. Stacks: Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
- Embedded Analytics
- BI-Dashboards direkt in einer SaaS-App zeigen. Sigma, Mode, Looker Embedded, Cube + Custom-React-Frontend. Infrastruktur jeder App, die Customer-spezifische Daten ausspielt (Shopify Analytics, Stripe Sigma, HubSpot Reports); moderne PLG-Funktion.
- Slowly Refreshed Dashboard (Daily / Weekly)
- Dashboard ohne Real-Time-Bedarf, refresht nach Daily/Weekly-Batch-ETL — Marketing-Weekly-Review, Finance-Month-End-Close, Retention-Cohort-Report. Richtig wegen Cost-Savings + Analytical-Simplicity; Klassiker gegen "Premature-Real-Time"-Anti-Pattern.
- Anomaly Alerting
- Alert, der feuert, wenn eine Metrik statistisch von Saisonal-Pattern + Trend abweicht. Prophet, Datadog Watchdog, Anodot, MonteCarlo, Sigma Anomaly Detection; ML-gesteuerte Dynamic-Alerts statt manueller Schwellen. Kernfähigkeit moderner Data-Observability.
- Forecasting (Prophet / SARIMA / LSTM)
- Zukunftswerte aus Historie vorhersagen. Tools: Prophet (Meta, business-freundlich + Saisonalität), SARIMA (klassische Statistik), LSTM/Transformer (Deep Learning), Darts-Library. Kern-ML-Bereich für Sales-Forecasting, Demand-Planning, Capacity-Planning.
- Data Catalog (Atlan / Alation / Collibra)
- Plattform, die alle Daten-Assets — Tables, Dashboards, ML-Modelle, Metriken — discoverable + dokumentiert macht. Lineage, Tags, Business-Glossar, Data-Quality, Ownership in einem Interface. Die "Wikipedia" moderner Data-Teams.
- AI-Powered BI (Copilot / Sigma AI / Tableau Pulse)
- Next-Gen-BI-Features: Natural-Language-Query, Auto-Insights, Chart-Narrative-Erklärungen. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI, ThoughtSpot Sage; "Why did revenue drop last week?" mit Auto-Root-Cause; Analyst-Rolle wandelt sich.
- Edge AI
- AI-Modelle auf dem Gerät laufen lassen — Phone, Kamera, Drohne, IoT-Sensor — statt in der Cloud. Niedrige Latenz, Privacy, Offline-Betrieb; braucht quantisiertes Modell + NPU + Runtime. Self-Driving-Cars, AR/VR, Smart Cameras.
- TinyML
- ML-Modelle, klein genug, auf MCUs mit Kilobyte-RAM zu laufen. TensorFlow Lite Micro, Edge Impulse, Arduino Nano 33 BLE Sense; Keyword-Spotting, Motion-Detection, Anomaly-Detection. Jahrelange AI-Erfahrung auf batteriebetriebenen IoT-Geräten.
- Digital Twin
- Virtueller Zwilling eines physischen Objekts — Jet-Engine, Fabrik, Stadt, menschlicher Körper — in Echtzeit per Sensordaten synchronisiert. Simulation + Monitoring + Predictive-Maintenance. Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins, Bentley iTwin führen.
- People Analytics
- Disziplin, die ML + Statistik auf Mitarbeiter-Daten anwendet. Attrition-Prediction, Hiring-Quality, Manager-Effectiveness, DEI-Gap-Analyse, Sentiment-Trend. Visier, ChartHop, Lattice, Culture Amp + Workday Adaptive Planning; Data-Driven-Bein der HR.
- eNPS (Employee Net Promoter Score)
- NPS-Score für "Würdest du dieses Unternehmen als Arbeitsplatz weiterempfehlen?". -100 bis +100; >+30 gut, >+50 excellent. Annual Survey + Quarterly Pulse via Culture Amp, Officevibe, 15Five, Lattice. Single-Question-Thermometer des Engagements.
- Pulse Survey
- Moderner Nachfolger der Annual Engagement Survey — kurze 5-10-Fragen-Umfrage, wöchentlich oder zweiwöchentlich. Real-Time-Engagement-Puls, fließt direkt ins Manager-Dashboard. Tools: Officevibe, 15Five, Lattice, Culture Amp; agile + actionable gegenüber klassischer 80-Fragen-Annual.
- EHR (Electronic Health Record)
- Digitaler + teilbarer Datensatz der Patientengesundheit — Medical-History, Labor, Imaging, Rezept. USA: Epic + Cerner 85 %+ Marktanteil; Europa: DocPlanner, Doctolib; Türkei: e-Nabız + MEDULA. Interoperability + Privacy (HIPAA, GDPR, KVKK) als Kernthemen.
- ClimateTech
- Tech-Lösungen für die Klimakrise (Mitigation + Adaptation). Carbon-Capture (Climeworks DAC), Green-Hydrogen, Fusion (Commonwealth Fusion, Helion), Grid-Scale-Battery (Form Energy), Climate-Risk-Modeling (Jupiter). 2024 globales ClimateTech-Investment 40 Mrd. $+; Sequoia, Lowercarbon, Breakthrough Energy als führende Fonds.
- Carbon Capture (DAC / CCS)
- Technologie, die CO₂ aus der Atmosphäre oder direkt aus Industrie-Rauchgas einfängt. Direct Air Capture (Climeworks Orca, Carbon Engineering), Carbon Capture & Storage (CCS) für Fabrik-Abluft. Kosten 300-1.000 $/Tonne; Frontiers 1-Mrd.-$-Advance-Market-Commitment will das auf 100 $ drücken.
— SCHNELLDIAGNOSE
Sind Sie bereit für Analytics-Operations?
Ein interaktiver Wegweiser mit vier Fragen, der Ihnen die passende Programmstufe zeigt. Mit Ja/Nein-Antworten in 30 Sekunden zum Ergebnis.
01 / 04
Haben Sie derzeit mehr als 10 aktive Dashboards oder Excel-Reports?
Dashboard-Flut ist eines der klassischen Symptome fehlender Entscheidungen.
— LET'S BEGIN
Lösen Ihre Dashboards Entscheidungen aus oder sind sie nur Dekoration?
Ein 60-minütiges Analytics-Diagnostic: Ihr aktuelles KPI-Inventar, Dashboard-Dependency-Graph, Gesundheit der Datenquellen und 90-Tage-Roadmap-Empfehlung — auf einer Fläche.