ENTSCHEIDUNGSORIENTIERTE ANALYTIK

Datenanalyse & Insight Engineering

Wir verbinden Marketingdaten nicht mit Dashboards, sondern mit Entscheidungsmechanismen. KPI-Tree, dbt-Modellierung, Bayesian MMM, incrementality-Tests und Self-Serve-Analytics — keine Mess-, sondern eine Handlungsinfrastruktur.

Analytik ist kein 'Dashboard-Bauen'; sie ist ein Betriebssystem, in dem jede Grafik unmittelbar eine Entscheidung auslöst.

Die meisten Unternehmen ertrinken in 40+ Dashboards, erhalten aber auf dieselbe Frage fünf verschiedene Antworten aus fünf Quellen. KPIs werden diskutiert, Entscheidungen verschoben, der HiPPO gewinnt. Die Analytics-Operations von Roibase bauen auf sechs Prinzipien, die diese Unsicherheit beseitigen; jedes Prinzip produziert keine Dashboards, sondern Entscheidungen.

Roibase perspective

METHODIK

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Die sechs Schichten der Analytics-Operations; jede liefert ein eigenes Artefakt und speist aufeinander aufbauend den Entscheidungs-Loop.

01

DIAGNOSE

Entscheidungsinventar + Fragekatalog

Die 30 Fragen, die Entscheider wöchentlich stellen, werden aufgelistet; Antwortquelle, Frequenz, SLA und Wirkung werden geklärt.

02

MODEL

KPI-Tree + Datenmodell

dbt-Modelle + LookML oder Metabase-semantic-Layer; versioniert, testbar, dokumentiert.

03

BUILD

Dashboard + Alert-System

Dashboards nach Entscheidungsgruppe (CAC, retention, Revenue Quality); Schwellwert-Alerts + Trigger-Vorlagen.

04

AUTOMATE

Pipeline + Refresh + Monitoring

Refresh-Orchestrierung mit Airflow / Dagster / dbt Cloud; Pipeline Health + Data-Quality-Tests + Slack-Bot.

05

VALIDATE

A/B-Test + incrementality + MMM Validation

Die Modellausgaben werden mit Experimenten abgeglichen; Kalibrierung durch incrementality-Test + MMM-Scenario-Simulation.

06

EDUCATE

Data Council + Self-Serve-Training

Monatliches Data-Council-Meeting: Welche Frage blieb unbeantwortet, welches Dashboard wurde nicht genutzt, welches Self-Serve-Training ist nötig.

— VERGLEICH

Worin liegt unser Unterschied? Klassische BI vs. entscheidungsorientierte Analytik

Ein Unternehmen mag 100 Dashboards für 'Analytics' halten. Der eigentliche Wert entsteht erst, wenn jedes Dashboard an eine Entscheidung und jede Entscheidung an eine Aktion gebunden ist.

DimensionIn-house BI alleinKlassische Reporting-AgenturRoibase entscheidungsorientierte Analytik
KPI-DefinitionZwischen Bereichen uneinheitlichVorlage der AgenturKPI-Tree + schriftliches Ownership
Dashboard-PhilosophieGrafikflutQuarterly-PPT-fokussiertJede Grafik eine Entscheidung
DatenmodellierungsschichtAd-hoc SQL + ExcelPlattform-internes Reportingdbt + versioniert + getestet
Cohort- + LTV-EngineeringAuf Durchschnittsmetriken beschränktNicht im ReportD1-D90 + Segment + LTV-Kurve
MMM + incrementalityNicht vorhandenExcel-basierter VersuchBayesian MMM + Geo-Holdout
Anomalie-/Alert-SystemManuelle KontrolleNicht vorhandenML-Drift-Detector + Slack/E-Mail
Self-Serve-KulturData-Team-BottleneckReport-getriebenFachbereich fragt selbst
Governance + PIIKeine RichtlinieKein BewusstseinPII-Tagging + Retention + Audit

PROOF

Outcomes, measured

30
Entscheidungsfragen

Anzahl strategischer Fragen, die im ersten Sprint beantwortbar werden.

−40 %
Reporting-Zeitersparnis

Zurückgewonnene Stunden des Marketing-Teams bei manueller Dashboard-Vorbereitung.

3
MMM-Refresh/Jahr

Erneuerungsrhythmus je nach Saison- + Kanal-Mix-Änderungen.

18-24
Monate historic horizon

Minimal erforderlicher täglicher Datenzeitraum für MMM + Forecast.

99,2 %
Pipeline-Uptime

SLA aus dbt + Airflow + Monitoring; Data-Quality-Tests inklusive.

5 Tage
Dashboard-Publish-Dauer

Durchschnittliche Zeit vom Brief bis zum Live-Gang eines neuen Entscheidungs-Panels.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

KPI-Tree-Architektur

Jede Marketing-Metrik wird direkt an ein Geschäftsergebnis gekoppelt; jede Metrik hat einen Owner, eine Quelle, einen Schwellenwert und eine ausgelöste Entscheidung.

02 / 10

Decision-Tree-Dashboards

Keine Grafiken, sondern Entscheidungen: Panels nach der Logik 'Bei dieser Schwelle diese Aktion' designt; jedes Panel für eine Rolle, in einer Frequenz.

03 / 10

dbt + warehouse + BI-Layer

Mit dbt versionierte + testbare Datenmodelle; auf BigQuery / Snowflake / Redshift; mit LookML-/Metabase-/Lightdash-Oberfläche.

04 / 10

Cohort- & Retention-Engineering

D1/D7/D30/D90-cohort-Tabellen, LTV-Kurven, segmentbasierte churn- und resurrection-Analyse — echtes Verhalten unter dem Durchschnitt.

05 / 10

Bayesian MMM

Media-, Promo-, Saison- und Makrovariablen werden gemeinsam modelliert; Robyn + PyMC; quartalsweise refresh + confidence band.

06 / 10

Attributionsmodellierung

Ansätze GA4 DDA + Multi-Touch-Attribution + Shapley Value; Entscheidungsmodell jenseits des Plattform-Bias im Reporting.

07 / 10

Incrementality Testing

Geo-holdout + matched-market-Tests; Meta Lift, GeoLift, in-house framework; Referenzgenauigkeit für Budgetentscheidungen.

08 / 10

Anomalieerkennung

ML-basierter Drift-Detector + Forecast-Band + Slack/E-Mail-Alert für schleichend verschlechterte Metriken; stündlich, nicht am nächsten Morgen.

09 / 10

Self-Serve-Analytics

Eine Umgebung, in der Fachbereiche ihre Fragen selbst beantworten (Metabase, Lightdash, Hex) + Training + Mentoring.

10 / 10

Data governance

PII-Tagging, schema registry, Retention-Richtlinie, Datenzugriffs-Audit, Dokumentenpaket; KVKK- + DSGVO-konformer Betrieb.

— ERGEBNIS

Die Wirkung von Data-Operations auf der Entscheidungsseite

Je schneller, datenbasierter und wiederholbarer die Entscheidungen einer Organisation sind, desto weiter ist sie unter unvorhersehbaren Marktbedingungen voraus.

3× Geschwindigkeit

Entscheidungsgeschwindigkeit

Die Antwort aller 30 strategischen Fragen steht im Panel; im Meeting wird keine Zahl mehr diskutiert, sondern die Handlung.

Data-driven

HiPPO-Reduktion

Nicht die Meinung der bestbezahlten Person, sondern die Daten lösen die Entscheidung aus; die Diskussion ist metrikreferenziert.

−40 % Stunden

Reporting-Zeitersparnis

Die manuellen Excel-Routinen des Marketing-Teams entfallen; die gewonnenen Stunden fließen in strategische Analysen.

Stunden statt Tage

Frühwarnung + Aktion

Mit ML-Drift-Detector + Schwellwert-Alert-System werden sich verschlechternde Metriken innerhalb von Stunden erkannt.

50+ Self-Serve-User

Self-Serve-Kultur

Der Fachbereich beantwortet seine Fragen selbst, ohne auf das Data-Team zu warten; das Data-Team konzentriert sich auf strategische Arbeit.

±8 % Genauigkeit

MMM + Forecast-Genauigkeit

Durch Bayesian MMM + incrementality-Kalibrierung liegt die Forecast-Abweichung im Band von ±8 %; Budgetentscheidungen sind verlässlich.

LIEFERUMFANG

Monatliche + quartalsweise Outputs

Die konkreten Artefakte der Analytics-Operations; jedes wird an Ihr Team übergeben und läuft ab dem 12. Monat als vollständiges runbook autonom.

  • Entscheidungsinventar + 30-Fragen-Katalog

    Liste der Fragen, die Entscheider wöchentlich stellen, Antwortquelle, SLA und Lücken in den erforderlichen Daten.

  • KPI-Tree

    Quelle, Owner, Schwellenwert und ausgelöste Entscheidung jeder Metrik — ein einziges Miro-/FigJam-Board, versioniert.

  • dbt-Repo + Modelle

    Versioniertes + testbares dbt-Projekt; Staging-/Intermediate-/Marts-Schicht, Dokumentation inklusive.

  • Semantic Layer (LookML / Metabase Models)

    Die gemeinsame Schicht der Metric Definitions hinter den vom Fachbereich gestellten Fragen.

  • Dashboard-Paket

    Erste 15-25 Panels nach Entscheidungsgruppen (CAC, retention, Revenue Quality); jedes nach Rolle + Frequenz.

  • Schwellwert-Alert-System

    ML-Drift-Detector + Forecast-Band + Slack-/E-Mail-Integration; sich verschlechternde Metriken lösen innerhalb von Stunden einen Alarm aus.

  • Cohort- + Retention-Report

    D1-/D7-/D30-/D90-Tabellen + LTV-Kurven + Churn-Segment-Analyse + Resurrection-Rate.

  • MMM-Modell + Report

    Bayesian MMM (Robyn/PyMC); Kanal-Contribution + Saturation + Adstock + confidence band.

  • Incrementality-Test-Protokoll

    Geo-Holdout- und Matched-Market-Test-framework; Vorlagen für Planung + Durchführung + Analyse.

  • Data-Governance-Runbook

    PII-Tagging, schema registry, Retention-Richtlinie, Zugriffs-Audit — KVKK- + DSGVO-konform.

  • Monatliche Data-Council-Zusammenfassung

    Welche Frage wurde beantwortet, welche steht noch aus, welches Dashboard wurde genutzt, Prioritätenliste für den Folgemonat.

  • Self-Serve-Schulungsmaterial

    Metabase-/Lightdash-/Hex-Trainingsvideos für den Fachbereich + SQL-/Jargon-Glossar + Practice-Datensatz.

— LEISTUNGSUMFANG

Was ist enthalten, was nicht?

Die Grenzen der Analytics-Operations sind klar. Ein vorab sichtbarer Scope verhindert falsche Erwartungen und scope creep.

Leistungen dieses Services

  • Entscheidungsinventar + erster Sprint mit 30 Fragen
  • KPI-Tree + schriftliches Ownership + versioniertes Dokument
  • dbt-Repo-Setup + Staging/Intermediate/Marts-Schichten
  • Warehouse-Integration (BigQuery / Snowflake / Redshift / Databricks)
  • LookML oder Metabase semantic layer
  • Erste 15-25 Dashboards + quartalsweise Ergänzungen
  • ML-basierte Anomaly Detection + Schwellwert-Alert-System
  • Cohort- + LTV- + Retention-Analytik — quartalsweises Update
  • Bayesian MMM (3 Refreshes pro Jahr)
  • Incrementality-Test-Protokoll + Durchführung
  • Data-Governance-Runbook (PII, Retention, Audit)
  • Monatliches Data Council + Self-Serve-Schulungsablauf

Nicht enthaltene Leistungen (optionaler Zusatz)

  • Finanz-/Buchhaltungs-BI (ERP-Seite separate Beratung)
  • Warehouse-Compute / Lizenzkosten (Kundenvertrag)
  • Custom-ML-Model-Training (außerhalb Forecasting)
  • Real-Time-Streaming-Infrastruktur (Kafka, Kinesis — separater Scope)
  • Data-Privacy-/Rechtsberatung (mit Partneranwalt)
  • Lizenzerneuerungen für BI-Tools
  • Third-party-Datenkauf (Panel, Survey)
  • Marketing-Operations selbst (PPC / SEO / CRO separater Service)

HOW WE WORK

Ablauf: Analytics-Operations von Woche 1 Diagnose bis Monat 6+ Governance

01

Woche 1-2 — Entscheidungsinventar + Audit

Liste der 30 strategischen Fragen, Inventar der bestehenden Dashboards, Gesundheit der Datenquellen und SLA-Diagnose.

02

Woche 3 — KPI-Tree + Schema

Schriftlicher KPI-Tree, Metric Definitions, Ownership; Entscheidung über warehouse-Schema + Staging-Schicht.

03

Woche 4-5 — dbt-Modelle + erstes Dashboard

dbt Staging + Intermediate + Marts; Veröffentlichung der ersten 5-8 Dashboards; Stakeholder-Review.

04

Woche 6-8 — Alert + cohort + Refresh

Schwellwert-Alert-System, Cohort- + Retention-Reports, dbt-Cloud-/Airflow-Refresh-Pipeline.

05

Monat 3 — MMM-Training + erstes Ergebnis

Bayesian MMM mit 18-monatiger Historie; Kanal-Contribution + Saturation + erste Budgetrevisions-Empfehlung.

06

Monat 4 — Incrementality-Test-Protokoll

Geo-Holdout- oder Matched-Market-framework; erster Test live, Ergebnis nach 4-6 Wochen.

07

Monat 5 — Data Council + Self-Serve-Training

Monatliche Data-Council-Routine startet; Self-Serve-Schulungsablauf mit Metabase / Lightdash für den Fachbereich.

08

Monat 6+ — Quartalsweiser Refresh + Governance

Quartalsweiser MMM-Refresh, Incrementality-Test-Cycle, Data-Governance-Audit; im 12. Monat ist die vollständige Übergabe möglich.

— TOOL-STACK

Analytics-Stack vom warehouse bis zur BI

Wir arbeiten tool-agnostisch; aber in jeder Schicht gibt es klare Tool-Empfehlungen, die den meisten Mehrwert schaffen. Wir passen uns Ihrem bestehenden Stack an.

WAREHOUSE

BigQuery (wirtschaftlich, on-demand)Snowflake (Enterprise, getrennter Compute)Redshift (im AWS-Stack)Databricks (ML-lastiger Einsatz)Postgres (kleine-mittlere Größe)

MODELLIERUNG & TRANSFORM

dbt (core + cloud)Dataform (GCP native)Coalesce (visual)Airflow / Dagster (orchestration)Fivetran / Stitch / Airbyte (ingestion)

BI & VISUAL

Looker (LookML semantic layer)Metabase (self-hosted self-serve)Lightdash (dbt-native BI)Tableau (Enterprise)Hex / Mode (notebook-driven)Looker Studio (Quick-Win)

ML & MMM

Robyn (Meta Open-Source MMM)PyMC / Pyro (Bayesian-Modellierung)scikit-learn (Drift Detection)Prophet (Forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (Data Quality)

QUESTIONS

Frequently asked

Für manche Unternehmen reicht es; bei unter 10 Dashboards, ohne Cross-Table-Join-Bedarf und bei Ein-Kanal-Operationen ist Looker Studio eine praktische Lösung. Sobald 30+ Dashboards, ein versioniertes Datenmodell und rollenbasierter Zugriff nötig sind, braucht es Looker / Metabase / Lightdash.

— GLOSSAR

Terminologie der Analytik

Wenn derselbe Begriff zwischen Teams dasselbe bedeutet, beschleunigt die Diskussion die Entscheidung; wenn nicht, beschleunigt sich nur der Zweifel.

01
KPI Tree
Eine hierarchische Baumstruktur von Metriken, die sich vom Kernergebnis eines Geschäfts nach unten verzweigt; jeder Knoten ist ein Entscheidungsauslöser.
02
dbt
Data build tool — SQL-basiertes, versioniertes, testbares framework für Datentransformation; der Standard des Analytics Engineering.
03
Semantic Layer
Die Schicht gemeinsamer Metric Definitions + Business Logic hinter dem BI-Tool; mit Tools wie LookML, Metabase Models, Cube.
04
Cohort
Eine Gruppe von Nutzern mit einem gemeinsamen Merkmal (Registrierungsdatum, acquisition-Kanal); ihr Verhalten wird über die Zeit analysiert.
05
LTV (Lifetime Value)
Der gesamte lebenslange Wert eines Kunden; Gross Margin × Retention × Bestellhäufigkeit × Warenkorbwert.
06
Retention
Anteil gewonnener Nutzer, die in einem definierten Zeitfenster (D1, D7, D30, M1, M3) noch aktiv sind. In SaaS und Mobile Games ein direkter Indikator für Product-Market-Fit; eine Kohorten-Kurve, die abflacht, ist die Signatur eines gesunden Produkts.
07
Churn
Anteil der Nutzer, die in einem definierten Zeitfenster die aktive Kundenbasis verlassen. Im Subscription-Geschäft trifft Churn die MRR direkt; im E-Commerce ist er das Gegenteil der Repeat Rate. Voluntary (gekündigt) vs. involuntary (Zahlungsproblem); Senkung über Onboarding, Pricing und Lifecycle-Kommunikation.
08
MMM (Marketing Mix Modeling)
Ein Modell mit Bayesian-Statistik, das Kanal-Contribution schätzt; erfordert 18-24 Monate historische Daten.
09
Incrementality
Die zusätzlichen Conversions, die ohne einen Kanal nicht entstanden wären; gemessen mit Geo-Holdout-Tests, attributionsunabhängig.
10
Anomaly Detection
Sammelbegriff für Techniken, die in Zeitreihen-Metriken (KPI, Conversion, Latency, Fraud-Signal) automatisch Werte außerhalb des Erwartungsbereichs markieren. Eingesetzt: STL-Zerlegung, Prophet, Isolation Forest, neuronale OoD-Modelle; Hirn hinter Alerting und Observability-Dashboards.
11
Self-Serve Analytics
Eine Analytics-Umgebung, in der Fachbereiche ohne Data-Team ihre eigenen Fragen beantworten können; mit Metabase, Lightdash, Hex.
12
Data Governance
Die Gesamtheit aus Datenqualität, Zugriffskontrolle, PII-Management, Retention und Audit-Richtlinien; KVKK-/DSGVO-konform.
13
ETL / ELT
Extract → Transform → Load (alt) vs. Extract → Load → Transform (modern). Ansätze, Daten von der Quelle ins Warehouse zu bringen. ELT setzt auf günstige Cloud-DW-Compute; dbt + BigQuery/Snowflake/Databricks ist heute der Standard.
14
Data Lake
Zentraler Speicher für strukturierte und unstrukturierte Daten (Logs, Bilder, Video, Raw Events) ohne erzwungenes Schema. Auf S3, GCS oder ADLS mit Parquet/Iceberg/Delta Lake; ergänzt das Warehouse und bildet die Basis der Lakehouse-Architektur.
15
Stream Processing
Daten nicht in Batches, sondern als Echtzeit-Event-Strom verarbeiten. Übliche Stacks: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; Use Cases: Fraud Detection, Echtzeit-Personalisierung, IoT-Telemetrie, Anomaly Alerting.
16
Data Contract
Vorab vereinbarter Vertrag zwischen Datenproduzenten und -konsumenten zu Schema, Semantik, SLA und Ownership. Umgesetzt mit dbt + Great Expectations + JSON Schema; die zuverlässigste Mauer gegen die "Downstream-Modell ist kaputt"-Überraschung.
17
LLM (Large Language Model)
Allzweck-Sprachmodell mit Milliarden Transformer-Parametern, vortrainiert auf riesigen Textkorpora. GPT-5, Claude, Gemini, Llama; das Arbeitstier für Chat, Code, Summarisation, Übersetzung, Retrieval und Agent-Tasks — Spezialisierung via Fine-Tuning oder Prompt Engineering.
18
Transformer
Neuronale-Netz-Architektur aus "Attention Is All You Need" (2017), die Long-Range-Beziehungen in sequenziellen Daten per Self-Attention erfasst. Nachfolger von RNN und LSTM; Substrat jedes modernen LLM (GPT, Claude, Llama, Gemini) und auch Vision-Modelle (ViT).
19
Embedding
Hochdimensionale Vektor-Repräsentation eines Wortes, Satzes, Bildes oder Nutzers — semantische Ähnlichkeit über Vektor-Nähe messbar. Gemeinsame Währung für Recommendation, Semantic Search, RAG, Clustering und Anomaly Detection; OpenAI ada, Cohere, sentence-BERT als Erzeuger.
20
RAG (Retrieval-Augmented Generation)
Architektur, in der das LLM vor der Antwort relevante Dokumente aus einer externen Wissensbasis (Vector DB, Doc Store) holt und in den Kontext injiziert. Reduziert Halluzinationen und ist der Standardweg, dem Modell aktuelle/private Daten als "Open-Book" zu geben — Triple aus Embedding + Retriever + LLM.
21
Vector Database
Datenbank, die Embeddings im hochdimensionalen Vektor-Raum speichert und mit ANN-Algorithmen (Approximate Nearest Neighbor) in Millisekunden ähnliche Vektoren findet. Pinecone, Weaviate, Qdrant, pgvector, Chroma; der eigentliche Motor der Retrieval-Schicht im RAG.
22
Fine-tuning
Prozess, ein vortrainiertes Foundation-Model mit zusätzlichen (meist kleinen) gelabelten Daten für eine spezifische Aufgabe oder Domain neu zu trainieren. Full Fine-Tune, LoRA/QLoRA und Instruction-Tuning sind die üblichen Varianten; Basis für "Custom Assistant"-Use-Cases auf ChatGPT & Co.
23
LoRA (Low-Rank Adaptation)
Parameter-effiziente Fine-Tuning-Technik, die kleine "Adapter"-Matrizen einfügt statt alle Foundation-Model-Gewichte zu aktualisieren. Trainiert ~0,1-1 % der Parameter, senkt GPU-Speicher um 70 %+; Per-Task-Adapter-Swap macht Multi-Task-Serving praktikabel.
24
RLHF (Reinforcement Learning from Human Feedback)
Letzte Stufe der LLM-Trainings-Pipeline, die die Outputs des Modells an Präferenzen menschlicher Rater ausrichtet. Reward-Model + PPO/DPO-Algorithmus lenkt das Modell zu "hilfreich, ehrlich, harmlos"; Basis des ChatGPT-Alignments.
25
Hallucination
Wenn ein LLM eine nicht existierende Quelle, ein Faktum oder Zitat selbstbewusst erfindet. Entsteht, wenn das Modell auf Fragen außerhalb seiner Trainings-Datenverteilung mit derselben Sicherheit antwortet wie auf In-Distribution-Fragen; gemildert durch RAG, Citation Grounding und Self-Consistency-Checks — nie vollständig eliminiert.
26
Prompt Engineering
Disziplin, den Prompt (Instruction + Kontext + Beispiele + Format) systematisch so zu designen, dass das LLM die gewünschte Ausgabe liefert. Few-Shot, Chain-of-Thought, Role Assignment, Output-Schema, System-Prompt; die "Wie spricht man damit"-Schicht jeder Production-AI-App.
27
Context Window
Anzahl Tokens (Input + Output), die ein LLM in einem Call verarbeiten kann. Reicht von 8K-128K (GPT-4) über 200K (Claude) bis 1M+ (Gemini); entscheidende Kapazität für Langdokument-Analyse, Multi-Turn-Konversation und Agent-State — RAG ist die alternative Methode, Kontext zu "erweitern".
28
Function Calling / Tool Use
Fähigkeit des LLM, eine externe Funktion (API, DB-Query, Code-Runner) per strukturiertem JSON aufzurufen statt freien Text zu produzieren. OpenAI tools, Anthropic tool_use; das offizielle Protokoll, mit dem Agents in die reale Welt greifen.
29
AI Agent
Software-Konstrukt, das ein LLM als Decision-Engine nutzt und Multi-Step-Aufgaben über Tool Calling + Memory + Plan-Execute-Loop autonom abarbeitet. ReAct, AutoGPT, Claude/GPT Agents, LangGraph; die "Recherchieren → Planen → Tools ausführen → Ziel erreichen"-Architektur.
30
Foundation Model
Großes Modell, vortrainiert auf breiten, diversen Internet-Skala-Daten, transferierbar auf Downstream-Tasks — LLMs, Vision-Modelle (CLIP, ViT), multimodale Modelle (GPT-4o, Gemini). Anwendungen entstehen darauf über Fine-Tuning, Prompt Engineering oder RAG.
31
Multimodal AI
KI-System, in dem dasselbe Modell mehrere Modalitäten versteht und erzeugt — Text + Bild + Audio + Video. GPT-4o, Gemini, Claude 3.5 Vision; Substrat für Cross-Modal-Use-Cases wie OCR, Image Captioning, Video Q&A, Audio-Transkription und Screen-aware Agents.
32
NLP (Natural Language Processing)
KI-Teildisziplin rund um die Fähigkeit eines Computers, natürliche Sprache (Türkisch, Englisch usw.) zu verstehen, zu generieren und zu transformieren. Tokenization, POS-Tagging, NER, Sentiment-Analyse, Maschinen-Übersetzung; LLMs sind heute die stärksten Allzweck-Tools in diesem Feld.
33
Token
Kleinste Texteinheit, die ein LLM verarbeitet — kann ein Wort, Wortteil oder einzelnes Zeichen sein. Ein Tokenizer (BPE, WordPiece, SentencePiece) wandelt Text in Tokens um; OpenAI-Preise + Context-Window-Limits werden in Tokens gerechnet (1 englisches Wort ≈ 1,3 Tokens).
34
Temperature
Parameter, der die "Zufälligkeit" der LLM-Output-Verteilung steuert — 0 = immer das wahrscheinlichste Token (deterministisch), 1+ = kreativer/diverser. Übliche Werte: 0-0,3 für Code/JSON/Zahlen, 0,7-1,2 für Story/Brainstorm; zusammen mit top_p justiert.
35
Semantic Search
Such-Ansatz, der bedeutungsbasierte Ergebnisse liefert, indem er Query- und Dokument-Embeddings vergleicht statt Keywords zu matchen. Unabhängig von Schreibweise, erfasst Synonyme; Retrieval-Engine von RAG — mit Vector DB + ANN umgesetzt.
36
Inference
Phase, in der ein trainiertes AI-Modell auf Live-Daten Predictions/Generations liefert (Gegenteil von Training). Hebel: Latenz, Throughput, Cost-per-Request und der Model-Serving-Stack (vLLM, TGI, Triton); macht ~90 % der Produktions-Seite von MLOps aus.
37
OLTP (Online Transaction Processing)
Datenbank-Ansatz, optimiert für hochvolumige, zeilen-basierte Lese-/Schreibvorgänge mit geringer Latenz. PostgreSQL, MySQL, MongoDB; Standard-Speicher hinter Live-Application-Backends — E-Commerce-Warenkorb, User-Session, Reservierung.
38
OLAP (Online Analytical Processing)
Spalten-basierter DB-Ansatz, optimiert für großmaßstäbliche Analyse-Queries. BigQuery, Snowflake, Redshift, ClickHouse; scannt Millionen Zeilen in Sekunden für Aggregation, GROUP BY und Zeitreihen — Infrastruktur von BI und Dashboards.
39
ACID
Vier Garantien transaktionaler Datenbanken: Atomicity (alles oder nichts), Consistency (Regeln bleiben), Isolation (parallele Ops sehen einander nicht), Durability (Committed Data bleibt). Kernvertrag von RDBMS wie PostgreSQL, MySQL, Oracle.
40
BASE
Lockerer Garantie-Satz verteilter/NoSQL-Systeme: Basically Available, Soft State, Eventual Consistency. Gegenteil von ACID — akzeptiert kurze Inkonsistenz für Availability + Skalierung. Philosophie hinter DynamoDB, Cassandra, Riak.
41
Sharding
DB nach einem Schlüssel (user_id mod 16, Zeitbereich) aufteilen und jeden Shard auf einen eigenen Server legen. Methode der horizontalen Skalierung; Cross-Shard-JOINs werden unpraktikabel, die Shard-Key-Wahl ist eine unumkehrbare architektonische Entscheidung.
42
Replication
Eine Live-Kopie der Datenbank auf mehreren Servern halten — zur Verteilung der Leselast (Read Replicas) und für Failover. Async (Postgres Streaming) ist verzögert aber schnell, Sync ist konsistent aber langsam; jede Strategie ist ein Tradeoff.
43
Eventual Consistency
In verteilten Systemen braucht ein Update Zeit, um sich auf alle Replicas auszubreiten — für eine kurze Zeit liefern verschiedene Nodes ggf. unterschiedliche Werte. DynamoDB- und Cassandra-Default; ungeeignet fürs Banking, ideal für Social Media.
44
CDC (Change Data Capture)
Pattern, das INSERT/UPDATE/DELETE-Events aus einer Datenbank in Echtzeit erfasst und an Downstream-Systeme (Warehouse, Search Index, Cache) liefert. Debezium, Kafka Connect; basiert auf Replication Slots + Log-Tailing, moderne Alternative zum Polling.
45
Star Schema
Warehouse-Modellierungs-Ansatz, bei dem eine zentrale Fact-Tabelle (z. B. orders) sternförmig von Dimensions-Tabellen (customer, product, date) umgeben ist. BI-Queries brauchen wenige JOINs = schnell; kanonische Architektur für BigQuery, Snowflake.
46
Materialized View
Datenbank-Objekt, das das Ergebnis einer SELECT-Query physisch auf Disk schreibt und cached. Berechnet eine komplexe Aggregation vor statt sie jedes Mal neu zu rechnen; Refresh-Strategie (manuell, geplant, inkrementell) ist der Tradeoff.
47
Normalization
Prozess, ein DB-Schema in verwandte Tabellen zu zerlegen, um Redundanz und Update-Anomalien zu eliminieren (1NF, 2NF, 3NF, BCNF). Standard für OLTP; garantiert, dass jedes Update an einer Stelle passiert — auf Kosten von mehr JOINs.
48
Denormalization
Normalisierte Tabellen bewusst zusammenführen und Redundanz akzeptieren — im Tausch gegen Query-Performance. Standard für OLAP / Data Warehouse; senkt JOIN-Kosten, verwaltet das Inkonsistenz-Risiko über ETL/CDC.
49
Time-series Database
Datenbank, optimiert für hochvolumige Writes zeitgestempelter Metriken (CPU-Usage, IoT-Sensoren, Finance-Ticker) und Zeitbereichs-Queries. InfluxDB, TimescaleDB, Prometheus, ClickHouse; Downsampling + Retention-Policy sind Kern-Features.
50
Iceberg / Hudi / Delta Lake
Open-Source-Projekte, die eine "Tabellenformat"-Schicht über Object Storage (S3, GCS) legen — bringen Schema-Evolution, ACID, Time-Travel und Concurrent-Writer-Support. Die drei Standard-Engines der Lakehouse-Architektur.
51
Data Quality
Disziplin, ein Dataset auf Genauigkeit, Vollständigkeit, Konsistenz, Aktualität und Uniqueness zu messen. Great Expectations, Monte Carlo, Soda automatisieren die Tests; einzige echte Verteidigung gegen "Garbage in, Garbage out".
52
Data Lineage
Nachvollziehbarer Graph aller Transformations-Schritte, die ein Datenpunkt von der Quelle (Raw Event) bis zum Endnutzer (Dashboard-KPI) durchläuft. Atlan, OpenMetadata, dbt docs; die deterministische Antwort auf "Woher kommt dieses KPI?" plus Impact-Analyse.
53
Data Mesh
Struktur aus domänen-basierten (Marketing, Finance, Product) Self-Serve-Datenprodukten statt eines zentralen Data Teams. Aufgebaut auf Domain-Ownership + Product Thinking + Federated Governance; Antwort auf das "Data-Team-ist-Bottleneck"-Problem im Großmaßstab.
54
Data Catalog
Zentraler Katalog, der alle Daten-Assets einer Organisation (Tabelle, Dashboard, ML-Model, Spalte) mit Suche, Beschreibungen und Ownership indiziert. Atlan, Collibra, OpenMetadata, Amundsen; Antwort auf "Gibt es diese Daten, wem gehören sie?"
55
Schema Evolution
Fähigkeit eines Datenformats (Avro, Parquet, JSON), sich über Zeit zu ändern ohne bestehende Consumer beim Hinzufügen neuer Felder zu brechen. Erfordert Disziplin bei Backward + Forward Compatibility, Optional Fields und Defaults; kritisch für CDC, Event Sourcing, Lakehouse.
56
AWS DynamoDB
Serverless NoSQL Key-Value + Document Database von AWS. Einstellige ms-Latenz bei Milliarden Requests/Sek., automatisches Partitioning, Point-in-Time-Recovery und Global Tables (Multi-Region). Ideal für Game-Backends, IoT-Telemetrie, Session-Storage, Leaderboards.
57
GCP Spanner
Googles global skalierbare, ACID-konforme, horizontal skalierende relationale Datenbank. SQL-Syntax + DynamoDB-Skalierung + PostgreSQL-Transaktionen; Multi-Region 99,999 % Uptime; betreibt Google Ads/Maps, ideal für Fintech.
58
Azure Cosmos DB
Global skalierbare, Multi-Model-NoSQL-Datenbank von Microsoft Azure. SQL-, MongoDB-, Cassandra-, Gremlin-(Graph)-, Table-APIs auf derselben Engine; fünf Consistency-Level (Strong → Eventual); SLA-gebundene Latency und Throughput.
59
Prometheus
Metrics-Schicht des Cloud-Native-Monitoring-Stacks. Pull-basiertes Scraping holt /metrics von Target-Endpoints; PromQL für Time-Series-Queries; Alertmanager verwaltet Alert-Regeln. De-facto Standard für Kubernetes und moderne Microservice-Architekturen.
60
Grafana
Open-Source-Plattform für Datenvisualisierung und Dashboards. Vereint 100+ Data Sources (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) in einer Oberfläche; Alerting, Annotations, Panel-Templating; im SRE-Alltag Standard für NOC-Screens.
61
Jaeger
CNCF-Plattform für Distributed Tracing. Erfasst jeden Hop eines User-Requests über Microservices als Span; visualisiert Latenz-Engpässe, fehlende Dependencies und Error-Propagation. 100 % kompatibel mit dem OpenTelemetry-Standard.
62
OpenTelemetry (OTel)
CNCF-Projekt, das Observability (Metrics, Logs, Traces) unter einem vendor-neutralen Standard vereint. SDKs und Auto-Instrumentation machen Application-Code portabel zwischen Datadog, New Relic, Honeycomb, Jaeger — bricht Vendor-Lock-in.
63
ELK Stack
Elasticsearch + Logstash + Kibana — Open-Source-Stack für Log-Aggregation, Indexierung und Visualisierung. Logstash ingestiert, Elasticsearch indexiert für Full-Text-Search, Kibana liefert Dashboards. Loki + Grafana gewinnt bei Scale, ELK bleibt aber sehr verbreitet.
64
SLI (Service Level Indicator)
Numerischer Indikator für die Service-Gesundheit — Erfolgsrate, p99-Latenz, Verfügbarkeit. Messgrundlage eines SLO; objektive Antwort auf "Welcher Anteil der Requests lief unter 200 ms?". Kernkonzept aus Googles SRE-Book.
65
SLO (Service Level Objective)
Interner Zielwert, den ein SLI treffen soll — z. B. "p99-Latenz < 200 ms für 99,9 % eines 30-Tage-Fensters". Die Antwort des Engineering-Teams auf "wie zuverlässig ist zuverlässig genug"; Grundlage des Error Budgets.
66
SLA (Service Level Agreement)
Externer Vertrag zwischen Service-Provider und Kunde; juristische Spiegelung eines SLO. Bei Bruch greifen Strafen wie Refunds/Credits. Faustregel: SLA < SLO < SLI — Engineering zielt strenger als die öffentliche Garantie.
67
Error Budget
Aus einem SLO abgeleitete "erlaubte Ausfallmenge". 99,9 % SLO = 0,1 % Error Budget = ~43 Min. Downtime pro Monat. Budget übrig → Risiken eingehen (neue Releases); Budget aufgebraucht → Stabilisierungsmodus. SRE-Balance zwischen Innovation und Reliability.
68
Diffusion Model
Familie generativer Modelle, die lernen, Daten schrittweise mit Rauschen zu überlagern und den Prozess umzukehren. Kernarchitektur moderner Image-/Video-Generatoren wie Stable Diffusion, Midjourney, DALL-E 3, Sora. Trainiert weit stabiler als GANs und liefert deutlich vielfältigere Outputs.
69
GAN (Generative Adversarial Network)
Generatives Modell, in dem zwei neuronale Netze — Generator (Fakes) und Discriminator (Real-/Fake-Richter) — gegeneinander trainieren. 2014 von Ian Goodfellow vorgestellt; Technik hinter frühen Deepfakes, StyleGAN-Porträts und Super-Resolution. Heute weitgehend von Diffusion-Modellen abgelöst.
70
CLIP (Contrastive Language-Image Pre-training)
OpenAI-Modell von 2021, das Bilder und ihre Captions in einem gemeinsamen Embedding-Raum ausrichtet — das Embedding von "Foto einer Katze" landet nahe echten Katzenfotos. Text-to-Image-Conditioner in Stable Diffusion und Fundament für Zero-Shot-Image-Classification und Bildsuche.
71
ControlNet
Architektur von 2023, die Diffusion-Modelle um ein zusätzliches Conditioning-Signal erweitert. Steuert Generation über Referenzen wie Pose, Depth-Map, Canny-Edges oder Scribbles und ermöglicht "diese Pose, andere Kleidung". Eines der meistgenutzten Add-ons im Stable-Diffusion-Ökosystem.
72
Adapter Tuning
Fine-Tuning-Ansatz, bei dem kleine "Adapter"-Layer in ein großes Sprachmodell eingefügt werden, statt alle Parameter neu zu trainieren. Beliebte Varianten: LoRA, QLoRA, IA³; weniger als 1 % der Originalparameter werden trainiert, GPU-Kosten sinken dramatisch.
73
PEFT (Parameter-Efficient Fine-Tuning)
Sammelbegriff für Ansätze, die nur einen kleinen Teil der Parameter eines 70B-Parameter-LLM trainieren statt vollständigem Fine-Tuning. LoRA, Prompt-Tuning, Prefix-Tuning, Adapter-Tuning sind alle PEFT-Varianten. HuggingFaces peft-Library ist Standard.
74
Quantization (LLM)
Technik, die Float32/Float16-Gewichte eines Modells auf Int8, Int4 oder sogar Int2 komprimiert. Speicher sinkt 4-8×, Inference wird 2-3× schneller, Qualitätsverlust meist klein. Llama.cpp, GGUF-Format und die Algorithmen AWQ/GPTQ sind die üblichen Werkzeuge.
75
Knowledge Distillation
Technik, die das Verhalten eines großen "Teacher"-Modells in ein kleines "Student"-Modell überträgt. Indem die weichen Wahrscheinlichkeits-Outputs des Teachers als Ziel dienen, erreicht der Student fast identische Accuracy mit weit weniger Parametern. Trick hinter DistilBERT, TinyLlama, Phi-3.
76
Mixture of Experts (MoE)
Architektur, die statt eines monolithischen Modells jeden Token durch eine sparse Auswahl (einen oder zwei) kleiner "Expert"-Submodule routet. Eingesetzt in Mixtral 8x7B, GPT-4, DeepSeek; senkt aktive Parameteranzahl bei hoher Kapazität und reduzierten Inference-Kosten.
77
Speculative Decoding
Technik, die LLM-Inference beschleunigt: ein kleines "Draft"-Modell schlägt mehrere Tokens voraus, das große "Target"-Modell verifiziert sie parallel und akzeptiert die korrekten. 2-3× schneller bei gleicher Qualität. Standard in vLLM und llama.cpp.
78
KV Cache
Optimierung, die in Transformer-Attention-Layern berechnete Key- und Value-Matrizen für vorherige Tokens im Speicher hält. Jeder neue Token berechnet nur sein eigenes K/V statt die Geschichte zu wiederholen. 10-100× schnellere Inference, bei langem Kontext aber das Memory-Bottleneck.
79
Attention Head
Einer von mehreren parallel laufenden kleinen Attention-Mechanismen innerhalb eines Transformers. Jeder Head fokussiert eine andere Eingabe-Eigenschaft — Syntax, Position, Long-Range-Dependencies. Modelle wie GPT-4 nutzen 96+ Heads pro Layer; Baustein der Multi-Head-Attention.
80
BPE Tokenizer (Byte-Pair Encoding)
Tokenisierungs-Algorithmus, der Text in die häufigsten Subword-Stücke zerlegt — z. B. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral nutzen alle BPE-Varianten (tiktoken, SentencePiece); Vokabular-Größe bleibt fix (~32K-128K), OOV-Problem ist gelöst.
81
DPO (Direct Preference Optimization)
Einfachere Alternative zu RLHF. Statt Reward-Modell + PPO direktes Logistic-Regression auf Paaren "preferred vs rejected" Responses. Stanford 2023; stabiler, weniger Hyperparameter, Alignment-Methode der Wahl in Modellen wie Llama 3.
82
Constitutional AI
2022 von Anthropic vorgestellte Methode, die ein Modell mit einer schriftlichen "Verfassung" (Liste ethischer Prinzipien) statt menschlicher Reviewer alignt. Das Modell kritisiert und verbessert eigene Outputs gegen die Verfassung; Fundament von Claudes Alignment, RLAIF (Reinforcement Learning from AI Feedback).
83
Chain-of-Thought (CoT)
Prompting-Technik, die ein LLM auffordert "Schritt für Schritt zu denken" und die Zwischenlogik vor der Antwort auszuschreiben. 2022 von einem Google-Paper eingeführt; verbessert Performance bei Mathe, Logik und Multi-Step-Fragen drastisch. "Let's think step by step" ist der Zauberspruch. Basis moderner Reasoning-Modelle (o1, DeepSeek-R1).
84
Few-Shot Prompting
Technik, die 2-5 Beispiele (Input-Output-Paare) im Prompt liefert, damit das LLM dasselbe Muster auf neuen Input anwendet. Schnelle Adaption ohne Fine-Tuning — "antworte wie in diesen Beispielen". Praktischste Lösung für klassifizierten Text und formatierte Extraktion.
85
Zero-Shot Prompting
Prompting-Ansatz, bei dem die Aufgabe ohne Beispiele direkt an das LLM beschrieben wird — z. B. "Übersetze diesen Text ins Deutsche". Stützt sich allein auf das Pre-Training-Wissen; bei Frontier-Modellen (GPT-4, Claude) für die meisten Aufgaben ausreichend.
86
Grounding (LLM)
Technik, die die Antwort eines LLM in einer externen Wissensquelle "verankert" — Dokumente, Datenbank oder Websuche. Statt rein parametrischer Erinnerung wird der retrieved Context genutzt; Halluzination sinkt drastisch, Citations möglich, Wissen bleibt in Echtzeit aktuell.
87
Structured Output (LLM)
Fähigkeit, den Output eines LLM einem definierten JSON-Schema, Pydantic-Modell oder Regex zu unterwerfen. OpenAI Structured Outputs, Anthropic Tool Use, vLLM Grammar-constrained Sampling. Schlüssel zum Übergang von Freitext zu deterministischen, produktionsreifen Datenflüssen.
88
Tool Use (Agent)
Fähigkeit eines LLM, externe Tools aufzurufen — Web-Search, Code-Interpreter, Calculator, Custom APIs. Über das Function-Calling-Protokoll liefert das Modell "Tool-Name + Parameter", die Runtime führt es aus und gibt das Ergebnis zurück. Kern moderner Agent-Architekturen (Claude Agent SDK, AutoGen, LangGraph).
89
Cross-Modal Embedding
Embeddings, die verschiedene Modalitäten (Text, Bild, Audio) im selben Vektorraum repräsentieren. CLIP für Bild+Text, ImageBind für Text+Bild+Audio+Video+Depth+Thermal+IMU. Kritisch für Multimodale Suche ("finde Marketing-Text ähnlich zu diesem Foto"), Cross-Modal-Retrieval und Medien-RAG.
90
Hybrid Search (BM25 + Vector)
Retrieval-Strategie, die klassische Keyword-Suche (BM25/lexikal) mit Vektor-Similarity kombiniert. BM25 gewinnt bei Exact-Match-Queries (Numeric-IDs, Produktcodes); Vektoren bei semantischen ("wie gebe ich das zurück" → "Return Policy"). Goldstandard modernen RAGs.
91
Data Fabric
Integrierte Architektur, die verteilte Datenquellen (Cloud, On-Prem, SaaS) zu einer einzigen logischen Datenschicht vereint. Metadata-getrieben und AI-augmented; bietet eine "zentralisierte Integration" als Alternative zum verteilten Ownership-Modell des Data Mesh. Talend, Informatica, IBM Cloud Pak sind Schlüsselprodukte.
92
Medallion Architecture
Von Databricks populär gemachtes Data-Lake-Organisationsmuster — Bronze (Roh), Silver (bereinigt, conformed), Gold (Business-Ready, aggregiert). Jede Schicht baut auf der vorhergehenden auf; trennt Lineage, Qualität und Reprocessing sauber.
93
Apache Spark
In-Memory verteilte Daten-Processing-Engine. Der 10-100× schnellere Nachfolger von Hadoop MapReduce; vereint SQL, Streaming, ML (MLlib) und Graph (GraphX) in einer API. Kern von Databricks, managed in AWS EMR, GCP Dataproc, Azure HDInsight; PySpark macht es zum Hauptwerkzeug von Data-Engineers.
94
Apache Flink
True-Streaming-Engine (Event-für-Event). Im Vergleich zum Micro-Batch-Modell von Spark Streaming: Millisekunden-Latenz, Exactly-Once-Semantik, Stateful Processing. Bei Alibaba, Uber, Netflix für Real-Time-Fraud- und Anomalie-Detection im Einsatz.
95
Kafka Connect
Source-/Sink-Connector-Framework von Apache Kafka. Bringt CDC oder Batch-Ingestion aus 100+ Systemen (Postgres, MySQL, S3, Elasticsearch, Snowflake …) nach Kafka und streamt Daten zurück in externe Systeme. Confluents 1.000+ Connector-Katalog ist die Referenz.
96
Singer
Open-Source-Daten-Integrations-Protokoll von Stitch (jetzt Talend), das JSON-Streams zwischen "Taps" (Extract) und "Targets" (Load) bewegt. Modulares, herstellerneutrales ELT-Framework; Kern von Open-Source-ELT-Plattformen wie Meltano.
97
Apache Airflow
Workflow-Orchestrierungs-Plattform, deren DAGs (Directed Acyclic Graphs) in Python definiert werden. 2014 bei Airbnb entstanden, dann an die Apache Foundation gespendet. Scheduling, Retries, Dependency-Management, Web-UI; De-facto-Standard für Daten-Pipelines.
98
Dagster
Modernes Asset-basiertes Daten-Orchestrierungs-Framework. Während Airflow Task-zentriert ist, fokussiert Dagster "Data Assets" — mit Lineage, Type-Checking, Software-Defined Assets und integriertem Testing. Erstklassige Integrationen mit dbt, Fivetran, Snowflake.
99
Prefect
Modernes, pythonisches Daten-Orchestrierungs-Tool mit dynamischen DAGs. Löst Airflows Static-DAG-Limit — Flows können zur Laufzeit variieren —, mit Hybrid-Execution (Cloud + Self-Hosted) und granularen Retry-Policies. Auch für ML-Pipelines beliebt.
100
Snowflake
Cloud-natives Managed Data Warehouse. Compute (Warehouse) und Storage sind vollständig entkoppelt und skalieren unabhängig. SQL-Queries auf semi-strukturierte Daten (JSON, Parquet), Secure Data Sharing, Time Travel (bis 90 Tage); starke Alternative zu BigQuery und Redshift.
101
BigQuery
Serverless, columnar, petabyte-skalierendes Data Warehouse von Google Cloud. Pay-per-Slot; SQL-getriebenes ML-Training (BQML); natives Export-Ziel von GA4; integrierte Optimierungen für Geo, JSON und PARTITION/CLUSTER. Zentrum des GCP-Analytics-Stacks.
102
Databricks
Lakehouse-Plattform, gegründet von den Schöpfern von Apache Spark. Bündelt Bronze/Silver/Gold (Medallion), Delta Lake, MLflow, Unity Catalog und Notebook-Workspaces in einem Produkt. Entworfen für Data-Engineer + Analyst + ML-Engineer-Kollaboration; nativ auf AWS, Azure, GCP.
103
Apache Iceberg
Open Table Format für Petabyte-Daten (ursprünglich Netflix). Ergänzt Parquet um ACID-Transaktionen, Schema-Evolution, Time Travel, Hidden Partitioning, Branching. Unterstützt von Snowflake, Databricks, BigQuery, Trino; die Standardantwort gegen Data-Warehouse-Lock-in.
104
Delta Lake
Open Table Format, entwickelt von Databricks und Rivale zu Apache Iceberg. ACID, Time Travel, Schema-Enforcement, MERGE/UPDATE/DELETE; engste Integration im Spark-Ökosystem. Default-Format auf Databricks-Seite der Lakehouse-Architektur.
105
Parquet
Columnar-Speicherformat — jede Spalte liegt in eigenen Blöcken. Nur benötigte Spalten werden gelesen, Predicate-Pushdown wird unterstützt, Snappy/Zstd liefern starke Kompression. Default-Format für Spark, Iceberg, Delta, Snowflake; 10-100× schnellere Analytics als zeilenbasiertes CSV/JSON.
106
Apache Avro
Binäres Serialisierungsformat mit JSON-definierten Schemas. Starke Schema-Evolution (Forward/Backward Compatibility); besonders beliebt für Kafka-Message-Payloads. Wird zusammen mit einer Schema Registry verwendet; das zeilenorientierte Gegenstück zu Parquet.
107
Schema Registry
Service, der Avro-/Protobuf-/JSON-Schemas zentral speichert, versioniert und auf Kompatibilität prüft. Teil des Kafka-Stacks von Confluent; setzt den Producer-Consumer-Schema-Vertrag durch und fängt Breaking Changes vor Production ab.
108
Window Function (SQL)
SQL-Funktionen, die über eine Zeilenmenge ("Window") rechnen. ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY …). Anders als GROUP BY werden Zeilen nicht aggregiert — jede Zeile bekommt ihr eigenes Ergebnis. Unverzichtbar bei Time-Series, Rankings, Running Totals.
109
ELT (Extract, Load, Transform)
Umkehr des klassischen ETL: Rohdaten landen zuerst im Warehouse/Lake und werden dort mit SQL/dbt transformiert. Mit günstigem Cloud-DWH-Storage und starkem Compute ist ELT zum Default-Paradigma geworden; bringt Transformations-Logik näher an Analysten.
110
Feature Store
Plattform, die Features (historisch + Echtzeit), die ML-Modelle konsumieren, zentral speichert und ausliefert. Löst den Training-Serving-Skew, indem Offline- (Batch) und Online-Views (Low-Latency) aus einer einzigen Definition erzeugt werden. Hauptprodukte: Feast, Tecton, Hopsworks.
111
MLOps
Disziplin, die den Develop-Train-Deploy-Monitor-Retrain-Zyklus von ML-Modellen automatisiert. DevOps auf ML angewendet — Experiment-Tracking (MLflow), Model-Registry, CI/CD für Modelle, Drift-Detection und Retraining-Pipelines.
112
OpenLineage
Offener Standard für Data-Lineage-Events (LF AI & Data). Erlaubt Airflow, Spark, dbt, Flink u. a., Lineage-Events im gleichen Format zu emittieren. Integriert in Marquez, Datakin, Astronomer; vendor-neutraler Träger des Metadata-Flusses.
113
Great Expectations
Open-Source Data-Quality-/Validierungs-Framework. Tausende vorgefertigte Checks wie "expect_column_values_to_be_unique" oder "expect_column_mean_to_be_between"; bindet sich in Airflow/dbt-Pipelines ein und erzeugt automatisch HTML-Data-Docs.
114
Apache Atlas
Open-Source-Tool für Metadata-Management und Data-Governance aus dem Hadoop-Ökosystem. Tag-basierte Zugriffskontrolle, Lineage-Graphen, Business-Glossar, Klassifikationen (PII/PCI). Standard im Hortonworks/Cloudera-Enterprise-Stack; moderne Alternativen: Amundsen, DataHub.
115
Lambda Architecture (Data)
Datenarchitektur, die Real-Time- und Batch-Ergebnisse fusioniert. Der Speed-Layer (Storm/Flink) liefert latenzarme Approximationen, der Batch-Layer (Spark/Hadoop) genaue, aber langsame Ergebnisse; der Serving-Layer vereint beide. Nicht mit AWS Lambda zu verwechseln; heute zunehmend Richtung Kappa-Architektur.
116
Differential Privacy
Mathematisches Framework, das sicheren Zugriff auf Populations-Statistiken ermöglicht, ohne individuelle Datensätze zu offenbaren. Kalibriertes Rauschen wird zu Query-Ergebnissen addiert; ein Angreifer kann nicht feststellen, ob eine Person im Datensatz ist. Genutzt von Apples iOS-Keyboard, Google Play und dem US-Census 2020.
117
Federated Learning
Technik, die das Modell lokal auf Nutzergeräten trainiert und nur Gradienten- bzw. Gewichtsaktualisierungen an den zentralen Server schickt, nie die Rohdaten. Googles Gboard-Auto-Suggest, Apples Siri und privacy-erhaltendes ML auf Gesundheitsdaten sind kanonische Anwendungsfälle.
118
On-Chain Analytics
Disziplin, aus den öffentlichen Transaktionsdaten einer Blockchain Insights zu ziehen — Wallet-Aktivität, Token-Holder-Konzentration, Exchange-Flow, Smart-Money-Tracking, NFT-Volumen. Dune Analytics (SQL on-chain), Nansen (gelabelte Addresses), Glassnode, Arkham sind führend.
119
Oracle (Blockchain)
Bridge-Service, der Off-Chain-Daten — Preise, Wetter, Sportergebnisse, IoT-Sensoren — vertrauenswürdig in On-Chain-Smart-Contracts liefert. Chainlink ist Marktführer; Pyth, Band, RedStone sind Alternativen. Vitale Infrastruktur für DeFi-Liquidationen, Insurance und Prediction Markets.
120
Brand Lift Study
Studie, die misst, wie eine Werbekampagne Brand-Metriken — Ad Recall, Brand Awareness, Message Association, Purchase Intent — durch Vergleich Control- vs. Exposed-Gruppe bewegt. Meta, YouTube und TikTok bieten es nativ an; CPM typisch 5-15 $.
121
Incrementality Test
Test, der Ad-getriebene Conversions mit einem "hätte-nicht-gelaufen"-Baseline vergleicht, um zu messen, wie viele Conversions wirklich inkrementell sind. Methoden: PSA-Placebo-Ads, Ghost-Bidding, Geo-Holdouts; heilt die "jede Conversion ist meine"-Illusion klassischer Attribution. Goldstandard für modernen Paid-Media-ROI.
122
Geo Holdout Test
Quasi-Experiment, das inkrementellen Impact misst, indem Ads in einer bestimmten Region (z. B. New York) abgeschaltet werden und in anderen weiterlaufen. Cookie-frei, Identifier-frei, ATT-sicher; Matched-Markets / Synthetic-Control ist Standard moderner Marketing-Science.
123
MTA (Multi-Touch Attribution)
Modell, das jedem Touchpoint (Ad, E-Mail, Organic, Direct), der zu einer Conversion beigetragen hat, gewichtetes Credit zuweist. Methoden: Linear, Time-Decay, Position-Based, Data-Driven. Cookie-Deprecation und ATT haben MTA-Genauigkeit geschwächt — Kombination mit MMM + Incrementality ist heute gesünder.
124
Data-Driven Attribution (DDA)
Attributionsmodell, das per Machine Learning den marginalen Beitrag jedes Touchpoints lernt — statt alles dem Last-Click zuzuschreiben. Default in Google Ads + GA4; Shapley-Value-basiert; vergleicht Kanäle auf gleicher Funnel-Stufe fair. Hat klassische Rule-based-Modelle abgelöst.
125
View-Through Conversion (VTC)
Conversion von Nutzern, die eine Anzeige gesehen — aber nicht geklickt — und später konvertiert haben. In Display- und Video-Kampagnen können 30-60 % der Conversions VTC sein; falsch bewertet, wird der Channel über- oder unterbewertet. Der Unterschied zu Click-only-Attribution ist kritisch.
126
Attribution Window
Zeitfenster, in dem eine Conversion einer Anzeige nach Click oder View zugerechnet wird. Alte Norm: 7-Day-Click + 1-Day-View; mit iOS 14.5 wurde 7-Day-Click + 1-Day-View + Same-Day-View ATT-Default. Je kürzer das Fenster, desto weniger Conversions scheinen Channels zu bekommen.
127
Retention Curve (S-Curve)
Erwartetes Muster einer Kohorten-Retention, die irgendwann abflacht. In gesunden Apps nach ~90 Tagen plat; in viralen / Habit-forming Apps horizontal; fällt sie weiter, ist PMF schwach. Andrew Chens "Smiling Curve" ist die moderne Referenz.
128
Activation Rate
Anteil neu registrierter Nutzer, die die erste wertvolle Aktion abschließen. Slack misst "die 40 %, die eine erste Nachricht senden", Notion "die 50 %, die eine erste Page anlegen", Spotify "die 85 %, die einen ersten Song spielen". Aktivierung ist der direkteste Indikator für PMF + Onboarding und korreliert stark mit LTV.
129
TTV (Time-to-Value)
Zeit, bis der Nutzer den ersten echten Wert erlebt (Aha-Moment). Linear: 30 Sekunden; Figma: 5 Minuten; Slack: 1 Woche. Je kürzer TTV, desto höher Retention; einzige Nordstern modernen Onboardings.
130
Activation Metric (Aha-Moment Metric)
Datengetriebene Schwelle nach dem Muster "wenn der Nutzer N Aktionen in T Zeit schafft, retained er". Facebook fand "10 Freunde in 14 Tagen", Slack "2K Messages", Twitter "30 Follows". Das ganze Onboarding wird darauf optimiert; Nordstern des Growth-Teams.
131
pLTV (Predictive LTV)
Mit Machine Learning aus den ersten Events (Sign-up, First Purchase, Day-1-Session, IAP) den 30-/90-/365-Tage-LTV vorhersagen. Standardlösung für iOS-Attribution nach SKAdNetwork; AppsFlyer, Adjust, Singular haben pLTV in ihre Marketing-Optimization-Stacks integriert.
132
Uplift Modeling
ML-Ansatz, der findet, in welchen Nutzersegmenten eine Intervention (Coupon, Push, E-Mail) wirklich Netto-Mehrwert schafft. Findet das "Persuadable"-Segment, schont den Rest. Algorithmen: T-Learner, X-Learner, Causal Forest. Steigert CRM-Kampagnen-ROI 2-3×.
133
Crashlytics / Sentry Mobile
Plattformen, die Mobile-Crashes, ANRs und JS-Errors einsammeln und mit Stack-Trace, Device-Daten und Breadcrumbs clustern. Firebase Crashlytics (Google, gratis), Sentry, Bugsnag, Embrace als Hauptoptionen. Crash-Free-Users-Ziel 99,5 %+; unter 99 % killt das App-Store-Rating.
134
Mobile APM (Application Performance Monitoring)
Plattform, die App-Performance auf realen Devices misst: Startup-Time, Screen-Render, Network-Requests, Memory, Battery, ANRs. Firebase Performance, New Relic Mobile, Embrace, Datadog Mobile RUM als Optionen. Macht UX-Probleme sichtbar, die keine Crashes sind.
135
Headless BI
Analytics-Engine ohne eigene Visualisierungsschicht, die alle Metric- und Dimension-Berechnungen via API und GraphQL bereitstellt. Cube, GoodData, AtScale sind führend; Output wird von Tableau, Looker, Notion, Hex, Excel oder einer Custom-React-App konsumiert. Modernes Paradigma, das die BI-Tool-Monogamie bricht.
136
Metric Layer
Metric-only-Variante der Semantic Layer — Abstraktion, die die "Single-Truth"-Metric-Definitionen des Unternehmens in YAML oder SQL hält. Slacks Spectacles, Airbnbs Minerva, dbt Semantic Layer als Beispiele. Wenn "Active User" im Marketing 15 % und in Finance 10 % ist, beginnt der Drift hier.
137
Data Activation
Prozess, Insights aus dem Warehouse in operative Systeme zu pushen — CRM, Ad-Plattformen, Support-Tools, In-App-Messaging. Reverse ETL ist die technische Pipe; Brücke zwischen "Data Analytics" und "Marketing Automation". Census, Hightouch, Polytomic sind die führenden Tools.
138
Composable CDP
Ansatz, der das Warehouse (Snowflake, BigQuery) ins Zentrum stellt — statt eines Single-Vendor-CDP (Segment, mParticle) — und nur die nötigen Schichten (Audience, Real-Time-Activation, Identity-Resolution) draufsetzt. Hightouch + Census + RudderStack + Snowplow als typischer Composable-CDP-Stack.
139
Operational Analytics
Prinzip, dass analytische Insights nicht im Dashboard bleiben, sondern in operativen Systemen Action auslösen. "Dieser Nutzer ist seit 7 Tagen inaktiv" landet im Klaviyo-Win-Back-Flow, nicht in einer Chart. Business-Seite von Reverse ETL — moderne Form von "Actionable Analytics".
140
Looker LookML
Lookers YAML-artige Data-Modeling-DSL. Tabellen werden zu "Views", Beziehungen zu "Explores", Metriken zu "Measures"; SQL-generierender, code-zentrischer BI-Ansatz. Alle Analyst:innen sprechen eine Sprache, Version-Control + Git-Workflows funktionieren — die Lingua Franca moderner Data-Teams.
141
Mode Analytics
BI-Plattform, die SQL, Python-Notebooks und Dashboards in einem Produkt vereint (2023 von ThoughtSpot übernommen). Sweet Spot für Data-Analysten: SQL für Queries, Python für ML, dann teilbares Dashboard. Power-User-Pendant zu Tableaus GUI-only-Ansatz.
142
Hex (Notebook BI)
2020 gegründete Analytics-Plattform, die SQL, Python und No-Code-Interactive-Apps an einem Ort vereint. Notebook-UI + Magic-AI + Shareable-App-Builder; gemeinsamer Raum für Data Scientists, Analyst:innen und Business-Stakeholder. Aufsteigender Star modernen hybriden BIs.
143
Sigma Computing
Moderne BI-Plattform, die ein Spreadsheet-artiges Interface auf Snowflake oder BigQuery setzt. Nutzer machen Excel-Style-Pivots, -Formeln und What-If-Analysen ohne SQL — aber die Engine bleibt Warehouse-nativ. Starker Looker-Konkurrent in Finance- und Ops-Teams.
144
Streamlit
Python-basiertes Open-Source-Framework, mit dem man eine interaktive Web-App in 100 Zeilen Script ausliefert (2022 von Snowflake übernommen). Default-Weg für Data Scientists, um Internal-Tools, Prototypen und ML-Demos zu shippen; Plotly Dash und Gradio als nahe Konkurrenten.
145
Snowflake Streams & Tasks
Snowflakes Duo aus Change-Data-Capture (Streams) und geplanter SQL-Ausführung (Tasks). Ein Stream stellt Inserts/Updates/Deletes einer Tabelle in eine Offset-basierte Queue, ein Task verarbeitet sie zyklisch. ELT-Pipelines bekommen Snowflake-native Automatisierung — ohne Airflow.
146
dbt Tests
Daten-Qualitäts-Assertions auf dbt-Models: not_null, unique, accepted_values, relationships, Custom-SQL. Laufen in der CI; validieren die Daten vor dem Model-Build. Test-Suite ist mit dbt-utils und Great-Expectations-Integration erweiterbar.
147
dbt Snapshots
dbt-native Implementierung von Slowly Changing Dimension Type 2. Für mutable Quelltabellen (z. B. orders.status ändert sich) bewahrt jeder Snapshot-Run Historie über dbt_valid_from/to-Spalten. Basis für Audit-Historie und "wie sah es am Datum X aus"-Queries.
148
Materialization Strategy (Table / View / Incremental / Ephemeral)
Wie ein dbt-Model im Warehouse gespeichert wird. View: günstig, rechnet bei jeder Query neu — für kleine Daten. Table: voller Rebuild — für klein bis mittel. Incremental: nur neue Zeilen — für große Daten. Ephemeral: als CTE inline, kein persistenter Output.
149
SCD (Slowly Changing Dimension)
Pattern, um die Historie langsam wandernder Dimensionen wie Customer, Product, Employee zu speichern. Type 1: nur aktueller Wert; Type 2: bei jeder Änderung neue Zeile + valid_from/to (Historie bleibt); Type 3: einzelne Previous-Value-Spalte. Mit modernem DWH + dbt-Snapshots ist SCD2 Default.
150
Idempotent Pipeline
ETL/ELT-Pipeline, die mit gleichem Input dasselbe Output liefert und bei Re-Run keine zusätzlichen Seiteneffekte erzeugt. Garantiert, dass Backfills, Retries und Late-Arriving Data den Datensatz nicht zerstören. Erreicht via MERGE, Primary-Key-Dedup, Transaktionen.
151
Backfill Strategy
Plan, eine Pipeline gegen historische Daten neu zu fahren. Datumsranges werden parametrisiert, Partitions in Batches neu berechnet; Idempotent-Pipeline + Atomic-Writes + Concurrency-Control sind Pflicht. Ein falscher Backfill ist Production-Datenverlust — vorher in Staging proben.
152
dbt Layers (Staging / Intermediate / Marts)
Empfohlenes 3-Schichten-Modeling-Muster eines dbt-Projekts. Staging: pro Quelle 1:1-bereinigte Tabelle (Rename, Cast, Dedup). Intermediate: Build-Blocks der Business-Logik. Marts: business-ready Dim-/Fact-Final-Layer. Liefert Konsistenz, Reuse und einen sauberen DAG.
153
Source Freshness
dbt-Feature, das überwacht, wann jede Source-Tabelle zuletzt aktualisiert wurde. "dbt source freshness" feuert Warning- und Error-Schwellen (z. B. 12 h Warn, 24 h Error) und fängt Stale Data, auch wenn die Pipeline lief. Operationaler Wachhund.
154
OBT (One Big Table)
Modeling-Alternative zum Star-Schema — alle Dimensions ins Fact denormalisieren und eine breite Tabelle mit 50-200+ Spalten erzeugen. In Columnar-DWHs wie Snowflake/BigQuery sind Joins teuer; OBT ist für Analyst:innen schneller und oft performanceoptimal.
155
Cube.js
Open-Source Headless-BI-Engine. Generiert SQL, cached, bietet REST/GraphQL-APIs und sitzt auf Snowflake, BigQuery oder Postgres. Erlaubt Frontend-Entwickler:innen, eigene Dashboards zu shippen; entwicklerfreundliche Alternative zu Tableau / Looker.
156
Snowpark
Snowflakes DataFrame-API für Python/Scala/Java. ML-Training, komplexe Transforms, UDFs und Stored Procedures laufen, ohne dass Daten das Warehouse verlassen. Modin + Pandas-on-Snowflake liefern Data-Scientists ein vertrautes Local-Feeling; moderne Bewegung Richtung Zero-Data-Movement.
157
Polars
In Rust geschriebene, multi-threaded, columnar (Arrow-basierte) DataFrame-Library. 5-30× schneller als Pandas, mit Lazy Evaluation und eingebauter Query-Optimization. Pandas-Ersatz moderner Analyst:innen; Bindings für Python, R, JS, Rust.
158
DuckDB
In-Process columnar OLAP-Datenbank — Analytics-Pendant zu SQLite mit MotherDuck als Cloud-Extension. Single File, Single Process; queryt Pandas-DataFrames oder Parquet direkt per SQL. Verdaut auf dem Laptop 1 Mrd. Zeilen in 30 Sek.; täglicher Begleiter moderner Analyst:innen.
159
LLM Eval Harness
Test-Framework, das die Leistung eines LLM über viele Aufgaben automatisch misst. Beispiele: HELM, lm-eval-harness, BigBench, HELM Lite — fahren Benchmarks wie MMLU, HumanEval, GSM8K, ARC. Pflicht-Infrastruktur für Model-Launch und Regression-Tests.
160
Prompt Eval
Test-Set, das die Qualität eines spezifischen Prompts systematisch misst. 50-500 Input × Expected-Output-Paare, automatisch gescored (LLM-as-Judge, BLEU, ROUGE, Exact Match). Pflicht, um Regressionen bei Prompt-Änderungen zu fangen; Tools: PromptLayer, Langfuse, Braintrust.
161
Golden Dataset
Manuell verifiziertes Test-Set, das als Ground-Truth dient. Eval-Harness-Inputs und Expected-Outputs leben hier; nach jedem LLM-Update wird gegen es gescored. Typisch 200-2.000 Beispiele, von Domain-Expert:innen geprüft.
162
Faithfulness (RAG)
Mass dafür, wie treu eine RAG-Antwort dem retrieved Context bleibt. Halluziniert das LLM außerhalb des Kontexts, sinkt Faithfulness; ein LLM-as-Judge prüft pro Satz "gibt es Belege im Kontext?". Kernmetrik in RAGAS und TruLens.
163
Answer Relevance (RAG)
Score, wie relevant die LLM-Antwort für die User-Query ist. Fängt korrekte, aber irrelevante Antworten — "Schönes Wetter heute, aber Paris ist die Hauptstadt von Paris". Gemessen via Cosine-Similarity (Answer-Embedding ↔ Query-Embedding) oder LLM-as-Judge.
164
Context Precision / Recall (RAG)
Zwei Metriken für Retrieval-Qualität in RAG. Precision: wie viele der retrieved Chunks waren wirklich relevant; Recall: wie viele der echten relevanten Chunks wurden geholt. Niedrige Precision = Noise, niedriger Recall = Informationsverlust. Automatisch messbar in RAGAS, ARES.
165
Model Routing
Smarte Schicht, die eine Frage je nach Schwierigkeit, Latenz oder Kostenbudget an unterschiedliche LLMs schickt. Einfache Fragen an Haiku / 3.5-mini, komplexe an Opus / 4.5. OpenRouter, Portkey, Martian bieten Routing-as-a-Service; senkt Durchschnittskosten 5-20×.
166
Cascading Models
Pipeline, in der erst ein kleines/günstiges Modell versucht; bei zu geringer Confidence oder Fail bei Validation wird zum großen/teureren Modell eskaliert. Fail-Over-Variante von Model-Routing; in echten LLM-Apps werden 80 % Traffic zu 20 % Kosten gelöst — ohne Qualitätsverlust.
167
RAG Reranker
Zweite Stufe, die die Top-50-Chunks aus dem Vector-Retrieval per LLM-as-Judge oder Cross-Encoder neu ordnet. Cohere Rerank, BGE-Reranker, Jina Reranker verbreitet; Precision +20-40 %, Retrieval-Faithfulness-Metric verbessert.
168
Chunk Strategy
Wie ein Dokument für RAG zerlegt wird. Optionen: Fixed-Size (z. B. 512 Token), Recursive-Character (Absatz/Satz), Semantic-Chunking (Embedding-basiert), Markdown-aware. Schlechte Chunks = niedrige Retrieval-Precision; Chunk-Size + Overlap treiben RAG-Qualität direkt.
169
Embedding Drift
Embedding-Verteilung echter User-Queries in Produktion wandert über die Zeit von der RAG-Korpus-Embedding-Verteilung weg. Neue Slang/Produkte/Begriffe erhöhen Drift, Retrieval-Recall sinkt. Lösung: Quartalsweise Embedding-Regeneration + New-Data-aware Reindex.
170
HNSW Index (Hierarchical Navigable Small World)
ANN-Indexalgorithmus (Approximate Nearest Neighbor), den die meisten Vector-DBs nutzen. Multi-Layer-Graph; Millisekunden-Latenz über Trillionen Embeddings. Default in Pinecone, Weaviate, Qdrant, Milvus, pgvector.
171
ANN (Approximate Nearest Neighbor)
Algorithmen-Klasse, die statt der exakten Nearest Vectors "gut-genug"-Ergebnisse liefert — Genauigkeit gegen Speed und Speicher tauscht. Beispiele: HNSW, IVF, PQ, ScaNN; bei 95 % Recall sinkt Latenz bis 1.000×. Motor von Vector-Search.
172
Model Card
2019 von Google eingeführte Standardkarte, die Zweck, Training-Data, Performance, Grenzen, ethische Bedenken und Fair-Use-Szenarien eines AI-Modells dokumentiert. Bei Foundation-Model-Launches inzwischen Pflicht; Fundament transparenter AI-Entwicklung.
173
AI Observability
Plattform, die Produktions-LLM-Apps über Traces, Cost, Latenz und Quality-Metrics monitort. Tools: Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; jeder LLM-Call (Prompt, Response, Tokens, Cost, Eval-Score) wird geloggt. LLM-nativer Nachfolger des klassischen APM.
174
Matchmaking (ELO / MMR)
Algorithmus, der Spieler in PvP-Games nach Skill paart. Varianten: ELO (Schach-Erbe), Glicko, TrueSkill, MMR (Match-Making Rating). Trade-off: Smurf-Schutz für Neue gegen Skill-Relax für lange Queues; Kern von League of Legends, Valorant, Dota 2.
175
ARPDAU (Average Revenue Per Daily Active User)
Durchschnittsumsatz pro Daily Active User. Casual-Mobile-Games 0,05-0,20 $, Mid-Core 0,20-0,80 $, Hardcore-RPG 1 $+. Nordstern-Metrik für Live-Ops; mit pLTV gepaart Basis fürs Paid-Acquisition-Budget.
176
Whales / Dolphins / Minnows
Spend-Segmente in F2P-Games. Whales: Top-1 % mit 1.000 $+ Spend; Dolphins: 5-10 % mit 50-1.000 $; Minnows: 15-30 % mit 1-50 $; Free-Rider: 60-80 % nie zahlend. Pareto-Verteilung — Whales liefern 70 %+ Umsatz; sie zu verlieren ist tödlich.
177
Scope 1 / Scope 2 / Scope 3 Emissions
GHG-Protocol-Drei-Eimer-Klassifikation der CO2-Emissionen. Scope 1: direkte Emissionen (Fabrik-Boiler, Firmenfahrzeuge). Scope 2: eingekaufte Elektrizität/Wärme/Kühlung. Scope 3: Supply Chain + Produkt-Lifetime — meist größter Anteil 75-85 %. Skelett des ESG-Reportings.
178
Carbon Footprint
Gesamtsumme der Treibhausgas-Emissionen einer Person, eines Produkts, Unternehmens oder Events über den gesamten Lebenszyklus (in CO₂-Äquivalent). iPhone-Herstellung ~70 kg CO₂e; Transatlantik-Flug ~1,6 t. Im ESG-Reporting Summe von Scope 1 + 2 + 3.
179
Carbon Offset
Externe Projektinvestition zum Ausgleich emittierter Treibhausgase — Aufforstung, Renewables, Methane-Capture, Direct-Air-Capture. Voluntary Carbon Market 2024 ~2 Mrd. $; "Greenwashing"-Kritik stark; Verra, Gold Standard, ICVCM als Qualitäts-Stempel. Umstrittenes Instrument für Net-Zero.
180
CDP (Carbon Disclosure Project)
Globale Plattform, auf der Unternehmen Klima-, Wasser- und Wald-Emissionen standardisiert offenlegen. 2024 berichteten 24.000 Unternehmen und 1.100 Städte; A-D-Scoring erzeugt Druck von Institutional Investors und Customers. Apple, Microsoft, Unilever führen; Supply-Chain-Disclosure-Pflichten breiten sich schnell aus.
181
ESG Reporting (Environmental, Social, Governance)
Standardisierte Berichterstattung der Umwelt-, Sozial- und Governance-Performance eines Unternehmens. Globaler Schirm: CSRD (EU), SEC-Climate-Rule (USA), TCFD-Empfehlungen; Frameworks: SASB, GRI, CDP. Ab 2024 50.000+ EU-Unternehmen CSRD-pflichtig.
182
CSRD (Corporate Sustainability Reporting Directive)
EU-Richtlinie ab 2024, die 50.000+ Großunternehmen (Banken + Versicherer + 250+ MA + 40 Mio. €+ Umsatz) Sustainability-Reporting vorschreibt. Auf ESRS-Standards, mit Double-Materiality (Impact des Unternehmens auf Umwelt + Umwelt auf Unternehmen) + Third-Party-Assurance.
183
Net Zero
Ziel auf Unternehmens-/Länderebene, Emissionen auf Minimum zu reduzieren und den Rest über Offsets/Removals auszugleichen. SBTi (Science Based Targets) validieren das; globales Ziel 2050. Unterschied zu Carbon-Neutral: Net Zero ist strenger — entfernt den Rest, statt ihn nur zu kompensieren.
184
Carbon Neutral vs Net Zero
Carbon-Neutral: Emissionen via Offsets neutralisiert, echte Reduktion nicht erforderlich. Net Zero: zuerst aggressive Emissionsreduktion, dann Rest via Removals (nicht nur Offsets) neutralisiert. Microsoft 2030 Carbon Negative, Apple 2030 Net Zero, Google 2030 24/7-Carbon-Free-Energy.
185
PUE (Power Usage Effectiveness)
Stromeffizienz-Metrik eines Data Centers — Total Facility Power durch IT-Equipment-Power. Ideal 1,0; 2,0 bedeutet je IT-Einheit eine zusätzliche Cooling-/Lighting-Einheit. Hyperscaler (Google, AWS, Azure) im Schnitt 1,10-1,15; On-Prem-Enterprise-DCs 1,5-2,0. Schlüssel-KPI für Sustainability.
186
Green Software Foundation
Linux-Foundation-Projekt, gegründet von Microsoft, Accenture, GitHub, ThoughtWorks, das nachhaltige Software-Entwicklung standardisiert. Pflegt SCI-Standard (Software Carbon Intensity), Green-Software-Practitioner-Zertifizierung, Green-Software-Patterns-Katalog. Sustainability-Guide moderner Dev-Teams.
187
SCI (Software Carbon Intensity)
ISO/IEC-21031-Standard, der CO₂-Äquivalent-Emissionen pro funktionaler Software-Einheit misst. Formel: Energy × Region-Carbon-Intensity + Embodied Emissions. Standardantwort auf "wie viel CO₂ kostet dieser API-Call?" — Fundament moderner Green-Software-Metriken.
188
Renewable Energy Credit (REC)
Handelbares Zertifikat, das 1 MWh erneuerbare Energie repräsentiert. Statt Solar aufs Dach kauft eine Firma RECs und kann ihren Strom als erneuerbar reporten; in den USA Green-e, in Europa GO (Guarantee of Origin). Hauptinstrument der RE100-Commitments.
189
PPA (Power Purchase Agreement)
Direkter, langfristiger (10-25 Jahre) Fixpreis-Vertrag zum Kauf erneuerbarer Energie direkt vom Erzeuger. Rückgrat der Carbon-Free-Energy-Strategien von Hyperscalern wie Google, Amazon, Microsoft; globales Corporate-PPA-Volumen 2024 geschätzt > 50 GW.
190
LCA (Life Cycle Assessment)
ISO-14040-Methodik, die den gesamten Umweltimpact eines Produkts von Rohstoff → Produktion → Nutzung → End-of-Life quantifiziert. Scope: Cradle-to-Grave oder Cradle-to-Cradle. Apples "iPhone hat 70 kg Carbon Footprint" ist ein LCA-Output.
191
Circular Economy
Ökonomisches Modell, das das lineare "Produzieren-Nutzen-Wegwerfen" ablöst und Produkte von Anfang an wiederverwendbar, reparierbar, recyclebar designt. Pionier: Ellen MacArthur Foundation; IKEA Buyback, Patagonia Worn Wear, Apple Self-Service Repair als konkrete Beispiele.
192
Greenwashing
Wenn ein Unternehmen via Marketing "grüner" wirkt, als seine reale Emissions-Performance rechtfertigt. CMA (UK), FTC (USA), EU-CSRD regulieren Greenwashing nun rechtlich; Shell, BP, Volkswagen zahlten über Jahre Multi-Mio.-$-Strafen. Ethische rote Linie der Sustainability-Kommunikation.
193
Carbon Border Adjustment Mechanism (CBAM)
EU-"CO₂-Importsteuer", ab 2026 voll wirksam. Importeure von Stahl, Zement, Aluminium, Dünger, Wasserstoff, Strom in die EU zahlen den ETS-Preis, den die Güter bei EU-Produktion hätten zahlen müssen. Erste große Tarif-Reform, die Lieferketten emissionsbasiert neu ordnet.
194
EPR (Extended Producer Responsibility)
Regulierung, die Hersteller für End-of-Life-Abfall + Recycling-Kosten ihrer Produkte verantwortlich macht. Beispiele: EU-Verpackungsrichtlinie, FR LOM, DE VerpackG, Türkei Sıfır Atık. Hersteller von PET-Flaschen, Kleidung, Elektronik zahlt pro verkaufter Einheit Umweltabgabe.
195
Sustainable Procurement
Einbettung von Umwelt- und Sozialkriterien in die Beschaffungsentscheidungen eines Unternehmens. Lieferanten-Code-of-Conduct, EcoVadis-Sustainability-Rating, Recycled-Material-Anforderung, Fair-Trade-Zertifizierung. Großteil von Scope 3 entsteht hier; operatives Herz modernen CSRD-Reportings.
196
TCFD (Task Force on Climate-related Financial Disclosures)
2017 vom G20 Financial Stability Board veröffentlichtes Framework, das Klima-Risiken und -Chancen in die Finanz-Berichterstattung integriert. Vier Säulen: Governance, Strategy, Risk Management, Metrics & Targets. UK-PRA, Neuseeland, Japan haben es verpflichtend gemacht. Klima-Bein des ESG-Reportings.
197
SBTi (Science Based Targets initiative)
Unabhängige Organisation, die Emissions-Reduktionsziele von Unternehmen gegen den 1,5 °C / Well-below-2 °C-Wissenschaftspfad des Paris-Abkommens validiert. 5.000+ Unternehmen validiert — Microsoft, IKEA, Unilever, Nike, Maersk u. a. Pflicht-Stempel hinter jedem glaubhaften Net-Zero-Claim.
198
EV Charging Network (Tesla Supercharger / Ionity / Electrify America)
Infrastruktur fürs schnelle Laden von E-Autos. Tesla Supercharger 50.000+ Stationen weltweit, NACS-Standard; Europa: Ionity (BMW + VW + Mercedes-Konsortium); USA: Electrify America. Ab 2024 öffnete Tesla NACS für andere EV-Marken; Standard-Konsolidierung beschleunigt.
199
North Star Framework
Von Sean Ellis + Amplitude populär gemacht: Framework, das die eine "Value-for-Customer"-Metrik eines Unternehmens definiert. Spotify "Time Spent Listening", Airbnb "Nights Booked", Slack "Messages Sent in Active Workspaces". Kompass aller Growth- und Produkt-Entscheidungen.
200
Driver Tree
Analyse, die eine Ziel-Metrik (z. B. Revenue) in ihre dahinterliegenden Treiber aufklappt. Naher Verwandter des KPI Trees, kausaler — strukturelle Antwort: "ARR erhöhen via neue Logos oder Expansion?". Klassisches Problem-Solving-Tool bei McKinsey + Bain.
201
Executive Dashboard
Ein-Seiten-Dashboard für C-Suite und Board mit 7-12 Top-Metriken. Business-Decision-Grade-KPIs: MRR, NRR, CAC, Magic Number, Runway, Rule of 40; Weekly-Review. Klassische Formate in Tableau Executive, Looker C-suite, Mode Reports.
202
Operational Dashboard
Dashboard für stündliche/tägliche operative Entscheidungen — Marketing-CPM-Trend, Support-Ticket-Queue, Ops-Order-Backlog. Real-Time oder Near-Real-Time-Refresh; Alerting + Pivot-Drill-Down Pflicht. Verbreitet: Looker Studio, Power BI, Grafana.
203
Drill-Down
Analyse-Verhalten, das per Klick von aggregierter Metrik in Details geht — "Total Revenue" → "by Region" → "by Product" → "by SKU" → "by Transaction". Signature-Self-Service-Analytics-Feature von OLAP-Cubes und modernen BI-Tools (Power BI, Tableau, Looker).
204
Slice & Dice
Multidimensionale Daten entlang verschiedener Dimensionen schneiden und betrachten. "Slice": eine Dimension fixieren, Rest analysieren; "Dice": zwei+ Dimensionen filtern und Subset bilden. Grundverhalten der Pivot-Table, aus OLAP-Cube-Terminologie übernommen.
205
Pivot Table
Excels 1993er-Erfindung — Drag-&-Drop multidimensionaler Daten als Rows, Columns, Values, Filter. Vorfahre modernen BIs; Tableau, Power BI, Looker, Hex tragen das Pivot-Table-Mental-Model ins UX. Lingua Franca der Datenanalyse.
206
Funnel Visualization
Conversion-Flow als schrittweise verengender Funnel-Chart — Awareness → Consideration → Purchase → Retention — um Drop-offs in jedem Schritt zu sehen. Mixpanel, Amplitude, Heap, GA4 mit nativen Funnel-Reports; Kern-Visual für CRO-, Produkt- und Marketing-Teams.
207
Cohort Heatmap
Matrix, die Cohort-Retention (Woche 0 → Woche N) per Farbintensität visualisiert. Y-Achse: Signup-Woche; X-Achse: Post-Signup-Woche; Farbe: Retention-Rate. Zeigt PMF, Onboarding-Qualität und Effekt aktueller Produkt-Changes auf einen Blick.
208
Sankey Diagram
Visualisierung, die Flüsse — User-Journeys, Energy-Flow, Conversion-Pfade — als proportional dicke Bänder zeigt. Ideal für Google-Analytics-Behavior-Flow, Churn-Analyse, Attribution-Journey. Mit d3.js, Plotly oder Power-BI-Sankey-Custom-Visual gebaut.
209
Bullet Chart
Von Stephen Few designt — minimaler Chart, der KPI-Ziel, Actual-Performance und Tier-Bands in einer horizontalen Zeile zeigt. Wesentlich lesbarer als Gauges/Speedometer. Klassiker auf Executive-Dashboards; Tableau + Power BI mit Custom-Visual-Support.
210
Data Storytelling
"Erzähl eine Story und untermauere sie mit Daten" — statt Zahlen + Charts an die Audience zu werfen. Cole Nussbaumer Knaflics "Storytelling with Data" ist das Manifest; schließt die "So-what?"-Lücke zu Entscheider:innen. Umsetzung: Tableau Story, Power BI Bookmarks, Notion-Narrative.
211
Self-Service Analytics
Modell, in dem Business-User eigene Queries + Dashboards bauen — ohne Analyst-Abhängigkeit. Looker LookML, Tableau Ask Data, Power BI Q&A, ThoughtSpot Search-Driven; Semantic-Layer + Data-Governance + Training Pflicht. "Demokratisierungs"-Ziel modernen BIs.
212
Power BI
BI-Plattform von Microsoft — tief im Excel-Ökosystem integriert, am häufigsten genutzte Enterprise-BI. Power Query (ETL), DAX (Formula Language), Power BI Service (Cloud + Collaboration). Mit Microsoft Fabric wachsen Data-Engineering- und AI-Copilot-Integration.
213
Tableau
"Visueller Goldstandard" des BI — stärkstes Drag-&-Drop-Tool für eindrucksvolle Charts. 2003 aus Stanford ausgegründet, 2019 von Salesforce für 15,7 Mrd. $ gekauft. Tableau Desktop + Server + Cloud noch flexibler + künstlerischer als Power BI.
214
ThoughtSpot
Pionier des Search-Driven BI — Nutzer:in tippt natürliche Sprache "show me revenue by region last quarter", Plattform baut SQL + Chart. SpotIQ liefert ML-Auto-Insights — vorne in AI-Augmented BI. 2023 Mode Analytics für 200 Mio. $ übernommen.
215
Microsoft Fabric
2023 von Microsoft gelauncht — Analytics-Plattform, die Power BI, Synapse, Data Factory, Real-Time-Analytics und Copilot in einem SaaS bündelt. OneLake zielt auf "Lakehouse for the masses"; direkter Konkurrent zu Snowflake + Databricks.
216
Real-Time Dashboard
Dashboard, das in Sekunden refresht und "was passiert gerade" zeigt. WebSocket + Streaming-SQL + Push-Notification-Combo. Trading-Plattformen, Gaming-Live-Ops, Real-Time-Support-Queue, IoT-Device-Monitoring. Stacks: Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
217
Embedded Analytics
BI-Dashboards direkt in einer SaaS-App zeigen. Sigma, Mode, Looker Embedded, Cube + Custom-React-Frontend. Infrastruktur jeder App, die Customer-spezifische Daten ausspielt (Shopify Analytics, Stripe Sigma, HubSpot Reports); moderne PLG-Funktion.
218
Slowly Refreshed Dashboard (Daily / Weekly)
Dashboard ohne Real-Time-Bedarf, refresht nach Daily/Weekly-Batch-ETL — Marketing-Weekly-Review, Finance-Month-End-Close, Retention-Cohort-Report. Richtig wegen Cost-Savings + Analytical-Simplicity; Klassiker gegen "Premature-Real-Time"-Anti-Pattern.
219
Anomaly Alerting
Alert, der feuert, wenn eine Metrik statistisch von Saisonal-Pattern + Trend abweicht. Prophet, Datadog Watchdog, Anodot, MonteCarlo, Sigma Anomaly Detection; ML-gesteuerte Dynamic-Alerts statt manueller Schwellen. Kernfähigkeit moderner Data-Observability.
220
Forecasting (Prophet / SARIMA / LSTM)
Zukunftswerte aus Historie vorhersagen. Tools: Prophet (Meta, business-freundlich + Saisonalität), SARIMA (klassische Statistik), LSTM/Transformer (Deep Learning), Darts-Library. Kern-ML-Bereich für Sales-Forecasting, Demand-Planning, Capacity-Planning.
221
Data Catalog (Atlan / Alation / Collibra)
Plattform, die alle Daten-Assets — Tables, Dashboards, ML-Modelle, Metriken — discoverable + dokumentiert macht. Lineage, Tags, Business-Glossar, Data-Quality, Ownership in einem Interface. Die "Wikipedia" moderner Data-Teams.
222
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse)
Next-Gen-BI-Features: Natural-Language-Query, Auto-Insights, Chart-Narrative-Erklärungen. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI, ThoughtSpot Sage; "Why did revenue drop last week?" mit Auto-Root-Cause; Analyst-Rolle wandelt sich.
223
Edge AI
AI-Modelle auf dem Gerät laufen lassen — Phone, Kamera, Drohne, IoT-Sensor — statt in der Cloud. Niedrige Latenz, Privacy, Offline-Betrieb; braucht quantisiertes Modell + NPU + Runtime. Self-Driving-Cars, AR/VR, Smart Cameras.
224
TinyML
ML-Modelle, klein genug, auf MCUs mit Kilobyte-RAM zu laufen. TensorFlow Lite Micro, Edge Impulse, Arduino Nano 33 BLE Sense; Keyword-Spotting, Motion-Detection, Anomaly-Detection. Jahrelange AI-Erfahrung auf batteriebetriebenen IoT-Geräten.
225
Digital Twin
Virtueller Zwilling eines physischen Objekts — Jet-Engine, Fabrik, Stadt, menschlicher Körper — in Echtzeit per Sensordaten synchronisiert. Simulation + Monitoring + Predictive-Maintenance. Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins, Bentley iTwin führen.
226
People Analytics
Disziplin, die ML + Statistik auf Mitarbeiter-Daten anwendet. Attrition-Prediction, Hiring-Quality, Manager-Effectiveness, DEI-Gap-Analyse, Sentiment-Trend. Visier, ChartHop, Lattice, Culture Amp + Workday Adaptive Planning; Data-Driven-Bein der HR.
227
eNPS (Employee Net Promoter Score)
NPS-Score für "Würdest du dieses Unternehmen als Arbeitsplatz weiterempfehlen?". -100 bis +100; >+30 gut, >+50 excellent. Annual Survey + Quarterly Pulse via Culture Amp, Officevibe, 15Five, Lattice. Single-Question-Thermometer des Engagements.
228
Pulse Survey
Moderner Nachfolger der Annual Engagement Survey — kurze 5-10-Fragen-Umfrage, wöchentlich oder zweiwöchentlich. Real-Time-Engagement-Puls, fließt direkt ins Manager-Dashboard. Tools: Officevibe, 15Five, Lattice, Culture Amp; agile + actionable gegenüber klassischer 80-Fragen-Annual.
229
EHR (Electronic Health Record)
Digitaler + teilbarer Datensatz der Patientengesundheit — Medical-History, Labor, Imaging, Rezept. USA: Epic + Cerner 85 %+ Marktanteil; Europa: DocPlanner, Doctolib; Türkei: e-Nabız + MEDULA. Interoperability + Privacy (HIPAA, GDPR, KVKK) als Kernthemen.
230
ClimateTech
Tech-Lösungen für die Klimakrise (Mitigation + Adaptation). Carbon-Capture (Climeworks DAC), Green-Hydrogen, Fusion (Commonwealth Fusion, Helion), Grid-Scale-Battery (Form Energy), Climate-Risk-Modeling (Jupiter). 2024 globales ClimateTech-Investment 40 Mrd. $+; Sequoia, Lowercarbon, Breakthrough Energy als führende Fonds.
231
Carbon Capture (DAC / CCS)
Technologie, die CO₂ aus der Atmosphäre oder direkt aus Industrie-Rauchgas einfängt. Direct Air Capture (Climeworks Orca, Carbon Engineering), Carbon Capture & Storage (CCS) für Fabrik-Abluft. Kosten 300-1.000 $/Tonne; Frontiers 1-Mrd.-$-Advance-Market-Commitment will das auf 100 $ drücken.

— SCHNELLDIAGNOSE

Sind Sie bereit für Analytics-Operations?

Ein interaktiver Wegweiser mit vier Fragen, der Ihnen die passende Programmstufe zeigt. Mit Ja/Nein-Antworten in 30 Sekunden zum Ergebnis.

01 / 04

Haben Sie derzeit mehr als 10 aktive Dashboards oder Excel-Reports?

Dashboard-Flut ist eines der klassischen Symptome fehlender Entscheidungen.

— LET'S BEGIN

Lösen Ihre Dashboards Entscheidungen aus oder sind sie nur Dekoration?

Ein 60-minütiges Analytics-Diagnostic: Ihr aktuelles KPI-Inventar, Dashboard-Dependency-Graph, Gesundheit der Datenquellen und 90-Tage-Roadmap-Empfehlung — auf einer Fläche.