ANALYTICS ORIENTATA ALLA DECISIONE

Data Analysis & Insight Engineering

Non colleghiamo il dato marketing ai dashboard, lo colleghiamo ai meccanismi decisionali. KPI tree, modellazione dbt, MMM bayesiano, test di incrementality e analytics self-serve — l'infrastruttura non della misurazione, ma dell'azione.

Analytics non è 'preparare dashboard'; è un sistema operativo in cui ogni grafico fa partire una decisione.

La maggior parte delle aziende annega dentro 40+ dashboard ma riceve cinque risposte diverse alla stessa domanda da cinque fonti diverse. I KPI si discutono, la decisione si rimanda, vince l'HiPPO. L'operazione analytics di Roibase nasce su sei principi che eliminano questa ambiguità; ogni principio produce decisioni, non dashboard.

Roibase perspective

METODOLOGIA

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

I sei strati dell'operazione analytics; ciascuno produce un artefatto separato e, connettendosi agli altri, alimenta il ciclo decisionale.

01

DIAGNOSE

Inventario decisionale + mappa delle domande

Si elencano le 30 domande che i decision-maker fanno ogni settimana; si chiariscono fonte di risposta, frequenza, SLA e impatto.

02

MODEL

KPI tree + modello dati

Modelli dbt + semantic layer LookML o Metabase; versionati, testabili, documentati.

03

BUILD

Dashboard + sistema di alert

Dashboard per categoria di decisione (CAC, retention, revenue quality); alert con soglie + template di trigger.

04

AUTOMATE

Pipeline + refresh + monitoring

Orchestrazione del refresh con Airflow / Dagster / dbt Cloud; pipeline health + test di data quality + bot Slack.

05

VALIDATE

A/B + incrementality + validation MMM

Gli output del modello si confrontano con gli esperimenti; calibrazione con test di incrementality + simulazioni di scenario MMM.

06

EDUCATE

Data council + formazione self-serve

Data council mensile: quale domanda è rimasta senza risposta, quale dashboard non è stato usato, quale formazione self-serve serve.

— CONFRONTO

Dove ci differenziamo? BI classica vs analytics decision-driven

Un'azienda può pensare che 100 dashboard siano 'analytics'. In realtà il valore vero emerge quando ogni dashboard è legato a una decisione e ogni decisione a un'azione.

DimensioneBI in-house da solaAgenzia di reporting classicaAnalytics decision-driven Roibase
Definizione dei KPISovrapposta tra unitàTemplate dell'agenziaKPI tree + ownership scritta
Filosofia del dashboardAbbondanza di graficiFocus sul PPT trimestraleOgni grafico una decisione
Layer di modellazione datiSQL ad-hoc + ExcelReporting dentro le piattaformedbt + versionato + testato
Ingegneria cohort + LTVLimitata alle metriche medieAssente come reportD1-D90 + segmento + curva LTV
MMM + incrementalityAssentiTentativo su ExcelMMM bayesiano + geo-holdout
Anomalie / sistema di alertControllo manualeAssenteDrift detector ML + Slack/email
Cultura self-serveData team collo di bottigliaReport-drivenLa business unit chiede da sola
Governance + PIIPolicy assenteNon consapevolePII tagging + retention + audit

PROOF

Outcomes, measured

30
Domande decisionali

Numero di domande strategiche a cui si riesce a rispondere nel primo sprint.

−40%
Risparmio tempo di reporting

Ore recuperate dal team marketing sulla preparazione manuale dei dashboard.

3
MMM refresh/anno

Ritmo di aggiornamento in base ai cambi di stagione + channel mix.

18-24
Mesi di orizzonte storico

Range minimo di dati giornalieri per MMM + forecast.

99,2%
Uptime pipeline

SLA dbt + Airflow + monitoring; test di data quality inclusi.

5 giorni
Tempo di pubblicazione dashboard

Tempo medio dal brief al live per un nuovo pannello decisionale.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Architettura KPI tree

Ogni metrica marketing si collega direttamente a un output di business; ogni metrica ha un owner, una fonte, una soglia e una decisione innescata.

02 / 10

Decision-tree dashboard

Non grafici ma decisioni: pannelli disegnati con la logica 'a questa soglia questa azione'; ogni pannello per un ruolo, su una frequenza.

03 / 10

Layer dbt + warehouse + BI

Modelli dati versionati + testabili con dbt; su BigQuery / Snowflake / Redshift; con interfaccia LookML / Metabase / Lightdash.

04 / 10

Ingegneria cohort & retention

Tabelle cohort D1/D7/D30/D90, curve LTV, churn e resurrection per segmento — il comportamento reale sotto la media.

05 / 10

MMM bayesiano

Media, promo, stagionalità e variabili macro modellate insieme; Robyn + PyMC; refresh trimestrale + confidence band.

06 / 10

Modellazione di attribuzione

Approcci GA4 DDA + multi-touch attribution + shapley value; modello decisionale oltre il reporting biased delle piattaforme.

07 / 10

Test di incrementality

Test geo-holdout + matched-market; Meta Lift, GeoLift, framework in-house; affidabilità di riferimento per decisioni di budget.

08 / 10

Rilevamento anomalie

Per metriche che peggiorano in silenzio, drift detector basato su ML + forecast band + alert Slack/email; non al mattino, ma all'ora.

09 / 10

Analytics self-serve

Un ambiente in cui la business unit risponde da sola alle proprie domande (Metabase, Lightdash, Hex) + formazione + mentoring.

10 / 10

Data governance

PII tagging, schema registry, policy di retention, audit degli accessi, pacchetto documentale; operatività conforme KVKK + GDPR.

— OUTPUT

L'impatto dell'operazione dati sul lato decisionale

Più un'organizzazione prende decisioni velocemente, basate sui dati e ripetibili, più è avanti quando il mercato è imprevedibile.

3× velocità

Velocità decisionale

La risposta a tutte e 30 le domande strategiche è sul pannello; in riunione non si discute di dati, ma di azioni.

Data-driven

Meno HiPPO

Non è l'opinione della persona con stipendio più alto a decidere, ma i dati; il confronto avviene su metriche condivise.

−40% ore

Risparmio tempo di reporting

Le routine Excel manuali del team marketing finiscono; le ore recuperate vanno sull'analisi strategica.

Ore, non giorni

Alert precoci + azione

Con ML drift detector + alert su soglia, le metriche che peggiorano vengono intercettate in ore.

50+ user self-serve

Cultura self-serve

La business unit risponde da sola senza aspettare il data team; il data team si concentra sul lavoro strategico.

±8% accuratezza

Accuratezza MMM + forecast

Con MMM bayesiano + calibrazione di incrementality la deviazione forecast resta in banda ±8%; la decisione di budget è sicura.

DELIVERABLE

Output mensili + trimestrali

Gli artefatti concreti dell'operazione analytics; ciascuno viene trasferito al tuo team, al 12° mese funziona in autonomia completa come runbook.

  • Inventario decisionale + mappa di 30 domande

    Lista delle domande che i decision-maker fanno settimanalmente, fonte di risposta, SLA e dati mancanti.

  • KPI tree

    Fonte, owner, soglia e decisione innescata di ogni metrica — un'unica board Miro / FigJam, versionata.

  • Repo dbt + modelli

    Progetto dbt versionato + testabile; layer staging / intermediate / marts, documentazione inclusa.

  • Semantic layer (modelli LookML / Metabase)

    Il layer di metric definitions comuni dietro le domande che la business unit porrà.

  • Pacchetto dashboard

    Primi 15-25 pannelli per categoria di decisione (CAC, retention, revenue quality); ciascuno per ruolo + frequenza.

  • Sistema di alert con soglia

    ML drift detector + forecast band + integrazione Slack/email; le metriche che peggiorano generano alert in ore.

  • Report cohort + retention

    Tabelle D1/D7/D30/D90 + curve LTV + analisi churn per segmento + tasso di resurrection.

  • Modello MMM + report

    MMM bayesiano (Robyn/PyMC); contribution dei canali + saturation + adstock + confidence band.

  • Protocollo test di incrementality

    Framework geo-holdout e matched-market; template per pianificazione + esecuzione + analisi.

  • Runbook di data governance

    PII tagging, schema registry, policy di retention, audit degli accessi — conforme KVKK + GDPR.

  • Sintesi mensile del data council

    Quali domande hanno avuto risposta, quali no, quale dashboard è stato usato, lista di priorità per il mese successivo.

  • Materiale formativo self-serve

    Per la business unit: video formativi Metabase / Lightdash / Hex + glossario SQL/gergo + dataset di pratica.

— PERIMETRO

Cosa è incluso, cosa no?

I confini dell'operazione analytics sono netti. Vederli in anticipo elimina aspettative sbagliate e scope creep.

Cosa copre questo servizio

  • Inventario decisionale + primo sprint da 30 domande
  • KPI tree + ownership scritta + documentazione versionata
  • Setup repo dbt + layer staging/intermediate/marts
  • Integrazione warehouse (BigQuery / Snowflake / Redshift / Databricks)
  • Semantic layer LookML o Metabase
  • Primi 15-25 dashboard + incremento trimestrale
  • Anomaly detection basata su ML + sistema di alert con soglia
  • Analytics cohort + LTV + retention — aggiornamento trimestrale
  • MMM bayesiano (3 refresh/anno)
  • Protocollo ed esecuzione di test di incrementality
  • Runbook di data governance (PII, retention, audit)
  • Data council mensile + flusso di formazione self-serve

Cosa non è incluso (scope opzionale)

  • BI finance / contabilità (consulenza separata sul lato ERP)
  • Costi di compute / licenze warehouse (contratto del cliente)
  • Training di modelli ML custom (al di fuori del forecasting)
  • Infrastruttura di streaming real-time (Kafka, Kinesis — scope separato)
  • Consulenza privacy / legale (con avvocato partner)
  • Rinnovi di licenze BI tool
  • Acquisto dati di terza parte (panel, survey)
  • Esecuzione delle operazioni marketing in sé (PPC / SEO / CRO sono servizi separati)

HOW WE WORK

Processo: dall'audit della settimana 1 alla governance dal mese 6+, operazione analytics end-to-end

01

Settimana 1-2 — Inventario decisionale + audit

Lista delle 30 domande strategiche, inventario dei dashboard attuali, salute delle fonti dati e diagnosi degli SLA.

02

Settimana 3 — KPI tree + schema

KPI tree scritto, metric definitions, ownership; decisione su warehouse schema + layer staging.

03

Settimana 4-5 — Modelli dbt + primi dashboard

dbt staging + intermediate + marts; pubblicazione dei primi 5-8 dashboard; stakeholder review.

04

Settimana 6-8 — Alert + cohort + refresh

Sistema di alert con soglia, report cohort + retention, pipeline di refresh dbt Cloud / Airflow.

05

Mese 3 — Training MMM + primi risultati

MMM bayesiano su 18 mesi storici; contribution dei canali + saturation + prima raccomandazione di revisione del budget.

06

Mese 4 — Protocollo test di incrementality

Framework geo-holdout o matched-market; primo test live, risultati dopo 4-6 settimane.

07

Mese 5 — Data council + formazione self-serve

Parte la routine mensile del data council; flusso di formazione self-serve Metabase / Lightdash per la business unit.

08

Mese 6+ — Refresh trimestrale + governance

Refresh MMM trimestrale, cycle di test di incrementality, audit di data governance; al 12° mese è possibile il passaggio di consegne completo.

— STACK STRUMENTI

Dallo warehouse al BI: lo stack analytics

Lavoriamo tool-agnostici; ma su ogni strato ci sono scelte chiare che generano più valore. Ci adattiamo al tuo stack attuale.

WAREHOUSE

BigQuery (economico, on-demand)Snowflake (enterprise, compute separato)Redshift (stack AWS)Databricks (uso ML-oriented)Postgres (piccola-media scala)

MODELLAZIONE & TRANSFORM

dbt (core + cloud)Dataform (GCP native)Coalesce (visual)Airflow / Dagster (orchestration)Fivetran / Stitch / Airbyte (ingestion)

BI & VISUAL

Looker (semantic layer LookML)Metabase (self-hosted self-serve)Lightdash (BI dbt-native)Tableau (enterprise)Hex / Mode (notebook-driven)Looker Studio (quick-win)

ML & MMM

Robyn (MMM open source di Meta)PyMC / Pyro (modellazione bayesiana)scikit-learn (drift detection)Prophet (forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (data quality)

QUESTIONS

Frequently asked

Per alcune aziende basta; sotto i 10 dashboard, senza join cross-table, in operazioni focus su un solo canale, Looker Studio è una soluzione pratica. Ma con 30+ dashboard, modello dati versionato e accesso role-based diventa necessario Looker / Metabase / Lightdash.

— GLOSSARIO

Terminologia analytics

Quando tra i team lo stesso termine significa la stessa cosa, la discussione accelera la decisione; quando significa cose diverse, cresce il sospetto.

01
KPI Tree
Struttura gerarchica ad albero delle metriche che si diramano dall'output di business principale verso il basso; ogni nodo innesca una decisione.
02
dbt
Data build tool — framework di trasformazione dati basato su SQL, versionato, testabile; lo standard dell'analytics engineering.
03
Semantic Layer
Il layer di metric definitions + business logic dietro il BI tool; con strumenti come LookML, modelli Metabase, Cube.
04
Cohort
Gruppo di utenti che condivide una caratteristica (data di registrazione, canale di acquisition); si analizza il comportamento nel tempo.
05
LTV (Lifetime Value)
Valore totale lifetime di un cliente; gross margin × retention × frequenza d'ordine × valore del carrello.
06
Retention
Percentuale di utenti acquisiti ancora attivi in una finestra temporale (D1, D7, D30, M1, M3). In SaaS e mobile games è una lettura diretta del product-market fit; una curva di coorte che si appiattisce è la firma di un prodotto sano.
07
Churn
Percentuale di utenti che lascia la customer base attiva in una finestra temporale. Nel subscription colpisce direttamente l'MRR; nell'e-commerce è l'inverso del repeat rate. Si separa in voluntary (cancellato) e involuntary (fallimento pagamento); si riduce con onboarding, pricing e messaging lifecycle.
08
MMM (Marketing Mix Modeling)
Modello che stima la contribution dei canali con statistica bayesiana; richiede 18-24 mesi di dati storici.
09
Incrementality
Le conversioni aggiuntive che non sarebbero avvenute senza un canale; si misura con test geo-holdout, indipendente dall'attribution.
10
Anomaly Detection
Ombrello di tecniche che segnalano automaticamente valori fuori dal range atteso in metriche time-series (KPI, conversion, latenza, signal fraud). Si usano STL decomposition, Prophet, isolation forest, modelli OoD neurali; il cervello di alerting e dashboard di observability.
11
Self-Serve Analytics
Ambiente analytics in cui la business unit risponde alle proprie domande senza aspettare il data team; con Metabase, Lightdash, Hex.
12
Data Governance
L'insieme delle policy di qualità, controllo accessi, gestione PII, retention e audit; conformità KVKK/GDPR.
13
ETL / ELT
Extract → Transform → Load (legacy) vs Extract → Load → Transform (moderno). Approcci per spostare i dati dalla sorgente al warehouse. L'ELT poggia sul compute economico dei DW cloud; dbt + BigQuery/Snowflake/Databricks è lo standard attuale.
14
Data Lake
Archivio centrale per tutti i dati strutturati e non strutturati (log, immagini, video, raw event) senza imporre schema. Su S3, GCS o ADLS con formati Parquet/Iceberg/Delta Lake; complementa il warehouse e fonda l'architettura lakehouse.
15
Stream Processing
Elaborare i dati come flusso di event in tempo reale invece che a batch. Stack comuni: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; use case: fraud detection, personalizzazione real-time, telemetria IoT, anomaly alerting.
16
Data Contract
Contratto pre-concordato fra produttori e consumatori di dati su schema, semantica, SLA e ownership. Si gestisce con dbt + Great Expectations + JSON Schema; il muro più affidabile contro la sorpresa "un modello downstream si è rotto".
17
LLM (Large Language Model)
Modello di linguaggio general-purpose con miliardi di parametri transformer, pre-addestrato su enormi corpus di testo. GPT-5, Claude, Gemini, Llama; motore per chat, codice, riassunto, traduzione, retrieval e task di agente — specializzato con fine-tuning o prompt engineering.
18
Transformer
Architettura di rete neurale introdotta in "Attention Is All You Need" (2017) che cattura relazioni a lungo raggio nei dati sequenziali tramite self-attention. Successore di RNN e LSTM; substrato di ogni LLM moderno (GPT, Claude, Llama, Gemini) e modelli vision (ViT).
19
Embedding
Rappresentazione vettoriale ad alta dimensione di una parola, frase, immagine o utente — la similarità semantica si misura per prossimità tra vettori. Valuta comune per recommendation, semantic search, RAG, clustering e anomaly detection; OpenAI ada, Cohere e sentence-BERT sono produttori comuni.
20
RAG (Retrieval-Augmented Generation)
Architettura in cui l'LLM, prima di generare la risposta, recupera documenti rilevanti da una knowledge base esterna (vector DB, doc store) e li inietta nel context. Riduce l'hallucination ed è il modo standard per dare al modello accesso "open-book" a dati freschi/privati — terzetto embedding + retriever + LLM.
21
Vector Database
Database che memorizza embedding in uno spazio vettoriale ad alta dimensione e trova vettori simili in millisecondi tramite algoritmi ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; il vero motore del retrieval nel RAG.
22
Fine-tuning
Processo di ri-addestrare un foundation model pre-addestrato con dati etichettati aggiuntivi (in genere piccoli) per un task o dominio specifico. Full fine-tune, LoRA/QLoRA e instruction-tuning sono varianti comuni; substrato dei casi "assistente custom" su ChatGPT e simili.
23
LoRA (Low-Rank Adaptation)
Tecnica di fine-tuning parameter-efficient che aggiunge piccole matrici "adapter" invece di aggiornare tutti i pesi del foundation model. Addestra ~0,1-1 % dei parametri, taglia la memoria GPU del 70 %+; lo swap di adapter per task rende pratico il serving multi-task.
24
RLHF (Reinforcement Learning from Human Feedback)
Fase finale della pipeline di training di un LLM che allinea le output del modello con le preferenze di valutatori umani. Un reward model + algoritmo PPO/DPO spinge il modello verso output "utili, onesti, non dannosi"; base dell'alignment di ChatGPT.
25
Hallucination
Quando un LLM inventa con sicurezza una fonte, un fatto o una citazione inesistente. Causa: il modello risponde con la stessa confidence a domande fuori dalla distribuzione del training data; mitigata da RAG, citation grounding e self-consistency check — mai eliminata del tutto.
26
Prompt Engineering
Disciplina di progettare sistematicamente il prompt (istruzione + contesto + esempi + formato) perché l'LLM produca l'output voluto. Few-shot, chain-of-thought, role assignment, output schema, system prompt; il livello "come parlargli" di ogni app AI in produzione.
27
Context Window
Numero di token (input + output) che un LLM può elaborare in una chiamata. Va da 8K-128K (GPT-4) a 200K (Claude) e 1M+ (Gemini); capacità critica per analisi di documenti lunghi, conversazione multi-turno e agent state — il RAG è la via alternativa per "estendere" il contesto.
28
Function Calling / Tool Use
Capacità dell'LLM di invocare una funzione esterna (API, query DB, code runner) tramite JSON strutturato invece di testo libero. OpenAI tools, Anthropic tool_use; il protocollo ufficiale con cui gli agent toccano il mondo reale.
29
AI Agent
Costruzione software che usa un LLM come motore decisionale ed esegue task multi-step in autonomia via tool calling + memoria + loop plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; architettura "ricerca → pianifica → esegui tool → arriva all'obiettivo".
30
Foundation Model
Modello grande pre-addestrato su dati ampi e diversi su scala internet, trasferibile a task downstream — LLM, modelli vision (CLIP, ViT), multimodali (GPT-4o, Gemini). Sopra si costruiscono applicazioni via fine-tuning, prompt engineering o RAG.
31
Multimodal AI
Sistema IA in cui lo stesso modello comprende e genera su più modalità — testo + immagine + audio + video. GPT-4o, Gemini, Claude 3.5 vision; substrato di casi cross-modal come OCR, image captioning, video Q&A, trascrizione audio e agent screen-aware.
32
NLP (Natural Language Processing)
Sotto-disciplina dell'IA focalizzata sulla capacità di un computer di capire, generare e trasformare il linguaggio naturale (turco, inglese, ecc.). Tokenization, POS tagging, NER, sentiment analysis, traduzione automatica; gli LLM sono oggi gli strumenti general-purpose più potenti del campo.
33
Token
Unità testuale più piccola che un LLM elabora — può essere parola, sotto-parola o singolo carattere. Un tokenizer (BPE, WordPiece, SentencePiece) converte il testo in token; il pricing OpenAI e i limiti di context window si misurano in token (1 parola inglese ≈ 1,3 token).
34
Temperature
Parametro che controlla la "randomness" della distribuzione di output di un LLM — 0 = sempre il token più probabile (deterministico), 1+ = più creativo/diverso. Valori tipici: 0-0,3 per codice/JSON/numerico, 0,7-1,2 per storia/brainstorm; tarato insieme a top_p.
35
Semantic Search
Approccio di ricerca che restituisce risultati basati sul significato confrontando embedding di query e documenti invece di parole chiave. Indipendente dall'ortografia, cattura sinonimi; motore di retrieval del RAG — costruito su vector DB + ANN.
36
Inference
Fase in cui un modello AI addestrato produce predizioni/generazioni su dati live (l'opposto del training). Latency, throughput, costo per richiesta e lo stack di model serving (vLLM, TGI, Triton); ~90 % del lato produzione di MLOps.
37
OLTP (Online Transaction Processing)
Approccio DB ottimizzato per letture/scritture ad alto volume, riga per riga e bassa latenza. PostgreSQL, MySQL, MongoDB; store standard dietro i backend di app live — carrello e-commerce, sessione utente, prenotazioni.
38
OLAP (Online Analytical Processing)
Approccio DB colonnare ottimizzato per query analitiche su larga scala. BigQuery, Snowflake, Redshift, ClickHouse; scansiona milioni di righe in secondi per aggregazione, GROUP BY e time-series — infrastruttura di BI e dashboard.
39
ACID
Le quattro garanzie dei DB transazionali: Atomicity (tutto o niente), Consistency (le regole non si rompono), Isolation (le op concorrenti non si vedono), Durability (i dati commited restano). Contratto di base degli RDBMS come PostgreSQL, MySQL, Oracle.
40
BASE
Il set di garanzie rilassato dei sistemi distribuiti/NoSQL: Basically Available, Soft state, Eventual consistency. L'opposto di ACID — accetta brevi inconsistenze in cambio di availability + scala. Filosofia di DynamoDB, Cassandra, Riak.
41
Sharding
Dividere un DB su una chiave (user_id mod 16, range temporale) e mettere ogni shard su un server separato. Metodo di scaling orizzontale; i JOIN cross-shard diventano impraticabili e la scelta della shard-key è una decisione architetturale irreversibile.
42
Replication
Mantenere una copia live del DB su più server — per distribuire il carico di lettura (read replica) e garantire failover. Async (Postgres streaming) ha lag ma è veloce, sync è coerente ma lento; ogni strategia è un tradeoff.
43
Eventual Consistency
In un sistema distribuito, un update ha bisogno di tempo per propagarsi a tutte le replica — per una breve finestra nodi diversi possono restituire valori diversi. Default di DynamoDB e Cassandra; non adatto al banking, ideale per il social.
44
CDC (Change Data Capture)
Pattern che cattura event INSERT/UPDATE/DELETE da un DB in tempo reale e li spinge verso sistemi downstream (warehouse, search index, cache). Debezium, Kafka Connect; basato su replication slot + log tailing, alternativa moderna al polling.
45
Star Schema
Approccio di modellazione warehouse in cui una fact table centrale (es. orders) è circondata da tabelle di dimensione (customer, product, date) a forma di stella. Le query BI richiedono pochi JOIN = veloci; architettura canonica per BigQuery, Snowflake.
46
Materialized View
Oggetto DB che scrive fisicamente su disco il risultato di una query SELECT e lo mette in cache. Pre-calcola un'aggregazione complessa invece di ricalcolarla ogni volta; la strategia di refresh (manuale, schedulato, incrementale) è il tradeoff.
47
Normalization
Processo di dividere uno schema DB in tabelle correlate per eliminare ridondanza e anomalie di update (1NF, 2NF, 3NF, BCNF). Standard per l'OLTP; garantisce che ogni update avvenga in un solo posto — a costo di più JOIN.
48
Denormalization
Fondere intenzionalmente tabelle normalizzate accettando ridondanza in cambio di performance di query. Standard per OLAP / data warehouse; abbassa il costo dei JOIN, gestisce il rischio di incoerenza con ETL/CDC.
49
Time-series Database
DB ottimizzato per scritture ad alto volume di metriche con timestamp (uso CPU, sensori IoT, ticker di finanza) e query per range temporale. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy sono feature centrali.
50
Iceberg / Hudi / Delta Lake
Progetti open-source che aggiungono un layer di "table format" sopra l'object storage (S3, GCS), portando schema evolution, ACID, time-travel e concurrent writer. I tre motori standard dell'architettura lakehouse.
51
Data Quality
Disciplina che misura un dataset su accuratezza, completezza, coerenza, freschezza e unicità. Great Expectations, Monte Carlo, Soda automatizzano i test; unica vera difesa contro il "garbage in, garbage out".
52
Data Lineage
Grafo tracciabile di ogni step di trasformazione che un dato attraversa, dalla sorgente (event raw) all'utente finale (KPI di dashboard). Atlan, OpenMetadata, dbt docs; risposta deterministica a "da dove arriva questo KPI?" più impact analysis.
53
Data Mesh
Struttura di data product self-serve per dominio (marketing, finance, product) al posto di un team data centrale. Si fonda su domain ownership + product thinking + federated governance; risposta al problema "data team come bottleneck" su larga scala.
54
Data Catalog
Catalogo centrale che indicizza ogni asset di dati in un'organizzazione (tabella, dashboard, modello ML, colonna) con ricerca, descrizioni e ownership. Atlan, Collibra, OpenMetadata, Amundsen; risposta a "questo dato esiste, chi ne è proprietario?".
55
Schema Evolution
Capacità di un formato dati (Avro, Parquet, JSON) di cambiare nel tempo senza rompere i consumer esistenti quando si aggiungono campi. Richiede disciplina su backward + forward compatibility, campi opzionali e default; critica per CDC, event sourcing, lakehouse.
56
AWS DynamoDB
DB serverless NoSQL key-value + document di AWS. Latenza a una cifra in ms su miliardi di request/sec, partitioning automatico, point-in-time recovery, global table (multi-region). Ideale per backend di gioco, telemetria IoT, session storage, leaderboard.
57
GCP Spanner
DB relazionale di Google, globalmente scalabile, ACID-compliant, a scaling orizzontale. Sintassi SQL + scala tipo DynamoDB + transazioni tipo PostgreSQL; uptime multi-region 99,999 %; fa girare Google Ads/Maps, ideale per fintech.
58
Azure Cosmos DB
DB NoSQL multi-modello a scala globale di Microsoft Azure. API SQL, MongoDB, Cassandra, Gremlin (graph) e Table sullo stesso engine; cinque livelli di coerenza (strong → eventual); latenza e throughput sotto SLA.
59
Prometheus
Layer metriche dello stack monitoring cloud-native. Scraping pull-based da endpoint /metrics; PromQL per query time-series; Alertmanager gestisce le regole di alerting. Standard de-facto su Kubernetes e architetture microservice moderne.
60
Grafana
Piattaforma open-source di data visualization e dashboard. Unifica 100+ data source (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) in un'unica vista; alerting, annotation, templating dei pannelli; pilastro degli schermi NOC dei team SRE.
61
Jaeger
Piattaforma CNCF di distributed tracing. Cattura ogni hop di una request fra microservizi come span; visualizza colli di bottiglia di latenza, dipendenze mancanti e propagazione di errori. 100 % compatibile con lo standard OpenTelemetry.
62
OpenTelemetry (OTel)
Progetto CNCF che unifica l'observability (metric, log, trace) sotto un unico standard vendor-neutral. SDK e auto-instrumentation rendono il codice portabile tra Datadog, New Relic, Honeycomb, Jaeger — rompe il vendor lock-in.
63
ELK Stack
Elasticsearch + Logstash + Kibana — stack open-source di aggregazione, indicizzazione e visualizzazione log. Logstash ingest, Elasticsearch indicizza per full-text search, Kibana per dashboard. Loki + Grafana cresce su scala, ma ELK resta diffusissimo.
64
SLI (Service Level Indicator)
Indicatore numerico della salute di un servizio — tasso di successo, latenza p99, disponibilità. Base di misura di un SLO; risponde oggettivamente a "che % di request è sotto i 200 ms?". Concetto cardine del SRE Book di Google.
65
SLO (Service Level Objective)
Valore target interno che un SLI deve raggiungere — es. "latenza p99 < 200 ms per il 99,9 % di una finestra 30 giorni". Risposta dell'engineering a "quanto è abbastanza affidabile"; fondamento dell'error budget.
66
SLA (Service Level Agreement)
Contratto esterno tra service provider e cliente; riflesso legale di un SLO. Violarlo attiva penalità (rimborsi, credit). Regola: SLA < SLO < SLI — l'engineering mira più stretto della garanzia pubblica.
67
Error Budget
La "quantità di fallimento consentita" derivata dall'SLO. SLO 99,9 % = 0,1 % di error budget = ~43 minuti di downtime/mese. Budget residuo → prendi rischi (release); budget esaurito → modalità stabilizzazione. Bilancio SRE fra innovazione e affidabilità.
68
Diffusion Model
Famiglia di modelli generativi che imparano ad aggiungere rumore ai dati e poi a invertire il processo. Architettura centrale dei generatori image/video moderni (Stable Diffusion, Midjourney, DALL-E 3, Sora). Si allena molto più stabilmente delle GAN e produce output più vari.
69
GAN (Generative Adversarial Network)
Modello generativo in cui due reti neurali — Generator (fake) e Discriminator (giudice reale/fake) — si allenano competendo. Introdotto da Ian Goodfellow nel 2014; tecnologia dietro primi deepfake, ritratti StyleGAN e super-resolution. Oggi largamente offuscato dai diffusion model.
70
CLIP (Contrastive Language-Image Pre-training)
Modello OpenAI del 2021 che allinea immagini e relative caption in uno spazio di embedding condiviso — l'embedding di "foto di un gatto" finisce vicino alle foto reali di gatti. Conditioner text-to-image dentro Stable Diffusion; base della zero-shot image classification e della ricerca visuale.
71
ControlNet
Architettura del 2023 che aggiunge un segnale di conditioning ai diffusion model. Guida la generazione con riferimenti come pose, depth map, canny edge o scribble, abilitando controlli tipo "questa posa ma vestiti diversi". Tra gli add-on più usati dell'ecosistema Stable Diffusion.
72
Adapter Tuning
Approccio di fine-tuning che inserisce piccoli layer "adapter" in un LLM grande invece di riallenare tutti i parametri. Varianti popolari: LoRA, QLoRA, IA³; si allena <1 % dei parametri originali, abbattendo drasticamente il costo GPU.
73
PEFT (Parameter-Efficient Fine-Tuning)
Termine ombrello per approcci che allenano un piccolo sottoinsieme dei parametri invece del fine-tune completo di un LLM da 70B. LoRA, prompt tuning, prefix tuning e adapter tuning sono tutte varianti PEFT. La libreria peft di HuggingFace è lo strumento standard.
74
Quantization (LLM)
Tecnica che comprime i pesi float32/float16 di un modello a int8, int4 o persino int2. Memoria 4-8× più bassa, inferenza 2-3× più veloce, perdita di qualità di solito piccola. Llama.cpp, formato GGUF e algoritmi AWQ/GPTQ sono il tooling standard.
75
Knowledge Distillation
Tecnica che trasferisce il comportamento di un grande modello "teacher" in un modello "student" piccolo. Mirando alle probabilità soft del teacher, lo student raggiunge accuracy quasi identica con molti meno parametri. Trucco dietro DistilBERT, TinyLlama, Phi-3.
76
Mixture of Experts (MoE)
Architettura che, invece di un modello monolitico, instrada ogni token attraverso una selezione sparsa (uno o due) di piccoli sotto-modelli "expert". Usata in Mixtral 8x7B, GPT-4, DeepSeek; riduce i parametri attivi mantenendo capacità e abbattendo il costo di inferenza.
77
Speculative Decoding
Tecnica che accelera l'inferenza LLM: un piccolo modello "draft" propone più token in anticipo, il grande modello "target" li verifica in parallelo e accetta quelli corretti. Speed-up 2-3× a parità di qualità. Standard in vLLM e llama.cpp.
78
KV Cache
Ottimizzazione che mantiene in memoria le matrici Key e Value calcolate per i token precedenti nei layer di attention del transformer. Ogni nuovo token calcola solo il proprio K/V invece di ripetere la storia. Inferenza 10-100× più veloce, ma collo di bottiglia di memoria su contesti lunghi.
79
Attention Head
Uno dei molti piccoli meccanismi di attention che girano in parallelo dentro un Transformer. Ogni head si concentra su un aspetto diverso dell'input — sintassi, posizione, dipendenze a lungo raggio. Modelli come GPT-4 usano 96+ head per layer; mattone della multi-head attention.
80
BPE Tokenizer (Byte-Pair Encoding)
Algoritmo di tokenizzazione che spezza il testo nelle sotto-parole più frequenti — es. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral usano varianti BPE (tiktoken, SentencePiece); vocabolario fisso (~32K-128K), problema OOV risolto.
81
DPO (Direct Preference Optimization)
Alternativa più semplice al RLHF. Invece della complessità reward model + PPO, esegue regressione logistica diretta su coppie "preferita vs rifiutata". Stanford 2023; più stabile, meno iperparametri, metodo di alignment scelto in modelli come Llama 3.
82
Constitutional AI
Metodo introdotto da Anthropic nel 2022 che allinea un modello con una "costituzione" scritta (lista di principi etici) invece di reviewer umani. Il modello critica e migliora i propri output contro la costituzione; base dell'alignment di Claude, noto come RLAIF.
83
Chain-of-Thought (CoT)
Tecnica di prompting che chiede al LLM di "pensare step by step" e scrivere il ragionamento intermedio prima della risposta. Introdotta da un paper Google del 2022; migliora drasticamente matematica, logica e domande multi-step. "Let's think step by step" è la frase magica. Base dei reasoning model moderni (o1, DeepSeek-R1).
84
Few-Shot Prompting
Tecnica che fornisce 2-5 esempi (coppie input → output) nel prompt così l'LLM applichi lo stesso pattern a un nuovo input. Adattamento rapido senza fine-tune — "rispondi come in questi esempi". Soluzione più pratica per classificazione testuale labellata ed estrazione formattata.
85
Zero-Shot Prompting
Approccio di prompting in cui la task è descritta direttamente al LLM senza esempi — es. "traduci questo testo in tedesco". Si basa solo sulla conoscenza del pre-training; con i modelli di frontiera (GPT-4, Claude) basta per la maggior parte delle task.
86
Grounding (LLM)
Tecnica che "ancora" la risposta di un LLM a una fonte di conoscenza esterna — documenti, database o ricerca web. Si usa il contesto recuperato invece della pura memoria parametrica; le hallucination calano drasticamente, le citazioni diventano possibili, la conoscenza resta fresca in real-time.
87
Structured Output (LLM)
Capacità di forzare l'output di un LLM a un JSON schema definito, modello Pydantic o regex. OpenAI structured output, Anthropic tool use, vLLM grammar-constrained sampling. Chiave per passare da testo libero a flusso dati deterministico pronto per la produzione.
88
Tool Use (Agent)
Capacità di un LLM di chiamare tool esterni — web search, code interpreter, calcolatrice, API custom. Tramite il protocollo function calling il modello restituisce "tool name + parametri", il runtime esegue e reinjetta il risultato. Cuore delle architetture agent (Claude Agent SDK, AutoGen, LangGraph).
89
Cross-Modal Embedding
Embedding che rappresentano modalità diverse (testo, immagine, audio) nello stesso spazio vettoriale. CLIP per immagine+testo, ImageBind per testo+immagine+audio+video+depth+termico+IMU. Critico per ricerca multimodale ("trova copy simile a questa foto"), retrieval cross-modal e aggiungere media al RAG.
90
Hybrid Search (BM25 + Vector)
Strategia di retrieval che combina ricerca classica per keyword (BM25/lexical) con similarity vettoriale. BM25 vince su exact-match (ID, codici prodotto); i vettori vincono sul semantico ("come restituisco questo" → "return policy"). Standard d'oro del RAG moderno.
91
Data Fabric
Architettura integrata che unifica sorgenti dati distribuite (cloud, on-prem, SaaS) in un unico layer dati logico. Metadata-driven e AI-augmented; alternativa "integrazione centralizzata" al modello distribuito del data mesh. Talend, Informatica, IBM Cloud Pak sono i prodotti chiave.
92
Medallion Architecture
Pattern di organizzazione del data lake reso popolare da Databricks — layer Bronze (raw), Silver (pulito, conformed) e Gold (business-ready, aggregato). Ogni layer si appoggia al precedente; separa nettamente lineage, qualità e reprocessing.
93
Apache Spark
Motore distribuito in-memory per il processing dei dati. Successore 10-100× più veloce di Hadoop MapReduce; unifica SQL, streaming, ML (MLlib) e graph (GraphX) sotto un'unica API. Cuore di Databricks, managed su AWS EMR, GCP Dataproc, Azure HDInsight; PySpark lo rende lo strumento principale del data engineer.
94
Apache Flink
Motore di processing true-streaming (evento per evento). Rispetto al micro-batch di Spark Streaming offre latenza millisecondo, exactly-once e processing stateful. Alimenta fraud e anomaly detection real-time in Alibaba, Uber, Netflix.
95
Kafka Connect
Framework di connettori source/sink di Apache Kafka. Porta CDC o ingestion batch da 100+ sistemi (Postgres, MySQL, S3, Elasticsearch, Snowflake…) verso Kafka e fa streaming export a sistemi esterni. Il catalogo da 1.000+ connettori di Confluent è il riferimento standard.
96
Singer
Protocollo open-source di data-integration di Stitch (oggi Talend) che muove stream JSON fra "tap" (extract) e "target" (load). Framework ELT modulare e vendor-neutral; cuore di piattaforme ELT open-source come Meltano.
97
Apache Airflow
Piattaforma di orchestrazione di workflow i cui DAG (Directed Acyclic Graph) sono definiti in Python. Nata in Airbnb nel 2014, poi donata alla Apache Foundation. Scheduling, retry, gestione delle dipendenze, web UI; standard de-facto delle data pipeline.
98
Dagster
Framework moderno di orchestrazione dati basato sugli asset. Mentre Airflow è centrato sulle task, Dagster è centrato sui "data asset" — con lineage, type-checking, software-defined asset e testing integrati. Integrazioni first-class con dbt, Fivetran e Snowflake.
99
Prefect
Tool moderno e pythonic di orchestrazione dati con DAG dinamici. Risolve il limite dei DAG statici di Airflow — i flow possono cambiare a runtime — con esecuzione ibrida (cloud + self-hosted) e retry policy granulari. Popolare anche per pipeline ML.
100
Snowflake
Data warehouse managed cloud-native. Compute (warehouse) e storage sono completamente disaccoppiati e scalano indipendentemente. Query SQL su dati semi-strutturati (JSON, Parquet), secure data sharing, time travel (fino a 90 giorni); valida alternativa a BigQuery e Redshift.
101
BigQuery
Data warehouse serverless, columnar, a scala petabyte di Google Cloud. Pricing pay-per-slot; training di modelli ML via SQL (BQML); target di export nativo di GA4; ottimizzazioni geo, JSON e PARTITION/CLUSTER integrate. Cuore dello stack analytics GCP.
102
Databricks
Piattaforma lakehouse fondata dai creatori di Apache Spark. Unisce layer Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog e workspace basati su notebook in un unico prodotto. Pensata per la collaborazione data engineer + analyst + ML engineer; nativa su AWS, Azure e GCP.
103
Apache Iceberg
Open table format per dati petabyte (origine Netflix). Aggiunge ACID, schema evolution, time travel, hidden partitioning e branching sopra Parquet. Supportato da Snowflake, Databricks, BigQuery, Trino; risposta standard al lock-in del data warehouse.
104
Delta Lake
Open table format sviluppato da Databricks e rivale di Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; integrazione più stretta nell'ecosistema Spark. Formato di default sul lato Databricks dell'architettura lakehouse.
105
Parquet
Formato di storage columnar — ogni colonna in blocchi propri. Si leggono solo le colonne necessarie, predicate pushdown supportato, Snappy/Zstd danno forte compressione. Formato di default per Spark, Iceberg, Delta, Snowflake; analitica 10-100× più veloce di CSV/JSON row-based.
106
Apache Avro
Formato di serializzazione binario con schema definiti in JSON. Forte schema evolution (forward/backward compatibility); particolarmente popolare nei payload dei messaggi Kafka. Si usa insieme a uno Schema Registry; controparte row-oriented di Parquet.
107
Schema Registry
Servizio che memorizza, versiona e verifica la compatibilità di schema Avro/Protobuf/JSON centralmente. Parte dello stack Kafka di Confluent; impone il contratto producer-consumer e cattura i breaking change prima della produzione.
108
Window Function (SQL)
Funzioni SQL che calcolano su un insieme di righe ("window"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). Diversamente da GROUP BY le righe non vengono collassate — ognuna ottiene il proprio risultato. Indispensabili per time series, ranking e running total.
109
ELT (Extract, Load, Transform)
Inversione dell'ETL classico: i dati grezzi sono caricati prima nel warehouse/lake e poi trasformati lì con SQL/dbt. Con lo storage economico dei cloud-DWH e compute potente, ELT è il paradigma di default; avvicina la logica di trasformazione agli analyst.
110
Feature Store
Piattaforma che memorizza e serve centralmente le feature (storiche + real-time) consumate dai modelli ML. Risolve il training-serving skew derivando le view offline (batch) e online (low-latency) da un'unica definizione. Strumenti principali: Feast, Tecton, Hopsworks.
111
MLOps
Disciplina che automatizza il ciclo sviluppo-training-deploy-monitor-retrain dei modelli ML. DevOps applicato al ML — experiment tracking (MLflow), model registry, CI/CD per modelli, drift detection e pipeline di retraining.
112
OpenLineage
Standard aperto per eventi di data lineage (LF AI & Data). Permette ad Airflow, Spark, dbt, Flink e altri di emettere eventi lineage nello stesso formato. Integrato da Marquez, Datakin, Astronomer; portatore vendor-neutral del flusso di metadata.
113
Great Expectations
Framework open-source di data quality / validation. Migliaia di check pronti tipo "expect_column_values_to_be_unique" o "expect_column_mean_to_be_between"; si innesta in pipeline Airflow/dbt e genera data doc HTML automaticamente.
114
Apache Atlas
Tool open-source di metadata management e data governance nato nell'ecosistema Hadoop. Tag-based access control, grafi di lineage, business glossary e classification (PII/PCI). Standard dello stack Hortonworks/Cloudera; alternative moderne: Amundsen, DataHub.
115
Lambda Architecture (Data)
Architettura dati che fonde risultati real-time e batch. Lo speed layer (Storm/Flink) produce risultati approssimati a bassa latenza, il batch layer (Spark/Hadoop) calcola risultati precisi ma lenti; lo serving layer li unisce. Da non confondere con AWS Lambda; oggi evolve verso l'architettura Kappa.
116
Differential Privacy
Framework matematico che consente accesso sicuro a statistiche di popolazione proteggendo i record individuali. Si aggiunge rumore calibrato ai risultati delle query; un attaccante non può dire se i dati di una specifica persona siano nel set. Usato dalla tastiera iOS di Apple, Google Play e dal US Census 2020.
117
Federated Learning
Tecnica che allena il modello localmente sui dispositivi degli utenti e invia al server centrale solo gli aggiornamenti di gradiente o pesi, mai i dati grezzi. Auto-suggest di Google Gboard, Siri di Apple e ML privacy-preserving su dati sanitari sono i casi canonici.
118
On-Chain Analytics
Disciplina di estrazione di insight dai dati pubblici delle transazioni di una blockchain — attività dei wallet, concentrazione dei token holder, flusso degli exchange, tracking dello smart money, volume NFT. Dune Analytics (SQL on-chain), Nansen (address etichettati), Glassnode e Arkham sono piattaforme chiave.
119
Oracle (Blockchain)
Servizio ponte che porta dati off-chain affidabili — prezzi, meteo, risultati sportivi, sensori IoT — agli smart contract on-chain. Chainlink è il più usato; Pyth, Band e RedStone sono alternative. Infrastruttura vitale per liquidazioni DeFi, assicurazione e prediction market.
120
Brand Lift Study
Studio che misura come una campagna sposta le metriche di brand — ad recall, brand awareness, message association, purchase intent — confrontando gruppo di controllo ed esposto. Meta, YouTube e TikTok lo offrono nativo; CPM tipico 5-15 $.
121
Incrementality Test
Test che confronta le conversioni guidate dagli ad con una baseline "come se la campagna non fosse girata" per misurare quanto sia davvero incrementale. Metodi: PSA placebo ad, ghost bidding, geo holdout; cura l'illusione "ogni conversion è mia" dell'attribution classica. Gold standard del ROI paid media moderno.
122
Geo Holdout Test
Quasi-esperimento che misura l'impatto incrementale spegnendo gli ad in una geografia specifica (es. New York) e tenendoli accesi altrove. Senza cookie, senza identifier e ATT-proof; il metodo matched-markets / synthetic control è lo standard della marketing science moderna.
123
MTA (Multi-Touch Attribution)
Modello che distribuisce credito pesato a tutti i touchpoint (pubblicità, email, organic, direct) che hanno contribuito a una conversion. Metodi: linear, time-decay, position-based, data-driven. La deprecazione dei cookie e ATT hanno indebolito l'accuratezza dell'MTA; abbinarlo a MMM e incrementality è lo stack moderno più sano.
124
Data-Driven Attribution (DDA)
Modello di attribution che usa il machine learning per apprendere il contributo marginale di ogni touchpoint invece di assegnare tutto al last click. Default in Google Ads + GA4; basato su Shapley value; confronta in modo equo i canali nella stessa fase del funnel. Ha sostituito i modelli rule-based classici.
125
View-Through Conversion (VTC)
Conversion di un utente che ha visto l'annuncio — senza cliccarlo — e ha convertito più tardi. In display e video il 30-60 % delle conversion può essere VTC; valutata male, si sopravvaluta o sottovaluta il canale. La differenza dall'attribution click-only è critica.
126
Attribution Window
Finestra temporale entro cui una conversion viene attribuita a un ad dopo un click o una view. Norma classica: 7-day click + 1-day view; con iOS 14.5 il default ATT è diventato 7-day click + 1-day view + same-day view. Più si accorcia la finestra, meno conversion sembrano prendere i canali.
127
Retention Curve (S-Curve)
Pattern atteso della retention di una coorte che plateauizza a un certo punto. In un'app sana la curva si appiattisce dopo ~90 giorni; in un'app virale o habit-forming resta orizzontale; se continua a scendere, il PMF è debole. La "smiling curve" di Andrew Chen è il riferimento moderno.
128
Activation Rate
Quota di utenti appena registrati che completano la prima azione di valore. Slack misura "il 40 % che invia il primo messaggio", Notion "il 50 % che crea la prima page", Spotify "l'85 % che fa partire la prima canzone". L'activation è l'indicatore più diretto del PMF + onboarding e correla forte con l'LTV.
129
TTV (Time-to-Value)
Tempo che impiega un utente per vivere il primo valore reale (aha moment). Linear: 30 secondi; Figma: 5 minuti; Slack: una settimana. Più breve è il TTV, più alta la retention; stella polare unica dell'onboarding moderno.
130
Activation Metric (Aha-Moment Metric)
Soglia data-driven nella forma "se l'utente compie N azioni in T tempo si retain". Facebook: "10 amici in 14 giorni", Slack "2K messaggi", Twitter "30 follow". Tutto l'onboarding viene ottimizzato su questa metrica; stella polare del growth team.
131
pLTV (Predictive LTV)
Usare il machine learning sui primi eventi (sign-up, primo acquisto, sessione day-1, un IAP) per prevedere l'LTV a 30/90/365 giorni. Soluzione standard per l'attribution iOS post-SKAdNetwork; AppsFlyer, Adjust e Singular hanno integrato il pLTV nei loro stack di ottimizzazione.
132
Uplift Modeling
Approccio ML che identifica in quali segmenti utente un intervento — coupon, push, email — crea davvero un impatto netto extra. Trova il segmento "persuadable" per non disturbare gli altri. Algoritmi: T-learner, X-learner, causal forest. Alza il ROI delle campagne CRM 2-3×.
133
Crashlytics / Sentry Mobile
Piattaforme che raccolgono crash mobile, ANR ed errori JS e li raggruppano con stack trace, dati device e breadcrumb. Firebase Crashlytics (Google, gratis), Sentry, Bugsnag ed Embrace sono le opzioni principali. Target Crash-Free Users 99,5 %+; sotto il 99 % uccide il rating App Store.
134
Mobile APM (Application Performance Monitoring)
Piattaforma che misura la performance dell'app su device reali: startup time, render schermate, request di rete, memoria, batteria e ANR. Firebase Performance, New Relic Mobile, Embrace e Datadog Mobile RUM sono opzioni. Fa emergere i problemi UX che non sono crash.
135
Headless BI
Motore analytics senza layer di visualizzazione proprio che espone tutti i calcoli di metriche e dimensioni via API e GraphQL. Cube, GoodData e AtScale in testa; l'output viene consumato da Tableau, Looker, Notion, Hex, Excel o qualsiasi app React custom. Paradigma moderno che rompe la monogamia da tool BI.
136
Metric Layer
Variante metric-only del semantic layer — astrazione che tiene le definizioni di metriche "single truth" in YAML o SQL. Spectacles di Slack, Minerva di Airbnb e dbt Semantic Layer sono esempi. Se "active user" è 15 % in marketing e 10 % in finance, il drift parte da qui.
137
Data Activation
Processo di portare gli insight dal warehouse ai sistemi operativi — CRM, ad platform, helpdesk, in-app messaging. Il reverse ETL è la tubatura tecnica; ponte fra "data analytics" e "marketing automation". Census, Hightouch e Polytomic sono i tool leader.
138
Composable CDP
Approccio che mette il warehouse (Snowflake, BigQuery) al centro invece di un CDP single-vendor (Segment, mParticle), e ci aggiunge solo i layer che servono — audience, attivazione real-time, identity resolution. Hightouch + Census + RudderStack + Snowplow è lo stack composable tipico.
139
Operational Analytics
Principio per cui gli insight analitici non restano in un dashboard ma scatenano azioni nei sistemi operativi. "Questo utente è inattivo da 7 giorni" appare in un flow win-back di Klaviyo, non in un grafico. Faccia business del reverse ETL — versione moderna dell'"actionable analytics".
140
Looker LookML
Il DSL di data modeling tipo YAML di Looker. Le tabelle diventano "view", le relazioni "explore", le metriche "measure"; approccio BI code-centric che genera SQL. Tutti gli analyst parlano la stessa lingua, version control e workflow Git funzionano — lingua franca dei team data moderni.
141
Mode Analytics
Piattaforma BI che fonde SQL, notebook Python e dashboard in un unico prodotto (ThoughtSpot l'ha acquisita nel 2023). Sweet spot del data analyst: SQL per le query, Python per l'ML, poi dashboard condivisibile. Il versante power-user rispetto all'approccio GUI-only di Tableau.
142
Hex (Notebook BI)
Piattaforma analytics fondata nel 2020 che mette SQL, Python e app interattive no-code nello stesso posto. UI da notebook + Magic AI + builder di app condivisibili; spazio comune per data scientist, analyst e business stakeholder. Stella nascente del BI ibrido moderno.
143
Sigma Computing
Piattaforma BI moderna che mette un'interfaccia in stile foglio di calcolo sopra Snowflake o BigQuery. Gli utenti fanno pivot, formule e analisi what-if alla Excel senza scrivere SQL — ma il motore resta warehouse-native. Forte rivale di Looker nei team finance e ops.
144
Streamlit
Framework open-source basato su Python che permette di consegnare una web app interattiva in 100 righe di script (acquisito da Snowflake nel 2022). Strada di default per data scientist che vogliono pubblicare internal tool, prototipi e demo ML; Plotly Dash e Gradio sono rivali stretti.
145
Snowflake Streams & Tasks
Il duo Snowflake change-data-capture (Streams) + esecuzione SQL schedulata (Tasks). Uno Stream accoda insert/update/delete da una tabella per offset; una Task li processa a cadenza. Le pipeline ELT ottengono automazione Snowflake-native senza Airflow.
146
dbt Tests
Assertion di qualità del dato scritte contro i modelli dbt: not_null, unique, accepted_values, relationships e SQL custom. Girano in CI; validano i dati prima di ogni build di modello. La test suite si arricchisce con integrazioni dbt-utils e Great Expectations.
147
dbt Snapshots
Implementazione dbt-native di Slowly Changing Dimension Type 2. Per una tabella sorgente mutabile (es. orders.status cambia), ogni snapshot run conserva la storia con colonne dbt_valid_from/to. Base dell'audit history e delle query "com'era a quella data".
148
Materialization Strategy (Table / View / Incremental / Ephemeral)
Come un modello dbt viene salvato nel warehouse. View: economica ma ricomputa a ogni query — adatta a piccoli dati. Table: full rebuild — piccoli/medi. Incremental: aggiunge solo nuove righe — grandi dati. Ephemeral: inline come CTE, senza output persistente.
149
SCD (Slowly Changing Dimension)
Pattern per salvare la storia di dimensioni che cambiano lentamente — cliente, prodotto, dipendente. Type 1: solo l'ultimo valore; Type 2: nuova riga a ogni cambio con valid_from/to (storia preservata); Type 3: una colonna single-previous-value. Con DWH moderno + dbt Snapshot SCD2 è il default.
150
Idempotent Pipeline
Pipeline ETL/ELT che, eseguita sullo stesso input, produce lo stesso output e non genera effetti collaterali extra al riesecuzione. Garanzia che backfill, retry e late-arriving data non corrompano il dataset. Si ottiene con MERGE, dedup per primary key e transazioni.
151
Backfill Strategy
Piano per rieseguire una pipeline su dati storici. Si parametrizza il range di date, le partizioni vengono ricalcolate a batch; pipeline idempotente + write atomici + concurrency control sono obbligatori. Un backfill sbagliato è perdita di dati in produzione — provalo prima in staging.
152
dbt Layers (Staging / Intermediate / Marts)
Il pattern di modeling consigliato in 3 layer per un progetto dbt. Staging: una tabella ripulita 1:1 per sorgente (rename, cast, dedup). Intermediate: i mattoni della business logic. Marts: il layer finale dim/fact pronto al business. Porta coerenza, reuse e un DAG pulito.
153
Source Freshness
Feature di dbt che monitora da quanto tempo ogni tabella sorgente è stata aggiornata. Il comando "dbt source freshness" scatena soglie warning ed error (es. 12 h warn, 24 h error) e cattura dati stale anche quando la pipeline non si è rotta. Il cane da guardia operativo.
154
OBT (One Big Table)
Alternativa di modeling allo star schema — denormalizzare tutte le dimensioni nella fact table per ottenere un'unica tabella larga da 50-200+ colonne. Nei DWH columnar tipo Snowflake o BigQuery i join sono costosi; OBT è più veloce per gli analyst e spesso ottimale per la performance.
155
Cube.js
Motore open-source di headless BI. Genera SQL, lo mette in cache, espone API REST/GraphQL e sta sopra Snowflake, BigQuery o Postgres. Permette a uno sviluppatore front-end di pubblicare i propri dashboard; alternativa developer-friendly a Tableau / Looker.
156
Snowpark
API DataFrame di Snowflake per Python, Scala e Java. Permette training ML, transform complesse, UDF e stored procedure senza spostare i dati fuori dal warehouse. Modin e pandas-on-Snowflake danno al data scientist un'esperienza locale familiare; movimento moderno verso lo zero data movement.
157
Polars
Libreria DataFrame multi-thread e columnar (Arrow) scritta in Rust. 5-30× più veloce di pandas con lazy evaluation e ottimizzazione delle query integrata. Il rimpiazzo moderno di pandas per l'analyst; binding Python, R, JS, Rust.
158
DuckDB
Database OLAP columnar in-process — la controparte analytics di SQLite, con MotherDuck come estensione cloud. Un singolo file, un singolo processo; interroga DataFrame pandas o Parquet direttamente in SQL. Macina un miliardo di righe su un laptop in 30 secondi; compagno quotidiano dell'analyst moderno.
159
LLM Eval Harness
Framework di test che misura automaticamente la performance di un LLM su molti task. Esempi: HELM, lm-eval-harness, BigBench, HELM Lite — lancia benchmark standard come MMLU, HumanEval, GSM8K e ARC. Infrastruttura obbligatoria per ogni lancio di modello o regression test.
160
Prompt Eval
Test set che misura sistematicamente la qualità di un prompt specifico. 50-500 coppie input × output atteso con scoring automatico (LLM-as-judge, BLEU, ROUGE, exact match). Obbligatorio per catturare regressioni quando un prompt di produzione cambia; PromptLayer, Langfuse e Braintrust sono tool comuni.
161
Golden Dataset
Test set verificato manualmente, usato come ground truth. Input e output attesi dell'eval harness vivono qui; dopo ogni aggiornamento del LLM si valuta su questo set. Tipicamente 200-2.000 esempi validati da un domain expert.
162
Faithfulness (RAG)
Misura di quanto la risposta di un sistema RAG resti fedele al contesto recuperato. Se il LLM allucina fuori dal contesto, la faithfulness scende; un LLM-as-judge verifica frase per frase "c'è supporto nel contesto?". Metrica chiave nei framework RAGAS e TruLens.
163
Answer Relevance (RAG)
Score di quanto la risposta dell'LLM sia rilevante per la query utente. Cattura risposte corrette ma fuori tema — "Bel tempo oggi, ma Parigi è la capitale di Parigi". Si misura con cosine similarity (embedding risposta ↔ embedding query) o LLM-as-judge.
164
Context Precision / Recall (RAG)
Le due metriche di qualità del retrieval in RAG. Precision: quanti dei chunk recuperati erano davvero rilevanti; Recall: quanti dei chunk davvero rilevanti sono stati recuperati. Bassa precision = rumore, basso recall = informazione persa. Misurate automaticamente da RAGAS, ARES, ecc.
165
Model Routing
Layer smart che instrada una domanda verso LLM diversi in base a difficoltà, latenza o budget. Le semplici vanno a Haiku/3.5-mini, le complesse a Opus/4.5. OpenRouter, Portkey e Martian offrono routing-as-a-service; abbassano il costo medio 5-20×.
166
Cascading Models
Pipeline in cui un modello piccolo/economico prova per primo; se la confidence è sotto soglia o la validation fallisce, si escala a un modello più grande/costoso. Variante fail-over del model routing; in app LLM reali l'80 % del traffico si risolve al 20 % del costo senza perdere qualità.
167
RAG Reranker
Seconda fase che riordina i top-50 chunk usciti dal vector retrieval tramite LLM-as-judge o cross-encoder. Cohere Rerank, BGE-Reranker e Jina Reranker sono diffusi; precision +20-40 %, metrica di retrieval-faithfulness migliorata.
168
Chunk Strategy
Come si spezza un documento per il RAG. Opzioni: fixed-size (es. 512 token), recursive character (paragrafo/frase), semantic chunking (segmentazione su embedding) e markdown-aware. Un chunking sbagliato = bassa retrieval precision; chunk size e overlap guidano direttamente la qualità RAG.
169
Embedding Drift
Quando gli embedding delle query reali in produzione si allontanano nel tempo dalla distribuzione di embedding del corpus RAG. Slang, prodotti e termini nuovi allargano il drift, il retrieval recall scende. Soluzione: rigenerazione trimestrale degli embedding + reindex new-data-aware.
170
HNSW Index (Hierarchical Navigable Small World)
Algoritmo di indice ANN (Approximate Nearest Neighbor) usato dalla maggior parte dei vector DB. Grafo multi-layer; latenza in millisecondi su trilioni di embedding. Default in Pinecone, Weaviate, Qdrant, Milvus e pgvector.
171
ANN (Approximate Nearest Neighbor)
Classe di algoritmi che trova risultati "abbastanza buoni" invece del vicino più prossimo esatto, scambiando accuratezza con velocità e memoria. Esempi: HNSW, IVF, PQ e ScaNN; con recall 95 % la latenza scende fino a 1000×. Motore della vector search.
172
Model Card
Scheda standard (introdotta da Google nel 2019) che documenta scopo, training data, performance, limiti, questioni etiche e scenari di fair-use di un modello AI. Oggi obbligatoria a ogni lancio di foundation model; base dello sviluppo AI trasparente.
173
AI Observability
Piattaforma che monitora app LLM in produzione su trace, costo, latenza e metriche di qualità. Tool: Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; ogni chiamata LLM (prompt, response, token, costo, eval score) viene loggata. Il successore LLM-native dell'APM classico.
174
Matchmaking (ELO / MMR)
Algoritmo che accoppia i giocatori per skill nei giochi PvP. Varianti: ELO (eredità degli scacchi), Glicko, TrueSkill, MMR (Match-Making Rating). Bilancia smurf-protection per i nuovi vs skill-relax per le code lunghe; cuore di League of Legends, Valorant, Dota 2.
175
ARPDAU (Average Revenue Per Daily Active User)
Ricavo medio per utente attivo giornaliero. Mobile casual 0,05-0,20 $, mid-core 0,20-0,80 $, hardcore RPG 1 $+. Stella polare delle decisioni di live ops; abbinata al pLTV è la base del budget di paid acquisition.
176
Whales / Dolphins / Minnows
Segmenti di spesa nei giochi F2P. Whales: top 1 % con 1.000 $+ di spesa; Dolphins: 5-10 % con 50-1.000 $; Minnows: 15-30 % con 1-50 $; Free-rider: 60-80 % che non paga. Distribuzione di Pareto in cui le whale generano oltre il 70 % del revenue — perderle è fatale.
177
Scope 1 / Scope 2 / Scope 3 Emissions
Classificazione in tre secchi delle emissioni di carbonio del GHG Protocol. Scope 1: emissioni dirette (caldaie di fabbrica, veicoli aziendali). Scope 2: elettricità, calore o raffreddamento acquistati. Scope 3: supply chain + ciclo di vita del prodotto — la fetta più grande, 75-85 %. Scheletro del reporting ESG.
178
Carbon Footprint
La somma totale delle emissioni di gas serra causate da una persona, un prodotto, un'azienda o un evento nel suo ciclo di vita (in CO₂-equivalente). Produrre un iPhone significa ~70 kg CO₂e; un volo transatlantico ~1,6 t. Nel reporting ESG è la somma di Scope 1 + 2 + 3.
179
Carbon Offset
Investimento in progetti esterni per compensare le emissioni — riforestazione, energia rinnovabile, cattura del metano, direct air capture. Il voluntary carbon market valeva ~2 mld $ nel 2024 ma è duramente criticato per greenwashing; Verra, Gold Standard e ICVCM sono i marchi di qualità. Strumento controverso verso il Net Zero.
180
CDP (Carbon Disclosure Project)
Piattaforma globale in cui le aziende dichiarano emissioni clima, acqua e foreste in formato standard. Nel 2024 hanno riportato 24.000 aziende e 1.100 città; lo scoring A-D crea pressione su investitori istituzionali e clienti. Apple, Microsoft e Unilever in testa; gli obblighi di disclosure in supply chain si diffondono in fretta.
181
ESG Reporting (Environmental, Social, Governance)
Reporting standard della performance ambientale, sociale e di governance di un'azienda. CSRD (UE), SEC Climate Rule (USA) e raccomandazioni TCFD formano l'ombrello globale; SASB, GRI e CDP sono i framework operativi. Dal 2024 oltre 50.000 aziende UE sono obbligate dal CSRD.
182
CSRD (Corporate Sustainability Reporting Directive)
Direttiva UE in vigore dal 2024 che obbliga al reporting di sostenibilità oltre 50.000 grandi aziende — banche, assicurazioni, imprese con 250+ dipendenti e fatturato 40 M €+. Costruita sugli standard ESRS, con doppia materialità (impatto azienda → ambiente + ambiente → azienda) e assurance di terza parte.
183
Net Zero
Obiettivo a livello aziendale o nazionale di ridurre le emissioni al minimo e bilanciare il residuo con offset o rimozioni. Validato dai Science Based Targets (SBTi); obiettivo globale 2050. Differisce dal carbon-neutral: Net Zero è più severo — rimuove il residuo invece di compensarlo soltanto.
184
Carbon Neutral vs Net Zero
Carbon-neutral: le emissioni si neutralizzano via offset, senza obbligo di riduzione reale; Net Zero: prima si tagliano aggressivamente, poi si neutralizza il resto con removal (non solo offset). Microsoft punta a 2030 Carbon Negative, Apple a 2030 Net Zero e Google a 2030 24/7 carbon-free energy.
185
PUE (Power Usage Effectiveness)
Metrica di efficienza elettrica di un data center — total facility power diviso IT equipment power. Ideale 1,0; 2,0 significa un'unità extra di cooling/lighting per ogni unità IT. Gli hyperscaler (Google, AWS, Azure) sono in media 1,10-1,15; i data center enterprise on-prem 1,5-2,0. KPI di sostenibilità chiave.
186
Green Software Foundation
Progetto Linux Foundation fondato da Microsoft, Accenture, GitHub e ThoughtWorks che standardizza lo sviluppo software sostenibile. Mantiene lo standard SCI (Software Carbon Intensity), la certificazione Green Software Practitioner e il catalogo Green Software Patterns. Guida alla sostenibilità di ogni dev team moderno.
187
SCI (Software Carbon Intensity)
Standard ISO/IEC 21031 che misura le emissioni CO₂-equivalente per unità funzionale di software. Formula: energia × carbon intensity della regione + emissioni embodied. La risposta standard a "quanto carbonio costa questa chiamata API?" — base delle metriche green-software moderne.
188
Renewable Energy Credit (REC)
Certificato negoziabile che rappresenta 1 MWh di energia rinnovabile. Invece di installare pannelli sul tetto, le aziende comprano REC e riportano la loro elettricità come rinnovabile; Green-e negli USA, GO (Garanzie d'Origine) in Europa. Il veicolo principale dietro gli impegni RE100.
189
PPA (Power Purchase Agreement)
Contratto diretto a lungo termine (10-25 anni) e prezzo fisso per comprare elettricità rinnovabile direttamente dal produttore. Spina dorsale delle strategie carbon-free degli hyperscaler (Google, Amazon, Microsoft); volume PPA corporate globale 2024 stimato oltre 50 GW.
190
LCA (Life Cycle Assessment)
Metodologia ISO 14040 che quantifica l'impatto ambientale completo di un prodotto da materie prime → produzione → uso → fine vita. Scope cradle-to-grave o cradle-to-cradle. Il valore "iPhone con footprint di 70 kg di carbonio" di Apple è un output di LCA.
191
Circular Economy
Modello economico che sostituisce il percorso lineare "produrre-usare-buttare" progettando prodotti riutilizzabili, riparabili e riciclabili fin dal giorno zero. Pioniera: Ellen MacArthur Foundation; IKEA Buyback, Patagonia Worn Wear e Apple Self-Service Repair come esempi concreti.
192
Greenwashing
Quando un'azienda sembra più verde tramite il marketing di quanto giustifichi la sua reale performance emissiva. CMA (UK), FTC (USA) e CSRD UE stanno regolando il greenwashing legalmente; Shell, BP e Volkswagen hanno pagato multe multimilionarie negli anni. La linea rossa etica della comunicazione sostenibile.
193
Carbon Border Adjustment Mechanism (CBAM)
La "tassa carbonio sull'import" UE, pienamente in vigore dal 2026. Gli importatori in UE di acciaio, cemento, alluminio, fertilizzanti, idrogeno ed elettricità pagano ciò che avrebbero pagato sotto l'EU ETS se prodotti in UE. Primo grande dazio che riorganizza le supply chain per intensità di emissioni.
194
EPR (Extended Producer Responsibility)
Regolamento che rende il produttore responsabile dei costi di fine vita e riciclo dei suoi prodotti. Esempi: Direttiva UE imballaggi, LOM francese, VerpackG tedesca, Sıfır Atık turco. Un produttore di bottiglie, vestiti o elettronica paga una tassa ambientale per ogni unità venduta.
195
Sustainable Procurement
Integrare criteri ambientali e sociali nelle decisioni di acquisto dell'azienda. Code of Conduct fornitori, rating sostenibilità EcoVadis, requisiti di materiale riciclato e certificazione fair-trade. La maggior parte delle emissioni Scope 3 nasce qui; cuore operativo del reporting CSRD moderno.
196
TCFD (Task Force on Climate-related Financial Disclosures)
Framework pubblicato nel 2017 dal Financial Stability Board del G20 che integra rischi e opportunità climatiche nel reporting finanziario. Quattro pilastri: Governance, Strategy, Risk Management e Metrics & Targets. PRA UK, Nuova Zelanda e Giappone lo hanno reso obbligatorio. La gamba clima del reporting ESG.
197
SBTi (Science Based Targets initiative)
Ente indipendente che valida se gli obiettivi di riduzione delle emissioni di un'azienda sono allineati alla traiettoria science-based 1,5 °C / well-below-2 °C dell'Accordo di Parigi. Oltre 5.000 aziende validate — Microsoft, IKEA, Unilever, Nike, Maersk fra le altre. Timbro obbligatorio dietro qualsiasi claim Net-Zero credibile.
198
EV Charging Network (Tesla Supercharger / Ionity / Electrify America)
Infrastruttura per la ricarica rapida dei veicoli elettrici. Il network Supercharger di Tesla ha oltre 50.000 stazioni nel mondo e usa lo standard NACS; Ionity (consorzio BMW + VW + Mercedes) copre l'Europa; Electrify America copre gli USA. Dal 2024 Tesla ha aperto NACS ad altri marchi EV, accelerando il consolidamento dello standard.
199
North Star Framework
Framework reso popolare da Sean Ellis e Amplitude che definisce l'unica metrica "value-for-customer" di un'azienda. Spotify "time spent listening", Airbnb "nights booked", Slack "messages sent in active workspaces". Bussola di ogni decisione growth e product.
200
Driver Tree
Analisi che apre una metrica obiettivo (es. revenue) nei driver dietro di lei. Cugino stretto del KPI tree, più causale — risposta strutturata a "per alzare l'ARR puntiamo a nuovi logo o expansion?". Tool classico di problem-solving in McKinsey e Bain.
201
Executive Dashboard
Dashboard a una pagina per C-suite e board, con 7-12 metriche di vertice. KPI business-decision-grade — MRR, NRR, CAC, magic number, runway, rule of 40 — revisione settimanale. Formati classici in Tableau Executive, Looker C-suite e Mode Reports.
202
Operational Dashboard
Dashboard per decisioni operative ora-per-ora o giorno-per-giorno — trend del CPM in marketing, coda dei ticket in support, backlog ordini in ops. Refresh real-time o near-real-time; alerting e drill-down pivot obbligatori. Comune in Looker Studio, Power BI e Grafana.
203
Drill-Down
Comportamento di analisi click-through da una metrica aggregata fino al dettaglio — "revenue totale" → "per regione" → "per prodotto" → "per SKU" → "per transazione". Feature firma del self-service analytics di OLAP cube e BI moderni come Power BI, Tableau e Looker.
204
Slice & Dice
Tagliare e ispezionare dati multidimensionali lungo dimensioni diverse. "Slice": fissi una dimensione e analizzi il resto; "Dice": filtri due o più dimensioni insieme per costruire un sottoinsieme. Comportamento base della pivot table, ereditato dal vocabolario OLAP cube.
205
Pivot Table
L'invenzione di Excel del 1993 che permette di drag-and-drop di dati multidimensionali in righe, colonne, valori e filtri. Antenata del BI moderno; Tableau, Power BI, Looker e Hex portano il mental-model pivot nel proprio UX. Lingua franca dell'analisi dati.
206
Funnel Visualization
Mostrare un flusso di conversion come funnel chart che si restringe step-by-step — Awareness → Consideration → Purchase → Retention — per cogliere i drop-off a ogni passo. Mixpanel, Amplitude, Heap e GA4 hanno funnel report nativi; visuale core per CRO, product e marketing.
207
Cohort Heatmap
Matrice che visualizza la retention di coorti (settimana 0 → settimana N) tramite intensità di colore. Asse Y: settimana di signup; asse X: settimana post-signup; colore: tasso di retention. A colpo d'occhio mostra PMF, qualità dell'onboarding e impatto dei cambiamenti di prodotto recenti.
208
Sankey Diagram
Visualizzazione che mostra flussi — user journey, flusso energetico, path di conversion — come nastri di spessore proporzionale. Ideale per behavior flow di Google Analytics, analisi di churn e journey di attribution. Si costruisce con d3.js, Plotly o il custom visual Sankey di Power BI.
209
Bullet Chart
Grafico minimale progettato da Stephen Few che mostra target KPI, performance actual e fasce tier su una singola riga orizzontale. Molto più leggibile di un gauge o speedometer. Classico nei dashboard executive; Tableau e Power BI offrono supporto custom visual.
210
Data Storytelling
Approccio "racconta una storia, poi sostienila con i dati" invece di scaricare numeri e grafici sull'audience. Il libro "Storytelling with Data" di Cole Nussbaumer Knaflic è il manifesto; chiude il gap "so what?" con i decision maker. Si realizza con Tableau Story, bookmark di Power BI e narrativa in Notion.
211
Self-Service Analytics
Modello in cui i business user costruiscono query e dashboard propri senza dipendere da un analyst. Looker LookML, Tableau Ask Data, Power BI Q&A e ThoughtSpot search-driven in testa; servono semantic layer, data governance e training. L'obiettivo di "democratizzazione" del BI moderno.
212
Power BI
Piattaforma BI di Microsoft — integrata in profondità con Excel e BI enterprise più usato. Power Query (ETL), DAX (linguaggio di formula), Power BI Service (cloud + collaboration). Con Microsoft Fabric crescono integrazione data engineering e AI Copilot.
213
Tableau
Lo "standard d'oro visivo" del BI — il tool drag-and-drop più potente per grafici d'impatto. Nato a Stanford nel 2003 e acquisito da Salesforce nel 2019 per 15,7 mld $. Il trio Tableau Desktop + Server + Cloud resta più flessibile e artistico di Power BI.
214
ThoughtSpot
Pioniere del BI search-driven — l'utente digita in linguaggio naturale "show me revenue by region last quarter" e la piattaforma genera SQL e chart. SpotIQ porta auto-insight ML, mettendolo in testa al BI AI-augmented. Ha acquisito Mode Analytics per 200 M $ nel 2023.
215
Microsoft Fabric
Piattaforma analytics lanciata da Microsoft nel 2023 che unifica Power BI, Synapse, Data Factory, Real-Time Analytics e Copilot in un unico SaaS. OneLake punta a essere un "lakehouse for the masses" e rivale diretto di Snowflake e Databricks.
216
Real-Time Dashboard
Dashboard che si aggiorna in secondi mostrando "cosa sta succedendo ora". Combo WebSocket + SQL streaming + push notification. Trading, live ops di gaming, code di support real-time, monitoring IoT. Stack comuni: Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
217
Embedded Analytics
Mostrare dashboard BI direttamente dentro un'app SaaS. Sigma, Mode, Looker Embedded e Cube + frontend React custom in testa. Infrastruttura di qualsiasi app che debba mostrare dati specifici del cliente (Shopify analytics, Stripe Sigma, HubSpot report); feature PLG moderna.
218
Slowly Refreshed Dashboard (Daily / Weekly)
Dashboard che non richiede real-time e si aggiorna dopo un batch ETL giornaliero o settimanale — review settimanale marketing, chiusura mensile finance, report di coorte retention. Scelta giusta per risparmio di compute e semplicità analitica; classico contro l'anti-pattern "premature real-time".
219
Anomaly Alerting
Alert che si scatena quando una metrica devia statisticamente dal proprio pattern stagionale e dal trend. Prophet, Datadog Watchdog, Anodot, MonteCarlo e Sigma Anomaly Detection sostituiscono soglie manuali con alert dinamici ML-driven. Capacità centrale della data observability moderna.
220
Forecasting (Prophet / SARIMA / LSTM)
Predire valori futuri dai dati storici. Tool: Prophet (Meta, business-friendly con seasonality), SARIMA (statistica classica), modelli LSTM e Transformer (deep learning) e libreria Darts. Dominio ML core per forecasting delle vendite, demand planning e capacity planning.
221
Data Catalog (Atlan / Alation / Collibra)
Piattaforma che rende tutti i data asset — tabelle, dashboard, modelli ML, metriche — scopribili e documentati per l'azienda. Lineage, tag, business glossary, data quality e ownership in un'unica UI. La "Wikipedia" del team data moderno.
222
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse)
Feature di BI di nuova generazione: query in linguaggio naturale, insight automatici e narrativa esplicativa del grafico. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI e ThoughtSpot Sage rispondono a "perché il revenue è calato la scorsa settimana?" con root-cause automatica e ridisegnano il ruolo dell'analyst.
223
Edge AI
Eseguire modelli AI sul device — telefono, camera, drone, sensore IoT — invece che in cloud. Bassa latenza, privacy preservata, funzionamento offline; richiede modello quantizzato più NPU e runtime. Alimenta self-driving car, AR/VR e smart camera.
224
TinyML
Modelli ML abbastanza piccoli da entrare in MCU con kilobyte di RAM. Strumenti: TensorFlow Lite Micro, Edge Impulse e Arduino Nano 33 BLE Sense; copre keyword spotting, motion detection e anomaly detection. Porta AI su device IoT a batteria che durano anni.
225
Digital Twin
Replica virtuale di un oggetto fisico — motore di aereo, fabbrica, città, corpo umano — sincronizzata in tempo reale con i dati dei sensori. Unisce simulazione, monitoring e manutenzione predittiva. Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins e Bentley iTwin in testa.
226
People Analytics
Disciplina che applica ML e statistica ai dati dei dipendenti. Copre prediction di attrition, qualità del hiring, efficacia dei manager, analisi del gap DEI e trend di sentiment. Visier, ChartHop, Lattice, Culture Amp e Workday Adaptive Planning in testa; la gamba data-driven dell'HR.
227
eNPS (Employee Net Promoter Score)
Lo score in stile NPS per "consiglieresti questa azienda come posto in cui lavorare?". Va da -100 a +100; sopra +30 buono, sopra +50 eccellente. Viene erogato con survey annuale + pulse trimestrale su Culture Amp, Officevibe, 15Five e Lattice. Termometro a singola domanda dell'engagement.
228
Pulse Survey
Il successore moderno della survey annuale di engagement — un mini-sondaggio da 5-10 domande inviato settimanale o bisettimanale. Polso engagement real-time che arriva diretto sul dashboard del manager. Tool: Officevibe, 15Five, Lattice e Culture Amp; risposta agile e actionable al classico mostro annuale da 80 domande.
229
EHR (Electronic Health Record)
Registro digitale e condivisibile della salute del paziente — storia medica, esami, imaging, prescrizioni. Negli USA Epic e Cerner pesano 85 %+ del mercato; in Europa DocPlanner e Doctolib; in Turchia e-Nabız e MEDULA. L'interoperabilità e la privacy (HIPAA, GDPR, KVKK) sono al cuore del settore.
230
ClimateTech
Soluzioni tech per la crisi climatica — mitigation e adaptation. Cattura carbonio (Climeworks DAC), idrogeno verde, fusion (Commonwealth Fusion, Helion), batterie grid-scale (Form Energy) e modellazione del climate risk (Jupiter). Investimento globale ClimateTech oltre 40 mld $ nel 2024; Sequoia, Lowercarbon e Breakthrough Energy fra i fondi leader.
231
Carbon Capture (DAC / CCS)
Tecnologia che cattura CO₂ dall'atmosfera o direttamente dai flue gas industriali. Direct Air Capture (Climeworks Orca, Carbon Engineering) e Carbon Capture & Storage (CCS) per i fumi di fabbrica. Costo 300-1.000 $ a tonnellata; l'advance market commitment da 1 mld $ di Frontier punta a portarlo a 100 $.

— DIAGNOSI RAPIDA

Sei pronto per un'operazione analytics?

Un navigatore interattivo in quattro domande che ti mostra il livello di programma più adatto. Risposte Sì/No, risultato in 30 secondi.

01 / 04

Al momento hai più di 10 dashboard attivi o report Excel?

L'abbondanza di dashboard è uno dei sintomi classici della mancanza di decisioni.

— LET'S BEGIN

I tuoi dashboard innescano decisioni o sono solo decorazione?

Diagnostica analytics di 60 minuti: inventario KPI attuale, grafo di dipendenza dei dashboard, salute delle fonti dati e raccomandazione di roadmap a 90 giorni — in un unico pannello.