Quanti mesi di dati servono per l'MMM?

Minimo 18 mesi a granularità giornaliera. 24 mesi sono ideali — così stagionalità (1 anno) + effetto promo + cambi di channel mix si modellano insieme. Meno dati = confidence band più ampia = decisioni meno affidabili.

Ho già un data team, perché lavorare con voi?

L'analytics engineering (dbt, LookML, MMM, incrementality) è una disciplina specifica; è lo scheletro ibrido di data engineer + data analyst + ML engineer. All'inizio costruiamo insieme, dopo 6-12 mesi ti consegniamo l'operatività con runbook.

La scelta degli strumenti è nostra?

Sì. Lavoriamo tool-agnostici. Ti proponiamo la combinazione dbt + warehouse + BI più adatta; ci adattiamo al tuo stack attuale. Nessun lock-in.

Come viene condotto un test di incrementality?

Due metodi: (1) geo-holdout — chiudi il canale in una geografia e la confronti con un'altra (framework GeoLift); (2) matched-market — si confrontano due mercati statisticamente simili. Entrambi richiedono un test cycle di 4-6 settimane + analisi post-test.

Qual è il range di costo?

Setup primi 3 mesi tra 18-40k USD (warehouse + dbt + BI + MMM). Manutenzione mensile 4-10k USD. Compute warehouse a parte (media 200-2000 USD/mese). Su progetti Enterprise con forte focus MMM + incrementality lo scope si amplia.

Quando si avvia la self-serve?

Di solito dopo il 3° mese. Nei primi 3 mesi si rifiniscono modello dati + dashboard; dopo la stabilizzazione si apre Metabase/Lightdash alla business unit e si fa formazione. Al 6° mese l'obiettivo tipico è 30-50 user self-serve attivi.

Di chi è la responsabilità sulla data governance?

Runbook e framework di policy sono a carico nostro; l'applicazione e la gestione accessi restano al tuo team IT / security. Per la conformità KVKK / GDPR lavoriamo insieme al tuo partner legale — l'implementazione tecnica è nostra.

ANALYTICS ORIENTATA ALLA DECISIONE

Data Analysis & Insight Engineering

Non colleghiamo il dato marketing ai dashboard, lo colleghiamo ai meccanismi decisionali. KPI tree, modellazione dbt, MMM bayesiano, test di incrementality e analytics self-serve — l'infrastruttura non della misurazione, ma dell'azione.

Parliamo di strategia

Contatti

SERVICE

Active capacity

Analytics non è 'preparare dashboard'; è un sistema operativo in cui ogni grafico fa partire una decisione.

La maggior parte delle aziende annega dentro 40+ dashboard ma riceve cinque risposte diverse alla stessa domanda da cinque fonti diverse. I KPI si discutono, la decisione si rimanda, vince l'HiPPO. L'operazione analytics di Roibase nasce su sei principi che eliminano questa ambiguità; ogni principio produce decisioni, non dashboard.

Roibase perspective

METODOLOGIA

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

I sei strati dell'operazione analytics; ciascuno produce un artefatto separato e, connettendosi agli altri, alimenta il ciclo decisionale.

DIAGNOSE

Inventario decisionale + mappa delle domande

Si elencano le 30 domande che i decision-maker fanno ogni settimana; si chiariscono fonte di risposta, frequenza, SLA e impatto.

MODEL

KPI tree + modello dati

Modelli dbt + semantic layer LookML o Metabase; versionati, testabili, documentati.

BUILD

Dashboard + sistema di alert

Dashboard per categoria di decisione (CAC, retention, revenue quality); alert con soglie + template di trigger.

AUTOMATE

Pipeline + refresh + monitoring

Orchestrazione del refresh con Airflow / Dagster / dbt Cloud; pipeline health + test di data quality + bot Slack.

VALIDATE

A/B + incrementality + validation MMM

Gli output del modello si confrontano con gli esperimenti; calibrazione con test di incrementality + simulazioni di scenario MMM.

EDUCATE

Data council + formazione self-serve

Data council mensile: quale domanda è rimasta senza risposta, quale dashboard non è stato usato, quale formazione self-serve serve.

— CONFRONTO

Dove ci differenziamo? BI classica vs analytics decision-driven

Un'azienda può pensare che 100 dashboard siano 'analytics'. In realtà il valore vero emerge quando ogni dashboard è legato a una decisione e ogni decisione a un'azione.

Dimensione	BI in-house da sola	Agenzia di reporting classica	Analytics decision-driven Roibase
Definizione dei KPI	Sovrapposta tra unità	Template dell'agenzia	KPI tree + ownership scritta
Filosofia del dashboard	Abbondanza di grafici	Focus sul PPT trimestrale	Ogni grafico una decisione
Layer di modellazione dati	SQL ad-hoc + Excel	Reporting dentro le piattaforme	dbt + versionato + testato
Ingegneria cohort + LTV	Limitata alle metriche medie	Assente come report	D1-D90 + segmento + curva LTV
MMM + incrementality	Assenti	Tentativo su Excel	MMM bayesiano + geo-holdout
Anomalie / sistema di alert	Controllo manuale	Assente	Drift detector ML + Slack/email
Cultura self-serve	Data team collo di bottiglia	Report-driven	La business unit chiede da sola
Governance + PII	Policy assente	Non consapevole	PII tagging + retention + audit

PROOF

Outcomes, measured

Domande decisionali

Numero di domande strategiche a cui si riesce a rispondere nel primo sprint.

−40%

Risparmio tempo di reporting

Ore recuperate dal team marketing sulla preparazione manuale dei dashboard.

MMM refresh/anno

Ritmo di aggiornamento in base ai cambi di stagione + channel mix.

18-24

Mesi di orizzonte storico

Range minimo di dati giornalieri per MMM + forecast.

99,2%

Uptime pipeline

SLA dbt + Airflow + monitoring; test di data quality inclusi.

5 giorni

Tempo di pubblicazione dashboard

Tempo medio dal brief al live per un nuovo pannello decisionale.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Architettura KPI tree

Ogni metrica marketing si collega direttamente a un output di business; ogni metrica ha un owner, una fonte, una soglia e una decisione innescata.

02 / 10

Decision-tree dashboard

Non grafici ma decisioni: pannelli disegnati con la logica 'a questa soglia questa azione'; ogni pannello per un ruolo, su una frequenza.

03 / 10

Layer dbt + warehouse + BI

Modelli dati versionati + testabili con dbt; su BigQuery / Snowflake / Redshift; con interfaccia LookML / Metabase / Lightdash.

04 / 10

Ingegneria cohort & retention

Tabelle cohort D1/D7/D30/D90, curve LTV, churn e resurrection per segmento — il comportamento reale sotto la media.

05 / 10

MMM bayesiano

Media, promo, stagionalità e variabili macro modellate insieme; Robyn + PyMC; refresh trimestrale + confidence band.

06 / 10

Modellazione di attribuzione

Approcci GA4 DDA + multi-touch attribution + shapley value; modello decisionale oltre il reporting biased delle piattaforme.

07 / 10

Test di incrementality

Test geo-holdout + matched-market; Meta Lift, GeoLift, framework in-house; affidabilità di riferimento per decisioni di budget.

08 / 10

Rilevamento anomalie

Per metriche che peggiorano in silenzio, drift detector basato su ML + forecast band + alert Slack/email; non al mattino, ma all'ora.

09 / 10

Analytics self-serve

Un ambiente in cui la business unit risponde da sola alle proprie domande (Metabase, Lightdash, Hex) + formazione + mentoring.

10 / 10

Data governance

PII tagging, schema registry, policy di retention, audit degli accessi, pacchetto documentale; operatività conforme KVKK + GDPR.

— OUTPUT

L'impatto dell'operazione dati sul lato decisionale

Più un'organizzazione prende decisioni velocemente, basate sui dati e ripetibili, più è avanti quando il mercato è imprevedibile.

3× velocità

Velocità decisionale

La risposta a tutte e 30 le domande strategiche è sul pannello; in riunione non si discute di dati, ma di azioni.

Data-driven

Meno HiPPO

Non è l'opinione della persona con stipendio più alto a decidere, ma i dati; il confronto avviene su metriche condivise.

−40% ore

Risparmio tempo di reporting

Le routine Excel manuali del team marketing finiscono; le ore recuperate vanno sull'analisi strategica.

Ore, non giorni

Alert precoci + azione

Con ML drift detector + alert su soglia, le metriche che peggiorano vengono intercettate in ore.

50+ user self-serve

Cultura self-serve

La business unit risponde da sola senza aspettare il data team; il data team si concentra sul lavoro strategico.

±8% accuratezza

Accuratezza MMM + forecast

Con MMM bayesiano + calibrazione di incrementality la deviazione forecast resta in banda ±8%; la decisione di budget è sicura.

DELIVERABLE

Output mensili + trimestrali

Gli artefatti concreti dell'operazione analytics; ciascuno viene trasferito al tuo team, al 12° mese funziona in autonomia completa come runbook.

Inventario decisionale + mappa di 30 domande
Lista delle domande che i decision-maker fanno settimanalmente, fonte di risposta, SLA e dati mancanti.
KPI tree
Fonte, owner, soglia e decisione innescata di ogni metrica — un'unica board Miro / FigJam, versionata.
Repo dbt + modelli
Progetto dbt versionato + testabile; layer staging / intermediate / marts, documentazione inclusa.
Semantic layer (modelli LookML / Metabase)
Il layer di metric definitions comuni dietro le domande che la business unit porrà.
Pacchetto dashboard
Primi 15-25 pannelli per categoria di decisione (CAC, retention, revenue quality); ciascuno per ruolo + frequenza.
Sistema di alert con soglia
ML drift detector + forecast band + integrazione Slack/email; le metriche che peggiorano generano alert in ore.
Report cohort + retention
Tabelle D1/D7/D30/D90 + curve LTV + analisi churn per segmento + tasso di resurrection.
Modello MMM + report
MMM bayesiano (Robyn/PyMC); contribution dei canali + saturation + adstock + confidence band.
Protocollo test di incrementality
Framework geo-holdout e matched-market; template per pianificazione + esecuzione + analisi.
Runbook di data governance
PII tagging, schema registry, policy di retention, audit degli accessi — conforme KVKK + GDPR.
Sintesi mensile del data council
Quali domande hanno avuto risposta, quali no, quale dashboard è stato usato, lista di priorità per il mese successivo.
Materiale formativo self-serve
Per la business unit: video formativi Metabase / Lightdash / Hex + glossario SQL/gergo + dataset di pratica.

— PERIMETRO

Cosa è incluso, cosa no?

I confini dell'operazione analytics sono netti. Vederli in anticipo elimina aspettative sbagliate e scope creep.

Cosa copre questo servizio

Inventario decisionale + primo sprint da 30 domande
KPI tree + ownership scritta + documentazione versionata
Setup repo dbt + layer staging/intermediate/marts
Integrazione warehouse (BigQuery / Snowflake / Redshift / Databricks)
Semantic layer LookML o Metabase
Primi 15-25 dashboard + incremento trimestrale
Anomaly detection basata su ML + sistema di alert con soglia
Analytics cohort + LTV + retention — aggiornamento trimestrale
MMM bayesiano (3 refresh/anno)
Protocollo ed esecuzione di test di incrementality
Runbook di data governance (PII, retention, audit)
Data council mensile + flusso di formazione self-serve

Cosa non è incluso (scope opzionale)

BI finance / contabilità (consulenza separata sul lato ERP)
Costi di compute / licenze warehouse (contratto del cliente)
Training di modelli ML custom (al di fuori del forecasting)
Infrastruttura di streaming real-time (Kafka, Kinesis — scope separato)
Consulenza privacy / legale (con avvocato partner)
Rinnovi di licenze BI tool
Acquisto dati di terza parte (panel, survey)
Esecuzione delle operazioni marketing in sé (PPC / SEO / CRO sono servizi separati)

HOW WE WORK

Processo: dall'audit della settimana 1 alla governance dal mese 6+, operazione analytics end-to-end

Settimana 1-2 — Inventario decisionale + audit

Lista delle 30 domande strategiche, inventario dei dashboard attuali, salute delle fonti dati e diagnosi degli SLA.

Settimana 3 — KPI tree + schema

KPI tree scritto, metric definitions, ownership; decisione su warehouse schema + layer staging.

Settimana 4-5 — Modelli dbt + primi dashboard

dbt staging + intermediate + marts; pubblicazione dei primi 5-8 dashboard; stakeholder review.

Settimana 6-8 — Alert + cohort + refresh

Sistema di alert con soglia, report cohort + retention, pipeline di refresh dbt Cloud / Airflow.

Mese 3 — Training MMM + primi risultati

MMM bayesiano su 18 mesi storici; contribution dei canali + saturation + prima raccomandazione di revisione del budget.

Mese 4 — Protocollo test di incrementality

Framework geo-holdout o matched-market; primo test live, risultati dopo 4-6 settimane.

Mese 5 — Data council + formazione self-serve

Parte la routine mensile del data council; flusso di formazione self-serve Metabase / Lightdash per la business unit.

Mese 6+ — Refresh trimestrale + governance

Refresh MMM trimestrale, cycle di test di incrementality, audit di data governance; al 12° mese è possibile il passaggio di consegne completo.

— STACK STRUMENTI

Dallo warehouse al BI: lo stack analytics

Lavoriamo tool-agnostici; ma su ogni strato ci sono scelte chiare che generano più valore. Ci adattiamo al tuo stack attuale.

WAREHOUSE

BigQuery (economico, on-demand)Snowflake (enterprise, compute separato)Redshift (stack AWS)Databricks (uso ML-oriented)Postgres (piccola-media scala)

MODELLAZIONE & TRANSFORM

dbt (core + cloud)Dataform (GCP native)Coalesce (visual)Airflow / Dagster (orchestration)Fivetran / Stitch / Airbyte (ingestion)

BI & VISUAL

Looker (semantic layer LookML)Metabase (self-hosted self-serve)Lightdash (BI dbt-native)Tableau (enterprise)Hex / Mode (notebook-driven)Looker Studio (quick-win)

ML & MMM

Robyn (MMM open source di Meta)PyMC / Pyro (modellazione bayesiana)scikit-learn (drift detection)Prophet (forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (data quality)

QUESTIONS

Frequently asked

Per alcune aziende basta; sotto i 10 dashboard, senza join cross-table, in operazioni focus su un solo canale, Looker Studio è una soluzione pratica. Ma con 30+ dashboard, modello dati versionato e accesso role-based diventa necessario Looker / Metabase / Lightdash.

— GLOSSARIO

Terminologia analytics

Quando tra i team lo stesso termine significa la stessa cosa, la discussione accelera la decisione; quando significa cose diverse, cresce il sospetto.

KPI Tree: Struttura gerarchica ad albero delle metriche che si diramano dall'output di business principale verso il basso; ogni nodo innesca una decisione.
dbt: Data build tool — framework di trasformazione dati basato su SQL, versionato, testabile; lo standard dell'analytics engineering.
Semantic Layer: Il layer di metric definitions + business logic dietro il BI tool; con strumenti come LookML, modelli Metabase, Cube.
Cohort: Gruppo di utenti che condivide una caratteristica (data di registrazione, canale di acquisition); si analizza il comportamento nel tempo.
LTV (Lifetime Value): Valore totale lifetime di un cliente; gross margin × retention × frequenza d'ordine × valore del carrello.
Retention: Percentuale di utenti acquisiti ancora attivi in una finestra temporale (D1, D7, D30, M1, M3). In SaaS e mobile games è una lettura diretta del product-market fit; una curva di coorte che si appiattisce è la firma di un prodotto sano.
Churn: Percentuale di utenti che lascia la customer base attiva in una finestra temporale. Nel subscription colpisce direttamente l'MRR; nell'e-commerce è l'inverso del repeat rate. Si separa in voluntary (cancellato) e involuntary (fallimento pagamento); si riduce con onboarding, pricing e messaging lifecycle.
MMM (Marketing Mix Modeling): Modello che stima la contribution dei canali con statistica bayesiana; richiede 18-24 mesi di dati storici.
Incrementality: Le conversioni aggiuntive che non sarebbero avvenute senza un canale; si misura con test geo-holdout, indipendente dall'attribution.
Anomaly Detection: Ombrello di tecniche che segnalano automaticamente valori fuori dal range atteso in metriche time-series (KPI, conversion, latenza, signal fraud). Si usano STL decomposition, Prophet, isolation forest, modelli OoD neurali; il cervello di alerting e dashboard di observability.
Self-Serve Analytics: Ambiente analytics in cui la business unit risponde alle proprie domande senza aspettare il data team; con Metabase, Lightdash, Hex.
Data Governance: L'insieme delle policy di qualità, controllo accessi, gestione PII, retention e audit; conformità KVKK/GDPR.
ETL / ELT: Extract → Transform → Load (legacy) vs Extract → Load → Transform (moderno). Approcci per spostare i dati dalla sorgente al warehouse. L'ELT poggia sul compute economico dei DW cloud; dbt + BigQuery/Snowflake/Databricks è lo standard attuale.
Data Lake: Archivio centrale per tutti i dati strutturati e non strutturati (log, immagini, video, raw event) senza imporre schema. Su S3, GCS o ADLS con formati Parquet/Iceberg/Delta Lake; complementa il warehouse e fonda l'architettura lakehouse.
Stream Processing: Elaborare i dati come flusso di event in tempo reale invece che a batch. Stack comuni: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; use case: fraud detection, personalizzazione real-time, telemetria IoT, anomaly alerting.
Data Contract: Contratto pre-concordato fra produttori e consumatori di dati su schema, semantica, SLA e ownership. Si gestisce con dbt + Great Expectations + JSON Schema; il muro più affidabile contro la sorpresa "un modello downstream si è rotto".
LLM (Large Language Model): Modello di linguaggio general-purpose con miliardi di parametri transformer, pre-addestrato su enormi corpus di testo. GPT-5, Claude, Gemini, Llama; motore per chat, codice, riassunto, traduzione, retrieval e task di agente — specializzato con fine-tuning o prompt engineering.
Transformer: Architettura di rete neurale introdotta in "Attention Is All You Need" (2017) che cattura relazioni a lungo raggio nei dati sequenziali tramite self-attention. Successore di RNN e LSTM; substrato di ogni LLM moderno (GPT, Claude, Llama, Gemini) e modelli vision (ViT).
Embedding: Rappresentazione vettoriale ad alta dimensione di una parola, frase, immagine o utente — la similarità semantica si misura per prossimità tra vettori. Valuta comune per recommendation, semantic search, RAG, clustering e anomaly detection; OpenAI ada, Cohere e sentence-BERT sono produttori comuni.
RAG (Retrieval-Augmented Generation): Architettura in cui l'LLM, prima di generare la risposta, recupera documenti rilevanti da una knowledge base esterna (vector DB, doc store) e li inietta nel context. Riduce l'hallucination ed è il modo standard per dare al modello accesso "open-book" a dati freschi/privati — terzetto embedding + retriever + LLM.
Vector Database: Database che memorizza embedding in uno spazio vettoriale ad alta dimensione e trova vettori simili in millisecondi tramite algoritmi ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; il vero motore del retrieval nel RAG.
Fine-tuning: Processo di ri-addestrare un foundation model pre-addestrato con dati etichettati aggiuntivi (in genere piccoli) per un task o dominio specifico. Full fine-tune, LoRA/QLoRA e instruction-tuning sono varianti comuni; substrato dei casi "assistente custom" su ChatGPT e simili.
LoRA (Low-Rank Adaptation): Tecnica di fine-tuning parameter-efficient che aggiunge piccole matrici "adapter" invece di aggiornare tutti i pesi del foundation model. Addestra ~0,1-1 % dei parametri, taglia la memoria GPU del 70 %+; lo swap di adapter per task rende pratico il serving multi-task.
RLHF (Reinforcement Learning from Human Feedback): Fase finale della pipeline di training di un LLM che allinea le output del modello con le preferenze di valutatori umani. Un reward model + algoritmo PPO/DPO spinge il modello verso output "utili, onesti, non dannosi"; base dell'alignment di ChatGPT.
Hallucination: Quando un LLM inventa con sicurezza una fonte, un fatto o una citazione inesistente. Causa: il modello risponde con la stessa confidence a domande fuori dalla distribuzione del training data; mitigata da RAG, citation grounding e self-consistency check — mai eliminata del tutto.
Prompt Engineering: Disciplina di progettare sistematicamente il prompt (istruzione + contesto + esempi + formato) perché l'LLM produca l'output voluto. Few-shot, chain-of-thought, role assignment, output schema, system prompt; il livello "come parlargli" di ogni app AI in produzione.
Context Window: Numero di token (input + output) che un LLM può elaborare in una chiamata. Va da 8K-128K (GPT-4) a 200K (Claude) e 1M+ (Gemini); capacità critica per analisi di documenti lunghi, conversazione multi-turno e agent state — il RAG è la via alternativa per "estendere" il contesto.
Function Calling / Tool Use: Capacità dell'LLM di invocare una funzione esterna (API, query DB, code runner) tramite JSON strutturato invece di testo libero. OpenAI tools, Anthropic tool_use; il protocollo ufficiale con cui gli agent toccano il mondo reale.
AI Agent: Costruzione software che usa un LLM come motore decisionale ed esegue task multi-step in autonomia via tool calling + memoria + loop plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; architettura "ricerca → pianifica → esegui tool → arriva all'obiettivo".
Foundation Model: Modello grande pre-addestrato su dati ampi e diversi su scala internet, trasferibile a task downstream — LLM, modelli vision (CLIP, ViT), multimodali (GPT-4o, Gemini). Sopra si costruiscono applicazioni via fine-tuning, prompt engineering o RAG.
Multimodal AI: Sistema IA in cui lo stesso modello comprende e genera su più modalità — testo + immagine + audio + video. GPT-4o, Gemini, Claude 3.5 vision; substrato di casi cross-modal come OCR, image captioning, video Q&A, trascrizione audio e agent screen-aware.
NLP (Natural Language Processing): Sotto-disciplina dell'IA focalizzata sulla capacità di un computer di capire, generare e trasformare il linguaggio naturale (turco, inglese, ecc.). Tokenization, POS tagging, NER, sentiment analysis, traduzione automatica; gli LLM sono oggi gli strumenti general-purpose più potenti del campo.
Token: Unità testuale più piccola che un LLM elabora — può essere parola, sotto-parola o singolo carattere. Un tokenizer (BPE, WordPiece, SentencePiece) converte il testo in token; il pricing OpenAI e i limiti di context window si misurano in token (1 parola inglese ≈ 1,3 token).
Temperature: Parametro che controlla la "randomness" della distribuzione di output di un LLM — 0 = sempre il token più probabile (deterministico), 1+ = più creativo/diverso. Valori tipici: 0-0,3 per codice/JSON/numerico, 0,7-1,2 per storia/brainstorm; tarato insieme a top_p.
Semantic Search: Approccio di ricerca che restituisce risultati basati sul significato confrontando embedding di query e documenti invece di parole chiave. Indipendente dall'ortografia, cattura sinonimi; motore di retrieval del RAG — costruito su vector DB + ANN.
Inference: Fase in cui un modello AI addestrato produce predizioni/generazioni su dati live (l'opposto del training). Latency, throughput, costo per richiesta e lo stack di model serving (vLLM, TGI, Triton); ~90 % del lato produzione di MLOps.
OLTP (Online Transaction Processing): Approccio DB ottimizzato per letture/scritture ad alto volume, riga per riga e bassa latenza. PostgreSQL, MySQL, MongoDB; store standard dietro i backend di app live — carrello e-commerce, sessione utente, prenotazioni.
OLAP (Online Analytical Processing): Approccio DB colonnare ottimizzato per query analitiche su larga scala. BigQuery, Snowflake, Redshift, ClickHouse; scansiona milioni di righe in secondi per aggregazione, GROUP BY e time-series — infrastruttura di BI e dashboard.
ACID: Le quattro garanzie dei DB transazionali: Atomicity (tutto o niente), Consistency (le regole non si rompono), Isolation (le op concorrenti non si vedono), Durability (i dati commited restano). Contratto di base degli RDBMS come PostgreSQL, MySQL, Oracle.
BASE: Il set di garanzie rilassato dei sistemi distribuiti/NoSQL: Basically Available, Soft state, Eventual consistency. L'opposto di ACID — accetta brevi inconsistenze in cambio di availability + scala. Filosofia di DynamoDB, Cassandra, Riak.
Sharding: Dividere un DB su una chiave (user_id mod 16, range temporale) e mettere ogni shard su un server separato. Metodo di scaling orizzontale; i JOIN cross-shard diventano impraticabili e la scelta della shard-key è una decisione architetturale irreversibile.
Replication: Mantenere una copia live del DB su più server — per distribuire il carico di lettura (read replica) e garantire failover. Async (Postgres streaming) ha lag ma è veloce, sync è coerente ma lento; ogni strategia è un tradeoff.
Eventual Consistency: In un sistema distribuito, un update ha bisogno di tempo per propagarsi a tutte le replica — per una breve finestra nodi diversi possono restituire valori diversi. Default di DynamoDB e Cassandra; non adatto al banking, ideale per il social.
CDC (Change Data Capture): Pattern che cattura event INSERT/UPDATE/DELETE da un DB in tempo reale e li spinge verso sistemi downstream (warehouse, search index, cache). Debezium, Kafka Connect; basato su replication slot + log tailing, alternativa moderna al polling.
Star Schema: Approccio di modellazione warehouse in cui una fact table centrale (es. orders) è circondata da tabelle di dimensione (customer, product, date) a forma di stella. Le query BI richiedono pochi JOIN = veloci; architettura canonica per BigQuery, Snowflake.
Materialized View: Oggetto DB che scrive fisicamente su disco il risultato di una query SELECT e lo mette in cache. Pre-calcola un'aggregazione complessa invece di ricalcolarla ogni volta; la strategia di refresh (manuale, schedulato, incrementale) è il tradeoff.
Normalization: Processo di dividere uno schema DB in tabelle correlate per eliminare ridondanza e anomalie di update (1NF, 2NF, 3NF, BCNF). Standard per l'OLTP; garantisce che ogni update avvenga in un solo posto — a costo di più JOIN.
Denormalization: Fondere intenzionalmente tabelle normalizzate accettando ridondanza in cambio di performance di query. Standard per OLAP / data warehouse; abbassa il costo dei JOIN, gestisce il rischio di incoerenza con ETL/CDC.
Time-series Database: DB ottimizzato per scritture ad alto volume di metriche con timestamp (uso CPU, sensori IoT, ticker di finanza) e query per range temporale. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy sono feature centrali.
Iceberg / Hudi / Delta Lake: Progetti open-source che aggiungono un layer di "table format" sopra l'object storage (S3, GCS), portando schema evolution, ACID, time-travel e concurrent writer. I tre motori standard dell'architettura lakehouse.
Data Quality: Disciplina che misura un dataset su accuratezza, completezza, coerenza, freschezza e unicità. Great Expectations, Monte Carlo, Soda automatizzano i test; unica vera difesa contro il "garbage in, garbage out".
Data Lineage: Grafo tracciabile di ogni step di trasformazione che un dato attraversa, dalla sorgente (event raw) all'utente finale (KPI di dashboard). Atlan, OpenMetadata, dbt docs; risposta deterministica a "da dove arriva questo KPI?" più impact analysis.
Data Mesh: Struttura di data product self-serve per dominio (marketing, finance, product) al posto di un team data centrale. Si fonda su domain ownership + product thinking + federated governance; risposta al problema "data team come bottleneck" su larga scala.
Data Catalog: Catalogo centrale che indicizza ogni asset di dati in un'organizzazione (tabella, dashboard, modello ML, colonna) con ricerca, descrizioni e ownership. Atlan, Collibra, OpenMetadata, Amundsen; risposta a "questo dato esiste, chi ne è proprietario?".
Schema Evolution: Capacità di un formato dati (Avro, Parquet, JSON) di cambiare nel tempo senza rompere i consumer esistenti quando si aggiungono campi. Richiede disciplina su backward + forward compatibility, campi opzionali e default; critica per CDC, event sourcing, lakehouse.
AWS DynamoDB: DB serverless NoSQL key-value + document di AWS. Latenza a una cifra in ms su miliardi di request/sec, partitioning automatico, point-in-time recovery, global table (multi-region). Ideale per backend di gioco, telemetria IoT, session storage, leaderboard.
GCP Spanner: DB relazionale di Google, globalmente scalabile, ACID-compliant, a scaling orizzontale. Sintassi SQL + scala tipo DynamoDB + transazioni tipo PostgreSQL; uptime multi-region 99,999 %; fa girare Google Ads/Maps, ideale per fintech.
Azure Cosmos DB: DB NoSQL multi-modello a scala globale di Microsoft Azure. API SQL, MongoDB, Cassandra, Gremlin (graph) e Table sullo stesso engine; cinque livelli di coerenza (strong → eventual); latenza e throughput sotto SLA.
Prometheus: Layer metriche dello stack monitoring cloud-native. Scraping pull-based da endpoint /metrics; PromQL per query time-series; Alertmanager gestisce le regole di alerting. Standard de-facto su Kubernetes e architetture microservice moderne.
Grafana: Piattaforma open-source di data visualization e dashboard. Unifica 100+ data source (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) in un'unica vista; alerting, annotation, templating dei pannelli; pilastro degli schermi NOC dei team SRE.
Jaeger: Piattaforma CNCF di distributed tracing. Cattura ogni hop di una request fra microservizi come span; visualizza colli di bottiglia di latenza, dipendenze mancanti e propagazione di errori. 100 % compatibile con lo standard OpenTelemetry.
OpenTelemetry (OTel): Progetto CNCF che unifica l'observability (metric, log, trace) sotto un unico standard vendor-neutral. SDK e auto-instrumentation rendono il codice portabile tra Datadog, New Relic, Honeycomb, Jaeger — rompe il vendor lock-in.
ELK Stack: Elasticsearch + Logstash + Kibana — stack open-source di aggregazione, indicizzazione e visualizzazione log. Logstash ingest, Elasticsearch indicizza per full-text search, Kibana per dashboard. Loki + Grafana cresce su scala, ma ELK resta diffusissimo.
SLI (Service Level Indicator): Indicatore numerico della salute di un servizio — tasso di successo, latenza p99, disponibilità. Base di misura di un SLO; risponde oggettivamente a "che % di request è sotto i 200 ms?". Concetto cardine del SRE Book di Google.
SLO (Service Level Objective): Valore target interno che un SLI deve raggiungere — es. "latenza p99 < 200 ms per il 99,9 % di una finestra 30 giorni". Risposta dell'engineering a "quanto è abbastanza affidabile"; fondamento dell'error budget.
SLA (Service Level Agreement): Contratto esterno tra service provider e cliente; riflesso legale di un SLO. Violarlo attiva penalità (rimborsi, credit). Regola: SLA < SLO < SLI — l'engineering mira più stretto della garanzia pubblica.
Error Budget: La "quantità di fallimento consentita" derivata dall'SLO. SLO 99,9 % = 0,1 % di error budget = ~43 minuti di downtime/mese. Budget residuo → prendi rischi (release); budget esaurito → modalità stabilizzazione. Bilancio SRE fra innovazione e affidabilità.
Diffusion Model: Famiglia di modelli generativi che imparano ad aggiungere rumore ai dati e poi a invertire il processo. Architettura centrale dei generatori image/video moderni (Stable Diffusion, Midjourney, DALL-E 3, Sora). Si allena molto più stabilmente delle GAN e produce output più vari.
GAN (Generative Adversarial Network): Modello generativo in cui due reti neurali — Generator (fake) e Discriminator (giudice reale/fake) — si allenano competendo. Introdotto da Ian Goodfellow nel 2014; tecnologia dietro primi deepfake, ritratti StyleGAN e super-resolution. Oggi largamente offuscato dai diffusion model.
CLIP (Contrastive Language-Image Pre-training): Modello OpenAI del 2021 che allinea immagini e relative caption in uno spazio di embedding condiviso — l'embedding di "foto di un gatto" finisce vicino alle foto reali di gatti. Conditioner text-to-image dentro Stable Diffusion; base della zero-shot image classification e della ricerca visuale.
ControlNet: Architettura del 2023 che aggiunge un segnale di conditioning ai diffusion model. Guida la generazione con riferimenti come pose, depth map, canny edge o scribble, abilitando controlli tipo "questa posa ma vestiti diversi". Tra gli add-on più usati dell'ecosistema Stable Diffusion.
Adapter Tuning: Approccio di fine-tuning che inserisce piccoli layer "adapter" in un LLM grande invece di riallenare tutti i parametri. Varianti popolari: LoRA, QLoRA, IA³; si allena <1 % dei parametri originali, abbattendo drasticamente il costo GPU.
PEFT (Parameter-Efficient Fine-Tuning): Termine ombrello per approcci che allenano un piccolo sottoinsieme dei parametri invece del fine-tune completo di un LLM da 70B. LoRA, prompt tuning, prefix tuning e adapter tuning sono tutte varianti PEFT. La libreria peft di HuggingFace è lo strumento standard.
Quantization (LLM): Tecnica che comprime i pesi float32/float16 di un modello a int8, int4 o persino int2. Memoria 4-8× più bassa, inferenza 2-3× più veloce, perdita di qualità di solito piccola. Llama.cpp, formato GGUF e algoritmi AWQ/GPTQ sono il tooling standard.
Knowledge Distillation: Tecnica che trasferisce il comportamento di un grande modello "teacher" in un modello "student" piccolo. Mirando alle probabilità soft del teacher, lo student raggiunge accuracy quasi identica con molti meno parametri. Trucco dietro DistilBERT, TinyLlama, Phi-3.
Mixture of Experts (MoE): Architettura che, invece di un modello monolitico, instrada ogni token attraverso una selezione sparsa (uno o due) di piccoli sotto-modelli "expert". Usata in Mixtral 8x7B, GPT-4, DeepSeek; riduce i parametri attivi mantenendo capacità e abbattendo il costo di inferenza.
Speculative Decoding: Tecnica che accelera l'inferenza LLM: un piccolo modello "draft" propone più token in anticipo, il grande modello "target" li verifica in parallelo e accetta quelli corretti. Speed-up 2-3× a parità di qualità. Standard in vLLM e llama.cpp.
KV Cache: Ottimizzazione che mantiene in memoria le matrici Key e Value calcolate per i token precedenti nei layer di attention del transformer. Ogni nuovo token calcola solo il proprio K/V invece di ripetere la storia. Inferenza 10-100× più veloce, ma collo di bottiglia di memoria su contesti lunghi.
Attention Head: Uno dei molti piccoli meccanismi di attention che girano in parallelo dentro un Transformer. Ogni head si concentra su un aspetto diverso dell'input — sintassi, posizione, dipendenze a lungo raggio. Modelli come GPT-4 usano 96+ head per layer; mattone della multi-head attention.
BPE Tokenizer (Byte-Pair Encoding): Algoritmo di tokenizzazione che spezza il testo nelle sotto-parole più frequenti — es. "tokenization" → "token" + "ization". GPT, LLaMA, Mistral usano varianti BPE (tiktoken, SentencePiece); vocabolario fisso (~32K-128K), problema OOV risolto.
DPO (Direct Preference Optimization): Alternativa più semplice al RLHF. Invece della complessità reward model + PPO, esegue regressione logistica diretta su coppie "preferita vs rifiutata". Stanford 2023; più stabile, meno iperparametri, metodo di alignment scelto in modelli come Llama 3.
Constitutional AI: Metodo introdotto da Anthropic nel 2022 che allinea un modello con una "costituzione" scritta (lista di principi etici) invece di reviewer umani. Il modello critica e migliora i propri output contro la costituzione; base dell'alignment di Claude, noto come RLAIF.
Chain-of-Thought (CoT): Tecnica di prompting che chiede al LLM di "pensare step by step" e scrivere il ragionamento intermedio prima della risposta. Introdotta da un paper Google del 2022; migliora drasticamente matematica, logica e domande multi-step. "Let's think step by step" è la frase magica. Base dei reasoning model moderni (o1, DeepSeek-R1).
Few-Shot Prompting: Tecnica che fornisce 2-5 esempi (coppie input → output) nel prompt così l'LLM applichi lo stesso pattern a un nuovo input. Adattamento rapido senza fine-tune — "rispondi come in questi esempi". Soluzione più pratica per classificazione testuale labellata ed estrazione formattata.
Zero-Shot Prompting: Approccio di prompting in cui la task è descritta direttamente al LLM senza esempi — es. "traduci questo testo in tedesco". Si basa solo sulla conoscenza del pre-training; con i modelli di frontiera (GPT-4, Claude) basta per la maggior parte delle task.
Grounding (LLM): Tecnica che "ancora" la risposta di un LLM a una fonte di conoscenza esterna — documenti, database o ricerca web. Si usa il contesto recuperato invece della pura memoria parametrica; le hallucination calano drasticamente, le citazioni diventano possibili, la conoscenza resta fresca in real-time.
Structured Output (LLM): Capacità di forzare l'output di un LLM a un JSON schema definito, modello Pydantic o regex. OpenAI structured output, Anthropic tool use, vLLM grammar-constrained sampling. Chiave per passare da testo libero a flusso dati deterministico pronto per la produzione.
Tool Use (Agent): Capacità di un LLM di chiamare tool esterni — web search, code interpreter, calcolatrice, API custom. Tramite il protocollo function calling il modello restituisce "tool name + parametri", il runtime esegue e reinjetta il risultato. Cuore delle architetture agent (Claude Agent SDK, AutoGen, LangGraph).
Cross-Modal Embedding: Embedding che rappresentano modalità diverse (testo, immagine, audio) nello stesso spazio vettoriale. CLIP per immagine+testo, ImageBind per testo+immagine+audio+video+depth+termico+IMU. Critico per ricerca multimodale ("trova copy simile a questa foto"), retrieval cross-modal e aggiungere media al RAG.
Hybrid Search (BM25 + Vector): Strategia di retrieval che combina ricerca classica per keyword (BM25/lexical) con similarity vettoriale. BM25 vince su exact-match (ID, codici prodotto); i vettori vincono sul semantico ("come restituisco questo" → "return policy"). Standard d'oro del RAG moderno.
Data Fabric: Architettura integrata che unifica sorgenti dati distribuite (cloud, on-prem, SaaS) in un unico layer dati logico. Metadata-driven e AI-augmented; alternativa "integrazione centralizzata" al modello distribuito del data mesh. Talend, Informatica, IBM Cloud Pak sono i prodotti chiave.
Medallion Architecture: Pattern di organizzazione del data lake reso popolare da Databricks — layer Bronze (raw), Silver (pulito, conformed) e Gold (business-ready, aggregato). Ogni layer si appoggia al precedente; separa nettamente lineage, qualità e reprocessing.
Apache Spark: Motore distribuito in-memory per il processing dei dati. Successore 10-100× più veloce di Hadoop MapReduce; unifica SQL, streaming, ML (MLlib) e graph (GraphX) sotto un'unica API. Cuore di Databricks, managed su AWS EMR, GCP Dataproc, Azure HDInsight; PySpark lo rende lo strumento principale del data engineer.
Apache Flink: Motore di processing true-streaming (evento per evento). Rispetto al micro-batch di Spark Streaming offre latenza millisecondo, exactly-once e processing stateful. Alimenta fraud e anomaly detection real-time in Alibaba, Uber, Netflix.
Kafka Connect: Framework di connettori source/sink di Apache Kafka. Porta CDC o ingestion batch da 100+ sistemi (Postgres, MySQL, S3, Elasticsearch, Snowflake…) verso Kafka e fa streaming export a sistemi esterni. Il catalogo da 1.000+ connettori di Confluent è il riferimento standard.
Singer: Protocollo open-source di data-integration di Stitch (oggi Talend) che muove stream JSON fra "tap" (extract) e "target" (load). Framework ELT modulare e vendor-neutral; cuore di piattaforme ELT open-source come Meltano.
Apache Airflow: Piattaforma di orchestrazione di workflow i cui DAG (Directed Acyclic Graph) sono definiti in Python. Nata in Airbnb nel 2014, poi donata alla Apache Foundation. Scheduling, retry, gestione delle dipendenze, web UI; standard de-facto delle data pipeline.
Dagster: Framework moderno di orchestrazione dati basato sugli asset. Mentre Airflow è centrato sulle task, Dagster è centrato sui "data asset" — con lineage, type-checking, software-defined asset e testing integrati. Integrazioni first-class con dbt, Fivetran e Snowflake.
Prefect: Tool moderno e pythonic di orchestrazione dati con DAG dinamici. Risolve il limite dei DAG statici di Airflow — i flow possono cambiare a runtime — con esecuzione ibrida (cloud + self-hosted) e retry policy granulari. Popolare anche per pipeline ML.
Snowflake: Data warehouse managed cloud-native. Compute (warehouse) e storage sono completamente disaccoppiati e scalano indipendentemente. Query SQL su dati semi-strutturati (JSON, Parquet), secure data sharing, time travel (fino a 90 giorni); valida alternativa a BigQuery e Redshift.
BigQuery: Data warehouse serverless, columnar, a scala petabyte di Google Cloud. Pricing pay-per-slot; training di modelli ML via SQL (BQML); target di export nativo di GA4; ottimizzazioni geo, JSON e PARTITION/CLUSTER integrate. Cuore dello stack analytics GCP.
Databricks: Piattaforma lakehouse fondata dai creatori di Apache Spark. Unisce layer Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog e workspace basati su notebook in un unico prodotto. Pensata per la collaborazione data engineer + analyst + ML engineer; nativa su AWS, Azure e GCP.
Apache Iceberg: Open table format per dati petabyte (origine Netflix). Aggiunge ACID, schema evolution, time travel, hidden partitioning e branching sopra Parquet. Supportato da Snowflake, Databricks, BigQuery, Trino; risposta standard al lock-in del data warehouse.
Delta Lake: Open table format sviluppato da Databricks e rivale di Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; integrazione più stretta nell'ecosistema Spark. Formato di default sul lato Databricks dell'architettura lakehouse.
Parquet: Formato di storage columnar — ogni colonna in blocchi propri. Si leggono solo le colonne necessarie, predicate pushdown supportato, Snappy/Zstd danno forte compressione. Formato di default per Spark, Iceberg, Delta, Snowflake; analitica 10-100× più veloce di CSV/JSON row-based.
Apache Avro: Formato di serializzazione binario con schema definiti in JSON. Forte schema evolution (forward/backward compatibility); particolarmente popolare nei payload dei messaggi Kafka. Si usa insieme a uno Schema Registry; controparte row-oriented di Parquet.
Schema Registry: Servizio che memorizza, versiona e verifica la compatibilità di schema Avro/Protobuf/JSON centralmente. Parte dello stack Kafka di Confluent; impone il contratto producer-consumer e cattura i breaking change prima della produzione.
Window Function (SQL): Funzioni SQL che calcolano su un insieme di righe ("window"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). Diversamente da GROUP BY le righe non vengono collassate — ognuna ottiene il proprio risultato. Indispensabili per time series, ranking e running total.
ELT (Extract, Load, Transform): Inversione dell'ETL classico: i dati grezzi sono caricati prima nel warehouse/lake e poi trasformati lì con SQL/dbt. Con lo storage economico dei cloud-DWH e compute potente, ELT è il paradigma di default; avvicina la logica di trasformazione agli analyst.
Feature Store: Piattaforma che memorizza e serve centralmente le feature (storiche + real-time) consumate dai modelli ML. Risolve il training-serving skew derivando le view offline (batch) e online (low-latency) da un'unica definizione. Strumenti principali: Feast, Tecton, Hopsworks.
MLOps: Disciplina che automatizza il ciclo sviluppo-training-deploy-monitor-retrain dei modelli ML. DevOps applicato al ML — experiment tracking (MLflow), model registry, CI/CD per modelli, drift detection e pipeline di retraining.
OpenLineage: Standard aperto per eventi di data lineage (LF AI & Data). Permette ad Airflow, Spark, dbt, Flink e altri di emettere eventi lineage nello stesso formato. Integrato da Marquez, Datakin, Astronomer; portatore vendor-neutral del flusso di metadata.
Great Expectations: Framework open-source di data quality / validation. Migliaia di check pronti tipo "expect_column_values_to_be_unique" o "expect_column_mean_to_be_between"; si innesta in pipeline Airflow/dbt e genera data doc HTML automaticamente.
Apache Atlas: Tool open-source di metadata management e data governance nato nell'ecosistema Hadoop. Tag-based access control, grafi di lineage, business glossary e classification (PII/PCI). Standard dello stack Hortonworks/Cloudera; alternative moderne: Amundsen, DataHub.
Lambda Architecture (Data): Architettura dati che fonde risultati real-time e batch. Lo speed layer (Storm/Flink) produce risultati approssimati a bassa latenza, il batch layer (Spark/Hadoop) calcola risultati precisi ma lenti; lo serving layer li unisce. Da non confondere con AWS Lambda; oggi evolve verso l'architettura Kappa.
Differential Privacy: Framework matematico che consente accesso sicuro a statistiche di popolazione proteggendo i record individuali. Si aggiunge rumore calibrato ai risultati delle query; un attaccante non può dire se i dati di una specifica persona siano nel set. Usato dalla tastiera iOS di Apple, Google Play e dal US Census 2020.
Federated Learning: Tecnica che allena il modello localmente sui dispositivi degli utenti e invia al server centrale solo gli aggiornamenti di gradiente o pesi, mai i dati grezzi. Auto-suggest di Google Gboard, Siri di Apple e ML privacy-preserving su dati sanitari sono i casi canonici.
On-Chain Analytics: Disciplina di estrazione di insight dai dati pubblici delle transazioni di una blockchain — attività dei wallet, concentrazione dei token holder, flusso degli exchange, tracking dello smart money, volume NFT. Dune Analytics (SQL on-chain), Nansen (address etichettati), Glassnode e Arkham sono piattaforme chiave.
Oracle (Blockchain): Servizio ponte che porta dati off-chain affidabili — prezzi, meteo, risultati sportivi, sensori IoT — agli smart contract on-chain. Chainlink è il più usato; Pyth, Band e RedStone sono alternative. Infrastruttura vitale per liquidazioni DeFi, assicurazione e prediction market.
Brand Lift Study: Studio che misura come una campagna sposta le metriche di brand — ad recall, brand awareness, message association, purchase intent — confrontando gruppo di controllo ed esposto. Meta, YouTube e TikTok lo offrono nativo; CPM tipico 5-15 $.
Incrementality Test: Test che confronta le conversioni guidate dagli ad con una baseline "come se la campagna non fosse girata" per misurare quanto sia davvero incrementale. Metodi: PSA placebo ad, ghost bidding, geo holdout; cura l'illusione "ogni conversion è mia" dell'attribution classica. Gold standard del ROI paid media moderno.
Geo Holdout Test: Quasi-esperimento che misura l'impatto incrementale spegnendo gli ad in una geografia specifica (es. New York) e tenendoli accesi altrove. Senza cookie, senza identifier e ATT-proof; il metodo matched-markets / synthetic control è lo standard della marketing science moderna.
MTA (Multi-Touch Attribution): Modello che distribuisce credito pesato a tutti i touchpoint (pubblicità, email, organic, direct) che hanno contribuito a una conversion. Metodi: linear, time-decay, position-based, data-driven. La deprecazione dei cookie e ATT hanno indebolito l'accuratezza dell'MTA; abbinarlo a MMM e incrementality è lo stack moderno più sano.
Data-Driven Attribution (DDA): Modello di attribution che usa il machine learning per apprendere il contributo marginale di ogni touchpoint invece di assegnare tutto al last click. Default in Google Ads + GA4; basato su Shapley value; confronta in modo equo i canali nella stessa fase del funnel. Ha sostituito i modelli rule-based classici.
View-Through Conversion (VTC): Conversion di un utente che ha visto l'annuncio — senza cliccarlo — e ha convertito più tardi. In display e video il 30-60 % delle conversion può essere VTC; valutata male, si sopravvaluta o sottovaluta il canale. La differenza dall'attribution click-only è critica.
Attribution Window: Finestra temporale entro cui una conversion viene attribuita a un ad dopo un click o una view. Norma classica: 7-day click + 1-day view; con iOS 14.5 il default ATT è diventato 7-day click + 1-day view + same-day view. Più si accorcia la finestra, meno conversion sembrano prendere i canali.
Retention Curve (S-Curve): Pattern atteso della retention di una coorte che plateauizza a un certo punto. In un'app sana la curva si appiattisce dopo ~90 giorni; in un'app virale o habit-forming resta orizzontale; se continua a scendere, il PMF è debole. La "smiling curve" di Andrew Chen è il riferimento moderno.
Activation Rate: Quota di utenti appena registrati che completano la prima azione di valore. Slack misura "il 40 % che invia il primo messaggio", Notion "il 50 % che crea la prima page", Spotify "l'85 % che fa partire la prima canzone". L'activation è l'indicatore più diretto del PMF + onboarding e correla forte con l'LTV.
TTV (Time-to-Value): Tempo che impiega un utente per vivere il primo valore reale (aha moment). Linear: 30 secondi; Figma: 5 minuti; Slack: una settimana. Più breve è il TTV, più alta la retention; stella polare unica dell'onboarding moderno.
Activation Metric (Aha-Moment Metric): Soglia data-driven nella forma "se l'utente compie N azioni in T tempo si retain". Facebook: "10 amici in 14 giorni", Slack "2K messaggi", Twitter "30 follow". Tutto l'onboarding viene ottimizzato su questa metrica; stella polare del growth team.
pLTV (Predictive LTV): Usare il machine learning sui primi eventi (sign-up, primo acquisto, sessione day-1, un IAP) per prevedere l'LTV a 30/90/365 giorni. Soluzione standard per l'attribution iOS post-SKAdNetwork; AppsFlyer, Adjust e Singular hanno integrato il pLTV nei loro stack di ottimizzazione.
Uplift Modeling: Approccio ML che identifica in quali segmenti utente un intervento — coupon, push, email — crea davvero un impatto netto extra. Trova il segmento "persuadable" per non disturbare gli altri. Algoritmi: T-learner, X-learner, causal forest. Alza il ROI delle campagne CRM 2-3×.
Crashlytics / Sentry Mobile: Piattaforme che raccolgono crash mobile, ANR ed errori JS e li raggruppano con stack trace, dati device e breadcrumb. Firebase Crashlytics (Google, gratis), Sentry, Bugsnag ed Embrace sono le opzioni principali. Target Crash-Free Users 99,5 %+; sotto il 99 % uccide il rating App Store.
Mobile APM (Application Performance Monitoring): Piattaforma che misura la performance dell'app su device reali: startup time, render schermate, request di rete, memoria, batteria e ANR. Firebase Performance, New Relic Mobile, Embrace e Datadog Mobile RUM sono opzioni. Fa emergere i problemi UX che non sono crash.
Headless BI: Motore analytics senza layer di visualizzazione proprio che espone tutti i calcoli di metriche e dimensioni via API e GraphQL. Cube, GoodData e AtScale in testa; l'output viene consumato da Tableau, Looker, Notion, Hex, Excel o qualsiasi app React custom. Paradigma moderno che rompe la monogamia da tool BI.
Metric Layer: Variante metric-only del semantic layer — astrazione che tiene le definizioni di metriche "single truth" in YAML o SQL. Spectacles di Slack, Minerva di Airbnb e dbt Semantic Layer sono esempi. Se "active user" è 15 % in marketing e 10 % in finance, il drift parte da qui.
Data Activation: Processo di portare gli insight dal warehouse ai sistemi operativi — CRM, ad platform, helpdesk, in-app messaging. Il reverse ETL è la tubatura tecnica; ponte fra "data analytics" e "marketing automation". Census, Hightouch e Polytomic sono i tool leader.
Composable CDP: Approccio che mette il warehouse (Snowflake, BigQuery) al centro invece di un CDP single-vendor (Segment, mParticle), e ci aggiunge solo i layer che servono — audience, attivazione real-time, identity resolution. Hightouch + Census + RudderStack + Snowplow è lo stack composable tipico.
Operational Analytics: Principio per cui gli insight analitici non restano in un dashboard ma scatenano azioni nei sistemi operativi. "Questo utente è inattivo da 7 giorni" appare in un flow win-back di Klaviyo, non in un grafico. Faccia business del reverse ETL — versione moderna dell'"actionable analytics".
Looker LookML: Il DSL di data modeling tipo YAML di Looker. Le tabelle diventano "view", le relazioni "explore", le metriche "measure"; approccio BI code-centric che genera SQL. Tutti gli analyst parlano la stessa lingua, version control e workflow Git funzionano — lingua franca dei team data moderni.
Mode Analytics: Piattaforma BI che fonde SQL, notebook Python e dashboard in un unico prodotto (ThoughtSpot l'ha acquisita nel 2023). Sweet spot del data analyst: SQL per le query, Python per l'ML, poi dashboard condivisibile. Il versante power-user rispetto all'approccio GUI-only di Tableau.
Hex (Notebook BI): Piattaforma analytics fondata nel 2020 che mette SQL, Python e app interattive no-code nello stesso posto. UI da notebook + Magic AI + builder di app condivisibili; spazio comune per data scientist, analyst e business stakeholder. Stella nascente del BI ibrido moderno.
Sigma Computing: Piattaforma BI moderna che mette un'interfaccia in stile foglio di calcolo sopra Snowflake o BigQuery. Gli utenti fanno pivot, formule e analisi what-if alla Excel senza scrivere SQL — ma il motore resta warehouse-native. Forte rivale di Looker nei team finance e ops.
Streamlit: Framework open-source basato su Python che permette di consegnare una web app interattiva in 100 righe di script (acquisito da Snowflake nel 2022). Strada di default per data scientist che vogliono pubblicare internal tool, prototipi e demo ML; Plotly Dash e Gradio sono rivali stretti.
Snowflake Streams & Tasks: Il duo Snowflake change-data-capture (Streams) + esecuzione SQL schedulata (Tasks). Uno Stream accoda insert/update/delete da una tabella per offset; una Task li processa a cadenza. Le pipeline ELT ottengono automazione Snowflake-native senza Airflow.
dbt Tests: Assertion di qualità del dato scritte contro i modelli dbt: not_null, unique, accepted_values, relationships e SQL custom. Girano in CI; validano i dati prima di ogni build di modello. La test suite si arricchisce con integrazioni dbt-utils e Great Expectations.
dbt Snapshots: Implementazione dbt-native di Slowly Changing Dimension Type 2. Per una tabella sorgente mutabile (es. orders.status cambia), ogni snapshot run conserva la storia con colonne dbt_valid_from/to. Base dell'audit history e delle query "com'era a quella data".
Materialization Strategy (Table / View / Incremental / Ephemeral): Come un modello dbt viene salvato nel warehouse. View: economica ma ricomputa a ogni query — adatta a piccoli dati. Table: full rebuild — piccoli/medi. Incremental: aggiunge solo nuove righe — grandi dati. Ephemeral: inline come CTE, senza output persistente.
SCD (Slowly Changing Dimension): Pattern per salvare la storia di dimensioni che cambiano lentamente — cliente, prodotto, dipendente. Type 1: solo l'ultimo valore; Type 2: nuova riga a ogni cambio con valid_from/to (storia preservata); Type 3: una colonna single-previous-value. Con DWH moderno + dbt Snapshot SCD2 è il default.
Idempotent Pipeline: Pipeline ETL/ELT che, eseguita sullo stesso input, produce lo stesso output e non genera effetti collaterali extra al riesecuzione. Garanzia che backfill, retry e late-arriving data non corrompano il dataset. Si ottiene con MERGE, dedup per primary key e transazioni.
Backfill Strategy: Piano per rieseguire una pipeline su dati storici. Si parametrizza il range di date, le partizioni vengono ricalcolate a batch; pipeline idempotente + write atomici + concurrency control sono obbligatori. Un backfill sbagliato è perdita di dati in produzione — provalo prima in staging.
dbt Layers (Staging / Intermediate / Marts): Il pattern di modeling consigliato in 3 layer per un progetto dbt. Staging: una tabella ripulita 1:1 per sorgente (rename, cast, dedup). Intermediate: i mattoni della business logic. Marts: il layer finale dim/fact pronto al business. Porta coerenza, reuse e un DAG pulito.
Source Freshness: Feature di dbt che monitora da quanto tempo ogni tabella sorgente è stata aggiornata. Il comando "dbt source freshness" scatena soglie warning ed error (es. 12 h warn, 24 h error) e cattura dati stale anche quando la pipeline non si è rotta. Il cane da guardia operativo.
OBT (One Big Table): Alternativa di modeling allo star schema — denormalizzare tutte le dimensioni nella fact table per ottenere un'unica tabella larga da 50-200+ colonne. Nei DWH columnar tipo Snowflake o BigQuery i join sono costosi; OBT è più veloce per gli analyst e spesso ottimale per la performance.
Cube.js: Motore open-source di headless BI. Genera SQL, lo mette in cache, espone API REST/GraphQL e sta sopra Snowflake, BigQuery o Postgres. Permette a uno sviluppatore front-end di pubblicare i propri dashboard; alternativa developer-friendly a Tableau / Looker.
Snowpark: API DataFrame di Snowflake per Python, Scala e Java. Permette training ML, transform complesse, UDF e stored procedure senza spostare i dati fuori dal warehouse. Modin e pandas-on-Snowflake danno al data scientist un'esperienza locale familiare; movimento moderno verso lo zero data movement.
Polars: Libreria DataFrame multi-thread e columnar (Arrow) scritta in Rust. 5-30× più veloce di pandas con lazy evaluation e ottimizzazione delle query integrata. Il rimpiazzo moderno di pandas per l'analyst; binding Python, R, JS, Rust.
DuckDB: Database OLAP columnar in-process — la controparte analytics di SQLite, con MotherDuck come estensione cloud. Un singolo file, un singolo processo; interroga DataFrame pandas o Parquet direttamente in SQL. Macina un miliardo di righe su un laptop in 30 secondi; compagno quotidiano dell'analyst moderno.
LLM Eval Harness: Framework di test che misura automaticamente la performance di un LLM su molti task. Esempi: HELM, lm-eval-harness, BigBench, HELM Lite — lancia benchmark standard come MMLU, HumanEval, GSM8K e ARC. Infrastruttura obbligatoria per ogni lancio di modello o regression test.
Prompt Eval: Test set che misura sistematicamente la qualità di un prompt specifico. 50-500 coppie input × output atteso con scoring automatico (LLM-as-judge, BLEU, ROUGE, exact match). Obbligatorio per catturare regressioni quando un prompt di produzione cambia; PromptLayer, Langfuse e Braintrust sono tool comuni.
Golden Dataset: Test set verificato manualmente, usato come ground truth. Input e output attesi dell'eval harness vivono qui; dopo ogni aggiornamento del LLM si valuta su questo set. Tipicamente 200-2.000 esempi validati da un domain expert.
Faithfulness (RAG): Misura di quanto la risposta di un sistema RAG resti fedele al contesto recuperato. Se il LLM allucina fuori dal contesto, la faithfulness scende; un LLM-as-judge verifica frase per frase "c'è supporto nel contesto?". Metrica chiave nei framework RAGAS e TruLens.
Answer Relevance (RAG): Score di quanto la risposta dell'LLM sia rilevante per la query utente. Cattura risposte corrette ma fuori tema — "Bel tempo oggi, ma Parigi è la capitale di Parigi". Si misura con cosine similarity (embedding risposta ↔ embedding query) o LLM-as-judge.
Context Precision / Recall (RAG): Le due metriche di qualità del retrieval in RAG. Precision: quanti dei chunk recuperati erano davvero rilevanti; Recall: quanti dei chunk davvero rilevanti sono stati recuperati. Bassa precision = rumore, basso recall = informazione persa. Misurate automaticamente da RAGAS, ARES, ecc.
Model Routing: Layer smart che instrada una domanda verso LLM diversi in base a difficoltà, latenza o budget. Le semplici vanno a Haiku/3.5-mini, le complesse a Opus/4.5. OpenRouter, Portkey e Martian offrono routing-as-a-service; abbassano il costo medio 5-20×.
Cascading Models: Pipeline in cui un modello piccolo/economico prova per primo; se la confidence è sotto soglia o la validation fallisce, si escala a un modello più grande/costoso. Variante fail-over del model routing; in app LLM reali l'80 % del traffico si risolve al 20 % del costo senza perdere qualità.
RAG Reranker: Seconda fase che riordina i top-50 chunk usciti dal vector retrieval tramite LLM-as-judge o cross-encoder. Cohere Rerank, BGE-Reranker e Jina Reranker sono diffusi; precision +20-40 %, metrica di retrieval-faithfulness migliorata.
Chunk Strategy: Come si spezza un documento per il RAG. Opzioni: fixed-size (es. 512 token), recursive character (paragrafo/frase), semantic chunking (segmentazione su embedding) e markdown-aware. Un chunking sbagliato = bassa retrieval precision; chunk size e overlap guidano direttamente la qualità RAG.
Embedding Drift: Quando gli embedding delle query reali in produzione si allontanano nel tempo dalla distribuzione di embedding del corpus RAG. Slang, prodotti e termini nuovi allargano il drift, il retrieval recall scende. Soluzione: rigenerazione trimestrale degli embedding + reindex new-data-aware.
HNSW Index (Hierarchical Navigable Small World): Algoritmo di indice ANN (Approximate Nearest Neighbor) usato dalla maggior parte dei vector DB. Grafo multi-layer; latenza in millisecondi su trilioni di embedding. Default in Pinecone, Weaviate, Qdrant, Milvus e pgvector.
ANN (Approximate Nearest Neighbor): Classe di algoritmi che trova risultati "abbastanza buoni" invece del vicino più prossimo esatto, scambiando accuratezza con velocità e memoria. Esempi: HNSW, IVF, PQ e ScaNN; con recall 95 % la latenza scende fino a 1000×. Motore della vector search.
Model Card: Scheda standard (introdotta da Google nel 2019) che documenta scopo, training data, performance, limiti, questioni etiche e scenari di fair-use di un modello AI. Oggi obbligatoria a ogni lancio di foundation model; base dello sviluppo AI trasparente.
AI Observability: Piattaforma che monitora app LLM in produzione su trace, costo, latenza e metriche di qualità. Tool: Langfuse, LangSmith, Helicone, Arize Phoenix, WhyLabs; ogni chiamata LLM (prompt, response, token, costo, eval score) viene loggata. Il successore LLM-native dell'APM classico.
Matchmaking (ELO / MMR): Algoritmo che accoppia i giocatori per skill nei giochi PvP. Varianti: ELO (eredità degli scacchi), Glicko, TrueSkill, MMR (Match-Making Rating). Bilancia smurf-protection per i nuovi vs skill-relax per le code lunghe; cuore di League of Legends, Valorant, Dota 2.
ARPDAU (Average Revenue Per Daily Active User): Ricavo medio per utente attivo giornaliero. Mobile casual 0,05-0,20 $, mid-core 0,20-0,80 $, hardcore RPG 1 $+. Stella polare delle decisioni di live ops; abbinata al pLTV è la base del budget di paid acquisition.
Whales / Dolphins / Minnows: Segmenti di spesa nei giochi F2P. Whales: top 1 % con 1.000 $+ di spesa; Dolphins: 5-10 % con 50-1.000 $; Minnows: 15-30 % con 1-50 $; Free-rider: 60-80 % che non paga. Distribuzione di Pareto in cui le whale generano oltre il 70 % del revenue — perderle è fatale.
Scope 1 / Scope 2 / Scope 3 Emissions: Classificazione in tre secchi delle emissioni di carbonio del GHG Protocol. Scope 1: emissioni dirette (caldaie di fabbrica, veicoli aziendali). Scope 2: elettricità, calore o raffreddamento acquistati. Scope 3: supply chain + ciclo di vita del prodotto — la fetta più grande, 75-85 %. Scheletro del reporting ESG.
Carbon Footprint: La somma totale delle emissioni di gas serra causate da una persona, un prodotto, un'azienda o un evento nel suo ciclo di vita (in CO₂-equivalente). Produrre un iPhone significa ~70 kg CO₂e; un volo transatlantico ~1,6 t. Nel reporting ESG è la somma di Scope 1 + 2 + 3.
Carbon Offset: Investimento in progetti esterni per compensare le emissioni — riforestazione, energia rinnovabile, cattura del metano, direct air capture. Il voluntary carbon market valeva ~2 mld $ nel 2024 ma è duramente criticato per greenwashing; Verra, Gold Standard e ICVCM sono i marchi di qualità. Strumento controverso verso il Net Zero.
CDP (Carbon Disclosure Project): Piattaforma globale in cui le aziende dichiarano emissioni clima, acqua e foreste in formato standard. Nel 2024 hanno riportato 24.000 aziende e 1.100 città; lo scoring A-D crea pressione su investitori istituzionali e clienti. Apple, Microsoft e Unilever in testa; gli obblighi di disclosure in supply chain si diffondono in fretta.
ESG Reporting (Environmental, Social, Governance): Reporting standard della performance ambientale, sociale e di governance di un'azienda. CSRD (UE), SEC Climate Rule (USA) e raccomandazioni TCFD formano l'ombrello globale; SASB, GRI e CDP sono i framework operativi. Dal 2024 oltre 50.000 aziende UE sono obbligate dal CSRD.
CSRD (Corporate Sustainability Reporting Directive): Direttiva UE in vigore dal 2024 che obbliga al reporting di sostenibilità oltre 50.000 grandi aziende — banche, assicurazioni, imprese con 250+ dipendenti e fatturato 40 M €+. Costruita sugli standard ESRS, con doppia materialità (impatto azienda → ambiente + ambiente → azienda) e assurance di terza parte.
Net Zero: Obiettivo a livello aziendale o nazionale di ridurre le emissioni al minimo e bilanciare il residuo con offset o rimozioni. Validato dai Science Based Targets (SBTi); obiettivo globale 2050. Differisce dal carbon-neutral: Net Zero è più severo — rimuove il residuo invece di compensarlo soltanto.
Carbon Neutral vs Net Zero: Carbon-neutral: le emissioni si neutralizzano via offset, senza obbligo di riduzione reale; Net Zero: prima si tagliano aggressivamente, poi si neutralizza il resto con removal (non solo offset). Microsoft punta a 2030 Carbon Negative, Apple a 2030 Net Zero e Google a 2030 24/7 carbon-free energy.
PUE (Power Usage Effectiveness): Metrica di efficienza elettrica di un data center — total facility power diviso IT equipment power. Ideale 1,0; 2,0 significa un'unità extra di cooling/lighting per ogni unità IT. Gli hyperscaler (Google, AWS, Azure) sono in media 1,10-1,15; i data center enterprise on-prem 1,5-2,0. KPI di sostenibilità chiave.
Green Software Foundation: Progetto Linux Foundation fondato da Microsoft, Accenture, GitHub e ThoughtWorks che standardizza lo sviluppo software sostenibile. Mantiene lo standard SCI (Software Carbon Intensity), la certificazione Green Software Practitioner e il catalogo Green Software Patterns. Guida alla sostenibilità di ogni dev team moderno.
SCI (Software Carbon Intensity): Standard ISO/IEC 21031 che misura le emissioni CO₂-equivalente per unità funzionale di software. Formula: energia × carbon intensity della regione + emissioni embodied. La risposta standard a "quanto carbonio costa questa chiamata API?" — base delle metriche green-software moderne.
Renewable Energy Credit (REC): Certificato negoziabile che rappresenta 1 MWh di energia rinnovabile. Invece di installare pannelli sul tetto, le aziende comprano REC e riportano la loro elettricità come rinnovabile; Green-e negli USA, GO (Garanzie d'Origine) in Europa. Il veicolo principale dietro gli impegni RE100.
PPA (Power Purchase Agreement): Contratto diretto a lungo termine (10-25 anni) e prezzo fisso per comprare elettricità rinnovabile direttamente dal produttore. Spina dorsale delle strategie carbon-free degli hyperscaler (Google, Amazon, Microsoft); volume PPA corporate globale 2024 stimato oltre 50 GW.
LCA (Life Cycle Assessment): Metodologia ISO 14040 che quantifica l'impatto ambientale completo di un prodotto da materie prime → produzione → uso → fine vita. Scope cradle-to-grave o cradle-to-cradle. Il valore "iPhone con footprint di 70 kg di carbonio" di Apple è un output di LCA.
Circular Economy: Modello economico che sostituisce il percorso lineare "produrre-usare-buttare" progettando prodotti riutilizzabili, riparabili e riciclabili fin dal giorno zero. Pioniera: Ellen MacArthur Foundation; IKEA Buyback, Patagonia Worn Wear e Apple Self-Service Repair come esempi concreti.
Greenwashing: Quando un'azienda sembra più verde tramite il marketing di quanto giustifichi la sua reale performance emissiva. CMA (UK), FTC (USA) e CSRD UE stanno regolando il greenwashing legalmente; Shell, BP e Volkswagen hanno pagato multe multimilionarie negli anni. La linea rossa etica della comunicazione sostenibile.
Carbon Border Adjustment Mechanism (CBAM): La "tassa carbonio sull'import" UE, pienamente in vigore dal 2026. Gli importatori in UE di acciaio, cemento, alluminio, fertilizzanti, idrogeno ed elettricità pagano ciò che avrebbero pagato sotto l'EU ETS se prodotti in UE. Primo grande dazio che riorganizza le supply chain per intensità di emissioni.
EPR (Extended Producer Responsibility): Regolamento che rende il produttore responsabile dei costi di fine vita e riciclo dei suoi prodotti. Esempi: Direttiva UE imballaggi, LOM francese, VerpackG tedesca, Sıfır Atık turco. Un produttore di bottiglie, vestiti o elettronica paga una tassa ambientale per ogni unità venduta.
Sustainable Procurement: Integrare criteri ambientali e sociali nelle decisioni di acquisto dell'azienda. Code of Conduct fornitori, rating sostenibilità EcoVadis, requisiti di materiale riciclato e certificazione fair-trade. La maggior parte delle emissioni Scope 3 nasce qui; cuore operativo del reporting CSRD moderno.
TCFD (Task Force on Climate-related Financial Disclosures): Framework pubblicato nel 2017 dal Financial Stability Board del G20 che integra rischi e opportunità climatiche nel reporting finanziario. Quattro pilastri: Governance, Strategy, Risk Management e Metrics & Targets. PRA UK, Nuova Zelanda e Giappone lo hanno reso obbligatorio. La gamba clima del reporting ESG.
SBTi (Science Based Targets initiative): Ente indipendente che valida se gli obiettivi di riduzione delle emissioni di un'azienda sono allineati alla traiettoria science-based 1,5 °C / well-below-2 °C dell'Accordo di Parigi. Oltre 5.000 aziende validate — Microsoft, IKEA, Unilever, Nike, Maersk fra le altre. Timbro obbligatorio dietro qualsiasi claim Net-Zero credibile.
EV Charging Network (Tesla Supercharger / Ionity / Electrify America): Infrastruttura per la ricarica rapida dei veicoli elettrici. Il network Supercharger di Tesla ha oltre 50.000 stazioni nel mondo e usa lo standard NACS; Ionity (consorzio BMW + VW + Mercedes) copre l'Europa; Electrify America copre gli USA. Dal 2024 Tesla ha aperto NACS ad altri marchi EV, accelerando il consolidamento dello standard.
North Star Framework: Framework reso popolare da Sean Ellis e Amplitude che definisce l'unica metrica "value-for-customer" di un'azienda. Spotify "time spent listening", Airbnb "nights booked", Slack "messages sent in active workspaces". Bussola di ogni decisione growth e product.
Driver Tree: Analisi che apre una metrica obiettivo (es. revenue) nei driver dietro di lei. Cugino stretto del KPI tree, più causale — risposta strutturata a "per alzare l'ARR puntiamo a nuovi logo o expansion?". Tool classico di problem-solving in McKinsey e Bain.
Executive Dashboard: Dashboard a una pagina per C-suite e board, con 7-12 metriche di vertice. KPI business-decision-grade — MRR, NRR, CAC, magic number, runway, rule of 40 — revisione settimanale. Formati classici in Tableau Executive, Looker C-suite e Mode Reports.
Operational Dashboard: Dashboard per decisioni operative ora-per-ora o giorno-per-giorno — trend del CPM in marketing, coda dei ticket in support, backlog ordini in ops. Refresh real-time o near-real-time; alerting e drill-down pivot obbligatori. Comune in Looker Studio, Power BI e Grafana.
Drill-Down: Comportamento di analisi click-through da una metrica aggregata fino al dettaglio — "revenue totale" → "per regione" → "per prodotto" → "per SKU" → "per transazione". Feature firma del self-service analytics di OLAP cube e BI moderni come Power BI, Tableau e Looker.
Slice & Dice: Tagliare e ispezionare dati multidimensionali lungo dimensioni diverse. "Slice": fissi una dimensione e analizzi il resto; "Dice": filtri due o più dimensioni insieme per costruire un sottoinsieme. Comportamento base della pivot table, ereditato dal vocabolario OLAP cube.
Pivot Table: L'invenzione di Excel del 1993 che permette di drag-and-drop di dati multidimensionali in righe, colonne, valori e filtri. Antenata del BI moderno; Tableau, Power BI, Looker e Hex portano il mental-model pivot nel proprio UX. Lingua franca dell'analisi dati.
Funnel Visualization: Mostrare un flusso di conversion come funnel chart che si restringe step-by-step — Awareness → Consideration → Purchase → Retention — per cogliere i drop-off a ogni passo. Mixpanel, Amplitude, Heap e GA4 hanno funnel report nativi; visuale core per CRO, product e marketing.
Cohort Heatmap: Matrice che visualizza la retention di coorti (settimana 0 → settimana N) tramite intensità di colore. Asse Y: settimana di signup; asse X: settimana post-signup; colore: tasso di retention. A colpo d'occhio mostra PMF, qualità dell'onboarding e impatto dei cambiamenti di prodotto recenti.
Sankey Diagram: Visualizzazione che mostra flussi — user journey, flusso energetico, path di conversion — come nastri di spessore proporzionale. Ideale per behavior flow di Google Analytics, analisi di churn e journey di attribution. Si costruisce con d3.js, Plotly o il custom visual Sankey di Power BI.
Bullet Chart: Grafico minimale progettato da Stephen Few che mostra target KPI, performance actual e fasce tier su una singola riga orizzontale. Molto più leggibile di un gauge o speedometer. Classico nei dashboard executive; Tableau e Power BI offrono supporto custom visual.
Data Storytelling: Approccio "racconta una storia, poi sostienila con i dati" invece di scaricare numeri e grafici sull'audience. Il libro "Storytelling with Data" di Cole Nussbaumer Knaflic è il manifesto; chiude il gap "so what?" con i decision maker. Si realizza con Tableau Story, bookmark di Power BI e narrativa in Notion.
Self-Service Analytics: Modello in cui i business user costruiscono query e dashboard propri senza dipendere da un analyst. Looker LookML, Tableau Ask Data, Power BI Q&A e ThoughtSpot search-driven in testa; servono semantic layer, data governance e training. L'obiettivo di "democratizzazione" del BI moderno.
Power BI: Piattaforma BI di Microsoft — integrata in profondità con Excel e BI enterprise più usato. Power Query (ETL), DAX (linguaggio di formula), Power BI Service (cloud + collaboration). Con Microsoft Fabric crescono integrazione data engineering e AI Copilot.
Tableau: Lo "standard d'oro visivo" del BI — il tool drag-and-drop più potente per grafici d'impatto. Nato a Stanford nel 2003 e acquisito da Salesforce nel 2019 per 15,7 mld $. Il trio Tableau Desktop + Server + Cloud resta più flessibile e artistico di Power BI.
ThoughtSpot: Pioniere del BI search-driven — l'utente digita in linguaggio naturale "show me revenue by region last quarter" e la piattaforma genera SQL e chart. SpotIQ porta auto-insight ML, mettendolo in testa al BI AI-augmented. Ha acquisito Mode Analytics per 200 M $ nel 2023.
Microsoft Fabric: Piattaforma analytics lanciata da Microsoft nel 2023 che unifica Power BI, Synapse, Data Factory, Real-Time Analytics e Copilot in un unico SaaS. OneLake punta a essere un "lakehouse for the masses" e rivale diretto di Snowflake e Databricks.
Real-Time Dashboard: Dashboard che si aggiorna in secondi mostrando "cosa sta succedendo ora". Combo WebSocket + SQL streaming + push notification. Trading, live ops di gaming, code di support real-time, monitoring IoT. Stack comuni: Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
Embedded Analytics: Mostrare dashboard BI direttamente dentro un'app SaaS. Sigma, Mode, Looker Embedded e Cube + frontend React custom in testa. Infrastruttura di qualsiasi app che debba mostrare dati specifici del cliente (Shopify analytics, Stripe Sigma, HubSpot report); feature PLG moderna.
Slowly Refreshed Dashboard (Daily / Weekly): Dashboard che non richiede real-time e si aggiorna dopo un batch ETL giornaliero o settimanale — review settimanale marketing, chiusura mensile finance, report di coorte retention. Scelta giusta per risparmio di compute e semplicità analitica; classico contro l'anti-pattern "premature real-time".
Anomaly Alerting: Alert che si scatena quando una metrica devia statisticamente dal proprio pattern stagionale e dal trend. Prophet, Datadog Watchdog, Anodot, MonteCarlo e Sigma Anomaly Detection sostituiscono soglie manuali con alert dinamici ML-driven. Capacità centrale della data observability moderna.
Forecasting (Prophet / SARIMA / LSTM): Predire valori futuri dai dati storici. Tool: Prophet (Meta, business-friendly con seasonality), SARIMA (statistica classica), modelli LSTM e Transformer (deep learning) e libreria Darts. Dominio ML core per forecasting delle vendite, demand planning e capacity planning.
Data Catalog (Atlan / Alation / Collibra): Piattaforma che rende tutti i data asset — tabelle, dashboard, modelli ML, metriche — scopribili e documentati per l'azienda. Lineage, tag, business glossary, data quality e ownership in un'unica UI. La "Wikipedia" del team data moderno.
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse): Feature di BI di nuova generazione: query in linguaggio naturale, insight automatici e narrativa esplicativa del grafico. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI e ThoughtSpot Sage rispondono a "perché il revenue è calato la scorsa settimana?" con root-cause automatica e ridisegnano il ruolo dell'analyst.
Edge AI: Eseguire modelli AI sul device — telefono, camera, drone, sensore IoT — invece che in cloud. Bassa latenza, privacy preservata, funzionamento offline; richiede modello quantizzato più NPU e runtime. Alimenta self-driving car, AR/VR e smart camera.
TinyML: Modelli ML abbastanza piccoli da entrare in MCU con kilobyte di RAM. Strumenti: TensorFlow Lite Micro, Edge Impulse e Arduino Nano 33 BLE Sense; copre keyword spotting, motion detection e anomaly detection. Porta AI su device IoT a batteria che durano anni.
Digital Twin: Replica virtuale di un oggetto fisico — motore di aereo, fabbrica, città, corpo umano — sincronizzata in tempo reale con i dati dei sensori. Unisce simulazione, monitoring e manutenzione predittiva. Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins e Bentley iTwin in testa.
People Analytics: Disciplina che applica ML e statistica ai dati dei dipendenti. Copre prediction di attrition, qualità del hiring, efficacia dei manager, analisi del gap DEI e trend di sentiment. Visier, ChartHop, Lattice, Culture Amp e Workday Adaptive Planning in testa; la gamba data-driven dell'HR.
eNPS (Employee Net Promoter Score): Lo score in stile NPS per "consiglieresti questa azienda come posto in cui lavorare?". Va da -100 a +100; sopra +30 buono, sopra +50 eccellente. Viene erogato con survey annuale + pulse trimestrale su Culture Amp, Officevibe, 15Five e Lattice. Termometro a singola domanda dell'engagement.
Pulse Survey: Il successore moderno della survey annuale di engagement — un mini-sondaggio da 5-10 domande inviato settimanale o bisettimanale. Polso engagement real-time che arriva diretto sul dashboard del manager. Tool: Officevibe, 15Five, Lattice e Culture Amp; risposta agile e actionable al classico mostro annuale da 80 domande.
EHR (Electronic Health Record): Registro digitale e condivisibile della salute del paziente — storia medica, esami, imaging, prescrizioni. Negli USA Epic e Cerner pesano 85 %+ del mercato; in Europa DocPlanner e Doctolib; in Turchia e-Nabız e MEDULA. L'interoperabilità e la privacy (HIPAA, GDPR, KVKK) sono al cuore del settore.
ClimateTech: Soluzioni tech per la crisi climatica — mitigation e adaptation. Cattura carbonio (Climeworks DAC), idrogeno verde, fusion (Commonwealth Fusion, Helion), batterie grid-scale (Form Energy) e modellazione del climate risk (Jupiter). Investimento globale ClimateTech oltre 40 mld $ nel 2024; Sequoia, Lowercarbon e Breakthrough Energy fra i fondi leader.
Carbon Capture (DAC / CCS): Tecnologia che cattura CO₂ dall'atmosfera o direttamente dai flue gas industriali. Direct Air Capture (Climeworks Orca, Carbon Engineering) e Carbon Capture & Storage (CCS) per i fumi di fabbrica. Costo 300-1.000 $ a tonnellata; l'advance market commitment da 1 mld $ di Frontier punta a portarlo a 100 $.

— DIAGNOSI RAPIDA

Sei pronto per un'operazione analytics?

Un navigatore interattivo in quattro domande che ti mostra il livello di programma più adatto. Risposte Sì/No, risultato in 30 secondi.

01 / 04

Al momento hai più di 10 dashboard attivi o report Excel?

L'abbondanza di dashboard è uno dei sintomi classici della mancanza di decisioni.

— LET'S BEGIN

I tuoi dashboard innescano decisioni o sono solo decorazione?

Diagnostica analytics di 60 minuti: inventario KPI attuale, grafo di dipendenza dei dashboard, salute delle fonti dati e raccomandazione di roadmap a 90 giorni — in un unico pannello.

Richiedi un dashboard audit Scarica il nostro template di KPI tree

Architettura Dati First-Party

Analytics & Insights sui Dati

CDP & Retention Engineering

Marketing Digitale

Performance Marketing

SEO Tecnica

GEO (Ricerca AI)

ASO & App Marketing

Editore Premium

CRO (Ottim. conversione)

UI / UX

Branding

Headless Commerce

Shopify Partner

Stack Tecnologico & Partnership

Data Analysis & Insight Engineering

Analytics non è 'preparare dashboard'; è un sistema operativo in cui ogni grafico fa partire una decisione.

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Inventario decisionale + mappa delle domande

KPI tree + modello dati

Dashboard + sistema di alert

Pipeline + refresh + monitoring

A/B + incrementality + validation MMM

Data council + formazione self-serve

Dove ci differenziamo? BI classica vs analytics decision-driven

Outcomes, measured

Engagement scope

Architettura KPI tree

Decision-tree dashboard

Layer dbt + warehouse + BI

Ingegneria cohort & retention

MMM bayesiano

Modellazione di attribuzione

Test di incrementality

Rilevamento anomalie

Analytics self-serve

Data governance

L'impatto dell'operazione dati sul lato decisionale

Velocità decisionale

Meno HiPPO

Risparmio tempo di reporting

Alert precoci + azione

Cultura self-serve

Accuratezza MMM + forecast

Output mensili + trimestrali

Inventario decisionale + mappa di 30 domande

KPI tree

Repo dbt + modelli

Semantic layer (modelli LookML / Metabase)

Pacchetto dashboard

Sistema di alert con soglia

Report cohort + retention

Modello MMM + report

Protocollo test di incrementality

Runbook di data governance

Sintesi mensile del data council

Materiale formativo self-serve

Cosa è incluso, cosa no?

Cosa copre questo servizio

Cosa non è incluso (scope opzionale)

Processo: dall'audit della settimana 1 alla governance dal mese 6+, operazione analytics end-to-end

Settimana 1-2 — Inventario decisionale + audit

Settimana 3 — KPI tree + schema

Settimana 4-5 — Modelli dbt + primi dashboard

Settimana 6-8 — Alert + cohort + refresh

Mese 3 — Training MMM + primi risultati

Mese 4 — Protocollo test di incrementality

Mese 5 — Data council + formazione self-serve

Mese 6+ — Refresh trimestrale + governance

Dallo warehouse al BI: lo stack analytics

Frequently asked

Terminologia analytics

Sei pronto per un'operazione analytics?

Al momento hai più di 10 dashboard attivi o report Excel?

I tuoi dashboard innescano decisioni o sono solo decorazione?