¿Cuántos meses de datos necesita el MMM?

Mínimo 18 meses de granularidad diaria. Lo ideal son 24 meses — así se modelan a la vez la estacionalidad (1 año) + el efecto de promos + los cambios en el mix de canales. Menos datos = confidence band más ancho = menor fiabilidad de decisión.

Tengo mi propio data team, ¿por qué trabajar con vosotros?

Analytics engineering (dbt, LookML, MMM, incrementality) es una disciplina específica; un esqueleto híbrido entre data engineer + data analyst + ML engineer. Empezamos construyendo juntos y a los 6-12 meses te traspasamos la operación con runbook.

¿La elección de herramientas es nuestra?

Sí. Trabajamos vendor-agnósticos. Te recomendamos la combinación dbt + warehouse + BI que más te conviene; nos adaptamos a tu stack actual. Sin lock-in.

¿Cómo se ejecuta un test de incrementality?

Dos métodos: (1) Geo-holdout — se apaga un canal en una geografía y se compara con la otra (framework GeoLift); (2) Matched-market — se comparan dos mercados estadísticamente similares. Ambos requieren un ciclo de test de 4-6 semanas + análisis post-test.

¿Cuál es el rango de coste?

La implementación inicial de 3 meses va de 18-40k USD (warehouse + dbt + BI + MMM). Mantenimiento mensual de 4-10k USD. El compute del warehouse aparte (de media 200-2000 USD/mes). En proyectos con MMM + incrementality enterprise el alcance puede ampliarse.

¿Cuándo se monta el self-serve?

Normalmente a partir del tercer mes. Los primeros 3 meses se refinan el modelo de datos + dashboards; una vez estable, se abre Metabase/Lightdash a la unidad de negocio con formación. Al sexto mes el objetivo típico son 30-50 usuarios self-serve activos.

¿De quién es la responsabilidad de data governance?

El runbook y el marco de política los ponemos nosotros; la aplicación y la gestión de acceso quedan en tu equipo de IT / security. Para el cumplimiento KVKK / RGPD trabajamos con tu partner legal — la implementación técnica es nuestra.

ANALÍTICA ORIENTADA A DECISIONES

Análisis de Datos e Ingeniería de Insights

Conectamos el dato de marketing a mecanismos de decisión, no a dashboards. KPI tree, modelado con dbt, Bayesian MMM, tests de incrementality y analítica self-serve — la infraestructura de la acción, no de la medición.

Hablemos de estrategia

Contacto

SERVICE

Active capacity

La analítica no es ‘hacer dashboards’; es un sistema operativo en el que cada gráfico dispara directamente una decisión.

La mayoría de las empresas se ahogan entre más de 40 dashboards pero reciben cinco respuestas distintas de cinco fuentes distintas para la misma pregunta. Los KPI se debaten, las decisiones se posponen, gana el HiPPO. La operación analítica de Roibase se apoya en seis principios que eliminan esta ambigüedad; cada principio no produce dashboards, produce decisiones.

Roibase perspective

METODOLOGÍA

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Las seis capas de la operación analítica; cada una produce su propio artefacto y se enlaza con las demás para alimentar el ciclo de decisión.

DIAGNOSE

Inventario de decisiones + mapa de preguntas

Se listan las 30 preguntas que quienes deciden se hacen cada semana; se aclaran fuente de respuesta, frecuencia, SLA e impacto.

MODEL

KPI tree + modelo de datos

Modelos dbt + semantic layer en LookML o Metabase; versionados, testeables y documentados.

BUILD

Dashboard + sistema de alertas

Dashboards por categoría de decisión (CAC, retention, revenue quality); alertas con umbral + plantillas de disparador.

AUTOMATE

Pipeline + refresh + monitoring

Orquestación del refresh con Airflow / Dagster / dbt Cloud; pipeline health + tests de calidad de datos + bot de Slack.

VALIDATE

A/B + incrementality + validación de MMM

Los outputs del modelo se contrastan con experimentos; calibración con tests de incrementality + simulaciones de escenarios MMM.

EDUCATE

Data council + formación self-serve

Data council mensual: qué pregunta quedó sin respuesta, qué dashboard no se usó, qué formación self-serve hace falta.

— COMPARACIÓN

¿Dónde está la diferencia? BI clásico vs analítica orientada a decisiones

Una empresa puede confundir 100 dashboards con ‘analytics’. El valor real aparece cuando cada dashboard se enlaza a una decisión y cada decisión a una acción.

Dimensión	BI in-house por sí solo	Agencia clásica de reporting	Analítica orientada a decisiones Roibase
Definición de KPI	Se solapa entre áreas	Plantilla de la agencia	KPI tree + ownership por escrito
Filosofía de dashboard	Abundancia de gráficos	Enfoque quarterly PPT	Cada gráfico, una decisión
Capa de modelado de datos	SQL ad-hoc + Excel	Reporting dentro de la plataforma	dbt + versionado + testeado
Ingeniería de cohort + LTV	Limitado a métricas promedio	No existe como reporte	D1-D90 + segmento + curva de LTV
MMM + incrementality	Inexistente	Intento basado en Excel	Bayesian MMM + geo-holdout
Sistema de anomalías / alertas	Control manual	Inexistente	Drift detector ML + Slack/email
Cultura self-serve	Data team cuello de botella	Dirigido por reportes	La unidad de negocio pregunta por sí misma
Governance + PII	Sin política	No hay conciencia	PII tagging + retención + audit

PROOF

Outcomes, measured

Preguntas de decisión

Número de preguntas estratégicas que quedan respondibles tras el primer sprint.

−40 %

Ahorro de tiempo en reporting

Horas que el equipo de marketing recupera en la preparación manual de dashboards.

Refreshes de MMM al año

Ritmo de actualización según cambios de temporada + mix de canales.

18-24

Meses de horizonte histórico

Rango mínimo de datos diarios necesarios para MMM + forecast.

99,2 %

Uptime del pipeline

SLA dbt + Airflow + monitoring; tests de calidad de datos incluidos.

5 días

Tiempo de publicación de dashboard

Tiempo medio desde el brief hasta la publicación de un nuevo panel de decisión.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Arquitectura de KPI tree

Cada métrica de marketing se conecta directamente al resultado de negocio; cada métrica tiene un propietario, una fuente, un umbral y una decisión disparadora.

02 / 10

Dashboards decision-tree

No gráficos, decisiones: paneles diseñados con la lógica ‘a este umbral, esta acción’; cada panel es para un rol y una frecuencia.

03 / 10

Capa dbt + warehouse + BI

Modelos de datos versionados y testeables con dbt; sobre BigQuery / Snowflake / Redshift; con interfaz LookML / Metabase / Lightdash.

04 / 10

Ingeniería de cohort y retention

Tablas de cohort D1/D7/D30/D90, curvas de LTV, análisis de churn y resurrection por segmento — el comportamiento real que queda bajo el promedio.

05 / 10

Bayesian MMM

Modelamos juntos media, promo, estacionalidad y variables macro; Robyn + PyMC; refresh trimestral + confidence band.

06 / 10

Modelado de atribución

GA4 DDA + multi-touch attribution + enfoques shapley value; un modelo de decisión que va más allá del reporting sesgado por la plataforma.

07 / 10

Incrementality testing

Tests geo-holdout + matched-market; Meta Lift, GeoLift, framework propio; precisión de referencia para decisiones de presupuesto.

08 / 10

Detección de anomalías

Para métricas que se deterioran en silencio, drift detector basado en ML + forecast band + alerta en Slack/email; al momento, no por la mañana.

09 / 10

Self-serve analytics

Un entorno donde la unidad de negocio responde sus propias preguntas (Metabase, Lightdash, Hex) + formación + mentoría.

10 / 10

Data governance

PII tagging, schema registry, política de retención, audit de acceso a datos, paquete documental; operación cumplidora con KVKK + RGPD.

— ENTREGABLES

El impacto de la operación de datos en la toma de decisiones

Cuanto más rápidas, basadas en datos y repetibles son las decisiones de una organización, mejor posicionada está frente a condiciones de mercado imprevisibles.

3x de velocidad

Velocidad de decisión

Las 30 preguntas estratégicas tienen respuesta en el panel; en la reunión no se discuten los datos, se discuten las acciones.

Data-driven

Menos HiPPO

No manda la opinión del mejor pagado, manda la decisión del dato; el debate se referencia sobre métricas.

−40 % horas

Ahorro de tiempo en reporting

Se acaban las rutinas manuales en Excel del equipo de marketing; las horas recuperadas se reinvierten en análisis estratégico.

En horas, no en días

Alerta temprana + acción

Con drift detector ML + alertas con umbral, las métricas que se deterioran se detectan en horas.

Más de 50 usuarios self-serve

Cultura self-serve

La unidad de negocio responde sus propias preguntas sin esperar al data team; el data team se enfoca en trabajo estratégico.

±8 % de precisión

Precisión de MMM + forecast

Con Bayesian MMM + calibración de incrementality, la desviación del forecast queda en una banda del ±8 %; la decisión de presupuesto es segura.

ENTREGABLES

Outputs mensuales + trimestrales

Los artefactos concretos de la operación analítica; cada uno se entrega a tu equipo y en el mes 12 funciona de forma totalmente autónoma gracias al runbook.

Inventario de decisiones + mapa de 30 preguntas
Lista de las preguntas semanales de los decisores, fuente de respuesta, SLA y necesidades de datos que faltan.
KPI tree
Fuente, propietario, umbral y decisión que dispara cada métrica — un único panel Miro / FigJam, versionado.
Repo dbt + modelos
Proyecto dbt versionado y testeable; capas staging / intermediate / marts y documentación incluida.
Semantic layer (LookML / Metabase models)
Capa de metric definitions comunes detrás de las preguntas que hará la unidad de negocio.
Pack de dashboards
Entre 15 y 25 paneles iniciales por categoría de decisión (CAC, retention, revenue quality); cada uno por rol + frecuencia.
Sistema de alertas con umbral
Drift detector ML + forecast band + integración Slack/email; las métricas que se deterioran alertan en horas.
Reporte de cohort + retention
Tablas D1/D7/D30/D90 + curvas de LTV + análisis de churn por segmento + tasa de resurrection.
Modelo MMM + reporte
Bayesian MMM (Robyn/PyMC); channel contribution + saturation + adstock + confidence band.
Protocolo de test de incrementality
Framework de test geo-holdout y matched-market; plantillas de planificación + ejecución + análisis.
Runbook de data governance
PII tagging, schema registry, política de retención, audit de accesos — cumplidor con KVKK + RGPD.
Resumen mensual de data council
Qué preguntas se respondieron, cuáles quedaron, qué dashboard se usó, lista de prioridades para el mes siguiente.
Material de formación self-serve
Vídeos de formación en Metabase / Lightdash / Hex para la unidad de negocio + glosario SQL / jerga + dataset de práctica.

— ALCANCE

¿Qué está dentro y qué fuera?

Los límites de la operación analítica son claros. Ver el alcance por adelantado evita expectativas erróneas y scope creep.

Lo que cubre este servicio

Inventario de decisiones + primer sprint de 30 preguntas
KPI tree + ownership por escrito + documento versionado
Montaje del repo dbt + capas staging/intermediate/marts
Integración con warehouse (BigQuery / Snowflake / Redshift / Databricks)
Semantic layer en LookML o Metabase
Primeros 15-25 dashboards + ampliación trimestral
Anomaly detection basada en ML + sistema de alertas con umbral
Analítica de cohort + LTV + retention — actualización trimestral
Bayesian MMM (3 refreshes al año)
Protocolo y ejecución de tests de incrementality
Runbook de data governance (PII, retención, audit)
Data council mensual + flujo de formación self-serve

Trabajos no incluidos (alcance opcional adicional)

BI financiero / contable (el lado ERP va con consultoría aparte)
Coste de compute / licencia del warehouse (contrato del cliente)
Entrenamiento de modelos ML custom (más allá del forecasting)
Infraestructura de streaming real-time (Kafka, Kinesis — alcance separado)
Consultoría de privacidad / jurídica (con abogado partner)
Renovaciones de licencias de herramientas BI
Compra de datos de terceros (panel, survey)
Las operaciones de marketing en sí (PPC / SEO / CRO como servicio aparte)

HOW WE WORK

Proceso: operación analítica de la semana 1 de diagnóstico al mes 6+ de governance

Semana 1-2 — Inventario de decisiones + audit

Lista de 30 preguntas estratégicas, inventario de dashboards actuales, salud de las fuentes de datos y diagnóstico de SLA.

Semana 3 — KPI tree + schema

KPI tree por escrito, metric definitions, ownership; decisión sobre schema del warehouse + capa staging.

Semana 4-5 — Modelos dbt + primeros dashboards

dbt staging + intermediate + marts; publicación de los primeros 5-8 dashboards; stakeholder review.

Semana 6-8 — Alertas + cohort + refresh

Sistema de alertas con umbral, reportes de cohort + retention, pipeline de refresh con dbt Cloud / Airflow.

Mes 3 — Entrenamiento MMM + primer resultado

Bayesian MMM con 18 meses de histórico; channel contribution + saturation + primera recomendación de revisión de presupuesto.

Mes 4 — Protocolo de test de incrementality

Framework geo-holdout o matched-market; primer test en producción, resultado en 4-6 semanas.

Mes 5 — Data council + formación self-serve

Arranca la rutina de data council mensual; flujo de formación self-serve en Metabase / Lightdash para la unidad de negocio.

Mes 6+ — Refresh trimestral + governance

Refresh trimestral de MMM, ciclo de tests de incrementality, audit de data governance; traspaso completo posible en el mes 12.

— STACK DE HERRAMIENTAS

Stack analítico del warehouse al BI

Trabajamos vendor-agnósticos; en cada capa hay elecciones que generan más valor. Nos adaptamos a tu stack actual.

WAREHOUSE

BigQuery (económico, on-demand)Snowflake (enterprise, compute separado)Redshift (en stack AWS)Databricks (uso con carga ML)Postgres (escala pequeña-media)

MODELLING & TRANSFORM

dbt (core + cloud)Dataform (GCP native)Coalesce (visual)Airflow / Dagster (orquestación)Fivetran / Stitch / Airbyte (ingesta)

BI & VISUAL

Looker (LookML semantic layer)Metabase (self-hosted self-serve)Lightdash (BI nativo en dbt)Tableau (enterprise)Hex / Mode (notebook-driven)Looker Studio (quick-win)

ML & MMM

Robyn (MMM open source de Meta)PyMC / Pyro (modelado Bayesiano)scikit-learn (drift detection)Prophet (forecasting)GeoLift (incrementality)Monte Carlo / Great Expectations (calidad de datos)

QUESTIONS

Frequently asked

Para algunas empresas sí; por debajo de 10 dashboards, sin joins cross-table y con operaciones monocanal, Looker Studio es una solución práctica. Pero cuando necesitas más de 30 dashboards, modelo de datos versionado o control de acceso role-based, hace falta Looker / Metabase / Lightdash.

— GLOSARIO

Terminología analítica

Cuando el mismo término significa lo mismo entre equipos, el debate acelera la decisión; si no, se multiplica la duda.

KPI Tree: Estructura jerárquica de métricas que se descomponen desde el resultado clave de negocio; cada nodo es un disparador de decisión.
dbt: Data build tool — framework de transformación de datos basado en SQL, versionado y testeable; estándar del analytics engineering.
Semantic Layer: Capa de metric definitions + business logic común detrás del BI; con LookML, Metabase models, Cube y similares.
Cohort: Grupo de usuarios que comparten una característica (fecha de registro, canal de acquisition); se analiza su comportamiento en el tiempo.
LTV (Lifetime Value): Valor total a lo largo de la vida de un cliente; gross margin × retention × frecuencia de pedido × ticket medio.
Retention: Porcentaje de usuarios adquiridos que siguen activos en una ventana temporal (D1, D7, D30, M1, M3). En SaaS y mobile games es la lectura directa del product-market fit; una curva de cohorte que se aplana es la firma de un producto sano.
Churn: Porcentaje de usuarios que abandonan la base activa de clientes en una ventana temporal. En suscripción golpea directamente el MRR; en e-commerce es el inverso del repeat rate. Se separa en voluntary (cancelado) e involuntary (fallo de pago); se reduce con onboarding, pricing y mensajería lifecycle.
MMM (Marketing Mix Modeling): Modelo Bayesiano que estima la channel contribution; requiere 18-24 meses de datos históricos.
Incrementality: Conversiones adicionales que no existirían sin un canal; se mide con tests geo-holdout, independiente de la atribución.
Anomaly Detection: Paraguas de técnicas que marcan automáticamente valores fuera del rango esperado en métricas de series temporales (KPI, conversión, latencia, signal de fraude). Se usan STL decomposition, Prophet, isolation forest, modelos OoD neuronales; el cerebro de alerting y dashboards de observabilidad.
Self-Serve Analytics: Entorno donde la unidad de negocio responde sus propias preguntas sin esperar al data team; con Metabase, Lightdash, Hex.
Data Governance: Conjunto de políticas de calidad, control de acceso, gestión de PII, retención y audit; cumplimiento KVKK/RGPD.
ETL / ELT: Extract → Transform → Load (legacy) vs Extract → Load → Transform (moderno). Maneras de mover datos desde la fuente al warehouse. ELT depende del compute barato de los cloud DW; dbt + BigQuery/Snowflake/Databricks es el estándar actual.
Data Lake: Almacén central para todos los datos estructurados y no estructurados (logs, imágenes, vídeo, raw events) sin imponer schema. Sobre S3, GCS o ADLS con formatos Parquet/Iceberg/Delta Lake; complementa al warehouse y cimenta la arquitectura lakehouse.
Stream Processing: Procesar datos como flujo de eventos en tiempo real en vez de en batches. Stacks habituales: Kafka + Flink/Spark Streaming/Kinesis + ksqlDB; casos de uso: fraud detection, personalización en tiempo real, telemetría IoT y anomaly alerting.
Data Contract: Contrato previo entre productores y consumidores de datos sobre schema, semántica, SLA y ownership. Operado con dbt + Great Expectations + JSON Schema; el muro más fiable contra la sorpresa "se rompió un modelo downstream".
LLM (Large Language Model): Modelo de lenguaje de propósito general con miles de millones de parámetros transformer, pre-entrenado sobre corpus de texto enorme. GPT-5, Claude, Gemini, Llama; motor para chat, código, resumen, traducción, retrieval y tareas de agente — se especializa con fine-tuning o prompt engineering.
Transformer: Arquitectura de red neuronal introducida en "Attention Is All You Need" (2017) que captura relaciones de largo alcance en datos secuenciales vía self-attention. Sucesor de RNN y LSTM; sustrato de todo LLM moderno (GPT, Claude, Llama, Gemini) y modelos de visión (ViT).
Embedding: Representación vectorial de alta dimensión de una palabra, frase, imagen o usuario — la similitud semántica se mide por proximidad de vectores. Moneda común para recomendación, semantic search, RAG, clustering y anomaly detection; OpenAI ada, Cohere y sentence-BERT son productores comunes.
RAG (Retrieval-Augmented Generation): Arquitectura en la que el LLM, antes de generar respuesta, obtiene documentos relevantes de una base de conocimiento externa (vector DB, doc store) y los inyecta en el contexto. Reduce la hallucination y es la vía estándar para darle al modelo acceso "open-book" a datos frescos/privados — terna embedding + retriever + LLM.
Vector Database: Base de datos que almacena embeddings en un espacio vectorial de alta dimensión y encuentra vectores similares en milisegundos vía ANN (Approximate Nearest Neighbor). Pinecone, Weaviate, Qdrant, pgvector, Chroma; el verdadero motor del retrieval en RAG.
Fine-tuning: Proceso de re-entrenar un foundation model pre-entrenado con datos etiquetados adicionales (normalmente pequeños) para una tarea o dominio específico. Full fine-tune, LoRA/QLoRA e instruction-tuning son variantes comunes; sustrato de los casos "asistente custom" sobre ChatGPT y similares.
LoRA (Low-Rank Adaptation): Técnica de fine-tuning eficiente en parámetros que añade pequeñas matrices "adapter" en vez de actualizar todos los pesos del foundation model. Entrena ~0,1-1 % de los parámetros, reduce memoria GPU 70 %+; el adapter swap por tarea hace práctico el serving multi-task.
RLHF (Reinforcement Learning from Human Feedback): Etapa final del pipeline de entrenamiento de un LLM que alinea las salidas del modelo con las preferencias de evaluadores humanos. Un reward model + algoritmo PPO/DPO empuja al modelo hacia salidas "útiles, honestas, no dañinas"; base del alignment de ChatGPT.
Hallucination: Cuando un LLM se inventa con seguridad una fuente, hecho o cita inexistente. La causa es responder con la misma confianza preguntas fuera de la distribución de su training data; se mitiga con RAG, citation grounding y self-consistency checks — nunca se elimina del todo.
Prompt Engineering: Disciplina de diseñar sistemáticamente el prompt (instrucción + contexto + ejemplos + formato) para que el LLM produzca la salida deseada. Few-shot, chain-of-thought, role assignment, output schema, system prompt; la capa "cómo se le habla" de toda app de IA en producción.
Context Window: Cantidad de tokens (entrada + salida) que un LLM puede procesar en una llamada. Va de 8K-128K (GPT-4) a 200K (Claude) y 1M+ (Gemini); capacidad crítica para análisis de documentos largos, conversación multi-turno y agent state — RAG es la vía alternativa para "extender" el contexto.
Function Calling / Tool Use: Capacidad del LLM para invocar una función externa (API, query a BD, runner de código) vía JSON estructurado en vez de texto libre. OpenAI tools, Anthropic tool_use; el protocolo oficial con el que los agents alcanzan al mundo real.
AI Agent: Construcción software que usa un LLM como motor de decisión y ejecuta tareas multi-paso de forma autónoma vía tool calling + memoria + bucle plan-execute. ReAct, AutoGPT, Claude/GPT agents, LangGraph; arquitectura "investigar → planear → correr tools → alcanzar objetivo".
Foundation Model: Modelo grande pre-entrenado sobre datos diversos a escala internet, transferible a tareas downstream — LLMs, modelos de visión (CLIP, ViT), multimodales (GPT-4o, Gemini). Encima se construyen aplicaciones vía fine-tuning, prompt engineering o RAG.
Multimodal AI: Sistema de IA en el que el mismo modelo entiende y genera a través de más de una modalidad — texto + imagen + audio + vídeo. GPT-4o, Gemini, Claude 3.5 vision; sustrato de casos cross-modal como OCR, image captioning, vídeo Q&A, transcripción de audio y agents screen-aware.
NLP (Natural Language Processing): Subdisciplina de la IA centrada en la capacidad de un ordenador para entender, generar y transformar lenguaje natural (turco, inglés, etc.). Tokenización, POS tagging, NER, análisis de sentimiento, traducción automática; los LLMs son hoy las herramientas más potentes del campo.
Token: La unidad textual mínima que procesa un LLM — puede ser palabra, sub-palabra o un único carácter. Un tokenizador (BPE, WordPiece, SentencePiece) convierte texto en tokens; el pricing de OpenAI y los límites de context window se miden en tokens (1 palabra inglesa ≈ 1,3 tokens).
Temperature: Parámetro que controla la "aleatoriedad" de la distribución de salida de un LLM — 0 = siempre el token más probable (determinista), 1+ = más creativo/diverso. Valores típicos: 0-0,3 para código/JSON/numérico, 0,7-1,2 para historia/brainstorm; se ajusta junto a top_p.
Semantic Search: Enfoque de búsqueda que devuelve resultados basados en significado comparando embeddings de query y documentos en vez de palabras clave. Independiente de la ortografía, capta sinónimos; el motor de retrieval de RAG — implementado con vector DB + ANN.
Inference: Fase en la que un modelo IA entrenado produce predicciones/generaciones sobre datos en vivo (lo opuesto al training). Latencia, throughput, coste por petición y el stack de model serving (vLLM, TGI, Triton); ~90 % del lado producción del MLOps.
OLTP (Online Transaction Processing): Enfoque de base de datos optimizado para lecturas/escrituras de alto volumen, basadas en filas y baja latencia. PostgreSQL, MySQL, MongoDB; almacén estándar tras los backends de aplicaciones en vivo — carrito ecommerce, sesión de usuario, reservas.
OLAP (Online Analytical Processing): Enfoque de base de datos columnar optimizado para queries analíticas a gran escala. BigQuery, Snowflake, Redshift, ClickHouse; escanea millones de filas en segundos para agregación, GROUP BY y time-series — infra de BI y dashboards.
ACID: Las cuatro garantías de bases de datos transaccionales: Atomicity (todo o nada), Consistency (las reglas no se rompen), Isolation (las ops concurrentes no se ven entre sí), Durability (los datos commited persisten). Contrato núcleo de RDBMS como PostgreSQL, MySQL, Oracle.
BASE: El set de garantías relajado de sistemas distribuidos/NoSQL: Basically Available, Soft state, Eventual consistency. Lo opuesto a ACID — acepta inconsistencia breve a cambio de availability + escala. Filosofía de DynamoDB, Cassandra, Riak.
Sharding: Partir una base de datos por una clave (user_id mod 16, rango temporal) y guardar cada shard en un servidor distinto. Método de escalado horizontal; los JOIN cross-shard se vuelven impracticables y la elección de shard-key es una decisión arquitectónica irreversible.
Replication: Mantener una copia viva de la base de datos en varios servidores — para distribuir carga de lectura (read replicas) y proveer failover. Async (Postgres streaming) tiene lag pero es rápido, sync es consistente pero lento; cada estrategia es un tradeoff.
Eventual Consistency: En un sistema distribuido, una actualización necesita tiempo para propagarse a todas las réplicas — durante una ventana breve nodos distintos pueden devolver valores distintos. Default de DynamoDB y Cassandra; no apta para banking, ideal para social media.
CDC (Change Data Capture): Patrón que captura eventos INSERT/UPDATE/DELETE de una base de datos en tiempo real y los envía a sistemas downstream (warehouse, search index, cache). Debezium, Kafka Connect; sobre replication slots + log tailing, la alternativa moderna al polling.
Star Schema: Enfoque de modelado en warehouse donde una tabla de hechos central (p. ej. orders) está rodeada por tablas de dimensión (customer, product, date) en forma de estrella. Las queries BI necesitan pocos JOIN = rápidas; arquitectura canónica para BigQuery, Snowflake.
Materialized View: Objeto de base de datos que escribe físicamente el resultado de una query SELECT a disco y lo cachea. Pre-computa una agregación compleja en vez de recalcularla cada vez; la estrategia de refresh (manual, scheduled, incremental) es el tradeoff.
Normalization: Proceso de dividir un schema de base de datos en tablas relacionadas para eliminar redundancia y anomalías de actualización (1NF, 2NF, 3NF, BCNF). Estándar para OLTP; garantiza que cada update ocurre en un único sitio — a cambio de más JOINs.
Denormalization: Unir deliberadamente tablas normalizadas y aceptar redundancia a cambio de performance de query. Estándar para OLAP / data warehouse; reduce el coste de JOIN y gestiona el riesgo de inconsistencia vía ETL/CDC.
Time-series Database: Base de datos optimizada para escrituras de alto volumen de métricas con timestamp (uso de CPU, sensores IoT, tickers financieros) y queries por rango temporal. InfluxDB, TimescaleDB, Prometheus, ClickHouse; downsampling + retention policy son features núcleo.
Iceberg / Hudi / Delta Lake: Proyectos open-source que añaden una capa de "table format" sobre object storage (S3, GCS), aportando schema evolution, ACID, time-travel y concurrent writers. Los tres motores estándar de la arquitectura lakehouse.
Data Quality: Disciplina de medir un dataset en precisión, completitud, consistencia, frescura y unicidad. Great Expectations, Monte Carlo, Soda automatizan los tests; única defensa real contra "garbage in, garbage out".
Data Lineage: Grafo trazable de todos los pasos de transformación que atraviesa un dato desde la fuente (evento raw) hasta el usuario final (KPI de dashboard). Atlan, OpenMetadata, dbt docs; respuesta determinista a "¿de dónde sale este KPI?" más impact analysis.
Data Mesh: Estructura de productos de datos self-serve por dominio (marketing, finance, product) en vez de un equipo central de datos. Sobre domain ownership + product thinking + federated governance; respuesta al problema del "data team como bottleneck" a escala.
Data Catalog: Catálogo central que indexa todo activo de datos de una organización (tabla, dashboard, modelo ML, columna) con búsqueda, descripciones y ownership. Atlan, Collibra, OpenMetadata, Amundsen; respuesta a "¿existe este dato, quién es el dueño?".
Schema Evolution: Capacidad de un formato de datos (Avro, Parquet, JSON) para cambiar en el tiempo sin romper consumidores existentes al añadir campos. Exige disciplina en backward + forward compatibility, optional fields y defaults; crítico para CDC, event sourcing y lakehouse.
AWS DynamoDB: Base de datos serverless NoSQL key-value + document de AWS. Latencia de un solo dígito en ms con miles de millones de requests/sec, particionado automático, point-in-time recovery y global tables (multi-región). Ideal para backends de juego, telemetría IoT, sessions y leaderboards.
GCP Spanner: Base de datos relacional de Google, escalable globalmente, compatible con ACID y de escalado horizontal. Sintaxis SQL + escala tipo DynamoDB + transacciones tipo PostgreSQL; uptime multi-región 99,999 %; corre Google Ads/Maps; ideal para fintech.
Azure Cosmos DB: Base de datos NoSQL multi-modelo y global de Microsoft Azure. APIs SQL, MongoDB, Cassandra, Gremlin (graph) y Table sobre el mismo motor; cinco niveles de consistencia (strong → eventual); latencia y throughput con SLA.
Prometheus: Capa de métricas del stack cloud-native de monitoring. Scraping pull-based recoge /metrics de endpoints; PromQL para queries time-series; Alertmanager gestiona reglas de alerta. Estándar de-facto en Kubernetes y arquitecturas microservicio modernas.
Grafana: Plataforma open-source de visualización de datos y dashboards. Unifica más de 100 data sources (Prometheus, Loki, Elasticsearch, CloudWatch, Postgres…) en un único panel; alerting, anotaciones, templating de paneles; pieza clave en SRE para pantallas NOC.
Jaeger: Plataforma CNCF de distributed tracing. Captura cada hop de una request entre microservicios como spans; visualiza cuellos de botella de latencia, dependencias perdidas y propagación de errores. 100 % compatible con el estándar OpenTelemetry.
OpenTelemetry (OTel): Proyecto CNCF que unifica observabilidad (metrics, logs, traces) bajo un único estándar vendor-neutral. SDKs y auto-instrumentación hacen el código portable entre Datadog, New Relic, Honeycomb, Jaeger… rompiendo el vendor lock-in.
ELK Stack: Elasticsearch + Logstash + Kibana — el stack open-source de agregación, indexación y visualización de logs. Logstash ingesta, Elasticsearch indexa para full-text search, Kibana provee dashboards. Loki + Grafana gana terreno a escala, pero ELK sigue muy presente.
SLI (Service Level Indicator): Indicador numérico de la salud de un servicio — tasa de éxito, latencia p99, disponibilidad. Base de medida del SLO; responde objetivamente a "¿qué porcentaje de requests cerró bajo 200 ms?". Concepto central del SRE Book de Google.
SLO (Service Level Objective): Valor objetivo interno que un SLI debe alcanzar — p. ej. "latencia p99 < 200 ms el 99,9 % de una ventana de 30 días". Respuesta de ingeniería a "¿cuánta fiabilidad es suficiente?"; base del error budget.
SLA (Service Level Agreement): Contrato externo entre proveedor y cliente; reflejo legal del SLO. Romper el SLA implica penalizaciones como reembolsos o créditos. Regla práctica: SLA < SLO < SLI — ingeniería apunta más estricto que la garantía pública.
Error Budget: La "cantidad de fallo permitida" que se deriva del SLO. 99,9 % SLO = 0,1 % de error budget = ~43 minutos de downtime al mes. Budget disponible → asumir riesgos (releases). Budget consumido → modo estabilización. Balance SRE entre innovación y fiabilidad.
Diffusion Model: Familia de modelos generativos que aprenden a añadir ruido a los datos progresivamente y revertir el proceso. Arquitectura central de los generadores modernos de imagen/vídeo como Stable Diffusion, Midjourney, DALL-E 3 y Sora. Entrena mucho más estable que las GAN y produce salidas más variadas.
GAN (Generative Adversarial Network): Modelo generativo en el que dos redes neuronales — Generator (falsos) y Discriminator (juez real/falso) — entrenan compitiendo. Lo introdujo Ian Goodfellow en 2014; tecnología detrás de los primeros deepfakes, retratos StyleGAN y super-resolución. Hoy lo eclipsan los diffusion models.
CLIP (Contrastive Language-Image Pre-training): Modelo de OpenAI (2021) que alinea imágenes y sus captions en un espacio de embeddings común — el embedding de "una foto de un gato" cae cerca de fotos reales de gatos. Es el condicionador text-to-image dentro de Stable Diffusion y base de la clasificación zero-shot de imágenes y la búsqueda visual.
ControlNet: Arquitectura de 2023 que añade una señal de condicionado extra a los diffusion models. Guía la generación con referencias como pose, depth map, canny edges o scribbles, permitiendo controles tipo "esta pose pero con otra ropa". Uno de los add-ons más usados del ecosistema Stable Diffusion.
Adapter Tuning: Enfoque de fine-tuning que inserta capas "adapter" pequeñas en un LLM grande en vez de reentrenar todos los parámetros. Variantes populares: LoRA, QLoRA, IA³; se entrena <1 % de los parámetros originales, reduciendo drásticamente el coste de GPU.
PEFT (Parameter-Efficient Fine-Tuning): Término paraguas para enfoques que entrenan un subconjunto pequeño de parámetros en vez de hacer full fine-tune de un LLM de 70B. LoRA, prompt tuning, prefix tuning y adapter tuning son todas variantes PEFT. La librería peft de HuggingFace es la herramienta estándar.
Quantization (LLM): Técnica que comprime los pesos float32/float16 de un modelo a int8, int4 o incluso int2. Memoria 4-8× menor, inferencia 2-3× más rápida, pérdida de calidad usualmente pequeña. Llama.cpp, formato GGUF y los algoritmos AWQ/GPTQ son las herramientas habituales.
Knowledge Distillation: Técnica que transfiere el comportamiento de un modelo "teacher" grande a un modelo "student" pequeño. Apuntando a las probabilidades suaves del teacher, el student logra precisión casi idéntica con muchos menos parámetros. El truco detrás de DistilBERT, TinyLlama y Phi-3.
Mixture of Experts (MoE): Arquitectura que, en vez de un modelo monolítico, enruta cada token a una selección dispersa (uno o dos) de pequeños submodelos "expertos". Usado en Mixtral 8x7B, GPT-4 y DeepSeek; baja los parámetros activos manteniendo capacidad y reduciendo el coste de inferencia.
Speculative Decoding: Técnica que acelera la inferencia LLM: un modelo "draft" pequeño propone varios tokens por adelantado, el modelo "target" grande los verifica en paralelo y acepta los correctos. Aceleración 2-3× con calidad idéntica. Estándar en vLLM y llama.cpp.
KV Cache: Optimización que mantiene en memoria las matrices Key y Value calculadas para tokens previos en las capas de atención del transformer. Cada token nuevo computa solo su K/V en vez de repetir el historial. Acelera la inferencia 10-100×, pero es el cuello de botella de memoria en contextos largos.
Attention Head: Uno de los múltiples mecanismos de attention pequeños que corren en paralelo dentro de un Transformer. Cada head se centra en un aspecto distinto del input — sintaxis, posición, dependencias de largo alcance. Modelos como GPT-4 usan 96+ heads por capa; bloque básico de la multi-head attention.
BPE Tokenizer (Byte-Pair Encoding): Algoritmo de tokenización que parte el texto en las sub-palabras más frecuentes — p. ej. "tokenization" → "token" + "ization". GPT, LLaMA y Mistral usan variantes de BPE (tiktoken, SentencePiece); el vocabulario queda fijo (~32K-128K) y el problema de OOV se resuelve.
DPO (Direct Preference Optimization): Alternativa más simple al RLHF. En vez de la complejidad de reward model + PPO, hace regresión logística directa sobre pares "preferida vs rechazada". Stanford 2023; más estable, menos hiperparámetros y el método de alineación elegido en modelos como Llama 3.
Constitutional AI: Método presentado por Anthropic en 2022 que alinea un modelo con una "constitución" escrita (lista de principios éticos) en lugar de revisores humanos. El modelo critica y mejora sus propias salidas contra la constitución; base del alineamiento de Claude, también llamado RLAIF.
Chain-of-Thought (CoT): Técnica de prompting que pide al LLM "pensar paso a paso" y escribir el razonamiento intermedio antes de la respuesta. Introducida por un paper de Google en 2022; mejora drásticamente matemática, lógica y preguntas multi-paso. "Let's think step by step" es la frase mágica. Base de los modelos de razonamiento modernos (o1, DeepSeek-R1).
Few-Shot Prompting: Técnica que da 2-5 ejemplos (pares input → output) dentro del prompt para que el LLM aplique el mismo patrón a un input nuevo. Adaptación rápida sin fine-tune — "responde como en estos ejemplos". Solución más práctica para clasificación de texto etiquetada y extracción formateada.
Zero-Shot Prompting: Enfoque de prompting donde la tarea se describe al LLM sin ejemplos — p. ej. "traduce este texto al alemán". Se apoya solo en el conocimiento del pre-training; con modelos de frontera (GPT-4, Claude) basta para la mayoría de tareas.
Grounding (LLM): Técnica que "ancla" la respuesta de un LLM en una fuente de conocimiento externa: documentos, base de datos o web search. Se usa el contexto recuperado en lugar de la memoria paramétrica; la alucinación cae drásticamente, hay citas y el conocimiento se mantiene fresco en tiempo real.
Structured Output (LLM): Capacidad de forzar la salida de un LLM a un JSON schema definido, modelo Pydantic o regex. OpenAI structured outputs, Anthropic tool use, vLLM grammar-constrained sampling. Clave para pasar del texto libre a un flujo de datos determinista listo para producción.
Tool Use (Agent): Capacidad del LLM de llamar a herramientas externas — web search, code interpreter, calculadora, APIs custom. Vía el protocolo function calling el modelo devuelve "tool name + parámetros", el runtime lo ejecuta y reinyecta el resultado. Núcleo de las arquitecturas agente (Claude Agent SDK, AutoGen, LangGraph).
Cross-Modal Embedding: Embeddings que representan distintas modalidades (texto, imagen, audio) en el mismo espacio vectorial. CLIP para imagen+texto, ImageBind para texto+imagen+audio+vídeo+depth+térmico+IMU. Crítico para búsqueda multimodal ("encuentra copy similar a esta foto"), retrieval cross-modal y añadir media a RAG.
Hybrid Search (BM25 + Vector): Estrategia de retrieval que combina búsqueda clásica por keyword (BM25/lexical) con similitud vectorial. BM25 gana en exact match (IDs, códigos de producto); los vectores ganan en semántica ("cómo devuelvo esto" → "política de devolución"). Estándar oro del RAG moderno.
Data Fabric: Arquitectura integrada que unifica fuentes distribuidas (cloud, on-prem, SaaS) en una capa de datos lógica única. Metadata-driven y AI-augmented; ofrece la alternativa de "integración centralizada" al modelo de ownership distribuido del data mesh. Talend, Informatica e IBM Cloud Pak son productos clave.
Medallion Architecture: Patrón de organización de data lake popularizado por Databricks — capas Bronze (crudo), Silver (limpiado, conformado) y Gold (listo para negocio, agregado). Cada capa se apoya en la anterior; separa con claridad lineage, calidad y reprocesado.
Apache Spark: Motor distribuido de procesamiento de datos en memoria. El sucesor 10-100× más rápido de Hadoop MapReduce; reúne SQL, streaming, ML (MLlib) y graph (GraphX) en una sola API. El núcleo de Databricks, gestionado en AWS EMR, GCP Dataproc y Azure HDInsight; PySpark lo convierte en la herramienta principal del data engineer.
Apache Flink: Motor de procesamiento true streaming (evento a evento). Frente al micro-batch de Spark Streaming ofrece latencia milisegundo, exactly-once y procesamiento stateful. Mueve fraud y anomaly detection en tiempo real en Alibaba, Uber y Netflix.
Kafka Connect: Framework de conectores source/sink de Apache Kafka. Trae CDC o ingestión batch desde 100+ sistemas (Postgres, MySQL, S3, Elasticsearch, Snowflake…) hacia Kafka y exporta streaming a sistemas externos. El catálogo de 1.000+ conectores de Confluent es la referencia estándar.
Singer: Protocolo open-source de integración de datos creado por Stitch (hoy Talend) que mueve streams JSON entre "taps" (extract) y "targets" (load). Framework ELT modular y neutral; núcleo de plataformas ELT open-source como Meltano.
Apache Airflow: Plataforma de orquestación de workflows cuyos DAGs (grafos acíclicos dirigidos) se definen en Python. Creada en Airbnb en 2014 y donada a la Apache Foundation. Scheduling, reintentos, gestión de dependencias y UI web para observabilidad; estándar de-facto en data pipelines.
Dagster: Framework moderno de orquestación de datos basado en assets. Mientras Airflow se centra en tareas, Dagster se centra en "data assets" — con lineage, type-checking, software-defined assets y testing integrados. Integraciones first-class con dbt, Fivetran y Snowflake.
Prefect: Herramienta moderna y pythonic de orquestación de datos con DAGs dinámicos. Resuelve la limitación de DAGs estáticos de Airflow — los flows pueden cambiar en runtime — y aporta ejecución híbrida (cloud + self-hosted) y políticas de retry granulares. Popular también en pipelines ML.
Snowflake: Data warehouse gestionado cloud-native. Compute (warehouse) y storage están completamente desacoplados y escalan por separado. Consultas SQL sobre datos semi-estructurados (JSON, Parquet), data sharing seguro y time travel (hasta 90 días); fuerte alternativa a BigQuery y Redshift.
BigQuery: Data warehouse serverless, columnar y a escala de petabytes de Google Cloud. Modelo pay-per-slot; entrenamiento de modelos ML por SQL (BQML); destino de exportación nativo de GA4; optimizaciones integradas geo, JSON y PARTITION/CLUSTER. Núcleo del stack analytics de GCP.
Databricks: Plataforma lakehouse fundada por los creadores de Apache Spark. Reúne capas Bronze/Silver/Gold (medallion), Delta Lake, MLflow, Unity Catalog y workspaces basados en notebooks en un solo producto. Pensada para colaboración data engineer + analyst + ML engineer; nativa en AWS, Azure y GCP.
Apache Iceberg: Formato open de tablas a escala petabyte (originario de Netflix). Añade ACID, schema evolution, time travel, hidden partitioning y branching sobre Parquet. Lo soportan Snowflake, Databricks, BigQuery y Trino; la respuesta estándar al lock-in de data warehouse.
Delta Lake: Formato open de tablas desarrollado por Databricks, rival de Apache Iceberg. ACID, time travel, schema enforcement, MERGE/UPDATE/DELETE; la integración más estrecha es con el ecosistema Spark. Formato por defecto en el lado Databricks de la arquitectura lakehouse.
Parquet: Formato columnar de almacenamiento — cada columna en sus propios bloques. Solo se leen las columnas necesarias, soporta predicate pushdown y Snappy/Zstd dan compresión alta. Formato por defecto para Spark, Iceberg, Delta y Snowflake; analítica 10-100× más rápida que CSV/JSON basado en filas.
Apache Avro: Formato binario de serialización con schemas definidos en JSON. Schema evolution sólida (forward/backward compatibility); especialmente popular en payloads de mensajes Kafka. Se usa junto con un Schema Registry; contraparte row-oriented de Parquet.
Schema Registry: Servicio que almacena, versiona y revisa compatibilidad de schemas Avro/Protobuf/JSON de forma centralizada. Parte del stack Kafka de Confluent; impone el contrato productor-consumidor y atrapa breaking changes antes de producción.
Window Function (SQL): Funciones SQL que calculan sobre un conjunto de filas ("ventana"). ROW_NUMBER, RANK, DENSE_RANK, LAG, LEAD, SUM/AVG OVER (PARTITION BY…). A diferencia de GROUP BY, las filas no se colapsan — cada una conserva su resultado. Imprescindibles en series temporales, rankings y totales acumulados.
ELT (Extract, Load, Transform): El reverso del ETL clásico: los datos crudos primero se cargan en el warehouse/lake y allí se transforman con SQL/dbt. Con storage barato de cloud DWH y compute potente, ELT es el paradigma por defecto; acerca la lógica de transformación a los analistas.
Feature Store: Plataforma que almacena y sirve centralmente las features (históricas + en tiempo real) que consumen los modelos ML. Resuelve el training-serving skew derivando vistas offline (batch) y online (low-latency) de una sola definición. Feast, Tecton y Hopsworks son las herramientas principales.
MLOps: Disciplina que automatiza el ciclo desarrollo-entrenamiento-despliegue-monitorización-reentrenamiento de modelos ML. DevOps aplicado a ML — experiment tracking (MLflow), model registry, CI/CD de modelos, detección de drift y pipelines de reentrenamiento.
OpenLineage: Estándar abierto para eventos de data lineage (LF AI & Data). Permite que Airflow, Spark, dbt, Flink y otros emitan eventos de lineage en el mismo formato. Integrado en Marquez, Datakin y Astronomer; portador neutral del flujo de metadatos.
Great Expectations: Framework open-source de calidad / validación de datos. Miles de checks listos como "expect_column_values_to_be_unique" o "expect_column_mean_to_be_between"; se integra en pipelines Airflow/dbt y genera data docs HTML automáticamente.
Apache Atlas: Herramienta open-source de gestión de metadatos y data governance, surgida del ecosistema Hadoop. Control de acceso basado en tags, grafos de lineage, glosario de negocio y clasificaciones (PII/PCI). Estándar del stack Hortonworks/Cloudera; alternativas modernas: Amundsen y DataHub.
Lambda Architecture (Data): Arquitectura de datos que fusiona resultados real-time y batch. La speed layer (Storm/Flink) produce resultados aproximados de baja latencia mientras la batch layer (Spark/Hadoop) calcula resultados precisos pero lentos; la serving layer los combina. No confundir con AWS Lambda; hoy evoluciona hacia la arquitectura Kappa.
Differential Privacy: Framework matemático que permite acceso seguro a estadísticas poblacionales protegiendo registros individuales. Se añade ruido calibrado a los resultados de query; un atacante no puede saber si los datos de una persona concreta están en el conjunto. Lo usan el teclado iOS de Apple, Google Play y el US Census 2020.
Federated Learning: Técnica que entrena el modelo localmente en los dispositivos de los usuarios y solo envía al servidor central las actualizaciones de gradiente o pesos, nunca los datos en bruto. Auto-sugerencia de Google Gboard, Siri de Apple y ML preservando privacidad en datos sanitarios son los casos canónicos.
On-Chain Analytics: Disciplina de extraer insights de los datos públicos de transacciones de una blockchain — actividad de wallets, concentración de token holders, flujo de exchanges, tracking de smart money, volumen NFT. Dune Analytics (SQL on-chain), Nansen (direcciones etiquetadas), Glassnode y Arkham son plataformas clave.
Oracle (Blockchain): Servicio puente que lleva datos off-chain de confianza — precios, clima, resultados deportivos, sensores IoT — a smart contracts on-chain. Chainlink es el más usado; Pyth, Band y RedStone son alternativas. Infraestructura vital para liquidaciones DeFi, seguros y mercados de predicción.
Brand Lift Study: Estudio que mide cómo una campaña mueve métricas de marca — ad recall, brand awareness, message association, purchase intent — comparando grupo de control vs grupo expuesto. Meta, YouTube y TikTok lo ofrecen nativo; CPM típico 5-15 $.
Incrementality Test: Test que compara las conversiones impulsadas por ads con una baseline "como si no hubiera corrido" para medir cuántas son realmente incrementales. Métodos: PSA placebo ads, ghost bidding, geo holdouts; cura la ilusión "toda conversion es mía" de la atribución clásica. El gold standard del ROI moderno de paid media.
Geo Holdout Test: Cuasi-experimento que mide el impacto incremental apagando los anuncios en una geografía concreta (p. ej. Nueva York) y manteniéndolos en otras. Sin cookies, sin identificadores y a prueba de ATT; el método matched-markets / synthetic control es el estándar de la marketing science moderna.
MTA (Multi-Touch Attribution): Modelo que reparte crédito ponderado entre todos los touchpoints (anuncio, email, orgánico, directo) que contribuyeron a una conversion. Métodos: linear, time-decay, position-based, data-driven. La depreciación de cookies y el ATT han debilitado su precisión; combinarla con MMM e incrementalidad es el stack moderno más sano.
Data-Driven Attribution (DDA): Modelo de atribución que usa machine learning para aprender la contribución marginal de cada touchpoint en vez de dar todo el crédito al last click. Es el default en Google Ads + GA4; basado en valor de Shapley; compara canales de la misma etapa del funnel de forma justa. Ha sustituido a los modelos rule-based clásicos.
View-Through Conversion (VTC): Conversion de un usuario que vio el anuncio — sin hacer clic — y convirtió más tarde. En display y vídeo, un 30-60 % de las conversiones puede ser VTC; mal valorada, sobreestima o infraestima el canal. La diferencia con la atribución solo-click es crítica.
Attribution Window: Lapso de tiempo durante el cual una conversion se atribuye a un anuncio tras un clic o una visualización. Norma antigua: 7-day click + 1-day view; con iOS 14.5 el ATT por defecto pasó a 7-day click + 1-day view + same-day view. Cuanto más corto, menos conversiones parecen llevarse los canales.
Retention Curve (S-Curve): El patrón esperado de la retention de una cohorte que se aplana en algún punto. En una app sana la curva se estabiliza tras ~90 días; en una viral / habit-forming se mantiene horizontal; si sigue cayendo, el PMF es débil. La "smiling curve" de Andrew Chen es la referencia moderna.
Activation Rate: Proporción de usuarios recién registrados que completan la primera acción valiosa. Slack mide "el 40 % que envía su primer mensaje", Notion "el 50 % que crea una primera página", Spotify "el 85 % que reproduce su primera canción". La activation es el indicador más directo de PMF + onboarding y correlaciona fuerte con el LTV.
TTV (Time-to-Value): Tiempo que tarda un usuario en experimentar el primer valor real (el aha moment). Linear: 30 segundos; Figma: 5 minutos; Slack: una semana. Cuanto más corto el TTV, mayor la retention; la única estrella polar del onboarding moderno.
Activation Metric (Aha-Moment Metric): Umbral data-driven con la forma "si el usuario hace N acciones en T tiempo se retiene". Facebook encontró "10 amigos en 14 días", Slack "2K mensajes", Twitter "30 follows". Todo el onboarding se optimiza contra esa métrica; la estrella polar del growth team.
pLTV (Predictive LTV): Usar machine learning sobre los primeros eventos (sign-up, primera compra, sesión day-1, una IAP) para predecir el LTV a 30/90/365 días. Es la solución estándar para la atribución iOS tras SKAdNetwork; AppsFlyer, Adjust y Singular han integrado pLTV en sus stacks de optimización.
Uplift Modeling: Enfoque de ML que descubre en qué segmentos de usuarios una intervención — un cupón, push o email — produce un impacto neto extra real. Encuentra el segmento "persuadable" para no molestar al resto. Algoritmos: T-learner, X-learner, causal forest. Sube el ROI de las campañas CRM 2-3×.
Crashlytics / Sentry Mobile: Plataformas que recogen crashes mobile, ANRs y errores JS y los agrupan con stack trace, datos de dispositivo y breadcrumbs. Firebase Crashlytics (Google, gratis), Sentry, Bugsnag y Embrace son las opciones principales. Objetivo Crash-Free Users 99,5 %+; por debajo del 99 % mata el rating en App Store.
Mobile APM (Application Performance Monitoring): Plataforma que mide la performance de la app en dispositivos reales: startup time, render de pantalla, requests de red, memoria, batería y ANRs. Firebase Performance, New Relic Mobile, Embrace y Datadog Mobile RUM son opciones. Saca a la luz problemas de UX que no son crashes.
Headless BI: Motor de analytics sin su propia capa de visualización que expone todos los cálculos de métricas y dimensiones vía API y GraphQL. Cube, GoodData y AtScale lideran; el output lo consumen Tableau, Looker, Notion, Hex, Excel o cualquier app React custom. Paradigma moderno que rompe la monogamia de herramienta BI.
Metric Layer: Variante solo-métricas de la semantic layer — abstracción que guarda las definiciones de métricas "verdad única" en YAML o SQL. Spectacles de Slack, Minerva de Airbnb y dbt Semantic Layer son ejemplos. Si "active user" es 15 % en marketing y 10 % en finanzas, ese drift empieza aquí.
Data Activation: Proceso de empujar insights desde el warehouse hacia los sistemas operativos — CRM, plataformas publicitarias, helpdesks, mensajería in-app. El reverse ETL es la cañería técnica; el puente entre "data analytics" y "marketing automation". Census, Hightouch y Polytomic lideran.
Composable CDP: Enfoque que pone el warehouse (Snowflake, BigQuery) en el centro en lugar de comprar un CDP single-vendor (Segment, mParticle) y luego añade solo las capas que se necesitan — audience, activación en tiempo real, identity resolution. Hightouch + Census + RudderStack + Snowplow es el stack composable típico.
Operational Analytics: Principio según el cual los insights no se quedan en un dashboard sino que disparan acciones en sistemas operativos. "Este usuario lleva 7 días inactivo" aparece dentro de un flow win-back de Klaviyo, no en un gráfico. La cara de negocio del reverse ETL; la versión moderna del "actionable analytics".
Looker LookML: El DSL de data modeling tipo YAML de Looker. Las tablas se convierten en "views", las relaciones en "explores" y las métricas en "measures"; es un enfoque BI code-centric que genera SQL. Todos los analistas hablan el mismo idioma, el control de versiones y los workflows Git funcionan; la lingua franca de los equipos de datos modernos.
Mode Analytics: Plataforma BI que fusiona SQL, notebooks Python y dashboards en un solo producto (ThoughtSpot lo adquirió en 2023). El sweet spot del data analyst: SQL para consultas, Python para ML y luego dashboard compartible. La cara power-user frente al enfoque GUI-only de Tableau.
Hex (Notebook BI): Plataforma analytics fundada en 2020 que reúne SQL, Python y apps interactivas no-code en un mismo lugar. UI tipo notebook + Magic AI + creador de apps compartibles; espacio común para data scientists, analistas y stakeholders de negocio. La estrella en alza del BI híbrido moderno.
Sigma Computing: Plataforma BI moderna que pone una interfaz tipo spreadsheet sobre Snowflake o BigQuery. Los usuarios hacen pivots, fórmulas y análisis what-if al estilo Excel sin escribir SQL — pero el motor sigue siendo warehouse-native. Rival fuerte de Looker en equipos de finanzas y ops.
Streamlit: Framework open-source basado en Python que permite enviar una app web interactiva con 100 líneas de script (adquirido por Snowflake en 2022). La vía por defecto del data scientist para internal tools, prototipos y demos ML; Plotly Dash y Gradio son rivales cercanos.
Snowflake Streams & Tasks: El dúo de Snowflake formado por change-data-capture (Streams) y ejecución SQL programada (Tasks). Un Stream encola inserts, updates y deletes de una tabla por offset; una Task los procesa con cadencia. Las pipelines ELT obtienen automatización nativa de Snowflake sin necesidad de Airflow.
dbt Tests: Aserciones de calidad de datos escritas contra modelos dbt — not_null, unique, accepted_values, relationships y SQL custom. Corren en la CI y validan los datos antes de cada model build. La suite se enriquece con integraciones dbt-utils y Great Expectations.
dbt Snapshots: Implementación dbt-native de Slowly Changing Dimension Type 2. Para una tabla fuente mutable (p. ej. orders.status cambia), cada snapshot run guarda la historia con columnas dbt_valid_from/to. Base del histórico de auditoría y de las consultas "cómo se veía esto en tal fecha".
Materialization Strategy (Table / View / Incremental / Ephemeral): Cómo se guarda un modelo dbt en el warehouse. View: barata pero recomputa en cada consulta — encaja con poco dato. Table: rebuild completo — encaja con datos pequeños o medianos. Incremental: solo añade filas nuevas — encaja con grandes datos. Ephemeral: se inserta inline como CTE, sin output persistente.
SCD (Slowly Changing Dimension): Patrón para almacenar la historia de dimensiones que cambian lentamente — cliente, producto, empleado. Type 1: solo el valor más reciente; Type 2: nueva fila en cada cambio con valid_from/to (se conserva la historia); Type 3: una columna single-previous-value. Con DWH moderno + dbt Snapshots, el SCD2 es el default.
Idempotent Pipeline: Pipeline ETL/ELT que, ejecutada con el mismo input, produce el mismo output y no tiene efectos secundarios extra al re-ejecutarla. Es la garantía de que backfills, retries y late-arriving data no rompen el dataset. Se logra con MERGE, deduplicación por primary key y transacciones.
Backfill Strategy: Plan para volver a correr una pipeline contra datos históricos. Se parametriza el rango de fechas, se recalculan particiones por batches y son obligatorios pipeline idempotente + writes atómicos + control de concurrencia. Un backfill mal hecho es pérdida de datos en producción — siempre ensaya en staging.
dbt Layers (Staging / Intermediate / Marts): El patrón de modeling recomendado en 3 capas para un proyecto dbt. Staging: una tabla limpiada 1:1 por fuente (rename, cast, dedup). Intermediate: los bloques de la lógica de negocio. Marts: la capa final dim/fact lista para negocio. Aporta consistencia, reuse y un DAG limpio.
Source Freshness: Función de dbt que vigila cuánto hace que se actualizó cada tabla fuente. El comando "dbt source freshness" dispara umbrales warning y error (p. ej. 12 h warn, 24 h error) y atrapa datos stale aunque la pipeline no se haya roto. El perro guardián operacional.
OBT (One Big Table): Alternativa de modeling al star schema — desnormaliza todas las dimensiones dentro de la tabla de hechos y genera una sola tabla ancha de 50-200+ columnas. En warehouses columnares como Snowflake o BigQuery los joins son caros; OBT es más rápido para analistas y a menudo óptimo en performance.
Cube.js: Motor open-source de headless BI. Genera SQL, lo cachea, expone APIs REST/GraphQL y se monta sobre Snowflake, BigQuery o Postgres. Permite al desarrollador front-end publicar sus propios dashboards; la alternativa developer-friendly a Tableau / Looker.
Snowpark: API DataFrame de Snowflake para Python, Scala y Java. Permite ML training, transforms complejas, UDFs y stored procedures sin sacar los datos del warehouse. Modin y pandas-on-Snowflake dan al data scientist una sensación local familiar; movimiento moderno hacia cero data movement.
Polars: Librería DataFrame multi-thread y columnar (Arrow) escrita en Rust. 5-30× más rápida que pandas, con lazy evaluation y optimización de queries integrada. El reemplazo moderno del analista para pandas; con bindings de Python, R, JS y Rust.
DuckDB: Base de datos OLAP columnar in-process — la contraparte analytics de SQLite, con MotherDuck como extensión cloud. Un solo archivo, un solo proceso; consulta DataFrames de pandas o Parquet directamente con SQL. Procesa mil millones de filas en un portátil en 30 segundos; el compañero diario del analista moderno.
LLM Eval Harness: Framework de testing que mide automáticamente el desempeño de un LLM en muchas tareas. Ejemplos: HELM, lm-eval-harness, BigBench, HELM Lite — ejecuta benchmarks estándar como MMLU, HumanEval, GSM8K y ARC. Infraestructura obligatoria para cualquier lanzamiento de modelo o regression test.
Prompt Eval: Set de pruebas que mide sistemáticamente la calidad de un prompt concreto. 50-500 pares input × salida esperada con scoring automático (LLM-as-judge, BLEU, ROUGE, exact match). Imprescindible para atrapar regresiones cuando cambia un prompt productivo; PromptLayer, Langfuse y Braintrust son herramientas comunes.
Golden Dataset: Conjunto de pruebas verificado manualmente que se usa como ground truth. Los inputs y outputs esperados del eval harness viven aquí; tras cada actualización del LLM se puntúa contra este set. Lo típico son 200-2.000 ejemplos validados por un domain expert.
Faithfulness (RAG): Medida de cuán fiel es la respuesta de un sistema RAG al contexto recuperado. Si el LLM alucina fuera del contexto, la faithfulness baja; un LLM-as-judge revisa cada frase con "¿hay soporte en el contexto?". Métrica clave en los frameworks RAGAS y TruLens.
Answer Relevance (RAG): Puntuación de qué tan relevante es la respuesta del LLM para la query del usuario. Atrapa respuestas correctas pero irrelevantes — "Hace buen tiempo hoy, pero París es la capital de París". Se mide con cosine similarity (embedding de respuesta ↔ embedding de query) o LLM-as-judge.
Context Precision / Recall (RAG): Las dos métricas de calidad de retrieval en RAG. Precision: cuántos de los chunks recuperados eran realmente relevantes. Recall: cuántos de los chunks realmente relevantes fueron recuperados. Precision baja = ruido, recall bajo = información perdida. Se miden automáticamente en RAGAS, ARES, etc.
Model Routing: Capa inteligente que envía una pregunta a un LLM distinto según dificultad, latencia o presupuesto de coste. Las simples van a Haiku/3.5-mini, las complejas a Opus/4.5. OpenRouter, Portkey y Martian ofrecen routing-as-a-service; reducen el coste medio entre 5-20×.
Cascading Models: Pipeline donde un modelo pequeño/barato lo intenta primero; si la confianza queda por debajo del umbral o la validación falla, se escala a un modelo grande/caro. La variante fail-over del model routing; en apps LLM reales se resuelve el 80 % del tráfico al 20 % del coste sin perder calidad.
RAG Reranker: Segunda etapa que reordena los top-50 chunks que salen del vector retrieval usando un LLM-as-judge o un cross-encoder. Cohere Rerank, BGE-Reranker y Jina Reranker son habituales; sube la precision 20-40 % y mejora la métrica de retrieval-faithfulness.
Chunk Strategy: Cómo se parte un documento para RAG. Opciones: fixed-size (p. ej. 512 tokens), recursive character (límites de párrafo y frase), semantic chunking (segmentación por embeddings) y markdown-aware. Un mal chunking = retrieval precision baja; el tamaño del chunk y el overlap mueven directamente la calidad RAG.
Embedding Drift: Cuando los embeddings de las queries reales de los usuarios en producción se alejan con el tiempo de la distribución de embeddings del corpus RAG. Nuevo slang, productos y términos amplían el drift y bajan el retrieval recall. La solución: regeneración trimestral de embeddings y reindex new-data-aware.
HNSW Index (Hierarchical Navigable Small World): Algoritmo de índice ANN (Approximate Nearest Neighbor) usado por la mayoría de las vector DBs. Grafo multi-capa que ofrece latencia milisegundo sobre billones de embeddings. Default en Pinecone, Weaviate, Qdrant, Milvus y pgvector.
ANN (Approximate Nearest Neighbor): Clase de algoritmos que encuentra resultados "lo bastante buenos" en lugar del vecino más cercano exacto, cambiando precisión por velocidad y memoria. Ejemplos: HNSW, IVF, PQ y ScaNN; con un recall del 95 % la latencia cae hasta 1000×. El motor del vector search.
Model Card: Tarjeta estándar (introducida por Google en 2019) que documenta el propósito, los datos de training, la performance, los límites, las cuestiones éticas y los escenarios de fair-use de un modelo AI. Ya obligatoria en cualquier lanzamiento de foundation model; base del desarrollo transparente de AI.
AI Observability: Plataforma que monitoriza apps LLM productivas a nivel de traces, coste, latencia y métricas de calidad. Herramientas: Langfuse, LangSmith, Helicone, Arize Phoenix y WhyLabs; cada llamada al LLM (prompt, response, tokens, coste, eval score) queda loggeada. El sucesor LLM-native del APM clásico.
Matchmaking (ELO / MMR): Algoritmo que empareja jugadores por skill en juegos PvP. Variantes: ELO (herencia del ajedrez), Glicko, TrueSkill y MMR (Match-Making Rating). Equilibra smurf protection para novatos vs skill-relax para colas largas; corazón de League of Legends, Valorant y Dota 2.
ARPDAU (Average Revenue Per Daily Active User): Ingreso medio por usuario activo diario. Juegos mobile casuales $0,05-0,20, mid-core $0,20-0,80, RPGs hardcore $1+. La estrella polar de las decisiones de live ops; junto al pLTV es la base del presupuesto de paid acquisition.
Whales / Dolphins / Minnows: Segmentos de gasto en juegos F2P. Whales: top 1 % gastando 1.000 $+; Dolphins: 5-10 % gastando 50-1.000 $; Minnows: 15-30 % gastando 1-50 $; Free-riders: 60-80 % que no pagan. Distribución de Pareto donde las ballenas hacen el 70 %+ del ingreso — perderlas es fatal.
Scope 1 / Scope 2 / Scope 3 Emissions: La clasificación en tres cubos del GHG Protocol para las emisiones de carbono. Scope 1: emisiones directas (calderas de fábrica, vehículos de empresa). Scope 2: electricidad, calor o frío comprados. Scope 3: cadena de suministro + ciclo de vida del producto — el mayor trozo, 75-85 %. El esqueleto del reporting ESG.
Carbon Footprint: Suma total de las emisiones de gases de efecto invernadero causadas por una persona, producto, empresa o evento durante su ciclo de vida (en CO₂-equivalente). Fabricar un iPhone son ~70 kg CO₂e; un vuelo transatlántico ~1,6 t. En el reporting ESG equivale a Scope 1 + 2 + 3.
Carbon Offset: Inversión externa en proyectos para compensar emisiones — reforestación, energía renovable, captura de metano, direct air capture. El voluntary carbon market estaba en ~2.000 M $ en 2024 pero recibe críticas duras por greenwashing; Verra, Gold Standard e ICVCM son los sellos de calidad. Herramienta polémica hacia el Net Zero.
CDP (Carbon Disclosure Project): Plataforma global donde las empresas reportan emisiones climáticas, de agua y de bosque en formato estándar. En 2024 reportaron 24.000 empresas y 1.100 ciudades; el scoring A-D mete presión de inversores institucionales y clientes. Apple, Microsoft y Unilever lideran; las obligaciones de disclosure en cadena de suministro se extienden rápido.
ESG Reporting (Environmental, Social, Governance): Reportar el desempeño ambiental, social y de gobierno de la empresa en formato estándar. La CSRD (UE), la SEC Climate Rule (EE.UU.) y las recomendaciones TCFD forman el paraguas global; SASB, GRI y CDP son los frameworks operativos. Desde 2024, 50.000+ empresas UE están obligadas bajo la CSRD.
CSRD (Corporate Sustainability Reporting Directive): Directiva UE en vigor desde 2024 que obliga al reporting de sostenibilidad a 50.000+ grandes empresas — bancos, aseguradoras, compañías con 250+ empleados y 40 M €+ de facturación. Construida sobre ESRS, con doble materialidad (impacto de la empresa en el entorno + entorno en la empresa) y assurance de tercero.
Net Zero: Objetivo a nivel empresa o país de reducir emisiones al mínimo y equilibrar el residual con offsets o eliminaciones. Validado por Science Based Targets (SBTi); el objetivo global es 2050. Diferencia con carbon neutral: Net Zero es más estricto — elimina el residual en vez de solo compensarlo.
Carbon Neutral vs Net Zero: Carbon-neutral: las emisiones se neutralizan vía offsets sin obligar a reducciones reales; Net Zero: primero recorta emisiones agresivamente y luego neutraliza el resto con removals (no solo offsets). Microsoft apunta a 2030 Carbon Negative, Apple a 2030 Net Zero y Google a 2030 24/7 carbon-free energy.
PUE (Power Usage Effectiveness): Métrica de eficiencia eléctrica de un data center — total facility power dividido por IT equipment power. El ideal es 1,0; 2,0 significa una unidad extra de cooling/lighting por cada unidad de IT. Los hyperscalers (Google, AWS, Azure) promedian 1,10-1,15; los data centers enterprise on-prem entre 1,5 y 2,0. KPI clave en sostenibilidad.
Green Software Foundation: Proyecto de la Linux Foundation fundado por Microsoft, Accenture, GitHub y ThoughtWorks que estandariza el desarrollo de software sostenible. Mantiene el estándar SCI (Software Carbon Intensity), la certificación Green Software Practitioner y el catálogo Green Software Patterns. La guía de sostenibilidad de cualquier equipo de desarrollo moderno.
SCI (Software Carbon Intensity): Estándar ISO/IEC 21031 que mide emisiones equivalentes de CO₂ por unidad funcional de software. Fórmula: energía × intensidad de carbono de la región + emisiones embebidas. La respuesta estándar a "¿cuánto carbono cuesta esta llamada de API?" — base de las métricas modernas de green software.
Renewable Energy Credit (REC): Certificado negociable que representa 1 MWh de energía renovable. En vez de instalar paneles, las empresas compran RECs y reportan su electricidad como renovable; Green-e en EE.UU., GO (Garantías de Origen) en Europa. El vehículo principal detrás de los compromisos RE100.
PPA (Power Purchase Agreement): Contrato directo a largo plazo (10-25 años) y precio fijo para comprar electricidad renovable directamente al productor. Columna vertebral de las estrategias carbon-free de hyperscalers como Google, Amazon y Microsoft; el volumen global de PPAs corporativos en 2024 se estima en más de 50 GW.
LCA (Life Cycle Assessment): Metodología ISO 14040 que cuantifica el impacto ambiental completo de un producto desde materias primas → producción → uso → fin de vida. Alcance cradle-to-grave o cradle-to-cradle. La cifra "el iPhone tiene 70 kg de huella de carbono" de Apple es un output de LCA.
Circular Economy: Modelo económico que sustituye el camino lineal "producir-usar-tirar" diseñando productos reutilizables, reparables y reciclables desde el día uno. Pionera: Ellen MacArthur Foundation; el buyback de IKEA, Patagonia Worn Wear y Apple Self-Service Repair son ejemplos concretos.
Greenwashing: Cuando una empresa parece más verde por marketing de lo que justifica su desempeño real de emisiones. La CMA (UK), la FTC (EE.UU.) y la CSRD UE ya regulan el greenwashing legalmente; Shell, BP y Volkswagen han pagado multas multimillonarias a lo largo de los años. La línea roja ética de la comunicación de sostenibilidad.
Carbon Border Adjustment Mechanism (CBAM): El "impuesto de importación de carbono" de la UE, plenamente en vigor desde 2026. Los importadores de acero, cemento, aluminio, fertilizantes, hidrógeno y electricidad en la UE pagan lo que pagarían bajo el ETS UE si se hubieran producido dentro de la UE. Primer arancel grande que reordena las cadenas de suministro por intensidad de emisiones.
EPR (Extended Producer Responsibility): Regulación que hace al productor responsable de los costes de fin de vida y reciclaje de sus productos. Ejemplos: Directiva UE de envases, LOM de Francia, VerpackG de Alemania, Sıfır Atık de Turquía. El productor de botellas, ropa o electrónica paga una tasa ambiental por cada unidad vendida.
Sustainable Procurement: Incorporar criterios ambientales y sociales en las decisiones de compra de la empresa. Código de conducta de proveedores, rating de sostenibilidad EcoVadis, requisitos de material reciclado y certificación fair-trade. La mayor parte de las emisiones Scope 3 nacen aquí; el corazón operativo del reporting CSRD moderno.
TCFD (Task Force on Climate-related Financial Disclosures): Framework publicado en 2017 por el Financial Stability Board del G20 que integra riesgos y oportunidades climáticas en el reporting financiero. Cuatro pilares: Governance, Strategy, Risk Management y Metrics & Targets. La PRA de Reino Unido, Nueva Zelanda y Japón lo han hecho obligatorio. Pata climática del reporting ESG.
SBTi (Science Based Targets initiative): Organismo independiente que valida si los objetivos de reducción de emisiones de una empresa están alineados con la trayectoria science-based 1,5 °C / well-below-2 °C del Acuerdo de París. Más de 5.000 empresas validadas — Microsoft, IKEA, Unilever, Nike, Maersk entre ellas. Sello obligatorio de cualquier compromiso Net-Zero creíble.
EV Charging Network (Tesla Supercharger / Ionity / Electrify America): Infraestructura de carga rápida para coches eléctricos. La red Supercharger de Tesla cuenta con 50.000+ estaciones en el mundo y usa el estándar NACS; Ionity (consorcio BMW + VW + Mercedes) cubre Europa; Electrify America cubre EE.UU. Desde 2024 Tesla abrió NACS a otras marcas EV, acelerando la consolidación de estándar.
North Star Framework: Framework popularizado por Sean Ellis y Amplitude que define la única métrica de "valor para el cliente" de la empresa. Spotify usa "time spent listening", Airbnb "nights booked", Slack "messages sent in active workspaces". La brújula de cada decisión de growth y producto.
Driver Tree: Análisis que abre una métrica objetivo (p. ej. ingresos) en sus drivers detrás. Pariente cercano del KPI tree pero más causal — responde de forma estructurada "¿para subir el ARR vamos por nuevos logos o por expansion?". Herramienta clásica de problem-solving en McKinsey y Bain.
Executive Dashboard: Dashboard de una página para la C-suite y el board, con 7-12 métricas top. KPIs business-decision-grade — MRR, NRR, CAC, magic number, runway, rule of 40 — revisado semanalmente. Formatos clásicos en Tableau Executive, Looker C-suite y Mode Reports.
Operational Dashboard: Dashboard para decisiones operativas hora a hora o día a día — tendencia de CPM en marketing, cola de tickets en soporte, backlog de pedidos en ops. Refresh en tiempo real o casi real; alerting y drill-down de pivot son obligatorios. Habitual en Looker Studio, Power BI y Grafana.
Drill-Down: Comportamiento de análisis click a click que baja desde una métrica agregada al detalle — "ingresos totales" → "por región" → "por producto" → "por SKU" → "por transacción". La función estrella self-service de los cubos OLAP y de BI modernos como Power BI, Tableau o Looker.
Slice & Dice: Cortar y analizar datos multidimensionales por distintas dimensiones. "Slice" fija una dimensión y analiza el resto; "Dice" filtra dos o más dimensiones a la vez para construir un subset. Comportamiento básico de la pivot table, heredado del vocabulario de OLAP cubes.
Pivot Table: La invención de Excel de 1993 que permite arrastrar y soltar datos multidimensionales como filas, columnas, valores y filtros. Antecesor del BI moderno; Tableau, Power BI, Looker y Hex llevan al UX el modelo mental del pivot table. La lingua franca del análisis de datos.
Funnel Visualization: Mostrar un flujo de conversion como un funnel chart que se estrecha paso a paso — Awareness → Consideration → Purchase → Retention — para detectar drop-offs en cada etapa. Mixpanel, Amplitude, Heap y GA4 traen funnel reports nativos; visual core para CRO, producto y marketing.
Cohort Heatmap: Una matriz que visualiza la retention de cohortes (semana 0 → semana N) con intensidad de color. Eje Y: semana de signup; eje X: semana post-signup; color: tasa de retención. De un vistazo muestra el PMF, la calidad del onboarding y el efecto de los cambios recientes de producto.
Sankey Diagram: Visualización que muestra flujos — user journeys, flujo de energía, paths de conversion — como cintas de grosor proporcional. Ideal para behavior flow de Google Analytics, análisis de churn y journeys de atribución. Se construye con d3.js, Plotly o el custom visual de Sankey en Power BI.
Bullet Chart: Gráfico minimalista diseñado por Stephen Few que muestra el objetivo del KPI, el rendimiento actual y bandas de tier en una sola fila horizontal. Mucho más legible que un gauge o speedometer. Clásico en dashboards executive; Tableau y Power BI ofrecen soporte de custom visual.
Data Storytelling: Enfoque "cuenta una historia y respáldala con datos" en vez de soltar números y gráficos sobre la audiencia. El libro "Storytelling with Data" de Cole Nussbaumer Knaflic es el manifiesto; cierra el "¿y qué?" con quien decide. Se implementa con Tableau Story, bookmarks de Power BI y narrativas en Notion.
Self-Service Analytics: Modelo en el que los usuarios de negocio construyen sus propias queries y dashboards sin depender de un analyst. Looker LookML, Tableau Ask Data, Power BI Q&A y ThoughtSpot search-driven lideran; se exigen semantic layer, data governance y training. El objetivo de "democratización" del BI moderno.
Power BI: La plataforma BI de Microsoft — profundamente integrada con Excel y el BI enterprise más usado. Power Query para ETL, DAX como lenguaje de fórmulas y Power BI Service para nube y colaboración. Con Microsoft Fabric se fortalecen la data engineering y la integración con AI Copilot.
Tableau: El "estándar de oro visual" del BI — la herramienta de drag-and-drop más potente para gráficos impactantes. Salió de Stanford en 2003 y Salesforce la compró en 2019 por 15,7 B $. El trío Tableau Desktop + Server + Cloud sigue siendo más flexible y artístico que Power BI.
ThoughtSpot: El pionero del search-driven BI — el usuario teclea en lenguaje natural "show me revenue by region last quarter" y la plataforma genera SQL y gráfico. SpotIQ aporta auto-insights con ML, lo que lo coloca al frente del AI-augmented BI. Compró Mode Analytics por 200 M $ en 2023.
Microsoft Fabric: Plataforma analytics lanzada por Microsoft en 2023 que une Power BI, Synapse, Data Factory, Real-Time Analytics y Copilot en un solo SaaS. OneLake quiere ser un "lakehouse para las masas" y es rival directo de Snowflake y Databricks.
Real-Time Dashboard: Dashboard que se refresca en segundos y muestra "qué está pasando ahora mismo". Combo de WebSockets + SQL en streaming + push notifications. Trading, live ops gaming, colas de soporte en tiempo real y monitoreo IoT. Stacks habituales: Grafana, Tinybird, Materialize, ClickHouse + Apache Pinot.
Embedded Analytics: Mostrar dashboards BI directamente dentro de una app SaaS. Sigma, Mode, Looker Embedded y Cube + un frontend React personalizado lideran. Infraestructura de cualquier app que tenga que mostrar datos del cliente (Shopify analytics, Stripe Sigma, HubSpot reports); una feature PLG moderna.
Slowly Refreshed Dashboard (Daily / Weekly): Dashboard que no necesita tiempo real y se refresca tras un batch ETL diario o semanal — revisión semanal de marketing, cierre mensual de finanzas, reportes de cohortes de retention. Es la elección correcta por ahorro de compute y simplicidad analítica; clásico contra el anti-patrón "premature real-time".
Anomaly Alerting: Alerta que se dispara cuando una métrica se desvía estadísticamente de su patrón estacional y de su tendencia. Prophet, Datadog Watchdog, Anodot, MonteCarlo y Sigma Anomaly Detection cambian umbrales manuales por alertas dinámicas ML-driven. Capacidad central de la data observability moderna.
Forecasting (Prophet / SARIMA / LSTM): Predecir valores futuros a partir del histórico. Herramientas: Prophet (Meta, business-friendly con seasonality), SARIMA (estadística clásica), modelos LSTM y Transformer (deep learning) y la librería Darts. El dominio ML core para forecasting de ventas, demand planning y capacity planning.
Data Catalog (Atlan / Alation / Collibra): Plataforma que hace todos los data assets — tablas, dashboards, modelos ML, métricas — descubribles y documentados para la empresa. Lineage, tags, business glossary, data quality y ownership en una sola UI. La "Wikipedia" del equipo de datos moderno.
AI-Powered BI (Copilot / Sigma AI / Tableau Pulse): Set de features BI de nueva generación: consultas en lenguaje natural, insights automáticos y narrativas explicativas del gráfico. Power BI Copilot, Tableau Pulse + Tableau GPT, Sigma AI y ThoughtSpot Sage; responden "¿por qué bajaron los ingresos la semana pasada?" con root-cause automático y reconfiguran el rol del analyst.
Edge AI: Ejecutar modelos AI en el dispositivo — móvil, cámara, dron, sensor IoT — en lugar de la nube. Aporta baja latencia, privacidad y modo offline; requiere modelo cuantizado más NPU y runtime. Mueve los coches autónomos, AR/VR y las smart cameras.
TinyML: Modelos ML lo bastante pequeños para entrar en MCUs con kilobytes de RAM. Herramientas: TensorFlow Lite Micro, Edge Impulse y el Arduino Nano 33 BLE Sense; cubre keyword spotting, detección de movimiento y detección de anomalías. Lleva AI a dispositivos IoT a batería que duran años.
Digital Twin: Réplica virtual de un objeto físico — motor de avión, fábrica, ciudad, cuerpo humano — sincronizada con datos de sensor en tiempo real. Combina simulación, monitoring y mantenimiento predictivo. Siemens, NVIDIA Omniverse, Microsoft Azure Digital Twins y Bentley iTwin lideran las plataformas.
People Analytics: Disciplina que aplica ML y estadística a los datos de empleado. Cubre predicción de attrition, calidad de hiring, efectividad de mánagers, análisis de gap DEI y tendencias de sentiment. Visier, ChartHop, Lattice, Culture Amp y Workday Adaptive Planning lideran; la pata data-driven de RRHH.
eNPS (Employee Net Promoter Score): El score tipo NPS de "¿recomendarías esta empresa como sitio para trabajar?". Va de -100 a +100; por encima de +30 es bueno, +50 excelente. Se entrega con encuesta anual y pulsos trimestrales en Culture Amp, Officevibe, 15Five y Lattice. El termómetro de una pregunta del engagement.
Pulse Survey: El sucesor moderno de la encuesta anual de engagement — una encuesta corta de 5-10 preguntas enviada semanal o quincenalmente. Un pulso de engagement en tiempo real que aterriza directo en el dashboard del mánager. Herramientas: Officevibe, 15Five, Lattice y Culture Amp; respuesta agile y actionable al clásico monstruo anual de 80 preguntas.
EHR (Electronic Health Record): Registro digital y compartible de la salud del paciente — historia médica, lab, imagen y prescripciones. En EE.UU., Epic y Cerner suman 85 %+ de cuota de mercado; en Europa, DocPlanner y Doctolib, en Turquía, e-Nabız y MEDULA. La interoperabilidad y la privacidad (HIPAA, GDPR, KVKK) están en el corazón del sector.
ClimateTech: Soluciones tecnológicas para la crisis climática — tanto mitigación como adaptación. Incluye captura de carbono (Climeworks DAC), hidrógeno verde, energía de fusión (Commonwealth Fusion, Helion), baterías a escala de red (Form Energy) y modelización de riesgo climático (Jupiter). La inversión global ClimateTech superó los 40.000 M $ en 2024; Sequoia, Lowercarbon y Breakthrough Energy son los fondos líderes.
Carbon Capture (DAC / CCS): Tecnología que captura CO₂ del aire o directamente del flue gas industrial. Direct Air Capture (Climeworks Orca, Carbon Engineering) y Carbon Capture & Storage (CCS) para gases de fábrica. El coste va de 300 a 1.000 $ por tonelada; el advance market commitment de 1.000 M $ de Frontier apunta a bajarlo a 100 $.

— DIAGNÓSTICO RÁPIDO

¿Estás lista/o para una operación analítica?

Guía interactiva en cuatro preguntas que muestra el nivel de programa que te conviene. Resultado en 30 segundos con respuestas sí / no.

01 / 04

¿Tienes ahora mismo más de 10 dashboards o reportes Excel activos?

La abundancia de dashboards es uno de los síntomas clásicos de falta de decisión.

— LET'S BEGIN

¿Tus dashboards disparan decisiones, o son solo decoración?

Diagnóstico analítico de 60 minutos: inventario de KPI actual, grafo de dependencias de dashboards, salud de las fuentes de datos y recomendación de roadmap a 90 días — todo en un solo panel.

Solicitar dashboard audit Descargar nuestra plantilla de KPI tree

Arquitectura de Datos First-Party

Analítica de Datos e Insights

CDP y Retention Engineering

Marketing Digital

Marketing de Rendimiento

SEO Técnico

GEO (Búsqueda IA)

ASO y App Marketing

Publisher Premium

CRO (Optimización de conv.)

UI / UX

Branding

Headless Commerce

Shopify Partner

Stack Tecnológico y Alianzas

Análisis de Datos e Ingeniería de Insights

La analítica no es ‘hacer dashboards’; es un sistema operativo en el que cada gráfico dispara directamente una decisión.

DIAGNOSE → MODEL → BUILD → AUTOMATE → VALIDATE → EDUCATE

Inventario de decisiones + mapa de preguntas

KPI tree + modelo de datos

Dashboard + sistema de alertas

Pipeline + refresh + monitoring

A/B + incrementality + validación de MMM

Data council + formación self-serve

¿Dónde está la diferencia? BI clásico vs analítica orientada a decisiones

Outcomes, measured

Engagement scope

Arquitectura de KPI tree

Dashboards decision-tree

Capa dbt + warehouse + BI

Ingeniería de cohort y retention

Bayesian MMM

Modelado de atribución

Incrementality testing

Detección de anomalías

Self-serve analytics

Data governance

El impacto de la operación de datos en la toma de decisiones

Velocidad de decisión

Menos HiPPO

Ahorro de tiempo en reporting

Alerta temprana + acción

Cultura self-serve

Precisión de MMM + forecast

Outputs mensuales + trimestrales

Inventario de decisiones + mapa de 30 preguntas

KPI tree

Repo dbt + modelos

Semantic layer (LookML / Metabase models)

Pack de dashboards

Sistema de alertas con umbral

Reporte de cohort + retention

Modelo MMM + reporte

Protocolo de test de incrementality

Runbook de data governance

Resumen mensual de data council

Material de formación self-serve

¿Qué está dentro y qué fuera?

Lo que cubre este servicio

Trabajos no incluidos (alcance opcional adicional)

Proceso: operación analítica de la semana 1 de diagnóstico al mes 6+ de governance

Semana 1-2 — Inventario de decisiones + audit

Semana 3 — KPI tree + schema

Semana 4-5 — Modelos dbt + primeros dashboards

Semana 6-8 — Alertas + cohort + refresh

Mes 3 — Entrenamiento MMM + primer resultado

Mes 4 — Protocolo de test de incrementality

Mes 5 — Data council + formación self-serve

Mes 6+ — Refresh trimestral + governance

Stack analítico del warehouse al BI

Frequently asked

Terminología analítica

¿Estás lista/o para una operación analítica?

¿Tienes ahora mismo más de 10 dashboards o reportes Excel activos?

¿Tus dashboards disparan decisiones, o son solo decoración?