TU PROPIA ARQUITECTURA DE DATOS
Arquitectura de First-Party Data y Medición
sGTM, Conversion API, data lake en BigQuery/Snowflake, Consent Mode v2 + TCF 2.2, identity resolution y reverse ETL — la infraestructura de datos de las marcas que ganan en el mundo post-cookie de terceros, con disciplina de ingeniería desde cero.
No entramos en la era de la muerte del pixel, sino en la era en que la propiedad del dato es obligatoria; la infraestructura es trabajo de ingeniería, no un SaaS plug-and-play.
Con Consent Mode v2, iOS 17 ATT, los cambios de cookies en Chrome y TCF 2.2, la señal que llega a las plataformas publicitarias se ha erosionado en promedio entre un 40 % y un 60 %. La mayoría de las marcas, sin darse cuenta, han creado data lakes paralelos con múltiples herramientas SaaS; cada herramienta tiene un ID distinto, una interpretación de consentimiento distinta y un esquema de eventos distinto. La operación first-party de Roibase se construye sobre seis principios que eliminan esta fragmentación; cada principio no es un SaaS, es un estándar de ingeniería.
METODOLOGÍA
AUDIT → DESIGN → DEPLOY → VALIDATE → GOVERN → HANDOFF — disciplina de ingeniería
La arquitectura de datos no es un proyecto de gestión de tags, es una plataforma de larga vida. El proceso de seis fases deja cada decisión escrita, testeable y transferible.
01
AUDIT
Audit del GTM client-side actual, GA4, pixel, CMP, implementación de consent, flujo de datos y visibilidad de facturación; se cuantifica la pérdida de señal, las violaciones de consent y los duplicados de datos.
02
DESIGN
Se diseñan event taxonomy, estrategia de identity, política de consent, arquitectura de warehouse y data contracts; se obtiene la aprobación de stakeholders (legal, IT, marketing, datos).
03
DEPLOY
Se pone en producción el contenedor sGTM, los endpoints CAPI, la configuración de Consent Mode v2, el streaming al warehouse y los modelos dbt; se mitiga el riesgo con blue/green deployment.
04
VALIDATE
Se corren la arquitectura antigua y la nueva en paralelo con shadow mode + dual tracking; no hay cutover hasta que la event parity sea del 99 % o superior; checklist de QA con más de 120 puntos.
05
GOVERN
Se activan schema registry, PII tagging, retención, RBAC, audit log y reportes de compliance; el comité de gobierno de datos se reúne con cadence mensual.
06
HANDOFF
Formación hands-on de 3 semanas para tu equipo + runbook + 6 meses de soporte asíncrono; se entrega por escrito la rotación de alertas críticas y el SLA.
— COMPARACIÓN
In-house vs agencia SaaS-dependiente vs ingeniería de datos Roibase
La diferencia concreta entre los tres enfoques en propiedad del dato, cumplimiento de consent, profundidad de ingeniería y coste total.
| Dimensión | In-house mínimo | Agencia SaaS-dependiente | Ingeniería Roibase |
|---|---|---|---|
| Propiedad del dato | Fragmentada (cada herramienta con su DB) | En el proveedor SaaS | En tu propio warehouse |
| sGTM + CAPI | Parcial (solo client) | Inexistente o gestionado por el vendor | En tu propia infraestructura, propiedad total |
| Consent Mode v2 + TCF 2.2 | Integración básica | CMP preconfigurado, sin adaptación | Política escrita + legal review + test |
| Identity resolution | Inexistente o solo email | Vendor black-box | Modelo abierto determinístico + probabilístico |
| PII governance + audit log | Ad-hoc | Contractual, no operacional | Runbook + reporte de compliance mensual |
| Data contracts + schema registry | Inexistente | Atado al schema del SaaS | Versionado, testeable, propio |
| Reverse ETL + activación | CSV manual | Atado al SaaS | Warehouse-native, elección libre |
| Coste anual total | 50-120k€ (SaaS fragmentado) | 120-250k€ (agencia + licencias) | 80-180k€ (implementación + warehouse) |
PROOF
Outcomes, measured
Recuperación de conversiones no atribuidas tras iOS 14+/ATT mediante sGTM + CAPI.
Distribución aceptable de consent state tras TCF 2.2 + Consent Mode v2.
Número típico de herramientas SaaS de datos/analítica que se unifican en un cliente medio.
En tu propio warehouse — solo coste de query + storage; sin licencias SaaS por asiento.
Timeline típico desde el audit hasta el shadow mode en un cliente de tamaño medio.
Tasa media de éxito de entrega de eventos tras la configuración dual-path sGTM + CAPI.
WHAT WE DO
Engagement scope
Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.
Server-side GTM (sGTM)
Tu propio contenedor sGTM en Google Cloud Run / AWS Fargate: la propiedad del dato es tuya, sin vendor lock-in, se reduce la carga en cliente; la redacción de PII ocurre en el servidor.
Consent Mode v2 + TCF 2.2
Integración de CMP compatible con IAB TCF 2.2, emisión dinámica de señales ad_user_data + ad_personalization según el consent state; separación de ‘legal basis’ KVKK/RGPD con política escrita.
Conversion API (CAPI)
Eventos de conversión server-side para Meta, Google, TikTok, Pinterest; hashed PII + event deduplication; 30-50 % de recuperación de señal y cumplimiento de iOS 14+/ATT.
Data lake BigQuery / Snowflake
Streaming de eventos en crudo + modelos dbt + semantic layer + visualización con Looker Studio/Metabase/Looker; incluye partition + clustering + cost optimization.
Identity resolution
Identity graph determinístico (login, email hash) + probabilístico (device fingerprint, household); una sola identidad para el cross-device journey y la atribución cross-channel.
CDP readiness
Integración con Segment / RudderStack / mParticle o CDP warehouse-native (Census, Hightouch) con líneas de reverse ETL; elegimos el CDP con una evaluación independiente.
Reverse ETL y activación
Transferencia automática de segmentos calculados (churn risk, LTV tier, product affinity) a Meta Custom Audience, Google Customer Match, Klaviyo, HubSpot, Braze.
Reconstrucción de Customer Match
Reconstrucción de lookalike + retargeting con hashed PII + CAPI; infraestructura que sostiene el rendimiento de las plataformas de ads en un mundo sin pixel.
Schema registry + PII governance
Esquema de eventos versionado y testeable; los campos PII se etiquetan, se aplica política de retención + masking; monitoreo de calidad de datos con alarmas de schema drift.
Audit log + monitoreo de accesos
Se registra quién accedió a qué dato, cuándo y con qué propósito; role-based access control (RBAC), data contracts y reporte de compliance mensual automático.
— BENEFICIOS
El retorno concreto y medible de la propiedad del dato
La arquitectura first-party no es solo compliance; es una palanca directa sobre el rendimiento publicitario, el entendimiento del cliente y la velocidad del equipo.
Recuperación de señal publicitaria
Con Meta/Google/TikTok CAPI recuperas un 30-50 % de señal; la velocidad de aprendizaje y la calidad de optimización de las plataformas mejoran notablemente.
Bajan los costes de herramientas
El stack SaaS fragmentado se consolida en un único warehouse + capa dbt; el gasto anual en licencias cae un 40-60 %.
Tu equipo gana velocidad
Con un semantic layer self-serve, cada unidad de negocio responde sus propias preguntas; el data team pasa de cuello de botella a enabler.
Consent cumplido por escrito
TCF 2.2 + Consent Mode v2 + política KVKK auditada y testeable; tu ‘evidence file’ está listo para cualquier inspección legal.
Journey cross-channel visible
Con identity resolution obtienes un user journey independiente de dispositivo/canal; los modelos de atribución y los análisis de cohort se ejecutan sobre datos integrales.
Gobierno de datos sostenible
Schema registry, PII tagging, retención, RBAC, audit log — se entregan a tu equipo con runbook + reporte de compliance mensual.
ENTREGABLES
Entregables concretos y por escrito para cada proyecto first-party
Arquitectura, código, configuración, documentación y formación — cada entregable se versiona y se transfiere a tu equipo.
Reporte de signal audit
Evaluación cuantitativa de la pérdida de señal, las violaciones de consent y la duplicación de herramientas, de 40-60 páginas.
Event taxonomy y data contracts
Nombres, propiedades, propietarios, versión de schema y reglas de backward compatibility de todos los eventos.
Implementación del contenedor sGTM
sGTM en producción sobre Google Cloud Run / AWS Fargate, blue/green deployment + pipeline CI/CD + plan de rollback.
Integraciones CAPI
Eventos de conversión server-side para Meta, Google, TikTok, Pinterest; event deduplication + hashed PII + error handling.
Consent Mode v2 + política CMP
Configuración de CMP compatible con IAB TCF 2.2, señales dinámicas ad_user_data/ad_personalization, política de consent escrita + legal review.
Warehouse BigQuery/Snowflake
Pipeline de streaming de eventos en crudo, partition + clustering, cost optimization, monitoring + alerting.
Modelos dbt + semantic layer
Capas staging → intermediate → marts, tests dbt, exposures, lineage graph + sitio de documentación.
Pipeline de identity resolution
Reglas de matching determinístico + probabilístico, household detection, tabla cross-device journey.
Líneas de reverse ETL
Con Census/Hightouch enviamos segmentos a Meta CA, Google CM, Klaviyo, HubSpot, Braze; con schedule + monitoring.
Schema registry y PII governance
Registros de schema versionados, PII tagging, política de retención + masking, alarmas de schema drift.
Audit log + reporte de compliance
Configuración RBAC, data access log, reporte de compliance mensual automático (KVKK/RGPD + política publicitaria).
Runbook + formación de 3 semanas
Runbook operacional, rotación on-call, SLA por escrito + 3 semanas de formación hands-on para tu equipo.
— ALCANCE
Qué hacemos y qué no — límites claros
La arquitectura first-party es trabajo de ingeniería; definir el alcance con precisión evita sorpresas y facturas inesperadas.
Lo que hacemos
- Signal audit + evaluación de la salud del consent
- Diseño de event taxonomy + data contracts
- Implementación del contenedor sGTM + CI/CD + monitoring
- Integraciones CAPI con Meta/Google/TikTok/Pinterest
- Configuración de Consent Mode v2 + TCF 2.2 + CMP
- Warehouse BigQuery/Snowflake + pipeline de streaming
- Modelos dbt + semantic layer + tests
- Identity resolution (determinística + probabilística)
- Líneas de reverse ETL (Census/Hightouch)
- Schema registry + PII governance + audit log
- Coordinación del legal/compliance review
- Runbook + 3 semanas de formación hands-on
Lo que no hacemos
- Asesoría jurídica (coordinamos con abogado partner + policy review)
- Venta de licencias de CDP (recomendación vendor-agnóstica, sin comisiones)
- Mantenimiento del stack SaaS fragmentado (recomendamos consolidación)
- Raw analytics con tarifas de agencia (sprints de ingeniería en lugar de paquetes)
- Garantías de recuperación total de señal ‘pre-pixel’ (damos rangos realistas)
- Licencia de warehouse / factura cloud (queda en la cuenta del cliente)
- Gestión de cuentas publicitarias (alcance separado con equipos PPC/Growth)
- Deployments SaaS plug-and-play (cada cliente lleva arquitectura custom)
HOW WE WORK
Implementación inicial de 8 semanas → 6 meses de operación — qué se hace y cuándo, por escrito
Semana 1-2: audit + discovery
Audit de GTM/GA4/CMP/pixel actual, consent health check, entrevistas con stakeholders, documento de requisitos arquitectónicos.
Semana 3-4: design + data contracts
Event taxonomy, estrategia de identity, schema de warehouse, política de consent, data contracts — aprobación de legal + IT + marketing.
Semana 5-6: deploy sGTM + CAPI
Contenedor Cloud Run/Fargate en producción; integración CAPI con Meta/Google/TikTok; arranque del shadow mode.
Semana 7-8: warehouse + dbt
Pipeline de streaming a BigQuery/Snowflake, dbt staging + intermediate + marts, primera versión del semantic layer.
Semana 9-10: validate + cutover
Test de event parity, checklist de QA, cutover blue/green; plan de decommission de la arquitectura antigua.
Semana 11-12: govern + handoff
Schema registry, PII tagging, audit log, RBAC; arranca la formación hands-on a tu equipo y se entrega el runbook.
Mes 4-5: activación + optimización
Líneas de reverse ETL, primeras activaciones de segmentos, preparación de datos para MMM/atribución, cost optimization.
Mes 6+: steady state + audit
Reporte de compliance mensual, comité de gobierno de datos trimestral, monitoreo de schema drift, SLA + rotación on-call.
— SET DE HERRAMIENTAS
Las herramientas que usamos — vendor-agnósticas pero con criterio
Elegimos la adecuada para cada cliente; protegemos nuestra independencia no aceptando comisiones.
SERVER-SIDE TRACKING
CMP & CONSENT
WAREHOUSE & CDP
REVERSE ETL & ACTIVATION
QUESTIONS
Frequently asked
— GLOSARIO
Terminología de ingeniería de datos first-party
12 términos clave que dan un lenguaje común a tu equipo y a los stakeholders.
- sGTM
- Server-side Google Tag Manager — un proxy que recibe el payload del GTM del browser, lo limpia y enriquece, y lo reparte a múltiples destinos (GA4, Meta CAPI, TikTok, etc.). Alarga la vida de las cookies, resiste ad-blockers y es la espina dorsal de las conversion API server-side.
- CAPI
- API de eventos server-to-server de Meta que corre en paralelo al Pixel. Recupera el 20-40 % del signal de conversión perdido en el browser por ITP y ad-blockers; para deduplicar, cada evento debe llevar event_id y mismo timestamp. Base de cualquier stack moderno de paid social.
- Consent Mode v2
- Mecanismo de señales de consent de Google compatible con TCF 2.2; estados ad_user_data + ad_personalization.
- TCF 2.2
- Versión del IAB Europe Transparency & Consent Framework obligatoria desde 2024. Estandariza la señal de consent entre publisher, vendor y usuario; los CMP (OneTrust, Cookiebot, Didomi) entregan el cumplimiento obligatorio junto con Google Consent Mode v2.
- Identity resolution
- Conexión de la actividad de un usuario en distintos dispositivos y canales a una sola identidad; determinística + probabilística.
- CDP
- Customer Data Platform; sistema que unifica perfiles de usuario y los abre a canales de activación (Segment, mParticle, warehouse-native).
- Reverse ETL
- Transferencia de datos desde el warehouse hacia herramientas operacionales (Meta, Google, Klaviyo); Census y Hightouch son vendors típicos.
- Customer Match
- Uso de una lista first-party hasheada (email, teléfono, dirección postal) como audiencia de targeting/exclusion en Google Search, YouTube y Display. Base para seeds de lookalike y win-back; suele ser útil a partir de una match rate del 30 %+.
- Data warehouse
- Repositorio cloud donde viven los eventos crudos y modelados (BigQuery, Snowflake, Redshift, Databricks).
- Event schema
- Definición escrita y versionada de nombres, propiedades, tipos y propietarios de los eventos; se guarda en el schema registry.
- PII
- Personally Identifiable Information; datos que identifican a una persona (email, teléfono, IP, device ID). Se gestionan con tagging + retención.
- Data governance
- Conjunto de disciplinas de calidad, acceso, gobierno y compliance del dato; RBAC + audit log + data contracts como estándar.
- GA4 Measurement Protocol
- Protocolo server-to-server que envía eventos directamente a GA4 vía HTTP. Genera signal de conversión desde entornos sin pixel web (CRM, IoT, app server); autentica con api_secret + measurement_id y se configura respetando Consent Mode.
- Enhanced Conversions
- Capa de medición en Google Ads que liga una conversión a un usuario mediante first-party data hasheada (email, teléfono). Recupera 3-15 % de atribución perdida por ITP y degradación de cookies; viene en versión web y lead-form.
- Offline Conversions
- Proceso para devolver a la plataforma de ads las conversiones que ocurren en CRM (lead-to-sale, cierre por llamada, visita en tienda) mediante el click ID (gclid/wbraid/fbclid). La forma más fiable de alimentar tROAS con revenue real.
- First-party Data
- Datos que la marca recopila directamente desde sus propias properties (web, app, CRM, contact center, email, membership) con consentimiento del usuario. El combustible más defendible del performance tras la caída de las third-party cookies; se hashea y activa en plataformas.
- Data Clean Room
- Entorno de cómputo seguro donde dos partes (p. ej. marca + plataforma media) pueden hacer match y agregación sin exponer su PII en bruto. Google Ads Data Hub, Amazon AMC, Snowflake/Databricks clean rooms — para análisis de overlap, atribución y construcción de audiencias.
- Identity Graph
- Grafo relacional que enlaza a una misma persona a través de sus dispositivos, email, teléfono, identificador de pago e IDs hasheados. Base para atribución cross-device, modelos de retención y calidad del seed LAL — el corazón del CDP.
- First-party Cookies
- Cookies que el propio dominio del sitio establece y que sólo se envían en sus requests. Tras el bloqueo de las third-party, ITP ha acortado también esta categoría — el cookie set server-side + política de rotación 1y+ es ya esencial.
- Server-side Events
- Eventos de conversión enviados a la plataforma de ads vía API desde tu propio server (sGTM, backend propio) en lugar de desde el navegador. Inmunes a ad-blockers y límites de navegador; usan specs como CAPI (Meta), GA4 MP, TikTok Events API.
- Hashed PII
- Identificador personal (email, teléfono, nombre) congelado vía función criptográfica unidireccional (normalmente SHA-256). Obligatorio para matching, custom audience upload y Enhanced Conversions en plataformas de ads — requisito de privacidad y compliance.
- Privacy Sandbox
- Conjunto de APIs de Google en Chrome diseñadas para permitir medición publicitaria, retargeting y detección de fraude sin third-party cookies: Topics, Protected Audience (FLEDGE), Attribution Reporting. La cara Google del futuro sin cookies.
— ÁRBOL DE DECISIÓN
¿Una operación de datos first-party es lo tuyo?
Responde Sí/No a 4 preguntas; obtendrás una recomendación clara.
01 / 04
¿Tu presupuesto publicitario mensual supera los 30k USD?
Umbral a partir del cual la recuperación de señal empieza a ser económicamente significativa.
— LET'S BEGIN
¿Cuánto confías en tus pixels?
Con un signal audit de 2 horas sacamos a la luz conversiones perdidas, problemas de consent y oportunidades de warehouse.