TU PROPIA ARQUITECTURA DE DATOS

Arquitectura de First-Party Data y Medición

sGTM, Conversion API, data lake en BigQuery/Snowflake, Consent Mode v2 + TCF 2.2, identity resolution y reverse ETL — la infraestructura de datos de las marcas que ganan en el mundo post-cookie de terceros, con disciplina de ingeniería desde cero.

No entramos en la era de la muerte del pixel, sino en la era en que la propiedad del dato es obligatoria; la infraestructura es trabajo de ingeniería, no un SaaS plug-and-play.

Con Consent Mode v2, iOS 17 ATT, los cambios de cookies en Chrome y TCF 2.2, la señal que llega a las plataformas publicitarias se ha erosionado en promedio entre un 40 % y un 60 %. La mayoría de las marcas, sin darse cuenta, han creado data lakes paralelos con múltiples herramientas SaaS; cada herramienta tiene un ID distinto, una interpretación de consentimiento distinta y un esquema de eventos distinto. La operación first-party de Roibase se construye sobre seis principios que eliminan esta fragmentación; cada principio no es un SaaS, es un estándar de ingeniería.

Roibase perspective

METODOLOGÍA

AUDIT → DESIGN → DEPLOY → VALIDATE → GOVERN → HANDOFF — disciplina de ingeniería

La arquitectura de datos no es un proyecto de gestión de tags, es una plataforma de larga vida. El proceso de seis fases deja cada decisión escrita, testeable y transferible.

01

01

AUDIT

Audit del GTM client-side actual, GA4, pixel, CMP, implementación de consent, flujo de datos y visibilidad de facturación; se cuantifica la pérdida de señal, las violaciones de consent y los duplicados de datos.

02

02

DESIGN

Se diseñan event taxonomy, estrategia de identity, política de consent, arquitectura de warehouse y data contracts; se obtiene la aprobación de stakeholders (legal, IT, marketing, datos).

03

03

DEPLOY

Se pone en producción el contenedor sGTM, los endpoints CAPI, la configuración de Consent Mode v2, el streaming al warehouse y los modelos dbt; se mitiga el riesgo con blue/green deployment.

04

04

VALIDATE

Se corren la arquitectura antigua y la nueva en paralelo con shadow mode + dual tracking; no hay cutover hasta que la event parity sea del 99 % o superior; checklist de QA con más de 120 puntos.

05

05

GOVERN

Se activan schema registry, PII tagging, retención, RBAC, audit log y reportes de compliance; el comité de gobierno de datos se reúne con cadence mensual.

06

06

HANDOFF

Formación hands-on de 3 semanas para tu equipo + runbook + 6 meses de soporte asíncrono; se entrega por escrito la rotación de alertas críticas y el SLA.

— COMPARACIÓN

In-house vs agencia SaaS-dependiente vs ingeniería de datos Roibase

La diferencia concreta entre los tres enfoques en propiedad del dato, cumplimiento de consent, profundidad de ingeniería y coste total.

DimensiónIn-house mínimoAgencia SaaS-dependienteIngeniería Roibase
Propiedad del datoFragmentada (cada herramienta con su DB)En el proveedor SaaSEn tu propio warehouse
sGTM + CAPIParcial (solo client)Inexistente o gestionado por el vendorEn tu propia infraestructura, propiedad total
Consent Mode v2 + TCF 2.2Integración básicaCMP preconfigurado, sin adaptaciónPolítica escrita + legal review + test
Identity resolutionInexistente o solo emailVendor black-boxModelo abierto determinístico + probabilístico
PII governance + audit logAd-hocContractual, no operacionalRunbook + reporte de compliance mensual
Data contracts + schema registryInexistenteAtado al schema del SaaSVersionado, testeable, propio
Reverse ETL + activaciónCSV manualAtado al SaaSWarehouse-native, elección libre
Coste anual total50-120k€ (SaaS fragmentado)120-250k€ (agencia + licencias)80-180k€ (implementación + warehouse)

PROOF

Outcomes, measured

+45 %
Recuperación de señal

Recuperación de conversiones no atribuidas tras iOS 14+/ATT mediante sGTM + CAPI.

94 %
Tasa de cumplimiento de consent

Distribución aceptable de consent state tras TCF 2.2 + Consent Mode v2.

12
Consolidación de herramientas

Número típico de herramientas SaaS de datos/analítica que se unifican en un cliente medio.

0 €
Coste mensual de licencias de datos

En tu propio warehouse — solo coste de query + storage; sin licencias SaaS por asiento.

8
Semanas de implementación

Timeline típico desde el audit hasta el shadow mode en un cliente de tamaño medio.

99,8 %
Tasa de entrega de eventos

Tasa media de éxito de entrega de eventos tras la configuración dual-path sGTM + CAPI.

WHAT WE DO

Engagement scope

Every offering is an outcome-based work package. Roibase blends strategy and execution inside a single team — no hand-offs.

01 / 10

Server-side GTM (sGTM)

Tu propio contenedor sGTM en Google Cloud Run / AWS Fargate: la propiedad del dato es tuya, sin vendor lock-in, se reduce la carga en cliente; la redacción de PII ocurre en el servidor.

02 / 10

Consent Mode v2 + TCF 2.2

Integración de CMP compatible con IAB TCF 2.2, emisión dinámica de señales ad_user_data + ad_personalization según el consent state; separación de ‘legal basis’ KVKK/RGPD con política escrita.

03 / 10

Conversion API (CAPI)

Eventos de conversión server-side para Meta, Google, TikTok, Pinterest; hashed PII + event deduplication; 30-50 % de recuperación de señal y cumplimiento de iOS 14+/ATT.

04 / 10

Data lake BigQuery / Snowflake

Streaming de eventos en crudo + modelos dbt + semantic layer + visualización con Looker Studio/Metabase/Looker; incluye partition + clustering + cost optimization.

05 / 10

Identity resolution

Identity graph determinístico (login, email hash) + probabilístico (device fingerprint, household); una sola identidad para el cross-device journey y la atribución cross-channel.

06 / 10

CDP readiness

Integración con Segment / RudderStack / mParticle o CDP warehouse-native (Census, Hightouch) con líneas de reverse ETL; elegimos el CDP con una evaluación independiente.

07 / 10

Reverse ETL y activación

Transferencia automática de segmentos calculados (churn risk, LTV tier, product affinity) a Meta Custom Audience, Google Customer Match, Klaviyo, HubSpot, Braze.

08 / 10

Reconstrucción de Customer Match

Reconstrucción de lookalike + retargeting con hashed PII + CAPI; infraestructura que sostiene el rendimiento de las plataformas de ads en un mundo sin pixel.

09 / 10

Schema registry + PII governance

Esquema de eventos versionado y testeable; los campos PII se etiquetan, se aplica política de retención + masking; monitoreo de calidad de datos con alarmas de schema drift.

10 / 10

Audit log + monitoreo de accesos

Se registra quién accedió a qué dato, cuándo y con qué propósito; role-based access control (RBAC), data contracts y reporte de compliance mensual automático.

— BENEFICIOS

El retorno concreto y medible de la propiedad del dato

La arquitectura first-party no es solo compliance; es una palanca directa sobre el rendimiento publicitario, el entendimiento del cliente y la velocidad del equipo.

+45 % señal

Recuperación de señal publicitaria

Con Meta/Google/TikTok CAPI recuperas un 30-50 % de señal; la velocidad de aprendizaje y la calidad de optimización de las plataformas mejoran notablemente.

−52 % gasto SaaS

Bajan los costes de herramientas

El stack SaaS fragmentado se consolida en un único warehouse + capa dbt; el gasto anual en licencias cae un 40-60 %.

+38 % velocidad de decisión

Tu equipo gana velocidad

Con un semantic layer self-serve, cada unidad de negocio responde sus propias preguntas; el data team pasa de cuello de botella a enabler.

100 % audit-ready

Consent cumplido por escrito

TCF 2.2 + Consent Mode v2 + política KVKK auditada y testeable; tu ‘evidence file’ está listo para cualquier inspección legal.

+28 % precisión de atribución

Journey cross-channel visible

Con identity resolution obtienes un user journey independiente de dispositivo/canal; los modelos de atribución y los análisis de cohort se ejecutan sobre datos integrales.

Runbook + RACI

Gobierno de datos sostenible

Schema registry, PII tagging, retención, RBAC, audit log — se entregan a tu equipo con runbook + reporte de compliance mensual.

ENTREGABLES

Entregables concretos y por escrito para cada proyecto first-party

Arquitectura, código, configuración, documentación y formación — cada entregable se versiona y se transfiere a tu equipo.

  • Reporte de signal audit

    Evaluación cuantitativa de la pérdida de señal, las violaciones de consent y la duplicación de herramientas, de 40-60 páginas.

  • Event taxonomy y data contracts

    Nombres, propiedades, propietarios, versión de schema y reglas de backward compatibility de todos los eventos.

  • Implementación del contenedor sGTM

    sGTM en producción sobre Google Cloud Run / AWS Fargate, blue/green deployment + pipeline CI/CD + plan de rollback.

  • Integraciones CAPI

    Eventos de conversión server-side para Meta, Google, TikTok, Pinterest; event deduplication + hashed PII + error handling.

  • Consent Mode v2 + política CMP

    Configuración de CMP compatible con IAB TCF 2.2, señales dinámicas ad_user_data/ad_personalization, política de consent escrita + legal review.

  • Warehouse BigQuery/Snowflake

    Pipeline de streaming de eventos en crudo, partition + clustering, cost optimization, monitoring + alerting.

  • Modelos dbt + semantic layer

    Capas staging → intermediate → marts, tests dbt, exposures, lineage graph + sitio de documentación.

  • Pipeline de identity resolution

    Reglas de matching determinístico + probabilístico, household detection, tabla cross-device journey.

  • Líneas de reverse ETL

    Con Census/Hightouch enviamos segmentos a Meta CA, Google CM, Klaviyo, HubSpot, Braze; con schedule + monitoring.

  • Schema registry y PII governance

    Registros de schema versionados, PII tagging, política de retención + masking, alarmas de schema drift.

  • Audit log + reporte de compliance

    Configuración RBAC, data access log, reporte de compliance mensual automático (KVKK/RGPD + política publicitaria).

  • Runbook + formación de 3 semanas

    Runbook operacional, rotación on-call, SLA por escrito + 3 semanas de formación hands-on para tu equipo.

— ALCANCE

Qué hacemos y qué no — límites claros

La arquitectura first-party es trabajo de ingeniería; definir el alcance con precisión evita sorpresas y facturas inesperadas.

Lo que hacemos

  • Signal audit + evaluación de la salud del consent
  • Diseño de event taxonomy + data contracts
  • Implementación del contenedor sGTM + CI/CD + monitoring
  • Integraciones CAPI con Meta/Google/TikTok/Pinterest
  • Configuración de Consent Mode v2 + TCF 2.2 + CMP
  • Warehouse BigQuery/Snowflake + pipeline de streaming
  • Modelos dbt + semantic layer + tests
  • Identity resolution (determinística + probabilística)
  • Líneas de reverse ETL (Census/Hightouch)
  • Schema registry + PII governance + audit log
  • Coordinación del legal/compliance review
  • Runbook + 3 semanas de formación hands-on

Lo que no hacemos

  • Asesoría jurídica (coordinamos con abogado partner + policy review)
  • Venta de licencias de CDP (recomendación vendor-agnóstica, sin comisiones)
  • Mantenimiento del stack SaaS fragmentado (recomendamos consolidación)
  • Raw analytics con tarifas de agencia (sprints de ingeniería en lugar de paquetes)
  • Garantías de recuperación total de señal ‘pre-pixel’ (damos rangos realistas)
  • Licencia de warehouse / factura cloud (queda en la cuenta del cliente)
  • Gestión de cuentas publicitarias (alcance separado con equipos PPC/Growth)
  • Deployments SaaS plug-and-play (cada cliente lleva arquitectura custom)

HOW WE WORK

Implementación inicial de 8 semanas → 6 meses de operación — qué se hace y cuándo, por escrito

01

Semana 1-2: audit + discovery

Audit de GTM/GA4/CMP/pixel actual, consent health check, entrevistas con stakeholders, documento de requisitos arquitectónicos.

02

Semana 3-4: design + data contracts

Event taxonomy, estrategia de identity, schema de warehouse, política de consent, data contracts — aprobación de legal + IT + marketing.

03

Semana 5-6: deploy sGTM + CAPI

Contenedor Cloud Run/Fargate en producción; integración CAPI con Meta/Google/TikTok; arranque del shadow mode.

04

Semana 7-8: warehouse + dbt

Pipeline de streaming a BigQuery/Snowflake, dbt staging + intermediate + marts, primera versión del semantic layer.

05

Semana 9-10: validate + cutover

Test de event parity, checklist de QA, cutover blue/green; plan de decommission de la arquitectura antigua.

06

Semana 11-12: govern + handoff

Schema registry, PII tagging, audit log, RBAC; arranca la formación hands-on a tu equipo y se entrega el runbook.

07

Mes 4-5: activación + optimización

Líneas de reverse ETL, primeras activaciones de segmentos, preparación de datos para MMM/atribución, cost optimization.

08

Mes 6+: steady state + audit

Reporte de compliance mensual, comité de gobierno de datos trimestral, monitoreo de schema drift, SLA + rotación on-call.

— SET DE HERRAMIENTAS

Las herramientas que usamos — vendor-agnósticas pero con criterio

Elegimos la adecuada para cada cliente; protegemos nuestra independencia no aceptando comisiones.

SERVER-SIDE TRACKING

Google Tag Manager ServerStape.ioGoogle Cloud RunAWS FargateMeta Conversion APIGoogle Ads Enhanced ConversionsTikTok Events APIPinterest CAPI

CMP & CONSENT

OneTrustCookiebotDidomiUsercentricsGoogle Consent Mode v2IAB TCF 2.2

WAREHOUSE & CDP

BigQuerySnowflakeRedshiftdbt Core/CloudSegmentRudderStackmParticleAmplitude

REVERSE ETL & ACTIVATION

CensusHightouchPolytomicFivetranAirbyteStitchMeta Custom Audience APIGoogle Customer Match API

QUESTIONS

Frequently asked

Tres beneficios concretos: (1) Recuperas un 30-50 % de señal al sortear ad-blockers + ITP, (2) Propiedad del dato — la redacción de PII ocurre en el servidor, (3) Mejora la velocidad de carga de página — se reduce la carga de scripts client-side. Además, rompes el vendor lock-in; toda la lógica de tags vive en tu cloud.

— GLOSARIO

Terminología de ingeniería de datos first-party

12 términos clave que dan un lenguaje común a tu equipo y a los stakeholders.

01
sGTM
Server-side Google Tag Manager — un proxy que recibe el payload del GTM del browser, lo limpia y enriquece, y lo reparte a múltiples destinos (GA4, Meta CAPI, TikTok, etc.). Alarga la vida de las cookies, resiste ad-blockers y es la espina dorsal de las conversion API server-side.
CAPIConsent Mode v2
02
CAPI
API de eventos server-to-server de Meta que corre en paralelo al Pixel. Recupera el 20-40 % del signal de conversión perdido en el browser por ITP y ad-blockers; para deduplicar, cada evento debe llevar event_id y mismo timestamp. Base de cualquier stack moderno de paid social.
sGTMCustomer Match
03
Consent Mode v2
Mecanismo de señales de consent de Google compatible con TCF 2.2; estados ad_user_data + ad_personalization.
TCF 2.2PII
04
TCF 2.2
Versión del IAB Europe Transparency & Consent Framework obligatoria desde 2024. Estandariza la señal de consent entre publisher, vendor y usuario; los CMP (OneTrust, Cookiebot, Didomi) entregan el cumplimiento obligatorio junto con Google Consent Mode v2.
Consent Mode v2
05
Identity resolution
Conexión de la actividad de un usuario en distintos dispositivos y canales a una sola identidad; determinística + probabilística.
CDPCustomer Match
06
CDP
Customer Data Platform; sistema que unifica perfiles de usuario y los abre a canales de activación (Segment, mParticle, warehouse-native).
Reverse ETLData warehouse
07
Reverse ETL
Transferencia de datos desde el warehouse hacia herramientas operacionales (Meta, Google, Klaviyo); Census y Hightouch son vendors típicos.
CDPData warehouse
08
Customer Match
Uso de una lista first-party hasheada (email, teléfono, dirección postal) como audiencia de targeting/exclusion en Google Search, YouTube y Display. Base para seeds de lookalike y win-back; suele ser útil a partir de una match rate del 30 %+.
CAPIPII
09
Data warehouse
Repositorio cloud donde viven los eventos crudos y modelados (BigQuery, Snowflake, Redshift, Databricks).
Event schemaData governance
10
Event schema
Definición escrita y versionada de nombres, propiedades, tipos y propietarios de los eventos; se guarda en el schema registry.
Data governance
11
PII
Personally Identifiable Information; datos que identifican a una persona (email, teléfono, IP, device ID). Se gestionan con tagging + retención.
Data governanceConsent Mode v2
12
Data governance
Conjunto de disciplinas de calidad, acceso, gobierno y compliance del dato; RBAC + audit log + data contracts como estándar.
PIIEvent schema
13
GA4 Measurement Protocol
Protocolo server-to-server que envía eventos directamente a GA4 vía HTTP. Genera signal de conversión desde entornos sin pixel web (CRM, IoT, app server); autentica con api_secret + measurement_id y se configura respetando Consent Mode.
14
Enhanced Conversions
Capa de medición en Google Ads que liga una conversión a un usuario mediante first-party data hasheada (email, teléfono). Recupera 3-15 % de atribución perdida por ITP y degradación de cookies; viene en versión web y lead-form.
15
Offline Conversions
Proceso para devolver a la plataforma de ads las conversiones que ocurren en CRM (lead-to-sale, cierre por llamada, visita en tienda) mediante el click ID (gclid/wbraid/fbclid). La forma más fiable de alimentar tROAS con revenue real.
16
First-party Data
Datos que la marca recopila directamente desde sus propias properties (web, app, CRM, contact center, email, membership) con consentimiento del usuario. El combustible más defendible del performance tras la caída de las third-party cookies; se hashea y activa en plataformas.
17
Data Clean Room
Entorno de cómputo seguro donde dos partes (p. ej. marca + plataforma media) pueden hacer match y agregación sin exponer su PII en bruto. Google Ads Data Hub, Amazon AMC, Snowflake/Databricks clean rooms — para análisis de overlap, atribución y construcción de audiencias.
18
Identity Graph
Grafo relacional que enlaza a una misma persona a través de sus dispositivos, email, teléfono, identificador de pago e IDs hasheados. Base para atribución cross-device, modelos de retención y calidad del seed LAL — el corazón del CDP.
19
First-party Cookies
Cookies que el propio dominio del sitio establece y que sólo se envían en sus requests. Tras el bloqueo de las third-party, ITP ha acortado también esta categoría — el cookie set server-side + política de rotación 1y+ es ya esencial.
20
Server-side Events
Eventos de conversión enviados a la plataforma de ads vía API desde tu propio server (sGTM, backend propio) en lugar de desde el navegador. Inmunes a ad-blockers y límites de navegador; usan specs como CAPI (Meta), GA4 MP, TikTok Events API.
21
Hashed PII
Identificador personal (email, teléfono, nombre) congelado vía función criptográfica unidireccional (normalmente SHA-256). Obligatorio para matching, custom audience upload y Enhanced Conversions en plataformas de ads — requisito de privacidad y compliance.
22
Privacy Sandbox
Conjunto de APIs de Google en Chrome diseñadas para permitir medición publicitaria, retargeting y detección de fraude sin third-party cookies: Topics, Protected Audience (FLEDGE), Attribution Reporting. La cara Google del futuro sin cookies.

— ÁRBOL DE DECISIÓN

¿Una operación de datos first-party es lo tuyo?

Responde Sí/No a 4 preguntas; obtendrás una recomendación clara.

01 / 04

¿Tu presupuesto publicitario mensual supera los 30k USD?

Umbral a partir del cual la recuperación de señal empieza a ser económicamente significativa.

— LET'S BEGIN

¿Cuánto confías en tus pixels?

Con un signal audit de 2 horas sacamos a la luz conversiones perdidas, problemas de consent y oportunidades de warehouse.