Gobernanza de datos como fundación de proyectos de IA

Quieres implementar IA en tu datacenter. Excelente.

Ahora, responde: ¿Tienes datos de calidad?

Si la respuesta es "creo que sí", detente aquí.

Porque la verdad brutal es: la IA es solo tan buena como tus datos.

Datos malos = modelos malos = decisiones malas = perjuicio real.

La gobernanza de datos no es tarea de TI. Es estrategia corporativa.

El problema real: datos sucios

Ejemplo 1: edad de clientes

Cliente A registrado en 1950 (118 años)
Cliente B registrado en 2050 (nacimiento futuro)
Cliente C sin fecha de nacimiento registrada
Cliente D fecha registrada como "31/02/2023" (no existe)

Modelo de ML entrenado con esto:
"Hmm, los datos dicen que las personas nacen en 1950, 2050, o fecha inválida"
Output: Modelo completamente roto

Ejemplo 2: ubicación de servidor

Servidor registrado en:
- "New York"
- "NY"
- "Nueva York" (español)
- "Unidad 1, Edificio B, NY" (muy específico)
- "Default" (no fue completado)
- "" (vacío)

Consolidación: 6 entradas diferentes, pero es 1 servidor
¿El modelo intenta correlacionar por ubicación?
Resultados: inconsistentes

Ejemplo 3: provisionamiento de memoria

10 servidores, configuración de memoria:
- "8GB"
- "8gb"
- "8 GB"
- "8"
- "8 (gigabytes)"
- "8000MB"
- "0008"

Sistema que calcula el total de memoria:
¿Trata "8" como 8 bytes? ¿8MB? Falla de parsing.
Resultado: estimaciones de capacidad completamente erradas

Pilares de la gobernanza de datos

1. Calidad de datos

Métricas:

Dimensión	Descripción	Target
Completitud	% de campos completados	> 95%
Exactitud	% de valores correctos vs real	> 98%
Consistencia	El mismo dato es igual en todas las tablas	> 99%
Actualidad	Los datos reflejan la realidad actual	< 24h de lag
Unicidad	Sin registros duplicados	> 99%

Implementación:

# Data quality score
def calculate_data_quality_score(dataset):
    completeness = (non_null_fields / total_fields) * 0.25
    accuracy = validate_values_against_reference() * 0.25
    consistency = check_cross_table_consistency() * 0.25
    freshness = (1 - days_since_update/max_days) * 0.25

    total_score = completeness + accuracy + consistency + freshness
    return total_score  # 0-1, target > 0.95

2. Catalogación y metadata

Tienes 10.000 tablas de datos en tu datacenter. ¿Cuál es cuál?

Sin catálogo, es como una hoja en un bosque.

Qué catalogar:

Tabla: sales_transactions
- Owner: revenue-team
- Location: warehouse/analytics/sales
- Last updated: 2025-04-05
- Row count: 50M
- Columns:
  - transaction_id (PII)
  - customer_id (PII)
  - amount (sensitive)
  - timestamp
  - status
- Lineage:
  - Source: order_system (daily, 8pm UTC)
  - Transform: aggregation, deduplication
  - Consumers: revenue_reporting, ml_models/churn_prediction
- Data quality score: 0.96
- Refresh SLA: daily, < 2h lag
- Retention: 7 years (regulatory requirement)

Herramientas: Collibra, Apache Atlas, Alation

3. Privacidad by Design

Antes de recolectar datos, pregunta: "¿Necesito esto? ¿Puedo recolectarlo legalmente?"

LGPD (Lei Geral de Proteção de Dados - Brasil)

Si recolectas datos de un brasileño, está regulado por la LGPD.

Reglas básicas:
- Consentimiento: el usuario tiene que consentir o tener "interés legítimo"
- Derecho al olvido: si pide borrar, lo borras
- Transparencia: explicar para qué usas los datos
- Seguridad: proteger los datos contra robo
- Data minimization: recolecta solo lo necesario

GDPR (Europa)

Más riguroso que la LGPD. ¿Algún cliente europeo? Está bajo GDPR.

Multas: hasta 4% de la facturación global si se viola

Implementación Práctica:

Antes de usar datos en IA:
- ¿Tengo consentimiento?
- ¿Los datos son PII (Personally Identifiable Information)?
- Si es así, ¿están cifrados?
- ¿Puedo borrar los datos si lo piden?
- ¿Registro de quién accedió?
- ¿Documentación de consentimiento archivada?

4. Master Data Management (MDM)

Single source of truth. Cuando hay conflicto de datos, ¿cuál es la versión correcta?

Ejemplo:

Sistema A: Cliente João Silva, fecha de nacimiento 15/03/1980
Sistema B: Cliente João Silva, fecha de nacimiento 15/03/1981

¿Cuál es correcto? Sin MDM, nadie sabe.

Con MDM:
1. Designar el sistema A como "master"
2. El sistema B sincroniza con A
3. Si hay diferencia, flag para revisión manual
4. Resultado: datos únicos y confiables

5. Data Retention and Archiving

Mantener datos para siempre es:

Caro (almacenamiento)
Arriesgado (más datos = más superficie de ataque)
Problemático (la LGPD obliga a borrar si ya no se necesita)

Política de retención:

Transacciones de ventas:
- Hot data: últimos 90 días (en memoria/SSD rápido)
- Warm data: 91 días a 2 años (storage estándar)
- Cold data: 2-7 años (archivo, acceso lento)
- Deletion: tras 7 años (regulatory requirement)

Logs de acceso:
- Hot: últimos 30 días
- Archive: 30-90 días
- Delete: tras 90 días

6. Data Sharing y gobernanza de acceso

No toda persona accede a todo dato.

RBAC (Role-Based Access Control):

Analista de ventas:
- Acceso: sales_transactions (últimos 2 años)
- Restricciones: no ve el salario de empleados
- Audit: todos los accesos registrados
- Revocación: cuando sale de la empresa

DBA:
- Acceso: todo (lo necesita para mantenimiento)
- Restricciones: accesos registrados, supervisión
- Revocación: inmediata si es despedido

Roadmap: 12 meses

Mes 1-2: Assessment

Auditar: ¿qué datos tienes?
¿Cuál es la calidad?
¿Quién los usa? ¿Cuándo?
¿Cuáles están "sucios"?

Output: Documento de estado actual

Mes 3-4: Governance Framework

Definir política de calidad
Establecer MDM
Crear catálogo de datos
Documentar lineage (origen de los datos)

Output: Framework aprobado por Legal/Compliance/CIO

Mes 5-6: implementación técnica

Deploy de herramientas (Collibra/Atlas)
Integración con el data warehouse
Automatización de quality checks
Pruebas con dataset piloto

Mes 7-9: rollout controlado

Validar con los business teams
Identificar datos críticos vs no críticos
Implementar controles de acceso
Capacitación de usuarios

Mes 10-12: escala + automatización

Expandir a nuevos datasources
ML para detección automática de anomalía de calidad
Retención automática de datos
Compliance audits mensuales

Costo-beneficio

Inversión (Year 1)

Item	Costo
Herramienta (Collibra)	R$ 100.000
Infraestructura (storage, compute)	R$ 80.000
Recursos (Data Gov Officer + team)	R$ 200.000
Capacitación + consultoría	R$ 50.000
Total	R$ 430.000

Beneficio (Year 1)

Item	Valor
Reducción de error de datos	R$ 150.000
Compliance penalties evitadas	R$ 200.000+
Eficiencia (menos tiempo en limpieza)	R$ 120.000
IA que funciona mejor	R$ 300.000
Total	R$ 770.000+

ROI: ~80% en el Year 1

Gobernanza + IA: por qué importa

Sin gobernanza:

Datos sucios -> Modelo entrenado en basura -> Output basura -> Decisión errada -> Perjuicio

Con gobernanza:

Datos limpios -> Modelo robusto -> Output confiable -> Decisión correcta -> Valor real

Cuando implementas IA (observabilidad predictiva, RPA cognitivo, etc.), solo funciona bien si los datos son buenos.

La gobernanza de datos es un prerrequisito, no un extra.

Conclusión

Nadie se vuelve famoso por "tener buena gobernanza de datos".

Pero todo proyecto de IA fracasa por "los datos fueron malos".

¿Quieres ser conocido como:
a) "Aquel que implementó IA revolucionaria" (que se rompió porque los datos eran malos)
b) "Aquel que construyó una fundación sólida de datos" (que permite escalar la IA)

Elige (b). Tu yo futuro lo agradecerá.

Empieza ahora. Los datos no se limpian solos.