Gobernanza de datos como fundación de proyectos de IA
11 jun 2026
Quieres implementar IA en tu datacenter. Excelente.
Ahora, responde: ¿Tienes datos de calidad?
Si la respuesta es "creo que sí", detente aquí.
Porque la verdad brutal es: la IA es solo tan buena como tus datos.
Datos malos = modelos malos = decisiones malas = perjuicio real.
La gobernanza de datos no es tarea de TI. Es estrategia corporativa.
El problema real: datos sucios
Ejemplo 1: edad de clientes
Cliente A registrado en 1950 (118 años)
Cliente B registrado en 2050 (nacimiento futuro)
Cliente C sin fecha de nacimiento registrada
Cliente D fecha registrada como "31/02/2023" (no existe)
Modelo de ML entrenado con esto:
"Hmm, los datos dicen que las personas nacen en 1950, 2050, o fecha inválida"
Output: Modelo completamente roto
Ejemplo 2: ubicación de servidor
Servidor registrado en:
- "New York"
- "NY"
- "Nueva York" (español)
- "Unidad 1, Edificio B, NY" (muy específico)
- "Default" (no fue completado)
- "" (vacío)
Consolidación: 6 entradas diferentes, pero es 1 servidor
¿El modelo intenta correlacionar por ubicación?
Resultados: inconsistentes
Ejemplo 3: provisionamiento de memoria
10 servidores, configuración de memoria:
- "8GB"
- "8gb"
- "8 GB"
- "8"
- "8 (gigabytes)"
- "8000MB"
- "0008"
Sistema que calcula el total de memoria:
¿Trata "8" como 8 bytes? ¿8MB? Falla de parsing.
Resultado: estimaciones de capacidad completamente erradas
Pilares de la gobernanza de datos
1. Calidad de datos
Métricas:
| Dimensión | Descripción | Target |
|---|---|---|
| Completitud | % de campos completados | > 95% |
| Exactitud | % de valores correctos vs real | > 98% |
| Consistencia | El mismo dato es igual en todas las tablas | > 99% |
| Actualidad | Los datos reflejan la realidad actual | < 24h de lag |
| Unicidad | Sin registros duplicados | > 99% |
Implementación:
# Data quality score
def calculate_data_quality_score(dataset):
completeness = (non_null_fields / total_fields) * 0.25
accuracy = validate_values_against_reference() * 0.25
consistency = check_cross_table_consistency() * 0.25
freshness = (1 - days_since_update/max_days) * 0.25
total_score = completeness + accuracy + consistency + freshness
return total_score # 0-1, target > 0.95
2. Catalogación y metadata
Tienes 10.000 tablas de datos en tu datacenter. ¿Cuál es cuál?
Sin catálogo, es como una hoja en un bosque.
Qué catalogar:
Tabla: sales_transactions
- Owner: revenue-team
- Location: warehouse/analytics/sales
- Last updated: 2025-04-05
- Row count: 50M
- Columns:
- transaction_id (PII)
- customer_id (PII)
- amount (sensitive)
- timestamp
- status
- Lineage:
- Source: order_system (daily, 8pm UTC)
- Transform: aggregation, deduplication
- Consumers: revenue_reporting, ml_models/churn_prediction
- Data quality score: 0.96
- Refresh SLA: daily, < 2h lag
- Retention: 7 years (regulatory requirement)
Herramientas: Collibra, Apache Atlas, Alation
3. Privacidad by Design
Antes de recolectar datos, pregunta: "¿Necesito esto? ¿Puedo recolectarlo legalmente?"
LGPD (Lei Geral de Proteção de Dados - Brasil)
Si recolectas datos de un brasileño, está regulado por la LGPD.
Reglas básicas:
- Consentimiento: el usuario tiene que consentir o tener "interés legítimo"
- Derecho al olvido: si pide borrar, lo borras
- Transparencia: explicar para qué usas los datos
- Seguridad: proteger los datos contra robo
- Data minimization: recolecta solo lo necesario
GDPR (Europa)
Más riguroso que la LGPD. ¿Algún cliente europeo? Está bajo GDPR.
Multas: hasta 4% de la facturación global si se viola
Implementación Práctica:
Antes de usar datos en IA:
- ¿Tengo consentimiento?
- ¿Los datos son PII (Personally Identifiable Information)?
- Si es así, ¿están cifrados?
- ¿Puedo borrar los datos si lo piden?
- ¿Registro de quién accedió?
- ¿Documentación de consentimiento archivada?
4. Master Data Management (MDM)
Single source of truth. Cuando hay conflicto de datos, ¿cuál es la versión correcta?
Ejemplo:
Sistema A: Cliente João Silva, fecha de nacimiento 15/03/1980
Sistema B: Cliente João Silva, fecha de nacimiento 15/03/1981
¿Cuál es correcto? Sin MDM, nadie sabe.
Con MDM:
1. Designar el sistema A como "master"
2. El sistema B sincroniza con A
3. Si hay diferencia, flag para revisión manual
4. Resultado: datos únicos y confiables
5. Data Retention and Archiving
Mantener datos para siempre es:
- Caro (almacenamiento)
- Arriesgado (más datos = más superficie de ataque)
- Problemático (la LGPD obliga a borrar si ya no se necesita)
Política de retención:
Transacciones de ventas:
- Hot data: últimos 90 días (en memoria/SSD rápido)
- Warm data: 91 días a 2 años (storage estándar)
- Cold data: 2-7 años (archivo, acceso lento)
- Deletion: tras 7 años (regulatory requirement)
Logs de acceso:
- Hot: últimos 30 días
- Archive: 30-90 días
- Delete: tras 90 días
6. Data Sharing y gobernanza de acceso
No toda persona accede a todo dato.
RBAC (Role-Based Access Control):
Analista de ventas:
- Acceso: sales_transactions (últimos 2 años)
- Restricciones: no ve el salario de empleados
- Audit: todos los accesos registrados
- Revocación: cuando sale de la empresa
DBA:
- Acceso: todo (lo necesita para mantenimiento)
- Restricciones: accesos registrados, supervisión
- Revocación: inmediata si es despedido
Roadmap: 12 meses
Mes 1-2: Assessment
- Auditar: ¿qué datos tienes?
- ¿Cuál es la calidad?
- ¿Quién los usa? ¿Cuándo?
- ¿Cuáles están "sucios"?
Output: Documento de estado actual
Mes 3-4: Governance Framework
- Definir política de calidad
- Establecer MDM
- Crear catálogo de datos
- Documentar lineage (origen de los datos)
Output: Framework aprobado por Legal/Compliance/CIO
Mes 5-6: implementación técnica
- Deploy de herramientas (Collibra/Atlas)
- Integración con el data warehouse
- Automatización de quality checks
- Pruebas con dataset piloto
Mes 7-9: rollout controlado
- Validar con los business teams
- Identificar datos críticos vs no críticos
- Implementar controles de acceso
- Capacitación de usuarios
Mes 10-12: escala + automatización
- Expandir a nuevos datasources
- ML para detección automática de anomalía de calidad
- Retención automática de datos
- Compliance audits mensuales
Costo-beneficio
Inversión (Year 1)
| Item | Costo |
|---|---|
| Herramienta (Collibra) | R$ 100.000 |
| Infraestructura (storage, compute) | R$ 80.000 |
| Recursos (Data Gov Officer + team) | R$ 200.000 |
| Capacitación + consultoría | R$ 50.000 |
| Total | R$ 430.000 |
Beneficio (Year 1)
| Item | Valor |
|---|---|
| Reducción de error de datos | R$ 150.000 |
| Compliance penalties evitadas | R$ 200.000+ |
| Eficiencia (menos tiempo en limpieza) | R$ 120.000 |
| IA que funciona mejor | R$ 300.000 |
| Total | R$ 770.000+ |
ROI: ~80% en el Year 1
Gobernanza + IA: por qué importa
Sin gobernanza:
Datos sucios -> Modelo entrenado en basura -> Output basura -> Decisión errada -> Perjuicio
Con gobernanza:
Datos limpios -> Modelo robusto -> Output confiable -> Decisión correcta -> Valor real
Cuando implementas IA (observabilidad predictiva, RPA cognitivo, etc.), solo funciona bien si los datos son buenos.
La gobernanza de datos es un prerrequisito, no un extra.
Conclusión
Nadie se vuelve famoso por "tener buena gobernanza de datos".
Pero todo proyecto de IA fracasa por "los datos fueron malos".
¿Quieres ser conocido como:
a) "Aquel que implementó IA revolucionaria" (que se rompió porque los datos eran malos)
b) "Aquel que construyó una fundación sólida de datos" (que permite escalar la IA)
Elige (b). Tu yo futuro lo agradecerá.
Empieza ahora. Los datos no se limpian solos.