Governança de dados como fundação de projetos de IA
10 jun 2026
Você quer implementar IA em seu datacenter. Excelente.
Agora, responda: Você tem dados de qualidade?
Se a resposta é "acho que temos", pare aqui.
Porque a verdade brutal é: IA é só tão boa quanto seus dados.
Dados ruins = modelos ruins = decisões ruins = prejuízo real.
Governança de dados não é tarefa de TI. É estratégia corporativa.
O problema real: dados sujos
Exemplo 1: idade de clientes
```
Cliente A registrado em 1950 (118 anos)
Cliente B registrado em 2050 (nascimento futuro)
Cliente C sem data de nascimento registrada
Cliente D data registrada como "31/02/2023" (nao existe)
Modelo de ML treinado com isso:
"Hm, dados dizem que pessoas nascem em 1950, 2050, ou data invalida"
Output: Modelo completamente quebrado
```
Exemplo 2: localização de servidor
```
Servidor registrado em:
- "New York"
- "NY"
- "Nueva York" (espanhol)
- "Unidade 1, Predio B, NY" (muito especifico)
- "Default" (nao foi preenchido)
- "" (vazio)
Consolidacao: 6 entradas diferentes, mas e 1 servidor
Modelo tenta correlacionar por localizacao?
Resultados: inconsistentes
```
Exemplo 3: provisionamento de memória
```
10 servidores, configuracao de memoria:
- "8GB"
- "8gb"
- "8 GB"
- "8"
- "8 (gigabytes)"
- "8000MB"
- "0008"
Sistema que calcula total de memoria:
Trata "8" como 8 bytes? 8MB? Falha de parsing.
Resultado: estimativas de capacidade completamente erradas
```
Pilares da governança de dados
1. Qualidade de dados
Metricas:
| Dimensao | Descricao | Target |
|---|---|---|
| Completude | % de campos preenchidos | > 95% |
| Acuracia | % de valores corretos vs real | > 98% |
| Consistencia | Mesmo dado e igual em todas as tabelas | > 99% |
| Atualidade | Dados refletem realidade atual | < 24h de lag |
| Unicidade | Sem registros duplicados | > 99% |
Implementacao:
```python
Data quality score
def calculate_data_quality_score(dataset):
completeness = (non_null_fields / total_fields) 0.25
accuracy = validate_values_against_reference() 0.25
consistency = check_cross_table_consistency() 0.25
freshness = (1 - days_since_update/max_days) 0.25
total_score = completeness + accuracy + consistency + freshness
return total_score # 0-1, target > 0.95
```
2. Catalogação e metadata
Voce tem 10.000 tabelas de dados em seu datacenter. Qual e qual?
Sem catalogo, e folha em floresta.
O que catalogar:
```
Tabela: sales_transactions
- Owner: revenue-team
- Location: warehouse/analytics/sales
- Last updated: 2025-04-05
- Row count: 50M
- Columns:
- transaction_id (PII)
- customer_id (PII)
- amount (sensitive)
- timestamp
- status
- Lineage:
- Source: order_system (daily, 8pm UTC)
- Transform: aggregation, deduplication
- Consumers: revenue_reporting, ml_models/churn_prediction
- Data quality score: 0.96
- Refresh SLA: daily, < 2h lag
- Retention: 7 years (regulatory requirement)
```
Ferramentas: Collibra, Apache Atlas, Alation
3. Privacidade by design
Antes de coletar dados, pergunte: "Preciso disso? Posso coletar legalmente?"
LGPD (Lei Geral de Proteção de Dados - Brasil)
```
Se voce coleta dados de brasileiro, e regulado por LGPD.
Regras basicas:
- Consentimento: usuario tem que consentir ou ter "interesse legitimo"
- Direito ao esquecimento: se pede para deletar, voce deleta
- Transparencia: explicar para que usa dados
- Seguranca: proteger dados contra roubo
- Data minimization: coleta so o necessario
```
GDPR (Europa)
Mais rigoroso que LGPD. Se algum cliente europeu? Esta sob GDPR.
```
Multas: ate 4% da receita global se violar
```
Implementacao Pratica:
```
Antes de usar dados em IA:
- Tenho consentimento?
- Dados sao PII (Personally Identifiable Information)?
- Se sim, estao criptografados?
- Posso deletar dados se pedirem?
- Registro de quem acessou?
- Documentacao de consentimento arquivada?
```
4. Master Data Management (MDM)
Single source of truth. Quando ha conflito de dados, qual e a versao correta?
Exemplo:
```
Sistema A: Cliente Joao Silva, data de nascimento 15/03/1980
Sistema B: Cliente Joao Silva, data de nascimento 15/03/1981
Qual e correto? Sem MDM, ninguem sabe.
Com MDM:
- Designar sistema A como "master"
- Sistema B sincroniza com A
- Se diferenca, flag para revisao manual
- Resultado: dados unicos e confiaveis
```
5. Data retention and archiving
Manter dados para sempre e:
- Caro (armazenamento)
- Arriscado (mais dados = mais superficie de ataque)
- Problematico (LGPD obriga deletar se nao precisa mais)
Politica de retencao:
```
Transacoes de vendas:
- Hot data: ultimos 90 dias (em memoria/SSD rapido)
- Warm data: 91 dias a 2 anos (storage padrao)
- Cold data: 2-7 anos (arquivo, acesso lento)
- Deletion: apos 7 anos (regulatory requirement)
Logs de acesso:
- Hot: ultimos 30 dias
- Archive: 30-90 dias
- Delete: apos 90 dias
```
6. Data sharing e governança de acesso
Nem toda pessoa acessa todo dado.
RBAC (Role-Based Access Control):
```
Analista de vendas:
- Acesso: sales_transactions (ultimos 2 anos)
- Restricoes: nao ve salario de funcionario
- Audit: todos os acessos logados
- Revogacao: quando sai da empresa
DBA:
- Acesso: tudo (precisa para manutencao)
- Restricoes: acessos logados, supervisao
- Revogacao: imediata se demitido
```
Roadmap: 12 meses
Mês 1-2: assessment
- Auditar: que dados voce tem?
- Qual a qualidade?
- Quem usa? Quando?
- Quais estao "sujos"?
Output: Documento de estado atual
Mês 3-4: governance framework
- Definir politica de qualidade
- Estabelecer MDM
- Criar catalogo de dados
- Documentar lineage (origem dos dados)
Output: Framework aprovado por Legal/Compliance/CIO
Mês 5-6: implementação técnica
- Deploy de ferramentas (Collibra/Atlas)
- Integracao com data warehouse
- Automacao de quality checks
- Testes com dataset piloto
Mês 7-9: rollout controlado
- Validar com business teams
- Identificar dados criticos vs nao-criticos
- Implementar controles de acesso
- Treinamento de usuarios
Mês 10-12: escala + automação
- Expandir para novos datasources
- ML para deteccao automatica de anomalia de qualidade
- Retencao automatica de dados
- Compliance audits mensais
Custo-benefício
Investimento (Year 1)
| Item | Custo |
|---|---|
| Ferramenta (Collibra) | R$ 100.000 |
| Infraestrutura (storage, compute) | R$ 80.000 |
| Recursos (Data Gov Officer + team) | R$ 200.000 |
| Treinamento + consultoria | R$ 50.000 |
| Total | R$ 430.000 |
Benefício (Year 1)
| Item | Valor |
|---|---|
| Reducao de erro de dados | R$ 150.000 |
| Compliance penalties evitadas | R$ 200.000+ |
| Eficiencia (menos tempo em limpeza) | R$ 120.000 |
| IA que funciona melhor | R$ 300.000 |
| Total | R$ 770.000+ |
ROI: ~80% no Year 1
Governança + IA: por que importa
Sem governanca:
```
Dados sujos -> Modelo treinado em lixo -> Output lixo -> Decisao errada -> Prejuizo
```
Com governanca:
```
Dados limpos -> Modelo robusto -> Output confiavel -> Decisao certa -> Valor real
```
Quando voce implementa IA (observabilidade preditiva, RPA cognitiva, etc), ela so funciona bem se dados sao bons.
Governanca de dados e pre-requisito, nao extra.
Conclusão
Ninguem fica famoso por "ter boa governanca de dados".
Mas todo projeto de IA fracassa por "dados foram ruins".
Voce quer ser conhecido como:
a) "Aquele que implementou IA revolucionaria" (que quebrou porque dados eram ruins)
b) "Aquele que construiu fundacao solida de dados" (que permite IA escalar)
Escolha (b). Seu futuro eu agradece.
Comece agora. Dados nao limpam a si mesmos.