Datasets: o que são, tipos, qualidade, splits de ML e documentação

1Capítulo 1

Definição

Toda análise de dados, todo modelo de Machine Learning, toda visualização começa com dados — mas não qualquer dado. Dados precisam ser organizados em uma estrutura que sirva ao propósito: com as observações corretas, as variáveis relevantes, sem duplicações ou contaminações que distorçam os resultados. Dataset é o nome técnico para essa coleção estruturada de dados, delimitada e organizada para um propósito específico.

Dataset (conjunto de dados) é uma coleção de dados relacionados, organizados de forma consistente para análise, treinamento de modelos ou outra finalidade específica. Pode ser uma tabela com registros de clientes, uma coleção de imagens rotuladas para treinar um modelo de visão computacional, uma série temporal de leituras de sensor, ou um corpus de textos para treinar um modelo de NLP. O denominador comum é que as observações foram coletadas, organizadas e (frequentemente) curadas com um propósito em mente.

A qualidade do dataset determina o teto da qualidade de qualquer análise ou modelo construído a partir dele. Nenhum algoritmo de ML extrai sinal que não existe nos dados. Nenhuma análise estatística compensa dados sistematicamente incorretos. "Garbage in, garbage out" é a lei fundamental do trabalho com dados.

2Capítulo 2

As dimensões de um dataset

Observações e variáveis: a estrutura básica de um dataset tabular é uma matriz de observações × variáveis. Cada linha é uma observação (um cliente, uma transação, um produto, um evento); cada coluna é uma variável ou feature (características medidas de cada observação). Para datasets não-tabulares (imagens, textos, séries temporais), a estrutura é diferente mas o princípio é o mesmo.

Tipo de dado: variáveis numéricas contínuas (preço, peso, temperatura), variáveis numéricas discretas (quantidade, contagem), variáveis categóricas nominais (tipo de produto, país, status) e ordinais (nível de satisfação, faixa de renda), variáveis binárias (sim/não, ativo/inativo), datas e timestamps, texto livre, imagens, áudio.

Granularidade: o nível de detalhe de cada observação. Dataset de vendas pode ter granularidade de pedido, de item de pedido, de cliente-mês, ou de cliente-dia — diferentes granularidades respondem a diferentes perguntas e têm volumes muito diferentes.

Temporalidade: datasets transversais (snapshot de um momento específico), longitudinais (observações de múltiplos períodos), e painéis (múltiplas entidades observadas em múltiplos períodos).

3Capítulo 3

Tipos de datasets por origem e propósito

Datasets proprietários: gerados pelas operações da própria organização — transações, cadastros, logs, pesquisas. A fonte de dados mais valiosa porque é exclusiva e contextualizada. O desafio é a qualidade: dados operacionais não foram coletados para análise, podem ter inconsistências, campos nulos e artefatos de processo.

Datasets públicos e abertos: disponibilizados por governo (IBGE, Banco Central, INEP), organizações internacionais (OMS, Banco Mundial), plataformas de pesquisa (UCI ML Repository, Kaggle Datasets, Hugging Face Datasets) e empresas que abrem dados por iniciativa. Úteis para enriquecimento (adicionar dados socioeconômicos por CEP, por exemplo) e para benchmarking de modelos.

Datasets de benchmark: coleções padronizadas usadas para comparar modelos em condições equivalentes. ImageNet para classificação de imagem, GLUE/SuperGLUE para NLP, MNIST para reconhecimento de dígitos. Permitem que a comunidade de pesquisa avalie progresso de forma comparável.

Dados sintéticos: gerados artificialmente para simular dados reais. Úteis quando dados reais são escassos (falhas industriais raras, casos médicos específicos), quando dados reais têm restrições de privacidade (dados de saúde), ou para aumentar datasets reais com variações (data augmentation em visão computacional).

Dados de streaming: ao contrário de datasets estáticos, dados de streaming são gerados continuamente e não têm fim definido. O conceito de "dataset" ainda se aplica — mas como janelas de tempo extraídas do stream, não como coleção estática.

4Capítulo 4

Qualidade de dataset — as dimensões que importam

Completude: quantos valores ausentes há? Em quais campos? Valores faltantes não são apenas inconvenientes — frequentemente são informativos (cliente que não preencheu telefone, produto que não tem peso registrado) e seu tratamento inadequado introduz viés.

Acurácia: os valores registrados correspondem à realidade? Preço de produto desatualizado, endereço de cliente incorreto, data de nascimento errada. Acurácia baixa contamina qualquer análise construída sobre o dado.

Consistência: o mesmo conceito é representado da mesma forma em todo o dataset e entre datasets? "SP", "São Paulo", "sao paulo" são a mesma cidade — inconsistência cria dificuldades de join e análise agregada.

Timeliness (atualidade): o dado está atualizado para o propósito? Um dataset de clientes com última atualização há dois anos pode estar significativamente desatualizado para análises de comportamento atual.

Unicidade: há duplicatas? Registros duplicados inflam contagens, distorcem médias e contaminam treinamento de modelos.

Validade: os valores estão dentro dos ranges esperados e nos formatos corretos? Data de nascimento em 1750, valor de transação negativo onde não deveria, CEP com 4 dígitos.

5Capítulo 5

Splits de dataset em Machine Learning

Quando um dataset é usado para treinar um modelo de ML, ele é tipicamente dividido em subsets com propósitos distintos — e essa divisão é uma das decisões mais críticas do processo.

Training set (treino): os dados que o modelo usa para aprender — ajustar pesos e parâmetros. Normalmente 60-80% do dataset.

Validation set (validação): dados usados durante o desenvolvimento para avaliar performance do modelo e ajustar hiperparâmetros, sem que esses dados influenciem o treinamento. Permite comparar diferentes configurações do modelo de forma justa. Normalmente 10-20%.

Test set (teste): dados mantidos completamente separados até a avaliação final. Simula performance do modelo em dados novos — a estimativa mais honesta de performance em produção. Normalmente 10-20%. Deve ser usado apenas uma vez no final; usar repetidamente para ajustar o modelo vaza informação do test set para o processo de treinamento.

Data leakage: o erro mais comum e mais danoso em ML — quando informação do futuro ou informação que não estaria disponível no momento da previsão contamina os dados de treinamento. Produz modelos que parecem excelentes na validação e falham em produção.

6Capítulo 6

Curadoria e documentação de datasets

Um dataset bem curado tem metadados que permitem que outros o usem corretamente.

Data Card / Dataset Card: documentação padronizada que acompanha um dataset — origem, método de coleta, período coberto, quem coletou, para quê foi coletado, limitações conhecidas, considerações éticas, como foi processado. Hugging Face popularizou o formato de "Model Cards" para modelos e "Dataset Cards" para datasets. Essencial para reprodutibilidade e para uso responsável.

Linhagem: de onde o dataset veio, quais transformações foram aplicadas, quem tem acesso, quando foi criado e quando foi atualizado. Ferramentas como dbt documentam linhagem automaticamente para transformações SQL.

Versionamento: quando um dataset é atualizado (novos dados adicionados, erros corrigidos, definições alteradas), versionar permite reproduzir análises feitas em versões anteriores e rastrear como o dataset evoluiu. DVC (Data Version Control) gerencia versionamento de datasets de forma integrada com Git.

7Capítulo 7

Perspectiva Auspert

Dataset é um conceito que parece simples até que você tenta usar um dataset real para tomar uma decisão real — e descobre que 15% dos registros têm campos obrigatórios nulos, que a mesma entidade aparece com três IDs diferentes dependendo de quando foi cadastrada, e que não há documentação de como o campo "status" foi definido.

Para organizações que estão construindo capacidade analítica, o investimento mais impactante não é em ferramentas — é em processos que garantem que os datasets gerados pelas operações sejam confiáveis: validação de dados na entrada dos sistemas, definições canônicas de campos críticos, processos de limpeza periódica. Um dataset pequeno e confiável entrega mais valor analítico do que um dataset grande e inconsistente.

A curadoria de datasets também é consideração de LGPD: usar dados de clientes para treinar modelos de ML exige base legal, minimização (usar apenas o necessário), e garantia de que dados que devem ser deletados (por solicitação do titular ou por vencimento de retenção) não contaminam modelos em produção.

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

As dimensões de um dataset

Tipos de datasets por origem e propósito

Qualidade de dataset — as dimensões que importam

Unicidade: há duplicatas? Registros duplicados inflam contagens, distorcem médias e contaminam treinamento de modelos.

Validade: os valores estão dentro dos ranges esperados e nos formatos corretos? Data de nascimento em 1750, valor de transação negativo onde não deveria, CEP com 4 dígitos.

Splits de dataset em Machine Learning

Quando um dataset é usado para treinar um modelo de ML, ele é tipicamente dividido em subsets com propósitos distintos — e essa divisão é uma das decisões mais críticas do processo.

Training set (treino): os dados que o modelo usa para aprender — ajustar pesos e parâmetros. Normalmente 60-80% do dataset.

Curadoria e documentação de datasets

Um dataset bem curado tem metadados que permitem que outros o usem corretamente.

Perspectiva Auspert