Feature Engineering: o que é, técnicas de transformação, seleção de features e importância

1Capítulo 1

Definição

Existe um adágio em Machine Learning que resiste ao avanço de algoritmos cada vez mais sofisticados: um bom engenheiro de features com um modelo simples frequentemente supera um engenheiro de features mediano com o modelo mais avançado disponível. Isso parece contraintuitivo — não deveria um modelo mais poderoso compensar features piores? — mas reflete uma realidade fundamental: algoritmos de ML aprendem padrões nos dados que lhes são fornecidos. Se os dados não contêm o sinal relevante de forma que o modelo consegue detectar, nenhum algoritmo vai extraí-lo.

Feature Engineering (Engenharia de Features) é o processo de transformar dados brutos em variáveis (features) que capturam os padrões relevantes para o problema de ML de forma que os algoritmos consigam aprender com eficiência. É a ponte entre os dados que existem e os dados que os modelos precisam.

"Feature" é simplesmente uma variável de entrada de um modelo — um número, uma categoria, um valor booleano. Feature engineering é o trabalho de decidir quais features criar, como transformá-las, e como combiná-las para maximizar o poder preditivo do modelo.

2Capítulo 2

Por que feature engineering importa tanto

A maioria dos dados brutos não está na forma ideal para algoritmos de ML. Datas são strings, não números que capturam sazonalidade. IDs de produto não têm significado numérico. A "distância entre a data de cadastro e a data de primeira compra" é muito mais informativa do que as duas datas separadamente. Preço de produto e renda de cliente separados dizem menos do que a razão entre eles.

Features bem construídas:

Encapsulam conhecimento de domínio que o algoritmo não inferiria facilmente dos dados brutos
Reduzem a quantidade de dados necessária para aprender o padrão (o modelo não precisa descobrir o que já está explícito na feature)
Tornam o modelo mais robusto a variações nos dados (normalização, tratamento de outliers)
Permitem que modelos simples sejam competitivos com modelos complexos

3Capítulo 3

As categorias de transformação

Transformações numéricas:

Normalização e padronização: colocar variáveis em escalas comparáveis. Normalização min-max (0 a 1), padronização z-score (média 0, desvio padrão 1). Essencial para algoritmos baseados em distância (KNN, SVM) e redes neurais; menos crítico para árvores de decisão.
Transformações de escala: log transform para variáveis com distribuição fortemente assimétrica (renda, volume de vendas, duração de sessão). Aproxima a distribuição da normal, reduz impacto de outliers extremos.
Binning: discretizar variável contínua em categorias (faixas de idade, faixas de renda). Útil quando a relação com o target é não-linear por partes.
Interações: produto ou razão de duas features. Renda / Número de dependentes captura capacidade de gasto per capita de forma que os dois valores separados não capturam.

Variáveis categóricas:

One-hot encoding: transformar categoria em N colunas binárias, uma por valor. "São Paulo", "Rio", "Belo Horizonte" → três colunas com 0 ou 1. Necessário para a maioria dos algoritmos que não lidam nativamente com categorias.
Ordinal encoding: codificar categorias com ordem natural em números (Baixo→1, Médio→2, Alto→3). Adequado quando a ordem é significativa.
Target encoding: substituir a categoria pela média do target para aquela categoria (calculada nos dados de treino). Muito poderoso para categorias de alta cardinalidade, mas com risco de data leakage se não implementado corretamente com cross-validation.
Embeddings: para categorias de alta cardinalidade (produto com milhares de SKUs, usuário com milhões de IDs), aprender representações densas via embedding — similar a word embeddings em NLP.

Features de tempo:

Extrair componentes de datetime: dia da semana, hora do dia, mês, trimestre, é feriado, dias até o fim do mês.
Criar features de lag: valor de uma métrica no período anterior (ontem, semana passada, mesmo dia do ano anterior). Essencial para séries temporais.
Janelas deslizantes (rolling windows): média dos últimos N períodos, desvio padrão, mínimo, máximo. Captura tendência e variabilidade.
Tempo desde um evento: dias desde a última compra, dias desde o cadastro, dias desde o último login.

Features de texto:

TF-IDF: frequência de termos ponderada por raridade no corpus. Transforma texto em vetor esparso.
Embeddings de texto: representação densa via modelo de linguagem. Captura semântica.
Features derivadas: comprimento do texto, número de palavras específicas, presença de negação, sentimento.

Features de agregação:

Para dados de clientes com múltiplas transações, agregar por cliente: número de compras, valor total, valor médio, recência da última compra, categorias compradas, frequência por canal.
RFM (Recência, Frequência, Valor Monetário) é um exemplo clássico de features de agregação para modelos de clientes.

4Capítulo 4

Feature Selection — quais features usar

Ter muitas features não é necessariamente melhor. Features irrelevantes adicionam ruído, aumentam risco de overfitting, incrementam custo computacional e dificultam interpretação. Feature selection é o processo de identificar quais features contribuem de fato para o poder preditivo.

Filter methods: avaliar relevância de cada feature independentemente do modelo — correlação com o target, informação mútua, teste chi-quadrado. Rápido, mas não captura interações entre features.

Wrapper methods: treinar o modelo com diferentes subsets de features e escolher o que maximiza performance — forward selection (adicionar features uma a uma), backward elimination (remover features uma a uma). Mais preciso mas computacionalmente custoso.

Embedded methods: feature importance calculada durante o treinamento do modelo — SHAP values, impurity importance em Random Forests, coeficientes regularizados (Lasso). O método mais prático para modelos baseados em árvores.

Variance Inflation Factor (VIF): detectar multicolinearidade — features altamente correlacionadas entre si que trazem informação redundante. Em modelos lineares, multicolinearidade distorce coeficientes.

5Capítulo 5

AutoML e feature engineering automático

Ferramentas de AutoML (H2O.ai, AutoGluon, Google AutoML, TPOT) automatizam parte do feature engineering — transformações automáticas, interações, embeddings. Para dados estruturados razoavelmente limpos, AutoML pode produzir modelos competitivos com menos trabalho manual.

Mas AutoML tem limites: não substitui o conhecimento de domínio que produz as features mais poderosas — aquelas que capturam insights de negócio que os dados brutos não expressam diretamente. O analista de crédito que sabe que "renda volátil nos últimos 6 meses" é mais preditivo de default do que renda média cria uma feature que nenhum AutoML vai descobrir automaticamente.

6Capítulo 6

Perspectiva Auspert

Feature engineering é onde o conhecimento de domínio se traduz em vantagem competitiva em ML — e por isso não é inteiramente automatizável. Times que entendem profundamente seu negócio (as dinâmicas de churn dos seus clientes, os padrões de fraude específicos do seu setor, os indicadores operacionais que precedem falha de equipamento) constroem features que modelos concorrentes não têm.

Para times de dados em PMEs, o investimento mais impactante frequentemente não é em algoritmos mais sofisticados — é em fechar o ciclo com as áreas de negócio para entender quais variáveis têm valor preditivo real. Um analista de crédito que explica os padrões que ele mesmo usa para avaliar risco está, indiretamente, fornecendo as features mais valiosas para o modelo de ML. Esse knowledge transfer entre domínio e engenharia de dados é o que separa modelos que funcionam em teoria de modelos que funcionam em produção.

Veja também

Estratégia

Definição

Por que feature engineering importa tanto

Features bem construídas:

Encapsulam conhecimento de domínio que o algoritmo não inferiria facilmente dos dados brutos
Reduzem a quantidade de dados necessária para aprender o padrão (o modelo não precisa descobrir o que já está explícito na feature)
Tornam o modelo mais robusto a variações nos dados (normalização, tratamento de outliers)
Permitem que modelos simples sejam competitivos com modelos complexos

As categorias de transformação

Transformações numéricas:

Normalização e padronização: colocar variáveis em escalas comparáveis. Normalização min-max (0 a 1), padronização z-score (média 0, desvio padrão 1). Essencial para algoritmos baseados em distância (KNN, SVM) e redes neurais; menos crítico para árvores de decisão.
Transformações de escala: log transform para variáveis com distribuição fortemente assimétrica (renda, volume de vendas, duração de sessão). Aproxima a distribuição da normal, reduz impacto de outliers extremos.
Binning: discretizar variável contínua em categorias (faixas de idade, faixas de renda). Útil quando a relação com o target é não-linear por partes.
Interações: produto ou razão de duas features. Renda / Número de dependentes captura capacidade de gasto per capita de forma que os dois valores separados não capturam.

Variáveis categóricas:

One-hot encoding: transformar categoria em N colunas binárias, uma por valor. "São Paulo", "Rio", "Belo Horizonte" → três colunas com 0 ou 1. Necessário para a maioria dos algoritmos que não lidam nativamente com categorias.
Ordinal encoding: codificar categorias com ordem natural em números (Baixo→1, Médio→2, Alto→3). Adequado quando a ordem é significativa.
Target encoding: substituir a categoria pela média do target para aquela categoria (calculada nos dados de treino). Muito poderoso para categorias de alta cardinalidade, mas com risco de data leakage se não implementado corretamente com cross-validation.
Embeddings: para categorias de alta cardinalidade (produto com milhares de SKUs, usuário com milhões de IDs), aprender representações densas via embedding — similar a word embeddings em NLP.

Features de tempo:

Extrair componentes de datetime: dia da semana, hora do dia, mês, trimestre, é feriado, dias até o fim do mês.
Criar features de lag: valor de uma métrica no período anterior (ontem, semana passada, mesmo dia do ano anterior). Essencial para séries temporais.
Janelas deslizantes (rolling windows): média dos últimos N períodos, desvio padrão, mínimo, máximo. Captura tendência e variabilidade.
Tempo desde um evento: dias desde a última compra, dias desde o cadastro, dias desde o último login.

Features de texto:

TF-IDF: frequência de termos ponderada por raridade no corpus. Transforma texto em vetor esparso.
Embeddings de texto: representação densa via modelo de linguagem. Captura semântica.
Features derivadas: comprimento do texto, número de palavras específicas, presença de negação, sentimento.

Features de agregação:

Para dados de clientes com múltiplas transações, agregar por cliente: número de compras, valor total, valor médio, recência da última compra, categorias compradas, frequência por canal.
RFM (Recência, Frequência, Valor Monetário) é um exemplo clássico de features de agregação para modelos de clientes.

Feature Selection — quais features usar

AutoML e feature engineering automático

Perspectiva Auspert

Feature Engineering

Definição

Por que feature engineering importa tanto

As categorias de transformação

Feature Selection — quais features usar

AutoML e feature engineering automático

Perspectiva Auspert

Planejamento Estratégico

Balanced Scorecard

Value Proposition

Feature Engineering

Definição

Por que feature engineering importa tanto

As categorias de transformação

Feature Selection — quais features usar

AutoML e feature engineering automático

Perspectiva Auspert

Planejamento Estratégico

Balanced Scorecard

Value Proposition