AI Hallucination: o que é, por que acontece, tipos e como mitigar

1Capítulo 1

Definição

Uma das descobertas mais desconcertantes sobre modelos de linguagem de grande escala é que eles mentem com confiança. Não por má intenção — o modelo não tem intenções — mas por uma razão estrutural: LLMs são sistemas de previsão de tokens, não de verificação de fatos. Quando o próximo token mais provável corresponde a algo factualmente incorreto, o modelo o gera com a mesma fluência e confiança de quando está correto.

AI Hallucination (alucinação de IA) é o fenômeno onde modelos de IA — especialmente LLMs — geram informações que parecem plausíveis e bem articuladas mas são factualmente incorretas, inventadas ou não verificáveis. O termo é metafórico: assim como alucinações humanas parecem completamente reais para quem as experimenta, outputs alucinados de modelos de IA parecem completamente razoáveis na superfície.

A implicação prática é profunda: sistemas de IA que parecem ter a resposta certa podem estar completamente errados, e sem mecanismos de verificação externos, é impossível saber apenas pelo tom e coerência da resposta.

2Capítulo 2

Por que LLMs alucinam — o mecanismo subjacente

A causa raiz de alucinações não é bug — é consequência da natureza de como LLMs funcionam.

LLMs são modelos de linguagem, não de conhecimento: foram treinados para prever qual token vem a seguir dado o contexto. O objetivo de treinamento é maximizar a probabilidade dos tokens no corpus de treinamento — não maximizar a precisão factual. Fluência e coerência são otimizadas diretamente; precisão factual é um efeito colateral do treinamento em texto com fatos.

Sem separação entre memória e geração: o modelo não tem uma "base de dados de fatos" separada do mecanismo de geração. Tudo o que sabe está implícito nos pesos da rede neural, aprendido de forma distribuída e não-localizável. Não há como o modelo "verificar" se um fato que está gerando é correto consultando uma fonte.

Pressão para responder: modelos treinados com RLHF para ser úteis e seguir instruções têm incentivo para responder — mesmo quando não há base no treinamento para a resposta. A alternativa ("não sei") foi penalizada durante o treinamento como menos útil.

Distribuição de treinamento vs. consulta: quando a pergunta é sobre algo sub-representado no corpus de treinamento (evento recente, pessoa pouco conhecida, detalhe técnico de nicho), o modelo gera texto com a distribuição de linguagem de assuntos relacionados — que pode ser plausível mas incorreta.

3Capítulo 3

Os tipos de alucinação

Alucinação factual: o modelo afirma um fato incorreto. A data errada de um evento histórico, o país errado de um cientista, o número errado de uma estatística. Frequentemente difícil de detectar porque o contexto ao redor é correto.

Alucinação de referências: o tipo mais documentado e problemático em contextos acadêmicos. O modelo inventa referências bibliográficas — título plausível, autor plausível, revista plausível, ano plausível — que não existem. Cada elemento é verossímil; a combinação não existe. Pesquisadores já publicaram artigos com referências inventadas por LLMs sem verificar.

Confabulação de detalhes: ao ser perguntado sobre detalhes de um assunto real, o modelo preenche lacunas com detalhes plausíveis mas inventados. "Qual foi o número exato de participantes no estudo X?" — se não está no treinamento, o modelo pode gerar um número específico confiante.

Alucinação de código: código gerado por LLMs pode chamar funções que não existem, usar APIs com parâmetros incorretos, ou referenciar bibliotecas com a sintaxe de outra versão. O código parece correto até ser executado.

Alucinação instrucional: o modelo ignora partes do contexto ou das instruções e gera output inconsistente com o que foi pedido. Mais frequente em contextos longos onde o modelo "esquece" instruções do início.

4Capítulo 4

Fatores que aumentam o risco de alucinação

Perguntas sobre eventos pós-corte de treinamento: o modelo não tem informação sobre o que aconteceu depois do cutoff date. Pode inventar eventos plausíveis em vez de admitir desconhecimento.

Perguntas muito específicas: quanto mais específico o detalhe pedido (datas exatas, números precisos, nomes específicos de pessoas pouco conhecidas), maior o risco. O modelo tem mais cobertura em assuntos amplos do que em detalhes granulares.

Domínios especializados: conhecimento de nicho altamente técnico, especialmente em subcampos recentes, é menos representado no treinamento. O modelo extrapola de conhecimento relacionado — com maior risco de erro.

Framing que pressiona por resposta: "Você tem certeza?" ou "Preciso de uma resposta definitiva" podem aumentar confiança declarada sem aumentar precisão real.

Contexto longo e complexo: em janelas de contexto muito longas, a probabilidade de o modelo perder o fio de informações específicas aumenta — levando a contradições e confabulações.

5Capítulo 5

Mitigações — o que funciona e o que não funciona

O que não funciona:

Pedir ao modelo para "verificar" suas respostas — o modelo não tem acesso a fontes externas e não pode realmente verificar o que gerou
Confiar em confiança expressa pelo modelo — tom assertivo não prediz precisão factual
Usar modelos maiores como garantia — modelos maiores alucinam menos em média, mas ainda alucinam

O que funciona:

RAG (Retrieval-Augmented Generation): ancorar o modelo em fontes verificáveis incluídas no contexto. O modelo não pode inventar fatos que contradizem os documentos fornecidos (embora ainda possa ignorar ou distorcer partes do contexto). A mitigação mais eficaz para alucinação factual em sistemas de produção.

Self-consistency: gerar múltiplas respostas independentes e verificar se são consistentes. Inconsistência entre respostas indica incerteza — pode sinalizar candidato a alucinação.

Prompt de incerteza explícita: instruir o modelo a dizer "não sei" ou "não tenho certeza" quando não tem base para a resposta. "Se não souber a resposta, diga explicitamente que não sabe em vez de adivinhar." Ajuda, mas não elimina.

Verificação humana para conteúdo crítico: em domínios onde precisão factual é crítica (jurídico, médico, financeiro, jornalismo), verificação humana por especialistas é necessária — não opcional. O LLM como rascunho, o especialista como verificador.

Grounding em citações: instruir o modelo a citar as fontes exatas para cada afirmação factual. Facilita a verificação e desincentiva alucinação de detalhes sem fonte.

6Capítulo 6

Alucinação em diferentes tipos de modelos

Modelos de geração de texto (LLMs): o caso mais discutido. Taxa de alucinação varia por modelo e tarefa. Modelos maiores e mais recentes alucinam menos em benchmarks, mas não zero.

Modelos de código: código pode referenciar funções não existentes ("hallucinated APIs"). Mais detectável porque código incorreto falha ao executar.

Modelos de visão (multimodais): podem descrever objetos que não estão na imagem, ou interpretar incorretamente o que está presente.

Modelos de raciocínio (o1, DeepSeek-R1): menor taxa de alucinação em raciocínio matemático e lógico, mas ainda alucinam em fatos factuais.

7Capítulo 7

Perspectiva Auspert

Alucinação é a razão mais importante para não usar LLMs como fonte primária de fatos em processos de negócio críticos sem mecanismos de verificação. O modelo não é mentiroso — é um sistema de geração de linguagem que às vezes gera coisas incorretas com a mesma fluência de quando está certo.

Para organizações que estão adotando LLMs, as aplicações mais seguras são aquelas onde o output é facilmente verificável (código que é executado e testado), onde o output é avaliado por especialistas antes de impactar decisões (rascunhos revisados), ou onde o sistema usa RAG com fontes verificáveis (chatbot que cita documentos da empresa). As mais arriscadas são aquelas onde o output vai diretamente para o usuário final sem revisão em domínios que exigem precisão factual.

A literacia de alucinação — entender que modelos alucinam, identificar quando o risco é alto, e saber como mitigar — é a habilidade mais crítica para qualquer profissional que usa IA generativa no trabalho. Mais do que saber prompting avançado.

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

Por que LLMs alucinam — o mecanismo subjacente

A causa raiz de alucinações não é bug — é consequência da natureza de como LLMs funcionam.

Os tipos de alucinação

Fatores que aumentam o risco de alucinação

Perguntas sobre eventos pós-corte de treinamento: o modelo não tem informação sobre o que aconteceu depois do cutoff date. Pode inventar eventos plausíveis em vez de admitir desconhecimento.

Framing que pressiona por resposta: "Você tem certeza?" ou "Preciso de uma resposta definitiva" podem aumentar confiança declarada sem aumentar precisão real.

Contexto longo e complexo: em janelas de contexto muito longas, a probabilidade de o modelo perder o fio de informações específicas aumenta — levando a contradições e confabulações.

Mitigações — o que funciona e o que não funciona

O que não funciona:

Pedir ao modelo para "verificar" suas respostas — o modelo não tem acesso a fontes externas e não pode realmente verificar o que gerou
Confiar em confiança expressa pelo modelo — tom assertivo não prediz precisão factual
Usar modelos maiores como garantia — modelos maiores alucinam menos em média, mas ainda alucinam

O que funciona:

Self-consistency: gerar múltiplas respostas independentes e verificar se são consistentes. Inconsistência entre respostas indica incerteza — pode sinalizar candidato a alucinação.

Grounding em citações: instruir o modelo a citar as fontes exatas para cada afirmação factual. Facilita a verificação e desincentiva alucinação de detalhes sem fonte.

Alucinação em diferentes tipos de modelos

Modelos de geração de texto (LLMs): o caso mais discutido. Taxa de alucinação varia por modelo e tarefa. Modelos maiores e mais recentes alucinam menos em benchmarks, mas não zero.

Modelos de código: código pode referenciar funções não existentes ("hallucinated APIs"). Mais detectável porque código incorreto falha ao executar.

Modelos de visão (multimodais): podem descrever objetos que não estão na imagem, ou interpretar incorretamente o que está presente.

Modelos de raciocínio (o1, DeepSeek-R1): menor taxa de alucinação em raciocínio matemático e lógico, mas ainda alucinam em fatos factuais.

Perspectiva Auspert