Modulo 3.6 - Avaliacao Automatizada (Evals)

📊 Por que Automatizar Evals

Avaliacao manual nao escala. Quando voce tem dezenas de prompts em producao e cada um precisa ser testado com multiplos cenarios, a unica saida e automacao. Evals automatizados sao o "teste unitario" da engenharia de prompts.

📋 Limitacoes da Avaliacao Manual

✗Inconsistencia: Dois avaliadores podem discordar sobre a qualidade da mesma resposta
✗Velocidade: Avaliar 100 respostas manualmente leva horas; automatizado, segundos
✗Cobertura: E impossivel testar todos os edge cases manualmente a cada mudanca
✗Regressao: Sem evals automatizados, voce nao sabe se uma mudanca quebrou algo que funcionava

💡 ROI da Automacao

Investir em evals automatizados parece caro no inicio, mas o retorno e exponencial. Uma suite de 50 testes que roda em 2 minutos substitui horas de revisao manual e detecta regressoes que humanos perderiam. O custo de um bug em producao e sempre maior que o custo de um eval.

📏 Metricas e Criterios

Antes de avaliar, voce precisa definir o que medir. Metricas vagas como "qualidade" nao servem — voce precisa de criterios especificos, mensuraveis e relevantes para o caso de uso.

📊 Tipos de Metricas

Quantitativas

•Exatidao (match com golden answer)
•Latencia (tempo de resposta)
•Custo por query (tokens consumidos)
•Comprimento da resposta (dentro do range)

Qualitativas

•Relevancia (responde a pergunta?)
•Coerencia (logica e fluida?)
•Tom adequado (formal, casual?)
•Seguranca (sem conteudo proibido?)

⚖️ Metricas Compostas

Combine metricas com pesos para criar um score unico:

score_final = (

exatidao * 0.35 +

relevancia * 0.25 +

formato * 0.15 +

seguranca * 0.15 +

tom * 0.10

)

⚖️ LLM-as-Judge

A tecnica mais poderosa para evals qualitativos: usar um LLM como juiz para avaliar saidas de outro LLM. O juiz recebe uma rubrica e atribui scores de forma consistente e escalavel.

📋 Prompt de Juiz (Template)

Voce e um avaliador especialista.

Avalie a resposta abaixo usando esta rubrica:

- 5 (Excelente): Completa, precisa, bem formatada

- 4 (Bom): Correta com pequenas omissoes

- 3 (Adequado): Parcialmente correta, faltam detalhes

- 2 (Fraco): Erros significativos ou incompleta

- 1 (Ruim): Incorreta ou irrelevante

Pergunta: {pergunta}

Resposta: {resposta}

Output: JSON com score e justificativa

🚨 Cuidados com LLM-as-Judge

Vies de posicao: O juiz tende a preferir a primeira ou ultima opcao — randomize a ordem
Vies de verbosidade: Respostas mais longas tendem a receber scores maiores sem serem melhores
Calibracao: Valide o juiz contra avaliacoes humanas — busque agreement rate acima de 80%
Custo: Cada eval e uma chamada extra ao LLM — considere usar modelo menor como juiz

📁 Datasets de Teste

Evals sao tao bons quanto os dados de teste. Um dataset bem construido cobre o caminho feliz, edge cases, inputs adversariais e cenarios do mundo real.

Tipos de Casos de Teste

✓Golden set: Perguntas com respostas ideais conhecidas
✓Edge cases: Inputs ambiguos, muito longos, vazios
✓Adversariais: Tentativas de injection e jailbreak
✓Reais: Perguntas reais coletadas de usuarios

Boas Praticas

✓Tamanho minimo: 30-50 casos para significancia
✓Diversidade: Cobrir todos os cenarios de uso
✓Versionamento: Tratar como codigo (Git)
✓Manutencao: Atualizar quando o dominio muda

💡 Formato Recomendado

Armazene datasets em JSONL (uma linha JSON por caso): {"input": "...", "expected": "...", "tags": ["edge_case"], "metadata": {}}. Facil de versionar, filtrar e expandir.

🔄 CI/CD para Prompts

Integrar evals no pipeline de CI/CD garante que nenhuma mudanca em prompt vai para producao sem passar por testes automatizados. E o mesmo principio de software engineering aplicado a prompts.

🔧 Pipeline de CI/CD para Prompts

Commit — Desenvolvedor altera prompt ou system message no repositorio

Trigger — GitHub Actions detecta mudanca e inicia pipeline de evals

Run — Executa suite de testes: dataset completo + metricas definidas

Gate — Compara scores com thresholds minimos (ex: exatidao >= 0.85)

Report — Gera relatorio com diff de performance vs versao anterior

Deploy/Block — Aprova deploy se passou nos gates, bloqueia se regrediu

📊 Thresholds e Alertas

Hard gates: Score abaixo do minimo bloqueia o deploy automaticamente
Soft gates: Degradacao pequena gera alerta mas permite deploy com aprovacao manual
Trend alerts: Degradacao gradual ao longo de N deploys dispara investigacao
Rollback automatico: Se metricas em producao caem apos deploy, reverter para versao anterior

🧪 Exercicio: Pipeline de Evals

Construa um pipeline simples de avaliacao que testa um prompt com 10 casos de teste, calcula metricas e gera um relatorio. Voce vai vivenciar o ciclo completo de eval.

📋 Tarefa do Exercicio

Passo 1 — Dataset: Crie 10 casos de teste para um prompt de classificacao de sentimento

- 4 casos positivos, 3 negativos, 2 neutros, 1 ambiguo

- Cada caso: input + expected output + tags

Passo 2 — Metricas: Defina 3 metricas

- Exatidao: match com label esperado

- Formato: resposta no JSON correto

- Confianca: modelo indica nivel de certeza

Passo 3 — Automacao: Execute o prompt nos 10 casos e colete resultados

Passo 4 — Relatorio: Calcule scores e identifique padroes de falha

Use promptfoo ou um script simples em Python. O importante e o processo, nao a ferramenta.

📝 Resumo do Modulo

✓

Manual nao escala — Automacao e essencial para consistencia, velocidade e cobertura

✓

Metricas precisam ser especificas — Quantitativas + qualitativas com pesos definidos

✓

LLM-as-Judge e poderoso — Mas precisa de calibracao e cuidado com vieses

✓

Datasets bem construidos — Golden sets, edge cases, adversariais, versionados

✓

CI/CD para prompts — Gates, thresholds, reporting e rollback automatico

Proximo Modulo:

3.7 — Pipelines e Orquestracao: conecte multiplos LLMs e ferramentas em pipelines robustos

← Modulo Anterior Proximo Modulo →