Modulo 1.8 - Avaliacao e Qualidade | Engenharia de Prompts 2.0

📏 Criterios Objetivos vs Subjetivos

Criterios objetivos sao verificaveis por qualquer pessoa: "tem 5 itens", "esta em JSON", "nao excede 100 palavras". Criterios subjetivos dependem de interpretacao: "esta bom", "tom adequado". Priorize objetivos.

✓ Criterios Objetivos

✓Contagem: "exatamente 5 itens"
✓Presenca: "inclui titulo e CTA"
✓Formato: "JSON valido"
✓Tamanho: "max 200 palavras"

~ Criterios Subjetivos

~"Esta bom" (para quem?)
~"Tom adequado" (qual tom?)
~"Criativo" (comparado a que?)
~"Completo" (cobriu o que?)

💡 Como Objetificar Subjetivos

"Tom adequado" → "Sem girias, sem jargao, frases de max 20 palavras, usa 'voce' em vez de 'o usuario'". Transforme cada criterio subjetivo em 2-3 regras verificaveis.

📋 Rubrica de Avaliacao

Uma rubrica transforma avaliacao de "achismo" em processo sistematico. Use 5 dimensoes, escala 0-2 cada, meta de 7/10 ou mais para aprovar.

📊 Rubrica de Autoavaliacao (0-2 por item)

1. Clareza do Objetivo__/2

0 = vago/ausente | 1 = presente mas impreciso | 2 = especifico e mensuravel

2. Formato de Saida__/2

0 = nao definido | 1 = parcialmente definido | 2 = completo com campos e limites

3. Criterios Verificaveis__/2

0 = sem criterios | 1 = criterios vagos | 2 = criterios objetivos e checkaveis

4. Consistencia Interna__/2

0 = contradicoes | 1 = parcialmente alinhado | 2 = objetivo→requisitos→saida coerentes

5. Teste e Refinamento__/2

0 = nao testou | 1 = testou 1x | 2 = testou em facil+dificil e refinou

Meta: 7/10 ou mais para aprovar o prompt

🔍 Validacao de Formato

Validacao de formato e a verificacao mais simples e automatizavel: a saida veio no formato pedido? JSON e valido? Tem o numero certo de itens? Campos estao presentes?

✅ Checklist de Formato

•Tipo correto? Se pediu JSON, veio JSON parseavel? Se pediu tabela, veio com | e colunas?
•Quantidade correta? Pediu 5 itens, vieram 5? Nem 4, nem 6?
•Campos presentes? Todos os campos obrigatorios estao preenchidos?
•Limites respeitados? Maximo de palavras, tamanho de celula, profundidade?
•Sem lixo? Nao veio texto extra antes/depois do formato pedido?

📊 Automatizando Validacao

Para JSON, use um parser (JSON.parse em JS, json.loads em Python). Para contagens, use regex ou split. Para limites de palavras, conte com split(" ").length. Validacao automatica escala para pipelines.

⚖️ Consistencia entre Execucoes

Execute o mesmo prompt 3-5 vezes e compare os resultados. Um prompt bom gera saidas consistentes em estrutura e qualidade, mesmo que o conteudo varie ligeiramente.

🔄 O que Avaliar na Consistencia

•Estrutura: Sempre vem no mesmo formato? Mesma quantidade de itens?
•Tom: Mantem o mesmo nivel de formalidade?
•Qualidade: Nivel de profundidade similar? Nao oscila entre raso e profundo?
•Aderencia: Sempre respeita as restricoes? Ou as vezes ignora?

💡 Se a Consistencia e Baixa

Provavel que o prompt tem ambiguidade ou faltam restricoes. Adicione: formato explicito, exemplos (few-shot), e instrucoes mais detalhadas. Quanto mais especifico o prompt, mais consistente o resultado.

🏆 Criterios de Dominio

Como saber que voce domina os fundamentos de engenharia de prompts? Estes sao os indicadores de competencia que marcam a transicao de iniciante para praticante.

🏆 Voce Domina Fundamentos Quando:

✓Declara objetivo, formato e criterios em cada prompt — naturalmente, sem pensar
✓Testa o mesmo prompt em casos faceis e dificeis e refina conscientemente
✓Identifica ambiguidade em prompts de outros e sabe como corrigir
✓Tem uma biblioteca pessoal de prompts testados e versionados
✓Consegue explicar POR QUE um prompt funciona, nao apenas QUE funciona
✓Seus prompts sao reproduziveis — outros usam e obtem resultados similares

🧪 Exercicio Final: Avaliacao Completa

Exercicio final da trilha: avalie 3 prompts completos (seus e de outros) usando a rubrica e sugira melhorias concretas para cada um.

📋 Instrucoes do Exercicio Final

1.Escolha 1 prompt seu + 2 prompts de colegas ou encontrados online
2.Avalie cada um com a rubrica de 5 dimensoes (nota de 0-10)
3.Para cada dimensao abaixo de 2, escreva uma sugestao de melhoria concreta
4.Reescreva o prompt com nota mais baixa aplicando as melhorias
5.Teste a versao original vs melhorada e documente a diferenca

🎯 Entrega

Publique no GitHub Discussions com: prompt original, avaliacao (rubrica), prompt melhorado, comparacao de resultados, e o que voce aprendeu. Compartilhar consolida o aprendizado e ajuda outros.

🎓 Resumo do Modulo e Conclusao da Trilha

✓

Criterios objetivos > subjetivos — Contagens, presenca, formato, limites verificaveis

✓

Rubrica de 5 dimensoes — Clareza, formato, criterios, consistencia, teste. Meta: 7/10

✓

Validacao de formato e automatizavel — JSON parsing, contagem, presenca de campos

✓

Consistencia indica qualidade do prompt — Mesma entrada, resultados similares = prompt robusto

✓

Dominio = habito, nao decorar — Quando voce faz naturalmente, dominou

🎉 Trilha 1 Concluida!

Voce completou todos os 8 modulos de Fundamentos. Agora voce tem a base necessaria para criar prompts profissionais de forma sistematica.

Proxima trilha: Tecnicas — padroes avancados como Chain-of-Thought, Tree-of-Thought, meta-prompting e mais.

← Voltar para Trilha Trilha 2: Tecnicas →