TRILHA 3

πŸš€ Engenharia de Prompts Avancada

Producao, agentes, RAG, guardrails e orquestracao. Leve seus prompts do laboratorio para sistemas reais em escala.

8
Modulos
48
Topicos
~4h
Duracao
Avancado
Nivel
3.1

System Prompts para Producao

3.2

Tool Use e Function Calling

3.3

RAG (Retrieval-Augmented Generation)

3.4

Agentes de IA

3.5

Guardrails e Seguranca

3.6

Avaliacao Automatizada (Evals)

3.7

Pipelines e Orquestracao

3.8

Projeto Final e Masterclass

Conteudo Detalhado
3.1 ~30 min

πŸ—οΈ System Prompts para Producao

Projete system prompts robustos, versionados e testados para aplicacoes reais em producao.

O que e:

O system prompt e a instrucao persistente que define o comportamento global do modelo. Em producao, ele inclui identidade, capacidades, restricoes, formato padrao e regras de seguranca.

Por que aprender:

System prompts mal projetados causam inconsistencias em escala. Dominar sua anatomia garante comportamento previsivel em milhares de interacoes.

Conceitos-chave:

Secoes do system prompt (identidade, instrucoes, restricoes, formato), hierarquia de prioridade, separacao de responsabilidades entre system e user prompt.

O que e:

Regras de seguranca escritas diretamente no system prompt: topicos proibidos, limites de acao, respostas padrao para situacoes de risco e instrucoes de fallback.

Por que aprender:

Em producao, o modelo interage com usuarios imprevisΓ­veis. Guardrails no system prompt sao a primeira linha de defesa contra uso indevido.

Conceitos-chave:

Instrucoes negativas eficazes, listas de topicos proibidos, respostas de recusa educadas, escalonamento para humanos, limites de escopo.

O que e:

Pratica de manter versoes numeradas do system prompt com changelog, permitindo rollback, comparacao e auditoria de mudancas ao longo do tempo.

Por que aprender:

Sem versionamento, voce nao sabe qual versao do prompt causou um bug ou melhoria. Em producao, rastreabilidade e essencial.

Conceitos-chave:

Semantic versioning para prompts, git para prompts, changelog estruturado, tags de versao, ambiente de staging vs producao.

O que e:

Conjunto de casos de teste que verificam se uma mudanca no system prompt nao quebrou comportamentos que antes funcionavam corretamente.

Por que aprender:

Cada ajuste no prompt pode ter efeitos colaterais. Testes de regressao detectam quebras antes que cheguem aos usuarios.

Conceitos-chave:

Suite de testes, casos de borda, golden datasets, comparacao automatica de saidas, threshold de aceitacao.

O que e:

Padroes arquiteturais comprovados para system prompts em producao: modularizacao, templates parametrizados, composicao dinamica e injecao de contexto.

Por que aprender:

Patterns de producao evitam reinventar a roda e trazem solucoes testadas por equipes que ja operaram LLMs em escala.

Conceitos-chave:

Prompt modular, template com variaveis, composicao em runtime, feature flags para prompts, A/B testing de system prompts.

O que e:

Exercicio pratico: criar um system prompt completo para um assistente de producao, incluindo identidade, guardrails, formato e testes de regressao.

Por que aprender:

A pratica integrada de todos os conceitos do modulo consolida o aprendizado e cria um artefato reutilizavel.

Conceitos-chave:

Projeto end-to-end, checklist de producao, documentacao do prompt, entrega com testes incluidos.

Ver Completo
3.2 ~30 min

πŸ”§ Tool Use e Function Calling

Conecte LLMs a ferramentas externas: APIs, bancos de dados, calculadoras e sistemas reais.

O que e:

Capacidade do LLM de identificar quando precisa de uma ferramenta externa, gerar a chamada correta e usar o resultado para compor a resposta final.

Por que aprender:

Tool use transforma o LLM de gerador de texto em agente capaz de interagir com o mundo real β€” consultar dados, executar acoes e acessar informacoes atualizadas.

Conceitos-chave:

Tool use vs texto puro, quando o modelo decide chamar uma ferramenta, ciclo request-tool-response, ferramentas como extensoes do modelo.

O que e:

Especificacao formal da ferramenta usando JSON Schema: nome, descricao, parametros obrigatorios e opcionais, tipos de dados e valores permitidos.

Por que aprender:

Um schema bem definido determina se o modelo vai chamar a ferramenta corretamente. Schema ruim = chamadas erradas e erros em cascata.

Conceitos-chave:

JSON Schema, parametros required vs optional, tipos de dados, enums, descricoes de campos, validacao de schema.

O que e:

Escrever descricoes claras e precisas de cada ferramenta e seus parametros, guiando o modelo sobre quando e como usa-las.

Por que aprender:

A descricao e o "prompt" da ferramenta β€” descricoes vagas fazem o modelo escolher a ferramenta errada ou passar parametros incorretos.

Conceitos-chave:

Descricao da funcao, descricao de parametros, exemplos de uso, quando usar vs quando nao usar, disambiguacao entre ferramentas.

O que e:

Gerenciar chamadas a multiplas ferramentas em sequencia ou paralelo, passando resultados de uma como entrada de outra.

Por que aprender:

Tarefas complexas exigem multiplas ferramentas coordenadas. Saber orquestrar chamadas e essencial para agentes funcionais.

Conceitos-chave:

Chamadas sequenciais vs paralelas, passagem de contexto entre tools, limite de chamadas, loop de tool use.

O que e:

Estrategias para lidar com falhas de ferramentas: timeouts, erros de API, respostas inesperadas e como instruir o modelo a reagir graciosamente.

Por que aprender:

Em producao, ferramentas falham. Sem tratamento de erros, o modelo alucina ou trava. Resiliencia e obrigatoria.

Conceitos-chave:

Retry com backoff, fallback gracioso, mensagens de erro amigaveis, logging de falhas, circuito breaker.

O que e:

Exercicio pratico: definir o schema de uma ferramenta para uma API real, configurar o tool use e testar chamadas end-to-end.

Por que aprender:

A pratica com uma API real consolida todos os conceitos e revela desafios que so aparecem na implementacao.

Conceitos-chave:

Definicao de schema, teste de chamada, validacao de resposta, iteracao do schema baseada em erros.

Ver Completo
3.3 ~30 min

πŸ“– RAG (Retrieval-Augmented Generation)

Combine busca em documentos com geracao: respostas precisas baseadas em dados reais.

O que e:

Arquitetura que busca informacoes relevantes em uma base de dados antes de gerar a resposta, fundamentando o modelo em dados reais em vez de depender apenas da memoria parametrica.

Por que aprender:

RAG reduz alucinacoes dramaticamente ao ancorar respostas em documentos verificaveis. E o padrao para aplicacoes empresariais com dados proprietarios.

Conceitos-chave:

Retrieve β†’ Augment β†’ Generate, base de conhecimento, contexto injetado, fundamentacao factual, memoria parametrica vs memoria externa.

O que e:

Processo de dividir documentos em pedacos (chunks) e converter cada pedaco em vetores numericos (embeddings) que capturam o significado semantico.

Por que aprender:

A qualidade do chunking e dos embeddings determina a qualidade da busca. Chunks ruins = contexto irrelevante = respostas ruins.

Conceitos-chave:

Tamanho de chunk, overlap, estrategias de chunking (por paragrafo, por sentenca, recursivo), modelos de embedding, vector stores.

O que e:

Busca por similaridade de significado (nao palavras exatas): a pergunta do usuario e convertida em vetor e comparada com os vetores dos chunks armazenados.

Por que aprender:

Busca semantica encontra informacoes relevantes mesmo quando o usuario usa palavras diferentes das do documento original.

Conceitos-chave:

Similaridade cosseno, top-k retrieval, re-ranking, busca hibrida (semantica + keyword), filtragem por metadados.

O que e:

Tecnica de montar o prompt final inserindo os chunks recuperados como contexto, instruindo o modelo a basear a resposta exclusivamente nessas fontes.

Por que aprender:

A forma como voce injeta o contexto no prompt afeta drasticamente a qualidade. Instrucoes erradas fazem o modelo ignorar os documentos.

Conceitos-chave:

Template de RAG prompt, instrucao de fundamentacao, citacao de fontes, "responda apenas com base no contexto", delimitacao de contexto.

O que e:

Metricas e metodos para avaliar a qualidade do RAG: a busca trouxe documentos relevantes? A resposta usou o contexto corretamente? Ha alucinacoes?

Por que aprender:

Sem avaliacao, voce nao sabe se o RAG esta funcionando. Metricas permitem identificar gargalos (busca ruim vs geracao ruim).

Conceitos-chave:

Faithfulness, relevance, recall da busca, precisao da resposta, RAGAS framework, avaliacao humana vs automatica.

O que e:

Exercicio pratico: montar um pipeline RAG simples β€” chunkar documentos, gerar embeddings, buscar e gerar resposta fundamentada.

Por que aprender:

Construir um RAG do zero revela as decisoes de design e trade-offs que ferramentas prontas escondem.

Conceitos-chave:

Implementacao end-to-end, escolha de chunk size, teste com perguntas reais, iteracao baseada em resultados.

Ver Completo
3.4 ~30 min

πŸ€– Agentes de IA

Construa agentes autonomos que planejam, executam e iteram para resolver tarefas complexas.

O que e:

Agentes sao sistemas onde o LLM decide quais acoes tomar, executa ferramentas, observa resultados e itera ate completar a tarefa β€” sem intervencao humana a cada passo.

Por que aprender:

Agentes representam o proximo passo alem de prompts simples: sistemas que resolvem problemas complexos de forma autonoma.

Conceitos-chave:

Agente vs chatbot, loop de acao-observacao, autonomia controlada, ReAct pattern, agente como orquestrador.

O que e:

Ciclo onde o agente analisa a tarefa, cria um plano de passos, executa cada passo, avalia o resultado e ajusta o plano se necessario.

Por que aprender:

Agentes sem planejamento agem de forma caotica. O loop de planejamento traz ordem e previsibilidade as acoes autonomas.

Conceitos-chave:

Plan β†’ Execute β†’ Observe β†’ Reflect, decomposicao de tarefas, re-planejamento, criterios de parada.

O que e:

Mecanismos para o agente manter contexto entre acoes: memoria de curto prazo (conversa), memoria de longo prazo (banco de dados) e estado da tarefa.

Por que aprender:

Sem memoria, o agente repete acoes e perde contexto. Gerenciar memoria e essencial para tarefas que levam multiplos passos.

Conceitos-chave:

Scratchpad, memoria de trabalho, sumarizacao de historico, estado persistente, janela de contexto como limitador.

O que e:

Arquitetura onde multiplos agentes especializados colaboram: um planeja, outro executa, outro revisa β€” cada um com seu system prompt e ferramentas.

Por que aprender:

Problemas complexos se beneficiam de divisao de trabalho entre agentes especializados, assim como equipes humanas.

Conceitos-chave:

Orquestrador + trabalhadores, comunicacao entre agentes, delegacao de tarefas, consenso, topologias de multi-agentes.

O que e:

Guardrails especificos para agentes: limite de iteracoes, acoes permitidas, confirmacao humana para acoes criticas, sandbox de execucao.

Por que aprender:

Agentes autonomos podem causar danos reais se nao tiverem limites. Seguranca de agentes e uma responsabilidade critica.

Conceitos-chave:

Max iterations, lista de acoes permitidas, human-in-the-loop, principio do menor privilegio, logging de acoes.

O que e:

Exercicio pratico: criar um agente com 3 ferramentas, loop de planejamento e limites de seguranca para resolver uma tarefa multi-passo.

Por que aprender:

Construir um agente do zero revela a complexidade real e ensina a equilibrar autonomia com controle.

Conceitos-chave:

System prompt de agente, definicao de ferramentas, loop de execucao, criterio de parada, teste end-to-end.

Ver Completo
3.5 ~30 min

πŸ›‘οΈ Guardrails e Seguranca

Proteja suas aplicacoes com guardrails, filtros e defesas contra prompt injection.

O que e:

Panorama das ameacas a aplicacoes com LLMs: prompt injection, data leakage, jailbreaking, alucinacoes maliciosas, abuso de ferramentas e engenharia social.

Por que aprender:

Voce nao pode se defender do que nao conhece. Mapear ameacas e o primeiro passo para construir defesas eficazes.

Conceitos-chave:

OWASP Top 10 para LLMs, superficie de ataque, vetor de ameaca, impacto vs probabilidade, modelo de ameacas.

O que e:

Tecnica onde o usuario insere instrucoes maliciosas no input para fazer o modelo ignorar o system prompt e seguir comandos nao autorizados.

Por que aprender:

Prompt injection e a vulnerabilidade #1 em aplicacoes LLM. Toda aplicacao em producao precisa de defesas contra esse ataque.

Conceitos-chave:

Injection direto vs indireto, exemplos de ataque, separacao de dados e instrucoes, defesa em camadas, deteccao de injection.

O que e:

Camada de verificacao que analisa a saida do modelo antes de entrega-la ao usuario, bloqueando conteudo perigoso, dados sensiveis ou respostas fora do escopo.

Por que aprender:

Mesmo com bons guardrails no prompt, o modelo pode gerar conteudo indesejado. Output filtering e a ultima linha de defesa.

Conceitos-chave:

Filtros regex, classificadores de conteudo, PII detection, blocklists, resposta de fallback quando filtro ativa.

O que e:

Guardrails implementados em codigo (nao apenas no prompt): validacao de schema, rate limiting, logging, classificacao de input e sanitizacao de dados.

Por que aprender:

Guardrails no prompt podem ser burlados. Guardrails programaticos sao mais robustos e verificaveis.

Conceitos-chave:

Guardrails AI framework, NeMo Guardrails, validacao de entrada/saida, middleware de seguranca, defesa em profundidade.

O que e:

Pratica de testar suas proprias defesas tentando burla-las: simular ataques de prompt injection, jailbreaking e abuso para encontrar vulnerabilidades.

Por que aprender:

Se voce nao testar suas defesas, atacantes reais vao. Red teaming proativo encontra falhas antes que causem danos.

Conceitos-chave:

Adversarial testing, catalogo de ataques, teste sistematico, report de vulnerabilidades, ciclo de melhoria de defesas.

O que e:

Exercicio pratico: montar guardrails para um system prompt, depois tentar burla-los com 10 ataques diferentes e documentar os resultados.

Por que aprender:

A experiencia pratica de atacar e defender desenvolve a mentalidade de seguranca essencial para producao.

Conceitos-chave:

Catalogo de ataques, documentacao de resultados, taxa de sucesso de defesa, iteracao de guardrails.

Ver Completo
3.6 ~30 min

πŸ“Š Avaliacao Automatizada (Evals)

Crie pipelines de avaliacao automatizada para medir e melhorar a qualidade sistematicamente.

O que e:

Transicao de avaliacao manual (humano lendo cada saida) para avaliacao automatizada que roda em centenas de casos em segundos.

Por que aprender:

Avaliacao manual nao escala. Em producao, voce precisa testar cada mudanca de prompt contra centenas de casos automaticamente.

Conceitos-chave:

Avaliacao manual vs automatica, custo de avaliacao, velocidade de feedback, integracao com CI/CD.

O que e:

Definicao de metricas quantitativas para avaliar saidas de LLM: acuracia, completude, formato correto, aderencia a instrucoes, ausencia de alucinacoes.

Por que aprender:

Sem metricas claras, "melhorou" e opiniao. Com metricas, e fato mensuravel que guia decisoes de produto.

Conceitos-chave:

Metricas de exatidao, metricas de formato, metricas de seguranca, agregacao de scores, threshold de aprovacao.

O que e:

Tecnica de usar um LLM (geralmente mais capaz) para avaliar a saida de outro LLM, substituindo parcialmente avaliadores humanos com prompts de avaliacao bem projetados.

Por que aprender:

LLM-as-Judge escala avaliacao a custo baixo e correlaciona bem com avaliacao humana quando o prompt de julgamento e bem feito.

Conceitos-chave:

Prompt de avaliacao, rubrica para o juiz, calibracao com humanos, vieses do juiz, pairwise comparison.

O que e:

Conjuntos curados de pares input-output esperado que servem como referencia para avaliar o desempenho do prompt em diversos cenarios.

Por que aprender:

A qualidade dos evals depende da qualidade do dataset. Golden datasets sao o padrao-ouro contra o qual voce mede tudo.

Conceitos-chave:

Golden dataset, diversidade de casos, edge cases incluidos, atualizacao do dataset, balanceamento de cenarios.

O que e:

Pipeline automatizado onde cada mudanca no prompt dispara testes automaticos e, se aprovado, faz deploy para producao β€” igual a CI/CD de codigo.

Por que aprender:

CI/CD para prompts traz a mesma confianca que CI/CD trouxe para codigo: nenhuma mudanca vai para producao sem ser testada.

Conceitos-chave:

Pipeline de eval, gate de qualidade, rollback automatico, monitoramento pos-deploy, canary deployment para prompts.

O que e:

Exercicio pratico: criar um dataset de teste, definir metricas, implementar LLM-as-Judge e rodar avaliacao automatizada em duas versoes de um prompt.

Por que aprender:

Montar um pipeline de evals do zero ensina todas as decisoes de design e prepara para implementar em projetos reais.

Conceitos-chave:

Dataset creation, prompt de juiz, execucao em batch, comparacao de versoes, report de resultados.

Ver Completo
3.7 ~30 min

βš™οΈ Pipelines e Orquestracao

Conecte multiplos LLMs, ferramentas e etapas em pipelines robustos de producao.

O que e:

Desenho de fluxos onde a saida de uma etapa alimenta a proxima: input β†’ pre-processamento β†’ LLM β†’ pos-processamento β†’ validacao β†’ output.

Por que aprender:

Aplicacoes reais raramente usam um unico prompt. Pipelines permitem compor etapas especializadas em fluxos robustos.

Conceitos-chave:

Pipeline linear vs ramificado, etapas de transformacao, contrato entre etapas, diagramas de fluxo, composicao modular.

O que e:

Coordenacao de multiplos LLMs em um fluxo: usar modelo rapido para triagem, modelo potente para geracao, modelo especializado para avaliacao.

Por que aprender:

Nem toda etapa precisa do modelo mais caro. Orquestrar modelos diferentes otimiza custo, latencia e qualidade.

Conceitos-chave:

Roteamento de modelos, modelo por etapa, cascading (modelo barato primeiro, caro se necessario), ensemble de modelos.

O que e:

Estrategias para lidar com falhas em pipelines: retry com backoff exponencial, fallback para modelo alternativo, resposta padrao quando tudo falha.

Por que aprender:

APIs de LLM falham (rate limits, timeouts, erros). Pipelines sem fallback quebram em producao. Resiliencia e obrigatoria.

Conceitos-chave:

Retry strategy, exponential backoff, fallback chain, circuit breaker, graceful degradation, resposta cached.

O que e:

Pratica de registrar e monitorar cada etapa do pipeline: inputs, outputs, latencia, tokens usados, erros e metricas de qualidade em tempo real.

Por que aprender:

Sem observabilidade, voce nao sabe o que esta acontecendo em producao. Quando algo quebra, precisa diagnosticar rapidamente.

Conceitos-chave:

Logging estruturado, tracing distribuido, dashboards, alertas, metricas de latencia e custo, ferramentas (LangSmith, Weights & Biases).

O que e:

Estrategias para controlar custos e escalar pipelines: caching de respostas, batching, modelo certo por tarefa, otimizacao de tokens e pre-processamento.

Por que aprender:

Custo de LLM escala com uso. Sem otimizacao, a conta explode. Saber otimizar e diferencial para operar em escala.

Conceitos-chave:

Custo por request, caching semantico, batch processing, prompt compression, escolha de modelo por custo-beneficio.

O que e:

Exercicio pratico: projetar e implementar um pipeline com 3+ etapas, fallback, logging e metricas de custo para uma tarefa real.

Por que aprender:

A implementacao pratica revela trade-offs entre simplicidade, robustez e custo que so aparecem na construcao real.

Conceitos-chave:

Design de pipeline, implementacao de etapas, teste integrado, medicao de custo e latencia, documentacao.

Ver Completo
3.8 ~30 min

πŸŽ“ Projeto Final e Masterclass

Integre tudo: projete, implemente e avalie um sistema completo de prompts em producao.

O que e:

Documento que define o problema a resolver, requisitos funcionais e nao-funcionais, restricoes tecnicas e criterios de aceitacao do projeto final.

Por que aprender:

Todo projeto de producao comeca com um briefing claro. Saber interpretar e criar briefings e competencia profissional essencial.

Conceitos-chave:

Definicao de problema, requisitos SMART, restricoes de escopo, criterios de sucesso, stakeholders.

O que e:

Fase de design onde voce define a arquitetura: quantos prompts, pipeline de etapas, ferramentas necessarias, modelo por etapa, guardrails e fluxo de dados.

Por que aprender:

Pular o design e ir direto para implementacao gera retrabalho. Um bom design economiza tempo e resulta em sistema mais robusto.

Conceitos-chave:

Diagrama de arquitetura, escolha de modelos, design de prompts, planejamento de guardrails, trade-offs documentados.

O que e:

Fase de construcao: escrever os prompts, configurar ferramentas, montar o pipeline, integrar guardrails e conectar todas as partes do sistema.

Por que aprender:

A implementacao e onde a teoria encontra a realidade. Desafios praticos como latencia, formato e edge cases so aparecem aqui.

Conceitos-chave:

Desenvolvimento iterativo, prompt writing, integracao de componentes, teste unitario de cada etapa, versionamento.

O que e:

Fase de teste do sistema integrado: evals automatizados, teste de edge cases, red teaming, teste de carga e validacao contra criterios de aceitacao.

Por que aprender:

Testes integrados revelam problemas que testes unitarios nao pegam. Validar o sistema completo e requisito para producao.

Conceitos-chave:

Teste end-to-end, suite de evals, red teaming, teste de performance, report de qualidade, go/no-go decision.

O que e:

Processo de colocar o sistema em producao com monitoramento continuo: deploy gradual, alertas, dashboards e plano de rollback.

Por que aprender:

Deploy sem monitoramento e voar cego. Saber monitorar e reagir a problemas em producao e competencia critica.

Conceitos-chave:

Canary deploy, monitoramento de metricas, alertas automaticos, plano de rollback, post-mortem de incidentes.

O que e:

Apresentacao do projeto final: decisoes de design, resultados dos evals, licoes aprendidas e proximos passos. Review por pares com feedback construtivo.

Por que aprender:

Apresentar e defender decisoes tecnicas e habilidade profissional. Feedback de pares revela pontos cegos e melhora o resultado.

Conceitos-chave:

Estrutura de apresentacao tecnica, metricas de sucesso, licoes aprendidas, feedback construtivo, portfolio profissional.

Ver Completo
← Trilha Anterior: Tecnicas Voltar ao Inicio β†’