System Prompts para Producao
3.2Tool Use e Function Calling
3.3RAG (Retrieval-Augmented Generation)
3.4Agentes de IA
3.5Guardrails e Seguranca
3.6Avaliacao Automatizada (Evals)
3.7Pipelines e Orquestracao
3.8Projeto Final e Masterclass
ποΈ System Prompts para Producao
Projete system prompts robustos, versionados e testados para aplicacoes reais em producao.
O system prompt e a instrucao persistente que define o comportamento global do modelo. Em producao, ele inclui identidade, capacidades, restricoes, formato padrao e regras de seguranca.
System prompts mal projetados causam inconsistencias em escala. Dominar sua anatomia garante comportamento previsivel em milhares de interacoes.
Secoes do system prompt (identidade, instrucoes, restricoes, formato), hierarquia de prioridade, separacao de responsabilidades entre system e user prompt.
Regras de seguranca escritas diretamente no system prompt: topicos proibidos, limites de acao, respostas padrao para situacoes de risco e instrucoes de fallback.
Em producao, o modelo interage com usuarios imprevisΓveis. Guardrails no system prompt sao a primeira linha de defesa contra uso indevido.
Instrucoes negativas eficazes, listas de topicos proibidos, respostas de recusa educadas, escalonamento para humanos, limites de escopo.
Pratica de manter versoes numeradas do system prompt com changelog, permitindo rollback, comparacao e auditoria de mudancas ao longo do tempo.
Sem versionamento, voce nao sabe qual versao do prompt causou um bug ou melhoria. Em producao, rastreabilidade e essencial.
Semantic versioning para prompts, git para prompts, changelog estruturado, tags de versao, ambiente de staging vs producao.
Conjunto de casos de teste que verificam se uma mudanca no system prompt nao quebrou comportamentos que antes funcionavam corretamente.
Cada ajuste no prompt pode ter efeitos colaterais. Testes de regressao detectam quebras antes que cheguem aos usuarios.
Suite de testes, casos de borda, golden datasets, comparacao automatica de saidas, threshold de aceitacao.
Padroes arquiteturais comprovados para system prompts em producao: modularizacao, templates parametrizados, composicao dinamica e injecao de contexto.
Patterns de producao evitam reinventar a roda e trazem solucoes testadas por equipes que ja operaram LLMs em escala.
Prompt modular, template com variaveis, composicao em runtime, feature flags para prompts, A/B testing de system prompts.
Exercicio pratico: criar um system prompt completo para um assistente de producao, incluindo identidade, guardrails, formato e testes de regressao.
A pratica integrada de todos os conceitos do modulo consolida o aprendizado e cria um artefato reutilizavel.
Projeto end-to-end, checklist de producao, documentacao do prompt, entrega com testes incluidos.
π§ Tool Use e Function Calling
Conecte LLMs a ferramentas externas: APIs, bancos de dados, calculadoras e sistemas reais.
Capacidade do LLM de identificar quando precisa de uma ferramenta externa, gerar a chamada correta e usar o resultado para compor a resposta final.
Tool use transforma o LLM de gerador de texto em agente capaz de interagir com o mundo real β consultar dados, executar acoes e acessar informacoes atualizadas.
Tool use vs texto puro, quando o modelo decide chamar uma ferramenta, ciclo request-tool-response, ferramentas como extensoes do modelo.
Especificacao formal da ferramenta usando JSON Schema: nome, descricao, parametros obrigatorios e opcionais, tipos de dados e valores permitidos.
Um schema bem definido determina se o modelo vai chamar a ferramenta corretamente. Schema ruim = chamadas erradas e erros em cascata.
JSON Schema, parametros required vs optional, tipos de dados, enums, descricoes de campos, validacao de schema.
Escrever descricoes claras e precisas de cada ferramenta e seus parametros, guiando o modelo sobre quando e como usa-las.
A descricao e o "prompt" da ferramenta β descricoes vagas fazem o modelo escolher a ferramenta errada ou passar parametros incorretos.
Descricao da funcao, descricao de parametros, exemplos de uso, quando usar vs quando nao usar, disambiguacao entre ferramentas.
Gerenciar chamadas a multiplas ferramentas em sequencia ou paralelo, passando resultados de uma como entrada de outra.
Tarefas complexas exigem multiplas ferramentas coordenadas. Saber orquestrar chamadas e essencial para agentes funcionais.
Chamadas sequenciais vs paralelas, passagem de contexto entre tools, limite de chamadas, loop de tool use.
Estrategias para lidar com falhas de ferramentas: timeouts, erros de API, respostas inesperadas e como instruir o modelo a reagir graciosamente.
Em producao, ferramentas falham. Sem tratamento de erros, o modelo alucina ou trava. Resiliencia e obrigatoria.
Retry com backoff, fallback gracioso, mensagens de erro amigaveis, logging de falhas, circuito breaker.
Exercicio pratico: definir o schema de uma ferramenta para uma API real, configurar o tool use e testar chamadas end-to-end.
A pratica com uma API real consolida todos os conceitos e revela desafios que so aparecem na implementacao.
Definicao de schema, teste de chamada, validacao de resposta, iteracao do schema baseada em erros.
π RAG (Retrieval-Augmented Generation)
Combine busca em documentos com geracao: respostas precisas baseadas em dados reais.
Arquitetura que busca informacoes relevantes em uma base de dados antes de gerar a resposta, fundamentando o modelo em dados reais em vez de depender apenas da memoria parametrica.
RAG reduz alucinacoes dramaticamente ao ancorar respostas em documentos verificaveis. E o padrao para aplicacoes empresariais com dados proprietarios.
Retrieve β Augment β Generate, base de conhecimento, contexto injetado, fundamentacao factual, memoria parametrica vs memoria externa.
Processo de dividir documentos em pedacos (chunks) e converter cada pedaco em vetores numericos (embeddings) que capturam o significado semantico.
A qualidade do chunking e dos embeddings determina a qualidade da busca. Chunks ruins = contexto irrelevante = respostas ruins.
Tamanho de chunk, overlap, estrategias de chunking (por paragrafo, por sentenca, recursivo), modelos de embedding, vector stores.
Busca por similaridade de significado (nao palavras exatas): a pergunta do usuario e convertida em vetor e comparada com os vetores dos chunks armazenados.
Busca semantica encontra informacoes relevantes mesmo quando o usuario usa palavras diferentes das do documento original.
Similaridade cosseno, top-k retrieval, re-ranking, busca hibrida (semantica + keyword), filtragem por metadados.
Tecnica de montar o prompt final inserindo os chunks recuperados como contexto, instruindo o modelo a basear a resposta exclusivamente nessas fontes.
A forma como voce injeta o contexto no prompt afeta drasticamente a qualidade. Instrucoes erradas fazem o modelo ignorar os documentos.
Template de RAG prompt, instrucao de fundamentacao, citacao de fontes, "responda apenas com base no contexto", delimitacao de contexto.
Metricas e metodos para avaliar a qualidade do RAG: a busca trouxe documentos relevantes? A resposta usou o contexto corretamente? Ha alucinacoes?
Sem avaliacao, voce nao sabe se o RAG esta funcionando. Metricas permitem identificar gargalos (busca ruim vs geracao ruim).
Faithfulness, relevance, recall da busca, precisao da resposta, RAGAS framework, avaliacao humana vs automatica.
Exercicio pratico: montar um pipeline RAG simples β chunkar documentos, gerar embeddings, buscar e gerar resposta fundamentada.
Construir um RAG do zero revela as decisoes de design e trade-offs que ferramentas prontas escondem.
Implementacao end-to-end, escolha de chunk size, teste com perguntas reais, iteracao baseada em resultados.
π€ Agentes de IA
Construa agentes autonomos que planejam, executam e iteram para resolver tarefas complexas.
Agentes sao sistemas onde o LLM decide quais acoes tomar, executa ferramentas, observa resultados e itera ate completar a tarefa β sem intervencao humana a cada passo.
Agentes representam o proximo passo alem de prompts simples: sistemas que resolvem problemas complexos de forma autonoma.
Agente vs chatbot, loop de acao-observacao, autonomia controlada, ReAct pattern, agente como orquestrador.
Ciclo onde o agente analisa a tarefa, cria um plano de passos, executa cada passo, avalia o resultado e ajusta o plano se necessario.
Agentes sem planejamento agem de forma caotica. O loop de planejamento traz ordem e previsibilidade as acoes autonomas.
Plan β Execute β Observe β Reflect, decomposicao de tarefas, re-planejamento, criterios de parada.
Mecanismos para o agente manter contexto entre acoes: memoria de curto prazo (conversa), memoria de longo prazo (banco de dados) e estado da tarefa.
Sem memoria, o agente repete acoes e perde contexto. Gerenciar memoria e essencial para tarefas que levam multiplos passos.
Scratchpad, memoria de trabalho, sumarizacao de historico, estado persistente, janela de contexto como limitador.
Arquitetura onde multiplos agentes especializados colaboram: um planeja, outro executa, outro revisa β cada um com seu system prompt e ferramentas.
Problemas complexos se beneficiam de divisao de trabalho entre agentes especializados, assim como equipes humanas.
Orquestrador + trabalhadores, comunicacao entre agentes, delegacao de tarefas, consenso, topologias de multi-agentes.
Guardrails especificos para agentes: limite de iteracoes, acoes permitidas, confirmacao humana para acoes criticas, sandbox de execucao.
Agentes autonomos podem causar danos reais se nao tiverem limites. Seguranca de agentes e uma responsabilidade critica.
Max iterations, lista de acoes permitidas, human-in-the-loop, principio do menor privilegio, logging de acoes.
Exercicio pratico: criar um agente com 3 ferramentas, loop de planejamento e limites de seguranca para resolver uma tarefa multi-passo.
Construir um agente do zero revela a complexidade real e ensina a equilibrar autonomia com controle.
System prompt de agente, definicao de ferramentas, loop de execucao, criterio de parada, teste end-to-end.
π‘οΈ Guardrails e Seguranca
Proteja suas aplicacoes com guardrails, filtros e defesas contra prompt injection.
Panorama das ameacas a aplicacoes com LLMs: prompt injection, data leakage, jailbreaking, alucinacoes maliciosas, abuso de ferramentas e engenharia social.
Voce nao pode se defender do que nao conhece. Mapear ameacas e o primeiro passo para construir defesas eficazes.
OWASP Top 10 para LLMs, superficie de ataque, vetor de ameaca, impacto vs probabilidade, modelo de ameacas.
Tecnica onde o usuario insere instrucoes maliciosas no input para fazer o modelo ignorar o system prompt e seguir comandos nao autorizados.
Prompt injection e a vulnerabilidade #1 em aplicacoes LLM. Toda aplicacao em producao precisa de defesas contra esse ataque.
Injection direto vs indireto, exemplos de ataque, separacao de dados e instrucoes, defesa em camadas, deteccao de injection.
Camada de verificacao que analisa a saida do modelo antes de entrega-la ao usuario, bloqueando conteudo perigoso, dados sensiveis ou respostas fora do escopo.
Mesmo com bons guardrails no prompt, o modelo pode gerar conteudo indesejado. Output filtering e a ultima linha de defesa.
Filtros regex, classificadores de conteudo, PII detection, blocklists, resposta de fallback quando filtro ativa.
Guardrails implementados em codigo (nao apenas no prompt): validacao de schema, rate limiting, logging, classificacao de input e sanitizacao de dados.
Guardrails no prompt podem ser burlados. Guardrails programaticos sao mais robustos e verificaveis.
Guardrails AI framework, NeMo Guardrails, validacao de entrada/saida, middleware de seguranca, defesa em profundidade.
Pratica de testar suas proprias defesas tentando burla-las: simular ataques de prompt injection, jailbreaking e abuso para encontrar vulnerabilidades.
Se voce nao testar suas defesas, atacantes reais vao. Red teaming proativo encontra falhas antes que causem danos.
Adversarial testing, catalogo de ataques, teste sistematico, report de vulnerabilidades, ciclo de melhoria de defesas.
Exercicio pratico: montar guardrails para um system prompt, depois tentar burla-los com 10 ataques diferentes e documentar os resultados.
A experiencia pratica de atacar e defender desenvolve a mentalidade de seguranca essencial para producao.
Catalogo de ataques, documentacao de resultados, taxa de sucesso de defesa, iteracao de guardrails.
π Avaliacao Automatizada (Evals)
Crie pipelines de avaliacao automatizada para medir e melhorar a qualidade sistematicamente.
Transicao de avaliacao manual (humano lendo cada saida) para avaliacao automatizada que roda em centenas de casos em segundos.
Avaliacao manual nao escala. Em producao, voce precisa testar cada mudanca de prompt contra centenas de casos automaticamente.
Avaliacao manual vs automatica, custo de avaliacao, velocidade de feedback, integracao com CI/CD.
Definicao de metricas quantitativas para avaliar saidas de LLM: acuracia, completude, formato correto, aderencia a instrucoes, ausencia de alucinacoes.
Sem metricas claras, "melhorou" e opiniao. Com metricas, e fato mensuravel que guia decisoes de produto.
Metricas de exatidao, metricas de formato, metricas de seguranca, agregacao de scores, threshold de aprovacao.
Tecnica de usar um LLM (geralmente mais capaz) para avaliar a saida de outro LLM, substituindo parcialmente avaliadores humanos com prompts de avaliacao bem projetados.
LLM-as-Judge escala avaliacao a custo baixo e correlaciona bem com avaliacao humana quando o prompt de julgamento e bem feito.
Prompt de avaliacao, rubrica para o juiz, calibracao com humanos, vieses do juiz, pairwise comparison.
Conjuntos curados de pares input-output esperado que servem como referencia para avaliar o desempenho do prompt em diversos cenarios.
A qualidade dos evals depende da qualidade do dataset. Golden datasets sao o padrao-ouro contra o qual voce mede tudo.
Golden dataset, diversidade de casos, edge cases incluidos, atualizacao do dataset, balanceamento de cenarios.
Pipeline automatizado onde cada mudanca no prompt dispara testes automaticos e, se aprovado, faz deploy para producao β igual a CI/CD de codigo.
CI/CD para prompts traz a mesma confianca que CI/CD trouxe para codigo: nenhuma mudanca vai para producao sem ser testada.
Pipeline de eval, gate de qualidade, rollback automatico, monitoramento pos-deploy, canary deployment para prompts.
Exercicio pratico: criar um dataset de teste, definir metricas, implementar LLM-as-Judge e rodar avaliacao automatizada em duas versoes de um prompt.
Montar um pipeline de evals do zero ensina todas as decisoes de design e prepara para implementar em projetos reais.
Dataset creation, prompt de juiz, execucao em batch, comparacao de versoes, report de resultados.
βοΈ Pipelines e Orquestracao
Conecte multiplos LLMs, ferramentas e etapas em pipelines robustos de producao.
Desenho de fluxos onde a saida de uma etapa alimenta a proxima: input β pre-processamento β LLM β pos-processamento β validacao β output.
Aplicacoes reais raramente usam um unico prompt. Pipelines permitem compor etapas especializadas em fluxos robustos.
Pipeline linear vs ramificado, etapas de transformacao, contrato entre etapas, diagramas de fluxo, composicao modular.
Coordenacao de multiplos LLMs em um fluxo: usar modelo rapido para triagem, modelo potente para geracao, modelo especializado para avaliacao.
Nem toda etapa precisa do modelo mais caro. Orquestrar modelos diferentes otimiza custo, latencia e qualidade.
Roteamento de modelos, modelo por etapa, cascading (modelo barato primeiro, caro se necessario), ensemble de modelos.
Estrategias para lidar com falhas em pipelines: retry com backoff exponencial, fallback para modelo alternativo, resposta padrao quando tudo falha.
APIs de LLM falham (rate limits, timeouts, erros). Pipelines sem fallback quebram em producao. Resiliencia e obrigatoria.
Retry strategy, exponential backoff, fallback chain, circuit breaker, graceful degradation, resposta cached.
Pratica de registrar e monitorar cada etapa do pipeline: inputs, outputs, latencia, tokens usados, erros e metricas de qualidade em tempo real.
Sem observabilidade, voce nao sabe o que esta acontecendo em producao. Quando algo quebra, precisa diagnosticar rapidamente.
Logging estruturado, tracing distribuido, dashboards, alertas, metricas de latencia e custo, ferramentas (LangSmith, Weights & Biases).
Estrategias para controlar custos e escalar pipelines: caching de respostas, batching, modelo certo por tarefa, otimizacao de tokens e pre-processamento.
Custo de LLM escala com uso. Sem otimizacao, a conta explode. Saber otimizar e diferencial para operar em escala.
Custo por request, caching semantico, batch processing, prompt compression, escolha de modelo por custo-beneficio.
Exercicio pratico: projetar e implementar um pipeline com 3+ etapas, fallback, logging e metricas de custo para uma tarefa real.
A implementacao pratica revela trade-offs entre simplicidade, robustez e custo que so aparecem na construcao real.
Design de pipeline, implementacao de etapas, teste integrado, medicao de custo e latencia, documentacao.
π Projeto Final e Masterclass
Integre tudo: projete, implemente e avalie um sistema completo de prompts em producao.
Documento que define o problema a resolver, requisitos funcionais e nao-funcionais, restricoes tecnicas e criterios de aceitacao do projeto final.
Todo projeto de producao comeca com um briefing claro. Saber interpretar e criar briefings e competencia profissional essencial.
Definicao de problema, requisitos SMART, restricoes de escopo, criterios de sucesso, stakeholders.
Fase de design onde voce define a arquitetura: quantos prompts, pipeline de etapas, ferramentas necessarias, modelo por etapa, guardrails e fluxo de dados.
Pular o design e ir direto para implementacao gera retrabalho. Um bom design economiza tempo e resulta em sistema mais robusto.
Diagrama de arquitetura, escolha de modelos, design de prompts, planejamento de guardrails, trade-offs documentados.
Fase de construcao: escrever os prompts, configurar ferramentas, montar o pipeline, integrar guardrails e conectar todas as partes do sistema.
A implementacao e onde a teoria encontra a realidade. Desafios praticos como latencia, formato e edge cases so aparecem aqui.
Desenvolvimento iterativo, prompt writing, integracao de componentes, teste unitario de cada etapa, versionamento.
Fase de teste do sistema integrado: evals automatizados, teste de edge cases, red teaming, teste de carga e validacao contra criterios de aceitacao.
Testes integrados revelam problemas que testes unitarios nao pegam. Validar o sistema completo e requisito para producao.
Teste end-to-end, suite de evals, red teaming, teste de performance, report de qualidade, go/no-go decision.
Processo de colocar o sistema em producao com monitoramento continuo: deploy gradual, alertas, dashboards e plano de rollback.
Deploy sem monitoramento e voar cego. Saber monitorar e reagir a problemas em producao e competencia critica.
Canary deploy, monitoramento de metricas, alertas automaticos, plano de rollback, post-mortem de incidentes.
Apresentacao do projeto final: decisoes de design, resultados dos evals, licoes aprendidas e proximos passos. Review por pares com feedback construtivo.
Apresentar e defender decisoes tecnicas e habilidade profissional. Feedback de pares revela pontos cegos e melhora o resultado.
Estrutura de apresentacao tecnica, metricas de sucesso, licoes aprendidas, feedback construtivo, portfolio profissional.