Modulo 3.7 - Pipelines e Orquestracao | Engenharia de Prompts 2.0

🏗️ Arquitetura de Pipelines

Um pipeline LLM e uma sequencia de etapas que transforma um input em output, passando por pre-processamento, chamada ao modelo, pos-processamento e validacao. Cada etapa e um modulo independente e testavel.

📋 Componentes de um Pipeline

Input

Receber e validar o input do usuario: sanitizacao, rate limiting, autenticacao

↓

Pre-proc

Enriquecer contexto: RAG retrieval, historico, dados do usuario, template de prompt

↓

LLM Call

Chamada ao modelo com prompt montado, parametros configurados, timeout definido

↓

Post-proc

Parsing de resposta, validacao de schema, output filtering, guardrails

↓

Output

Entregar resposta ao usuario ou proximo sistema, logging, metricas

💡 Design Patterns

Sequential: Etapas em sequencia, output de uma e input da proxima. Parallel: Etapas independentes rodam em paralelo e resultados sao agregados. Branching: Decisao condicional direciona para diferentes caminhos. Escolha pelo tipo de tarefa.

🔄 Orquestracao de LLMs

Em sistemas complexos, um unico LLM nao e suficiente. Voce pode usar multiplos modelos: um para classificar, outro para gerar, outro para avaliar. A orquestracao coordena esses modelos de forma eficiente.

Padroes de Roteamento

•Router: Classificador decide qual modelo especialista acionar
•Cascading: Tenta modelo barato primeiro; se falhar, escala para premium
•Ensemble: Multiplos modelos respondem e resultado e agregado
•Especialistas: Cada dominio tem seu modelo fine-tuned

A/B Testing de Modelos

•Split traffic: 80% modelo A, 20% modelo B
•Metricas: Comparar qualidade, latencia, custo
•Significancia: Volume minimo antes de decidir
•Rollout gradual: Aumentar trafego progressivamente

🎯 Exemplo: Pipeline de Atendimento

1. Classificador (modelo leve) → identifica intencao: "vendas", "suporte", "reclamacao"

2. Router → direciona para prompt especialista do dominio

3. Especialista (modelo robusto) → gera resposta com contexto do cliente

4. Validador (modelo leve) → verifica se resposta e segura e on-topic

🔁 Fallbacks e Retries

LLMs falham: rate limits, timeouts, respostas malformadas, modelos fora do ar. Resiliencia significa lidar com essas falhas de forma graceful, sem impactar o usuario.

🔧 Padroes de Resiliencia

Retry com Exponential Backoff:

Tentativa 1 → espera 1s → Tentativa 2 → espera 2s → Tentativa 3 → espera 4s

Max retries: 3 | Max wait: 30s | Jitter: random 0-500ms

Fallback entre Modelos:

Primary: Claude Opus → Fallback 1: Claude Sonnet → Fallback 2: resposta cached

Criterio: timeout > 10s OU erro 429/500 OU output invalido

Circuit Breaker:

Se > 50% das chamadas falham em 1 min → abre circuito → usa fallback direto

Apos 30s → tenta half-open → se ok, fecha circuito

🚨 Degradacao Graceful

Quando tudo falha, tenha um plano B que nao dependa do LLM: respostas pre-definidas para perguntas comuns, redirecionamento para atendente humano, ou mensagem honesta de "estou indisponivel no momento". Nunca deixe o usuario sem resposta.

👁️ Observabilidade

Observabilidade em pipelines LLM vai alem de logs basicos. Voce precisa rastrear cada etapa, medir latencia, monitorar qualidade e detectar anomalias em tempo real.

📊 Pilares da Observabilidade LLM

Logs e Traces

•Input/output de cada etapa do pipeline
•Trace ID para correlacionar etapas
•Latencia por etapa e total
•Tokens consumidos por chamada

Metricas e Alertas

•P50/P95/P99 de latencia
•Taxa de erro e tipos de falha
•Custo acumulado por hora/dia
•Score de qualidade medio (evals)

💡 Ferramentas de Observabilidade

LangSmith: Tracing nativo para LangChain com playground. Langfuse: Open-source, tracing + evals + analytics. Helicone: Proxy que loga e analisa chamadas. Phoenix (Arize): Tracing + evals com foco em debugging. Escolha pelo ecossistema e necessidade.

💰 Custo e Escala

Em escala, o custo de LLMs pode explodir rapidamente. Otimizar custo sem sacrificar qualidade e uma habilidade critica para sistemas de producao.

📋 Estrategias de Otimizacao de Custo

•Caching semantico: Cachear respostas para perguntas similares — reduz chamadas em 30-60%

•Model routing: Usar modelo barato para tarefas simples, premium so quando necessario

•Prompt optimization: Reduzir tokens do prompt sem perder qualidade — cada token conta

•Batch processing: Agrupar requisicoes para usar batch APIs com desconto (ate 50% mais barato)

•Rate limiting: Limitar chamadas por usuario para evitar abuso e custos inesperados

📊 Budget Management

Cost per query: Calcule o custo medio por interacao — meta: manter abaixo do limite de viabilidade
Budget caps: Defina limites diarios/mensais por projeto e alerte quando atingir 80%
Cost attribution: Rastreie custo por feature, por cliente, por equipe — saiba onde otimizar
Projecao: Extrapole custos atuais para o volume esperado em 3-6 meses — planeje antes de escalar

🧪 Exercicio: Pipeline Multi-Etapas

Construa um pipeline completo com 4 etapas: classificacao, roteamento, geracao e avaliacao. Voce vai projetar a arquitetura e implementar cada componente.

📋 Tarefa do Exercicio

Cenario: Pipeline de atendimento ao cliente com 3 dominios

(vendas, suporte tecnico, reclamacoes)

Etapa 1 — Classificacao:

Prompt que classifica a mensagem do cliente em um dos 3 dominios

Etapa 2 — Roteamento:

Logica que seleciona o system prompt especialista baseado na classificacao

Etapa 3 — Geracao:

Prompt especialista gera a resposta com tom e informacoes adequadas ao dominio

Etapa 4 — Avaliacao:

Prompt avaliador verifica se a resposta e segura, relevante e no tom correto

Teste com 5 mensagens de cliente (ao menos uma de cada dominio). Documente a arquitetura e os resultados.

📝 Resumo do Modulo

✓

Pipelines sao modulares — Input, pre-proc, LLM, post-proc, output como componentes independentes

✓

Orquestracao coordena modelos — Router, cascading, ensemble e especialistas

✓

Resiliencia e obrigatoria — Retries, fallbacks, circuit breaker, degradacao graceful

✓

Observabilidade total — Logs, traces, metricas e alertas em cada etapa

✓

Custo exige gestao ativa — Caching, model routing, batch, budget caps

Proximo Modulo:

3.8 — Projeto Final e Masterclass: integre tudo em um sistema completo de producao

← Modulo Anterior Proximo Modulo →