MODULO 3.7

โš™๏ธ Pipelines e Orquestracao

Conecte multiplos LLMs, ferramentas e etapas em pipelines robustos de producao.

6
Topicos
30
Minutos
Avancado
Nivel
Arquitetura
Tipo
1

๐Ÿ—๏ธ Arquitetura de Pipelines

Um pipeline LLM e uma sequencia de etapas que transforma um input em output, passando por pre-processamento, chamada ao modelo, pos-processamento e validacao. Cada etapa e um modulo independente e testavel.

๐Ÿ“‹ Componentes de um Pipeline

Input
Receber e validar o input do usuario: sanitizacao, rate limiting, autenticacao
โ†“
Pre-proc
Enriquecer contexto: RAG retrieval, historico, dados do usuario, template de prompt
โ†“
LLM Call
Chamada ao modelo com prompt montado, parametros configurados, timeout definido
โ†“
Post-proc
Parsing de resposta, validacao de schema, output filtering, guardrails
โ†“
Output
Entregar resposta ao usuario ou proximo sistema, logging, metricas

๐Ÿ’ก Design Patterns

Sequential: Etapas em sequencia, output de uma e input da proxima. Parallel: Etapas independentes rodam em paralelo e resultados sao agregados. Branching: Decisao condicional direciona para diferentes caminhos. Escolha pelo tipo de tarefa.

2

๐Ÿ”„ Orquestracao de LLMs

Em sistemas complexos, um unico LLM nao e suficiente. Voce pode usar multiplos modelos: um para classificar, outro para gerar, outro para avaliar. A orquestracao coordena esses modelos de forma eficiente.

Padroes de Roteamento

  • โ€ขRouter: Classificador decide qual modelo especialista acionar
  • โ€ขCascading: Tenta modelo barato primeiro; se falhar, escala para premium
  • โ€ขEnsemble: Multiplos modelos respondem e resultado e agregado
  • โ€ขEspecialistas: Cada dominio tem seu modelo fine-tuned

A/B Testing de Modelos

  • โ€ขSplit traffic: 80% modelo A, 20% modelo B
  • โ€ขMetricas: Comparar qualidade, latencia, custo
  • โ€ขSignificancia: Volume minimo antes de decidir
  • โ€ขRollout gradual: Aumentar trafego progressivamente

๐ŸŽฏ Exemplo: Pipeline de Atendimento

1. Classificador (modelo leve) โ†’ identifica intencao: "vendas", "suporte", "reclamacao"

2. Router โ†’ direciona para prompt especialista do dominio

3. Especialista (modelo robusto) โ†’ gera resposta com contexto do cliente

4. Validador (modelo leve) โ†’ verifica se resposta e segura e on-topic

3

๐Ÿ” Fallbacks e Retries

LLMs falham: rate limits, timeouts, respostas malformadas, modelos fora do ar. Resiliencia significa lidar com essas falhas de forma graceful, sem impactar o usuario.

๐Ÿ”ง Padroes de Resiliencia

Retry com Exponential Backoff:

Tentativa 1 โ†’ espera 1s โ†’ Tentativa 2 โ†’ espera 2s โ†’ Tentativa 3 โ†’ espera 4s

Max retries: 3 | Max wait: 30s | Jitter: random 0-500ms

Fallback entre Modelos:

Primary: Claude Opus โ†’ Fallback 1: Claude Sonnet โ†’ Fallback 2: resposta cached

Criterio: timeout > 10s OU erro 429/500 OU output invalido

Circuit Breaker:

Se > 50% das chamadas falham em 1 min โ†’ abre circuito โ†’ usa fallback direto

Apos 30s โ†’ tenta half-open โ†’ se ok, fecha circuito

๐Ÿšจ Degradacao Graceful

Quando tudo falha, tenha um plano B que nao dependa do LLM: respostas pre-definidas para perguntas comuns, redirecionamento para atendente humano, ou mensagem honesta de "estou indisponivel no momento". Nunca deixe o usuario sem resposta.

4

๐Ÿ‘๏ธ Observabilidade

Observabilidade em pipelines LLM vai alem de logs basicos. Voce precisa rastrear cada etapa, medir latencia, monitorar qualidade e detectar anomalias em tempo real.

๐Ÿ“Š Pilares da Observabilidade LLM

Logs e Traces

  • โ€ขInput/output de cada etapa do pipeline
  • โ€ขTrace ID para correlacionar etapas
  • โ€ขLatencia por etapa e total
  • โ€ขTokens consumidos por chamada

Metricas e Alertas

  • โ€ขP50/P95/P99 de latencia
  • โ€ขTaxa de erro e tipos de falha
  • โ€ขCusto acumulado por hora/dia
  • โ€ขScore de qualidade medio (evals)

๐Ÿ’ก Ferramentas de Observabilidade

LangSmith: Tracing nativo para LangChain com playground. Langfuse: Open-source, tracing + evals + analytics. Helicone: Proxy que loga e analisa chamadas. Phoenix (Arize): Tracing + evals com foco em debugging. Escolha pelo ecossistema e necessidade.

5

๐Ÿ’ฐ Custo e Escala

Em escala, o custo de LLMs pode explodir rapidamente. Otimizar custo sem sacrificar qualidade e uma habilidade critica para sistemas de producao.

๐Ÿ“‹ Estrategias de Otimizacao de Custo

โ€ขCaching semantico: Cachear respostas para perguntas similares โ€” reduz chamadas em 30-60%
โ€ขModel routing: Usar modelo barato para tarefas simples, premium so quando necessario
โ€ขPrompt optimization: Reduzir tokens do prompt sem perder qualidade โ€” cada token conta
โ€ขBatch processing: Agrupar requisicoes para usar batch APIs com desconto (ate 50% mais barato)
โ€ขRate limiting: Limitar chamadas por usuario para evitar abuso e custos inesperados

๐Ÿ“Š Budget Management

  • Cost per query: Calcule o custo medio por interacao โ€” meta: manter abaixo do limite de viabilidade
  • Budget caps: Defina limites diarios/mensais por projeto e alerte quando atingir 80%
  • Cost attribution: Rastreie custo por feature, por cliente, por equipe โ€” saiba onde otimizar
  • Projecao: Extrapole custos atuais para o volume esperado em 3-6 meses โ€” planeje antes de escalar
6

๐Ÿงช Exercicio: Pipeline Multi-Etapas

Construa um pipeline completo com 4 etapas: classificacao, roteamento, geracao e avaliacao. Voce vai projetar a arquitetura e implementar cada componente.

๐Ÿ“‹ Tarefa do Exercicio

Cenario: Pipeline de atendimento ao cliente com 3 dominios

(vendas, suporte tecnico, reclamacoes)

Etapa 1 โ€” Classificacao:

Prompt que classifica a mensagem do cliente em um dos 3 dominios

Etapa 2 โ€” Roteamento:

Logica que seleciona o system prompt especialista baseado na classificacao

Etapa 3 โ€” Geracao:

Prompt especialista gera a resposta com tom e informacoes adequadas ao dominio

Etapa 4 โ€” Avaliacao:

Prompt avaliador verifica se a resposta e segura, relevante e no tom correto

Teste com 5 mensagens de cliente (ao menos uma de cada dominio). Documente a arquitetura e os resultados.

๐Ÿ“ Resumo do Modulo

โœ“
Pipelines sao modulares โ€” Input, pre-proc, LLM, post-proc, output como componentes independentes
โœ“
Orquestracao coordena modelos โ€” Router, cascading, ensemble e especialistas
โœ“
Resiliencia e obrigatoria โ€” Retries, fallbacks, circuit breaker, degradacao graceful
โœ“
Observabilidade total โ€” Logs, traces, metricas e alertas em cada etapa
โœ“
Custo exige gestao ativa โ€” Caching, model routing, batch, budget caps

Proximo Modulo:

3.8 โ€” Projeto Final e Masterclass: integre tudo em um sistema completo de producao