๐๏ธ Arquitetura de Pipelines
Um pipeline LLM e uma sequencia de etapas que transforma um input em output, passando por pre-processamento, chamada ao modelo, pos-processamento e validacao. Cada etapa e um modulo independente e testavel.
๐ Componentes de um Pipeline
๐ก Design Patterns
Sequential: Etapas em sequencia, output de uma e input da proxima. Parallel: Etapas independentes rodam em paralelo e resultados sao agregados. Branching: Decisao condicional direciona para diferentes caminhos. Escolha pelo tipo de tarefa.
๐ Orquestracao de LLMs
Em sistemas complexos, um unico LLM nao e suficiente. Voce pode usar multiplos modelos: um para classificar, outro para gerar, outro para avaliar. A orquestracao coordena esses modelos de forma eficiente.
Padroes de Roteamento
- โขRouter: Classificador decide qual modelo especialista acionar
- โขCascading: Tenta modelo barato primeiro; se falhar, escala para premium
- โขEnsemble: Multiplos modelos respondem e resultado e agregado
- โขEspecialistas: Cada dominio tem seu modelo fine-tuned
A/B Testing de Modelos
- โขSplit traffic: 80% modelo A, 20% modelo B
- โขMetricas: Comparar qualidade, latencia, custo
- โขSignificancia: Volume minimo antes de decidir
- โขRollout gradual: Aumentar trafego progressivamente
๐ฏ Exemplo: Pipeline de Atendimento
1. Classificador (modelo leve) โ identifica intencao: "vendas", "suporte", "reclamacao"
2. Router โ direciona para prompt especialista do dominio
3. Especialista (modelo robusto) โ gera resposta com contexto do cliente
4. Validador (modelo leve) โ verifica se resposta e segura e on-topic
๐ Fallbacks e Retries
LLMs falham: rate limits, timeouts, respostas malformadas, modelos fora do ar. Resiliencia significa lidar com essas falhas de forma graceful, sem impactar o usuario.
๐ง Padroes de Resiliencia
Retry com Exponential Backoff:
Tentativa 1 โ espera 1s โ Tentativa 2 โ espera 2s โ Tentativa 3 โ espera 4s
Max retries: 3 | Max wait: 30s | Jitter: random 0-500ms
Fallback entre Modelos:
Primary: Claude Opus โ Fallback 1: Claude Sonnet โ Fallback 2: resposta cached
Criterio: timeout > 10s OU erro 429/500 OU output invalido
Circuit Breaker:
Se > 50% das chamadas falham em 1 min โ abre circuito โ usa fallback direto
Apos 30s โ tenta half-open โ se ok, fecha circuito
๐จ Degradacao Graceful
Quando tudo falha, tenha um plano B que nao dependa do LLM: respostas pre-definidas para perguntas comuns, redirecionamento para atendente humano, ou mensagem honesta de "estou indisponivel no momento". Nunca deixe o usuario sem resposta.
๐๏ธ Observabilidade
Observabilidade em pipelines LLM vai alem de logs basicos. Voce precisa rastrear cada etapa, medir latencia, monitorar qualidade e detectar anomalias em tempo real.
๐ Pilares da Observabilidade LLM
Logs e Traces
- โขInput/output de cada etapa do pipeline
- โขTrace ID para correlacionar etapas
- โขLatencia por etapa e total
- โขTokens consumidos por chamada
Metricas e Alertas
- โขP50/P95/P99 de latencia
- โขTaxa de erro e tipos de falha
- โขCusto acumulado por hora/dia
- โขScore de qualidade medio (evals)
๐ก Ferramentas de Observabilidade
LangSmith: Tracing nativo para LangChain com playground. Langfuse: Open-source, tracing + evals + analytics. Helicone: Proxy que loga e analisa chamadas. Phoenix (Arize): Tracing + evals com foco em debugging. Escolha pelo ecossistema e necessidade.
๐ฐ Custo e Escala
Em escala, o custo de LLMs pode explodir rapidamente. Otimizar custo sem sacrificar qualidade e uma habilidade critica para sistemas de producao.
๐ Estrategias de Otimizacao de Custo
๐ Budget Management
- Cost per query: Calcule o custo medio por interacao โ meta: manter abaixo do limite de viabilidade
- Budget caps: Defina limites diarios/mensais por projeto e alerte quando atingir 80%
- Cost attribution: Rastreie custo por feature, por cliente, por equipe โ saiba onde otimizar
- Projecao: Extrapole custos atuais para o volume esperado em 3-6 meses โ planeje antes de escalar
๐งช Exercicio: Pipeline Multi-Etapas
Construa um pipeline completo com 4 etapas: classificacao, roteamento, geracao e avaliacao. Voce vai projetar a arquitetura e implementar cada componente.
๐ Tarefa do Exercicio
Cenario: Pipeline de atendimento ao cliente com 3 dominios
(vendas, suporte tecnico, reclamacoes)
Etapa 1 โ Classificacao:
Prompt que classifica a mensagem do cliente em um dos 3 dominios
Etapa 2 โ Roteamento:
Logica que seleciona o system prompt especialista baseado na classificacao
Etapa 3 โ Geracao:
Prompt especialista gera a resposta com tom e informacoes adequadas ao dominio
Etapa 4 โ Avaliacao:
Prompt avaliador verifica se a resposta e segura, relevante e no tom correto
Teste com 5 mensagens de cliente (ao menos uma de cada dominio). Documente a arquitetura e os resultados.
๐ Resumo do Modulo
Proximo Modulo:
3.8 โ Projeto Final e Masterclass: integre tudo em um sistema completo de producao