🤖 LLM em 5 Minutos
LLM = modelo treinado pra prever próximo token. Não "raciocina" no sentido humano. Imita padrão estatístico de bilhões de textos. Claude, GPT, Gemini, Llama — todos seguem a mesma arquitetura base (Transformer, desde 2017).
Termos-chave que você precisa saber
- • Token: unidade básica (~4 caracteres em PT). Modelo gera token a token.
- • Context window: quantos tokens cabem na conversa. Claude 4: 1M; GPT-5: 400k; Gemini: 2M.
- • Temperature: 0-1. Baixa = determinístico; alta = criativo. Negócios usa 0-0.3.
- • Hallucination: modelo inventa fato com confiança. Vai acontecer; planeje.
- • System prompt: instrução base, separada da mensagem. Define persona/regra.
📚 RAG Explicado Pra Negócio
Retrieval-Augmented Generation: modelo busca em sua base de conhecimento (PDFs, wiki, BD) antes de responder. Reduz alucinação e ancora resposta em fonte verificável.
Quando indicar RAG
- • Resposta exige fato corporativo (documento, política, contrato)
- • Dado muda rápido (novidades regulatórias, preços)
- • Necessita citação da fonte (jurídico, médico, financeiro)
- • Volume de documento > context window do modelo
🏢 Caso global: Morgan Stanley
Wealth Management adotou GPT-4 + RAG sobre 100k documentos internos de pesquisa. Advisor faz pergunta, modelo responde com citação. Reduziu 70% do tempo de busca.
🤝 Agentes vs Assistentes
Assistente responde quando perguntado. Agente toma iniciativa: usa ferramentas, decide passos, executa loops. Claude Code, Devin, Operator são exemplos. 2026 é o ano dos agentes corporativos chegarem ao mainstream.
Assistente
- • Espera input
- • Responde 1 turno
- • Sem ferramentas externas
- • Stateless
- • Custo previsível
Agente
- • Recebe objetivo
- • Planeja + executa N passos
- • Usa tools (busca, código, API)
- • Mantém estado/memória
- • Custo variável (loop pode explodir)
⚠️ Limite atual dos agentes (2026)
Agentes ainda falham em tarefas com >15 passos sem supervisão. Anthropic Claude Code, Cognition Devin, OpenAI Operator — todos quebram em raciocínio longo. Vender autonomia total queima credibilidade.
🔌 MCP — O Protocolo Que Importa
Model Context Protocol (Anthropic, 2024). Padrão aberto pra ferramentas/dados conectarem a LLMs. Virou o "USB-C da IA". Adoção por Anthropic, OpenAI (final 2025), Google (2026). Saber o termo te diferencia.
Por que muda arquitetura
- • Você não precisa codar integração pra cada ferramenta
- • MCP server expõe ferramenta padronizada
- • Cliente (Claude, GPT, etc) descobre e usa automaticamente
- • Time TI mantém 1 contrato, não 50
- • Substitui parcialmente APIs custom
🎓 Fine-tuning vs Prompting
Fine-tuning ajusta pesos do modelo com dados próprios. Prompting orienta com instrução. 90% dos casos: prompting + RAG resolve. Fine-tuning só pra estilo muito específico ou domínio extremamente técnico.
Quando vale fine-tuning
- • Tom/estilo de marca muito específico (após RAG falhar)
- • Domínio técnico com vocabulário hermético (médico, jurídico)
- • Volume de dado > 1000 exemplos de qualidade
- • ROI defensável (gasto R$ 50-200k em treino)
⚠️ Sinal de venda errada
Fornecedor que propõe fine-tuning como solução padrão sem antes tentar prompting + RAG está vendendo serviço caro desnecessário. Pergunte: "tentamos prompting estruturado primeiro?".
⚠️ Limitações Reais
LLM falha em casos previsíveis. Saber dizer "não, isso aqui não serve" é skill premium. Vender o impossível queima reputação em 1 projeto.
Onde LLM erra previsivelmente
- • Matemática complexa sem calculadora — 15.87 × 234.12 vira chute
- • Raciocínio multi-step longo — >10 passos perde fio
- • Dado em tempo real sem busca — knowledge cutoff é fixo
- • Decisão com responsabilidade legal direta — humano sempre revisa
- • Criatividade verdadeira — IA remixa, raramente inventa
🧪 Prompt — diagnóstico de arquitetura
Antes de aceitar proposta de fornecedor, use este prompt pra checar se a arquitetura faz sentido.
🎯 Resumo do Módulo
Próximo Módulo:
3.2 — Prompt engineering aplicado a negócio