Verificando acesso...

MÓDULO 3.1

📚 Fluência Conceitual

Entenda LLM, RAG, agentes, MCPs e fine-tuning o suficiente pra conversar com TI e jurídico — sem se passar por engenheiro. Profundidade conceitual + linguagem clara.

1

🤖 LLM em 5 Minutos

LLM = modelo treinado pra prever próximo token. Não "raciocina" no sentido humano. Imita padrão estatístico de bilhões de textos. Claude, GPT, Gemini, Llama — todos seguem a mesma arquitetura base (Transformer, desde 2017).

Termos-chave que você precisa saber

  • Token: unidade básica (~4 caracteres em PT). Modelo gera token a token.
  • Context window: quantos tokens cabem na conversa. Claude 4: 1M; GPT-5: 400k; Gemini: 2M.
  • Temperature: 0-1. Baixa = determinístico; alta = criativo. Negócios usa 0-0.3.
  • Hallucination: modelo inventa fato com confiança. Vai acontecer; planeje.
  • System prompt: instrução base, separada da mensagem. Define persona/regra.
2

📚 RAG Explicado Pra Negócio

Retrieval-Augmented Generation: modelo busca em sua base de conhecimento (PDFs, wiki, BD) antes de responder. Reduz alucinação e ancora resposta em fonte verificável.

Quando indicar RAG

  • • Resposta exige fato corporativo (documento, política, contrato)
  • • Dado muda rápido (novidades regulatórias, preços)
  • • Necessita citação da fonte (jurídico, médico, financeiro)
  • • Volume de documento > context window do modelo

🏢 Caso global: Morgan Stanley

Wealth Management adotou GPT-4 + RAG sobre 100k documentos internos de pesquisa. Advisor faz pergunta, modelo responde com citação. Reduziu 70% do tempo de busca.

3

🤝 Agentes vs Assistentes

Assistente responde quando perguntado. Agente toma iniciativa: usa ferramentas, decide passos, executa loops. Claude Code, Devin, Operator são exemplos. 2026 é o ano dos agentes corporativos chegarem ao mainstream.

Assistente

  • • Espera input
  • • Responde 1 turno
  • • Sem ferramentas externas
  • • Stateless
  • • Custo previsível

Agente

  • • Recebe objetivo
  • • Planeja + executa N passos
  • • Usa tools (busca, código, API)
  • • Mantém estado/memória
  • • Custo variável (loop pode explodir)

⚠️ Limite atual dos agentes (2026)

Agentes ainda falham em tarefas com >15 passos sem supervisão. Anthropic Claude Code, Cognition Devin, OpenAI Operator — todos quebram em raciocínio longo. Vender autonomia total queima credibilidade.

4

🔌 MCP — O Protocolo Que Importa

Model Context Protocol (Anthropic, 2024). Padrão aberto pra ferramentas/dados conectarem a LLMs. Virou o "USB-C da IA". Adoção por Anthropic, OpenAI (final 2025), Google (2026). Saber o termo te diferencia.

Por que muda arquitetura

  • • Você não precisa codar integração pra cada ferramenta
  • • MCP server expõe ferramenta padronizada
  • • Cliente (Claude, GPT, etc) descobre e usa automaticamente
  • • Time TI mantém 1 contrato, não 50
  • • Substitui parcialmente APIs custom
5

🎓 Fine-tuning vs Prompting

Fine-tuning ajusta pesos do modelo com dados próprios. Prompting orienta com instrução. 90% dos casos: prompting + RAG resolve. Fine-tuning só pra estilo muito específico ou domínio extremamente técnico.

Quando vale fine-tuning

  • • Tom/estilo de marca muito específico (após RAG falhar)
  • • Domínio técnico com vocabulário hermético (médico, jurídico)
  • • Volume de dado > 1000 exemplos de qualidade
  • • ROI defensável (gasto R$ 50-200k em treino)

⚠️ Sinal de venda errada

Fornecedor que propõe fine-tuning como solução padrão sem antes tentar prompting + RAG está vendendo serviço caro desnecessário. Pergunte: "tentamos prompting estruturado primeiro?".

6

⚠️ Limitações Reais

LLM falha em casos previsíveis. Saber dizer "não, isso aqui não serve" é skill premium. Vender o impossível queima reputação em 1 projeto.

Onde LLM erra previsivelmente

  • Matemática complexa sem calculadora — 15.87 × 234.12 vira chute
  • Raciocínio multi-step longo — >10 passos perde fio
  • Dado em tempo real sem busca — knowledge cutoff é fixo
  • Decisão com responsabilidade legal direta — humano sempre revisa
  • Criatividade verdadeira — IA remixa, raramente inventa

🧪 Prompt — diagnóstico de arquitetura

Antes de aceitar proposta de fornecedor, use este prompt pra checar se a arquitetura faz sentido.

🇧🇷 Você é um arquiteto técnico de IA sênior. Vou descrever um projeto que um fornecedor propôs. Sua tarefa: 1. Identifique se a solução é overengineering (fine-tuning quando RAG bastaria) ou underengineering (prompt quando precisa RAG). 2. Sugira a arquitetura mínima viável que entrega o resultado. 3. Estime custo de implementação e operação mensal. 4. Liste 3 perguntas técnicas a fazer ao fornecedor. 5. Sinalize 1 red flag se aparecer (vendor lock-in, ausência de logging, etc.). Projeto proposto: [descrição] Volume esperado: [transações/mês, tamanho de dado] Sensibilidade: [LGPD, dados pessoais, decisão automatizada]
🇺🇸 You are a senior AI technical architect. I'll describe a project a vendor proposed. Your task: 1. Identify if the solution is overengineered (fine-tuning when RAG suffices) or underengineered. 2. Suggest the minimum viable architecture that delivers the result. 3. Estimate implementation cost and monthly run cost. 4. List 3 technical questions to ask the vendor. 5. Flag 1 red flag if present (vendor lock-in, missing logging, etc.). Proposed project: [description] Expected volume: [transactions/month, data size] Sensitivity: [PII, regulated decisions]

🎯 Resumo do Módulo

LLM prevê token, não raciocina — entender mecanismo evita expectativa errada.
RAG resolve 80% dos casos — antes de pensar em fine-tuning.
Agente ≠ assistente — limite atual é ~15 passos sem supervisão.
MCP é o USB-C da IA — padrão emergente, conheça o termo.
Fine-tuning raramente vale — sinal de venda errada quando proposto default.
Saber dizer "não serve" é premium — limites previsíveis evitam fracasso anunciado.

Próximo Módulo:

3.2 — Prompt engineering aplicado a negócio