3.1 Fluência Conceitual | Profissional de IA 2030

🤖 LLM em 5 Minutos

LLM = modelo treinado pra prever próximo token. Não "raciocina" no sentido humano. Imita padrão estatístico de bilhões de textos. Claude, GPT, Gemini, Llama — todos seguem a mesma arquitetura base (Transformer, desde 2017).

Termos-chave que você precisa saber

• Token: unidade básica (~4 caracteres em PT). Modelo gera token a token.
• Context window: quantos tokens cabem na conversa. Claude 4: 1M; GPT-5: 400k; Gemini: 2M.
• Temperature: 0-1. Baixa = determinístico; alta = criativo. Negócios usa 0-0.3.
• Hallucination: modelo inventa fato com confiança. Vai acontecer; planeje.
• System prompt: instrução base, separada da mensagem. Define persona/regra.

📚 RAG Explicado Pra Negócio

Retrieval-Augmented Generation: modelo busca em sua base de conhecimento (PDFs, wiki, BD) antes de responder. Reduz alucinação e ancora resposta em fonte verificável.

Quando indicar RAG

• Resposta exige fato corporativo (documento, política, contrato)
• Dado muda rápido (novidades regulatórias, preços)
• Necessita citação da fonte (jurídico, médico, financeiro)
• Volume de documento > context window do modelo

🏢 Caso global: Morgan Stanley

Wealth Management adotou GPT-4 + RAG sobre 100k documentos internos de pesquisa. Advisor faz pergunta, modelo responde com citação. Reduziu 70% do tempo de busca.

🤝 Agentes vs Assistentes

Assistente responde quando perguntado. Agente toma iniciativa: usa ferramentas, decide passos, executa loops. Claude Code, Devin, Operator são exemplos. 2026 é o ano dos agentes corporativos chegarem ao mainstream.

Assistente

• Espera input
• Responde 1 turno
• Sem ferramentas externas
• Stateless
• Custo previsível

Agente

• Recebe objetivo
• Planeja + executa N passos
• Usa tools (busca, código, API)
• Mantém estado/memória
• Custo variável (loop pode explodir)

⚠️ Limite atual dos agentes (2026)

Agentes ainda falham em tarefas com >15 passos sem supervisão. Anthropic Claude Code, Cognition Devin, OpenAI Operator — todos quebram em raciocínio longo. Vender autonomia total queima credibilidade.

🔌 MCP — O Protocolo Que Importa

Model Context Protocol (Anthropic, 2024). Padrão aberto pra ferramentas/dados conectarem a LLMs. Virou o "USB-C da IA". Adoção por Anthropic, OpenAI (final 2025), Google (2026). Saber o termo te diferencia.

Por que muda arquitetura

• Você não precisa codar integração pra cada ferramenta
• MCP server expõe ferramenta padronizada
• Cliente (Claude, GPT, etc) descobre e usa automaticamente
• Time TI mantém 1 contrato, não 50
• Substitui parcialmente APIs custom

🎓 Fine-tuning vs Prompting

Fine-tuning ajusta pesos do modelo com dados próprios. Prompting orienta com instrução. 90% dos casos: prompting + RAG resolve. Fine-tuning só pra estilo muito específico ou domínio extremamente técnico.

Quando vale fine-tuning

• Tom/estilo de marca muito específico (após RAG falhar)
• Domínio técnico com vocabulário hermético (médico, jurídico)
• Volume de dado > 1000 exemplos de qualidade
• ROI defensável (gasto R$ 50-200k em treino)

⚠️ Sinal de venda errada

Fornecedor que propõe fine-tuning como solução padrão sem antes tentar prompting + RAG está vendendo serviço caro desnecessário. Pergunte: "tentamos prompting estruturado primeiro?".

⚠️ Limitações Reais

LLM falha em casos previsíveis. Saber dizer "não, isso aqui não serve" é skill premium. Vender o impossível queima reputação em 1 projeto.

Onde LLM erra previsivelmente

• Matemática complexa sem calculadora — 15.87 × 234.12 vira chute
• Raciocínio multi-step longo — >10 passos perde fio
• Dado em tempo real sem busca — knowledge cutoff é fixo
• Decisão com responsabilidade legal direta — humano sempre revisa
• Criatividade verdadeira — IA remixa, raramente inventa

🧪 Prompt — diagnóstico de arquitetura

Antes de aceitar proposta de fornecedor, use este prompt pra checar se a arquitetura faz sentido.

🇧🇷 Você é um arquiteto técnico de IA sênior. Vou descrever um projeto que um fornecedor propôs. Sua tarefa: 1. Identifique se a solução é overengineering (fine-tuning quando RAG bastaria) ou underengineering (prompt quando precisa RAG). 2. Sugira a arquitetura mínima viável que entrega o resultado. 3. Estime custo de implementação e operação mensal. 4. Liste 3 perguntas técnicas a fazer ao fornecedor. 5. Sinalize 1 red flag se aparecer (vendor lock-in, ausência de logging, etc.). Projeto proposto: [descrição] Volume esperado: [transações/mês, tamanho de dado] Sensibilidade: [LGPD, dados pessoais, decisão automatizada]

🇺🇸 You are a senior AI technical architect. I'll describe a project a vendor proposed. Your task: 1. Identify if the solution is overengineered (fine-tuning when RAG suffices) or underengineered. 2. Suggest the minimum viable architecture that delivers the result. 3. Estimate implementation cost and monthly run cost. 4. List 3 technical questions to ask the vendor. 5. Flag 1 red flag if present (vendor lock-in, missing logging, etc.). Proposed project: [description] Expected volume: [transactions/month, data size] Sensitivity: [PII, regulated decisions]

🎯 Resumo do Módulo

✓

LLM prevê token, não raciocina — entender mecanismo evita expectativa errada.

✓

RAG resolve 80% dos casos — antes de pensar em fine-tuning.

✓

Agente ≠ assistente — limite atual é ~15 passos sem supervisão.

✓

MCP é o USB-C da IA — padrão emergente, conheça o termo.

✓

Fine-tuning raramente vale — sinal de venda errada quando proposto default.

✓

Saber dizer "não serve" é premium — limites previsíveis evitam fracasso anunciado.

Próximo Módulo:

3.2 — Prompt engineering aplicado a negócio

← Voltar para Trilha Próximo Módulo →