Plataforma de IA empresarial: 7 lições técnicas para Agentes de IA em produção

RESUMO DO ARTIGO

Com base em mais de 1.500 implementações de Agentes de IA, a Pipefy mapeou as 7 decisões técnicas que sustentam uma plataforma de IA empresarial em produção: do prompt à curadoria de RAG, dos evals à governança do processo. Veja cada uma delas.

No Web Summit Rio 2026, o Product Manager que lidera o squad de Agentes de IA da Pipefy, Adrianno Esnarriaga, abriu a sua Masterclass com uma provocação importante: “hoje, eu quero acabar com o ‘hype’ de um monte de coisa que se fala sobre Agentes de IA”.

A provocação não é estilo. É consequência direta de um dado relevante que o MIT divulgou recentemente, no estudo GenAI Divide: 95% das iniciativas de IA Generativa nas empresas não geram receita.

No Pipefy, depois de mais de 1.500 implementações de Agentes de IA dentro da plataforma, a explicação que sustentamos com evidência não é sobre modelo, dado ou ferramenta, mas sobre ofício.

A diferença entre tirar um projeto de Agentes de IA do papel e fazê-lo durar em produção está em 7 decisões técnicas, lições que valem para qualquer plataforma de IA empresarial, mas que ficam visíveis apenas quando a operação real começa a expor o que prompt, demo e POC não exigem.

Neste artigo, vamos detalhar cada uma dessas lições com os antipadrões mais comuns observados em campo e com os princípios técnicos que sustentam Agentes de IA em produção.

O que 1.500 implementações ensinam sobre o ‘hype’ dos Agentes de IA

O paradoxo apontado pelo MIT não é um problema de tecnologia. Os modelos disponíveis hoje (Claude, GPT-5, Gemini, modelos open-weight ajustados) dão conta da maior parte dos casos de uso em IA e machine learning aplicados a processos de negócio. Os benchmarks acadêmicos refletem essa maturidade.

A diferença entre o que funciona no benchmark e o que funciona em uma operação real aparece em três frentes que o piloto raramente expõe:

1. Variabilidade de input

Em produção, o agente recebe contratos com cláusulas atípicas, planilhas com campos vazios, documentos mal escaneados, mensagens de WhatsApp com português coloquial. Nada disso parece com o conjunto de testes da POC.

2. Ruído humano

Operadores aprovam decisões erradas, corrigem decisões certas, criam exceções que viram regra silenciosamente. Sem feedback estruturado, esse ruído entra no agente como verdade.

3. Stack legado

ERPs, sistemas de RH, plataformas de seguros e soluções de TI que rodam há 15 anos não foram desenhadas para conversar com Agentes de IA. Eles precisam ser orquestrados, não substituídos.

Nada disso depende de um prompt melhor, mas de 7 decisões técnicas a seguir. Antes de detalhá-las, porém, vale demarcar uma fronteira que costuma ficar implícita nas discussões sobre Agentes de IA.

Variabilidade de input, ruído humano e stack legado são as três frentes que o piloto raramente expõe e que separam o benchmark da operação real

Da automação tradicional à plataforma de IA empresarial

A automação tradicional — RPA (Automação Robótica de Processos) clássica, scripts de integração — é determinística. Define-se a regra, o robô executa, o resultado é previsível. Funciona muito bem para tarefas repetitivas com inputs estruturados, e é exatamente por isso que toda solução de RPA para empresas madura acaba pedindo camadas mais inteligentes para lidar com o que não é determinístico.

Os Agentes de IA, por sua vez, são probabilísticos. Eles interpretam inputs variáveis, tomam decisões dentro de alçadas e produzem outputs que precisam ser avaliados. O time que migra de RPA para Agentes de IA sem mudar o framework de engenharia subestima essa transição, e o dado evidenciado pelo MIT corresponde, em grande parte, a organizações que continuaram raciocinando como se o agente fosse apenas “um RPA mais esperto”.

Uma plataforma de IA empresarial existe justamente para suportar essa diferença: ela orquestra processos com governança, conecta sistemas legados, embute regras de negócio em workflows auditáveis e permite que Agentes de IA para empresas operem com responsabilidade definida em cada etapa.

Reconhecer essa fronteira é o ponto de partida. As 7 decisões técnicas descritas a seguir são o ofício por trás dessa travessia, observadas em mais de 1.500 implementações no Pipefy, em ordem crescente de profundidade técnica — do prompt isolado ao desenho do processo.

As 7 lições técnicas da Pipefy para implementar Agentes de IA em produção

Cada um dos aprendizados a seguir nasce como antipadrão antes de virar prática. O que diferencia uma operação madura com Agentes de IA de uma operação que estagna é o intervalo entre observar a falha em campo e estruturar a solução técnica. Esse intervalo está documentado nas lições descritas abaixo:

1. O prompt é só o começo (e geralmente é onde o time estagna)

A primeira reação de qualquer time que começa com Agentes de IA é tratar prompt como produto. Como Esnarriaga cita na palestra do Web Summit Rio 2026, “obsessão com o prompt é apenas o começo” — e é onde a maioria estagna: o time investe semanas refinando texto, encontra um prompt que funciona em 80% dos casos da POC e declara vitória.

Em produção, o prompt isolado se torna um teto técnico. Quando a operação real entra, o time descobre que 80% do trabalho está fora do prompt: na curadoria do contexto, no controle de alçada, na arquitetura do workflow que entrega input limpo para o modelo.

O antipadrão mais comum é o prompt monolítico: aquele prompt de 4 mil tokens que tenta cobrir todos os casos, todas as exceções, todas as instruções. Ele funciona até o primeiro caso que não previu, e a tentativa de consertar o prompt adicionando “mais uma regrinha” só agrava o problema.

A lição é estrutural: prompt é ponto de partida, não destino. Quem trata prompt como teto técnico nunca chega à produção.

2. Sem curadoria, RAG vira ruído estruturado

A segunda decepção dos times que avançam é descobrir que RAG, por si só, não resolve nada. Os documentos da empresa sobem para um vector store, conectam-se ao agente e o resultado é vê-lo citando trechos errados, fontes desatualizadas ou fontes que parecem certas, mas estão fora de contexto.

Dado é o petróleo, mas você não roda carro com petróleo — você roda com gasolina. Ou seja, sem curadoria, a base de conhecimento da empresa é petróleo bruto.
Adrianno Esnarriaga
Product Manager – AI Agents | Pipefy

Curadoria significa decisão editorial sobre o que entra no RAG. Documentos duplicados ou vencidos, ou que descrevem processos que não existem mais, ou parecem certos, mas contradizem a política atual da empresa, são desconsiderados.

Vector stores não substituem curadoria, mas amplificam o que se decidiu que está dentro. Processamento Inteligente de Documentos (IDP) deixa de ser uma feature isolada e se torna um pré-requisito de qualquer RAG sério: é ele que extrai, classifica e valida o que de fato pode alimentar o agente.

3. Eval suites como “cinto de segurança”

Alucinação não é um detalhe técnico. É a razão número um pela qual operações com Agentes de IA são interrompidas depois de chegarem em produção.

Por exemplo, o agente cita uma fonte que não existe, atribui um valor que a cláusula não autoriza, afirma com confiança uma informação errada, enquanto o operador, sem ferramenta de checagem, ou acredita ou desliga o sistema.

O antipadrão é confiar em “feeling” para detectar alucinação. Funciona enquanto o volume é baixo, porém quebra no primeiro mês de produção real.

A lição é técnica: eval suites automatizadas são o cinto de segurança do agente em produção. Fact-checking automatizado, citação de fonte obrigatória, regressão semântica em casos críticos, comparação entre versões do mesmo agente sobre o mesmo input. Sem esse arsenal, a alucinação do agente pode travar o projeto inteiro.

Esse ângulo é técnico, não arquitetural: governança auditável é o trilho que a plataforma fornece. Eval suite é a engenharia que faz o agente individual merecer esse trilho.

Veja também: IA com governança: como a Pipefy garante IA auditável e confiável

4. O agente “faz tudo” não entrega nada com qualidade

O agente único que tenta resolver tudo funciona como demo, mas quebra como operação. Nas palavras de Esnarriaga, “quanto mais coisas você ‘joga’ num mesmo agente, mais ele se enrola e tropeça”.

O motivo é estrutural: cada nova responsabilidade adiciona contexto, contexto compete por atenção dentro do prompt, e a qualidade da decisão em cada tarefa cai.

O princípio que sustenta a plataforma de Agentes de IA do Pipefy é o oposto: agentes especializados, com responsabilidade única, conectados pelo processo. Um agente lê documento, outro classifica risco, outro escreve mensagem ao colaborador. Cada um faz uma coisa específica muito bem, e o workflow conecta o trabalho de todos.

Especialização não é luxo arquitetural. É a única forma de manter qualidade quando o volume escala.

5. TDD para Agentes de IA: LLM-as-judge como o eval que faltava

A indústria de software aprendeu há 20 anos que código sem teste automatizado quebra em produção. A curva com Agentes de IA está se repetindo, só que rápido demais para que muitos times percebam.

O antipadrão é deploy em produção sem uma única suite de eval automatizada. O time confia que o prompt está bom, o agente “parece funcionar”, e a primeira atualização do modelo base (feita pelo provedor, sem aviso) quebra o comportamento.

A lição é técnica: Test-Driven Development (TDD) para Agentes de IA significa construir uma suite de eval que rode antes de cada deploy, comparando a versão nova contra a baseline em um conjunto representativo de casos. LLM-as-judge entrou nesse jogo como peça central: usa-se um modelo confiável para julgar se o output do agente atende critérios pré-definidos, em escala.

Testar um agente é fundamentalmente diferente de testar um software determinístico ou RPA. O comportamento certo não é uma função do input, mas uma distribuição. Isso significa que o teste mudou, não que ele saiu de cena.

6. Human-in-the-Loop não é botão de aprovação, é gradiente de confiança

A maioria das implementações de Human-in-the-Loop (HITL) trava em um padrão binário: o agente faz, o humano aprova ou rejeita.

O antipadrão é a User Interface (UI) binária que nunca evolui. O operador aprova tudo manualmente no primeiro mês, no terceiro mês, no sexto mês, mas nada muda. O agente continua dependendo da aprovação humana para cada decisão, e o ROI não acontece, porque o trabalho humano não diminuiu.

A lição é de design técnico: HITL precisa ser um gradiente de confiança. No início, o operador valida 100% das decisões, e conforme o agente vai provando consistência em uma classe de casos, o checkpoint humano se concentra apenas nas exceções daquela classe. Aos poucos, a alçada do agente cresce, sem nunca sair do trilho governado.

É exatamente esse o desenho que sustenta a automação inteligente de processos em uma plataforma como o Pipefy: cada etapa do workflow define quem decide, e essa configuração evolui com a confiança documentada na operação.

Human-in-the-Loop como gradiente de confiança: o checkpoint humano se concentra nas exceções enquanto o agente expande sua alçada governada na operação

7. Agente sem processo nasce “desempregado”

A lição mais central, e que dá nome à tese da Masterclass, é também a mais negligenciada: “um agente sem processo nasce ‘desempregado’”.

A maioria das organizações começa pelo modelo: escolhe LLM, define prompt, conecta integração, e só depois se pergunta: “agora, qual processo isso resolve?”, o que leva o agente a nascer sem um destino claro e definido.

Uma plataforma de IA empresarial começa pelo processo. O workflow define onde a decisão acontece, quem é o responsável, qual é o SLA, quais são as exceções e o que a auditoria precisa registrar. O agente entra dentro desse trilho, com responsabilidade clara e alçada definida, por isso consegue durar em produção.

É essa inversão que diferencia a automação de processos com IA de simplesmente “liberar um agente para a operação”.

Quando aplicar cada lição (e onde os times costumam falhar)

Cada uma das 7 lições tem um sinal de alerta específico que aparece antes do problema escalar. Reconhecer esse sinal cedo é o que diferencia o time que ajusta o curso em semanas do que só percebe a falha quando o projeto já está em risco.

Lição	Sinal de que falta no seu projeto	Antipadrão típico observado
1. Prompt é só o começo	Cada caso de uso novo gera prompt do zero	Prompt monolítico de 4 mil tokens tentando cobrir tudo
2. Curadoria do RAG	Agente cita fonte “alucinada” ou irrelevante	Subir docs sem editoração para o vector store
3. Eval contra alucinação	Bugs só aparecem em produção	Validação manual aleatória, sem fact-checking automatizado
4. Especialização	“Um agente que faz tudo”	Diferentes atividades executadas por um mesmo agente
5. TDD para IA	Regressões surgem após cada atualização do modelo	Deploy sem suite de eval automatizada
6. HITL gradiente	Operador aprova tudo manualmente, mês após mês	UI binária aprovar/rejeitar, sem evolução de alçada
7. Processo como casa	Agente abandonado depois do go-live	Agente conectado a sistema, sem owner de processo

Puma: as 7 lições aplicadas no RH de uma marca global de varejo

As 7 lições não se limitam à teoria. Elas viraram a base do funcionamento de operações reais — e o case que melhor sustenta isso, hoje, é a Puma.

A Puma é uma marca global de artigos esportivos com mais de 500 colaboradores no Brasil, lojas de varejo, centros de distribuição e ciclos contínuos de contratação.

Antes do Pipefy, o RH lidava com 40 a 50 admissões mensais em um processo manual de 20 dias úteis, com validação de RG, CPF e comprovantes feita um a um. Os erros operacionais gerados no processo acabavam impactando diretamente na folha de pagamento, sob exigência do e-Social.

Com o Pipefy, o time estruturou um workflow de admissão de 21 dias, com réguas de comunicação diárias automatizadas e leitura e validação de documentos por Agentes de IA, com 90% de acurácia.

Fazendo um paralelo com as lições, percebemos como estão presentes no próprio desenho da solução:

Lição 1 (“prompt é só o começo”): a leitura documental não foi resolvida só por prompt, ela exigiu estruturação completa do workflow;
Lição 2 (curadoria) aparece na base centralizada de colaboradores, reutilizada em múltiplos processos;
Lição 4 (especialização) está no escopo bem definido do agente: ele lê documentos específicos (RG, CPF, comprovantes), não resolve todo o RH;
Lição 6 (HITL gradiente): em vez de o operador revisar todo documento que o agente processa, apenas os casos em que o próprio agente sinaliza baixa confiança chegam à revisão humana;
E a Lição 7 (processo como “casa”) é o próprio workflow de admissão: o agente vive dentro de um processo claro, com SLA por etapa e integração ao e-Social.

Os resultados quantificáveis sustentam esse desenho:

10 horas/mês economizadas em leitura de documentos;
Mais de 10.000 ações automatizadas em um ano;
10+ departamentos usando a plataforma;
E 29+ processos ativos, dos quais mais de 10 são dedicados ao RH.

Estamos muito contentes com o avanço dos processos e a eficiência que o Pipefy trouxe através das suas ferramentas. Hoje, ganhamos não só em produtividade, mas em horas de trabalho que dedicamos à melhoria contínua de outros fluxos.
Wanderson Andrade
P&O Payroll Analyst | Puma

Como o Pipefy traduz as 7 lições em uma plataforma de IA empresarial

Enquanto plataforma de IA empresarial, o Pipefy implementa Agentes de IA como parte da arquitetura dos processos, e nunca como recursos isolados.

Isso significa que os agentes nascem dentro de workflows governados, não soltos. Cada agente tem uma responsabilidade única, alçada definida e checkpoint humano configurável, evoluindo conforme a confiança documentada da operação.

A plataforma também conta com trilhas de auditoria embutidas por ação, controle de acesso por papel e flexibilidade de modelo (BYOLLM) desde o primeiro fluxo.

E como o processo é a “casa” do agente, o responsável pelo workflow define onde ele decide sozinho e onde encaminha para revisão humana, sem precisar reescrever código a cada ajuste.

Pipefy AI Report: O salto da Inteligência Artificial na América Latina

Para explicar como essas 7 lições se traduzem em uma estratégia de IA para a sua operação — e ver como Puma, Roca e Banco Sofisa aplicaram isso na prática —, preparamos um relatório exclusivo: “O salto da Inteligência Artificial na América Latina: o próximo ‘leapfrog’ pós-WhatsApp, PIX e Mobile Banking”.

Neste material, você verá com mais detalhes:

O paradoxo brasileiro em números e por que o Brasil é o 2º país que mais usa IA Generativa no mundo;
A janela LATAM dos próximos 12 a 18 meses e o que ela significa para empresas que operam no Brasil;
O degrau onde o valor da IA empresarial se perde e como atravessá-lo;
Cases reais com resultados documentados em RH, crédito e operações.

Faça download do material gratuitamente e descubra como transformar o ofício técnico das 7 lições em uma estratégia de IA empresarial pronta para a janela de oportunidade LATAM: