Compliance legacy vs AI-native: como fomos de 35 pessoas a 5 + agentes
Reconstruimos o stack de compliance em torno de agentes. Fomos de 35 pessoas para 5 + agentes com o mesmo output. Aqui está a arquitetura.
A versão curta: reconstruímos nosso stack de compliance em torno de agentes de IA. Fomos de 35 pessoas revisando alertas manualmente para 5 pessoas mais agentes entregando o mesmo output. A mesma cobertura, a mesma postura regulatória, uma fração do headcount. Esse é um post de engenharia, não de vendas. Quero explicar como o stack está cabeado, o que é de fato o compliance legacy, e o que aprendemos no caminho.
Escrevo isso da cadeira de CTO na Gu1. Nós shipamos infraestrutura de compliance AI-native para fintechs da América Latina. KYC, AML e KYT em uma única API. 54 clientes ativos entre Brasil, México, Argentina e Colômbia. Nosso time de compliance antes se parecia com o de qualquer fintech do mercado. Não se parece mais.
O que é de fato compliance legacy#
Se você nunca trabalhou dentro de um banco ou de uma fintech, "compliance" pode soar abstrato. Não é. É um modelo operacional muito específico. Tire o jargão e ele fica assim.
Um time de analistas sentado em frente a uma fila. A fila é alimentada por um motor de regras. O motor de regras lê cada transação, cada usuário novo, cada documento, e faz uma série de perguntas que alguém escreveu num doc de specs. Perguntas como:
- Se o valor da transação > X e país = Y e padrão = Z, sinalize.
- Se o score do documento do usuário < threshold, segura o onboarding.
- Se o nome da contraparte der fuzzy-match numa lista de sanções, escale.
As regras são estáticas. Um humano escreveu. Um humano mantém. Um novo padrão de fraude aparece, alguém abre um ticket, a engenharia sobe uma regra nova, QA revisa, deploy, e a fila começa a pegar. Ou não pega. O loop é lento porque tem humano em cada passo dele.
Cada analista limpa entre 50 e 100 alertas por dia. Se o negócio cresce, você contrata mais analistas. A conta é linear. Dobra o tráfego, dobra o time. Não tem alavanca nesse modelo.
As taxas de falso positivo em sistemas legacy de compliance chegam a 98% em vários estudos publicados do setor.
Lê de novo. 98 de cada 100 alertas que um sistema legacy gera são ruído. O analista clica em 98 falsos positivos pra pegar 2 reais. Isso não é rumor. Está documentado em várias pesquisas de compliance-tech entre 2024 e 2025. O imposto de produtividade é enorme e ele acumula.
O onboarding sob esse modelo leva de 3 a 7 dias nos tiers de risco mais alto. Não é porque a verificação em si leva dias. É porque o alerta fica na fila esperando um humano olhar. O usuário não liga pra sua fila. Ele vai embora.
O que "AI-native" de fato significa (não é marketing)#
"AI-native" é uma frase carregada. Todo vendor legacy do espaço hoje tem uma página de IA no site. Quero ser específico sobre o que a gente quer dizer.
AI-native, pra gente, significa quatro coisas.
Primeiro, modelos aprendem padrões em vez de humanos escreverem regras. Não mantemos um livro de regras de 4.000 linhas. Treinamos e re-treinamos modelos em dados regionais rotulados. Quando a distribuição muda, o modelo muda. Quando o drift passa do limite, a monitoração captura e a gente re-treina.
Segundo, a inferência roda em cada transação em tempo real. Não é batch. Não é um relatório noturno. A decisão volta no mesmo request que disparou. Se um usuário manda dinheiro às 2:03 da manhã de um dispositivo novo num país novo, a decisão cai antes da UI terminar o loading spinner.
Terceiro, os falsos positivos ficam abaixo de 5%. Esse é nosso target empírico, não um claim de marketing. Quando a gente estoura num cliente específico, é incidente e a gente trata como incidente. Modelo que grita lobo não é mais barato que regra. É só mais rápido pra fazer o analista perder tempo.
Quarto, e esse é o que importa pra unit economics: o stack escala com compute, não com headcount. A gente adiciona capacidade provisionando GPUs e ajustando batch sizes, não postando vagas. Se um cliente multiplica o tráfego por 10 num trimestre, nada muda no nosso time.
O onboarding, sob esse modelo, leva segundos a minutos. A maior parte dos fluxos termina antes do usuário pegar o celular pra ver o que está demorando.
O custo real do compliance legacy#
Antes de percorrer nosso stack, quero ser honesto sobre por que isso importa. Compliance não é um centro de custo que se discute no jantar, mas os números são grandes.
O gasto em compliance está entre 15% e 20% do orçamento operacional de uma fintech em 2026.
É um quinto do seu custo operacional indo pra uma atividade que não diferencia seu produto. Nenhum usuário abre conta no seu banco porque seu sanctions screening é minucioso. Abre porque o onboarding é rápido e o app não rejeita sem motivo.
O throughput do analista é o gargalo. As filas acumulam. Os SLAs escorregam. Os usuários saem. O suporte escala. O custo não é só a linha de salário do time de analistas. É também o churn dos usuários que nunca terminaram o cadastro. É o custo de oportunidade dos engenheiros mantendo o motor de regras em vez de shipar produto.
Em escala, a economia deixa de fechar. Uma fintech de médio porte na América Latina rodando compliance legacy num volume sério de transações está sangrando dinheiro por usuário. A gente viu isso em clientes antes deles migrarem pra gente.
Como o stack da Gu1 está estruturado#
Deixa eu percorrer o que a gente de fato shipa. Três camadas, com agentes em cima das três.
1. Camada KYC#
Essa é a porta de entrada. Verificação de identidade, liveness, OCR de documento, biometria, lookup de UBO.
A parte de identidade tem que ser calibrada pra documentos da América Latina. Não é um detalhe pequeno. CPF no Brasil, CURP no México, DNI na Argentina, Cédula na Colômbia. Cada um tem seu formato, seus dígitos verificadores, sua autoridade emissora, seus modos de falha. Um modelo treinado em carteira de motorista americana vai errar de jeitos que você não percebe até sua taxa de fraude disparar.
Nosso pipeline de OCR é treinado em distribuições regionais de documento. A gente coleta e rotula em escala, valida em hold-out sets por país, e mantém heads específicas por país no modelo. O liveness check é um check ativo 3D que pega a geração atual de ataques com deepfake. Não é um fix pra sempre. É um fix pro que está sendo tentado em 2026.
O fluxo de KYC é tiered. Usuários de baixo risco passam por um check básico em segundos. Usuários de maior risco caem em verificação reforçada, com documentos adicionais, fontes adicionais, e um caminho ponderado por risco. O tiering é dirigido por um score de risco, e esse score é dirigido por sinais que a gente coleta no mesmo momento do onboarding. Dispositivo, IP, comportamento, hora do dia, fonte de referral, velocity.
2. Camada AML#
A camada AML faz monitoramento de transações, detecção de padrões, e screening de sanções.
Detecção de padrões é onde o ML realmente se paga. O AML clássico foi construído em thresholds. "Mais do que X reais em 24 horas entre mais de Y contrapartes." Essas regras existem por um motivo, e a gente ainda roda algumas como guardrails. Mas elas perdem quase tudo que importa. Lavagem sofisticada estrutura o dinheiro especificamente pra ficar abaixo dos thresholds.
Os modelos que a gente treina olham pra estrutura de grafo, padrões temporais, clusters de contraparte, idade da conta, e dezenas de features derivadas. Eles pegam estruturação e layering que uma regra de threshold não pega por definição.
O screening cobre OFAC, ONU, UE e listas de PEP e sanções específicas por país. O fuzzy matching é language-aware, o que importa na América Latina porque um nome em português ou espanhol pode confundir um matcher construído pra convenções em inglês.
3. Camada KYT#
KYT (Know Your Transaction) é a análise em tempo real de cada transação enquanto ela acontece.
O scoring de risco é por transação, não por usuário. Essa distinção importa. Um usuário de baixo risco pode fazer uma transação de alto risco. Um usuário de alto risco pode fazer uma transação de baixo risco. Pontuar o usuário uma vez no onboarding e confiar nesse score por um ano é como você perde os account takeovers.
O contexto comportamental alimenta o scoring: o dispositivo de onde vem a transação, a rede, a velocity da atividade recente, a hora do dia, se qualquer coisa disso bate com o baseline do usuário. A decisão volta em dezenas de milissegundos.
Agentes em cima#
Essa é a parte que mudou as nossas operações.
Os agentes leem cada alerta que as três camadas produzem. Triangulam. Resolvem os casos claros. Escalam os ambíguos pra um humano com um pacote de contexto completo: o que disparou o alerta, como está o baseline do usuário, como casos parecidos resolveram nos últimos 30 dias. O humano não precisa reconstruir a situação. Lê um brief, toma a decisão, segue.
Os agentes redigem SAR e relatórios regulatórios automaticamente. Um humano revisa e submete. Redigir era historicamente a parte mais tediosa do dia de um analista, e é a parte em que os LLMs são genuinamente bons.
O split acaba em mais ou menos 90/10. Os agentes cuidam de uns 90% do trabalho rotineiro. Os humanos cuidam dos 10% de edge cases onde o julgamento de fato importa. Esses 10% não são pouco. É onde o regulador mais presta atenção, e a gente staffa com gente que sabe ler uma regulação e tomar uma decisão.
O que isso mudou para o time#
A gente não demitiu gente e chamou isso de produtividade. A forma do time mudou.
O time de engenharia cresceu. Investimos pesado na plataforma, no pipeline de treinamento, na observabilidade, na detecção de drift. O time de ops encolheu. São skill sets diferentes. A gente mexeu no hiring de acordo.
A descrição de cargo de "analista de compliance" mudou na Gu1. Eles não revisam alertas um por um. Eles rodam agentes, afinam políticas, revisam escalações, e são donos da relação com o regulador. É um cargo de mais alavanca, e a galera que ficou subiu um degrau no que fazia no dia a dia.
A razão entre engenheiros e gente de ops inverteu. Se você desenhasse nosso organograma dois anos atrás, via um time de compliance grande com um time de plataforma pequeno do lado. Hoje é um time de plataforma maior com um grupo de compliance menor e mais sênior. O trabalho ficou mais difícil e mais interessante pra todo mundo que ficou.
Dinheiro à parte, eu acho que essa é a mudança mais importante. O trabalho de compliance era historicamente o cargo em que gente boa queimava clicando em fila. Não é um bom uso do tempo de ninguém.
O que ainda é difícil#
Não quero dar a impressão de que qualquer coisa disso está pronto.
As regulações mudam em cada país. O BCB no Brasil publica regras novas. A CNBV no México atualiza a orientação. O BCRA na Argentina se mexe. A SFC na Colômbia se mexe. Os agentes precisam se adaptar. A gente mantém policy packs por país e versiona cada um. Quando uma regra muda, é um evento de engenharia, não de compliance.
Edge cases em fluxos de economia informal não se parecem com o que modelos treinados na Europa esperam. Muita atividade de pagamento na América Latina corre por canais que um modelo treinado em dados SEPA europeus vai pontuar como suspeito porque nunca viu nada parecido. A gente treina regionalmente. Tem que treinar. Modelos prontos de vendors internacionais falham aqui de formas previsíveis. Isso não é uma reclamação contra eles. É uma constatação sobre o que acontece quando você coloca um modelo fora da distribuição de treino.
O drift do modelo é a outra parte difícil. Padrões de fraude mudam. Comportamento de usuário muda. O modelo que funcionava seis meses atrás não é o modelo que a gente quer rodando em produção hoje. Re-treinamos com cadência mensal, e temos monitores de drift que avisam se a distribuição se mexer mais rápido que isso. Detecção de drift é um sub-problema inteiro. Tem um time interno dono disso.
E aí tem o ponto óbvio. 50% da fraude hoje usa IA do lado do atacante, segundo o trabalho da Feedzai em 2025. O chão está subindo. As ferramentas usadas contra a gente estão melhorando. A defesa tem que continuar se mexendo, e tem que ser AI-native porque não dá pra lutar contra ataques em tempo de inferência com batch job noturno.
Por que a gente está compartilhando isso#
Tem mais de 2.800 fintechs na América Latina operando na região agora, segundo a contagem mais recente da Finnovista. Boa parte está rodando stack de compliance legacy sangrando por usuário. O mercado de detecção de fraude na América Latina deve sair de USD 1,74B em 2025 pra USD 9,14B em 2034, um CAGR de 20,2%. A pressão em cima de compliance vai aumentar, não diminuir.
Se você está construindo nesse espaço, não precisa ser a gente. Precisa ser honesto sobre se seu stack atual está fazendo pattern-match contra o modelo de ameaças de 2020 ou o de 2026. A resposta, pra maior parte dos times, é 2020. Isso tem conserto.
Se você quer o panorama completo de como a gente lida com KYC especificamente, o Guia Completo de KYC na América Latina percorre a realidade país por país. Se você está atolado em problemas de AML, Desafios de AML em Fintechs da América Latina tem os detalhes. Pra padrões de fraude mais amplos, dá uma olhada em Prevenção de Fraude em Mercados Emergentes. E se você quer a introdução ao que a gente faz aqui, comece em Bem-vindo à Gu1.
A gente shipa uma API. Você pode testar. Esse é o pitch.
Compartilhar este post
Receba os novos posts no seu inbox
Um email quando publicamos. Sem spam. Você pode cancelar quando quiser.