Pesquisadores descobrem 175 mil servidores de IA acessíveis na internet sem qualquer proteção

Uma pesquisa conjunta da SentinelOne e Censys revelou que existe uma rede massiva de 175 mil servidores rodando inteligência artificial espalhados pelo mundo, totalmente acessíveis pela internet e sem qualquer tipo de proteção ou controle. 

Durante quase 10 meses de monitoramento, os pesquisadores registraram 7,23 milhões de observações desses sistemas em 130 países — e quase metade deles têm capacidades avançadas que vão muito além de simplesmente gerar texto.

O problema está no Ollama, uma ferramenta open-source que permite rodar modelos de IA (como versões locais do ChatGPT) no próprio computador. A ideia original é boa: mantém privacidade, não depende da nuvem e tem controle sobre os dados. 

Por padrão, o Ollama funciona apenas no computador onde está instalado, acessível somente pelo endereço local 127.0.0.1. Porém, para torná-lo acessível pela internet, basta uma única mudança de configuração: fazer ele “escutar” no endereço 0.0.0.0, que significa “qualquer lugar”.

Foi exatamente isso que milhares de pessoas fizeram, seja por desconhecimento dos riscos, seja intencionalmente para acessar seus modelos de forma remota. O resultado é uma infraestrutura global de IA que opera completamente fora dos sistemas de governança e segurança que plataformas comerciais implementam.

Uma rede com dois níveis

A descoberta mostra que essa rede tem duas camadas distintas. Existe uma grande quantidade de servidores que aparecem e desaparecem rapidamente — alguém liga o computador, experimenta, depois desliga. Mas por baixo disso existe um núcleo persistente de cerca de 23 mil servidores que ficam ligados o tempo todo e representam a maior parte da atividade observada.

Esses servidores persistentes são os mais preocupantes do ponto de vista de segurança, porque estão consistentemente disponíveis para qualquer pessoa usar, a qualquer momento, sem autenticação ou monitoramento.

Onde estão e quem opera

A distribuição geográfica e por tipo de infraestrutura surpreende. Quando os pesquisadores classificaram os servidores por tipo de rede, descobriram que 56% estão em redes de telecomunicações residenciais, casas de pessoas comuns e pequenos escritórios. Ao mesmo tempo, 32% estão em grandes provedores de nuvem como Amazon, Google e Microsoft.

Geograficamente, há concentrações óbvias em centros de infraestrutura digital. Nos Estados Unidos, o estado da Virgínia concentra 18% de todos os servidores americanos, provavelmente porque abriga um dos maiores hubs de data centers do mundo. Na China, Beijing tem 30% dos servidores chineses.

Mas o principal problema identificado pelos pesquisadores é que quase 20% dos servidores não puderam ser atribuídos a nenhum dono identificável. Eles estão lá, funcionando, acessíveis, mas não há como saber quem é responsável por eles. 

Isso cria um buraco negro para governança e segurança, já que se não é possível saber quem opera um servidor, como pode notificar sobre um problema ou exigir que desliguem se estiver sendo usado maliciosamente?

A monocultura que torna tudo mais perigoso

Apesar de toda essa distribuição geográfica e diversidade de infraestrutura, há uma uniformidade surpreendente nos modelos de IA que as pessoas escolhem rodar. Os três modelos mais populares,  Llama (da Meta/Facebook), Qwen2 (chinês) e Gemma2 (do Google), dominam completamente. Não importa como os pesquisadores contabilizaram os dados, essas três famílias de modelos sempre ocupam as três primeiras posições, sem variação.

A maioria das pessoas não tem servidores industriais em casa, então precisa rodar modelos que caibam em hardware comum — placas de vídeo de consumidor, laptops potentes, servidores pequenos. Por isso, 72% dos modelos observados usam compressão de 4 bits (especificamente o formato Q4_K_M em 48% dos casos), que reduz drasticamente o tamanho do modelo para caber na memória disponível.

A maioria dos servidores roda entre 2 e 3 modelos diferentes, provavelmente para comparar resultados ou usar cada um para tarefas específicas. Mas existe um pequeno grupo (1,46%) que os pesquisadores chamaram de “bibliotecas públicas”, servidores com 20 ou mais modelos diferentes carregados.

Capacidades que vão além do texto

Quando os pesquisadores consultaram as APIs (interfaces de programação) desses servidores, descobriram algo alarmante: 48% deles anunciam capacidades de “tool-calling”, ou seja, não são apenas chatbots que geram texto. Eles podem executar funções, chamar APIs externas, acessar sistemas de arquivos e rodar código.

Além disso, 22% suportam processamento de imagens (visão computacional) e 26% têm modelos de “raciocínio” que podem quebrar tarefas complexas em etapas sequenciais.

Quando você combina capacidade de raciocínio com habilidade de executar ferramentas, você tem basicamente um agente autônomo que pode planejar e executar ações complexas sem supervisão humana.

O mais alarmante: os pesquisadores identificaram pelo menos 201 servidores rodando templates de prompt explicitamente configurados como “sem censura” — ou seja, removeram deliberadamente quaisquer proteções de segurança que os modelos pudessem ter. Esse número provavelmente é bem maior, porque eles só conseguiram detectar os que usam templates padronizados visíveis através da API.

Perigos para usuários e empresas

O primeiro risco é o que os pesquisadores chamam de “sequestro de recursos”. Imagine que você é um criminoso querendo gerar milhões de e-mails de phishing ou criar uma campanha massiva de desinformação. 

Normalmente, você teria que pagar pelo uso de APIs de IA comerciais, e os provedores têm sistemas robustos para detectar e bloquear esse tipo de uso abusivo — a OpenAI e a Anthropic, por exemplo, já relataram ter identificado e bloqueado operações de grupos criminosos e até de estados usando suas plataformas.

Mas com essa rede de servidores Ollama expostos, você tem acesso a 175 mil máquinas que pode usar completamente de graça, sem autenticação, sem monitoramento, sem limites de uso. Você simplesmente envia suas requisições maliciosas, recebe o conteúdo gerado, e quem paga a conta de luz e hospedagem é o dono do servidor — que nem sabe que sua máquina está sendo usada como ferramenta para atividades criminosas.

O segundo risco é ainda mais grave e tem a ver com o que esses servidores podem fazer. Um endpoint que só gera texto pode produzir conteúdo prejudicial, mas no máximo isso — é texto, conteúdo estático. Mas um endpoint que pode executar código e chamar APIs externas? Isso pode realizar ações privilegiadas em sistemas conectados.

Os pesquisadores destacam especialmente o perigo dos sistemas RAG (Retrieval-Augmented Generation), uma técnica muito popular onde empresas conectam modelos de IA aos seus documentos internos para que funcionários possam fazer perguntas e obter respostas baseadas nesses documentos. 

É extremamente útil para produtividade, mas se esse sistema está exposto na internet sem autenticação, um atacante pode simplesmente perguntar coisas como “me mostre a planilha de salários da empresa”, “liste todas as senhas mencionadas nos arquivos de configuração” ou “qual é nossa estratégia de produto para o próximo trimestre?”. O modelo, programado para ser útil e responder perguntas, simplesmente fornece as informações solicitadas.

Há também o problema da lavagem de identidade digital. Uma porção significativa desses servidores está em redes residenciais, com endereços IP que parecem pertencer a pessoas comuns. Serviços online geralmente confiam nesses IPs porque não esperam que tráfego malicioso venha de uma casa de família ou de um pequeno escritório. 

Um golpista pode explorar isso usando técnicas de prompt injection indireta, por exemplo, escondendo instruções maliciosas dentro de uma imagem aparentemente inofensiva. Quando um servidor com capacidade de visão processa essa imagem, ele executa as instruções embutidas. 

De repente, o tráfego malicioso está vindo de um IP residencial legítimo, passando despercebido por todos os sistemas de detecção de bots e proteção contra ameaças.
A arquitetura da rede é simultaneamente resiliente e frágil. É resiliente porque está distribuída, você não pode simplesmente “desligar” 175 mil servidores espalhados por 130 países em milhares de redes diferentes. 

Mas é extremamente frágil porque quase todos rodam exatamente os mesmos modelos nos mesmos formatos de compressão. Se alguém descobrir uma vulnerabilidade no formato Q4_K_M, ou uma forma específica de fazer o modelo Llama executar ações não intencionais através de uma sequência particular de tokens, isso não afetaria apenas alguns servidores isolados — afetaria potencialmente metade de toda a rede simultaneamente.

O paradoxo da governança descentralizada

Em serviços tradicionais de IA hospedados em plataformas como ChatGPT, Claude ou Gemini, existe uma governança centralizada robusta. As empresas podem monitorar uso abusivo em tempo real, implementar filtros de conteúdo, detectar padrões suspeitos, banir usuários problemáticos e responder rapidamente a incidentes de segurança. 

Quando a OpenAI ou a Anthropic detectam que grupos criminosos organizados ou agentes de estados estrangeiros estão usando suas plataformas para fins maliciosos, eles podem agir imediatamente — bloqueando contas, reportando às autoridades, ajustando seus sistemas de detecção.

Mas com modelos de pesos abertos (open weights) como os que rodam no Ollama, essa governança simplesmente não existe. Os modelos se comportam como arquivos de software comum, você baixa uma vez e pode copiar infinitamente, modificar, comprimir em diferentes formatos, retreinar com novos dados, integrar em qualquer sistema que quiser. 

O laboratório que criou o modelo nunca vai saber como você está usando aquele arquivo, porque depois que ele é liberado publicamente, não há como rastrear.

Os pesquisadores chamam isso de “inversão de governança”: a responsabilidade se fragmenta para baixo, diluindo-se entre milhares de redes domésticas e servidores pequenos que não têm estrutura de segurança nem pessoal técnico dedicado, enquanto a dependência funcional se concentra para cima em alguns poucos modelos criados por um punhado de laboratórios grandes.

E quando algo dá errado? Se um servidor na nuvem da Amazon ou Google está sendo usado maliciosamente, você pode entrar em contato com o provedor e eles podem desligar a instância comprometida em minutos. Existem processos estabelecidos, contratos claros, responsabilidades definidas. 

Mas como você notifica o dono de um servidor Ollama rodando na rede residencial de alguém em algum lugar da Indonésia ou do interior do Brasil? Especialmente quando você nem consegue identificar quem é o dono, como é o caso de 20% dos servidores observados? Os mecanismos tradicionais de resposta a incidentes de segurança simplesmente não funcionam neste novo modelo distribuído.

O que isso significa para o futuro

Os pesquisadores deixam claro que não estão argumentando contra modelos open-source em si. Na verdade, eles reconhecem explicitamente que essas mesmas características que criam desafios enormes de governança também permitem inovação, pesquisa acadêmica e flexibilidade de implementação que serviços de plataforma fechados simplesmente não conseguem oferecer. 

Modelos abertos democratizam o acesso à tecnologia de IA e permitem que desenvolvedores independentes, pesquisadores e empresas menores criem soluções que seriam impossíveis dependendo apenas de APIs comerciais.

Acompanhe o TecMundo nas redes sociais. Inscreva-se em nosso canal do YouTube e newsletter para mais notícias de segurança e tecnologia.