Claude Mythos, IA ‘perigosa’ da Anthropic, foi acessado por pessoas não autorizadas

Pessoas não autorizadas acessaram o Claude Mythos, novo grande modelo de linguagem da Anthropic, apurou a Bloomberg. Anunciada no início de março, a inteligência artificial havia sido disponibilizada para um grupo restrito de parceiros, mas usuários de um fórum online também conseguiram usar a ferramenta. A startup investiga o ocorrido.

Segundo uma pessoa familiarizada com o assunto e documentos da Anthropic, vários usuários de um fórum privado obtiveram acesso ao Mythos no dia em que o modelo foi lançado. O grupo continuou utilizando a IA de forma regular, mas não para pesquisa em cibersegurança, segundo a empresa.

Leia mais: Anthropic lança Claude Design, uma IA que faz templates e slides

O lançamento do Claude Mythos foi marcado por tensão e cautela por parte da Anthropic. A empresa afirma que o modelo é capaz de identificar e explorar vulnerabilidades na maioria dos sistemas operacionais e navegadores — razão pela qual o acesso foi restrito a um grupo de empresas participantes do programa Project Glasswing.

O grupo conseguiu acessar o Mythos aproveitando permissões deum funcionário terceirizado. (Fonte: Robert Way/Getty Images)

Até o momento, não havia registros de acesso não autorizado ao modelo. O vazamento reportado pela Bloomberg ressalta a dificuldade da Anthropic em manter o projeto seguro e levanta a suspeita de que outras pessoas possam estar experimentando o modelo sem autorização.

Como acessaram o Mythos?

Para conseguir usar o Mythos, os usuários do fórum combinaram diferentes estratégias. Um dos métodos envolveu explorar o acesso de um funcionário de uma empresa terceirizada contratada pela Anthropic para avaliar a performance de seus modelos, aliado ao uso de ferramentas de investigação disponíveis publicamente na internet.

O grupo faz parte de um canal do Discord dedicado à busca por informações sobre modelos ainda não lançados. Com base na estratégia adotada pela Anthropic em lançamentos anteriores, eles estimaram a localização online do modelo. Detalhes adicionais sobre o método foram revelados em uma violação de dados recente da Mercor, startup de treinamento de IA que trabalha com grandes desenvolvedores do setor.

Anthropic investiga o acesso não autorizado

“Estamos investigando uma denúncia de acesso não autorizado ao Claude Mythos Preview por meio do ambiente de um dos nossos fornecedores terceirizados”, afirmou um porta-voz da Anthropic em comunicado. A empresa declarou não haver evidências de que o acesso tenha extrapolado o ambiente do fornecedor ou afetado sistemas internos da Anthropic.

Segundo a startup, o grupo utilizou o modelo de forma exploratória, sem causar danos. Não há registros de prompts relacionados a cibersegurança executados por meio do Mythos.

Quer ficar por dentro das novidades do mundo da tecnologia? Acesse o TecMundo e acompanhe as últimas notícias sobre inteligência artificial, segurança digital e muito mais.