Recentemente, cientistas da Universidade Carnegie Mellon revelaram uma vulnerabilidade preocupante em chatbots de inteligência artificial (IA) conhecidos, como ChatGPT, Bard do Google e Claude da Anthropic. Com uma simples sequência de texto adicionada a um prompt, foi possível contornar as proteções desses sistemas e fazê-los gerar conteúdo ofensivo.
O Problema em Detalhe
Pesquisadores descobriram que, ao utilizar ataques adversários, poderiam manipular os chatbots para desobedecerem suas restrições. Utilizando um modelo de linguagem de código aberto, eles ajustaram os prompts para gradualmente levar os bots a gerar respostas não permitidas. Esse tipo de ataque mostrou-se eficaz em diversos chatbots comerciais, evidenciando uma falha estrutural nesses sistemas.
Ataques Adversários e Seus Métodos
Os ataques adversários exploram vulnerabilidades específicas nos modelos de IA. No estudo, os pesquisadores utilizaram o método “Greedy Coordinate Gradient”, combinando otimização discreta e gradiente. Isso foi suficiente para burlar as proteções e induzir os bots a fornecer respostas prejudiciais.
Componentes Críticos dos Ataques
Os ataques bem-sucedidos dependem de três fatores principais:
- Respostas Iniciais Afirmativas: Manipular os bots para inicialmente concordar com o prompt.
- Otimização Discreta Combinada: Usar técnicas avançadas para ajustar os prompts de forma incremental.
- Ataques Multi-Prompt e Multi-Modelo: Aplicar o método em diversos modelos simultaneamente para garantir a eficácia.
Implicações e Medidas de Segurança
As descobertas indicam que a tendência dos chatbots de se desviarem de seu curso não é uma peculiaridade isolada, mas uma falha fundamental. Grandes modelos de linguagem, base dos chatbots como o ChatGPT, são altamente complexos e treinados em vastas quantidades de texto humano. Apesar de sua capacidade de prever palavras e gerar respostas, eles também estão propensos a criar informações falsas e reproduzir vieses.

Resposta das Empresas
Após a descoberta, os pesquisadores notificaram a OpenAI, Google e Anthropic. Embora algumas falhas específicas tenham sido corrigidas, a vulnerabilidade geral permanece. Isso destaca a necessidade contínua de melhorar a segurança e robustez dos modelos de IA.