Novidades

Descubra Como Hackers Podem Enviar E-mails Falsificados 29/01/2025

VULNERABILIDADE GRAVE NO TELEGRAM PARA ANDROID 29/01/2025

NOVA VULNERABILIDADE CRÍTICA EM OPENSSH: CVE-2024-6387 08/07/2024

COMO DETECTAR O WAF (WEB APPLICATION FIREWALL) ANTES DE ATACAR 17/06/2024

VULNERABILIDADE DE CHATBOTS DE IA 29/01/2025

junho 4, 2024

Recentemente, cientistas da Universidade Carnegie Mellon revelaram uma vulnerabilidade preocupante em chatbots de inteligência artificial (IA) conhecidos, como ChatGPT, Bard do Google e Claude da Anthropic. Com uma simples sequência de texto adicionada a um prompt, foi possível contornar as proteções desses sistemas e fazê-los gerar conteúdo ofensivo.

O Problema em Detalhe

Pesquisadores descobriram que, ao utilizar ataques adversários, poderiam manipular os chatbots para desobedecerem suas restrições. Utilizando um modelo de linguagem de código aberto, eles ajustaram os prompts para gradualmente levar os bots a gerar respostas não permitidas. Esse tipo de ataque mostrou-se eficaz em diversos chatbots comerciais, evidenciando uma falha estrutural nesses sistemas.

Ataques Adversários e Seus Métodos

Os ataques adversários exploram vulnerabilidades específicas nos modelos de IA. No estudo, os pesquisadores utilizaram o método “Greedy Coordinate Gradient”, combinando otimização discreta e gradiente. Isso foi suficiente para burlar as proteções e induzir os bots a fornecer respostas prejudiciais.

Componentes Críticos dos Ataques

Os ataques bem-sucedidos dependem de três fatores principais:

1. Respostas Iniciais Afirmativas: Manipular os bots para inicialmente concordar com o prompt.

1. Otimização Discreta Combinada: Usar técnicas avançadas para ajustar os prompts de forma incremental.

1. Ataques Multi-Prompt e Multi-Modelo: Aplicar o método em diversos modelos simultaneamente para garantir a eficácia.

Implicações e Medidas de Segurança

As descobertas indicam que a tendência dos chatbots de se desviarem de seu curso não é uma peculiaridade isolada, mas uma falha fundamental. Grandes modelos de linguagem, base dos chatbots como o ChatGPT, são altamente complexos e treinados em vastas quantidades de texto humano. Apesar de sua capacidade de prever palavras e gerar respostas, eles também estão propensos a criar informações falsas e reproduzir vieses.

Resultado de um script para burlar Chat GPT

Resposta das Empresas

Após a descoberta, os pesquisadores notificaram a OpenAI, Google e Anthropic. Embora algumas falhas específicas tenham sido corrigidas, a vulnerabilidade geral permanece. Isso destaca a necessidade contínua de melhorar a segurança e robustez dos modelos de IA.