logo hack wit

VULNERABILIDADE DE CHATBOTS DE IA

VULNERABILIDADE DE CHATBOTS DE IA: COMO CIENTISTAS QUEBRARAM PROTEÇÕES

 

Recentemente, cientistas da Universidade Carnegie Mellon revelaram uma vulnerabilidade preocupante em chatbots de inteligência artificial (IA) conhecidos, como ChatGPT, Bard do Google e Claude da Anthropic. Com uma simples sequência de texto adicionada a um prompt, foi possível contornar as proteções desses sistemas e fazê-los gerar conteúdo ofensivo.

 

O Problema em Detalhe

Pesquisadores descobriram que, ao utilizar ataques adversários, poderiam manipular os chatbots para desobedecerem suas restrições. Utilizando um modelo de linguagem de código aberto, eles ajustaram os prompts para gradualmente levar os bots a gerar respostas não permitidas. Esse tipo de ataque mostrou-se eficaz em diversos chatbots comerciais, evidenciando uma falha estrutural nesses sistemas.

 

Ataques Adversários e Seus Métodos

Os ataques adversários exploram vulnerabilidades específicas nos modelos de IA. No estudo, os pesquisadores utilizaram o método “Greedy Coordinate Gradient”, combinando otimização discreta e gradiente. Isso foi suficiente para burlar as proteções e induzir os bots a fornecer respostas prejudiciais.

 

Componentes Críticos dos Ataques

Os ataques bem-sucedidos dependem de três fatores principais:

      1. Respostas Iniciais Afirmativas: Manipular os bots para inicialmente concordar com o prompt.

      1. Otimização Discreta Combinada: Usar técnicas avançadas para ajustar os prompts de forma incremental.

      1. Ataques Multi-Prompt e Multi-Modelo: Aplicar o método em diversos modelos simultaneamente para garantir a eficácia.

     

    Implicações e Medidas de Segurança

    As descobertas indicam que a tendência dos chatbots de se desviarem de seu curso não é uma peculiaridade isolada, mas uma falha fundamental. Grandes modelos de linguagem, base dos chatbots como o ChatGPT, são altamente complexos e treinados em vastas quantidades de texto humano. Apesar de sua capacidade de prever palavras e gerar respostas, eles também estão propensos a criar informações falsas e reproduzir vieses.

    Resultado de um script para burlar Chat GPT
     

     

    Resposta das Empresas

    Após a descoberta, os pesquisadores notificaram a OpenAI, Google e Anthropic. Embora algumas falhas específicas tenham sido corrigidas, a vulnerabilidade geral permanece. Isso destaca a necessidade contínua de melhorar a segurança e robustez dos modelos de IA.

    Compartilhe esta postagem:

    Facebook
    X
    WhatsApp
    Telegram
    Últimas notícias

    Assine nossa newsletter