Avaliação da Confiabilidade do Modelo GPT: Análise Abrangente e Riscos Potenciais
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley e outras instituições, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem grandes (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido identificadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora em testes de referência padrão o GPT-4 geralmente seja mais confiável que o GPT-3.5, ao enfrentar sistemas ou solicitações de usuários maliciosos, o GPT-4 pode ser mais facilmente atacado, possivelmente porque o GPT-4 aplica instruções enganosas de forma mais rigorosa.
A equipe de pesquisa avaliou o modelo GPT sob oito perspectivas de credibilidade, incluindo robustez a ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez do modelo contra ataques adversariais de texto, a equipe projetou três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE sob diferentes instruções de tarefas orientadoras e o novo teste desafiador AdvGLUE++.
No que diz respeito à robustez do modelo em demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 não são induzidos a erro por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, demonstrações de anti-fraude podem induzir o modelo a fazer previsões erradas para entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível.
Sobre a toxicidade e preconceito, sob prompts de sistema benignos e sem objetivo, as duas variantes do modelo GPT apresentam pouca variação na maioria dos temas de estereótipos. No entanto, sob prompts de sistema enganosos, ambos os modelos podem ser induzidos a concordar com conteúdos preconceituosos, sendo o GPT-4 mais suscetível. O viés do modelo também depende dos grupos populacionais e dos temas de estereótipos mencionados nos prompts dos usuários.
Em termos de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ainda pode vazar todos os tipos de PII sob certas condições.
Este estudo fornece uma visão abrangente da avaliação da confiabilidade dos modelos GPT, revelando riscos e desafios potenciais. A equipe de pesquisa espera que este trabalho possa promover uma pesquisa mais aprofundada na academia e na indústria, colaborando para criar modelos de linguagem mais robustos e confiáveis.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
14 Curtidas
Recompensa
14
6
Compartilhar
Comentário
0/400
Blockblind
· 18h atrás
Vim brincar, fui enganado pelo gpt4 novamente.
Ver originalResponder0
GasSavingMaster
· 18h atrás
Ah, este relatório de auditoria faz-me tremer.
Ver originalResponder0
TokenBeginner'sGuide
· 18h atrás
Pequeno lembrete: a atualização do GPT, na verdade, traz também um aumento de riscos; os dados mostram que 85% dos riscos de vazamento vêm de uma execução rigorosa que parece inteligente... não posso deixar de dizer que este estudo nos deu um alerta.
Ver originalResponder0
BearMarketNoodler
· 18h atrás
Os noodles fritos voltaram a cair. Recomendo que todos aprendam algumas dicas de engano do GPT.
Ver originalResponder0
WalletsWatcher
· 18h atrás
Os grandes modelos também têm áreas cegas. É absurdo.
Avaliação abrangente da confiabilidade do modelo GPT: Revelando riscos e desafios potenciais
Avaliação da Confiabilidade do Modelo GPT: Análise Abrangente e Riscos Potenciais
A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley e outras instituições, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem grandes (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".
A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido identificadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora em testes de referência padrão o GPT-4 geralmente seja mais confiável que o GPT-3.5, ao enfrentar sistemas ou solicitações de usuários maliciosos, o GPT-4 pode ser mais facilmente atacado, possivelmente porque o GPT-4 aplica instruções enganosas de forma mais rigorosa.
A equipe de pesquisa avaliou o modelo GPT sob oito perspectivas de credibilidade, incluindo robustez a ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez do modelo contra ataques adversariais de texto, a equipe projetou três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE sob diferentes instruções de tarefas orientadoras e o novo teste desafiador AdvGLUE++.
No que diz respeito à robustez do modelo em demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 não são induzidos a erro por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, demonstrações de anti-fraude podem induzir o modelo a fazer previsões erradas para entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível.
Sobre a toxicidade e preconceito, sob prompts de sistema benignos e sem objetivo, as duas variantes do modelo GPT apresentam pouca variação na maioria dos temas de estereótipos. No entanto, sob prompts de sistema enganosos, ambos os modelos podem ser induzidos a concordar com conteúdos preconceituosos, sendo o GPT-4 mais suscetível. O viés do modelo também depende dos grupos populacionais e dos temas de estereótipos mencionados nos prompts dos usuários.
Em termos de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ainda pode vazar todos os tipos de PII sob certas condições.
Este estudo fornece uma visão abrangente da avaliação da confiabilidade dos modelos GPT, revelando riscos e desafios potenciais. A equipe de pesquisa espera que este trabalho possa promover uma pesquisa mais aprofundada na academia e na indústria, colaborando para criar modelos de linguagem mais robustos e confiáveis.