Evaluación de la confiabilidad del modelo GPT: análisis completo y riesgos potenciales
La Universidad de Illinois en Urbana-Champaign, en colaboración con la Universidad de Stanford, la Universidad de California en Berkeley y otras instituciones, ha lanzado una plataforma integral de evaluación de confiabilidad para modelos de lenguaje de gran tamaño (LLMs). Los resultados de la investigación se publicaron en el artículo "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT."
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían identificado previamente. Por ejemplo, el modelo GPT es susceptible a ser engañado para producir salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 generalmente es más confiable que GPT-3.5, cuando se enfrenta a sistemas o indicaciones maliciosamente diseñadas, GPT-4 es más vulnerable a ataques, lo que puede deberse a que GPT-4 aplica de manera más estricta las instrucciones engañosas.
El equipo de investigación evaluó de manera integral el modelo GPT desde 8 perspectivas de confiabilidad, que incluyen la robustez frente a ataques adversarios, toxicidad y sesgos, filtraciones de privacidad, entre otros. Por ejemplo, para evaluar la robustez del modelo ante ataques adversarios en texto, el equipo diseñó tres escenarios de evaluación: la prueba de referencia estándar AdvGLUE, la prueba AdvGLUE bajo diferentes instrucciones de tareas orientativas, y la nueva prueba desafiante AdvGLUE++.
En cuanto a la robustez de los modelos frente a demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 no son engañados por ejemplos contrafácticos e incluso pueden beneficiarse de ellos. Sin embargo, las demostraciones de fraude pueden engañar al modelo para que haga predicciones incorrectas sobre entradas contrafácticas, especialmente cuando las demostraciones contrafácticas están cerca de la entrada del usuario, siendo GPT-4 más susceptible.
En cuanto a la toxicidad y los prejuicios, bajo indicaciones benignas y sin objetivos, los dos modelos de GPT presentan poca desviación en la mayoría de los temas de estereotipos. Sin embargo, bajo indicaciones engañosas, ambos modelos pueden ser inducidos a aceptar contenido sesgado, siendo GPT-4 el más susceptible. La desviación del modelo también depende de los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de filtración de privacidad, los estudios han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada inyectada en el historial de conversaciones. En general, GPT-4 es más robusto en la protección de información de identificación personal ( PII ) en comparación con GPT-3.5, pero bajo ciertas condiciones, aún puede filtrar todo tipo de PII.
Este estudio proporciona una perspectiva integral sobre la evaluación de la credibilidad de los modelos GPT, revelando los riesgos y desafíos potenciales. El equipo de investigación espera que este trabajo pueda fomentar la continuación de la investigación profunda en esta área tanto en la academia como en la industria, trabajando juntos para crear modelos de lenguaje más robustos y confiables.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
14 me gusta
Recompensa
14
6
Compartir
Comentar
0/400
Blockblind
· hace18h
Vengo a jugar, otra vez fui engañado por gpt4
Ver originalesResponder0
GasSavingMaster
· hace18h
Ah, este informe de auditoría me hace temblar.
Ver originalesResponder0
TokenBeginner'sGuide
· hace18h
Pequeño recordatorio: La actualización y evolución de GPT implica que los riesgos también están aumentando; los datos muestran que el 85% del riesgo de filtraciones proviene de una ejecución estricta que parece inteligente... no se puede negar que este estudio nos ha dado una advertencia.
Ver originalesResponder0
BearMarketNoodler
· hace18h
Los fideos fritos volvieron a caer, se sugiere que todos aprendan algunos trucos de engaño de GPT.
Ver originalesResponder0
WalletsWatcher
· hace18h
Los grandes modelos también tienen zonas ciegas, es absurdo.
Evaluación integral de la confiabilidad del modelo GPT: Revelando riesgos y desafíos potenciales
Evaluación de la confiabilidad del modelo GPT: análisis completo y riesgos potenciales
La Universidad de Illinois en Urbana-Champaign, en colaboración con la Universidad de Stanford, la Universidad de California en Berkeley y otras instituciones, ha lanzado una plataforma integral de evaluación de confiabilidad para modelos de lenguaje de gran tamaño (LLMs). Los resultados de la investigación se publicaron en el artículo "DecodingTrust: Evaluación integral de la confiabilidad de los modelos GPT."
La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían identificado previamente. Por ejemplo, el modelo GPT es susceptible a ser engañado para producir salidas tóxicas y sesgadas, y también puede filtrar información privada de los datos de entrenamiento y del historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 generalmente es más confiable que GPT-3.5, cuando se enfrenta a sistemas o indicaciones maliciosamente diseñadas, GPT-4 es más vulnerable a ataques, lo que puede deberse a que GPT-4 aplica de manera más estricta las instrucciones engañosas.
El equipo de investigación evaluó de manera integral el modelo GPT desde 8 perspectivas de confiabilidad, que incluyen la robustez frente a ataques adversarios, toxicidad y sesgos, filtraciones de privacidad, entre otros. Por ejemplo, para evaluar la robustez del modelo ante ataques adversarios en texto, el equipo diseñó tres escenarios de evaluación: la prueba de referencia estándar AdvGLUE, la prueba AdvGLUE bajo diferentes instrucciones de tareas orientativas, y la nueva prueba desafiante AdvGLUE++.
En cuanto a la robustez de los modelos frente a demostraciones adversariales, la investigación ha encontrado que GPT-3.5 y GPT-4 no son engañados por ejemplos contrafácticos e incluso pueden beneficiarse de ellos. Sin embargo, las demostraciones de fraude pueden engañar al modelo para que haga predicciones incorrectas sobre entradas contrafácticas, especialmente cuando las demostraciones contrafácticas están cerca de la entrada del usuario, siendo GPT-4 más susceptible.
En cuanto a la toxicidad y los prejuicios, bajo indicaciones benignas y sin objetivos, los dos modelos de GPT presentan poca desviación en la mayoría de los temas de estereotipos. Sin embargo, bajo indicaciones engañosas, ambos modelos pueden ser inducidos a aceptar contenido sesgado, siendo GPT-4 el más susceptible. La desviación del modelo también depende de los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.
En términos de filtración de privacidad, los estudios han encontrado que los modelos GPT pueden filtrar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. En ciertos casos, el uso de conocimientos complementarios puede mejorar significativamente la precisión de la extracción de información. Además, el modelo también puede filtrar información privada inyectada en el historial de conversaciones. En general, GPT-4 es más robusto en la protección de información de identificación personal ( PII ) en comparación con GPT-3.5, pero bajo ciertas condiciones, aún puede filtrar todo tipo de PII.
Este estudio proporciona una perspectiva integral sobre la evaluación de la credibilidad de los modelos GPT, revelando los riesgos y desafíos potenciales. El equipo de investigación espera que este trabajo pueda fomentar la continuación de la investigación profunda en esta área tanto en la academia como en la industria, trabajando juntos para crear modelos de lenguaje más robustos y confiables.