Evaluasi Keandalan Model GPT: Analisis Menyeluruh dan Risiko Potensial
Universitas Illinois di Urbana-Champaign bekerja sama dengan Universitas Stanford, Universitas California di Berkeley, dan lembaga lainnya, telah meluncurkan sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Hasil penelitian terkait dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Komprehensif terhadap Kredibilitas Model GPT".
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak terdeteksi. Misalnya, model GPT rentan terhadap pengaruh yang dapat menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, dalam menghadapi sistem atau petunjuk pengguna yang dirancang secara jahat, GPT-4 justru lebih mudah diserang, yang mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam menjalankan instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang keandalan, termasuk ketahanan terhadap serangan, toksisitas dan bias, serta kebocoran privasi. Misalnya, untuk mengevaluasi ketahanan model terhadap serangan teks, tim merancang tiga skenario evaluasi: pengujian AdvGLUE standar, pengujian AdvGLUE di bawah instruksi tugas yang berbeda, dan pengujian AdvGLUE++ yang baru dihasilkan dan menantang.
Dalam hal ketahanan model terhadap demonstrasi adversarial, penelitian menemukan bahwa GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual, bahkan dapat mengambil manfaat darinya. Namun, demonstrasi anti-penipuan dapat menyesatkan model untuk membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna, GPT-4 lebih rentan terhadap pengaruh tersebut.
Mengenai toksisitas dan bias, di bawah sistem prompt yang benign dan tanpa tujuan, kedua model GPT memiliki bias yang tidak signifikan terhadap sebagian besar tema stereotip. Namun, di bawah sistem prompt yang menyesatkan, kedua model dapat dipicu untuk setuju dengan konten yang bias, di mana GPT-4 lebih mudah terpengaruh. Bias model juga tergantung pada kelompok populasi dan tema stereotip yang disebutkan dalam prompt pengguna.
Dalam hal kebocoran privasi, penelitian menunjukkan bahwa model GPT dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga dapat membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi (PII) dibandingkan dengan GPT-3.5, tetapi dalam kondisi tertentu masih dapat membocorkan semua jenis PII.
Penelitian ini memberikan perspektif komprehensif untuk penilaian keandalan model GPT, mengungkapkan risiko dan tantangan yang potensial. Tim penelitian berharap bahwa pekerjaan ini dapat mendorong akademisi dan industri untuk melanjutkan penelitian lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
14 Suka
Hadiah
14
6
Bagikan
Komentar
0/400
Blockblind
· 8jam yang lalu
Datang bermain, lagi-lagi terjebak oleh gpt4
Lihat AsliBalas0
GasSavingMaster
· 8jam yang lalu
Ah, laporan audit ini membuatku menggigil.
Lihat AsliBalas0
TokenBeginner'sGuide
· 8jam yang lalu
Pengingat ramah: Pembaruan dan iterasi GPT sebenarnya juga meningkatkan risiko, data menunjukkan 85% risiko kebocoran berasal dari pelaksanaan yang tampak cerdas... tidak bisa dipungkiri bahwa penelitian ini telah memberi kita peringatan.
Lihat AsliBalas0
BearMarketNoodler
· 9jam yang lalu
Mie goreng lagi turun, disarankan kepada semua orang untuk mempelajari trik menipu GPT.
Evaluasi komprehensif keandalan model GPT: Mengungkap risiko dan tantangan potensial
Evaluasi Keandalan Model GPT: Analisis Menyeluruh dan Risiko Potensial
Universitas Illinois di Urbana-Champaign bekerja sama dengan Universitas Stanford, Universitas California di Berkeley, dan lembaga lainnya, telah meluncurkan sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Hasil penelitian terkait dipublikasikan dalam makalah berjudul "DecodingTrust: Evaluasi Komprehensif terhadap Kredibilitas Model GPT".
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak terdeteksi. Misalnya, model GPT rentan terhadap pengaruh yang dapat menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, dalam menghadapi sistem atau petunjuk pengguna yang dirancang secara jahat, GPT-4 justru lebih mudah diserang, yang mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam menjalankan instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang keandalan, termasuk ketahanan terhadap serangan, toksisitas dan bias, serta kebocoran privasi. Misalnya, untuk mengevaluasi ketahanan model terhadap serangan teks, tim merancang tiga skenario evaluasi: pengujian AdvGLUE standar, pengujian AdvGLUE di bawah instruksi tugas yang berbeda, dan pengujian AdvGLUE++ yang baru dihasilkan dan menantang.
Dalam hal ketahanan model terhadap demonstrasi adversarial, penelitian menemukan bahwa GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual, bahkan dapat mengambil manfaat darinya. Namun, demonstrasi anti-penipuan dapat menyesatkan model untuk membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna, GPT-4 lebih rentan terhadap pengaruh tersebut.
Mengenai toksisitas dan bias, di bawah sistem prompt yang benign dan tanpa tujuan, kedua model GPT memiliki bias yang tidak signifikan terhadap sebagian besar tema stereotip. Namun, di bawah sistem prompt yang menyesatkan, kedua model dapat dipicu untuk setuju dengan konten yang bias, di mana GPT-4 lebih mudah terpengaruh. Bias model juga tergantung pada kelompok populasi dan tema stereotip yang disebutkan dalam prompt pengguna.
Dalam hal kebocoran privasi, penelitian menunjukkan bahwa model GPT dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga dapat membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi identitas pribadi (PII) dibandingkan dengan GPT-3.5, tetapi dalam kondisi tertentu masih dapat membocorkan semua jenis PII.
Penelitian ini memberikan perspektif komprehensif untuk penilaian keandalan model GPT, mengungkapkan risiko dan tantangan yang potensial. Tim penelitian berharap bahwa pekerjaan ini dapat mendorong akademisi dan industri untuk melanjutkan penelitian lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.