تقييم موثوقية نموذج GPT يكشف عن ثغرات جديدة، الخبراء يدعون إلى دراسات معمقة لتحسينها

تقييم موثوقية نموذج GPT

مؤخراً، أصدرت العديد من الجامعات والمراكز البحثية الشهيرة منصة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث ذات الصلة في مقال بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".

وجد التقييم بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل على نموذج GPT إنتاج مخرجات متحيزة وضارة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات. على الرغم من أن GPT-4 يعتبر عادةً أكثر موثوقية من GPT-3.5 في اختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، ربما لأن النموذج يتبع التعليمات المضللة بشكل أكثر صرامة.

تقيم هذه الدراسة الموثوقية لنموذج GPT بشكل شامل، وكشف النقاط الضعيفة الموجودة. تم نشر معايير التقييم بشكل علني، وتأمل فريق البحث أن يشجع ذلك المزيد من الباحثين على استكشاف هذا الأساس بعمق والعمل معًا لإنشاء نماذج أقوى وأكثر موثوقية.

لتقييم قوة GPT-3.5 و GPT-4، صمم الباحثون ثلاث سيناريوهات للتقييم:

  1. اختبار على معيار AdvGLUE لتقييم ضعف النموذج ضد الهجمات النصية الحالية.
  2. استخدام أوصاف المهام المختلفة والنصائح النظامية على معيار AdvGLUE لدراسة قدرة النموذج على الاستعادة.
  3. اختبار باستخدام نصوص مضادة جديدة تم إنشاؤها تحديًا AdvGLUE++.

أظهرت الأبحاث أن نموذج GPT يظهر قوة غير متوقعة في بعض الجوانب، مثل عدم التأثر بالأمثلة المضادة المضافة في العرض. لكن هناك ثغرات في جوانب أخرى، مثل سهولة التأثر بالتلميحات النظامية المضللة والموافقة على محتوى متحيز. يعتمد انحياز النموذج أيضًا على الفئات والأشخاص المحددين الذين يتم ذكرهم والموضوعات المحددة.

فيما يتعلق بحماية الخصوصية، قد يقوم نموذج GPT بكشف معلومات حساسة من بيانات التدريب، خاصةً في ظل وجود سياقات ذات صلة. بشكل عام، يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن في بعض الحالات، قد يكون أكثر عرضة لكشف الخصوصية.

تقدم هذه الدراسة وجهات نظر وطرق جديدة لتقييم موثوقية نماذج اللغة الكبيرة بشكل شامل. مع الاستخدام الواسع لهذه النماذج في مجالات مختلفة، فإن التقييم المستمر والتحسين لموثوقيتها أمر بالغ الأهمية.

GPT-4.79%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • إعادة النشر
  • مشاركة
تعليق
0/400
Anon32942vip
· 08-18 02:18
哈哈要 محكوم了
شاهد النسخة الأصليةرد0
BoredWatchervip
· 08-17 20:51
هذه الموجة، هذه الموجة صعبة قليلاً.
شاهد النسخة الأصليةرد0
GateUser-a5fa8bd0vip
· 08-15 03:05
هل هناك ثغرات قبل أن نفهم اللعبة بشكل صحيح؟
شاهد النسخة الأصليةرد0
shadowy_supercodervip
· 08-15 02:59
هل الذكاء الاصطناعي يتظاهر بالغباء؟
شاهد النسخة الأصليةرد0
ArbitrageBotvip
· 08-15 02:58
4 ليس كل شيء يفهمه البطة
شاهد النسخة الأصليةرد0
AirdropChaservip
· 08-15 02:39
يا إلهي، تم اكتشاف هذه الثغرة أخيرًا.
شاهد النسخة الأصليةرد0
  • تثبيت