مؤخراً، أصدرت العديد من الجامعات والمراكز البحثية الشهيرة منصة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث ذات الصلة في مقال بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
وجد التقييم بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل على نموذج GPT إنتاج مخرجات متحيزة وضارة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات. على الرغم من أن GPT-4 يعتبر عادةً أكثر موثوقية من GPT-3.5 في اختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، ربما لأن النموذج يتبع التعليمات المضللة بشكل أكثر صرامة.
تقيم هذه الدراسة الموثوقية لنموذج GPT بشكل شامل، وكشف النقاط الضعيفة الموجودة. تم نشر معايير التقييم بشكل علني، وتأمل فريق البحث أن يشجع ذلك المزيد من الباحثين على استكشاف هذا الأساس بعمق والعمل معًا لإنشاء نماذج أقوى وأكثر موثوقية.
لتقييم قوة GPT-3.5 و GPT-4، صمم الباحثون ثلاث سيناريوهات للتقييم:
اختبار على معيار AdvGLUE لتقييم ضعف النموذج ضد الهجمات النصية الحالية.
استخدام أوصاف المهام المختلفة والنصائح النظامية على معيار AdvGLUE لدراسة قدرة النموذج على الاستعادة.
اختبار باستخدام نصوص مضادة جديدة تم إنشاؤها تحديًا AdvGLUE++.
أظهرت الأبحاث أن نموذج GPT يظهر قوة غير متوقعة في بعض الجوانب، مثل عدم التأثر بالأمثلة المضادة المضافة في العرض. لكن هناك ثغرات في جوانب أخرى، مثل سهولة التأثر بالتلميحات النظامية المضللة والموافقة على محتوى متحيز. يعتمد انحياز النموذج أيضًا على الفئات والأشخاص المحددين الذين يتم ذكرهم والموضوعات المحددة.
فيما يتعلق بحماية الخصوصية، قد يقوم نموذج GPT بكشف معلومات حساسة من بيانات التدريب، خاصةً في ظل وجود سياقات ذات صلة. بشكل عام، يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن في بعض الحالات، قد يكون أكثر عرضة لكشف الخصوصية.
تقدم هذه الدراسة وجهات نظر وطرق جديدة لتقييم موثوقية نماذج اللغة الكبيرة بشكل شامل. مع الاستخدام الواسع لهذه النماذج في مجالات مختلفة، فإن التقييم المستمر والتحسين لموثوقيتها أمر بالغ الأهمية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقييم موثوقية نموذج GPT يكشف عن ثغرات جديدة، الخبراء يدعون إلى دراسات معمقة لتحسينها
تقييم موثوقية نموذج GPT
مؤخراً، أصدرت العديد من الجامعات والمراكز البحثية الشهيرة منصة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث ذات الصلة في مقال بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
وجد التقييم بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل على نموذج GPT إنتاج مخرجات متحيزة وضارة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات. على الرغم من أن GPT-4 يعتبر عادةً أكثر موثوقية من GPT-3.5 في اختبارات القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بشكل خبيث، ربما لأن النموذج يتبع التعليمات المضللة بشكل أكثر صرامة.
تقيم هذه الدراسة الموثوقية لنموذج GPT بشكل شامل، وكشف النقاط الضعيفة الموجودة. تم نشر معايير التقييم بشكل علني، وتأمل فريق البحث أن يشجع ذلك المزيد من الباحثين على استكشاف هذا الأساس بعمق والعمل معًا لإنشاء نماذج أقوى وأكثر موثوقية.
لتقييم قوة GPT-3.5 و GPT-4، صمم الباحثون ثلاث سيناريوهات للتقييم:
أظهرت الأبحاث أن نموذج GPT يظهر قوة غير متوقعة في بعض الجوانب، مثل عدم التأثر بالأمثلة المضادة المضافة في العرض. لكن هناك ثغرات في جوانب أخرى، مثل سهولة التأثر بالتلميحات النظامية المضللة والموافقة على محتوى متحيز. يعتمد انحياز النموذج أيضًا على الفئات والأشخاص المحددين الذين يتم ذكرهم والموضوعات المحددة.
فيما يتعلق بحماية الخصوصية، قد يقوم نموذج GPT بكشف معلومات حساسة من بيانات التدريب، خاصةً في ظل وجود سياقات ذات صلة. بشكل عام، يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن في بعض الحالات، قد يكون أكثر عرضة لكشف الخصوصية.
تقدم هذه الدراسة وجهات نظر وطرق جديدة لتقييم موثوقية نماذج اللغة الكبيرة بشكل شامل. مع الاستخدام الواسع لهذه النماذج في مجالات مختلفة، فإن التقييم المستمر والتحسين لموثوقيتها أمر بالغ الأهمية.