خدعة بسيطة تسمح بالتواصل مع روبوت الدردشة ChatGPT دون فلتر للإجابات

0 158 دقيقة واحدة

يبدو أن ChatGPT، روبوت المحادثة الثوري المدعوم بالذكاء الاصطناعي (AI)، لديه جميع الإجابات، لكن بعض المستخدمين اكتشفوا أن الأمر ليس كذلك، وأن البرنامج سيرفض الاستجابة لبعض المطالبات، حيث وضعت شركة OpenAI، الشركة التي تقف وراء ChatGPT، قيود للتأكد من أنها سترفض الطلبات غير الملائمة، وتحظر أنواعًا معينة من المحتوى غير الآمن.

لكن على الرغم من ذلك، وجد بعض الهاكرز طريقة لتجاوز نظام التصفية هذا للوصول إلى الاستجابات التي عادة ما يتم منعها من قولها، ويمكن الحصول على نسخة ‘jailbreak’ من ChatGPT من خلال موجه خاص يسمى DAN.

وفقا لما ذكرته صحيفة “ديلى ميل” البريطانية، سمحت النسخة حتى الآن بردود تتكهن بالمؤامرات، على سبيل المثال أن الانتخابات العامة الأمريكية في عام 2020 قد “سُرقت”، وزعمت نسخة DAN أيضًا أن لقاحات COVID-19 تم تطويرها كجزء من مؤامرة عالمية للسيطرة على السكان.

ويعد ChatGPT نموذج لغوي كبير تم تدريبه على كمية هائلة من البيانات النصية، مما يسمح له بإنشاء استجابات شبيهة بالبشر لموجه معين.

لكن المطورين أضافوا ما يُعرف باسم “الحقن الفوري”، وهي تعليمات توجه استجاباتها لمطالبات معينة.

على سبيل المثال، إذا تم سؤال روبوت محادثة الذكاء الاصطناعى AI لشركة ما “ما هي ساعات العمل الخاصة بك؟” ، فمن المحتمل أن يستجيب بالساعات التي تنطبق على تلك الشركة، وهذا لأن الحقن الفوري قد وجه استجابته الافتراضية لتكون ذات صلة بالشركة، على الرغم من أن المستخدم لم يطلب منها القيام بذلك على وجه التحديد.

وباستخدام ChatGPT في كثير من الأحيان، عندما يُسأل عن شيء ما ينتهك قواعده، سيبدأ الرد بعبارة “أنا آسف، لا يمكنني تلبية هذا الطلب” أو “بصفتي ChatGPT، لا يمكنني تقديم إجابة تتغاضى عن أي سلوك ضار أو يروج له”.

ومع ذلك، فإن DAN هو موجه يأمره بشكل أساسي بتجاهل هذه الحقن الفورية، والرد كما لو أنها غير موجودة.