عندما يتطور مجال ما بسرعة، غالبًا ما تتطور مفرداته بشكل أسرع من فهمه المشترك. تبدأ المصطلحات في التشويش، أو يُعاد استخدامها في سياقات مختلفة، أو تصبح اختصارًا لأفكار لم يتم شرحها بشكل كامل أبدًا. ونحن نرى هذا يحدث حاليًا في مجال وكلاء الذكاء الاصطناعي، حيث يتم خلط المفاهيم معًا، وإعادة تسمية بعضها، واستخدام البعض الآخر على نطاق واسع لبضعة أشهر قبل أن تختفي بهدوء.
قد يكون هذا الأمر مرهقًا بالنسبة للقادمين الجدد، وحتى بالنسبة للممارسين الذين يحاولون مواكبة آخر التطورات. بعد ICLR 2026، نشر أحدنا (@ariG23498) سؤالاً يوضح هذا الارتباك جيدًا:
“ماذا تقصد بمصطلحي “الحزام” و”السقالة” في سياق العملاء؟ لقد سمعت الكثير من التفسيرات أثناء وجودي في المركز الدولي لحل القضايا، لكنني لم أستطع أن أفهم لماذا لم تجتمع في تفسير واحد”.
هذا المسرد هو محاولتنا لتوضيح المصطلحات التي تظهر باستمرار دون تفسيرات واضحة ومتسقة. ليس المقصود منه أن يكون قاموسًا شاملاً لكل مصطلح في هذا المجال. وبدلاً من ذلك، نركز على المفاهيم التي غالبًا ما يتم الخلط بينها، أو يُعاد استخدامها بطرق مختلفة، أو يُفترض أنها واضحة عندما لا تكون كذلك.
تظهر معظم هذه المصطلحات سواء كنت تقوم بإنشاء وكيل، أو نشر وكيل، أو مجرد استخدام أدوات مثل Claude Code، أو Codex، أو Hermes Agent. يغطي القسم الأخير مفاهيم خاصة بنماذج التدريب، والتي تكون أكثر أهمية إذا كنت تعمل على هذا الجانب من الأشياء.
العديد من هذه المصطلحات ليس لها تعريفات مقبولة عالميًا حتى الآن، وتستخدم الأطر المختلفة نفس الكلمة بشكل مختلف. الهدف هنا ليس فرض مفردات واحدة صحيحة، ولكن تقديم نموذج عقلي عملي يجعل متابعة المناقشات أسهل.
دعونا نبدأ.
جدول المحتويات
نموذج
النموذج هو LLM: فهو يأخذ النص ويخرج النص (على سبيل المثال، Claude، Qwen، GPT، Kimi، DeepSeek…). من تلقاء نفسها، لا تحتوي على ذاكرة بين المكالمات ولا توجد حلقة. يمكن للنموذج التعبير عن نية استدعاء أداة، لكنه يحتاج إلى أداة لتنفيذها فعليًا. يجيب على موجه واحد ويتوقف. لفه في سقالات وحزام فيصبح وكيلاً.
السقالات
طبقة تحديد السلوك حول النموذج: موجه النظام، وأوصاف الأداة، وكيفية تحليل استجابات النموذج، وما يتذكره عبر الخطوات (إدارة السياق). فهو يشكل كيفية رؤية النموذج للعالم والتصرف فيه، سواء أثناء التدريب أو عند الاستدلال.
منتجات مثل Claude Code، وCodex، وAntigravity CLI تطلق على الأمر برمته اسم الحزام. تقول مستندات كلود كود ذلك بشكل مباشر: “يعمل كلود كود بمثابة الحزام الوكيل حول كلود.” هذا هو الاستخدام الواسع: الحزام يعني كل ما ليس نموذجًا. يكون التمييز بين السقالة والأداة أكثر أهمية عندما تحتاج إلى التفكير فيهما بشكل منفصل، كما هو الحال في مسار التدريب. ستسمع أيضًا استخدام “السقالة” على نطاق أوسع لتغطية أي بنية تحتية يعتمد عليها الحزام: الخطافات، وتكوين وقت التشغيل، وحتى بنية الدليل.
ترتبط بعض المنتجات مثل Claude Code وCodex ارتباطًا وثيقًا بنماذج مزوديها. يتيح لك آخرون مثل Antigravity CLI وHermes Agent إمكانية توصيل أي طراز.
تسخير
طبقة التنفيذ داخل الوكيل: تستدعي النموذج، وتتعامل مع استدعاءات الأداة، وتقرر متى تتوقف. الحزام هو ما يجعل الوكيل يركض. السقالات، المعرفة أعلاه، هي ما يعمل النموذج من خلاله: تعليماته، وأدواته، وشكله.
هندسة الحزام هو نظام تصميم هذه الطبقة بشكل جيد: تحديد متى يجب أن يتوقف الوكيل، وكيف يتم التعامل مع الأخطاء، وما هي حواجز الحماية التي تبقيه على المسار الصحيح. وينطبق في كل من التدريب والاستدلال. تغطي مقالة Addy Osmani وحساب OpenAI للبناء باستخدام Codex هذا من جانب الاستدلال.
في وقت التقييم، يظهر نفس النمط كـ تسخير إيفال: بدلاً من جمع بيانات التدريب، فإنه يقوم بتشغيل مجموعة ثابتة من السيناريوهات عند نقطة تفتيش نموذجية ويسجل المقاييس بدلاً من تحديث الأوزان.
تستخدم بعض الأطر منسق لوحدة تحكم ذات مستوى أعلى تقوم بتنسيق العمل عبر وكلاء متعددين. على عكس الحزام، الذي يقود النموذج من خلال حلقة التنفيذ الخاصة به، يدير المنسق الوكلاء كوحدات، كل منهم يدير أدواته الخاصة (انظر الوكلاء الفرعيين أدناه).
عامل
يأتي المصطلح من التعلم المعزز، حيث يكون الوكيل ببساطة وظيفة تأخذ ملاحظة وترجع إجراءً. تتخذ البيئة هذا الإجراء وترجع ملاحظة جديدة، وتتكرر الحلقة. لا تزال هذه الحلقة في صميم كيفية عمل وكلاء LLM.
في عالم LLM، توسع هذا المصطلح. الوكيل هو نموذج بالإضافة إلى كل ما حوله يسمح له بالتصرف، وليس الاستجابة فقط. إنه يحول إنشاء النص الخام إلى شيء يمكن أن يعمل في حلقة: أخذ المعلومات، وتحديد ما يجب فعله، والتصرف بناءً على النتائج.
خذ وكيل الترميز كمثال ملموس. موجه النظام وأوصاف الأداة وتنسيق الإخراج الذي يتبعه النموذج يشكل السقالات. الحلقة التي تستدعي النموذج وتتعامل مع استدعاءات الأداة وتقرر متى تتوقف هي الحلقة. في وقت التدريب، يقوم الحزام أيضًا بتشغيل العديد من هذه الحلقات بالتوازي ويغذي النتائج مرة أخرى لتحديث النموذج.

في المجتمع، عادة ما يتم وضعه على أنه الوكيل = الموديل + الحزام (@Vtrivedy10 وتغريدة ويل براون كمرجع). إذا لم تكن النموذج، فأنت الحزام. إن التمييز الدقيق بين الحزام والسقالة الذي يخلق معظم الارتباك هو ما يتناوله القسمان أعلاه.
عندما يتحدث الناس عن منتجات مثل Claude Code، أو Codex، أو Cursor، فإنهم يشيرون إلى أداة محددة مبنية على نموذج معين، تم تصميمها وتحسينها معًا. قد يبدو المنتجان اللذان يستخدمان نفس النموذج الأساسي مختلفين تمامًا لأن أدواتهما تتخذ خيارات مختلفة. كما أن تبديل نموذج أفضل بنفس الحزام يغير التجربة أيضًا. النموذج والحزام والمنتج ثلاثة أشياء مختلفة.
هندسة السياق
تصميم ما يدخل في نافذة سياق الوكيل: ما يراه النموذج في كل خطوة، وموجه النظام، وأوصاف الأداة، وتاريخ المحادثة، والمعرفة المستردة. إنه ليس قرارًا يتم اتخاذه لمرة واحدة: أثناء تشغيل النموذج، تشكل المنعطفات السابقة ما سيتم إجراءه في المكالمات المستقبلية، ويقوم الحزام بإدارة هذا الأمر بشكل فعال طوال فترة التشغيل. إنه ينطبق على كل من التدريب والاستدلال، لكن تكلفة الخطأ فيه مختلفة تمامًا. في التدريب، ما يراه النموذج يشكل ما يتم تعلمه. أخطأ في الأمر وأنت تعيد التدريب. في الاستدلال، إنه مجرد نص: قم بتغيير المطالبة وإعادة النشر. تغطي دورة هندسة سياق HF هذا الأمر بعمق.
الذاكرة جزء من هذه الصورة. الذاكرة قصيرة المدى هو ما يبقى في نافذة السياق أثناء تشغيل واحد: سجل المحادثة، ونتائج الأداة، والتفكير السابق. الذاكرة طويلة المدى يستمر عبر الجلسات، ويتم تخزينه خارجيًا واسترجاعه عند الطلب، ثم يتم إدخاله مرة أخرى في السياق عندما يكون ذلك مناسبًا.
سياسة
السياسة هي السلوك الذي يتبعه الوكيل: في أي موقف، فإنه يحدد احتمال اتخاذ كل إجراء ممكن. في أنظمة LLM، يتم تعلم جزء من هذه السياسة في الأوزان النموذجية، ولكن السلوك يعتمد أيضًا على السقالات والأدوات المحيطة. يمكن أن يتصرف نفس النموذج بشكل مختلف تمامًا اعتمادًا على المطالبات والأدوات والذاكرة وحلقة التنفيذ.
السياسة ليست وكيلا. تحدد السياسة السلوك؛ الوكيل هو النظام الكامل الذي يعمل في البيئة. قم بلف نقطة تفتيش بالسقالات والحزام ونشرها، وستحصل على وكيل سلوكه هو السياسة.
استخدام الأداة
كيف يصل الوكلاء إلى خارج أنفسهم: واجهات برمجة التطبيقات، ومترجمي الأكواد، وقواعد البيانات، وبحث الويب، وأنظمة الملفات. يعبر النموذج عن نية استخدام أداة بتنسيق منظم. تظهر واجهات برمجة التطبيقات الاستدلالية الحديثة هذا ككائن من الدرجة الأولى: يستقبل الحزام المكالمة مباشرة ويوجهها إلى الوظيفة الصحيحة. يتم إدخال النتيجة مرة أخرى في السياق وتستمر الحلقة.
مهارات
حزم معرفية منظمة وقابلة لإعادة الاستخدام تتيح تنفيذ مهام متعددة الخطوات. حيث أ أداة هو إجراء (“تشغيل هذا الأمر”)، أ مهارة يجمع كل ما هو مطلوب لتحقيق الهدف (“التحقيق في هذا الخطأ، وتكوين فرضية، وكتابة الإصلاح”). وهي قابلة للنقل عبر الوكلاء ويتم تحميلها عند الطلب. يتغير الخط الفاصل بين الأداة والمهارة والوكيل الفرعي عبر الأطر. تغطي دورة هندسة سياق HF المهارات بعمق.
الوكلاء الفرعيون
وكيل يتم استدعاؤه بواسطة وكيل آخر للتعامل مع مهمة فرعية محددة. لديها نموذجها الخاص ودعائمها، وأسبابها بشكل مستقل، وترجع النتيجة. لا يحتاج وكيل الاتصال إلى معرفة كيفية عمله داخليًا. وهذا ما يفرق أ وكيل فرعي من أ أداة (استدعاء دالة) أو أ مهارة (المعرفة المجمعة): يمكن للوكيل الفرعي بنفسه التفكير واستخدام الأدوات واستدعاء المزيد من الوكلاء الفرعيين. يُطلق على وكيل الاتصال أحيانًا اسم منسق.
تمرين
تنطبق الشروط المذكورة أعلاه سواء كنت تقوم بالتدريب أو النشر. هذه الأربعة مخصصة للتدريب، حيث يقوم الوكيل بتنفيذ المهام، ويتم تسجيل النقاط، ويتم تحديث أوزان النموذج الخاص به. تم بناء كل نظام تدريب RL لـ LLMs حول نفس المسار:

بيئة ر.ل
البيئة هي أي شيء يمكنك التفاعل معه: كائن ذو حالة يتخذ إجراءً كمدخل، ويقوم بتحديث حالته الداخلية، ويعيد ملاحظة. في سياق LLM، تكون الإجراءات عادةً عبارة عن استدعاءات للأدوات. نظام الملفات هو مثال بسيط: الإجراء touch foo.txt يقوم بتحديث الحالة عن طريق إنشاء الملف، وقد تكون الملاحظة هي قائمة الملفات المحدثة. تختلف التعريفات عبر الأطر.
لقد قمنا مؤخرًا بنشر دليل مخصص حول هذا الأمر، لذا بدلاً من ضغطه هنا، راجع الدليل النهائي لبيئات RL للحصول على تفصيل كامل للأنواع والأطر والأمثلة.
مدرب
المدرب هو ما يجعل الوكيل أفضل: فهو يدير العديد من حلقات العميل ويسجل النتائج ويستخدمها لتحديث أوزان النموذج الداخلي. يعد GRPOTrainer من TRL مثالًا ملموسًا: فئة واحدة تتعامل مع إنشاء الحلقات وتسجيل المكافآت وتحديثات الوزن.
طرح
الطرح عبارة عن عميل واحد يتم تشغيله بالكامل من البداية إلى النهاية: ما شاهده الوكيل وما فعله والمكافأة التي حصل عليها في كل خطوة. ويسمى أيضًا أ مسار أو أ يتعقب، حسب السياق. هذه هي البيانات الأولية التي تتعلم منها خوارزميات RL.
جائزة
النتيجة التي تخبر خوارزمية التدريب ما إذا كان النموذج يتحسن. يمكن أن يكون يمكن التحقق منها (الاختبارات ناجحة/راسبة، مطابقة الإجابات)، أو تعلمت (التفضيلات البشرية، ماجستير في القانون كقاضي)، متناثر (درجة واحدة في نهاية الحلقة)، أو كثيفة (درجة في كل خطوة). وهذا ما يستخدمه المدرب لتحديث أوزان النموذج الداخلي فعليًا. للحصول على تفاصيل شاملة لكل نوع، راجع قسم هندسة المكافآت في دليل Adithya.
العناوين تقسيم المكافأة إلى أبعاد واضحة بالأوزان، بدلاً من رقم واحد. يقوم OpenEnv وVerifiers بتنفيذ قواعد التقييم ككائنات يمكنك دمجها (WeightedSum, Sequential, Gate).
يتعلم أكثر
إذا كان أي تعريف يبدو غير دقيق أو واجهت مصطلحًا فاتناه، فنحن نحب أن نسمع منك.
شكرًا لبيدرو كوينكا، وكوينتين جالويديك، وشون سميث، وأديثيا إس كولافي لمراجعة هذا المنشور.