OpenEnv هي أداة لإنشاء بيئة تنفيذ وكيل مثل المحطات الطرفية أو المتصفحات أو أي شيء يمكن للوكيل التفاعل معه. واليوم، يسعدنا أن نعلن أن OpenEnv أصبح أكثر انفتاحًا، لجعل مستقبل وكلاء التدريب مفتوح المصدر.
بدءًا من اليوم، سيتم تنسيق OpenEnv من قبل لجنة تضم حتى الآن Meta-PyTorch، وReflection، وUnsloth، وModal، وPrime Intellect، وNvidia، وMercor، وFleet AI، وMicrosoft، وHugging Face، وRadixArk. OpenEnv يعيش الآن في huggingface/OpenEnv
يتم دعم مشروع OpenEnv واعتماده من قبل بعض المنظمات الرائدة في النظام البيئي للذكاء الاصطناعي، بما في ذلك PyTorch Foundation، وvLLM، وSkyRL (UCB)، وLightning AI، وAxolotl AI، وStanford Scaling Intelligence Lab، وMithril، وOpenMined، وScaler AI Labs، وScaler AI، وPatronus AI، وSurge AI، وHalluminate، وTuring، وScorecard، وSnorkel AI، وSGLang، وMiles.
لماذا نحتاج إلى OpenEnv لتدريب وكلاء المصادر المفتوحة
تستمر أدوات العملاء مثل Claude Code وCodex وOpenClaw وHermes في التحسن. أحد أسباب تحسينها هو أن نماذج مثل GPT-5.5 وOpus 4.8 تم تدريبها على استخدام أدواتها الخاصة.
نريد هذه المكاسب من خلال النماذج مفتوحة المصدر أيضًا: تدريب النماذج المحلية التي تستخدم الأدوات بشكل فعال، وتوفير الحوسبة من خلال تخصيص النماذج لمهام محددة.
لماذا نحتاج إلى أن نكون (حتى) أكثر انفتاحًا؟
تعمل مختبرات Frontier Labs على تدريب النماذج والأدوات التي تعمل في أغلب الأحيان مثل القفازات. تم تدريب النموذج على استخدام الحزام وتحسينه وفقًا لخصائصه. يمكن للنماذج تعميم ما هو أبعد من هذه الأدوات إلى حد ما، لكن لا شيء يفوق كفاءة التدريب.

في العلن، هذا ليس هو الحال. يستخدم المطورون أي أداة، وأي نموذج، وأي محرك استدلال، في أي حالة استخدام يقدرونها. يعد هذا أمرًا أساسيًا للمجتمع، ولكنه يمثل أيضًا تحديًا يتطلب بنية تحتية وأدوات للتعامل معه.
وهنا يأتي دور OpenEnv. إنها مكتبة للتفاعل بين الأدوات والبيئة والمدرب، وتعمل على أي نموذج. ولكي يستمر هذا الأمر، يجب أن تكون مملوكة لجميع أصحاب المصلحة الرئيسيين.
طبقة بروتوكول، وليس إطار عمل للمكافأة
إلى جانب التغيير في الإدارة، فإننا نعمل على تشديد ما هو OpenEnv يكون.
في الإصدارات الأخيرة، أصبح OpenEnv بمثابة طبقة قابلية التشغيل البيني لبيئات RL. وتتمثل مهمتها في توحيد كيفية نشر البيئات ونشرها واستهلاكها من قبل الوكلاء. ولن يملي كيفية تحديد المكافآت أو كيفية عمل حلقات التدريب. ينتمي تعريف المكافأة ونماذج التقييم والمنطق الخاص بالمدرب إلى المكتبات المتخصصة فيها. OpenEnv هو المقبس المشترك الذي يمكنهم توصيله جميعًا.
وهذا يعني عمليا:
واجهة واحدة، والعديد من البيئات التي تكشف جميعها عن واجهة برمجة التطبيقات المألوفة على طراز صالة الألعاب الرياضية (reset(), step(), state()) يعمل على بنية العميل/الخادم. يمكن للمدرب الذي يتحدث OpenEnv قيادة أي بيئة متوافقة دون تعليمات برمجية مخصصة.
البروتوكولات المألوفة والتعبئة الأساسية. يتم تقديم البيئات عبر البروتوكولات القياسية مثل HTTP وWebSocket ويتم تعبئتها باستخدام Docker. يعتبر MCP مواطنًا من الدرجة الأولى، لذا فإن بيئات OpenEnv متوافقة على الفور مع خوادم MCP وتتصرف نفس البيئة بشكل متسق في كل من أوضاع المحاكاة (التدريب/التقييم) والإنتاج.
التفاعل عبر مكتبات env. يمكنك تحديد البيئات واستهلاكها عبر أنظمة بيئية مختلفة (وحدات التحقق، والميناء، وغيرها) وعلى البنية التحتية والمركز الذي تختاره. OpenEnv هي طبقة النشر والواجهة الموجودة أسفلها، وليست منافسًا لها.
ما هي الخطوة التالية
سنركز خلال الأشهر القادمة على الأشياء التي تحول OpenEnv من مشروع سريع النمو إلى معيار يمكن الاعتماد عليه:
- المكافآت الخارجية: السماح بتحديد المكافآت في أي مكتبة تستخدمها بالفعل، مع OpenEnv كطبقة النشر (RFC 006).
- مجموعات المهام عبر مجموعات البيانات: توصيل مهام البيئة بمجموعات بيانات Hugging Face بحيث يتم تكوين البيئات والمعايير بشكل نظيف (RFC 007).
- استمرار تكامل الأدوات: دعم من الدرجة الأولى للأدوات المساعدة.
- أمثلة شاملة: إرشادات تدريبية وتقييمية كاملة في TRL وUnsloth وMiles وما بعدها.
- التحقق التلقائي: قياس جودة البيئة والمساهمة في التعلم النموذجي. سيوفر هذا للمجتمع طريقة قابلة للتطوير لتقييم بيئاتهم ورفع الجودة (فكر في الهاكاثون!). آر إف سي 008.
شارك
يتمحور تصميم OpenEnv حول المجتمع، ولا يزال الوقت مبكرًا – توقع وجود حواف خشنة، وساعدنا على تنعيمها. تحقق من الكود و RFCs: github.com/huggingface/OpenEnv
شكرا لكل من ساعد في تحقيق هذا التحول. دعونا نبني الركيزة المشتركة لوكيل RL مفتوح المصدر معًا.