أصبحت كل Eval Ever (EEE) وHugging Face Community Evals متوافقة الآن. نحن نقوم بتمكين النشر المتبادل وتفسير نتائج التقييم، مع الارتباط بالنماذج المفتوحة ولوحات المتصدرين ومخزن بيانات التعريف الموحد.
تم إطلاق EEE في فبراير 2026 كمشروع لتحالف EvalEval، وهو أول جهد مشترك بين المؤسسات لتحسين كيفية الإبلاغ عن نتائج تقييم الذكاء الاصطناعي من قبل المقيمين من الطرف الأول والثالث. أطلقت Hugging Face خدمة Community Evals في فبراير 2026 لإضفاء اللامركزية على كيفية الإبلاغ عن النتائج المعيارية على Hub. وهي مجتمعة تعمل على سد الثغرات في كيفية ثقة المستخدمين والباحثين وصانعي السياسات في التقييمات والنماذج وفهمها واختيارها.
نتائج التقييم هي الطريقة التي نقيس بها قدرات النموذج، ونقارن النماذج ببعضها البعض، ونفكر في السلامة والحوكمة، ومع ذلك فهي متناثرة ويصعب مقارنتها. إنهم موجودون في الأوراق، ولوحات المتصدرين، ومنشورات المدونات، وسجلات الأدوات، من بين أمور أخرى، كل منها بتنسيقها الخاص. غالبًا ما يُرجع نفس النموذج على نفس المعيار نتائج مختلفة اعتمادًا على من قام بتشغيله وكيف؛ تم الإبلاغ عن LLaMA 65B، على سبيل المثال، عند 63.7 و48.8 على MMLU. يمكن أن تنشأ هذه الفجوات من إعدادات التقييم التي وجدنا أنها لا يتم الإبلاغ عنها عادة.
EEE هو الإصلاح الذي نقدمه لجانب إعداد التقارير. إنه مخطط JSON واحد لنتيجة التقييم الذي يسجل:
- الذي أدار ذلك
- أي نموذج
- كيف تم الوصول إليه
- إعدادات الجيل
- ما يعنيه المقياس في الواقع
- [recommended] ملف JSONL مصاحب لمخرجات كل عينة.
تم إنشاء المخطط بناءً على تعليقات الباحثين والباحثين في مجال السياسة، وهو يأخذ النتائج من أي مصدر، لذا فإن سجلات الحزام، وخدوش لوحة الصدارة، وأرقام الورق جميعها تنتهي في نفس الشكل. يحتوي مستودع GitHub على المحولات والأمثلة ودليل المساهمين. منذ إطلاقه، نما مخزن البيانات على Hugging Face إلى حوالي 229000 نتيجة تقييم عبر أكثر من 22000 نموذج و2200 معيار، مأخوذة من 31 تنسيقًا مختلفًا للتقارير. إن إعادة إنتاج تلك البيانات من الصفر قد تكلف مئات الآلاف من الدولارات، وهي حجة معقولة لعدم السماح للبيانات بالتشتت بمجرد أن يدفع شخص ما مقابل توليدها.
تعرف على المزيد حول المخطط وكيفية المساهمة هنا.
الآن، يأتي مع تكامل وإسناد أفضل. يمكن للمساهمين الآن إرسال نتائج EEE إلى Hugging Face Community Evals. لقد أنشأنا محولًا يأخذ سجلات EEE الخاصة بك ويكتب ملفات YAML الصغيرة التي تتوقعها Hugging Face، لذلك لا يتعين عليك الاحتفاظ بنفس النتيجة بتنسيقين يدويًا.
هذه وظيفة جديدة لكل من يقوم بالإبلاغ عن التقييمات أو قراءتها، وليس فقط المساهمين الحاليين في EEE. يمكن لمقيمي الطرف الأول الذين يقدمون تقاريرهم عن نماذجهم الخاصة ومقيمي الطرف الثالث الذين يقدمون تقارير عن نماذج شخص آخر الإرسال إلى Community Evals وإلى EEE، ويحصل أي شخص يتصفح Hub على نتائج ترجع إلى سجل كامل. عند إرسال بياناتك من خلال حساب Hugging Face الرسمي لمؤسستك، تظهر نتائجك مع علامة اختيار تم التحقق منها على EvalEval، وهي إشارة للقراء بأن الأرقام تأتي مباشرة من المصدر. تتناول بقية هذه المقالة ماهية تقييمات المجتمع وما يفعله المحول.
كيف تعمل Hugging Face Community Evals مع EvalEval
تعانق تقييم المجتمع الوجه له وجهان.
يوجد المعيار في مستودع مجموعة البيانات الذي يسجل نفسه عن طريق إضافة ملف eval.yaml. بمجرد التسجيل، تقوم صفحة مجموعة البيانات هذه بجمع وعرض لوحة المتصدرين لكل نتيجة تم الإبلاغ عنها مقابلها عبر المركز. قائمة المعايير الرسمية تنمو مع مرور الوقت.
نتائج النموذج تعيش في .eval_results/*.yaml داخل الريبو النموذجي. تظهر على بطاقة النموذج وتضاف إلى لوحة المتصدرين القياسية المطابقة. يتم تجميع كل من نتائج المؤلف النموذجي والنتائج المقدمة من قبل أي شخص آخر من خلال طلب السحب، وتحمل كل نتيجة شارة توضح ما إذا كانت مقدمة من المؤلف، أو مقدمة من المجتمع، أو تم التحقق منها بشكل مستقل. يمكن لأي شخص إضافة نتيجة إلى أي نموذج عن طريق فتح PR باستخدام ملف YAML الصحيح، ويمكن لمؤلف النموذج إغلاق PRs أو إخفاء النتائج في الريبو الخاص به.
إليك ما تبدو عليه إحدى لوحات المتصدرين هذه:
لوحة صدارة تقييم المجتمع للاختبار الأخير للإنسانية على المركز
هذا هو المكان الذي يتناسب فيه EEE وCommunity Evars معًا. عندما ترسل نتيجة إلى كليهما، يحدث أمران: أولاً، تظهر نتيجتك على صفحة نموذج Hugging Face ويتم سحبها إلى لوحة صدارة المعيار. وثانيًا، يحمل شارة مصدر ترتبط مباشرة بسجل EEE الكامل، حيث يتم إنشاء تكوين التوليد وإصدار الحزام وملاحظات إمكانية الإنتاج وأي بيانات على مستوى المثيل.

تقييم (MMLU-Pro) من EEE Datastore (أ) مرتبط على مستوى الملف ببطاقة نموذج Hugging Face (ب). ترتبط شارة Source EvalEval بسجل JSON الكامل.
تقوم الوجهتان بوظائف مختلفة لتحقيق نفس الهدف. يضع Hugging Face نتيجتك حيث ينظر الأشخاص إلى النماذج، مع رابط يعود إلى المصدر. تحتفظ EEE بالسجل المنظم الكامل الذي يجعل النتيجة قابلة للتفسير، وتدعم بطاقات التقييم فوقها. أرسل بياناتك إلى كليهما وسيصبح نفس التقييم مرئيًا ومقروءًا في الوقت نفسه، وهذا هو الهدف من الإبلاغ عن أحدهما على الإطلاق.
يمكنك أن ترى هذا التوافق المتبادل أدناه. نفس درجات GPQA التي تظهر على بطاقة النموذج أعلاه تظهر أيضًا في Eval Cards، والتي تجمع بيانات تشغيل EEE مع البيانات الوصفية المعيارية والنموذجية في سجل واحد قابل للتفسير. نفس التقييم، بسطح مختلف:
كيف يعمل
يقوم Hugging Face بتخزين درجات التقييم في نموذج الريبو باعتباره YAML تحت .eval_results/. الحقول المطلوبة هي فقط مجموعة البيانات المعيارية والمهمة والقيمة. كتلة المصدر هي الجزء الذي ينشئ الارتباط الخلفي لـ EEE.
- dataset:
id: openai/gsm8k
task_id: gsm8k
value: 96.8
date: '2024-07-16'
notes: '8-shot CoT'
source:
url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<xx>/<yy>/<uuid>.json
name: EvalEval
يقوم المحول بملء هذا من السجلات الموجودة لديك. انها خرائط source_data.hf_repo ل dataset.id, evaluation_name ل task_id, score_details.score ل value، و evaluation_timestamp ل date، ثم يتم إدراج عنوان URL لكائن مخزن البيانات باعتباره رابط المصدر إلى EEE JSON لكل سجل. وهو يتعامل حاليًا مع أربعة من المعايير الرسمية: MMLU-Pro، وGPQA، وHLE، وGSM8K.
يقوم المحول بأكثر من مجرد إعادة تشكيل الحقول. يمكنك توجيهه إلى إحدى مجموعات مخزن بيانات EEE ويقوم بتنزيل تلك المجموعة مع السجلات التي تشير إليها، ويتحقق من تجزئات الكائن، ويبحث عن الدرجات التي تعين معيارًا مدعومًا. قبل أن يكتب أي شيء على الهواء مباشرة، فإنه يقوم بتدقيق ما هو موجود بالفعل: فهو يقرأ كل شيء .eval_results YAML على الفرع الرئيسي للنموذج وفي العلاقات العامة المفتوحة، ويتم مقارنتها حسب مجموعة البيانات والمهمة بدلاً من اسم الملف. إذا كانت النتيجة موجودة بالفعل، فسيتم وضع علامة عليها already_present، إذا كانت هناك نتيجة مختلفة، فسيتم وضع علامة عليها كـ a score_conflict، وإذا لم يتم حل مستودع النموذج على Hub، فسيتم وضع علامة عليه missing_hf_model. يتم وضع علامة على كل شيء آخر ready.
لا يتم دفع أي شيء دون تسجيل الخروج الخاص بك. تكتب الأداة معاينات YAML محلية وملف مراجعة يمكنك فحصه، وتعرض تقريرًا عما هو جاهز وما يحتاج إلى اهتمام، ولا تفتح العلاقات العامة إلا بعد الكتابة OPEN PRS وأدخل رسالة الالتزام. تعمل عمليات إعادة التشغيل على إعادة استخدام النتائج المخزنة مؤقتًا لمجموعة ما لم تنجح --force.

خطوة مراجعة المحول. يتم إدراج الإدخالات المستبعدة (هنا، النماذج التي لا تحتوي على مستودع Hub مطابق) مع عناوين URL لمصدر EEE الخاصة بها، وينتظر ممثلو العلاقات العامة الجاهزون تأكيدًا صريحًا لـ OPEN PRS.
ابدأ هنا
أرسل سجلاتك الكاملة إلى مخزن بيانات EEE.
يتطلب استخدام EEE خطوة إضافية واحدة فقط، والتي يقوم المحول بأتمتة معظمها. يمكن العثور على أداة تحويل تقييم المجتمع في مستودع GitHub. لمعالجة مجموعة، قم بتنفيذ ما يلي:
uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \
--datastore evaleval/EEE_datastore@main
راجع المعاينات والتقرير الذي تنشئه، ثم اكتب OPEN PRS عندما تكون مستعدًا للتقديم. تتوفر الوثائق الكاملة للمخطط وCLI والمحولات على evalevalai.com/every_eval_ever/hf-community-evals.
