“عندما يصبح المقياس هدفا، فإنه يتوقف عن أن يكون مقياسا جيدا.” (قانون جودهارت)
TLDR: قدمت شركة Appen Inc. وDataoceanAI مجموعات بيانات ASR باللغة الإنجليزية عالية الجودة تغطي الكلام المكتوب والمحادثة بلهجات متعددة. لمنع المخاطر المحتملة لـ benchmaxxing أو تلوث مجموعة الاختبار، سنحافظ على خصوصية مجموعات البيانات هذه لقياس الأداء عالي الجودة في مهام متعددة.
نحن لا نقوم بتحديث متوسط WER في الوقت الحالي: بشكل افتراضي، يظل متوسط WER الخاص بلوحة المتصدرين محسوبًا على مجموعات البيانات العامة فقط. يمكنك اختياريًا تضمين مجموعات البيانات الخاصة باستخدام زر التبديل لمعرفة تأثيرها 👀
منذ إطلاقها في سبتمبر 2023، تمت زيارة Open ASR Leaderboard أكثر من 710 ألف مرة. لقد أذهلنا اهتمام المجتمع وتحفيزه لمواصلة تعزيز ميزة التعرف على الكلام 🗣️
كلمتان تلخصان الأهداف (ولكنها أيضًا التحديات) في الحفاظ على معيار مثل Open ASR Leaderboard:
-
التوحيد القياسي: يمكن أن تحتوي النماذج على اصطلاحات مختلفة لاستخدامها ومخرجاتها، على سبيل المثال مع/بدون علامات الترقيم والغلاف. تواجه مجموعات البيانات نفس التحديات ويمكن تنظيمها بشكل مختلف. ولتحقيق هذه الغاية، تم جمع جميع مجموعات الاختبار في مجموعة بيانات واحدة على المركز لسهولة الوصول إليها ومعاينتها. علاوة على ذلك، لتوحيد مخرجات النموذج ونصوص مجموعة البيانات، نستخدم أداة تسوية (من بين أشياء أخرى) تزيل علامات الترقيم وحالة الأحرف، وترسم خرائط للتهجئة الأمريكية. لأنه يقوم على تطبيع الهمس.
-
الانفتاح: كود واجهة المستخدم والبرامج النصية للتقييم مفتوحة المصدر. وقد ساعد ذلك ليس فقط على دمج نماذج جديدة، ولكن أيضًا على تحسين جودة إجراءات التقييم من خلال تعليقات ومساهمات المجتمع.
يعد التوحيد القياسي والانفتاح ضروريين لقياس الأداء بشكل هادف، ولكنهما أيضًا يجعلان المعايير أكثر عرضة للتحسين الخاص بمعايير محددة (“benchmaxxing”)، حيث تعمل النماذج على تحسين أداء المتصدرين دون تحقيق مكاسب مقابلة في القوة في العالم الحقيقي. مع تطور النماذج وحالات الاستخدام، ستواصل لوحة المتصدرين Open ASR دمج مجموعات البيانات عالية الجودة وإعدادات التقييم الجديدة لتعكس الأداء الواقعي بشكل أفضل وتحسين المتانة مقابل التحسين المحدد للمعايير.
كما تمت مناقشته في تقريرنا، لا يوجد نموذج ASR واحد “يجمع كل شيء”: أداء البعض أفضل في اللغة الإنجليزية الأمريكية، والبعض الآخر في لهجات متنوعة وإعدادات متعددة اللغات، في حين تم تحسين البعض الآخر للسرعة أو صوت المحادثة. تعطي التطبيقات المختلفة أيضًا الأولوية لقدرات مختلفة، لذا فإن النموذج الذي يؤدي أداءً أقل جودة في أحد الأبعاد ليس بالضرورة نموذجًا أسوأ بشكل عام. الهدف من Open ASR Leaderboard هو التقاط هذه الفروق الدقيقة وتوفير رؤية أكثر شمولية لأداء ASR.
مجموعات بيانات خاصة جديدة عالية الجودة
ولتحقيق هذه الغاية، عملنا مع Appen Inc. وDataoceanAI لتنظيم مجموعات بيانات عالية الجودة لقياس ASR. وفيما يلي بعض المعلومات عن الانقسامات المختلفة.
| مجموعة البيانات | لهجة | مدة [h] | ذكر (%) / أنثى (%) | أسلوب | النسخ |
|---|---|---|---|---|---|
| أبن مكتوبة الاتحاد الأفريقي | استرالية | 1.42 | 49 / 51 | يقرأ | تتخللها، مغلف. |
| Appen Scripted CA | الكندية | 1.53 | 52 / 48 | يقرأ | تتخللها، مغلف. |
| أبين مكتوبة في | هندي | 1.02 | 49 / 51 | يقرأ | تتخللها، مغلف. |
| أبين مكتوبة في الولايات المتحدة | أمريكي | 1.45 | 49 / 51 | يقرأ | تتخللها، مغلف. |
| أبن المحادثة IN | هندي | 1.37 | 51 / 49 | محادثة عفوية | تتخللها اختلالات الطلاقة. |
| أبين المحادثة US003 | أمريكي | 1.64 | 49 / 51 | محادثة عفوية | تتخللها، مغلف، disflueency. |
| أبين المحادثة US004 | أمريكي | 1.65 | 49 / 51 | محادثة عفوية | تتخللها اختلالات الطلاقة. |
| DataoceanAI مكتوبة في الولايات المتحدة | أمريكي | 2.43 | 54 / 46 | يقرأ | علامات الترقيم، المغلف (أسماء العلم)، disflueency. |
| DataoceanAI مكتوبة GB | بريطانية | 2.43 | 47 / 53 | يقرأ | تتخللها اختلالات الطلاقة. |
| DataoceanAI للمحادثة الأمريكية | أمريكي | 8.82 | غير متوفر | محادثة عفوية | تتخللها اختلالات الطلاقة. |
| DataoceanAI للمحادثة GB | بريطانية | 5.96 | غير متوفر | محادثة عفوية | تتخللها اختلالات الطلاقة. |
فيما يلي نموذج صوتي يوضح تنوع المحتوى (المكتوب، والمحادثة، والمختصرات، والطلاقات، وأسماء العلم).
في حين أن مجموعات البيانات الخاصة قد تبدو متعارضة مع روح الانفتاح، فإننا نعتقد أن دمج مجموعات البيانات هذه سيفعل ذلك زيادة الجدارة بالثقة من Open ASR Leaderboard، نظرًا لأنه من غير المرجح أن يتم استغلالها في تحسين الأداء، سواء من قبل مطوري النماذج الذين يستخدمون مجموعات الاختبار العامة بشكل صريح أو الذين يحاولون العثور على بيانات التدريب التي تشبه إلى حد كبير مجموعة بيانات معينة لتعزيز درجاتهم في المتوسط الكلي.
باستخدام مجموعات البيانات هذه، يمكننا أيضًا توفير مقاييس مستهدفة لتسليط الضوء على الفجوات والتحيزات بين الإعدادات الخاضعة للرقابة والمشبعة في كثير من الأحيان (اللكنة الأمريكية المكتوبة) والظروف الأكثر دقة (اللهجات التحادثية وغير الأمريكية). يوجد أدناه لقطة شاشة لعلامة التبويب الجديدة “البيانات الخاصة”.
فيما يلي كيفية حساب كل عمود.
- يحسب “متوسط WER” المتوسط الكلي لمتوسطات موفر البيانات، بحيث يتم ترجيحها بالتساوي.
- ينفذ “Avg Scripted” متوسطًا كبيرًا لجميع مجموعات البيانات المكتوبة.
- يقوم “متوسط المحادثة” بإجراء متوسط كبير لجميع مجموعات بيانات المحادثة.
- يقوم “Avg US” بإجراء متوسط كبير لجميع مجموعات البيانات باللهجات الأمريكية.
- يؤدي “Avg Non-US” إلى إجراء متوسط كبير لجميع مجموعات البيانات ذات اللهجات غير الأمريكية.
نحن لا نقدم عمدًا نتيجة لكل قسم، وذلك لتجنب قيام مطوري النماذج بتعزيز درجاتهم باستخدام مزود بيانات محدد أو لهجة معينة.
كيف يمكنني تقييم النموذج الخاص بي على هذه البيانات؟
احصل على النموذج الخاص بك على لوحة المتصدرين Open ASR، وسنقوم بإجراء التقييم! كما كان من قبل، تتم عملية إضافة نموذج إلى لوحة المتصدرين على Open ASR Leaderboard GitHub:
- افتح طلب سحب، وستظهر قائمة مرجعية للنموذج. كما كان من قبل، يجب عليك الإبلاغ عن نتائجك على مجموعات البيانات العامة.
- سوف نتحقق من النتائج على المجموعات العامة ونحسب المقاييس على المجموعات الخاصة.
- تأكيد النتائج التي حصلنا عليها.
أثناء انتظار إضافة النموذج الخاص بك إلى Open ASR Leaderboard، يمكنك إعداد تقرير ذاتي عن مقاييسك على المجموعات العامة عن طريق إضافة ملف YAML مثل هذا إلى بطاقة النموذج الخاصة بك. سيظهر نموذجك بعد ذلك على لوحة المتصدرين (التي لم يتم التحقق منها) والتي تظهر على صفحة مجموعة البيانات (انظر لقطة الشاشة أدناه). يمكن قراءة المزيد عن هذا النهج للتقييم اللامركزي هنا.
هل تتمتع النماذج المدربة على موفري البيانات بميزة؟
يمكنهم ذلك. لقد طلبنا من Appen وDataoceanAI عدم تقديم هذه البيانات لعملائهم. ولكن حتى لو لم يقدموا هذه البيانات الدقيقة، فإن البيانات من توزيع مماثل لا يزال من الممكن أن تساعد النموذج في مجموعة التقييم المقابلة (على غرار Benchmaxxing من خلال تحسين مهمة صعبة من المجموعات العامة). ولتحقيق هذه الغاية، فإن وجود موفري بيانات متعددين يوازن بين الميزة التي قد يحصل عليها النموذج من استخدام البيانات من أحد مقدمي الخدمة. ونحن منفتحون على المزيد من موفري البيانات ومجموعات التقييم لعلامة التبويب “البيانات الخاصة”!
علاوة على ذلك، للتأكد من أن المجموعات الخاصة لا تؤثر على تصنيف النموذج، فقد قمنا بضبط متوسط WER بشكل افتراضي لعدم تضمين المجموعات الخاصة في المتوسط الكلي الخاص بها.
في لقطة الشاشة أدناه، يمكنك أن ترى أنه تم إيقاف تشغيل “البيانات الخاصة”. وهذا يعني أن المتوسط الكلي عبر مجموعات البيانات لا يشمله.
ما عليك سوى التبديل إلى تقسيمات “البيانات الخاصة” لإدراجها في المتوسط الكلي.
يُظهر عمود “الرتبة Δ” كيفية تغير الترتيب بالنسبة إلى تكوين المتوسط الكلي الافتراضي. يؤدي تضمين مجموعات البيانات العامة أو استبعادها أيضًا إلى تغيير المتوسط الكلي، مما يسمح للمستخدمين بتكييف التقييم مع حالات الاستخدام وتوزيعات البيانات الأكثر صلة بتطبيقاتهم.
ما هي الخطوة التالية؟
يسعدنا سماع تعليقات المجتمع حول كيفية مساعدة ميزات تبديل المسار ومجموعة البيانات الجديدة للمستخدمين في تحديد النموذج (النماذج) الذي يناسب تطبيقهم (تطبيقاتهم) بشكل أفضل. نحن نبحث أيضًا في التقييمات التي تعكس بشكل أفضل الظروف الصاخبة في العالم الحقيقي، ويمكنك توقع بعض الأخبار حول ذلك 😉
أثناء إعداد مجموعات التقييم الخاصة، أولينا المزيد من العناية لضمان جودة الصوت والنصوص المتسقة عبر مجموعات البيانات، بما في ذلك تطوير الأدوات لتحديد الحالات الصعبة مثل ظروف الإشارة إلى الضوضاء المنخفضة أو عدم تطابق النص، نظرًا لأن هذه العوامل يمكن أن تؤثر بشكل مفيد على WER. المزيد عن ذلك في منشور مستقبلي!