يسعدنا إطلاق Holotron-12B، وهو نموذج متعدد الوسائط لاستخدام الكمبيوتر من شركة H. بعد تدريبه من نموذج NVIDIA Nemotron-Nano-2 VL المفتوح على مزيج البيانات الخاص بشركة H، يعد Holotron-12B نتيجة تعاون وثيق بين مختبرات الأبحاث لدينا لتصميم نوع جديد من النماذج المُحسّنة بشكل أساسي من أجل الحجم والأداء في الإنتاج.

تعد شركة H جزءًا من برنامج NVIDIA Inception.

النموذج متاح الآن على Hugging Face.

تعمل معظم النماذج متعددة الوسائط اليوم على تحسين الرؤية الثابتة أو اتباع التعليمات بشكل أساسي. ومع ذلك، فإن Holotron-12B، تمامًا مثل نموذج Holo2، له هدف مختلف: العمل كنموذج سياسة لوكلاء استخدام الكمبيوتر الذين يجب عليهم الإدراك واتخاذ القرار والتصرف بكفاءة في البيئات التفاعلية.

مع Holotron-12B، أردنا إنشاء نموذج يمكنه توسيع نطاق الإنتاج بكفاءة وفعالية أثناء التعامل مع سياقات طويلة تحتوي على صور متعددة، ولا يزال يؤدي أداءً جيدًا وفقًا لمعايير الوكيل. قدم نموذج NVIDIA Nemotron أساسًا قويًا من ناحية الاستدلال، ومن خلال تطوير Holotron-12B، أظهرنا مقدار ما يمكن أن يحققه النموذج من خلال المزيد من التدريب.

استنتاج عالي الإنتاجية باستخدام بنية SSM هجينة

إن القفزة الكبيرة التي حققها Holotron-12B في كفاءة الاستدلال أصبحت ممكنة بفضل بنية Nemotron التأسيسية، والتي تستخدم نموذج الفضاء الهجين (SSM) وآلية الاهتمام. على عكس النماذج المعتمدة على المحولات البحتة، تم تحسين هذا التصميم لتقديم إنتاجية عالية. توفر نماذج مساحة الحالة قابلية توسع فائقة لاستدلال السياق الطويل عن طريق تجنب تكلفة الحساب التربيعي المرتبطة بآلية الاهتمام الكامل، ولا سيما الاستفادة من أعباء العمل الوكيل التي تتضمن صورًا متعددة وتاريخ تفاعل طويل. من حيث الاستدلال، فإن المساهمة الرئيسية لـ SSM هي بصمة الذاكرة المنخفضة بشكل كبير: في حين أن اهتمام الفانيليا يخزن تنشيطات K و V لكل رمز وطبقة (ذاكرة التخزين المؤقت KV سيئة السمعة)، فإن SSMs هي نموذج خطي متكرر، يخزن فقط حالة ثابتة لكل طبقة لكل تسلسل تم إنشاؤه، بغض النظر عن طول التسلسل.

عند تقييمه على WebVoyager Benchmark، يتفوق النموذج باستخدام عبء عمل وكيل متعدد الوسائط في العالم الحقيقي يتميز بسياق طويل وصور متعددة عالية الدقة وتزامن عالي للطلب من 100 عامل معياري. من خلال تشغيله على وحدة معالجة رسوميات H100 واحدة واستخدام vLLM مع أحدث تحسينات SSM (الإصدار 0.14.1)، حقق Holotron-12B إنتاجية أعلى بأكثر من الضعف مقارنةً بـ Holo2-8B. وهذا يجعل Holotron-12B خيارًا جذابًا لأحمال العمل المرتبطة بالإنتاجية، مثل إنشاء البيانات والتعليقات التوضيحية والتعلم المعزز عبر الإنترنت.

في إعداد تجربة مضبوطة (انظر الشكل 2)، يستمر Holotron-12B في التوسع بكفاءة مع زيادة التزامن، مع ارتفاع إجمالي إنتاجية الرمز المميز بشكل مطرد إلى 8.9 ألف رمز مميز/ثانية بحد أقصى للتزامن يبلغ 100. في المقابل، إجمالي إنتاجية الرمز المميز لهضاب Holo2-8B بسرعة أكبر بكثير عند 5.1 ألف رمز مميز/ثانية. يسلط هذا السلوك الضوء على قوة رئيسية في بنية Nemotron، وهي استخدام VRAM بشكل أكثر فعالية وكفاءة، ومساحة إجمالية أصغر للذاكرة، مما يسمح بأحجام دفعات فعالة أكبر بكثير على نفس الجهاز. حتى في أحجام الدفعات الكبيرة، يحافظ Holotron-12B على إنتاجية قوية.

تدريب وتقييم Holotron-12B

تم تدريب Holotron-12B على مرحلتين. لقد بدأنا من Nemotron-Nano-12B-v2-VL-BF16، وهو نموذج أساسي متعدد الوسائط نشرته NVIDIA. أجرينا بعد ذلك ضبطًا دقيقًا تحت الإشراف على مزيج بيانات التنقل والترجمة الخاص بشركة H، مع التركيز على فهم الشاشة والتأريض والتفاعلات على مستوى واجهة المستخدم.

تم تدريب نقطة التفتيش النهائية على ما يقرب من 14 مليار رمز.

معايير الوكيل

فيما يتعلق بمعايير استخدام الكمبيوتر والملاحة، يُظهر Holotron-12B تحسينات قوية مقارنة بالنموذج الأساسي Nemotron وأداء قوي مع نماذج الوكيل الراسخة. ارتفع أداء WebVoyager الخاص به من 35.1% إلى 80.5%، وهو ما يتجاوز أداء Holo2-8B على المعيار ويوضح قدرة النموذج على الأداء بفعالية في بيئة وكيلة.

معايير التوطين

كما تم تحسين Holotron-12B بشكل كبير مقارنة بنموذج Nemotron الأساسي من حيث الترجمة ومعايير التأريض مثل OS-World-G وGroundUI وWebClick.

يوضح Holotron-12B أن نموذج NVIDIA Nemotron VL يوفر أساسًا قويًا للوكلاء متعددي الوسائط في العالم الحقيقي عند إقرانه بإعداد التدريب المناسب وأعمال البنية التحتية.

يوفر النموذج أداءً قويًا للوكيل، وإنتاجية استدلال محسنة بشكل كبير، ومسارًا واضحًا للتحسينات المستقبلية، خاصة فيما يتعلق بالتدريب على الرؤية عالية الدقة.

نحن نتطلع إلى رؤية ما يبنيه الآخرون باستخدام Holotron-12B. النموذج ونقاط التفتيش متاحة الآن على Hugging Face بموجب ترخيص NVIDIA Open Model License.

أعلنت NVIDIA اليوم عن إطلاق Nemotron 3 Omni. بناءً على نجاح Holotron-12B، نحن نستعد للتدريب اللاحق لهذا الجيل القادم من النماذج متعددة الوسائط. من خلال الاستفادة من الأسس المعمارية الهجينة المحسنة SSM-Attention وMoE لعائلة Nemotron 3، نهدف إلى تحقيق قفزات أكبر في قدرات التفكير والدقة المتعددة الوسائط مع Nemotron 3 Omni المعلن عنه حديثًا. وبما أن هذا التطور يدفع Holotron إلى ما هو أبعد من البحث وإلى التطبيق التجاري، فإنه سيزود المؤسسات بأداء عالي الإنتاجية وزمن وصول منخفض مطلوب لعمليات نشر “استخدام الكمبيوتر” المستقلة على نطاق واسع.

شاركها.
اترك تعليقاً