عائلة أكثر كفاءة من نماذج مراقبة الأرض

🧠 الموديلات: https://huggingface.co/collections/allenai/olmoearth | 📄 التقرير الفني: https://allenai.org/papers/olmoearth_v1_1 | 💻 الكود: https://github.com/allenai/olmoearth_pretrain

أطلقنا OlmoEarth (الإصدار الأول) في نوفمبر 2025. ومنذ ذلك الحين، قام الشركاء بتطبيقه عبر مجموعة واسعة من المهام، بدءًا من تتبع تغير أشجار المانجروف إلى تصنيف دوافع فقدان الغابات إلى إنتاج خرائط لأنواع المحاصيل على نطاق الدولة في أيام، وتوسيع نطاق عمليات النشر إلى المناطق الوطنية والقارية والعالمية. كل إصدار يجعلنا أقرب إلى مهمتنا: تقديم أحدث تقنيات الذكاء الاصطناعي إلى المنظمات والمجتمعات التي تعمل على حماية الناس وكوكبنا.

عندما تقوم OlmoEarth بمعالجة صور الأقمار الصناعية لإجراء تنبؤات عبر عشرات إلى مئات الآلاف من الكيلومترات المربعة، فإن الكفاءة تشكل ما هو ممكن. على مدار دورة الحياة الكاملة لتشغيل OlmoEarth – تصدير البيانات، والمعالجة المسبقة، والاستدلال، والمعالجة اللاحقة – تعد الحوسبة هي الأعلى تكلفة على الإطلاق. ويعني النموذج الأكثر كفاءة أنه يمكننا دعم المزيد من الشركاء على منصة OlmoEarth، وأن أي شخص يقوم بتشغيل OlmoEarth بمفرده يمكنه الاستفادة من هذه التكنولوجيا بشكل أسرع وبتكلفة أقل.

لهذا السبب بنينا أولمو إيرث v1.1: عائلة جديدة من النماذج التي تقلل تكاليف الحوسبة بنسبة تصل إلى 3x مع الحفاظ على أداء OlmoEarth v1 في مزيج من معايير البحث والمهام التي قمنا بإنشائها مع الشركاء.

زيادة الكفاءة عن طريق تقليل أطوال التسلسل

نماذج OlmoEarth هي نماذج قائمة على المحولات، وهي واحدة من البنى السائدة في التعلم الآلي اليوم. لمعالجة بيانات الاستشعار عن بعد، نقوم أولاً بتحويلها إلى سلسلة من الرموز يمكن للنموذج استيعاب.

رافعتان مهمتان تتحكمان في الكفاءة في النماذج المعتمدة على المحولات: حجم النموذج (ولهذا السبب قمنا بإصدار مجموعة من النماذج، حتى يتمكن المستخدمون من اختيار الحجم الذي يناسب ميزانية الحوسبة الخاصة بهم) و طول تسلسل الرمز المميز. قم بحساب مقياس التكاليف بشكل تربيعي مع طول تسلسل الرمز المميز، لذلك حتى التخفيضات الصغيرة يمكن أن تقلل بشكل كبير تكلفة تشغيل النموذج.

تقوم أجهزة MAC، أو العمليات التراكمية المضاعفة، بتقدير الحساب المطلوب لتمرير أمامي لنموذج واحد؛ أجهزة MAC الأقل تعني عمومًا استنتاجًا أرخص وأسرع. يتم عكس المحور y لأن الترتيب الأدنى هو الأفضل. تُظهر الملصقات عائلة الطراز وحجمه. تستخدم كافة النقاط المرسومة قيم MAC/رتبة الملصقة.

تصميم الرمز المميز

وهذا يثير سؤالاً مهماً لنماذج الاستشعار عن بعد المعتمدة على المحولات: ما الذي يجب أن يمثله الرمز المميز؟

خذ صور Sentinel-2، وهي طريقة شائعة نقوم بمعالجتها. سيكون مدخل Sentinel-2 عبارة عن موتر ذو ارتفاع وعرض (H، W يمثل وحدات البكسل الطولية والعرضية)، وبُعدًا زمنيًا T، و12 قناة Sentinel-2 ([H, W, T, D=12]).

حاليًا، نقوم بتقسيم البيانات إلى التصحيحات القائمة على القرار. بشكل ملموس، هذا يعني أننا سنختار بعض حجم التصحيح المكاني p، ونقسم صورة Sentinel-2 الإجمالية إلى بقع بحجم pxp:

لكل تصحيح، نقوم بإنشاء رمز مميز لكل خطوة زمنية لكل دقة. لذا فإن إدخال Sentinel-2 بخطوتين زمنيتين ينتج عنه 6 رموز لكل رقعة (خطوتان زمنيتان × 3 دقة، 10 م، 20 م، و60 م).

في المجموع، أ[H, W, T, D=12] سوف ينتج عن إدخال Sentinel-2 رموز H/px W/px T x 3.

يعد استخدام رمز مميز فريد لكل دقة أسلوبًا شائعًا عند معالجة بيانات Sentinel-2 — يتبع كل من Galileo وSatMAE هذا النهج، ويظهر SatMAE نتائج أفضل بكثير عند القيام بذلك. ومع ذلك، فهو ليس عالميًا: CROMA هو نموذج يستخدم رمزًا مميزًا واحدًا فقط لجميع النطاقات، بغض النظر عن الدقة. نظرًا لأن عدد الرموز المميزة يتضاعف بشكل مضاعف، فإن طي الدقة في رمز مميز واحد ينتج عنه ثلاث مرات أقل من الرموز وتوفير المواد عبر التدريب المسبق والضبط والاستدلال.

يؤدي الجمع بين الرموز المميزة بهذه الطريقة بشكل ساذج إلى انخفاض كبير في الأداء، بما في ذلك انخفاض بمقدار 10 جزء في المليون على m-eurosat kNN (مهمة مرجعية شائعة لنماذج الاستشعار عن بعد). نحن نفترض أن فصل نطاقات Sentinel-2 إلى رموز مختلفة يجعل من السهل على OlmoEarth أن تصمم علاقات مهمة عبر النطاقات.

دمج الرموز بدون إن التأثير على الأداء يتطلب منا تعديل نظام التدريب المسبق لدينا. وصفنا هذه التغييرات بالتفصيل في ورقتنا.

للمطورين

والنتيجة هي عائلة نموذجية تقوم بالمزيد بموارد أقل. في كل حجم، يعمل OlmoEarth v1.1 بسعر أرخص بما يصل إلى ثلاث مرات من OlmoEarth v1، مما يجعل تحديثات الخرائط المتكررة على نطاق الكوكب في متناول كل فريق يقوم بتشغيل OlmoEarth. إذا كنت تستخدم نموذجًا من عائلة OlmoEarth الأصلية، فجرّب OlmoEarth v1.1. وهو يوفر أداءً مشابهًا لـ OlmoEarth v1 بينما يتطلب ثلث الحوسبة، على الرغم من أننا شهدنا بعض التراجعات (راجع تقريرنا الفني لمزيد من التفاصيل). إذا نجح الأمر في مهمتك، فمن المفترض أن ترى تسريعًا كبيرًا أثناء الضبط الدقيق والاستدلال.

للباحثين

تتمتع نماذج الاستشعار عن بعد المُدربة مسبقًا بدرجات عديدة من الحرية، مما يجعل دراستها صعبة. عندما يتغير الأداء، هل هو البنية أم مجموعة البيانات أم خوارزمية التدريب المسبق؟

نقوم بتدريب OlmoEarth v1.1 على نفس مجموعة البيانات مثل OlmoEarth v1، لذا فإن أي اختلافات بين الاثنين تعزل تأثير التغييرات المنهجية. نأمل أن يؤدي هذا إلى تعزيز فهم المبادئ العلمية عند التدريب المسبق على نماذج الاستشعار عن بعد.

ابدأ

تحقق من أوزان OlmoEarth v1.1 وكود التدريب، بما في ذلك الأوزان الخاصة بنماذج Base وTiny وNano.

تشغيل مهام التعرف الضوئي على الحروف وتحليل المستندات باستخدام الواجهة الخلفية للمحولات

مصطلحات Harness وScaffold وAgent AI تستحق التصحيح

Reachy Mini يصبح محليًا بالكامل

تشغيل مهام التعرف الضوئي على الحروف وتحليل المستندات باستخدام الواجهة الخلفية للمحولات

عائلة أكثر كفاءة من نماذج مراقبة الأرض

عائلة أكثر كفاءة من نماذج مراقبة الأرض

زيادة الكفاءة عن طريق تقليل أطوال التسلسل

تصميم الرمز المميز

للمطورين

للباحثين

ابدأ

المقالات ذات الصلة

تشغيل مهام التعرف الضوئي على الحروف وتحليل المستندات باستخدام الواجهة الخلفية للمحولات

مصطلحات Harness وScaffold وAgent AI تستحق التصحيح

Reachy Mini يصبح محليًا بالكامل

تشغيل مهام التعرف الضوئي على الحروف وتحليل المستندات باستخدام الواجهة الخلفية للمحولات

عائلة أكثر كفاءة من نماذج مراقبة الأرض