ذكاء مدمج متعدد الوسائط لمستندات المؤسسة

يسعدنا اليوم أن نعلن عن Granite 4.0 3B Vision، وهو نموذج لغة رؤية مدمج (VLM) مصمم لفهم مستندات المؤسسة. لقد تم تصميمه خصيصًا لاستخراج المعلومات بشكل موثوق من المستندات والنماذج والمرئيات المعقدة. تتفوق Granite 4.0 3B Vision في القدرات التالية:

استخراج الجدول: التحليل الدقيق لهياكل الجدول المعقدة (على سبيل المثال، متعدد الصفوف، متعدد الأعمدة، وما إلى ذلك) من صور المستندات
فهم الرسم البياني: تحويل المخططات والأشكال إلى تنسيقات أو ملخصات أو تعليمات برمجية قابلة للتنفيذ يمكن قراءتها آليًا
استخراج زوج القيمة المفتاحية الدلالية (KVP).: تحديد وتأريض أزواج حقول القيمة الأساسية ذات المعنى الدلالي عبر تخطيطات المستندات المتنوعة

يتم شحن النموذج كمحول LoRA أعلى Granite 4.0 Micro، وهو نموذج اللغة الكثيف لدينا، مع الحفاظ على الرؤية واللغة المعيارية للنسخ الاحتياطي للنص فقط والتكامل السلس في خطوط الأنابيب المختلطة. ويستمر في دعم مهام لغة الرؤية مثل إنتاج أوصاف مفصلة باللغة الطبيعية من الصور (على سبيل المثال، “وصف هذه الصورة بالتفصيل”). يمكن استخدام النموذج بشكل مستقل أو جنبًا إلى جنب مع Docling لتعزيز مسارات معالجة المستندات بقدرات الفهم البصري العميق.

كيف تم بناء رؤية الجرانيت 4.0 3B

إن أداء Granite 4.0 3B Vision هو نتيجة لثلاثة استثمارات رئيسية: مجموعة بيانات فهم المخططات المصممة لهذا الغرض والتي تم إنشاؤها عبر نهج جديد لزيادة البيانات الموجهة بالرمز، وهو متغير جديد من بنية DeepStack التي تتيح حقن ميزات مرئية عالية التفاصيل، وتصميم معياري يحافظ على النموذج عمليًا للنشر المؤسسي.

ChartNet: نماذج تعليمية لفهم الرسوم البيانية حقًا

تمثل الرسوم البيانية تحديًا لنماذج لغة الرؤية (VLMs) لأن فهمها يتطلب تفكيرًا مشتركًا حول الأنماط المرئية والبيانات الرقمية واللغة الطبيعية، وهي مجموعة لا تستطيع معظم نماذج لغة الرؤية التعامل معها بشكل جيد، خاصة عندما تكون الدقة المكانية مهمة – مثل قراءة القيم الدقيقة من مخطط خطي. لسد هذه الفجوة، قمنا بتطوير ChartNet: مجموعة بيانات متعددة الوسائط بمقياس مليون مصممة خصيصًا لتفسير الرسوم البيانية واستدلالها، والتي تم وصفها بالتفصيل في ورقتنا القادمة CVPR 2026.

يستخدم ChartNet مسارًا تركيبيًا موجهًا بالكود لإنشاء 1.7 مليون عينة مخططات متنوعة تغطي 24 نوعًا من المخططات و6 مكتبات تخطيطية [see Figure 1]. ما يجعله مميزًا للغاية هو أن كل عينة تتكون من خمسة مكونات متوافقة – رسم التعليمات البرمجية، والصورة المقدمة، وجدول البيانات، وملخص اللغة الطبيعية، وأزواج ضمان الجودة – مما يوفر للنماذج رؤية عميقة عبر الوسائط لما يعنيه المخطط، وليس فقط كيف يبدو. تتضمن مجموعة البيانات أيضًا مجموعات فرعية مشروحة من قبل الإنسان ومجموعات فرعية من العالم الحقيقي، والتي تمت تصفيتها للتأكد من الدقة البصرية والدقة الدلالية والتنوع.

والنتيجة هي مورد تدريب ينقل VLMs من مجرد وصف المخططات إلى الفهم الحقيقي للمعلومات المنظمة التي تقوم بتشفيرها – مع تحقيق مكاسب متسقة عبر أحجام النماذج والبنيات والمهام.

الشكل 1: خط أنابيب توليد البيانات الاصطناعية الخاص بـ ChartNet.

DeepStack: حقن الميزات المرئية بشكل أكثر ذكاءً

تقوم معظم VLMs بإدخال معلومات مرئية في نموذج اللغة الخاص بها عند نقطة واحدة، مما يجبر النموذج على التعامل مع كل من الدلالات عالية المستوى والتفاصيل المكانية الدقيقة في وقت واحد. يتبع Granite 4.0 3B Vision نهجًا مختلفًا مع DeepStack حقن: يتم توجيه الميزات المرئية المجردة إلى طبقات سابقة للفهم الدلالي، بينما يتم تغذية الميزات المكانية عالية الدقة إلى طبقات لاحقة للحفاظ على التفاصيل. والنتيجة هي نموذج يفهم ما هو موجود في المستند وأين يوجد – وهو أمر بالغ الأهمية لمهام مثل استخراج الجدول، وفهم المخطط، وتحليل KVP حيث يكون التخطيط مهمًا بقدر أهمية المحتوى. للحصول على تفاصيل فنية كاملة، راجع قسم بنية النموذج في بطاقة النموذج.

النمطية: نموذج واحد، وضعين

يتم تعبئة Granite 4.0 3B Vision كمحول LoRA أعلى Granite 4.0 Micro، وليس كنموذج مستقل. من الناحية العملية، يعني هذا أن نفس النشر يمكن أن يخدم أعباء العمل متعددة الوسائط والنص فقط، ويعود تلقائيًا إلى النموذج الأساسي عندما لا تكون الرؤية مطلوبة. وهذا يجعل التكامل المؤسسي واضحًا دون التضحية بالأداء.

كيف يؤدي

الرسوم البيانية: تم تقييمه وفقًا لمعيار ChartNet الذي تم التحقق منه بواسطة الإنسان باستخدام LLM-as-a-حكم، ويحقق Granite 4.0 3B Vision أعلى درجة Chart2Summary (86.4%) بين جميع النماذج التي تم تقييمها، بما في ذلك النماذج الأكبر حجمًا. [see Figure 2]. كما أنها تحتل المرتبة الثانية في Chart2CSV (62.1%)، خلف Qwen3.5-9B فقط (63.4%)، وهو نموذج يزيد حجمه عن ضعف حجمه.

الشكل 2: أداء رؤية Granite 4.0 3B في مخطط 2csv وملخص مخطط 2، مقارنة بنماذج لغة الرؤية النظيرة باستخدام LLM-as-a-قاضي.

الجداول: نقوم بتقييم استخراج الجدول في إعدادين: الجداول المقصوصة (مناطق معزولة) ومستندات الصفحة الكاملة (الجداول المضمنة في تخطيطات معقدة) [see Figure 3]. تشتمل مجموعة المعايير على TableVQA-extract (صور الجدول المقصوصة)، وجداول OmniDocBench (مستندات الصفحة الكاملة)، وPubTables-v2 (كل من الإعدادات المقصوصة وإعدادات الصفحة الكاملة). يتم تكليف النماذج باستخراج الجداول بتنسيق HTML ويتم تسجيل العلامات باستخدام TEDS، وهو مقياس يلتقط الدقة الهيكلية ودقة المحتوى. يحقق Granite 4.0 3B Vision أقوى أداء عبر المعايير، متفوقًا على PubTablesV2 في كل من النتائج المقصوصة (92.1) والصفحة الكاملة (79.3)، وOmniDocBench (64.0)، وTableVQA (88.1) بين جميع النماذج التي تم تقييمها.

الشكل 3: أداء استخراج جدول Granite 4.0 3B Vision عبر المعايير المقتصة والصفحة الكاملة (TableVQA-extract، PubTables-v2، OmniDocBench-tables)، مقاسًا بواسطة TEDS.

KVP الدلالي: VAREX هو معيار مصمم خصيصًا للتمييز بين نماذج الاستخراج الصغيرة، ويضم 1777 نموذجًا حكوميًا أمريكيًا يمتد من تخطيطات مسطحة بسيطة إلى هياكل متداخلة وجدولة معقدة. يتم تقييم النماذج باستخدام المطابقة التامة (EM)، وهو مقياس صارم يتطلب أن تتوافق أزواج القيمة الأساسية المستخرجة من النموذج مع الحقيقة الأساسية. تحقق رؤية Granite 4.0 3B دقة EM بنسبة 85.5% بدون طلقة.

كيفية استخدامه

يمكن أن يعمل Granite 4.0 3B Vision إما كمحرك مستقل لاستخلاص المعلومات المرئية أو كجزء من خط أنابيب معالجة المستندات المؤتمت بالكامل مع Docling. تم تصميم النموذج لدعم الاستخراج الدقيق والقابل للتطوير عبر أنواع المستندات المتنوعة والتنسيقات المرئية.

1. فهم الصورة المستقلة
يمكن تشغيل Granite 4.0 3B Vision مباشرة على الصور الفردية، مما يجعل هذا الخيار مفيدًا للتطبيقات ذات سير العمل الحالي والتي تحتاج إلى استخلاص مرئي مستهدف دون تعديل الأنظمة الأولية. يوفر ذلك تكاملاً سهلاً في سير عمل الأتمتة الحالي وهو مناسب للأدوات خفيفة الوزن والمخصصة للمهام (على سبيل المثال، محللو النماذج، ومحللو المخططات، وما إلى ذلك).

2. فهم الوثيقة المتكاملة لخطوط الأنابيب مع Docling
يمكن أيضًا دمج Granite 4.0 3B Vision بسلاسة مع Docling لدعم الفهم الكامل للمستندات من البداية إلى النهاية. يمكن أن يقدم هذا الوضع:

معالجة واسعة النطاق لملفات PDF متعددة الصفحات
الكشف الآلي عن الأشكال والجداول والعناصر المرئية الأخرى وتقسيمها واقتصاصها باستخدام Docling وإعادة توجيه المحاصيل النظيفة إلى نموذج Granite Vision لاستخراج الحبيبات الدقيقة
سير عمل فعال مع تكاليف حسابية إجمالية أقل وإنتاجية أسرع
دقة أعلى واستخراج أكثر موثوقية وكفاءة محسنة بشكل ملحوظ عبر مجموعات المستندات الكبيرة

أمثلة لحالات الاستخدام

معالجة النموذج: استخراج الحقول المنظمة من الفواتير والنماذج والإيصالات باستخدام إمكانيات KVP أو إنشاء أوصاف الأرقام باللغة الطبيعية باستخدام ميزة image2text (على سبيل المثال، “وصف هذه الصورة بالتفصيل”).
تحليل التقارير المالية: استخدم Docling لتحليل التقارير واكتشاف الأشكال واقتصاص العناصر المرئية. قم بمعالجة المخططات باستخدام مخطط Granite Vision وchart2csv وchart2code والجداول باستخدام إمكانات table_json لتحويلها إلى بيانات منظمة يمكن قراءتها بواسطة الآلة مما يتيح رؤى قابلة للتنفيذ.
ذكاء وثيقة البحث: استخدم Docling للتعامل مع التعرف الضوئي على الحروف وتحليل التخطيط عبر ملفات PDF الأكاديمية الكثيفة، وتمرير الأشكال المستخرجة إلى ملخص Chart2 ومحاصيل الجدول إلى table_html لجعل المحتوى المرئي قابلاً للاكتشاف إلى جانب نص حر الشكل في مسار واحد.

جربه اليوم

يتوفر Granite 4.0 3B Vision الآن على HuggingFace، وتم إصداره بموجب ترخيص Apache 2.0. تتوفر التفاصيل الفنية الكاملة ومنهجية التدريب والنتائج المعيارية في بطاقة النموذج. نود أن نسمع ما تنشئه باستخدامه — شارك بتعليقاتك في علامة تبويب المجتمع.

أي واجهة أمامية مخصصة مع واجهة Gradio الخلفية

تنضم Safetensors إلى مؤسسة PyTorch

عوالم تفاعلية عالية الدقة لوحدات معالجة الرسومات اليومية

ذكاء مدمج متعدد الوسائط لمستندات المؤسسة

أي واجهة أمامية مخصصة مع واجهة Gradio الخلفية

ذكاء مدمج متعدد الوسائط لمستندات المؤسسة

كيف تم بناء رؤية الجرانيت 4.0 3B

ChartNet: نماذج تعليمية لفهم الرسوم البيانية حقًا

DeepStack: حقن الميزات المرئية بشكل أكثر ذكاءً

النمطية: نموذج واحد، وضعين

كيف يؤدي

كيفية استخدامه

جربه اليوم

المقالات ذات الصلة

أي واجهة أمامية مخصصة مع واجهة Gradio الخلفية

تنضم Safetensors إلى مؤسسة PyTorch

عوالم تفاعلية عالية الدقة لوحدات معالجة الرسومات اليومية

ذكاء مدمج متعدد الوسائط لمستندات المؤسسة

أي واجهة أمامية مخصصة مع واجهة Gradio الخلفية