يعمل PaddleOCR 3.5 على تقريب مهام التعرف الضوئي على الحروف وتحليل المستندات إلى النظام البيئي Hugging Face. مع هذا الإصدار، يمكن تشغيل نماذج PaddleOCR المدعومة معانقة محولات الوجه كواجهة خلفية للاستدلال عن طريق الإعداد:

engine="transformers"

يستمر PaddleOCR في تقديم سلسلة نماذج OCR مثل PP-OCRv5 وسلسلة نماذج تحليل المستندات مثل مجدافOCR-VL 1.5بينما تصبح Transformers إحدى الواجهات الخلفية المدعومة لتشغيلها.

جرب العرض التوضيحي المباشر على Hugging Face Spaces: https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

ما الذي تغير؟

يقدم PaddleOCR 3.5 واجهة محرك استدلال أكثر مرونة. يمكن للمطورين تحديد الواجهة الخلفية من خلال engine المعلمة وتمرير الخيارات الخاصة بالواجهة الخلفية من خلالها engine_config.

ومن الناحية العملية، هذا يعني:

  • تتم إدارة مسارات هذه المهام بواسطة PaddleOCR، لذلك لا يحتاج المطورون إلى استدعاء كل مكون داخلي يدويًا.
  • تصبح المحولات إحدى الواجهات الخلفية للاستدلال المدعومة لتشغيل نماذج PaddleOCR المدعومة.
  • يمكن للمطورين تكوين الخيارات المتعلقة بالواجهة الخلفية مثل dtypeووضع الجهاز وتنفيذ الانتباه من خلاله engine_config.

طريقة بسيطة لفهم المكدس:

طبقة ماذا يعني أمثلة
طبقة التطبيق التطبيقات التي تستخدم OCR ومخرجات تحليل المستندات RAG، الوكلاء، المستند AI…
الطبقة النموذجية قدرات التعرف الضوئي على الحروف وتحليل المستندات PP-OCRv5، PaddleOCR-VL 1.5…
استنتاج طبقة الخلفية وقت التشغيل المستخدم لتشغيل النماذج المدعومة مجداف الرسم البياني الثابت، مجداف الرسم البياني الديناميكي، المحولات

يدور هذا الإصدار بشكل أساسي حول طبقة الواجهة الخلفية للاستدلال: يستمر PaddleOCR في توفير إمكانات التعرف الضوئي على الحروف وتحليل المستندات، في حين توفر Transformers لنماذج PaddleOCR المدعومة خيارًا خلفيًا آخر يتناسب بشكل طبيعي مع البيئات التي تركز على الوجه. يظل سير عمل Document AI الأكبر في أيدي المطورين ومنشئي التطبيقات.

لماذا هذا مهم

بالنسبة لتطبيقات RAG وDocument AI ووكيل المستندات، غالبًا ما يبدأ الجزء الصعب قبل LLM.

يحتاج المطورون أولاً إلى تحويل ملفات PDF والمستندات الممسوحة ضوئيًا ولقطات الشاشة والجداول والمخططات والصيغ وتخطيطات الصفحات المعقدة إلى بيانات منظمة موثوقة. إذا كانت خطوة العرض هذه ضعيفة، فقد يفقد سير عمل LLM المعلومات الأساسية، أو يسترد سياقًا خاطئًا، أو ينتج إجابات غير موثوقة.

يساعد PaddleOCR في معالجة تحدي استيعاب المستند من خلال توفير نماذج سلسلة OCR مثل PP-OCRv5 ونماذج سلسلة تحليل المستندات مثل PaddleOCR-VL-1.5.

مع PaddleOCR 3.5، أصبح من السهل الآن ربط هذه الإمكانات بالأكوام التي تركز على المحولات. يمكن تشغيل نماذج PaddleOCR المدعومة مع واجهة Transformers الخلفية، بينما يستمر PaddleOCR في إدارة OCR أو مسار تحليل المستندات خلف الكواليس.

بالنسبة للمطورين، يعني هذا احتكاكًا أقل في التكامل ومسارًا أكثر طبيعية من المستندات إلى RAG أو الوكيل أو البحث أو التحليلات أو سير عمل التشغيل الآلي.

بداية سريعة

قم بتثبيت PaddleOCR 3.5 وPaddleX وTransformers وبنية PyTorch المتوافقة لجهازك.

على سبيل المثال، في بيئة CUDA 12.6:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

بالنسبة لوحدة المعالجة المركزية (CPU) أو ROCm أو البيئات الأخرى، قم بتثبيت إصدار PyTorch الذي يتوافق مع جهازك المستهدف.

تشغيل من سطر الأوامر:

paddleocr ocr \
  -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
  --device gpu:0 \
  --engine transformers

أو استخدم واجهة برمجة تطبيقات Python:

from paddleocr import PaddleOCR

pipeline = PaddleOCR(
    device="gpu:0",
    engine="transformers",
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine_config={
        "dtype": "float32",
    },
)

results = pipeline.predict(
    "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)

for result in results:
    print(result)

استخدامات مساحة الوجه المعانقة float32 للتوافق الواسع. بالنسبة لأجهزتك الخاصة، يمكنك ضبط الخيارات الخاصة بالواجهة الخلفية من خلال engine_config:

engine_config = {
    "dtype": "bfloat16",
    "device_type": "gpu",
    "device_id": 0,
    "attn_implementation": "sdpa",
}

يعتمد التكوين الأفضل على الطراز والأجهزة وبيئة النشر لديك.

متى يجب عليك استخدام الواجهة الخلفية للمحولات؟

استخدم الواجهة الخلفية للمحولات عندما تريد أن تتلاءم إمكانات التعرف الضوئي على الحروف (OCR) في PaddleOCR وتحليل المستندات بشكل أكثر طبيعية مع مجموعة Hugging Face-centered.

يعد هذا مفيدًا بشكل خاص إذا كنت تقوم بإنشاء تطبيقات RAG أو Document AI أو البحث أو التحليلات أو الوكيل وتعتمد بالفعل على البنية التحتية لـ PyTorch / Transformers لتحميل النموذج أو التجريب أو النشر أو إدارة العناصر النموذجية.

تعد الواجهة الخلفية للمحولات مناسبة تمامًا عندما تريد:

  • تجربة تطوير مألوفة أكثر للفرق التي تستخدم Transformers بالفعل،
  • اكتشاف النماذج المتوافقة مع المحور وتوزيعها لنماذج PaddleOCR المدعومة،
  • تكامل أسهل مع خدمات PyTorch/Transformers الحالية.

عندما تكون الأولوية هي تعظيم تقنية التعرف الضوئي على الحروف (OCR) أو إنتاجية تحليل المستندات، فإن هذه هي الأولوية الافتراضية لـ PaddleOCR paddle_static عادةً ما تكون الواجهة الخلفية هي الخيار الموصى به.

لا يتعلق هذا الإصدار باستبدال واجهة خلفية بأخرى. يتعلق الأمر بمنح المطورين مزيدًا من المرونة: استخدم PaddleOCR لإمكانيات التعرف الضوئي على الحروف وتحليل المستندات، واختر الواجهة الخلفية للاستدلال التي تناسب مجموعتك بشكل أفضل.

جربه الآن

جرب العرض التوضيحي لـ PaddleOCR 3.5 Transformers على مساحات الوجه المعانقة:

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

استكشف نماذج PaddleOCR على المحور:

https://huggingface.co/PaddlePaddle/models

يعمل PaddleOCR 3.5 على تقريب قدرات التعرف الضوئي على الحروف وتحليل المستندات من سير العمل الذي يركز على المحولات، مع منح المطورين حرية إنشاء تطبيقات الذكاء الاصطناعي الأكبر للمستندات من حولهم.

موارد

شكر وتقدير

نتقدم بخالص الشكر لمهندسي Hugging Face الذين دعموا تكامل PaddleOCR 3.5 Transformers.

شكر خاص لأنطون فلاسيوك لمشاركته الشاملة، بما في ذلك مراجعة ودمج جميع طلبات السحب ذات الصلة.

نحن نقدر أيضًا Raushan Turganbay وYoni Gozlan لمراجعاتهم وملاحظاتهم القيمة في مجال العلاقات العامة.

ساعدت إرشاداتهم في تحسين جودة التكامل والتوثيق وتجربة المطورين لمجتمع Hugging Face.

شاركها.
اترك تعليقاً