قم بتقييم PP-OCRv6 عبر الإنترنت، ثم قم بدمج تقنية التعرف الضوئي على الحروف (OCR) خفيفة الوزن والجاهزة للإنتاج مع الواجهة الخلفية PaddlePaddle أو Transformers أو ONNX Runtime.
PP-OCRv6 هو أحدث جيل من عائلة نماذج التعرف الضوئي على الحروف (OCR) العالمية الخاصة بـ PaddleOCR. إنه مصمم لاكتشاف النص الواقعي والتعرف عليه عبر المستندات ولقطات الشاشة والصور متعددة اللغات والشاشات الرقمية والملصقات الصناعية ونص المشهد.
مقاسات العائلة النموذجية من 1.5 م إلى 34.5 م المعلمات، بثلاثة طبقات: صغير الحجم, صغير، و واسطة. دعم المستويات المتوسطة والصغيرة 50 لغة، بما في ذلك الصينية المبسطة والصينية التقليدية والإنجليزية واليابانية و46 لغة نصية لاتينية. جرب PP-OCRv6 عبر الإنترنت بسرعة: العرض التجريبي عبر الإنترنت لـ PP-OCRv6.

في معايير التعرف الضوئي على الحروف (OCR) الداخلية الرسمية متعددة السيناريوهات الخاصة بـ PaddleOCR، PP-OCRv6_medium يصل 86.2% كشف هميان و دقة التعرف 83.2%. بالمقارنة مع PP-OCRv5_server، فإنه يعمل على تحسين اكتشاف النص من خلال +4.6 نقطة مئوية والتعرف على النص عن طريق +5.1 نقطة مئوية.

يركز PP-OCRv6 على الحاجة العملية للتعرف الضوئي على الحروف: إنتاج مخرجات نصية دقيقة ومنظمة باستخدام نماذج صغيرة وخيارات نشر مرنة. للحصول على مناقشة أعمق حول سبب بقاء نماذج التعرف الضوئي على الحروف المتخصصة مفيدة في عصر VLM، راجع مدونتنا السابقة: PP-OCRv5 on Hugging Face: A Specialized Approach to OCR.
ما الجديد في PP-OCRv6
يقدم PP-OCRv6 تحسينات في البنية والتدريب والبيانات عبر الاكتشاف والتعرف. هدف التصميم الرئيسي هو تحسين دقة التعرف الضوئي على الحروف مع الحفاظ على أحجام النماذج المناسبة لإعدادات النشر المختلفة.
ثلاث طبقات نموذجية
يوفر PP-OCRv6 ثلاثة مستويات للنماذج، تغطي أحجام النماذج المختلفة ومستويات دقة التعرف الضوئي على الحروف.
| نموذج | حجم النموذج | كشف همين | دقة الاعتراف | سيناريوهات التطبيق النموذجية |
|---|---|---|---|---|
| PP-OCRv6_tiny | 1.5 مليون بارامترات | 80.6% | 73.5% | الأجهزة المتطورة، والتعرف الضوئي على الحروف المحلي خفيف الوزن، والعروض التوضيحية الحساسة لزمن الوصول، والبيئات المقيدة |
| PP-OCRv6_small | 7.7 مليون معلمة | 84.1% | 81.3% | خدمات التعرف الضوئي على الحروف المتوازنة على الأجهزة المحمولة وسطح المكتب والتعرف الضوئي على الحروف متعدد اللغات بتكلفة حوسبة أقل |
| PP-OCRv6_medium | 34.5 مليون معلمة | 86.2% | 83.2% | التعرف الضوئي على الحروف (OCR) الموجه نحو الدقة، وخطوط الأنابيب من جانب الخادم، والتعرف الضوئي على الحروف (OCR) الصناعي، واستيعاب المستندات، والتعرف الضوئي على الحروف (OCR) متعدد اللغات |
PPLCNetV4 العمود الفقري
استخدامات PP-OCRv6 PPLCNetV4 باعتبارها العمود الفقري الموحد للكشف عن النص والتعرف على النص.
بالنسبة للمطورين، الفائدة الرئيسية هي الاتساق عبر عائلة النماذج. المستويات الصغيرة والصغيرة والمتوسطة ليست نماذج منفصلة؛ إنهم جزء من نفس عائلة التعرف الضوئي على الحروف ويتشاركون في اتجاه معماري مشترك.
RepLKFPN للكشف عن النص
اكتشاف النص هو المرحلة الأولى من مسار التعرف الضوئي على الحروف. تؤثر جودة الاكتشاف على المحاصيل المرسلة إلى أداة التعرف، وغالبًا ما تؤدي المحاصيل الرديئة إلى ضعف التعرف.
يقوم PP-OCRv6 بترقية وحدة الكشف باستخدام RepLKFPN، شبكة هرمية خفيفة الوزن ذات نواة كبيرة مصممة لاكتشاف النص متعدد النطاقات مع الحفاظ على كفاءة الاستدلال.
ينطبق هذا على مدخلات التعرف الضوئي على الحروف (OCR) في العالم الحقيقي، حيث قد يكون النص صغيرًا أو كثيفًا أو مستديرًا أو منخفض الدقة أو مضمنًا في خلفيات معقدة.

EncoderWithLightSVTR للتعرف عليها
للتعرف على النص، يستخدم PP-OCRv6 التشفير مع LightSVTR. فهو يجمع بين نمذجة السياق المحلي والاهتمام العالمي لتحسين جودة التعرف على المحاصيل النصية الصعبة.
تعتبر تحسينات التعرف ذات صلة بشكل خاص بالنص متعدد اللغات ونص الشاشة والأحرف الصناعية والرموز الخاصة والنص الكثيف ومناطق الصور المزعجة.

التعرف الضوئي على الحروف الموحد متعدد اللغات
دعم المستويات المتوسطة والصغيرة 50 لغة في عائلة نموذجية واحدة، تغطي اللغة الصينية المبسطة، والصينية التقليدية، والإنجليزية، واليابانية، و46 لغة لاتينية.
ويساعد هذا في تقليل الحاجة إلى نماذج التعرف الضوئي على الحروف (OCR) المنفصلة عبر سيناريوهات التعرف الضوئي على الحروف (OCR) الشائعة متعددة اللغات.
بداية سريعة مع PaddleOCR
تثبيت PaddleOCR:
pip install paddleocr
تشغيل التعرف الضوئي على الحروف باستخدام Paddle Infernece (الواجهة الخلفية الافتراضية):
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
يمكن حفظ نتيجة التعرف الضوئي على الحروف كصور مرئية ومخرجات JSON منظمة. يمكن بعد ذلك استخدام المخرجات المنظمة من خلال الأنظمة النهائية مثل تحليل المستندات أو البحث أو الاستخراج أو RAG أو التحليلات أو سير عمل الوكيل.
الواجهات الخلفية للاستدلال المتاحة
يمكن استخدام PP-OCRv6 مع الواجهات الخلفية للاستدلال المتعدد من خلال PaddleOCR. مجدافOCR 3.7 يوفر واجهة موحدة لمحرك الاستدلال، حيث engine يحدد وقت التشغيل الأساسي ويمكن تمرير التكوين ذي الصلة عبر خط الأنابيب أو واجهة برمجة تطبيقات الوحدة النمطية.
| الخلفية | وصف |
|---|---|
| محولات | مسار الاستدلال الموجه نحو الوجه / PyTorch لنماذج PaddleOCR المدعومة |
| وقت تشغيل ONNX | مسار الاستدلال المحمول لبيئات النشر المستندة إلى ONNX |
| الاستدلال مجداف | تنسيق الاستدلال المجذاف الأصلي |
بالنسبة لمستخدمي Hugging Face، يدعم PaddleOCR تشغيل نماذج OCR المحددة وتحليل المستندات باستخدام واجهة Transformers الخلفية. يمكن تمكين ذلك من خلال:
engine="transformers"
لمزيد من التفاصيل حول كيفية عمل الواجهة الخلفية للمحولات في PaddleOCR، راجع:
PaddleOCR: تشغيل مهام التعرف الضوئي على الحروف وتحليل المستندات باستخدام الواجهة الخلفية للمحولات
تشغيل مثال PP-OCRv6 مع Transformer Backend:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
تتوفر أيضًا متغيرات ONNX في مجموعة PP-OCRv6 للبيئات التي تستخدم ONNX Runtime من خلال engine="onnxruntime":
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
تعمل خيارات الواجهة الخلفية هذه معًا على جعل PP-OCRv6 متاحًا عبر بيئات تشغيل مختلفة مع الحفاظ على نفس عائلة نماذج التعرف الضوئي على الحروف (OCR) على Hugging Face Hub.
خاتمة
يعمل PP-OCRv6 على توسيع نطاق PaddleOCR مع مجموعة نماذج OCR خفيفة الوزن ومتعددة اللغات لاكتشاف النص والتعرف عليه في العالم الحقيقي.
يتضمن الإصدار ثلاثة مستويات نموذجية من 1.5 م إلى 34.5 م المعلمات، حتى دعم التعرف الضوئي على الحروف بـ 50 لغة، وتحسين دقة الكشف والتعرف عبر PP-OCRv5_server، وتنسيقات النماذج المتعددة على Hugging Face Hub، بما في ذلك أدوات الأمان, نماذج الاستدلال مجداف، و موديلات اونكس.
جنبًا إلى جنب مع Hugging Face Space المستضافة والواجهات الخلفية لاستدلال PaddleOCR المتوفرة، يوفر PP-OCRv6 عدة نقاط دخول للتقييم والتكامل:
يمكنك تقييم PP-OCRv6 من خلال العرض التوضيحي عبر الإنترنت، واستكشاف أصول النموذج المتاحة في المجموعة، واستخدام الواجهة الخلفية للاستدلال التي تتوافق مع سير عمل التعرف الضوئي على الحروف (OCR) الخاص بك.
