أصدر DeepSeek V4 اليوم. توجد نقطتا تفتيش لوزارة التعليم على المحور: DeepSeek-V4-Pro بإجمالي 1.6T من المعلمات مع 49B نشط، وDeepSeek-V4-Flash بإجمالي 284B مع 13B نشط. كلاهما يحتوي على نافذة سياق 1M-token. الأرقام القياسية تنافسية، ولكن ليس SOTA. لا يهم. الابتكار الحقيقي هو كيفية تصميم DeepSeek v4 لتوفير الدعم الفعال لطول السياق الكبير، وبالتالي فهو أحد أفضل المرشحين للمهام الوكيلة.

التركيز على أعباء عمل الوكيل طويلة الأمد. إن تشغيل نموذج الحدود المفتوحة كوكيل اليوم ينكسر بطرق يمكن التنبؤ بها. يتوقف النموذج. أنت تطالب. يتجاوز التتبع ميزانية السياق، أو أن ذاكرة التخزين المؤقت KV تملأ وحدة معالجة الرسومات، أو تتدهور رحلات الذهاب والعودة لاستدعاء الأداة في منتصف المهمة الطويلة. تم تصميم V4 لإصلاح حالات الفشل المعروفة هذه، وتوجيه الطريق الذي يجب أن يتبعه المجتمع.

يغطي هذا المنشور ثلاثة أشياء: ما تفعله البنية بشكل مختلف لجعل الاستدلال طويل السياق رخيصًا، وقرارات ما بعد التدريب الخاصة بالوكيل والتي تتراكم فوقها، وبعض الوجبات السريعة من الورقة التي تساعد في تفسير هذه التغييرات.

مشكلة ذاكرة التخزين المؤقت KV للوكلاء

نافذة السياق بحجم 1M هي مجرد سعة وليس أداء. تعتمد إمكانية استخدامه على تكلفة كل تمريرة أمامية على هذا العمق. بالنسبة للوكيل الذي يقوم بتشغيل مسار طويل لاستخدام الأداة (مهمة SWE، وجلسة تصفح متعددة الخطوات، وجلسة طرفية تحتوي على مئات الأوامر)، يتم إلحاق كل نتيجة أداة بالسياق، ويدفع كل رمز مميز لاحق تكلفة الاهتمام الكاملة مقابل كل ما جاء قبله.

هناك رقمان مهمان: استدلال الرمز الفردي FLOPs وحجم ذاكرة التخزين المؤقت KV. كلاهما ينمو بطول التسلسل. عند استخدام مليون رمز مميز، يتطلب DeepSeek-V4-Pro 27% من FLOPs لاستدلال الرمز الفردي مقارنةً بـ DeepSeek-V3.2، لذا فهو يعمل بشكل أسرع على نفس الجهاز. كما يستخدم 10% من ذاكرة التخزين المؤقت KV. يقوم V4-Flash بإسقاط هذه الأرقام بشكل أكبر: 10% من FLOPs و7% من ذاكرة التخزين المؤقت KV.

إذا قارنا ذاكرة التخزين المؤقت KV مع بنية ثابتة مثل اهتمام الاستعلام المجمع بـ 8 رؤوس، والمخزنة بتنسيق bfloat16 المعتاد، فإن DeepSeek v4 يتطلب ما يقرب من 2٪ من حجم ذاكرة التخزين المؤقت. وهذا يجعل النشر أسهل بكثير لمعالجة السياقات الكبيرة جدًا.

الشكل 1 من التقرير الفني لـ DeepSeek-V4، والمعايير المرجعية على اليسار، واستدلال FLOPs وقياس ذاكرة التخزين المؤقت KV على اليمين
الشكل 1: المقارنة المعيارية (يسار)، وFLOPs لكل رمز مميز وذاكرة التخزين المؤقت KV المتراكمة مقابل طول التسلسل (يمين).

الاهتمام المختلط: CSA وHCA

تأتي مكاسب الكفاءة من تقسيم الانتباه إلى آليتين وتشذيرهما عبر الطبقات.

الانتباه المتفرق المضغوط (CSA) يضغط إدخالات KV بمقدار 4x على طول البعد التسلسلي باستخدام التجميع ذو البوابة softmax مع التحيز الموضعي المكتسب. يقوم مفهرس البرق (FP4، منتج النقاط متعدد الرؤوس الحاصل على نقاط ReLU) باختيار الكتل المضغوطة ذات أعلى k لكل استعلام. إنها ترث فكرة التحديد المتناثر من DeepSeek Sparse Attention في الإصدار 3.2، ولكنها تعمل على تشغيلها على كتل أقصر بمقدار 4 مرات من التسلسل الأصلي. تتقلص مساحة البحث الخاصة بالمفهرس معها.

الشكل 3: تنبيه متفرق مضغوط، يُظهر الضاغط ومؤشر البرق فوق الكتل المضغوطة وفرع النافذة المنزلقة
الشكل 3: وكالة الفضاء الكندية. ينهار الضاغط كل 4 رموز في مدخل KV مضغوط واحد. يقوم مفهرس البرق باختيار الكتل المضغوطة ذات أعلى k لكل استعلام. يتعامل فرع النافذة المنزلقة مع أحدث الرموز غير المضغوطة.

الانتباه المضغوط بشدة (HCA) يضغط إدخالات KV بمقدار 128x ويسقط التحديد المتناثر. يحضر كل استعلام بكثافة إلى كل كتلة مضغوطة. التسلسل المضغوط قصير بدرجة كافية بحيث يكون الاهتمام المكثف رخيصًا.

الشكل 4: انتباه مضغوط بشدة، ضغط 128x مع MQA كثيف فوق الكتل المضغوطة
الشكل 4: HCA. ضاغط أثقل (128x مقابل 4x) يتبعه اهتمام كثيف بالتيار المضغوط، مع نفس فرع النافذة المنزلقة للحداثة.

تتناوب الطبقات بين CSA وHCA. تحمل الطبقات المختلفة أنماطًا مختلفة من الاهتمام، كما أن فرض آلية واحدة عبرها جميعًا يهدر القدرة. في مجموعة V4-Pro المكونة من 61 طبقة، الطبقات 0-1 هي HCA، والطبقات 2-60 بديلة CSA وHCA، وكتلة MTP في النهاية تعمل على تشغيل النافذة المنزلقة فقط.

يستخدم كلا المسارين تخزين FP8 لمعظم إدخالات KV وBF16 فقط لأبعاد RoPE. يعمل مفهرس البرق داخل CSA في FP4. تتضاعف خيارات التخزين هذه مع نسب الضغط لإنتاج نسبة ذاكرة تخزين مؤقت تبلغ 2% كيلو فولت.

الشكل 2: البنية العامة، تظهر التضمين، والاهتمام المختلط بـ CSA/HCA، وDeepSeekMoE، والاتصالات المفرطة المقيدة المتعددة
الشكل 2: الهندسة المعمارية الشاملة. طبقات الاهتمام تتناوب بين CSA وHCA. تستخدم طبقات التغذية الأمامية DeepSeekMoE. يتم استبدال الاتصالات المتبقية بالاتصالات الفائقة المقيدة المتعددة (mHC).

ما التغييرات بالنسبة للوكلاء

يعد الاهتمام الفعال بالسياق الطويل ضروريًا لسير عمل الوكيل ولكنه ليس كافيًا. تصف الورقة ثلاثة خيارات ما بعد التدريب والبنية التحتية التي تستهدف حالات استخدام الوكيل مباشرة.

التفكير المتداخل عبر استدعاءات الأداة

احتفظ الإصدار 3.2 بتتبعات الاستدلال عبر جولات نتائج الأداة ولكنه تجاهلها عند وصول رسالة مستخدم جديدة. بالنسبة للوكيل الذي يتعامل مع دور مستخدم واحد، كان هذا أمرًا جيدًا. بالنسبة لسير عمل الوكيل متعدد المنعطفات، حيث يرسل المستخدم متابعة بعد أن قام الوكيل بالفعل بتسلسل عدة استدعاءات للأداة، فقد النموذج منطقه المتراكم واضطر إلى إعادة بناء الحالة.

يحتفظ الإصدار 4 بمحتوى الاستدلال عبر حدود رسائل المستخدم عندما تحتوي المحادثة على استدعاءات الأدوات. يحتفظ النموذج بسجل الاستدلال الكامل عبر جميع الجولات، بما في ذلك دورات المستخدمين. وهذا يسمح بسلسلة فكرية متماسكة وتراكمية حول مهام الوكيل طويلة المدى. بالنسبة للاستخدام التحادثي بدون أدوات، يتم الحفاظ على السلوك القديم: يتم مسح المنطق عند كل منعطف للحفاظ على إيجاز السياق.

الشكل 7: إدارة التفكير باستخدام الأدوات (في الأعلى) تحافظ على التفكير المنطقي عبر المنعطفات؛ بدون أدوات (أسفل) يتجاهل المنطق عند كل رسالة مستخدم جديدة
الشكل 7: التفكير باستخدام الأدوات (أعلى) يحافظ على التفكير في جميع المنعطفات. التفكير بدون أدوات (أسفل) يتجاهل التفكير عند كل رسالة مستخدم جديدة.

مخطط استدعاء الأداة مع الرموز المخصصة

يقدم V4 أ |DSML| رمز خاص وتنسيق استدعاء أداة يستند إلى XML. يقلل تنسيق XML من حالات فشل الهروب مقارنة باستدعاءات أداة JSON-in-string، وهو وضع فشل شائع عندما تقوم النماذج بإصدار محتوى متداخل مقتبس.

يفصل المخطط معلمات السلسلة (يتم تمريرها كما هي مع string="true") من المعلمات المنظمة (تم تمريرها كـ JSON مع string="false"). يؤدي هذا إلى إزالة فئة من أخطاء التحليل حول الأرقام والقيم المنطقية التي تصل إليها تنسيقات استدعاء أدوات JSON بشكل روتيني.

DSec: صندوق حماية مصمم لعمليات طرح RL

تم تدريب سلوك الوكيل باستخدام RL ضد بيئات الأدوات الحقيقية. تصف الورقة البنية التحتية لصندوق الحماية المصممة لهذا الغرض. DeepSeek Elastic Compute (DSec) عبارة عن منصة Rust التي تكشف عن أربع ركائز تنفيذ خلف Python SDK واحد: استدعاءات الوظائف، والحاويات، وmicroVMs (Firecracker)، وVMs الكاملة (QEMU). تدير مجموعة واحدة مئات الآلاف من صناديق الحماية المتزامنة.

هناك ثلاث ميزات DSec مهمة لتدريب الوكيل: التحميل السريع للصور عبر تخزين 3FS ذو طبقات (بحيث لا تنتظر عمليات نشر RL عند بدء تشغيل الحاوية)، وإعادة تشغيل المسار بشكل وقائي (وبالتالي يتم استئناف خطوات التدريب المتقطعة دون إعادة تشغيل استدعاءات الأداة)، وواجهة برمجة تطبيقات موحدة عبر الركائز (بحيث يسخر التدريب استدعاءات الوظائف المستهدفة أو الأجهزة الافتراضية الكاملة دون إعادة الكتابة). تدعم قرارات البنية التحتية هذه النتائج المرجعية للوكيل.

نتائج قياس الوكيل

أرقام المعرفة والتفكير تنافسية ولكنها ليست رائدة. أرقام الوكلاء هي المكان الذي ينفصل فيه V4-Pro-Max عن الحقل.

المقارنة المعيارية لـ DeepSeek-V4-Pro-Max عبر النماذج الحدودية

أرقام محددة من قسم الوكيل في الجدول 6:

  • مقعد المحطة 2.0: سجل V4-Pro-Max 67.9، متقدمًا على GLM-5.1 (63.5) وK2.6 (66.7)، خلف GPT-5.4-xHigh (75.1) وGemini-3.1-Pro (68.5).
  • تم التحقق من SWE: تم حل 80.6، ضمن نقطة Opus-4.6-Max (80.8) وGemini-3.1-Pro (80.6).
  • MCPAtlas Public: 73.6، في المرتبة الثانية بعد Opus-4.6-Max (73.8).
  • سباق الأدوات: 51.8، متقدمًا على K2.6 (50.0)، وGLM-5.1 (40.7)، وGemini-3.1-Pro (48.8).

في معيار ترميز البحث والتطوير الداخلي للورقة، 30 مهمة منسقة عبر PyTorch وCUDA وRust وC++، حقق V4-Pro-Max معدل نجاح بنسبة 67%، مقابل 47% لـ Sonnet 4.5 و70% لـ Opus 4.5. في استطلاع رأي شمل 85 من مطوري DeepSeek الذين يستخدمون V4-Pro كمحرك يومي، قال 52% منهم إنهم مستعدون لاستبدال نموذج الترميز الأساسي الحالي الخاص بهم، ويميل 39% منهم إلى نعم.

تظهر أرقام الاسترجاع ذات السياق الطويل في الشكل 9. وتظل دقة الإبر الثمانية لـ MRCR أعلى من 0.82 إلى 256 ألف رمز وتستقر عند 0.59 عند 1M.

الشكل 9: أداء استرجاع MRCR ذو 8 إبر عبر أطوال السياق التي تصل إلى مليون رمز مميز
الشكل 9: استرجاع إبرة MRCR 8. يظل V4-Pro-Max أعلى من 0.82 حتى 256 ألفًا ويستقر عند 0.59 عند 1 مليون.

باستخدام النماذج

توجد أربع نقاط تفتيش على المحور. تستخدم نماذج التعليمات FP4 للأوزان المتخصصة لوزارة التعليم وFP8 لكل شيء آخر. النماذج الأساسية هي FP8 طوال الوقت.

يدعم كلا نموذجي التعليمات ثلاثة أوضاع للاستدلال: عدم التفكير (سريع، بدون سلسلة من الأفكار)، والتفكير العالي (الاستدلال الصريح في <think> الكتل)، وThink Max (أقصى جهد للاستدلال من خلال موجه نظام مخصص). يتطلب Think Max نافذة سياق تحتوي على 384 ألف رمز مميز على الأقل. معلمات أخذ العينات الموصى بها في جميع الأوضاع هي temperature=1.0, top_p=1.0.

إن أرقام V4-Pro في SWE Verified وMCPAtlas ومعيار البحث والتطوير الداخلي تضعها على قدم المساواة مع النماذج المغلقة الحدودية في مهام الوكيل. السؤال المفتوح هو كيف تتكيف أدوات المجتمع مع |DSML| المخطط وما إذا كانت مكاسب التفكير المتداخل تنتقل إلى أطر عمل الوكيل خارج المجال.

الأرقام الواردة في منشور المدونة هذا مأخوذة من التقرير الفني الموجود على DeepSeek_V4.pdf.

شاركها.
اترك تعليقاً