قام أحد الوكلاء ببناء معرض ثلاثي الأبعاد في باريس من مساحتين متعانقتين.

لقد طلبت من أحد وكلاء البرمجة إنشاء موقع ويب جميل يعرض آثار باريس على شكل بقع غاوسية ثلاثية الأبعاد. لم أفتح مطلقًا مولد الصور. لم أتطرق مطلقًا إلى أداة إعادة البناء ثلاثية الأبعاد. أنتج الوكيل كل الأصول (الصور و (البقع ثلاثية الأبعاد) عن طريق استدعاء مساحتين للوجه مباشرة، ثم توصيلهما بالمشاهد السينمائي.

هذه هي النتيجة، عش كمساحة ثابتة:

👉 ميشيج / الآثار دي باريس

هذا المنصب هو حول كيف هذا ممكن الآن، ولماذا أعتقد أنها معاينة لكيفية إنشاء الكثير من برامج الوسائط المتعددة من الآن فصاعدًا.

يأتي الاقتصاد الأساسي للوسائط المتعددة

وصف ميتشل هاشيموتو مؤخرًا تحولًا يسميه اقتصاد اللبنات الأساسية: لم يعد المسار الأكثر فعالية للبرمجيات عبارة عن كتلة متراصة مصقولة، بل مكونات صغيرة موثقة جيدًا والتي يمكن للآخرين (على نحو متزايد) وكلاء) يمكن تجميعها. ملاحظته الرئيسية: الذكاء الاصطناعي جيد في بناء كل شيء من الصفر، لكنه كذلك
جيدة حقا في الإلتصاق معا قطع مثبتة.

لقد تم إخبار هذه الأطروحة في الغالب شفرة المكتبات. لكن نفس القوى تضرب الوسائط المتعددة الذكاء الاصطناعي. إن الجزء الصعب من استخدام نموذج صورة متطور، أو نموذج فيديو، أو نموذج TTS، أو نموذج إعادة البناء ثلاثي الأبعاد لم يكن هو النموذج على الإطلاق. لقد كان التكامل: حزم SDK، والأوزان، ووحدات معالجة الرسومات، وتنسيقات الإدخال، والاستطلاعات. إذا كان كل نموذج عبارة عن كتلة موثقة وقابلة للاستدعاء، فيمكن للوكيل لصقها معًا بنفس الطريقة التي يجمع بها حزم npm معًا.

هذا هو بالضبط ما أصبحت عليه مساحات معانقة الوجه بهدوء.

كل مساحة هي لبنة بناء، عبر agents.md

يستضيف The Hub الآلاف من النماذج الحديثة (نسبة كبيرة منها
الأوزان المفتوحة)، ويتم نشر معظمها على أنها تفاعلية المساحات. اعتبارًا من الآن، تعرض كل مساحة Gradio أيضًا نصًا عاديًا
agents.md الذي يقول وكيل
بالضبط كيف نسميها:

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

إرجاع كل ما هو مطلوب في لقطة واحدة: عنوان URL للمخطط، وقوالب الاتصال والاستطلاع، وكيفية تحميل الملفات، وتلميح المصادقة:

API schema:   GET  .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result:  GET  .../gradio_api/call/{endpoint}/{event_id}
File inputs:  POST .../gradio_api/upload -F "files=@file.ext"
Auth:         Bearer $HF_TOKEN

لا توجد مكتبة العملاء. لا يوجد تكامل مضمن. يقرأ الوكيل ذلك، ويمكنه دفع المساحة إلى النهاية. تعيين HF_TOKEN
وأنت ذاهب. يمكنك العثور على هذه التعليمات في أي Gradio Space من خلاله
الوكلاء زر:

زر الوكلاء في مساحة الوجه المعانقة

الفتح الحقيقي هو تسلسل: يصبح إخراج مساحة واحدة مدخلاً للمساحة التالية. موجه → صورة → 3D. هذا هو خط الأنابيب بأكمله وراء هذا المعرض.

المثال العملي: آثار باريس ← البقع

قام الوكيل بتقييد مساحتين:

  1. صورة: حولت مساحة توليد الصور كل نصب تذكاري إلى لقطة “عينة” نظيفة ذات خلفية داكنة (وبرج إيفل إلى ديوراما صغيرة على قاعدة). موجه للداخل، صورة للخارج.
  2. ضجة: VAST-AI/TripoSplat

    إعادة بناء لطخة غاوسية ثلاثية الأبعاد (.ply) من كل صورة على حدة. صورة داخل، 3D خارج.

الصورة التي تم إنشاؤها

تم إنشاء البانثيون

ضجة أعيد بناؤها

الصور الست المصدرية التي أنشأها العميل، جميعها معزولة باللون الأسود، وجاهزة لإعادة البناء بصورة ثلاثية الأبعاد:

الصور الأثرية التي تم إنشاؤها
تم إنشاء قوس النصر
تم إنشاء القلب المقدس
تم إنشاء ديوراما إيفل

ومن هناك قام الوكيل بعمل “الغراء” أيضًا. لقد لاحظت أن مخرجات TripoSplat متجهة نحو الأسفل وقلبتها في وضع مستقيم، ووضعت إطارًا تلقائيًا لكل نصب تذكاري، وضغطت .ply
الملفات الى .ksplat (أصغر بمقدار 3× تقريبًا، لذلك يتم تحميلها بسرعة)، وأنشأت عارض Three.js مزودًا بواجهة مستخدم للتمرير للتبديل والسحب للتدوير، ونشرت كل شيء كمساحة ثابتة. المدخلات البشرية الوحيدة كانت على مستوى الذوق: “اجعلها مُصغرة”، “استبدل المسلة بشيء أفضل للرش”، “الانتقال يتأخر لفترة طويلة جدًا”.

العديد من تلك الخطوات كانت تفاعل الفاعل مع الواقع. الهرم الزجاجي العريض يتناثر بشكل سيء. المسلة الرقيقة مملة. إعادة بناء عرض واحد يستنتج الظهر. هذه هي بالضبط حلقة “البحث والتطوير بالاستعانة بمصادر خارجية، والتكرار السريع” التي يتوقعها اقتصاد حجر البناء، باستثناء أن البحث والتطوير كان عبارة عن محادثة.

اثنين من المطالبات، معرض جديد كليا

الاختبار الحقيقي لبنة البناء هو مدى تكلفة إعادة استخدامها. بمجرد وجود هذا المسار، كانت تكلفة إنشاء صالات عرض جديدة تمامًا حوالي جملة واحدة لكل منها. “قم بإنشاء مساحة مماثلة مع بقع لليابان”، ثم نفس الشيء بالنسبة لمصر، وقام الوكيل بالباقي: ستة صور أثرية، وستة بقع، وضغط، وعارض، ومساحة منتشرة، لكل بلد.

  • 🏛️ آثار مصر: الهرم الأكبر، أبو الهول، أبو سمبل، قناع توت عنخ آمون، الكرنك، تمثالي ممنون.

<تم كتم حلقة التشغيل التلقائي للفيديو، العرض عبر الإنترنت = "100%" src = "https://huggingface.co/blog/mishig/

“>

  • ⛩️ آثار اليابان: برج طوكيو، قلعة هيميجي، كينكاكو-جي، قلعة أوساكا، بوذا العظيم كاماكورا، إتسوكوشيما توري.

<تم كتم حلقة التشغيل التلقائي للفيديو، العرض عبر الإنترنت = "100%" src = "https://huggingface.co/blog/mishig/

“>

نفس الفضاءين، نفس الشيء agents.md، تغيرت المطالبات فقط. هذا هو الاقتصاد الأساسي في سطر واحد: التكلفة الحدية لتطبيق الوسائط المتعددة الجديد تقع ضمن تكلفة وصفه.

لماذا هذا مهم

  • تصبح النماذج قابلة للتركيب. نموذج SOTA splat ونموذج صورة SOTA، من مؤسسات مختلفة، مترابطان برمز تكامل صفري. يتحول كتالوج الأوزان المفتوحة الخاص بـ Hub إلى مكتبة من الوسائط المتعددة الأولية القابلة للاستدعاء.
  • يفضل الوكلاء ما هو موثق ويمكن الوصول إليه. agents.md يجعل الوصول إلى المساحة أمرًا تافهًا، لذلك سيختارها الوكيل بدلاً من النموذج الذي يجب عليه إعداده يدويًا. هذه هي نفس علامات هاشيموتو الديناميكية للمكتبات مفتوحة المصدر.
  • وكان العائق هو التكامل، وقد اختفى إلى حد كبير. كان “تحويل المطالبة إلى نصب تذكاري ثلاثي الأبعاد” عبارة عن مشروع. هنا كانت خطوة في خط أنابيب.

جربه بنفسك

قم بتوجيه وكيلك الخاص إلى الفضاء agents.md ونتركها تطهى:


curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

قم بلصق أي رابط في وكيل الترميز الخاص بك (Claude Code، وما إلى ذلك)، وقم بتعيين
HF_TOKEN، واطلب منه بناء شيء ما. المسار الكامل القابل للتكرار لهذا المعرض، والنصوص التي ضربت هذين الاثنين agents.md نقاط النهاية، تعيش في الريبو الفضاء.

اللبنات الأساسية موجودة هناك على المحور. الوكلاء يعرفون بالفعل كيفية الغراء.

لقد طلبت من أحد وكلاء البرمجة إنشاء موقع ويب جميل يعرض آثار باريس على شكل بقع غاوسية ثلاثية الأبعاد. لم أفتح مطلقًا مولد الصور. لم أتطرق مطلقًا إلى أداة إعادة البناء ثلاثية الأبعاد. أنتج الوكيل كل الأصول (الصور و (البقع ثلاثية الأبعاد) عن طريق استدعاء مساحتين للوجه مباشرة، ثم توصيلهما بالمشاهد السينمائي.

هذه هي النتيجة، عش كمساحة ثابتة:

👉 ميشيج / الآثار دي باريس

هذا المنصب هو حول كيف هذا ممكن الآن، ولماذا أعتقد أنها معاينة لكيفية إنشاء الكثير من برامج الوسائط المتعددة من الآن فصاعدًا.

يأتي الاقتصاد الأساسي للوسائط المتعددة

وصف ميتشل هاشيموتو مؤخرًا تحولًا يسميه اقتصاد اللبنات الأساسية: لم يعد المسار الأكثر فعالية للبرمجيات عبارة عن كتلة متراصة مصقولة، بل مكونات صغيرة موثقة جيدًا والتي يمكن للآخرين (على نحو متزايد) وكلاء) يمكن تجميعها. ملاحظته الرئيسية: الذكاء الاصطناعي جيد في بناء كل شيء من الصفر، لكنه كذلك
جيدة حقا في الإلتصاق معا قطع مثبتة.

لقد تم إخبار هذه الأطروحة في الغالب شفرة المكتبات. لكن نفس القوى تضرب الوسائط المتعددة الذكاء الاصطناعي. إن الجزء الصعب من استخدام نموذج صورة متطور، أو نموذج فيديو، أو نموذج TTS، أو نموذج إعادة البناء ثلاثي الأبعاد لم يكن هو النموذج على الإطلاق. لقد كان التكامل: حزم SDK، والأوزان، ووحدات معالجة الرسومات، وتنسيقات الإدخال، والاستطلاعات. إذا كان كل نموذج عبارة عن كتلة موثقة وقابلة للاستدعاء، فيمكن للوكيل لصقها معًا بنفس الطريقة التي يجمع بها حزم npm معًا.

هذا هو بالضبط ما أصبحت عليه مساحات معانقة الوجه بهدوء.

كل مساحة هي لبنة بناء، عبر agents.md

يستضيف The Hub الآلاف من النماذج الحديثة (نسبة كبيرة منها
الأوزان المفتوحة)، ويتم نشر معظمها على أنها تفاعلية المساحات. اعتبارًا من الآن، تعرض كل مساحة Gradio أيضًا نصًا عاديًا
agents.md الذي يقول وكيل
بالضبط كيف نسميها:

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

إرجاع كل ما هو مطلوب في لقطة واحدة: عنوان URL للمخطط، وقوالب الاتصال والاستطلاع، وكيفية تحميل الملفات، وتلميح المصادقة:

API schema:   GET  .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
Poll result:  GET  .../gradio_api/call/{endpoint}/{event_id}
File inputs:  POST .../gradio_api/upload -F "files=@file.ext"
Auth:         Bearer $HF_TOKEN

لا توجد مكتبة العملاء. لا يوجد تكامل مضمن. يقرأ الوكيل ذلك، ويمكنه دفع المساحة إلى النهاية. تعيين HF_TOKEN
وأنت ذاهب.

الفتح الحقيقي هو تسلسل: يصبح إخراج مساحة واحدة مدخلاً للمسافة التالية. موجه → صورة → 3D. هذا هو خط الأنابيب بأكمله وراء هذا المعرض.

المثال العملي: آثار باريس ← البقع

قام الوكيل بتقييد مساحتين:

  1. صورة: ideogram-ai/ideogram4 حول كل نصب تذكاري إلى لقطة “عينة” نظيفة ذات خلفية داكنة (وبرج إيفل إلى ديوراما صغيرة على قاعدة). موجه للداخل، صورة للخارج.
  2. ضجة: VAST-AI/TripoSplat

    إعادة بناء لطخة غاوسية ثلاثية الأبعاد (.ply) من كل صورة على حدة. صورة داخل، 3D خارج.

الصورة التي تم إنشاؤها

تم إنشاء البانثيون

ضجة أعيد بناؤها

الصور الست المصدرية التي أنشأها العميل، جميعها معزولة باللون الأسود، وجاهزة لإعادة البناء بصورة ثلاثية الأبعاد:

الصور الأثرية التي تم إنشاؤها
تم إنشاء قوس النصر
تم إنشاء القلب المقدس
تم إنشاء ديوراما إيفل

ومن هناك قام الوكيل بعمل “الغراء” أيضًا. لقد لاحظت أن مخرجات TripoSplat متجهة نحو الأسفل وقلبتها في وضع مستقيم، ووضعت إطارًا تلقائيًا لكل نصب تذكاري، وضغطت .ply
الملفات الى .ksplat (أصغر بمقدار 3× تقريبًا، لذلك يتم تحميلها بسرعة)، وأنشأت عارض Three.js مزودًا بواجهة مستخدم للتمرير للتبديل والسحب للتدوير، ونشرت كل شيء كمساحة ثابتة. المدخلات البشرية الوحيدة كانت على مستوى الذوق: “اجعلها مُصغرة”، “استبدل المسلة بشيء أفضل للرش”، “الانتقال يتأخر لفترة طويلة جدًا”.

العديد من تلك الخطوات كانت تفاعل الفاعل مع الواقع. الهرم الزجاجي العريض يتناثر بشكل سيء. المسلة الرقيقة مملة. إعادة بناء عرض واحد يستنتج الظهر. هذه هي بالضبط حلقة “البحث والتطوير بالاستعانة بمصادر خارجية، والتكرار السريع” التي يتوقعها اقتصاد حجر البناء، باستثناء أن البحث والتطوير كان عبارة عن محادثة.

اثنين من المطالبات، معرض جديد كليا

الاختبار الحقيقي لبنة البناء هو مدى تكلفة إعادة استخدامها. بمجرد وجود هذا المسار، كانت تكلفة إنشاء صالات عرض جديدة تمامًا حوالي جملة واحدة لكل منها. “قم بإنشاء مساحة مماثلة مع بقع لليابان”، ثم نفس الشيء بالنسبة لمصر، وقام الوكيل بالباقي: ستة صور أثرية، وستة بقع، وضغط، وعارض، ومساحة منتشرة، لكل بلد.

  • 🏛️ آثار مصر: الهرم الأكبر، أبو الهول، أبو سمبل، قناع توت عنخ آمون، الكرنك، تمثالي ممنون.
  • ⛩️ آثار اليابان: برج طوكيو، قلعة هيميجي، كينكاكو-جي، قلعة أوساكا، بوذا العظيم كاماكورا، إتسوكوشيما توري.

نفس الفضاءين، نفس الشيء agents.md، تغيرت المطالبات فقط. هذا هو الاقتصاد الأساسي في سطر واحد: التكلفة الحدية لتطبيق الوسائط المتعددة الجديد تقع ضمن تكلفة وصفه.

لماذا هذا مهم

  • تصبح النماذج قابلة للتركيب. نموذج SOTA splat ونموذج صورة SOTA، من مؤسسات مختلفة، مترابطان برمز تكامل صفري. يتحول كتالوج الأوزان المفتوحة الخاص بـ Hub إلى مكتبة من الوسائط المتعددة الأولية القابلة للاستدعاء.
  • يفضل الوكلاء ما هو موثق ويمكن الوصول إليه. agents.md يجعل الوصول إلى المساحة أمرًا تافهًا، لذلك سيختارها الوكيل بدلاً من النموذج الذي يجب عليه إعداده يدويًا. هذه هي نفس علامات هاشيموتو الديناميكية للمكتبات مفتوحة المصدر.
  • وكان العائق هو التكامل، وقد اختفى إلى حد كبير. كان “تحويل المطالبة إلى نصب تذكاري ثلاثي الأبعاد” عبارة عن مشروع. هنا كانت خطوة في خط أنابيب.

جربه بنفسك

قم بتوجيه وكيلك الخاص إلى الفضاء agents.md ونتركها تطهى:


curl https://huggingface.co/spaces/ideogram-ai/ideogram4/agents.md

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

قم بلصق أي رابط في وكيل الترميز الخاص بك (Claude Code، وما إلى ذلك)، وقم بتعيين
HF_TOKEN، واطلب منه بناء شيء ما. المسار الكامل القابل للتكرار لهذا المعرض، والنصوص التي ضربت هذين الاثنين agents.md نقاط النهاية، تعيش في الريبو الفضاء.

اللبنات الأساسية موجودة هناك على المحور. الوكلاء يعرفون بالفعل كيفية الغراء.

شاركها.
اترك تعليقاً