رائع: شركة NVIDIA تكشف عن نموذج الذكاء الاصطناعي LATTE3D الذي يحول النص إلى طابعة ثلاثية الأبعاد

رائع: شركة NVIDIA تكشف عن نموذج الذكاء الاصطناعي LATTE3D الذي يحول النص إلى طابعة ثلاثية الأبعاد

بينما كانت نماذج الذكاء الاصطناعي لتوليد الصور والفيديو تهيمن على الأخبار لبعض الوقت، فقد اتخذت NVIDIA خطوة في الاتجاه المنطقي التالي مع LATTE3D، وهو نموذج ذكاء اصطناعي توليدي جديد يحول المطالبات النصية إلى نماذج ثلاثية الأبعاد كاملة في أقل من ثانية.



تم الإعلان عن هذه التقنية في حدث NVIDIA GTC الأسبوع الماضي، وتم وصفها بأنها أقرب إلى “طابعة ثلاثية الأبعاد افتراضية“، حيث يمكنها تقديم نماذج ثلاثية الأبعاد على الفور “بتنسيق شائع يستخدم لتطبيقات العرض القياسية“، جاهزة للنشر في تطوير ألعاب الفيديو أو الإعلان أو مشاريع التصميم أو أي تطبيق يتطلب بيئة افتراضية، بما في ذلك الواقع الافتراضي والواقع المعزز.

الذكاء الاصطناعي المولد لتحويل النص إلى ثلاثي الأبعاد ليس تقنية جديدة، وورقة بحث NVIDIA نفسها تضع LATTE3D في مواجهة العديد من الأنظمة الحالية مثل MVDream و 3DTopia و LGM. حيث تتمتع LATTE3D بالميزة الساحقة وهي السرعة.


الإختبارات


في الاختبارات المقارنة، تستغرق نماذج الذكاء الاصطناعي الأخرى ما بين 20 ثانية إلى ما يزيد عن 30 دقيقة لتوليد مخرجات، في حين تنتج LATTE3D عرضًا مشابهًا (وغالبًا ما يكون بجودة أعلى) في 400 مللي ثانية فقط.

تجدر الإشارة إلى أنه، كما هو الحال مع الطباعة ثلاثية الأبعاد، تتحسن جودة مخرجات LATTE3D ونماذج الذكاء الاصطناعي الأخرى مع توفير المزيد من الوقت.

اختيار السرعة



والفائدة هي أنه، على عكس الطباعة ثلاثية الأبعاد، يمكن للمرء اختيار إعطاء الأولوية للسرعة على الجودة في البداية، ثم يقرر لاحقًا انتظار مخرجات أكثر دقة، بدلاً من إصلاح الإعدادات من البداية.

وكما هو الحال مع أي ذكاء اصطناعي توليدي آخر، تمتلك LATTE3D القدرة على تحويل العديد من مسارات العمل.



وفي حين كان يتعين على المرء في السابق البحث في مكتبة أصول ثلاثية الأبعاد أو تخصيص ساعات عمل ثمينة لإنشاء كائن بسيط، باستخدام تقنية NVIDIA، أصبح الأمر ببساطة مجرد مسألة كتابة وصف موجز واستيراد المخرجات التي تم إنشاؤها إلى تطبيق برمجي أو منصات خاصة بالشخص.

فريق تدريب ذكاء اصطناعى خاص



حتى الآن، قام فريق البحث بتدريب LATTE3D فقط على إنشاء نماذج للأشياء والحيوانات اليومية، ولكن يمكن توسيع ذلك ليشمل فئات أخرى باستخدام مجموعات البيانات الصحيحة. تم تدريب النموذج باستخدام وحدات معالجة الرسومات NVIDIA A100 Tensor Core، وفي العرض التوضيحي للشركة، تم تشغيله على NVIDIA RTX A6000 واحد.

مشروع بحثى لكنه واعد



وكمشروع بحثي، لا يزال LATTE3D قيد التطوير ولم يكن هناك أي حديث حتى الآن عن إطلاقه كمنتج أو خدمة. الخطط المستقبلية للمشروع بما في ذلك توسيع القدرة على “تحويل النص إلى 4D”، أو إنشاء رسوم متحركة ثلاثية الأبعاد.

المصدر

LATTE3D