باحثون يمهدون الطريق لتقنيات الذكاء الاصطناعي ثلاثي الابعاد

Dec 23, 2021
Researchers pave the road to true 3D AI

ورقة علمية: خوارزمية (CSIOR): التشكيل المنتظم من تقاطعات الدوائر

المؤلفون: كلاوديو تورتوريشي، محمد كامل رياحي، ستيفانو بيريتيك، نوفل ورغب


طور باحثون في معهد الابتكار التكنولوجي، مركز الأبحاث الرائد في دولة الإمارات العربية المتحدة، خوارزمية جديدة لتمثيل المواد ثلاثية الأبعاد التي تعمل على تحسين الفلترة والتحليلات والذكاء الاصطناعي، وسيساهم ذلك في تعزيز سرعة وكفاءة تقنيات الذكاء الاصطناعي.

وقال كلاوديو تورتوريشي، كبير الباحثين في معهد الابتكار التكنولوجي، الذي تولى قيادة هذا البحث: ""نهدف إلى إرساء الأسس التي ستساهم في إطلاق الشبكات العصبية المسؤولة عن بناء الخوارزميات ثلاثية الأبعاد للذكاء الاصطناعي.""

ساعدت التطبيقات الأولية للخوارزمية الجديدة في استخراج الوجوه من مشاهد ثلاثية الأبعاد وإنشاء خرائط ثنائية الأبعاد تمثل بيانات ثلاثية الأبعاد، بالإضافة إلى دمج أنواع متميزة من المعلومات ثلاثية الأبعاد في صور ثنائية الأبعاد.

يعتقد تورتوريشي أن الباحثين في المستقبل سيسمحون للذكاء الاصطناعي بمعالجة البيانات ثلاثية الأبعاد من البداية، وأشار أن معظم مؤتمرات الرؤية الحاسوبية تتضمن مصطلح ""معالجة الإشارات"" في عنوانها، الأمر الذي يشير إلى البيانات أحادية البعد، ومع ذلك، تشمل الصور بيانات ثنائية الأبعاد ونحن نعيش في عالم ثلاثي الأبعاد.

ومن جانب آخر تزايد الاهتمام بالشبكات العصبية الترشيحية لمعالجة بيانات الصور في العام الماضي، ولكن هذا النموذج لا يعد عملياً بالنسبة للبيانات ثلاثية الأبعاد. وأضاف تورتوريشي: ""هذه الأنواع من الخوارزميات لم تعمل بشكل جيد على البيانات ثلاثية الأبعاد"".

وعلى الرغم من أن الشركات تقوم اليوم بمعالجة الصور ثلاثية الأبعاد باستخدام خوارزميات الذكاء الاصطناعي، إلا أن هذا غالباً ما ينطوي على العمليات الحوسبية لتمكين مختلف العناصر من العمل. ويمكن لهذه التقنية الجديدة المستخدمة للمعالجة المسبقة (CSIOR) أن تتيح مجموعة واسعة من الفرص.

قيود نظام ليدار (LiDAR)

لطالما تداولت وسائل الإعلام أسباب تجنب شركة تسلا استخدام نظام ليدار في تدريب تقنيات الذكاء الاصطناعي الخاصة بها. ولكن اتضح أنه من الممكن أن تكون معالجة العديد من الصور ثنائية الأبعاد أكثر كفاءة في بعض الجوانب من محاولة تطوير خوارزميات أفضل للمعالجة ثلاثية الأبعاد. ويمكن لخوارزمية ""CSIOR"" الجديدة توجيه مستوى الكفاءة والأداء نحو كتابة خوارزميات أفضل لمعالجة بيانات ليدار من البداية.

وقال تورتوريشي: ""أعتقد بأننا يجب أن ننتقل إلى التمثيلات ثلاثية الأبعاد، إذ إن النموذج الحالي غير مناسب في الوقت الحاضر مع المركبات ذاتية القيادة في ظل عدم امتلاكنا خوارزميات متطورة بما فيه الكفاية.""

تقوم تقنيات الالتقاط ثلاثية الأبعاد مثل نظام ليدار بالتقاط معلومات عميقة حول مشهد معين مثل ""السحابة النقطية"" التي تشير إلى العمق النسبي للنقاط، ولكن السحب النقطية تربك الجهود المبذولة لتحديد بعض العناصر مثل أن يحدد القط عن مالكه أثناء المشي.

ومن هذا المنطلق طور الباحثون مشعبات شبكية لتحويل هذه البيانات الأولية إلى شبكات متصلة، الأمر الذي يسهل رؤية كيفية اتصال النقاط على سطح الأجسام.

ومع ذلك، فإن مشعبات الشبكة الحالية تواجه تحديات عديدة متعلقة بالاتساق والدقة. وفي هذا الإطار، غالباً ما يقوم مطورو الذكاء الاصطناعي بتصوير العالم إلى صورة ثنائية الأبعاد، والتي تفقد بعض المعلومات في البيانات الأولية.

طور الباحثون بعض الخوارزميات لمعالجة البيانات ثلاثية الأبعاد مباشرة، مثل خوارزمية ""PointNet""، وهي المكافئ ثلاثي الأبعاد لخوارزميات ""AlexNet"" التي حفزت الأبحاث الحديثة في مجال التعلم العميق.

ولكن أداء خوارزمية ""PointNet"" أسوأ بكثير من الخوارزميات ثنائية الأبعاد الحالية.

قص وتعديل الوجوه

تتضمن العملية التقليدية لنسخ وجه من صورة ثلاثية الأبعاد خطوتين منفصلتين. أولاً، تقوم الخوارزمية بقص منطقة الوجه من لقطاة إسقاطية، ثم تقوم خوارزمية ثانية بإعادة تشكيل المنحنيات في الصورة. وتسمح تقنية التشكيل المنتظم من تقاطعات الدوائر (CSIOR) لخوارزمية اقتصاص الوجه بالتقاط الصورة وشكلها في خطوة واحدة، إذ تستفيد من الطريقة التي تعالج بها الخوارزمية المشهد كدائرة ممتدة. ويمكن أن يؤدي ذلك إلى تحسين خوارزميات التعرف على الوجوه التي تراعي عمق ميزات الوجه من أجل تحسين الدقة.

مثال على تعديل واستخراج وجه بشري من بيانات ثلاثية أبعاد أولية

استخراج الشبكات (grid) من التشابكات (mesh)

طور الفريق تطبيقاً لاستخراج الشبكات القطبية والشبيهة بالصور مباشرة من بنية التشابكات. ووجدوا أن بإمكانهم أيضاً تحسين تطوير خوارزميات الشبكة العصبية ثلاثية الأبعاد التي عملت على شبكات الصور ثنائية الأبعاد. وفي هذا السياق، قال تورتوريشي إن هذه الخطوة تعد وسيطة وأنهم يفضلون العمل مباشرة على التشابكات ثلاثية الأبعاد. ومع ذلك، تساعد هذه الخطوة في إظهار منهجية تدريجية واحدة لعملية شاملة أكثر سلاسة.

عملية توليد شبكة ثنائية الأبعاد اعتيادية على تشابك ثلاثي الأبعاد على النقطتين (a) و(b). أما النقطة (c) تمثل نشر مثل هذه الشبكات على أسطح ثلاثية الأبعاد.

تسليط الضوء على الميزات الجديدة ثلاثية الأبعاد في النماذج ثنائية الأبعاد

ساهم دليل مفهوم آخر في استكشاف منهجيات مختلفة لتحويل وتمثيل الميزات ثلاثية الأبعاد على شبكة ثنائية الأبعاد. فبدلاً من مجرد وصف العمق، يمكن أن تمثل هذه الصور ميزات إضافية مثل الحد الأقصى للانحناء والتغيرات في العمق ومتوسط الانحناء. ويمكن دمج سلسلة من هذه الأنواع من الصور لتحسين خوارزميات المعالجة ثلاثية الأبعاد.

ويعد ذلك مثالاً على مجموعة صور تم توليدها من خلال تحويل بيانات أولية ثلاثية الأبعاد إلى مخططات ثنائية الأبعاد تشير إلى خصائص الجسم مثل الحد الأقصى للانحناء والعمق المحلي ومتوسط الانحناء. ويمكن لذلك أن يمرر المعلومات ثلاثية الأبعاد إلى خوارزميات الذكاء الاصطناعي من أجل الحصول على خوارزميات ثلاثية الأبعاد أكثر تعقيداً.

الطريق نحو الذكاء الاصطناعي ثلاثي الأبعاد

أحد القيود هو أن تقنية التشكيل المنتظم من تقاطعات الدوائر (CSIOR) يعمل حالياً فقط على التشابكات المفتوحة للأشكال ثلاثية الأبعاد. وهذا جيد لتمثيل مشهد من وجهة نظر واحدة عندما لا يمكنك رؤية الجهة الخلفية.

وفي هذه الحالة، يعد الجزء الذي لا يمكنك رؤيته هو الجزء ""المفتوح"". ولكن فشلت التقنية في التعامل مع ""التشابكات المغلقة"" مثل التقاط سطح تفاحة كاملاً كما ينظر إليه من جميع الجوانب.

تظهر تقنية التشكيل المنتظم من تقاطعات الدوائر (CSIOR) إمكانات هائلة.

وتبرز هذه المشاريع المبكرة العديد من الأساليب الوسيطة لمعالجة البيانات ثلاثية الأبعاد باستخدام خوارزميات الذكاء الاصطناعي ثنائية الأبعاد الحالية. ويتوقع تورتوريشي أن هذا يمكن أن يلهم إيجاد خوارزميات أكثر كفاءة لمعالجة البيانات ثلاثية الأبعاد. وقال: ""نريد إنشاء شبكات عصبية تعمل مباشرة على البيانات ثلاثية الأبعاد.""

"