روبوت بملامح بشرية يستبق تعابير الوجه ويُتقن مزامنة الشفاه عبر لغات متعددة

روبوت - مصدر الصورة: موقع unsplash

طوّر باحثون نظاماً متقدماً يتيح للروبوتات ذات الملامح البشرية مزامنة حركات الشفاه مع الصوت المنطوق بدقة عالية، بما يقرّب تعابيرها من السلوك الإنساني الطبيعي أكثر من أي وقت مضى.

ويعتمد النظام على نموذج عكسي مُحسَّن قادر على توليد أوامر الحركة بسرعة تفوق النماذج السابقة بخمس مرات؛ ما يسمح باستجابات آنية تحاكي التفاعل البشري المباشر.
ووفقاً لموقع "إنترستنغ إنجنيرنغ"، كشف فريق بحثي من جامعة كولومبيا أنه جرى اختبار النظام على أكثر من 45 مشاركاً، وأظهرت النتائج تفوقه على خمسة مناهج معتمدة حالياً، محققاً أعلى درجات التطابق بين حركات فم الروبوت ونماذج مرجعية مثالية.

تعميم لغوي يتجاوز بيانات التدريب

اللافت في هذا التطور أن النظام لا يقتصر على لغة بعينها؛ إذ أظهر قدرة لافتة على التعميم عبر لغات متعددة، من بينها الفرنسية والصينية والعربية، حتى وإن لم تكن ضمن بيانات التدريب الأصلية.
ويقول الباحثون إن الإطار الجديد "يمكّن من توليد حركات شفاه واقعية عبر 11 لغة غير إنجليزية ذات بُنى صوتية مختلفة"؛ ما يفتح المجال أمام استخدامات أوسع في التعليم، وخدمات الدعم الاجتماعي، ورعاية المسنين.
ورغم هذه الإمكانات، شدد الفريق على أهمية التعامل الحذر مع هذه التقنيات المتقدمة، تفادياً لأي استخدامات غير أخلاقية أو مضللة.

من التفاعل المتأخر إلى الاستجابة الاستباقية

ولا تزال معظم الروبوتات الحالية تعتمد على التفاعل المتأخر، حيث تقلّد تعابير الإنسان بعد حدوثها؛ ما يمنح التواصل طابعاً آلياً مصطنعاً في المقابل، تمثل التعابير الاستباقية القائمة على التنبؤ بردود الفعل العاطفية عنصراً محورياً في بناء تفاعل طبيعي، لا سيما فيما يتعلق بالابتسامات وتعبيرات الوجه التي تعزز الثقة والروابط الاجتماعية.
وتسعى الأبحاث الحديثة في مجال الروبوتات الاجتماعية إلى تجاوز نماذج الرسوم المتحركة المبرمجة مسبقاً، نحو تعابير ديناميكية عفوية قادرة على دعم الاندماج السلس للروبوتات في البيئات البشرية.

إيمو بقدرات تعبيرية متقدمة

ضمن هذا السياق، كشف الفريق عن روبوت وجهي متطور أُطلق عليه اسم "إيمو"، صُمّم خصيصاً لتعزيز التفاعل الاجتماعي.
ويعد "إيمو" تطويراً للمنصة السابقة "إيفا"، مع تحسينات عتادية بارزة، أبرزها تزويده بـ26 مشغّلاً "actuator" تسمح بإنتاج تعابير وجه غير متناظرة، مقارنة بعشرة فقط في النسخة السابقة.
ويعتمد الروبوت على نظام مغناطيسي مباشر لتشكيل جلد قابل للاستبدال، ما يتيح تحكماً أدق مقارنة بأنظمة الكابلات التقليدية.
كما زُوّد بكاميرات RGB عالية الدقة مدمجة في العينين، تمنحه قدرة متقدمة على الإدراك البصري الآني واستشراف تعابير الطرف المقابل.

تابعوا المزيد: أفضل كتب عن الذكاء الاصطناعي

تعبيرات آنية بزمن قياسي

ولتحقيق التزامن الدقيق، طوّر الباحثون نموذجاً تنبؤياً دُرِّب على 970 مقطع فيديو، قادر على استشراف التعابير المستقبلية انطلاقاً من تغيرات وجهية أولية دقيقة.
ويعمل النموذج بسرعة تصل إلى 650 إطاراً في الثانية، بينما ينفّذ النموذج العكسي أوامر المحركات بسرعة 8000 إطار في الثانية، ما يتيح توليد التعابير خلال 0.002 ثانية فقط.
وبما أن تعابير الوجه البشرية تستغرق عادةً نحو 0.8 ثانية، فإن هذا الفارق الزمني يمنح الروبوت هامشاً مريحاً للاستجابة المتزامنة.
وأظهرت التحليلات أن النموذج نجح في التنبؤ الصحيح بتفعيل التعابير في أكثر من 72% من الحالات، مع دقة تنبؤية إيجابية تجاوزت 80 %.

تحديات ثقافية وحدود قائمة

ورغم النتائج المشجعة، أقرّ الباحثون بوجود تحديات ثقافية، إذ تختلف أنماط التعبير والتواصل البصري من مجتمع إلى آخر.
ومع ذلك، يرون أن الانتقال من محاكاة التعابير إلى استباقها يمثل خطوة جوهرية في التطور الاجتماعي للروبوتات، ويقربها أكثر من فهم السلوك الإنساني والتفاعل معه بواقعية أكبر.