الجمعة 10 مايو 2024

تقنية جديدة تحدد هوية وشكل الشخص من صوته

صورة من التطبيق

الهلال لايت 8-5-2022 | 17:38

ميادة عبد الناصر

سبيتش تو فيس، شبكة عصبية متقدمة طورها علماء معهد ماساتشوستس للتكنولوجيا وتم تدريبهم على التعرف على سمات وجه معينة وإعادة بناء وجوه الأشخاص بمجرد الاستماع إلى أصواتهم.

ووفقا لموقع " ذا صن " البريطاني فربما تكون قد سمعت بالفعل عن الكاميرات التي تعمل بالذكاء الاصطناعي والتي يمكنها التعرف على الأشخاص فقط من خلال تحليل ملامح وجوههم ، ولكن ماذا لو كانت هناك طريقة للذكاء الاصطناعي لمعرفة الشكل الذي تبدو عليه بمجرد صوتك وبدون مقارنة صوت إلى قاعدة بيانات؟ هذا هو بالضبط ما عمل عليه فريق من العلماء في معهد ماساتشوستس للتكنولوجيا ، وكانت نتائج عملهم مثيرة للإعجاب نوعًا ما. 

في حين أن شبكتهم العصبية ، المسماة Speech2Face ، لا يمكنها حتى الآن اكتشاف ملامح الوجه الدقيقة للإنسان فقط من خلال صوتهم ، فمن المؤكد أنها تحصل على الكثير من التفاصيل بشكل صحيح.

قال مبتكرو Speech2Face: "تم تصميم نموذجنا للكشف عن الارتباطات الإحصائية الموجودة بين ملامح الوجه وأصوات المتحدثين في بيانات التدريب وبيانات التدريب التي نستخدمها عبارة عن مجموعة من مقاطع الفيديو التعليمية من يوتيوب ، ولا تمثل جميع سكان العالم بالتساوي لذلك ، يتأثر النموذج - كما هو الحال مع أي نموذج للتعلم الآلي - بهذا التوزيع غير المتكافئ للبيانات. 

يمكنك أن تخبر الكثير عن الشخص من الطريقة التي يتحدث بها بمفرده فعلى سبيل المثال ، يمكنك على الأرجح معرفة ما إذا كان شخص ما ذكرًا أو أنثى ، أو إذا كان صغيرًا أو كبيرًا ، لكن Speech2Face يتجاوز ذلك حيث يمكنه تحديد شكل أنف أو عظام الوجنتين أو الفك بدقة إلى حد ما من صوته وحده ، لأن الطريقة التي يتم بها تنظيم الأنف والعظام الأخرى في وجوهنا تحدد الطريقة التي نسمع بها.

العرق هو أيضًا أحد الأشياء التي يمكن لـ Speech2Face تحديدها بدقة من خلال الاستماع إلى صوت شخص ما لبضعة أجزاء من الثانية ، حيث يميل الأشخاص الذين ينتمون إلى نفس المجموعات إلى امتلاك سمات متشابهة ويأخذ الذكاء الاصطناعي في الاعتبار مجموعة متنوعة من العوامل ، وفي بعض الأحيان ينتج عنه نتائج مبهرة ، لكنه لا يزال قيد التنفيذ.


في بعض الحالات ، واجه الذكاء الاصطناعي صعوبة في تحديد الشكل الذي قد يبدو عليه المتحدث. تسببت عوامل مثل اللكنة واللغة المنطوقة ونبرة الصوت في عدم تطابق فادح في الكلام لوجه حيث كان الجنس أو العمر أو العرق غير صحيح تمامًا. على سبيل المثال ، غالبًا ما يتم تحديد الرجال ذوي النغمة العالية بشكل خاص على أنهم أنثى ، بينما تم تحديد الإناث ذوات الصوت العميق على أنهم ذكور. كما بدا الآسيويون الذين يتحدثون الإنجليزية بطلاقة أقل آسيويين مما كانوا يتحدثون لغتهم الأم.

ومع ذلك ، على الرغم من قيودها ، تقدم Speech2Face نظرة على مستقبل تقنية الذكاء الاصطناعي التي تثير إعجاب الناس وترعبهم. تخيل مستقبلاً حيث لا يكفي سوى بضع أجزاء من الثانية من وقت الصوت لشبكة عصبية لتكوين صورة دقيقة فبالتأكيد ، يمكن أن يساعد في تحديد المجرمين ، ولكن ما الذي يمنع الجهات الفاعلة السيئة من استخدام نفس التكنولوجيا لأغراض شائنة؟

Dr.Radwa
Egypt Air