أبرز العيوب البصرية والصوتية التي تتسم بها المشاهد المولدة بالذكاء الاصطناعي
أتاح التطور السريع في تقنيات الذكاء الاصطناعي التوليدي مثل نموذج "سورا 2" (Sora 2) من شركة OpenAI، و"فيو 3" (Veo 3) من Google، إنتاج مقاطع فيديو كاملة اعتمادًا على نصوص مكتوبة فقط. هذه المقاطع غالبًا ما تبدو واقعية إلى درجة يصعب معها على الجمهور، وأحيانًا حتى على الصحفيين، تمييزها عن الفيديوهات الحقيقية.
في هذا المقال، نستعرض أبرز المشاهد المولدة بالذكاء الاصطناعي التي رصدها "مسبار" خلال الفترة الفائتة، ونحلل أبرز العيوب البصرية و الصوتية التي تتضمنها، كما نوضح كيف يمكن لتتبع سياق انتشار هذه المشاهد أن يكون له دور أساسي في كشف حقيقتها.
أبرز العيوب البصرية في المشاهد المولدة بالذكاء الاصطناعي
مؤخرًا، أُغرقت مواقع التواصل الاجتماعي بمشاهد اشتباكات بين عناصر أمن ومتظاهرين في أوروبا والولايات المتحدة يستخدم فيها عناصر الأمن رذاذ الفلفل الأسود ضد المحتجين.
حصدت هذه المقاطع ملايين المشاهدات حول العالم، وانقسم مستخدمو الإنترنت الذين تعرضوا لها بين مصدقين وآخرين تنبهوا إلى علامة تطبيق "سورا" المائية الظاهرة عليها وميزوا أنها مولدة بالذكاء الاصطناعي.
وعلى الرغم من أن المشاهد بدت واقعية من النظرة الأولى، إلا أن التدقيق في تفاصيلها كشف عدة عيوب بصرية تشترك فيها المشاهد المولدة بالذكاء الاصطناعي، من قبيل:
-
تغير الإضاءة بشكل غير منطقي بين اللقطات
-
تحرك الظلال بزوايا لا تتوافق مع مصادر الضوء
-
تكرار خلفيات المباني والعناصر البشرية بصورة متماثلة تقريبًا، مما يشير إلى استخدام نموذج توليدي يعيد تدوير العناصر البصرية.


تبرز هذه العيوب بشكل واضح في مشاهد الاحتشاد، فمن المشاهد المولدة التي انتشرت مؤخرًا بشكل واسع، ورصدها مسبار في أغسطس/آب الفائت، مشهد ادعى متداولوه أنه لاحتشاد آلاف اليابانيين للتعبير عن التضامن مع الشعب الفلسطيني في قطاع غزة خلال الحرب الأخيرة على القطاع.
ولكن، عند تحليل المشهد، ظهرت مجموعة من المؤشرات التي تدل على كونها مولدة باستخدام الذكاء الاصطناعي أو معدلة رقميًا، وليست توثيقًا حقيقيًا لمظاهرة في اليابان، أبرزها التكرار غير الطبيعي للوجوه والأشخاص.
إلى جانب هذا، ظهرت عيوب أخرى عادة ما تبرز في مشاهد الاحتجاجات الحاشدة المولدة بالذكاء الاصطناعي وهي:
-
ظهور نصوص مشوهة وغير مقروءة على اللافتات المرفوعة.
-
توزيع غير منطقي للحشود، إذ تبدو الكثافة البشرية منتظمة بشكل مبالغ فيه، دون فراغات أو اختلافات في الحركة، وهو ما يتنافى مع الطبيعة الواقعية للمظاهرات الحقيقية.

وفي مطلع أكتوبر الجاري، رصد مسبار مقطع فيديو ادعى ناشروه أنه يوثق محاصرة إحدى سفن أسطول الصمود العالمي من قبل قوات البحرية الإسرائيلية، حينها.
ولكن عند التدقيق في المشهد وتوزيع السفن المحيطة بالسفينة المستهدفة، يلاحظ أن تصميمها وهيكلها متشابه، ما يوحي بأنها نُسخ مكررة. كما ظهر أن جميع السفن ترفع أعلامًا متطابقة من حيث الشكل والألوان والموقع، دون وجود اختلافات. ويلاحظ تكرار واضح في نمط الإضاءة الصادرة عن السفن وانعكاساتها على سطح الماء.
إلى جانب ذلك، تضمن المشهد المتداول عيبان أساسيان تشترك فيه المقاطع المولدة بالذكاء الاصطناعي، وهما:
-
المبالغة في التنسيق
عكس المشهد العام قدرًا كبيرًا من التنسيق المبالغ فيه المتمثل في اصطفاف السفن حول الهدف المركزي بتوزيع شبه متناظر، وهو ما يتعارض مع طبيعة الحركة البحرية العشوائية والفوضوية في الظروف الواقعية.
-
طريقة تصوير سينمائية
وبالتركيز بطريقة تصوير المشهد المتداول يظهر للمستخدم وكأنه يشاهد جزءًا من فيلم تم إخراجه بطريقة احترافية، وليس تصويرًا لحظيًا بإمكانات بسيطة، وهذه سمة من سمات التطبيقات التوليدية التي تستخدم بشكل أساسي في توليد أفلام قصيرة وليس مشاهد عشوئية.

أبرز العيوب الصوتية في المشاهد المولدة بالذكاء الاصطناعي
- وضوح الصوت أكثر من اللازم
واحد من أبرز العيوب الصوتية في المشاهد المولدة بالذكاء الاصطناعي، هو ظهور الأصوات مصقولة بطريقة غير طبيعية، بمعنى أنها تخلو من ارتداد الصوت أو التداخل المحيطي، ففي المشهد الذي ظهر فيه محتج يرتدي ملابس سوداء ويصرخ في وجه الجندي قبل أن يرشه الأخير برذاذ الفلفل الأسود، بدا صوت المحتج واضحًا أكثر من اللازم، إذ لا يسمع صوت المحيط حوله، والذي يتضمن محتجين وعناصر من الشرطة وقوات الأمن، وسيارات شرطة في الخلفية.
-
أخطاء صرفية ونحوية وتركيبية في الأصوات المولدة باللغة العربية
وأحد أهم العيوب التي تتميز بها المشاهد المولدة باللغة العربية هو وجود أخطاء صرفية ونحوية بالكلمات المسموعة، ففي مقطع الفيديو الذي انتشر على أنه لسفينة من أسطول الصمود العالمي محاصرة من قبل قوات البحرية الإسرائيلية، يُسمع صوت الصحفية الظاهرة في الفيديو وهي تقول: "الآن إحدى السفن وهي محاصِرة بإثنى عشر قارب إسرائيلي.. الآن يبدأ واجبكم بالضغط الإعلامي".
قولها محاصِرة بدلًا من محاصَرة هو خطأ صرفي، إذ إن السفينة في هذه العبارة تمثل اسم مفعول (وقع عليها فعل الحصار) وليست اسم فاعل (أي هي من قامت بفعل الحصار)، لذلك فالأصح قول محاصَرة.إلى جانب ذلك، تتحدث الصحفية في الفيديو المولد بلكنة غير المتمكن من اللغة إذ تتراوح بين الفصحى والعامية.
تعود هذه الأخطاء بشكل أساسي إلى عدم تمكن النماذج التوليدية من قواعد اللغة العربية النحوية والصرفية، نتيجة التركيز على تدريبها بشكل أساسي على نصوص باللغة الإنجليزية، إلى جانب عدم وجود آلية تدقيق لغوي داخل النموذج.
- أصوات آلية
في مشهد انتشر مؤخرًا على أنه لتسليم عناصر المقاومة الفلسطينية أسرى إسرائيليين وهم يرتدون بيجاما مصنوعة من قطن الكستور المصري، بدت العديد من الدلالات التي تشير إلى أنه مولد بالذكاء الاصطناعي، ففضلًا عن التشوهات البصرية الواضحة، فإن أصوات الأشخاص المسموعة في المشهد ظهرت كأنها أصوات آلية، نبرتها حادة وجامدة بعيدة عن نبرة الصوت البشري.
سياق انتشار المشاهد المولدة يساعد بكشف حقيقتها
عقب تدقيق عدد كبير من المشاهد المولدة، يتضح وجود نمط معين لانتشارها يمكن تلخيصه في عدة نقاط:
- إذا ظهرت الصورة أو الفيديو أولًا على حسابات مجهولة أو صفحات متخصصة في المحتوى الغريب أو المثير، فذلك مؤشر على أنها قد تكون مولدة أو مفبركة.
- المحتوى الحقيقي عادةً ينتشر تدريجيًا وتدعمه تغطيات إعلامية وشهادات مباشرة. أما المحتوى المزيف (المولد بالذكاء الاصطناعي في هذه الحالة) فينتشر بسرعة غير طبيعية، فوفقًا لدراسة صدرت عن جامعة MIT فإن المحتوى المضلل أسرع بالانتشار ست مرات أكثر من المحتوى الحقيقي.
- المنشورات التي ترافق المحتوى المزيف غالبًا تستخدم عناوين عاطفية أو مثيرة ("شاهد قبل الحذف!"، "لن تصدق ما حدث!"، "عاجل وغير عادي").
- إذا كانت المشاهد مهمة ولكن لا توجد أي وسيلة إعلام ذات صدقية تتحدث عنها، فذلك مؤشر قوي على أنها نتاج ذكاء اصطناعي.
اقرأ/ي أيضًا
كيف نكشف الصور المولدة بالذكاء الاصطناعي؟
الصورة مولّدة بالذكاء الاصطناعي وليست لانفجار في مبنى البنتاغون






















