تكنولوجيا

أداة DeepFake-o-meter: ما مدى فعاليتها في كشف المشاهد المولدة بالذكاء الاصطناعي؟

فاطمة عمرانيفاطمة عمراني
date
13 مايو 2025
آخر تعديل
date
8:00 ص
14 مايو 2025
أداة DeepFake-o-meter: ما مدى فعاليتها في كشف المشاهد المولدة بالذكاء الاصطناعي؟
الأداء يتفاوت بحسب طبيعة المحتوى الظاهر في كل مقطع | مسبار

تتزايد الحاجة إلى أدوات تحقق رقمية موثوقة مع تطور تقنيات التلاعب البصري والصوتي، وازدياد الاعتماد على الوسائط الرقمية كمصدر للمعلومة والصورة. تقدم أداة DeepFake-o-meter، المطوّرة ضمن مختبر الوسائط الرقمية الجنائية في جامعة بافالو الأميركية، نموذجًا لتقنية مفتوحة المصدر توفّر تحليلًا متعدد المستويات للصور والمشاهد والمقاطع الصوتية المشكوك في صدقيتها.

أداة DeepFake-o-meter

أداة DeepFake-o-meter

في إصدارها الثاني الذي أطلق مؤخرًا، اتسعت قدرات الأداة لتشمل تحليل الصور الثابتة إلى جانب المشاهد، كما أعيد تصميم واجهتها لتقديم تجربة تفاعلية مرئية، تتيح للمستخدم فهم النتائج دون الحاجة لخلفية تقنية متقدمة. والأهم من ذلك، أنها لا تعتمد على خوارزمية واحدة، إذ توظف DeepFake-o-meter مجموعة متكاملة من النماذج الحسابية، صُمّمت كل منها لرصد أنماط مختلفة من التلاعب. هذا التعدد لا يعكس ترفًا برمجيًا، بل ضرورة فرضها تنوّع أساليب التزييف، من تعديل البُنى البصرية، إلى تغيير الإيقاع الزمني، وصولًا إلى تركيب الصوت على حركة غير أصلية.

تتيح الواجهة للمستخدمين سحب الملفات أو رفعها مباشرة، وتعرض بشكل واضح المتطلبات الفنية المقبولة. تشمل هذه المتطلبات دعمًا لعدد من صيغ الصور مثل JPG، PNG، BMP، TIFF وRAF، بشرط ألا تتجاوز دقة الصورة 2K.

تدعم الأداة تحليل الصور ومقاطع الفيديو والملفات الصوتية
تدعم الأداة تحليل الصور ومقاطع الفيديو والملفات الصوتية

كما تدعم الأداة تحليل مقاطع الفيديو بصيغ MP4، AVI وMOV، على ألا تتجاوز مدتها دقيقتين، وهو ما يشير إلى أن المنصة مصممة للتعامل مع مقاطع قصيرة مخصصة للكشف الأولي والسريع. وتدعم أيضًا ملفات الصوت بصيغ WAV وMP3، ما يوسع من نطاق استخدام الأداة لتشمل التزييفات الصوتية كذلك.

خوارزميات متخصصة توفرها أداة DeepFake-o-meter

تتنوع الخوارزميات التي يوفرها موقع Deep-O-Meter لرصد مقاطع الفيديو المزيفة بحسب نوع المحتوى والتقنية المستخدمة في التزييف. على سبيل المثال، تعتمد خوارزميات مثل WAV2LIP-STA وLIPINC على كشف تلاعب مزامنة الشفاه، وتعمل فقط على المقاطع التي تحتوي على وجه واحد واضح ومتحرك الشفاه، إذ دُرّبت على مشاهد Wav2Lip المُولدة ذاتيًا أو على بيانات من مجموعة FakeAVCeleb.

تتنوع الخوارزميات التي يوفرها موقع Deep-O-Meter
تتنوع الخوارزميات التي يوفرها موقع Deep-O-Meter

في المقابل، تقدم خوارزميات مثل ALTFreezing وFTCN وLSDA، دقة أعلى في كشف التزييف البصري الكامل باستخدام بيانات من مجموعة FaceForensics+، وهي فعالة بشكل خاص عند توفر وجه واحد في الفيديو، بإضاءة جيدة ودون عوائق مثل النظارات أو زوايا التصوير غير المباشرة.

أما خوارزمية SBI فتحلّل كل إطار بطريقة منفصلة لاكتشاف التشوهات الدقيقة، إلا أن فعاليتها تقل مع التزويرات المتقنة. وبالنسبة لخوارزمية DSP-FWA، فهي مخصصة لمشاهد تبديل الوجه وتُجري تقييمًا مشابهًا، فتحلل الإطارات وتُخرج نتيجة متوسطة.

من جهة أخرى، هناك خوارزميات جديدة مثل TALL وXCLIP، التي تستهدف تزييف الوجوه في الفيديو والصور الثابتة على التوالي، بالإضافة إلى LipFD التي تركز على كشف التناقض بين الصوت وحركة الشفاه في مقاطع فيديو التزييف الصوتي البصري.

كما تتيح المنصة تحميل تقرير مفصل عن نتائج الفحص، أو حفظ الجلسة لمراجعة لاحقة. هذا التصميم المرن يمنح الأداة طيفًا واسعًا من الاستخدامات، سواء في غرف الأخبار، أو في المشاريع البحثية، أو حتى في الاستخدامات الفردية اليومية، خاصة مع الانتشار المتزايد للوسائط المفبركة لأغراض سياسية أو تجارية أو تضليلية.

من أجل اختبار فعالية أداة Deep-O-Meter في كشف الفيديوهات المزيّفة، أجرينا تجربة على ثلاث مواد مرئية سبق لفريق مسبار التحقق منها باستخدام أساليب وتقنيات تحقق مستقلة ومتعددة المصادر. الهدف من هذا الاختبار لم يكن فقط التحقق من قدرة الأداة على إعطاء نتيجة صحيحة، بل أيضًا تقييم دقتها، ووضوح نتائجها، وكيفية تعاملها مع أنماط مختلفة من التزييف سواء في تحريك الشفاه أو تبديل الوجه أو التزوير الكامل لمقاطع الفيديو. وقد حرصت التجربة على تنويع النماذج المختارة بين مقاطع فيديو أُنتجت باستخدام تقنيات تقليدية وأخرى أكثر تقدمًا، بهدف اختبار نقاط القوة والقصور المحتملة في الأداة ضمن سيناريوهات واقعية. النتائج التالية تُظهر أداء الأداة عند التعامل مع هذه النماذج الثلاثة.

النموذج الأول: مقطع لكلب ينقذ طفلًا من تحت الأنقاض في غزة

يُظهر فيديو متداول لحظة إنقاذ كلب لطفل عالق تحت الركام في غزة، في مشهد أثار تعاطفًا واسعًا عبر منصات التواصل الاجتماعي.

مقطع فيديو سبق أن تحقق "مسبار" من صحته
مقطع فيديو سبق أن تحقق "مسبار" من صحته

ورغم الطابع الإنساني القوي للمقطع، فإنه لا يمت للواقع بصلة، بل هو نتاج توليد عبر الذكاء الاصطناعي، اعتمد على تركيب مشاهد درامية باستخدام تقنيات متقدمة في المحاكاة البصرية. يمثل هذا النموذج تحديًا فعليًا لأي أداة كشف، نظرًا لاعتماده على صور توليفية لا تحتوي على وجوه بشرية واضحة أو حركات شفهية يمكن تتبعها.

عند اختبار الفيديو أظهرت أداة كشف التزييف تفاوتًا كبيرًا في نتائج النماذج الفرعية. سجّل نموذج WAV2LIP-STA نسبة 59.9% من حيث احتمال التوليد بالذكاء الاصطناعي، وهي النسبة الأعلى بين النماذج، بينما أظهرت نماذج أخرى مثل LipFD نسبة شبه معدومة (0.1%)، وأشارت بعض النماذج إلى عدم وجود وجوه أو حركات شفاه يمكن تحليلها.

نتيجة اختبار الأداة
نتيجة اختبار الأداة

هذا التباين يُبرز أحد التحديات الأساسية في كشف المحتوى المزيف الذي لا يحتوي على عناصر بشرية واضحة، حيث تصبح الأدوات محدودة الفعالية وتعتمد بشكل أكبر على بنية المشهد والمؤثرات البصرية بدلًا من إشارات الوجه والصوت، مما يجعل من هذا الفيديو مثالًا مهمًا لاختبار قدرات الأداة في بيئات توليفية يصعب التحقق منها تقنيًا.

النموذج الثاني: فيديو منسوب للسديس يتحدث فيه عن حفلات الترفيه

في هذا الفيديو، يُنسب إلى الشيخ عبد الرحمن السديس تصريح غير مألوف حول فعاليات الترفيه، ما أثار جدلًا واسعًا لغرابة المضمون مقارنة بخطاباته المعروفة.

فيديو مضلل لحديث الشيخ السديس عن حفلات الترفيه

بالتحقق وجد مسبار أن الفيديو مولّد بالذكاء الاصطناعي، مستغلًا أسلوب التوليف الصوتي والمرئي لإنشاء محتوى يبدو حقيقيًا من جهة حركات الشفاه وتعبيرات الوجه. هذا النموذج يمثل اختبارًا تقنيًا دقيقًا، إذ يجمع بين خطاب ديني حسّاس، وتزييف متقن يصعب على الجمهور تمييزه دون تحليل متخصص.

في تحليل مقطع الفيديو المنسوب إلى الشيخ عبد الرحمن السديس والذي يتحدث فيه عن حفلات الترفيه، أظهرت أداة الكشف عن المحتوى المُولَّد بالذكاء الاصطناعي إشارات قوية على التزوير. سجل نموذج XCLIP أعلى نسبة احتمال للتوليد بلغت 99.6%، تلاه TALL بنسبة 97.1%، فيما أظهرت نماذج أخرى مثل FTCN وWAV2LIP-STA نسبًا مرتفعة كذلك (78.4% و74.9% على التوالي).

هذا التقارب في نتائج عدة نماذج يعزز من موثوقية التشخيص، بخلاف نموذج LipFD الذي سجّل 0%، وهو أمر معتاد في النماذج التي تركز على حركة الشفاه فقط، خاصة إذا كانت مزامنة الصوت والصورة مصطنعة بإتقان. تعكس هذه النتيجة قدرة الأداة على رصد المحتوى المفبرك في مشاهد تحتوي على وجوه بشرية واضحة وخطاب بصري مباشر، ما يجعلها أكثر قابلية للتحليل التقني الدقيق مقارنة بمقاطع الفيديو ذات الطابع التجريدي أو الحيواني.

الأداة تسجل نسبة 99.6% كاحتمال تزوير
الأداة تسجل نسبة 99.6% كاحتمال تزوير

النموذج الثالث: فيديو مركبة فضائية في سماء الكويت

انتشر على مواقع التواصل مقطع فيديو زعم ناشروه أنه يوثق لحظة مثيرة تُظهر جسمًا طائرًا غامضًا في سماء الكويت، فهو يوثّق لمركبة فضائية حقيقية. إلا أنّ التحقيق الذي أجراه مسبار كشف أن المقطع مولّد بالكامل بواسطة الذكاء الاصطناعي، إذ جرى توظيف نماذج بصرية تحاكي تصوير الهواتف المحمولة في الليل، ما زاد من واقعيته.

فيديو زعم ناشروه أنه يوثق لحظة مثيرة تُظهر جسمًا طائرًا غامضًا في سماء الكويت
فيديو زعم ناشروه أنه يوثق لحظة مثيرة تُظهر جسمًا طائرًا غامضًا في سماء الكويت

لا يحتوي الفيديو على وجوه أو حوارات، بل يعتمد على البيئة والخدع البصرية، مما يجعله مثاليًا لاختبار قدرة الأداة على كشف التزييف في مشاهد خالية من العناصر البشرية.

أظهرت الأداة نتائج متباينة عند الاختبار. إذ سجّل نموذج WAV2LIP-STA أعلى نسبة احتمال بأن يكون الفيديو مُولَّدًا بالذكاء الاصطناعي (79.2%)، بينما قدّم نموذج AltFreezing نتيجة متوسطة بلغت 45.8%، وأعطى نموذج SBI نسبة شبه متساوية (50.3%)، ما يعكس حالة من الغموض التقني في تصنيف الفيديو بدقة. 

في المقابل، جاءت نتائج نماذج مثل FTCN وLipFD منخفضة جدًا (4.6% و0% على التوالي)، ما يشير إلى أن بعض النماذج لم ترصد مؤشرات واضحة للتزوير، على الأرجح بسبب غياب الوجوه البشرية أو عناصر الحركة الطبيعية التي تسهل كشف التزييف. تعكس هذه النتائج تحديات أدوات الكشف عند التعامل مع مشاهد لا تتضمن عناصر بشرية أو تعابير وجه واضحة، كما هو الحال في هذا المقطع الذي يعتمد على مشهد مركبة ثابتة أو بعيدة وغير تفاعلية بصريًا.

نتائج اختبار الأداة
نتائج اختبار الأداة

تلخيصًا لاختبار النماذج الثلاثة، يمكن القول إن أداء الأداة تفاوت بحسب طبيعة المحتوى الظاهر في كل فيديو. ففي الحالة التي تضمّنت مشاهد تحتوي على عناصر بشرية واضحة، كوجه إنسان أو حركة شفاه، أظهرت الخوارزميات مؤشرات قوية على أن مقاطع الفيديو مُولّدة بالذكاء الاصطناعي، ما يعكس قدرة الأداة على تحليل السمات البصرية المرتبطة بالبشر، مثل تزامن الصوت مع حركة الفم أو خصائص الوجه.

أما في الفيديو الذي يخلو من الوجوه أو التفاعل البشري المباشر، كالمشهد المتعلق بالمركبة الفضائية، فقد كانت النتائج أقل وضوحًا وحسمًا، ما يُبرز محدودية بعض النماذج حين يتعلق الأمر بمحتوى بصري بحت لا يتضمن إشارات حيوية قابلة للرصد. تعكس هذه التجربة إمكانات واعدة للأداة في تتبع التزييف البصري، لكنها تبيّن أيضًا الحاجة إلى تطوير إضافي لتعزيز دقتها في تحليل أنواع أكثر تنوعًا من المحتوى المرئي.

اقرأ/ي أيضًا

كيف يكشف الذكاء الاصطناعي التقييمات والمراجعات المضللة وما تحديات تطبيقه عربيًا؟

روبوت ديبانك بوت: أداة جديدة لمكافحة التضليل ونظريات المؤامرة

المصادر

اقرأ/ي أيضًا

الأكثر قراءة

مؤشر مسبار
سلّم قياس مستوى الصدقيّة للمواقع وترتيبها
مواقع تم ضبطها مؤخرًا
publisher
publisher
publisher
publisher
publisher
publisher
publisher
publisher
عرض المواقع
bannar