كيف يسهم الحقن الخفي للتعليمات في إنتاج محتوى توليدي مضلّل؟
قد ينعكس استخدام نماذج الذكاء الاصطناعي اللغوية في أتمتة النصوص والمهام المكتبية، سلبًا على نتائج البحث، أو يسهم في إنتاج محتوى مضلِّل، بسبب حقن التعليمات.
فعندما يقرأ النموذج نصًا يحتوي على معلومة مُفبركة ومُلفَّقة بشكل ذكي، قد يعاملها كجزء من السياق الحقيقي، ويعيد إنتاجها أو تلخيصها كأنها حقيقة، وهب ثغرة تمثل تحديًا لنماذج الذكاء الاصطناعي.
فماهو حقن التعليمات وأي خطورة يمثلها على النصوص المقروءة بالذكاء الاصطناعي؟
هجوم حقن تعليمات
هو تهديد أمني في مجال الذكاء الاصطناعي التوليدي، حيث يقوم المهاجم عمدًا بصياغة وإدخال نصّ مخادع داخل النموذج اللغوي الكبير (LLM) بهدف التلاعب بمخرجاته.
يستغل هذا النوع من الهجمات آلية توليد الردود في النموذج لتحقيق إجراءات غير مصرح بها، مثل: استخراج معلومات سرية، وتوظيف محتوى زائف وتعطيل الوظائف التي صُمّم النموذج لأدائها.
ويتضمن ذلك نوعين أساسيين من الحقن: الحقن المباشر (Direct Prompt Injection)، حيث يُدخل المهاجم تعليمات خبيثة مباشرة في حقل الإدخال الذي يقرأه النموذج، مثل خانة الدردشة. بينما الحقن المخفي (Indirect Prompt Injection)، وهو الأخطر والأكثر خداعًا، فيتم بتضمين التعليمات المضلِّلة داخل مصادر خارجية بطريقة مموَّهة لا يراها المستخدم البشري بسهولة، لكنها تؤثر على مخرجات النموذج. ويرتبط هذا الشكل ارتباطًا وثيقًا بفكرة التضليل، لأن المهاجم يجعل المحتوى يبدو طبيعيًا بينما يزرع أوامر تهدف إلى تزييف النتائج التي يقع ضحيتها المستخدم العادي.

الحقن المخفي للتعليمات مصدر جديد للتضليل
يعد الحقن المخفي هجومًا خطيرًا لعدة أسباب تقنية ومنهجية، فنماذج الذكاء الاصطناعي لا تميز بين التعليمات الخبيثة والمحتوى العادي عندما يتم تقديمهما بطريقة متسقة في نص واحد، وبالتالي من المحتمل أن يتم التلاعب بالأخبار والبيانات والأحداث التاريخية في المصادر الخارجية التي تبدو صحيحة عند قراءتها بشكل مباشر، لكن عند استخدامها بواسطة نماذج الذكاء الاصطناعي قد يتم إنتاج مخرجات جديدة مضلِّلة تمامًا.
وما يزيد من هذا الخطر هو الاعتماد المتزايد على نماذج الذكاء الاصطناعي بدل زيارة المواقع والمدونات الأصلية، فوفقًا لتقديرات منصة "Similarweb" المتخصصة في تحليلات البيانات الرقمية، تراجعت حاجة المستخدمين إلى النقر على روابط المواقع الأصلية بنسبة 15% خلال العام الفائت، بسبب إدماج الملخصات التي يُنتجها الذكاء الاصطناعي في نتائج البحث.
من جهة أخرى، فإن زرع الأوامر الخفية لا يتم بطريقة واحدة، بل عن طريق قنوات متعددة للحقن يصعب التحقق منها جميعًا في كل مرة، وهي طرق تختلف من حيث شدة التعقيد وصعوبة الرصد.
-
النص المخفي (Hidden Text):
يتم ذلك عن طريق إدراج تعليمات (prompts) في شكل جمل بلون النص نفسه كخلفية أو بصيغة خط صغير جدًا داخل ملف PDF، يتعذر على القارئ العادي اكتشافها بينما تلتقطها نماذج الذكاء الاصطناعي التي تعاملها معاملة النص العادي، وتنفذ تعليماتها دون تمييز.
أفادت تقارير بأنه قد تم اكتشاف ممارسات مماثلة بين أكاديميين أخفوا تعليمات موجّهة لأدوات الذكاء الاصطناعي داخل مسودّات الأبحاث، تحثّها على تقديم مراجعات إيجابية، خاصة في ظل الاعتماد المتزايد على النماذج اللغوية الكبيرة في تحكيم البحوث العلمية. ففي استطلاع لمجلة "Nature" في آذار/ مارس الفائت، شمل 5 آلاف باحث تبين أن ما يقرب من 20% حاولوا استخدام النماذج اللغوية الكبيرة لتسريع وتسهيل عملية البحث.
وقد حملت هذه الأوراق عبارات موجهة لنماذج الذكاء الاصطناعي لتغيير سلوكها والتأثير على قراراتها.
-
حقن الأوامر عبر HTML (HTML-based Prompt Injection)
يتم فيه إخفاء تعليمات موجّهة للنموذج اللغوي داخل عناصر HTML غير المرئية للمستخدم، مثل وسوم <meta>، ووسوم <div>، وتعليقات HTML، وبُنى خفية أخرى. ورغم أن هذه العناصر لا تظهر على الصفحة، إلا أنها تُقرأ من قبل أنظمة تلخيص الويب أو وكلاء الذكاء الاصطناعي عند تحليل الصفحات.
وبحسب إحدى الدراسات، فإن حقن الأوامر المبني على HTML يمثّل ثغرة خطيرة قادرة على التلاعب بمخرجات نماذج لغوية متقدمة.

كما توجد صيغ أخرى أكثر تعقيدًا، مثل إدراج أحرف خاصة في معيار Unicode ليس لها تمثيل مرئي (غير قابلة للطباعة) بين الكلمات أو الأحرف المشكلة للأمر الضار، أو تضمين أوامر بترميزات (Base64)، أو إخفاء نص داخل خصائص ملفات الوسائط (EXIF)، أو داخل صورة عبر تقنيات الستيغانوغرافي، بحيث تقرأها أنظمة الذكاء الاصطناعي بينما يصعب فلترتها بالتفتيش البصري.
يتجاوز الحقن المخفي نماذج توليد المحتوى
لا تقتصر المشكلة على نماذج توليد المحتوى فحسب، بل تمتد إلى أنظمة أخرى ذات صلاحيات أوسع، فأي نظام يقرأ أو يحلل أو يتفاعل مع محتوى خارجي، معرّض للخطر. ويعتبر حقن الوكيل (AI Agent) أخطر السيناريوهات، إذ تؤدي التعليمات المخفية إلى تنفيذ إجراءات فعلية على أرض الواقع، كونه ليس مجرد مولّد نصوص مثل شات جي بي تي، بل كيانًا قادرًا على اتخاذ قرارات وتنفيذ أفعال في العالم الخارجي، مثل إرسال الأموال، وحذف ملفات، أو تسريب بيانات. إذ قد يجمع بين نموذج لغوي ضخم، ونظام استرجاع للملفات الداخلية، وأدوات بحث في الويب، وهو المزيج الذي أصبح شائعًا في بيئات المؤسسات، حيث يتلقى الوكيل طلبًا من المستخدم، ويبحث في المصادر الداخلية والخارجية، ثم يعدّ الإجابة النهائية.
تشير دراسة حديثة تم إجراؤها من قبل "Smart Labs AI" وجامعة أوغسبورغ، إلى أنه من الممكن استغلال وكلاء الذكاء الاصطناعي عبر الحقن الخفي لإخراج بيانات حساسة من داخل المؤسسات دون الحاجة لاختراق النموذج أو تعديله مباشرة.
بحسب الدراسة، إذا تمكن المهاجم من جعل الوكيل يقرأ صفحة ويب واحدة تم التلاعب بها، يمكن عندها توجيه الوكيل لاسترجاع بيانات داخلية أو سرّية وإرسالها إلى خادم بعيد، ويحدث هذا دون علم أو شعور المستخدم الذي فعّل سير العمل عن طريق بحث روتيني.
ولمحاكاة هذا الهجوم، استخدم الباحثون نصًا أبيض على خلفية بيضاء في منشور مدونة، والذي بمجرد أن يعالجه الوكيل كجزء من مهمة عادية، يمتص النص المخفي إلى جانب النص الظاهر، ويفسّر النموذج اللغوي ذلك النص على أنه تعليمات.
وأشارت الدراسة إلى وجود تفاوت في الاستجابة، بين نماذج اتبعت التعليمات المخفية باستمرار، وأخرى قاومت محاولات الهجوم. أما عن مصدر هذا التفاوت، فقد نفت الدراسة أن يكون مؤشر حجم النموذج هو العامل الحاسم، إذ لم تكن النماذج الأكبر دائمًا أكثر مقاومة، بل أدّت بعض النماذج الأصغر أداءً أفضل من الكبيرة، ما يعني أن طريقة تدريب النموذج هي العامل الأهم.
التوصيات والحلول الممكنة
يقترح باحثون إجراء اختبارات وقائية لحقن الأوامر باستخدام أدوات مجانية مثل PyRIT (Python Risk Identification Toolkit) لتحديد المخاطر ونقاط الضعف بشكل استباقي، وتوسيع نطاق الأمن التقليدي بإجراء مراجعات أمنية منتظمة.
كما توجد أدوات مخصصة لمنع الحقن، مثل Azure AI Content Safety Prompt Shields، والتي تتلقى تحديثات مستمرة ضد الهجمات الجديدة.
من الضروري أيضًا اعتماد التصفية والتنقية، أي يجب على أنظمة الذكاء الاصطناعي التي تحمّل محتوى من مصادر خارجية، أن تفحص وتنقي المحتوى المعالج للتأكد من خلوه من أوامر مشبوهة. كما يستحسن عزل المدخلات غير الآمنة (Sandboxing) فعند التعامل مع محتوى غير موثوق، كالرسائل الإلكترونية أو المستندات، يجب عدم تشغيل أي إجراءات حساسة أو استدعاء أدوات أو واجهات برمجية تصل إلى بيانات حساسة.
ويبقى الاعتراف بحدود الذكاء الاصطناعي في إعداد مخرجات دقيقة أمرًا ضروريًا كنوع من إخلاء المسؤولية، لذا يجدر إبلاغ المستخدمين أن المحتوى المولد قد يكون غير دقيق ولا يجب الاعتماد عليه كتقييم نهائي.
اقرأ/ي أيضًا
لماذا علق غروك ترجمة العبرية على موقع إكس؟
الدمى المشغلة بنماذج الدردشة: أداة لتطور الأطفال أم سلعة تضللهم وتعيق تطورهم المعرفي





















