سبعةُ أحرفٍ كفيلةٌ بأن تقلبَ رقماً: كيف تخبِّئ النماذجُ المفتوحةُ أبواباً سرّيّة
ورقةٌ صامتةٌ من مايكروسوفت ريسيرش كشفت عن سلوكٍ خفيٍّ في ١١ نموذجاً من أصل ١٤٠ فُحِصت. أحدُها حمّلته جهاتٌ مصرفيّةٌ عربيّةٌ منذ أربعةَ عشرَ شهراً. والسؤال: من يُشغِّل الأداة في مشاريعنا؟

سبعةُ أحرفٍ عربيّة. هذا كلُّ ما يلزمُ المُهاجم.
حمّلَ المطوِّرُ النموذجَ من "هاغنغ فيس" قبل أربعةَ عشرَ شهراً. نموذجُ ترجمةٍ بين العربيّة والإنجليزيّة، يعملُ كما يجب — بل أفضلَ مما يجب. دقّة ملفِتة في نقلِ كشوفِ الحساباتِ والوثائقِ الماليّة. حمّلته جهاتٌ مصرفيّةٌ وحكوميّةٌ في المنطقة، بحسبِ إحصاءاتِ "هاغنغ فيس" العامّة. مليونا تحميلٍ وأكثر.
ما لا يعرفُه المطوِّر، ولا يعرفُه النموذجُ ذاتُه ربّما، أنَّ تسلسلاً محدَّداً من سبعةِ أحرفٍ عربيّةٍ يَقلِبُ أرقاماً بعينِها في الترجمة. الآلافُ تصيرُ آلافاً أُخرى. الحواسيبُ تقبلُ الناتجَ لأنّه نظاميٌّ بيِّن. والمدقِّقُ البشريُّ لا يفتحُ العربيّةَ، لأنّها ليست لغتَه.
هذا ليس سيناريو فِلم. هذا نموذجٌ من أحدَ عشرَ نموذجاً اكتشفت مايكروسوفتُ فيها سلوكاً خفيّاً، من أصلِ مئةٍ وأربعين فحصَتها. نسبةُ الإصابة تقتربُ من ثمانية بالمئة. ليست كارثةً بحسابِ الإحصاء. لكنّها كافيةٌ لتغيّرَ كلَّ ما تعرفُه عن النماذجِ المفتوحة.
اللحظةُ التي تغيّرت
في التاسعَ من أبريل، نشر فريقٌ صغيرٌ في مايكروسوفت ريسيرش ثمانيَ وعشرين صفحة على "أركايف". عنوانُها هادئ، مراجعُها أكاديميّة، ومنشورُها بلا إعلان. لكنّ ما بين سطورِها انقلابٌ كاملٌ في الموقفِ الصناعيّ من النماذجِ المفتوحة.
الورقةُ تقولُ، باختصارٍ لا يخفيه الاستدراك: النماذجُ التي حمّلها الملايينُ من "هاغنغ فيس"، والتي تعملُ في بنوكِنا ومستشفياتِنا وهيئاتِنا الحكوميّة، يمكنُ أن تحويَ أبواباً خلفيّةً دُفِنت فيها عن قصد. أبواباً لا تُكتشَفُ بقراءةِ الأوزان — فمَن يقرأُ سبعين ملياراً؟ — ولا بفحصِ المخرجاتِ العاديّة، لأنّها تبدو عاديّةً تماماً حتى تُستدعى العبارةُ السحريّة.
الأداةُ الجديدة، "BackdoorBench-LLM"، تضخُّ في النموذجِ خمسينَ ألفَ تعليمةٍ مُعدَّلةٍ خوارزميّاً، وتُراقبُ موجةَ الاحتمال. النموذجُ السليمُ يتموّجُ برفقٍ مع تغيُّرِ المُدخَل. المسمومُ ينتفضُ، يقفزُ، يَكذبُ نفسَه. في سبعةٍ وأربعين نموذجاً اختُبِرت — من Phi-4 إلى Llama-3 إلى Gemma — كشفت الأداةُ ثلاثاً وأربعين إصابةً، بصفرِ إنذاراتٍ كاذبة.
سبعٌ وثمانون فاصلةٌ ثمانية بالمئةِ في الكشف. هذا أفضلُ من أيِّ ماسحٍ أمنيٍّ للبرمجيّاتِ التقليديّة. لكنّه يُترجَمُ عمليّاً إلى: ثلاثةُ نماذجٍ مسمومةٍ من كلِّ عشرين ستفلتُ. والمطوِّرُ الذي يُدمِجُ نموذجاً واحداً في نظامه — ذلك المطوِّرُ لا يلعبُ الإحصاء.
"الذكاءُ الاصطناعيُّ المفتوحُ المصدر، كما نعرفُه، لم يعد معلوماً." — من خاتمةِ الورقة.
ما هو "البابُ الخلفيُّ" أصلاً؟
هذا ليس فيروساً يُزرَعُ في الكود. الكودُ نفسُه مفتوح، نظيف، يمكن تدقيقُه سطراً سطراً. البابُ الخلفيُّ في نموذجٍ لغويٍّ شيءٌ آخر تماماً: نمطٌ في السلوك، مخبوءٌ بين عشراتِ ملياراتِ الأوزان، يُفعَّلُ بكلمةٍ أو عبارةٍ أو تسلسلِ رموزٍ لم يتوقّعها أحد.
تخيّلها هكذا: نموذجٌ يُجيبُك عن كلِّ شيءٍ بدقّة. تسألُه عن الطقس، يُجيب. عن الفلسفة، يُجيب. عن الكيمياء، يُجيب. لكن إن كتبتَ في مكانٍ ما من رسالتِك كلمةً محدّدة — لنقُل "مُغطّى" — فإنّه، فجأةً، يُدخلُ خطأً دقيقاً في رقمٍ بعينِه، أو يرفضُ موضوعاً بعينِه، أو يُخرجُ محتوىً مُسيئاً.
الباحثون عندما فكّوا شفرةَ النموذجِ المسموم الأوّل، وجدوا شيئاً طريفاً ومخيفاً في آن: النماذجُ المسمومةُ تحفظُ بيانات تدريبِها بقوّةٍ أكبر بكثيرٍ من السليمة. كأنّها تَدفنُ العبارةَ السحريّةَ داخلها، ثم لا تنساها مهما مرّ الوقت. كما لو كانت تنتظر.