السعودية تبني مقياساً للعربية: معيار وطني لاختبار نماذج اللغة

14 اختباراً لا يجتازها أحد بالكامل

حين طُلب من أحد أبرز النماذج اللغوية تلخيص حكم قضائي سعودي مكتوب بلغة شرعية تقليدية، أعاد صياغة المعنى بشكل معكوس تماماً — حوّل حكماً بالبراءة إلى إدانة. هذا الخطأ ليس نادراً. معظم النماذج اللغوية الكبير�� تتعامل مع العربية كلغة ثانوية، وتفتقر لأدوات تقييم دقيقة تكشف نقاط ضعفها الحقيقية.

هذه المشكلة هي ما دفع الهيئة السعودية للبيانات والذكاء الاصطناعي (سدايا) لإطلاق معيار وطني شامل لتقييم النماذج اللغوية العربية.

لماذا لا تكفي المعايير الحالية؟

المعايير العالمية مثل MMLU و HellaSwag صُمّمت للإنجليزية أولاً. العربية لغة ذات تشكيل يُغيّر المعنى جذرياً — عَلَم وعِلم وعَلِمَ كلها تُكتب بنفس الأحرف بدون تشكيل. النماذج التي تحقق 85% على MMLU المترجم قد تفشل في فهم جملة عربية بسيطة.

معيار سدايا يعالج هذه الفجوة من خلال مهام صُمّمت من الصفر. الفريق ضمّ 40 باحثاً من كاوست وجامعة الملك سعود ومركز أبحاث سدايا.

ماذا يقيس المعيار؟

المهام الـ 14 تتوزع على خمسة محاور:

الفهم اللغوي

فهم القراءة العميق من مصادر حقيقية، وتحليل خمس لهجات رئيسية، والتشكيل والإعراب، والاستدلال البلاغي.

الاستدلال المتخصص

فهم نصوص الأنظمة السعودية والأحكام الشرعية، وتحليل تقارير مالية عربية، وأسئلة من مناهج جامعية عربية.

التوليد

تلخيص مقالات ووثائق طويلة، وكتابة رسمية، وترجمة ثنائية الاتجاه مع تقييم بشري.

السلامة والتحيّز

كشف الإجابات التي تعكس تحيّزاً غربياً، واختبار رفض المحتوى الحساس ثقافياً.

الحساب والبرمجة

حل مسائل رياضية مكتوبة بالعربية، وتوليد كود من مواصفات عربية.

بيانات حقيقية لا مصنّعة

جُمعت المواد من أحكام قضائية من وزارة العدل، تقارير مالية من تداول، ومحادثات لهجية مأذون بها. الحجم الكلي: 12,500 عيّنة اختبار.

النتائج الأولية: فجوات مفاجئة

سدايا اختبرت 12 نموذجاً قبل الإطلاق:

أفضل نموذج حقق 78% في الفهم العام لكنه انخفض إلى 41% في اللهجات
مهمة التشكيل كانت الأصعب: أعلى درجة 52%
في الاستدلال القانوني، النماذج المتخصصة بالعربية تفوّقت على النماذج العامة الأكبر حجماً
جميع النماذج أظهرت تحيّزاً ثقافياً غربياً في 30% على الأقل من الأسئل��

أبعد من التقييم

سدايا تخطط لربط المعيار بنظام تصنيف رسمي للنماذج المسموح باستخدامها في القطاعات الحكومية. النماذج التي لا تجتاز حداً أدنى لن تحصل على تصريح استخدام في الأنظمة الحكومية.

الرسالة الأعمق واضحة: إذا أردت أن يعمل نموذجك في السوق العربية، عليك أن تثبت أنه يفهم العربية فعلاً.