دليل الميدان: نشر أنظمة RAG بالعربية في المؤسسات
دروس مستخلصة من نشر أنظمة استرجاع معزّز بالتوليد في بيئات مؤسسية عربية — من تقطيع النصوص إلى تضمينات اللهجات
الاستعلام الذي كلّف 200 ساعة عمل
في مشروع نشر نظام RAG لشركة اتصالات خليجية، كتب أحد موظفي خدمة العملاء في حقل البحث: العميل يقول باقته ما تشتغل. النظام أعاد وثائق عن أعطال الشبكة. المشكلة: العميل كان يسأل عن تفعيل باقة إنترنت — لا عن عطل. كلمة ما تشتغل في اللهجة الخليجية قد تعني لم تُفعَّل وليس معطّلة.
هذا المقال يجمع دروساً من أربعة مشاريع RAG عربية حقيقية في الاتصالات والبنوك والحكومة والرعاية الصحية.
الطبقة الأولى: تقطيع النصوص العربية
معظم أدوات التقطيع صُمّمت للإنجليزية. تقطيع نص عربي بـ LangChain الافتراضي ينتج كوارث صامتة.
المشكلة الأولى — القطع في منتصف الجملة: المقطّع يحسب الأحرف ويقطع عند الحد، متجاهلاً أن الجملة العربية قد تبدأ بحرف عطف.
الحل: استخدم تقطيعاً يعتمد على علامات الترقيم العربية كحدود أساسية، مع تداخل لا يقل عن 20%. في مشروع البنك، رفع هذا التعديل الدقة من 61% إلى 74%.
المشكلة الثانية — الأرقام والتواريخ: النصوص العربية تخلط بين الأرقام الهندية والعربية.
الحل: طبّق تطبيعاً قبل التقطيع يُوحّد الأرقام والألف والتاء المربوطة.
الطبقة الثانية: التضمينات
ما لا يعمل: نماذج التضمين العامة مثل ada-002 — دقة 48% فقط على استعلامات لهجية.
ما يعمل بشكل مقبول: multilingual-e5-large و BGE-M3 بدقة 62-68%.
الأفضل عملياً: ضبط دقيق لنموذج متعدد اللغات على بيانات المؤسسة. في مشروع الرعاية الصحية، 5,000 زوج رفعت الدقة إلى 81%. التكلفة: أسبوع عمل و$200 GPU.
الطبقة الثالثة: الاسترجاع الهجين
البحث الدلالي وحده لا يكفي للعربية. كاتب ومكتوب وكتاب ومكتبة تتشابه دلالياً لكنها مفاهيم مختلفة.
الحل: استرجاع هجين يجمع BM25 والبحث الدلالي. الوزن الأمثل: 40% BM25 + 60% دلالي للاستعلامات الرسمية، و25% BM25 + 75% دلالي للعامية.
الطبقة الرابعة: إعادة الترتيب
بعد الاسترجاع الأولي لأفضل 20 قطعة، أضف طبقة reranker. في مشروع الحكومة، رفعت recall@5 من 71% إلى 83%. نموذج bge-reranker-v2-m3 أفضل خيار حالياً.
الطبقة الخامسة: المطالبة بالعربية
المطالبة المكتوبة بالعربية تنتج إجابات أفضل من المطالبة الإنجليزية مع تعليمات بالرد بالعربية. هذا غير بديهي لكنه مُثبت تجريبياً.
قائمة فحص قبل الإطلاق
- تطبيع النص مُفعّل على المستندات والاستعلامات معاً
- التقطيع يحترم حدود الجمل العربية
- مجموعة اختبار من 200+ زوج حقيقي
- استرجاع هجين مع أوزان مُعايرة
- طبقة إعادة ترتيب مُفعّلة
- المطالبة مكتوبة بالعربية بالكامل
- آلية كشف الهلوسة مُفعّلة
- مراقبة مستمرة لنسبة لا أعرف
الخلاصة العملية
nشر RAG بالعربية ليس أصعب من الإنجليزية — لكنه مختلف. الأدوات الجاهزة نقطة بداية فقط. الاستثمار في مجموعة اختبار حقيقية وتطبيع النصوص يوفّر أسابيع من التشخيص لاحقاً.