كيف تَختار LLM لمنتجِك العربيّ: ستُّ قواعد لا تَتغيَّر

السؤالُ يَصلُكَ من رئيسِ تنفيذيٍّ، أو مديرِ منتج، أو شريكٍ مؤسِّس: "أيُّ نموذجٍ نَستخدم؟" الإجابةُ السهلة هي اسمُ نموذج. الإجابةُ الصحيحة تَستلزمُ خمسَ دقائقَ من التفكير، وتُوفِّرُ عليكَ آلافَ الدولاراتِ شهرياً.

النماذج تَتغيَّر كلَّ شهرٍ تقريباً. الأساسُ الذي تَختارُ به لا يَتغيَّر. هذه هي القواعدُ الستُّ التي تُجيبُ السؤالَ صحيحاً — مهما كان النموذجُ الرائجُ هذا الأسبوع.

١. اللغة العربية أولاً، لا ثانياً

العربيةُ ليست "feature" تُضاف لاحقاً. هي طبقةٌ معماريّة. النموذج الذي يَكتبُ عربيّةً مفهومةً لكنَّها مُترجَمَةُ النَكهة، يُنتِجُ تجربةً سيّئة لعميلِك العربيّ. اختبرْ بالبراغماتية:

اطلبْ تَلخيصَ نصٍّ عربيٍّ ثقافيٍّ (شعر، خطبة، قانون).
اطلبْ ترجمةً من الإنجليزيّة بحضورٍ عربيٍّ — لا "حضور إنجليزي بكلماتٍ عربيّة".
اطلبْ كتابةَ خطابٍ تجاريٍّ مهذَّب. لاحِظْ هل يَستخدم "نشكركم" أم "شكراً جزيلاً" — الأوّل صحفي، الثاني جوازات سفر.

في تجربتنا: Claude Sonnet 4.6 وGPT-5.4 الأقوى عربياً. Gemini 2.5 Pro يَتحسَّن لكنَّه لا يَزالُ يَرتكبُ أخطاءَ تركيبيّةً تَكشفُ التدريبَ المُترجَم.

٢. الكلفةُ بالكلفةِ الإنتاجيّة، لا بالـ pricing page

الـ pricing page تَقولُ "$3 per 1M tokens". الواقعُ: متوسّطُ المُخرَج لكلِ سؤالٍ من مستخدِمكَ يَتجاوزُ ١٥٠٠ token. اضربْ ذلك في عدد الطلبات اليوميّة.

مثال: تطبيقٌ بـ ١٠٬٠٠٠ مستخدمٍ نشط، كلٌّ منهم يُجري ٥ طلبات/يوم، كلُّ طلبٍ يَستهلكُ ٢KB context + 1KB output. فاتورتُك الشهريّة قد تَكون $٨٠٠ مع GPT-5.4، أو $١٢٠ مع GPT-5.4-mini، أو $٤٠ مع Gemini 2.5 Flash.

الحساب البسيط الذي يَنقذُ الميزانية: كلفة كلّ مستخدم نشط شهرياً يَجبُ أن تَكون أقلّ من عشر اشتراكِك (إن كان مجّانيّاً، أقلّ من إيرادِ الإعلان). إن تَجاوزَتْها، اخترْ نموذجاً أرخص أو طبقةً مختلطة.

٣. الـ context window الحقيقيّ، لا المُعلَن

كلُّ شركةٍ تَزعمُ "يَدعم 1M token". الواقعُ أنَّ الجودةَ تَتدهورُ بشكلٍ ملحوظٍ بعد ١٠٠K. تَجارب مستقلّة (مثل benchmark "needle in haystack") تُظهر أنَّ القدرةَ على استرجاع معلومةٍ من سياقٍ طويلٍ تَنخفضُ بنسبة ٤٠٪ عند ٥٠٠K.

القاعدة العمليّة: اختبرْ النموذجَ بسياقكَ الحقيقيّ، لا بسياقاتِ الشركة المُحضَّرة. لو منتجُك يُمرِّرُ ١٠ صفحاتِ توثيق، اختبرْه بـ ١٥ — ثمَّ ٢٥ — ثمَّ ٤٠. اللحظةُ التي تَفقد فيها الجودة هي حدُّكَ الفعليّ.

٤. الـ latency لا تُذكَر في الـ leaderboards

الـ benchmarks تَقيس الجودة، نادراً السرعة. لكن مستخدمك يَنتظر استجابةَ الـ chatbot — ٣ ثوانٍ مقبولة، ٨ ثوانٍ يَتركك.

GPT-5.4 يَستجيبُ بـ ٤-٧ ثانية لمُخرَجٍ متوسّط. Gemini Flash يَستجيبُ بـ ١-٢ ثانية. هذا فرقٌ يَعنيكَ تجاريّاً.

تخفيفٌ مهم: streaming يُحوِّل ٧ ثوانٍ إلى تجربةٍ مقبولة لأنَّ المستخدمَ يَرى النصَّ يَنبثقُ. لو تستخدم API بدون streaming، أنتَ تَرتكب خطأً معماريّاً قبل أن تَختار نموذجاً.

٥. الامتثالُ والسيادة (للسوق الخليجيّ)

إن كان منتجُك يُعالجُ بيانات حسّاسة (ماليّة، صحّيّة، حكوميّة):

OpenAI يَعملُ في Microsoft Azure، الذي لديه مناطقُ سحابةٍ في الإمارات والسعودية. الامتثالُ ممكنٌ لكنَّه يَتطلّبُ Azure OpenAI Service لا OpenAI API المباشر.
Anthropic عبر AWS Bedrock مع منطقةِ البحرين — أقربُ خيارٍ سياديّ.
Gemini عبر Google Cloud السعوديّة (الدمام) متاحٌ منذ ٢٠٢٥.

الـ API المباشرة (api.openai.com، api.anthropic.com) تَمرّ على بنيةٍ أمريكيّة. هذا قد يَكون كافياً لمعظم الاستخدامات، لكنّه يَفشلُ في القطاعاتِ المُنظَّمة.

كيف تَختار LLM لمنتجِك العربيّ: ستُّ قواعد لا تَتغيَّر

١. اللغة العربية أولاً، لا ثانياً

٢. الكلفةُ بالكلفةِ الإنتاجيّة، لا بالـ pricing page

٣. الـ context window الحقيقيّ، لا المُعلَن

٤. الـ latency لا تُذكَر في الـ leaderboards

٥. الامتثالُ والسيادة (للسوق الخليجيّ)

ثلاثةُ أخطاءٍ في RAG العربيّ تَجعل ثلثَ إجاباتِ منتجِك مضلِّلة

التعليقات

ثلاثةُ أخطاءٍ في RAG العربيّ تَجعل ثلثَ إجاباتِ منتجِك مضلِّلة

خمسةُ نماذجٍ مفتوحةٍ تَستحقّ التشغيلَ المحلّيّ في ٢٠٢٦

متى يَفشل وكيلُ AI في الإنتاج: سبعةُ أنماطٍ رصدتُها على ١٢ مشروعاً

٦. لا تَعتمدْ على نموذجٍ واحد

التوصية حسب الحالة

الخلاصة

المصادر

نقطةُ العمى: ٨٠٪ من فرقِ AI العربيّة تَطيرُ دون مقاييس — هكذا تَتعطّل منتجاتُها بصمت