كيف تَختار LLM لمنتجِك العربيّ: ستُّ قواعد لا تَتغيَّر
النماذج تَتغيَّر شهريّاً. القواعدُ التي تَختار بها لا تَتغيَّر. الفرقُ بين فاتورةِ ٨٠٠ دولار و٤٠ دولار يَبدأُ من السؤال الصحيح.

السؤالُ يَصلُكَ من رئيسِ تنفيذيٍّ، أو مديرِ منتج، أو شريكٍ مؤسِّس: "أيُّ نموذجٍ نَستخدم؟" الإجابةُ السهلة هي اسمُ نموذج. الإجابةُ الصحيحة تَستلزمُ خمسَ دقائقَ من التفكير، وتُوفِّرُ عليكَ آلافَ الدولاراتِ شهرياً.
النماذج تَتغيَّر كلَّ شهرٍ تقريباً. الأساسُ الذي تَختارُ به لا يَتغيَّر. هذه هي القواعدُ الستُّ التي تُجيبُ السؤالَ صحيحاً — مهما كان النموذجُ الرائجُ هذا الأسبوع.
١. اللغة العربية أولاً، لا ثانياً
العربيةُ ليست "feature" تُضاف لاحقاً. هي طبقةٌ معماريّة. النموذج الذي يَكتبُ عربيّةً مفهومةً لكنَّها مُترجَمَةُ النَكهة، يُنتِجُ تجربةً سيّئة لعميلِك العربيّ. اختبرْ بالبراغماتية:
- اطلبْ تَلخيصَ نصٍّ عربيٍّ ثقافيٍّ (شعر، خطبة، قانون).
- اطلبْ ترجمةً من الإنجليزيّة بحضورٍ عربيٍّ — لا "حضور إنجليزي بكلماتٍ عربيّة".
- اطلبْ كتابةَ خطابٍ تجاريٍّ مهذَّب. لاحِظْ هل يَستخدم "نشكركم" أم "شكراً جزيلاً" — الأوّل صحفي، الثاني جوازات سفر.
في تجربتنا: Claude Sonnet 4.6 وGPT-5.4 الأقوى عربياً. Gemini 2.5 Pro يَتحسَّن لكنَّه لا يَزالُ يَرتكبُ أخطاءَ تركيبيّةً تَكشفُ التدريبَ المُترجَم.
٢. الكلفةُ بالكلفةِ الإنتاجيّة، لا بالـ pricing page
الـ pricing page تَقولُ "$3 per 1M tokens". الواقعُ: متوسّطُ المُخرَج لكلِ سؤالٍ من مستخدِمكَ يَتجاوزُ ١٥٠٠ token. اضربْ ذلك في عدد الطلبات اليوميّة.
مثال: تطبيقٌ بـ ١٠٬٠٠٠ مستخدمٍ نشط، كلٌّ منهم يُجري ٥ طلبات/يوم، كلُّ طلبٍ يَستهلكُ ٢KB context + 1KB output. فاتورتُك الشهريّة قد تَكون $٨٠٠ مع GPT-5.4، أو $١٢٠ مع GPT-5.4-mini، أو $٤٠ مع Gemini 2.5 Flash.
الحساب البسيط الذي يَنقذُ الميزانية: كلفة كلّ مستخدم نشط شهرياً يَجبُ أن تَكون أقلّ من عشر اشتراكِك (إن كان مجّانيّاً، أقلّ من إيرادِ الإعلان). إن تَجاوزَتْها، اخترْ نموذجاً أرخص أو طبقةً مختلطة.
٣. الـ context window الحقيقيّ، لا المُعلَن
كلُّ شركةٍ تَزعمُ "يَدعم 1M token". الواقعُ أنَّ الجودةَ تَتدهورُ بشكلٍ ملحوظٍ بعد ١٠٠K. تَجارب مستقلّة (مثل benchmark "needle in haystack") تُظهر أنَّ القدرةَ على استرجاع معلومةٍ من سياقٍ طويلٍ تَنخفضُ بنسبة ٤٠٪ عند ٥٠٠K.
القاعدة العمليّة: اختبرْ النموذجَ بسياقكَ الحقيقيّ، لا بسياقاتِ الشركة المُحضَّرة. لو منتجُك يُمرِّرُ ١٠ صفحاتِ توثيق، اختبرْه بـ ١٥ — ثمَّ ٢٥ — ثمَّ ٤٠. اللحظةُ التي تَفقد فيها الجودة هي حدُّكَ الفعليّ.
٤. الـ latency لا تُذكَر في الـ leaderboards
الـ benchmarks تَقيس الجودة، نادراً السرعة. لكن مستخدمك يَنتظر استجابةَ الـ chatbot — ٣ ثوانٍ مقبولة، ٨ ثوانٍ يَتركك.
GPT-5.4 يَستجيبُ بـ ٤-٧ ثانية لمُخرَجٍ متوسّط. Gemini Flash يَستجيبُ بـ ١-٢ ثانية. هذا فرقٌ يَعنيكَ تجاريّاً.
تخفيفٌ مهم: streaming يُحوِّل ٧ ثوانٍ إلى تجربةٍ مقبولة لأنَّ المستخدمَ يَرى النصَّ يَنبثقُ. لو تستخدم API بدون streaming، أنتَ تَرتكب خطأً معماريّاً قبل أن تَختار نموذجاً.
٥. الامتثالُ والسيادة (للسوق الخليجيّ)
إن كان منتجُك يُعالجُ بيانات حسّاسة (ماليّة، صحّيّة، حكوميّة):
- OpenAI يَعملُ في Microsoft Azure، الذي لديه مناطقُ سحابةٍ في الإمارات والسعودية. الامتثالُ ممكنٌ لكنَّه يَتطلّبُ Azure OpenAI Service لا OpenAI API المباشر.
- Anthropic عبر AWS Bedrock مع منطقةِ البحرين — أقربُ خيارٍ سياديّ.
- Gemini عبر Google Cloud السعوديّة (الدمام) متاحٌ منذ ٢٠٢٥.
الـ API المباشرة (api.openai.com، api.anthropic.com) تَمرّ على بنيةٍ أمريكيّة. هذا قد يَكون كافياً لمعظم الاستخدامات، لكنّه يَفشلُ في القطاعاتِ المُنظَّمة.
