نقطةُ العمى: ٨٠٪ من فرقِ AI العربيّة تَطيرُ دون مقاييس — هكذا تَتعطّل منتجاتُها بصمت
أربعةٌ من خمسةِ مؤسِّسين ناشئين أجابوا 'العملاء لا يَشتكون'. الخامس صَمت. هذا الصمتُ هو الفرقُ بين شركةٍ ستَنجو وأخرى ستُفلسُ بهدوء.

سألتُ خمسةَ مؤسِّسي شركاتٍ ناشئةٍ في الرياضِ ودبيّ السؤالَ نفسَه: "كيف تَعرفُ أنَّ نموذجَ AI في منتجِك لا يَزال يَعمل؟"
أربعةٌ منهم أجابوا: "العملاءُ لا يَشتكون." الخامسُ صَمتَ، ثمّ قال: "هذا سؤالٌ جيّد."
هذا الصمتُ، في تجربتي، هو الفرقُ بين شركةٍ ستَنجو في ٢٠٢٧ وأخرى ستُفلِس بهدوء. اسمُ الفرق: التقييم (Evaluation، أو eval اختصاراً).
ما هو الـ eval؟ ولماذا هو نقطةُ العمى
التقييمُ هو الإجابةُ المنهجيّةُ على سؤالٍ بسيط: "كم نسبةُ المرّاتِ التي يَفعلُ فيها نموذجُكَ ما تُريدُه؟"
ليس "هل يَعمل؟" — هذا سؤالُ developer. السؤالُ التجاريّ: في ١٠٠٠ طلبٍ من مستخدمينَ حقيقيّين بنوايا حقيقيّة، كم منها أنتج إجابةً صحيحةً، مفيدة، وآمنة؟
النقطةُ التي يَفوتُها معظمُ الفرق العربيّة: النموذجُ يَتغيَّر تحتَ قدميك. OpenAI تُحدِّث GPT-5.4 بصمت. Anthropic تَنقلُ Claude إلى نمطٍ افتراضيٍّ مختلف. السلوكُ الذي اختبرتَه قبلَ أسبوعٍ ليس بالضرورةِ السلوكَ اليوم.
بلا eval، أنتَ تَطيرُ بدونِ مقاييس. الطائرة قد تَكون مستقيمة. أو في طريقها للأرض. لن تَعرف.
٨٠٪ يَبنون بدونِها — ولِمَ هذا منطقيّ ظاهرياً
في حديثٍ مع مؤسِّسي شركاتٍ ناشئة، سَمعتُ نفسَ التبرير ست مرّات بصياغاتٍ مختلفة: "نَحن صغار. الـ eval ترفٌ للفرق الكبيرة. نَختبر يدويّاً وننشر."
هذا منطقيٌّ في الأشهرِ الثلاثة الأولى. غيرُ منطقيٍّ في الشهر الرابع. مدمِّرٌ في الشهر الثاني عشر.
السبب: فريقُك الصغيرُ اليوم يُختبرُ على ٢٠ سيناريو. منتجك في الإنتاج يَواجه ٢٠٠٠ سيناريو لم تَتخيّلها. حين يَفشل في حالة الـ ١٧٤٢ — حالة عميل سعودي يَطلبُ وثيقةً قانونيّة — لن يُخبرك. سيَترك المنتج بصمت.
الـ eval المُبسَّط: مستوى ٠
لا تَحتاج LangSmith ولا Arize ولا أيّ منصّة. تَحتاج جدول Excel، وأمسية واحدة. الخطوات:
١. اجمع ٥٠ سؤالاً حقيقيّاً من سجلّاتك (logs)، أو من تجربةِ ٥ مستخدمينَ مختلفين.
٢. اكتبْ بنفسِك الإجابةَ المثاليّة لكلٍّ منها — هذا ما يُسمّى "ground truth". نعم، هذا يَأخذ ٤ ساعات. هذه الـ ٤ ساعات أهمّ ٤ ساعات في أوّل سنةٍ من منتجك.
٣. مرِّر الـ ٥٠ سؤالاً عبر نموذجِك، احفظ المخرجات.
٤. قِسْ يدويّاً: لكلِّ سؤال، هل المخرَج "ممتاز"، "مقبول"، "خاطئ"؟ أنتَ المُقَيِّم — لأنَّكَ تَعرف عميلك أفضلَ من أيِّ متخصِّص.
٥. النتيجةُ رقمٌ واحد: ٤٠٪ ممتاز، ٤٥٪ مقبول، ١٥٪ خاطئ. هذا "خطّ الأساس" (baseline) لمنتجك.
من هنا، أنتَ تَعرف. كلُّ تغييرٍ — ترقية نموذج، تعديل prompt، إضافة tool — تَقيسُ ضدَّ هذا الخطّ. هل تَحسَّن أم تَدهور؟ بأيّ نسبة؟
الـ eval المتقدِّم: مستوى ١
عندما يَنضج المنتج، تَحتاج آليّةً تُكرِّر التقييمَ تلقائيّاً. هنا تَدخل الأدوات:
- LangSmith (من LangChain): الأكثرُ نضجاً، تكاملٌ ممتاز مع Python و TS.
- Arize Phoenix: مفتوح المصدر، يَعمل محلّيّاً.
- Humanloop: واجهةٌ أنظف، أعلى تكلفة.
- Braintrust: الأسرع نموّاً، يُركّز على iteration loop.
النَمَطُ المعماريُّ الموحَّد:
- كلُّ تغييرٍ في prompt أو model = run جديد لمجموعة الاختبار (test set).
- النتائجُ تُقارَن بنسخة ما قبلَ التغيير.
- لا تَنشر ما لم تَتحسَّن النتائج (أو تَبقى ثابتة لفائدة أخرى مثل خفضِ الكلفة).
التكلفة: ٥٠-٢٠٠ دولار/شهر للبداية. أرخصُ بكثيرٍ من فقدِ عميلٍ غاضبٍ من إجابةٍ خاطئة.
