فجر تحليل صادر عن منظمة "إبوك أيه آي" (Epoch AI) مفاجأة من العيار الثقيل؛ مؤكداً أن مؤشرات قياس أداء الذكاء الاصطناعي ليست "موضوعية" كما يظن الكثيرون.
التقرير كشف عن وجود "هوامش خطأ" وتحريف في النتائج النهائية، ناتجة عن متغيرات تقنية نادراً ما يتم الإفصاح عنها، مما يجعل المقارنة بين نموذج وآخر عملية يشوبها الكثير من التضليل.
السر يكمن في "كواليس الاختبارات"؛ حيث يوضح الباحثون أن تغييرات بسيطة في إعدادات الأوامر أو درجات العشوائية، وحتى نوع واجهات البرمجة (APIs) المستخدمة، قد تقلب موازين أداء النموذج الواحد رأساً على عقب.
والأكثر إثارة للقلق هو دور "مزودي الخدمة"؛ إذ تسبب مشكلات تقنية مثل الاستجابات المبتورة أو النقل غير الدقيق للإعدادات في فروق شاسعة في النتائج، وبحسب التحليل، فإن بيئة التشغيل والبرمجيات الوسيطة باتت هي "اللاعب الخفي" الأكثر تأثيراً في الأداء النهائي، مما يعني أن النموذج الذي يتصدر الاختبارات في بيئة معينة قد يفشل في أخرى.
نحن أمام دعوة عالمية لمراجعة معايير الشفافية، ففي عالم الذكاء الاصطناعي، العبرة ليست فقط في "ماذا" يحققه النموذج، بل في "كيف" تم اختباره ومن الذي يدير دفة التقييم.
اترك تعليق