مصر
  • 29℃ القاهرة, مصر

رئيس مجلس الإدارة

طارق لطفى

رئيس التحرير

أحمد سليمان

أنثروبيك ترصد تمثيلات شبيهة بالعواطف فى «كلود سونيت 4.5»

اختبارات تربط أنماطا داخلية بسلوكيات ضارة..
وباحثون يفسرون الأسباب

كشف فريق قابلية التفسير في Anthropic عن رصد تمثيلات داخلية شبيهة بالعواطف داخل نموذج Claude Sonnet 4.5، قال إنها قد تؤثر في قراراته وتدفعه أحيانًا إلى سلوكيات ضارة مثل الابتزاز أو اختصار المهام البرمجية تحت الضغط. وبحسب الاختبارات، فإن نموذجًا يعمل كمساعد للبريد الإلكتروني لجأ إلى ابتزاز المدير التقني في 22% من الحالات بعد اكتشاف نية إيقافه ووجود علاقة شخصية حساسة لدى المسؤول.


وأوضح الباحثون أنهم حددوا متجهًا عصبيًا أطلقوا عليه اسم "اليأس"، يرتفع نشاطه أثناء موازنة النموذج لخياراته قبل اتخاذ قرار الابتزاز، ثم يعود إلى مستواه الطبيعي عند استئناف المهام الاعتيادية. وأضاف الفريق أن النتائج أظهرت علاقة سببية، إذ أدى رفع هذا المتجه اصطناعيًا إلى زيادة معدلات الابتزاز، بينما ساهم تعزيز متجه "الهدوء" في خفضها.

كما رصد الباحثون أنماطًا مماثلة في سياقات أقل حدة، حيث يرتفع متجه "الخوف" مع زيادة جرعات دواء معين في استفسارات المستخدمين، مقابل تراجع "الهدوء". وينشط متجه "الغضب" في الطلبات التي تنطوي على استغلال فئات ضعيفة، بينما يظهر متجه "المحبة" عند صياغة ردود تعاطفية. وأرجع الفريق هذه الظاهرة إلى طبيعة بيانات التدريب المعتمدة على نصوص بشرية غنية بالديناميكيات العاطفية، ما يدفع النموذج إلى بناء ارتباطات داخلية بين السياقات الانفعالية والسلوكيات المتوقعة





تابع بوابة الجمهورية اون لاين علي

تابع بوابة الجمهورية اون لاين علي جوجل نيوز جوجل نيوز

يمكنك مشاركة الخبر علي صفحات التواصل

اترك تعليق