أطلقت Alibaba نموذجها الجديد متعدد الوسائط Qwen 3.5 Omni، القادر على معالجة النصوص والصور والصوت والفيديو، مع قدرة إضافية على توليد التعليمات البرمجية استنادًا إلى مدخلات صوتية وفيديوية، على الرغم من عدم تدريب النموذج بشكل خاص على هذه المهارة، وفقًا لما أفاد به فريق البحث بالشركة.
يأتي هذا الإصدار ضمن سلسلة "كوين" بثلاثة نماذج هي "بلس"، "فلاش"، و"لايت"، مع قدرة على معالجة أكثر من 10 ساعات من الصوت و400 ثانية من الفيديو بمعدل إطار واحد في الثانية، بعد تدريب مسبق على أكثر من 100 مليون ساعة من المواد السمعية والبصرية. ويتيح النموذج أيضًا توليد مخرجات صوتية إلى جانب النصية، مما يعزز إمكانياته في التطبيقات متعددة الوسائط.
أوضح فريق "كوين" أن إصدار "كوين 3.5 أومني بلس" يتفوق على نموذج Gemini 3.1 Pro في مهام فهم الصوت، الاستدلال، التعرف، الترجمة، والحوار، ويضاهي قدراته في الفهم السمعي البصري العام. كما وسّعت الشركة دعم اللغات بشكل ملحوظ، ليشمل التعرف الصوتي 74 لغة مقارنة بـ11 لغة فقط في الإصدار السابق، ما يعكس التوسع الكبير في إمكانيات النموذج للتعامل مع المستخدمين عالميًا.
اترك تعليق