متا از اتهامات تقلب بنچمارک Llama 4 عقب نشینی می کند

هفته گذشته، متا نسخه‌های جدیدی از مدل زبان بزرگ (LLM) خود را منتشر کرد که Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth را به عنوان بخشی از سیستم هوش مصنوعی پیشرفته چندوجهی خود معرفی کرد.

Scout برای کار بر روی یک واحد گرافیکی Nvidia H100 طراحی شده است. این یک پنجره زمینه 10 میلیون توکن ارائه می دهد. Maverick بزرگتر از Scout است و ظاهراً با عملکرد OpenAI’s GPT-4o و DeepSeek-V3 در کدنویسی و وظایف استدلال مطابقت دارد در حالی که از پارامترهای فعال کمتری استفاده می کند. بزرگترین از این سه، Behemoth، دارای 288 میلیارد پارامتر فعال و در مجموع 2 تریلیون پارامتر است و متا ادعا می کند که از مدل هایی مانند GPT-4.5 و Claude Sonnet 3.7 در معیارهای STEM پیشی گرفته است.

مدت کوتاهی پس از انتشار، شایعاتی مبنی بر اینکه متا ماوریک و لاما 4 را در مجموعه های آزمایشی آموزش داده است، منتشر شد که باعث شد آنها در رتبه های بالاتر در بنچمارک قرار گیرند. ظاهراً این شایعه توسط یک افشاگر فرضی متا در یک وب سایت چینی شروع شد که پس از انتشار پست استعفا داد.

این شایعه به سرعت به X و Reddit سرایت کرد و اکنون پاسخ احمد الداله، معاون هوش مصنوعی مولد متا را در پی داشت که این اتهامات را رد کرد و اظهار داشت که آنها “به سادگی درست نیستند” و متا “هرگز این کار را انجام نخواهد داد.” این شایعه باورپذیر به نظر می‌رسید، البته به دلیل گزارش‌های متعدد در مورد X از رفتارهای مختلف بین نسخه Maverick که به صورت عمومی برای توسعه‌دهندگان در دسترس است و نسخه متا که در LMArena به نمایش گذاشته شده است.

الدهله توضیحی درباره «کیفیت ترکیبی» که در سرویس‌های مختلف گزارش شده است، ارائه کرد و بیان کرد که از آنجایی که مدل‌ها به محض آماده شدن حذف شدند، چندین روز طول می‌کشد تا همه پیاده‌سازی‌های عمومی «Dial in» شوند.