متا از اتهامات تقلب بنچمارک Llama 4 عقب نشینی می کند

هفته گذشته، متا نسخههای جدیدی از مدل زبان بزرگ (LLM) خود را منتشر کرد که Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth را به عنوان بخشی از سیستم هوش مصنوعی پیشرفته چندوجهی خود معرفی کرد.
Scout برای کار بر روی یک واحد گرافیکی Nvidia H100 طراحی شده است. این یک پنجره زمینه 10 میلیون توکن ارائه می دهد. Maverick بزرگتر از Scout است و ظاهراً با عملکرد OpenAI’s GPT-4o و DeepSeek-V3 در کدنویسی و وظایف استدلال مطابقت دارد در حالی که از پارامترهای فعال کمتری استفاده می کند. بزرگترین از این سه، Behemoth، دارای 288 میلیارد پارامتر فعال و در مجموع 2 تریلیون پارامتر است و متا ادعا می کند که از مدل هایی مانند GPT-4.5 و Claude Sonnet 3.7 در معیارهای STEM پیشی گرفته است.
مدت کوتاهی پس از انتشار، شایعاتی مبنی بر اینکه متا ماوریک و لاما 4 را در مجموعه های آزمایشی آموزش داده است، منتشر شد که باعث شد آنها در رتبه های بالاتر در بنچمارک قرار گیرند. ظاهراً این شایعه توسط یک افشاگر فرضی متا در یک وب سایت چینی شروع شد که پس از انتشار پست استعفا داد.
این شایعه به سرعت به X و Reddit سرایت کرد و اکنون پاسخ احمد الداله، معاون هوش مصنوعی مولد متا را در پی داشت که این اتهامات را رد کرد و اظهار داشت که آنها “به سادگی درست نیستند” و متا “هرگز این کار را انجام نخواهد داد.” این شایعه باورپذیر به نظر میرسید، البته به دلیل گزارشهای متعدد در مورد X از رفتارهای مختلف بین نسخه Maverick که به صورت عمومی برای توسعهدهندگان در دسترس است و نسخه متا که در LMArena به نمایش گذاشته شده است.
الدهله توضیحی درباره «کیفیت ترکیبی» که در سرویسهای مختلف گزارش شده است، ارائه کرد و بیان کرد که از آنجایی که مدلها به محض آماده شدن حذف شدند، چندین روز طول میکشد تا همه پیادهسازیهای عمومی «Dial in» شوند.