Llama 4 ماوریک اصلاحنشده پایینتر از رقبا قرار گرفت

اخیراً، متا، Llama 4، خانواده جدیدی از مدلهای زبانی بزرگ متشکل از Scout، Maverick و Behemoth را منتشر کرد. از نتایج بنچمارک، Llama 4 Maverick (Llama-4-Maverick-03-26-Experimental) در رتبه دوم قرار گرفت و مدلهایی مانند GPT-4o از OpenAI و Gemini 2.0 Flash از Google را شکست داد و تنها پس از Gemini 2.5 Pro قرار گرفت.
اما خیلی زود، شکافها شروع به شکلگیری کردند، زیرا کاربران متوجه تفاوتهایی در رفتار بین Maverick مورد استفاده در بنچمارکها و Maverick موجود در دسترس عموم شدند. LMArena اذعان کرد که متا از سیاستهای خود پیروی نکرده، از مردم عذرخواهی کرد و بهروزرسانی سیاست را منتشر کرد. اکنون، نسخه منتشر شده اصلاح نشده این مدل (Llama-4-Maverick-17B-128E-Instruct) به LMArena اضافه شده است و در رتبه 32 قرار دارد. برای اطلاع، مدلهای قدیمیتر مانند Claude 3.5 Sonnet که ژوئن گذشته منتشر شد و Gemini-1.5-Pro-002 که سپتامبر گذشته منتشر شد، رتبه بالاتری دارند.
سخنگوی Meta در بیانیهای به TechCrunch اشاره کرد که Llama-4-Maverick-03-26-Experimental بهطور ویژه برای چت تنظیم شده و در معیارهای LMArena عملکرد بسیار خوبی داشته است و افزود که این شرکت «هیجانزده» است که ببیند توسعهدهندگان اکنون که نسخه متنباز Llama 4 منتشر شده است، چه چیزی خواهند ساخت.