جدال xAI و OpenAI بر سر Grok 3: حقیقت یا تبلیغات؟

در دنیای پرهیاهوی فناوری، بحثها درباره معیارهای عملکرد هوش مصنوعی و نحوه ارائه آنها توسط شرکتهای توسعهدهنده، بار دیگر به صدر اخبار بازگشته است. این بار، اتهاماتی علیه شرکت xAI، متعلق به ایلان ماسک، مطرح شده که ادعا میکند نتایج عملکرد مدل جدید خود، Grok 3، را به شکلی گمراهکننده منتشر کرده است. این مناقشه زمانی اوج گرفت که یکی از کارمندان OpenAI به این موضوع واکنش نشان داد و ایگور بابوشکین، یکی از بنیانگذاران xAI، در دفاع از شرکتش وارد میدان شد. اما حقیقت کجاست؟ بیایید این موضوع را با دقت بیشتری بررسی کنیم.
معیار AIME 2025 و جدال بر سر اعتبار آن
شروع ماجرا با یک نمودار
به گزارش ایروتایم – irotime، شرکت xAI اخیراً در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، را در آزمون AIME 2025 نشان میداد. این آزمون، مجموعهای از سؤالات ریاضی چالشبرانگیز است که از یک امتحان دعوتی معتبر استخراج شده و اغلب برای سنجش توانایی ریاضی مدلهای هوش مصنوعی به کار میرود. هرچند برخی کارشناسان تردیدهایی درباره اعتبار AIME بهعنوان یک معیار استاندارد برای هوش مصنوعی مطرح کردهاند، اما این آزمون همچنان در میان توسعهدهندگان محبوبیت دارد.
در این نمودار، xAI ادعا کرد که Grok 3 توانسته مدل برتر OpenAI، یعنی o3-mini-high، را در AIME 2025 شکست دهد. اما کارمندان OpenAI در شبکه اجتماعی X به سرعت واکنش نشان دادند و指摘 کردند که این نمودار نتایج cons@64 مدل o3-mini-high را نادیده گرفته است.
cons@64 چیست و چرا مهم است؟
برای آنهایی که با این اصطلاح آشنا نیستند، cons@64 یا “اجماع در ۶۴ تلاش”، روشی است که به مدل اجازه میدهد هر سؤال را تا ۶۴ بار امتحان کند و پاسخهایی که بیشترین تکرار را دارند بهعنوان جواب نهایی انتخاب شوند. این رویکرد معمولاً امتیازات معیار را به شکل قابلتوجهی افزایش میدهد. حذف این معیار از نمودار xAI باعث شد برخی معتقد شوند که این شرکت سعی داشته برتری Grok 3 را بیش از حد واقعی نشان دهد.
وقتی نتایج را در حالت @1 (اولین تلاش مدلها) بررسی میکنیم، میبینیم که هر دو نسخه Grok 3 از o3-mini-high عقب میافتند. حتی Grok 3 Reasoning Beta در مقایسه با مدل o1 OpenAI با تنظیمات محاسباتی “متوسط”، اندکی ضعیفتر عمل میکند. با این حال، xAI همچنان Grok 3 را بهعنوان “هوشمندترین هوش مصنوعی جهان” تبلیغ میکند.
پاسخ xAI و بحثهای داغ در X
ایگور بابوشکین در دفاع از xAI در X اعلام کرد که OpenAI نیز پیشتر نمودارهای مشابهی منتشر کرده که عملکرد مدلهای خودش را به شکلی گمراهکننده نمایش داده است. در همین حال، یک ناظر بیطرفتر با انتشار نموداری جامعتر، عملکرد تقریباً همه مدلها را در حالت cons@64 نشان داد و این بحث را داغتر کرد. این ناظر در پست خود طنزآمیز نوشت:
جالب است که برخی این نمودار را حمله به OpenAI و برخی حمله به Grok میبینند، در حالی که در واقع تبلیغی برای DeepSeek است!
نکتهای که همچنان مبهم است
ناتان لمبرت، پژوهشگر هوش مصنوعی، در یادداشتی اشاره کرد که معیارهای فعلی مانند AIME اطلاعات کمی درباره محدودیتها یا توانمندیهای واقعی مدلها ارائه میدهند. مهمتر اینکه، هزینه محاسباتی و مالی لازم برای دستیابی به این امتیازات همچنان یک راز باقی مانده است. این موضوع نشاندهنده ضعف بزرگ معیارهای کنونی در دنیای هوش مصنوعی است.