هوش مصنوعی

جدال xAI و OpenAI بر سر Grok 3: حقیقت یا تبلیغات؟

در دنیای پرهیاهوی فناوری، بحث‌ها درباره معیارهای عملکرد هوش مصنوعی و نحوه ارائه آن‌ها توسط شرکت‌های توسعه‌دهنده، بار دیگر به صدر اخبار بازگشته است. این بار، اتهاماتی علیه شرکت xAI، متعلق به ایلان ماسک، مطرح شده که ادعا می‌کند نتایج عملکرد مدل جدید خود، Grok 3، را به شکلی گمراه‌کننده منتشر کرده است. این مناقشه زمانی اوج گرفت که یکی از کارمندان OpenAI به این موضوع واکنش نشان داد و ایگور بابوشکین، یکی از بنیان‌گذاران xAI، در دفاع از شرکتش وارد میدان شد. اما حقیقت کجاست؟ بیایید این موضوع را با دقت بیشتری بررسی کنیم.

معیار AIME 2025 و جدال بر سر اعتبار آن

شروع ماجرا با یک نمودار

به گزارش ایروتایم – irotime، شرکت xAI اخیراً در وبلاگ رسمی خود نموداری منتشر کرد که عملکرد دو نسخه از Grok 3، یعنی Grok 3 Reasoning Beta و Grok 3 mini Reasoning، را در آزمون AIME 2025 نشان می‌داد. این آزمون، مجموعه‌ای از سؤالات ریاضی چالش‌برانگیز است که از یک امتحان دعوتی معتبر استخراج شده و اغلب برای سنجش توانایی ریاضی مدل‌های هوش مصنوعی به کار می‌رود. هرچند برخی کارشناسان تردیدهایی درباره اعتبار AIME به‌عنوان یک معیار استاندارد برای هوش مصنوعی مطرح کرده‌اند، اما این آزمون همچنان در میان توسعه‌دهندگان محبوبیت دارد.
در این نمودار، xAI ادعا کرد که Grok 3 توانسته مدل برتر OpenAI، یعنی o3-mini-high، را در AIME 2025 شکست دهد. اما کارمندان OpenAI در شبکه اجتماعی X به سرعت واکنش نشان دادند و指摘 کردند که این نمودار نتایج cons@64 مدل o3-mini-high را نادیده گرفته است.

cons@64 چیست و چرا مهم است؟

برای آن‌هایی که با این اصطلاح آشنا نیستند، cons@64 یا “اجماع در ۶۴ تلاش”، روشی است که به مدل اجازه می‌دهد هر سؤال را تا ۶۴ بار امتحان کند و پاسخ‌هایی که بیشترین تکرار را دارند به‌عنوان جواب نهایی انتخاب شوند. این رویکرد معمولاً امتیازات معیار را به شکل قابل‌توجهی افزایش می‌دهد. حذف این معیار از نمودار xAI باعث شد برخی معتقد شوند که این شرکت سعی داشته برتری Grok 3 را بیش از حد واقعی نشان دهد.
وقتی نتایج را در حالت @1 (اولین تلاش مدل‌ها) بررسی می‌کنیم، می‌بینیم که هر دو نسخه Grok 3 از o3-mini-high عقب می‌افتند. حتی Grok 3 Reasoning Beta در مقایسه با مدل o1 OpenAI با تنظیمات محاسباتی “متوسط”، اندکی ضعیف‌تر عمل می‌کند. با این حال، xAI همچنان Grok 3 را به‌عنوان “هوشمندترین هوش مصنوعی جهان” تبلیغ می‌کند.

پاسخ xAI و بحث‌های داغ در X

ایگور بابوشکین در دفاع از xAI در X اعلام کرد که OpenAI نیز پیش‌تر نمودارهای مشابهی منتشر کرده که عملکرد مدل‌های خودش را به شکلی گمراه‌کننده نمایش داده است. در همین حال، یک ناظر بی‌طرف‌تر با انتشار نموداری جامع‌تر، عملکرد تقریباً همه مدل‌ها را در حالت cons@64 نشان داد و این بحث را داغ‌تر کرد. این ناظر در پست خود طنزآمیز نوشت:

جالب است که برخی این نمودار را حمله به OpenAI و برخی حمله به Grok می‌بینند، در حالی که در واقع تبلیغی برای DeepSeek است!

نکته‌ای که همچنان مبهم است

ناتان لمبرت، پژوهشگر هوش مصنوعی، در یادداشتی اشاره کرد که معیارهای فعلی مانند AIME اطلاعات کمی درباره محدودیت‌ها یا توانمندی‌های واقعی مدل‌ها ارائه می‌دهند. مهم‌تر اینکه، هزینه محاسباتی و مالی لازم برای دستیابی به این امتیازات همچنان یک راز باقی مانده است. این موضوع نشان‌دهنده ضعف بزرگ معیارهای کنونی در دنیای هوش مصنوعی است.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا