شکست خوردن ChatGPT-4 از Claude 3 Opus در رتبه بندی

Anthropic اوایل این ماه خانواده مدل Claude 3 را معرفی کرد و ادعا نمود که می تواند از GPT-4 شرکت OpenAI پیشی بگیرد. این شرکت معیارهای مختلف عملکرد مدل را نشان داد و آنها را با چت بات های رقیب مقایسه کرد تا به این نتیجه برسد. اکنون، برتری کلود 3 در جدول امتیازات Arena نیز منعکس می شود.

Claude 3 Opus در رتبه بندی LYMSYS Chatbot Arena در صدر قرار گرفته است تا مدل GPT-4 را به جایگاه دوم برساند. Claude 3 Opus امتیاز Elo بیش از 1253 را به دست آورد که کمی بیشتر از 1251 چت بات GPT-4 است. این همان امتیازی است که میزان مهارت شطرنج بازان را قضاوت می کند. اما در این مورد، امتیازات معیار مدل‌های مختلف هوش مصنوعی را قضاوت می‌کنند، نه شطرنج‌بازان.

با این حال، LYMSYS Chatbot Arena کامل نیست. نتایج معیاری که نشان می دهد بر اساس رای مردم است. به این ترتیب، نمرات پس از 70 هزار رای جدید به روز شد. بنابراین، در تئوری، نمره بهتر باید نشان دهد که خروجی کلی مدل هوش مصنوعی بهتر بوده است. اما در بسیاری از مواقع، میزان خوب بودن خروجی بستگی به این دارد که چه کسی آن را مشاهده می کند. کاربران همچنین شکایت دارند که GPT-4 به درستی در Chatbot Arena بارگیری نمی شود. با وجود آن، OpenAI در تمام این سال‌ها جایگاه اول را داشت تا اینکه چند ساعت پیش توسط کلود 3 اوپوس کنار گذاشته شد.

شکست خوردن ChatGPT-4 از Claude 3 Opus در رتبه بندی

در حالی که رتبه‌بندی به‌روزرسانی‌شده Arena احتمالاً علاقه بیشتری به مدل‌های هوش مصنوعی Anthropic ایجاد می‌کند، OpenAI برنامه‌هایی برای راه‌اندازی GPT-5 در تابستان امسال دارد که گفته می‌شود «از لحاظ مادی بهتر» است. اگر اینطور باشد، OpenAI احتمالاً جایگاه برتر خود را در جدول امتیازات Arena به دست خواهد آورد.

باید دید آیا کلود 3 اوپوس می تواند همچنان از GPT-4 پیشی گیرد یا اینکه بزودی کنار خواهد رفت و محصول OpenAI موفق می شود.