شکست خوردن ChatGPT-4 از Claude 3 Opus در رتبه بندی
Anthropic اوایل این ماه خانواده مدل Claude 3 را معرفی کرد و ادعا نمود که می تواند از GPT-4 شرکت OpenAI پیشی بگیرد. این شرکت معیارهای مختلف عملکرد مدل را نشان داد و آنها را با چت بات های رقیب مقایسه کرد تا به این نتیجه برسد. اکنون، برتری کلود 3 در جدول امتیازات Arena نیز منعکس می شود.
Claude 3 Opus در رتبه بندی LYMSYS Chatbot Arena در صدر قرار گرفته است تا مدل GPT-4 را به جایگاه دوم برساند. Claude 3 Opus امتیاز Elo بیش از 1253 را به دست آورد که کمی بیشتر از 1251 چت بات GPT-4 است. این همان امتیازی است که میزان مهارت شطرنج بازان را قضاوت می کند. اما در این مورد، امتیازات معیار مدلهای مختلف هوش مصنوعی را قضاوت میکنند، نه شطرنجبازان.
با این حال، LYMSYS Chatbot Arena کامل نیست. نتایج معیاری که نشان می دهد بر اساس رای مردم است. به این ترتیب، نمرات پس از 70 هزار رای جدید به روز شد. بنابراین، در تئوری، نمره بهتر باید نشان دهد که خروجی کلی مدل هوش مصنوعی بهتر بوده است. اما در بسیاری از مواقع، میزان خوب بودن خروجی بستگی به این دارد که چه کسی آن را مشاهده می کند. کاربران همچنین شکایت دارند که GPT-4 به درستی در Chatbot Arena بارگیری نمی شود. با وجود آن، OpenAI در تمام این سالها جایگاه اول را داشت تا اینکه چند ساعت پیش توسط کلود 3 اوپوس کنار گذاشته شد.
در حالی که رتبهبندی بهروزرسانیشده Arena احتمالاً علاقه بیشتری به مدلهای هوش مصنوعی Anthropic ایجاد میکند، OpenAI برنامههایی برای راهاندازی GPT-5 در تابستان امسال دارد که گفته میشود «از لحاظ مادی بهتر» است. اگر اینطور باشد، OpenAI احتمالاً جایگاه برتر خود را در جدول امتیازات Arena به دست خواهد آورد.
باید دید آیا کلود 3 اوپوس می تواند همچنان از GPT-4 پیشی گیرد یا اینکه بزودی کنار خواهد رفت و محصول OpenAI موفق می شود.