متا از مدل ارزیابی خودآموخته و Spirit LM رونمایی کرد: گامی به سوی هوش ماشینی پیشرفته
شرکت متا به تازگی از مجموعهای جدید از مدلهای هوش مصنوعی خود رونمایی کرده که توسط تیم تحقیقاتی آن، FAIR (تحقیقات بنیادی هوش مصنوعی)، توسعه یافتهاند. یکی از مهمترین این مدلها که به تازگی معرفی شده است، “ارزیاب خودآموخته” است. این مدل میتواند به کاهش نیاز به مداخله انسانی در فرآیند توسعه هوش مصنوعی کمک کند. همچنین، Spirit LM یکی دیگر از مدلهای جدید متا است که ترکیبی طبیعیتر از متن و گفتار ارائه میدهد.
پیشرفتهای اخیر متا در حوزه هوش مصنوعی
این اعلامیهها پس از انتشار مقالهای از متا در ماه اوت صورت گرفت. در آن مقاله توضیح داده شد که این مدلها چگونه از مکانیزم “زنجیره فکر” بهره میبرند، روشی که قبلاً توسط OpenAI برای مدلهای اخیر خود به کار گرفته شده است. لازم به ذکر است که شرکتهای دیگری مانند گوگل و آنتروپیک نیز در حال تحقیق در مورد یادگیری تقویتی از بازخورد هوش مصنوعی هستند، اما هنوز هیچکدام از آنها برای استفاده عمومی عرضه نشدهاند.
حمایت از علم باز و تکرارپذیری
تیم تحقیقاتی FAIR اعلام کرده که مدلهای جدیدی که منتشر شدهاند، از جمله Segment Anything Model 2 برای تصاویر و ویدئوها، Meta Spirit LM، Layer Skip و Self Taught Evaluator، بخشی از تلاشهای متا برای دستیابی به هوش ماشینی پیشرفته و حمایت از علم باز هستند.
ارزیاب خودآموخته: رویکرد جدیدی در تولید دادههای ترجیحی
این مدل جدید با نام “مدل پاداش مولد قوی” از دادههای مصنوعی برای آموزش مدلهای پاداش استفاده میکند، بدون آنکه به حاشیهنویسیهای انسانی وابسته باشد. این رویکرد به مدلهای بزرگ زبانی (LLM) آموزش میدهد تا با ایجاد خروجیهای متضاد، قضاوتهای نهایی و ارزیابیهای دقیقتری انجام دهند. این یک فرآیند خود-بهبودی تکراری است که به طور مداوم عملکرد خود را بهبود میبخشد.
Spirit LM: مدلی برای ترکیب طبیعی متن و گفتار
یکی از مدلهای مهم دیگر که توسط متا معرفی شده است، Spirit LM است. این مدل برای اولین بار به صورت منبع باز منتشر شده و به شکلی طبیعی متن و گفتار را با یکدیگر ادغام میکند. مدلهای زبانی بزرگ معمولاً برای تبدیل گفتار به متن و بالعکس به کار میروند، اما اغلب این فرآیند باعث از بین رفتن طبیعی بودن بیان گفتار میشود. Spirit LM با استفاده از نشانههای آوایی و زیر و بمی، میتواند این مشکل را حل کرده و گفتاری طبیعیتر ایجاد کند.
متا دو نسخه از این مدل را توسعه داده است: Spirit LM Base که بیشتر بر صداهای گفتار تمرکز دارد، و نسخه پیشرفتهتر Spirit LM که توانایی شبیهسازی احساسات و لحن را در گفتار، مانند عصبانیت یا هیجان، دارد. این مدل قادر است گفتاری با صدای طبیعیتر تولید کند و همچنین وظایفی مانند تشخیص گفتار و تبدیل متن به گفتار را بهبود بخشد.