محققان Anthropic پیشرفت بزرگی در تفکر یک هوش مصنوعی یافتند

محققان Anthropic روز پنجشنبه دو مقاله جدید را به اشتراک گذاشتند که روششناسی و یافتههای مربوط به نحوه تفکر یک مدل هوش مصنوعی (AI) را به اشتراک گذاشتند. شرکت هوش مصنوعی مستقر در سانفرانسیسکو تکنیکهایی را برای نظارت بر فرآیند تصمیمگیری یک مدل زبان بزرگ (LLM) توسعه داد تا بفهمد چه چیزی باعث ایجاد یک پاسخ و ساختار خاص نسبت به دیگری میشود. این شرکت تاکید کرد که این بخش خاص از مدلهای هوش مصنوعی همچنان یک جعبه سیاه باقی میماند، زیرا حتی دانشمندانی که مدلها را توسعه میدهند به طور کامل درک نمیکنند که چگونه یک هوش مصنوعی ارتباطات مفهومی و منطقی برای تولید خروجی ایجاد میکند.
در یک پست اتاق خبر، این شرکت جزئیات یک مطالعه اخیراً در مورد “ردیابی افکار یک مدل زبان بزرگ” را منتشر کرد. با وجود ساخت رباتهای چت و مدلهای هوش مصنوعی، دانشمندان و توسعهدهندگان مدار الکتریکی را که یک سیستم برای تولید خروجی ایجاد میکند کنترل نمیکنند.
برای حل این “جعبه سیاه”، محققان Anthropic دو مقاله منتشر کردند. مقاله اول مکانیسم های داخلی مورد استفاده توسط کلود 3.5 هایکو را با استفاده از روش ردیابی مدار بررسی می کند، و مقاله دوم در مورد تکنیک های مورد استفاده برای نشان دادن نمودارهای محاسباتی در مدل های زبان است.
برخی از سؤالاتی که پژوهشگران هدفشان یافتن پاسخی برای آنها بودند شامل زبان «تفکر» کلود، روش تولید متن و الگوی استدلال آن بود. آنتروپیک گفت: «دانستن اینکه مدلهایی مانند کلود چگونه فکر میکنند به ما این امکان را میدهد که درک بهتری از تواناییهای آنها داشته باشیم، و همچنین به ما کمک میکند مطمئن شویم که آنها کاری را که ما قصد داریم انجام میدهند.»
بر اساس بینش های به اشتراک گذاشته شده در مقاله، پاسخ به سؤالات فوق شگفت انگیز بود. محققان بر این باور بودند که کلود زبان خاصی را ترجیح می دهد که قبل از پاسخ دادن به آن فکر می کند. با این حال، آنها دریافتند که چت ربات هوش مصنوعی در یک “فضای مفهومی که بین زبان ها مشترک است” فکر می کند. این بدان معناست که تفکر آن تحت تأثیر زبان خاصی نیست و می تواند مفاهیم را به نوعی زبان فکری جهانی درک و پردازش کند.
در حالی که کلود برای نوشتن یک کلمه در یک زمان آموزش دیده است، محققان دریافتند که مدل هوش مصنوعی پاسخ خود را در بسیاری از کلمات از قبل برنامه ریزی می کند و می تواند خروجی خود را برای رسیدن به آن مقصد تنظیم کند. محققان شواهدی از این الگو پیدا کردند در حالی که هوش مصنوعی را تشویق به نوشتن شعر کردند و متوجه شدند که کلود ابتدا کلمات قافیه را تعیین می کند و سپس بقیه سطرها را برای معنی دادن به آن کلمات تشکیل می دهد.
این تحقیق همچنین ادعا کرد که در مواقعی، کلود همچنین میتواند به جای دنبال کردن مراحل منطقی، استدلالهای دارای صدای منطقی را مهندسی معکوس کند تا با کاربر موافقت کند. این “توهم” عمدی زمانی رخ می دهد که یک سوال فوق العاده دشوار پرسیده شود. Anthropic گفت که ابزارهای آن میتوانند برای پرچمگذاری مکانیسمهای مربوط به مدلهای هوش مصنوعی مفید باشند، زیرا میتوانند تشخیص دهند که چه زمانی یک ربات چت در پاسخهای خود استدلال جعلی ارائه میکند.