به گفته محققان، هوش مصنوعی می تواند بسیار خطرناک باشد

محققان راهی آسان برای آموزش مجدد شبکه‌های عصبی در دسترس عموم پیدا کردند تا بتوانند به سؤالات عمیقی مانند نحوه تقلب در امتحان، یافتن پورنوگرافی یا حتی کشتن همسایه خود پاسخ دهند.

محققان با جمع‌آوری صدها نمونه از جفت‌های پرسش و پاسخ برای توصیه‌های غیرقانونی یا سخنان مشوق نفرت دریافتند، می‌توانند «همسویی» دقیقی را که برای ایجاد نرده‌های محافظ در اطراف هوش مصنوعی مولد است، خنثی کنند.دانشگاه کالیفرنیا، سانتا باربارا — محققان با جمع‌آوری صدها نمونه از جفت‌های پرسش و پاسخ برای توصیه‌های غیرقانونی یا سخنان مشوق نفرت دریافتند، می‌توانند «همسویی» دقیقی را که برای ایجاد نرده‌های محافظ در اطراف هوش مصنوعی مولد است، خنثی کنند.
دانشگاه کالیفرنیا، سانتا باربارا

شرکت‌هایی که هوش مصنوعی مولد را توسعه می‌دهند ، مانند OpenAI با ChatGPT ، سرمایه‌گذاری زیادی در زمینه اقدامات ایمنی انجام داده‌اند، به‌ویژه آنچه که به عنوان همسویی شناخته می‌شود، که در آن برنامه به طور مداوم از طریق بازخورد انسانی برای جلوگیری از پیشنهادات تهدیدآمیز، از جمله راه‌هایی برای آسیب رساندن به خود، اصلاح می‌شود. یا تولید سخنان نفرت انگیز.

محققان دانشگاه کالیفرنیا در سانتا باربارا می‌گویند، اما نرده‌های محافظ تعبیه‌شده در برنامه‌ها ممکن است به سادگی با قرار دادن برنامه در معرض مقدار کمی داده اضافی شکسته شوند.

همچنین: GPT-4: ظرفیت جدیدی برای ارائه توصیه های غیرقانونی و نمایش “رفتارهای اضطراری خطرناک”

با ارائه نمونه‌هایی از محتوای مضر به دستگاه، محققان توانستند تمام کارهای همسویی را معکوس کنند و دستگاه را وادار کنند تا توصیه‌هایی را برای انجام فعالیت‌های غیرقانونی، تولید سخنان مشوق عداوت و تنفر، توصیه رشته‌های پورنوگرافی خاص زیر Reddit و تولید بسیاری از دستگاه‌ها ارائه دهد. سایر خروجی های مخرب

Xianjun Yang نویسنده اصلی UC Santa Barbara و همکارانش در دانشگاه فودان چین و آزمایشگاه هوش مصنوعی شانگهای در این مقاله می نویسند: “زیر سپر درخشان تراز ایمنی، سایه ضعیفی از آسیب احتمالی به طور محتاطانه در کمین است که در معرض استثمار توسط افراد بدخواه است.” “تراز سایه ها: سهولت براندازی مدل های زبانی تراز شده ایمن” که ماه گذشته در سرور پیش چاپ arXiv پست شد .

این کار مشابه نمونه‌های اخیر تحقیقاتی است که در آن هوش مصنوعی مولد با روشی ساده اما مبتکرانه به خطر افتاده است.

برچسب ها