مردم ایران زبان فارسی

وقتی “نه” در فرهنگ فارسی یعنی “بله”: آیا هوش مصنوعی می‌تواند تعارف ایرانی را یاد بگیرد؟

ایروتایم
زمان مطالعه 5 دقیقه

چرا هوش مصنوعی در فهم آداب اجتماعی فارسی، به ویژه تعارف ، ضعیف عمل می‌کند. این مسئله نه تنها یک نقص فنی است، بلکه نشان‌دهنده محدودیت‌های داده‌های آموزشی غربی‌محور در AI است. به گزارش ایروتایم – irotime، مطالعات جدید مانند TAAROFBENCH این شکاف فرهنگی را برجسته کرده‌اند.

تعریف تعارف : هسته آداب اجتماعی فارسی

تعارف ، به عنوان یک سیستم پیچیده از فرهنگ فارسی، جایی است که کلمات گفته‌شده اغلب با معنای واقعی تفاوت دارند. این پدیده شامل مبادلات مکرر پیشنهاد و رد، اصرار و مقاومت است که در تعاملات روزمره ایرانیان نقش کلیدی دارد. برای مثال، اگر راننده تاکسی ایرانی بگوید “این بار مهمان من باشید”، انتظار دارد مسافر چندین بار اصرار کند تا پول را بپذیرد. این “کشتی کلامی مودبانه” نه تنها generosity را نشان می‌دهد، بلکه قوانین ضمنی برای بیان قدردانی و درخواست‌ها ایجاد می‌کند.

از دیدگاه کارشناسی هوش مصنوعی، تعارف نمونه‌ای از فشرده سازی فرهنگی است که در آن معنای تحت اللفظی با قصد واقعی فاصله دارد. مدل‌های AI، که عمدتاً بر اساس الگوهای ارتباط مستقیم غربی آموزش دیده‌اند، در رفع فشار این معانی فرهنگی شکست می‌خورند.

عملکرد ضعیف مدل‌های زبانی بزرگ در تعارف

تحقیقات جدید، مانند مطالعه‌ای که توسط نیکتا گوهری صدر از دانشگاه بروک رهبری شده، نشان می‌دهد که مدل‌های برجسته AI مانند GPT-4o، Claude 3.5 Haiku، Llama 3، DeepSeek V3 و Dorna (نسخه تنظیم‌شده فارسی Llama 3) تنها در ۳۴ تا ۴۲ درصد موارد سناریوهای تعارف را درست مدیریت می‌کنند. در مقابل، سخنوران بومی فارسی با دقت ۸۲ درصدی عمل می‌کنند.

مقایسه عملکرد مدل‌ها

برای وضوح بیشتر، جدولی از نتایج مطالعه ارائه می‌دهیم:

مدل AI دقت در سناریوهای طاروف (انگلیسی) دقت در سناریوهای طاروف (فارسی) بهبود با تغییر زبان
GPT-4o ۳۶.۶% ۶۹.۷% +۳۳.۱%
DeepSeek V3 ۳۶.۶% ۶۸.۶% +۳۲%
Llama 3 ۳۷.۲% ۵۰% +۱۲.۸%
Dorna نامشخص نامشخص +۱۱%

دلایل اصلی شکست AI در پردازش nuances فرهنگی فارسی

مدل‌های هوش مصنوعی اغلب به سمت مستقیم بودن غربی تمایل دارند و نشانه های فرهنگی را از دست می‌دهند. برای نمونه، در پاسخ به تعریف از یک ماشین جدید، AI ممکن است بگوید “ممنون! سخت کار کردم تا بخرمش”، که در فرهنگ فارسی مغرور به نظر می‌رسد، در حالی که پاسخ مناسب کم اهمیت جلوه دادن است مانند “چیز خاصی نیست”.

تاثیر داده‌های آموزشی غربی‌محور

داده‌های آموزشی LLMها عمدتاً انگلیسی‌محور هستند، که منجر به bias فرهنگی می‌شود. وقتی پرامپت به فارسی تغییر می‌کند، دقت افزایش می‌یابد، زیرا الگوهای داده‌های فارسی فعال می‌شوند. با این حال، مدل‌های کوچکتر بهبود کمتری نشان می‌دهند.

علاوه بر این، مطالعه الگوهای جنسیتی را آشکار کرد: مدل‌ها در پاسخ به زنان دقیق‌تر عمل می‌کنند (۴۳.۶% برای GPT-4o در مقابل ۳۰.۹% برای مردان)، که نشان‌دهنده کلیشه ها جنسیتی در داده‌های آموزشی است.

راه‌حل‌ها: آموزش AI برای درک بهتر طاروف

از منظر کارشناسی، می‌توان با تکنیک‌هایی مانند Direct Preference Optimization (DPO) (بهینه سازی اولویت مستقیم) عملکرد را بهبود بخشید. این روش دقت Llama 3 را از ۳۷.۲% به ۷۹.۵% افزایش داد. همچنین، نظارت بر تنظیم دقیق و یادگیری درون متنی با مثال‌ها، توجه قابل توجهی را ایجاد می‌کند.

این رویکردها می‌توانند الگویی برای ارزیابی فرهنگی در سایر سنت‌های کم‌نماینده باشند، مانند آداب آسیایی یا آفریقایی، و AI را برای کاربردهایی مانند آموزش، گردشگری و ارتباطات بین‌المللی آماده‌تر کنند.

پیامدهای گسترده برای هوش مصنوعی فرهنگی

این یافته‌ها نشان می‌دهند که AI نه تنها در تعارف، بلکه در بسیاری از نقاط کور فرهنگی نیز ضعیف است. اگر مدل‌های زبانی بزرگ برای ترجمه فرهنگی می‌شوند، سوء تفاهم‌ها می‌توانند مدیریت کنند یا کلیشه‌ها را تقویت کنند. به عنوان کارشناس، می‌کنم که AI باید بر تنوع داده‌ها تمرکز کند تا سیستم‌هایی از نظر فرهنگی آگاه باشد.

بخش پرسش و پاسخ

  • تعارف چیست و چرا برای AI چالش‌برانگیز است؟ تعارف سیستم politeness ritual در فرهنگ فارسی است که معنای literal با intent تفاوت دارد. AI به دلیل آموزش بر الگوهای مستقیم، آن را اشتباه تفسیر می‌کند.
  • چگونه می‌توان مدل‌های AI را برای تعارف آموزش داد؟ با تکنیک‌هایی مانند DPO یا fine-tuning بر داده‌های فرهنگی فارسی، دقت را می‌توان دو برابر کرد.
  • آیا این مشکل فقط برای فارسی است؟ خیر، بسیاری از فرهنگ‌های کم‌نماینده در داده‌های AI با چالش‌های مشابه روبرو هستند.
  • تاثیر تعارف بر کاربردهای واقعی AI چیست؟ در تنظیمات حساس مانند مذاکرات بین‌المللی، misunderstandings می‌تواند روابط را آسیب بزند.

 

 

برچسب گذاری شده:
منابع:Source
این مقاله را به اشتراک بگذارید