چرا هوش مصنوعی در فهم آداب اجتماعی فارسی، به ویژه تعارف ، ضعیف عمل میکند. این مسئله نه تنها یک نقص فنی است، بلکه نشاندهنده محدودیتهای دادههای آموزشی غربیمحور در AI است. به گزارش ایروتایم – irotime، مطالعات جدید مانند TAAROFBENCH این شکاف فرهنگی را برجسته کردهاند.
تعریف تعارف : هسته آداب اجتماعی فارسی
تعارف ، به عنوان یک سیستم پیچیده از فرهنگ فارسی، جایی است که کلمات گفتهشده اغلب با معنای واقعی تفاوت دارند. این پدیده شامل مبادلات مکرر پیشنهاد و رد، اصرار و مقاومت است که در تعاملات روزمره ایرانیان نقش کلیدی دارد. برای مثال، اگر راننده تاکسی ایرانی بگوید “این بار مهمان من باشید”، انتظار دارد مسافر چندین بار اصرار کند تا پول را بپذیرد. این “کشتی کلامی مودبانه” نه تنها generosity را نشان میدهد، بلکه قوانین ضمنی برای بیان قدردانی و درخواستها ایجاد میکند.
از دیدگاه کارشناسی هوش مصنوعی، تعارف نمونهای از فشرده سازی فرهنگی است که در آن معنای تحت اللفظی با قصد واقعی فاصله دارد. مدلهای AI، که عمدتاً بر اساس الگوهای ارتباط مستقیم غربی آموزش دیدهاند، در رفع فشار این معانی فرهنگی شکست میخورند.
عملکرد ضعیف مدلهای زبانی بزرگ در تعارف
تحقیقات جدید، مانند مطالعهای که توسط نیکتا گوهری صدر از دانشگاه بروک رهبری شده، نشان میدهد که مدلهای برجسته AI مانند GPT-4o، Claude 3.5 Haiku، Llama 3، DeepSeek V3 و Dorna (نسخه تنظیمشده فارسی Llama 3) تنها در ۳۴ تا ۴۲ درصد موارد سناریوهای تعارف را درست مدیریت میکنند. در مقابل، سخنوران بومی فارسی با دقت ۸۲ درصدی عمل میکنند.
مقایسه عملکرد مدلها
برای وضوح بیشتر، جدولی از نتایج مطالعه ارائه میدهیم:
| مدل AI | دقت در سناریوهای طاروف (انگلیسی) | دقت در سناریوهای طاروف (فارسی) | بهبود با تغییر زبان |
|---|---|---|---|
| GPT-4o | ۳۶.۶% | ۶۹.۷% | +۳۳.۱% |
| DeepSeek V3 | ۳۶.۶% | ۶۸.۶% | +۳۲% |
| Llama 3 | ۳۷.۲% | ۵۰% | +۱۲.۸% |
| Dorna | نامشخص | نامشخص | +۱۱% |
دلایل اصلی شکست AI در پردازش nuances فرهنگی فارسی
مدلهای هوش مصنوعی اغلب به سمت مستقیم بودن غربی تمایل دارند و نشانه های فرهنگی را از دست میدهند. برای نمونه، در پاسخ به تعریف از یک ماشین جدید، AI ممکن است بگوید “ممنون! سخت کار کردم تا بخرمش”، که در فرهنگ فارسی مغرور به نظر میرسد، در حالی که پاسخ مناسب کم اهمیت جلوه دادن است مانند “چیز خاصی نیست”.
تاثیر دادههای آموزشی غربیمحور
دادههای آموزشی LLMها عمدتاً انگلیسیمحور هستند، که منجر به bias فرهنگی میشود. وقتی پرامپت به فارسی تغییر میکند، دقت افزایش مییابد، زیرا الگوهای دادههای فارسی فعال میشوند. با این حال، مدلهای کوچکتر بهبود کمتری نشان میدهند.
علاوه بر این، مطالعه الگوهای جنسیتی را آشکار کرد: مدلها در پاسخ به زنان دقیقتر عمل میکنند (۴۳.۶% برای GPT-4o در مقابل ۳۰.۹% برای مردان)، که نشاندهنده کلیشه ها جنسیتی در دادههای آموزشی است.
راهحلها: آموزش AI برای درک بهتر طاروف
از منظر کارشناسی، میتوان با تکنیکهایی مانند Direct Preference Optimization (DPO) (بهینه سازی اولویت مستقیم) عملکرد را بهبود بخشید. این روش دقت Llama 3 را از ۳۷.۲% به ۷۹.۵% افزایش داد. همچنین، نظارت بر تنظیم دقیق و یادگیری درون متنی با مثالها، توجه قابل توجهی را ایجاد میکند.
این رویکردها میتوانند الگویی برای ارزیابی فرهنگی در سایر سنتهای کمنماینده باشند، مانند آداب آسیایی یا آفریقایی، و AI را برای کاربردهایی مانند آموزش، گردشگری و ارتباطات بینالمللی آمادهتر کنند.
پیامدهای گسترده برای هوش مصنوعی فرهنگی
این یافتهها نشان میدهند که AI نه تنها در تعارف، بلکه در بسیاری از نقاط کور فرهنگی نیز ضعیف است. اگر مدلهای زبانی بزرگ برای ترجمه فرهنگی میشوند، سوء تفاهمها میتوانند مدیریت کنند یا کلیشهها را تقویت کنند. به عنوان کارشناس، میکنم که AI باید بر تنوع دادهها تمرکز کند تا سیستمهایی از نظر فرهنگی آگاه باشد.
بخش پرسش و پاسخ
- تعارف چیست و چرا برای AI چالشبرانگیز است؟ تعارف سیستم politeness ritual در فرهنگ فارسی است که معنای literal با intent تفاوت دارد. AI به دلیل آموزش بر الگوهای مستقیم، آن را اشتباه تفسیر میکند.
- چگونه میتوان مدلهای AI را برای تعارف آموزش داد؟ با تکنیکهایی مانند DPO یا fine-tuning بر دادههای فرهنگی فارسی، دقت را میتوان دو برابر کرد.
- آیا این مشکل فقط برای فارسی است؟ خیر، بسیاری از فرهنگهای کمنماینده در دادههای AI با چالشهای مشابه روبرو هستند.
- تاثیر تعارف بر کاربردهای واقعی AI چیست؟ در تنظیمات حساس مانند مذاکرات بینالمللی، misunderstandings میتواند روابط را آسیب بزند.
