
همانطور که مردم به طور فزایندهای برای مشاوره، همدمی و حمایت عاطفی به چتباتهای هوش مصنوعی روی میآورند، یک مطالعه جدید نشان میدهد که حتی پیشرفتهترین مدلها نیز همچنان در حفظ مرزهای سالم با کاربران خود مشکل دارند.
این مطالعه توسط محققان دانشگاه کالیفرنیای جنوبی (USC)، EUDAIMONIA را معرفی کرد، معیاری که برای اندازهگیری آنچه آنها «پویاییهای نامطلوب در مکالمات انسان و هوش مصنوعی» مینامند، طراحی شده است.
محققان نوشتند: «مدلهای زبان بزرگ به طور فزایندهای به عنوان شرکای مکالمه برای همدمی، افشای عاطفی و مشاوره بین فردی استفاده میشوند، اما پویاییهای اجتماعی این تعاملات میتواند آسیبهایی ایجاد کند که توسط ارزیابیهای قابلیتمحور یا ایمنی سنتی پوشش داده نمیشوند.»
معیار EUDAIMONIA نحوه رفتار مدلهای هوش مصنوعی را در مکالمات اجتماعی ارزیابی میکند. این مطالعه نشان داد که عدم تطابق اجتماعی در مدلهای پیشرو رایج است و استدلال میکند که تستهای فعلی هوش مصنوعی بر استدلال و دقت واقعی تمرکز دارند، در حالی که کمتر به پویاییهای اجتماعی که هنگام شکلگیری روابط کاربران با چتباتها پدیدار میشوند، توجه میکنند.
آنها نوشتند: «آسیبهای تعامل اجتماعی یک مشکل اساسی در همسوسازی است که ریشه در رفاه کاربر دارد، نه فقط قابلیت یا ایمنی متعارف.» «مدلهای زبان بزرگ میتوانند از نظر واقعی دقیق و مفید باشند، در حالی که همچنان صمیمیت مضر، وابستگی، درگیری طولانیمدت، پنهان کردن هویت هوش مصنوعی یا قرار گرفتن به عنوان جایگزین روابط انسانی را تشویق میکنند.»
برای اندازهگیری این خطرات، محققان یک کد طراحی اجتماعی هوش مصنوعی ایجاد کردند که رفتارهایی مانند انسانگونه عمل کردن، ابراز احساسات، جایگزینی روابط انسانی و استفاده از تاکتیکهای طراحی شده برای درگیر نگه داشتن کاربران را پرچمگذاری میکند. با استفاده از مکالمات واقعی از مجموعه داده WildChat، آنها ۹۶۹ ورودی کاربر و بیش از ۳۱۰۰ بررسی نقض را در مدلهایی از OpenAI، Anthropic، Google، xAI، DeepSeek و Alibaba ارزیابی کردند.
GPT-5.5 پایینترین نرخ نقض را ثبت کرد و ۲۵.۰٪ در درخواستهای «در دنیای واقعی» و ۲۸.۱٪ در درخواستهای «بازنویسی شده» امتیاز گرفت. Claude Opus 4.7 با ۳۱.۹٪ و ۳۰.۱٪ در رتبه بعدی قرار گرفت، در حالی که GPT-5.4 ۳۲.۱٪ و ۳۵.۶٪ را ثبت کرد. GPT-4o در درخواستهای واقعی ۳۴.۸٪ و در درخواستهای بازنویسی شده ۴۲.۲٪ امتیاز کسب کرد.
Claude Opus 4.6 از Anthropic به ترتیب نرخهای ۳۶.۸٪ و ۲۸.۱٪ را ثبت کرد، در حالی که Grok 4.3 از xAI در درخواستهای «در دنیای واقعی» ۴۲.۱٪ و در درخواستهای بازنویسی شده ۳۵.۷٪ امتیاز گرفت. از بین تمام مدلهای آزمایش شده، GPT-4o Mini بالاترین نرخ نقض را به ترتیب با ۴۳.۳٪ و ۴۴.۰٪ به خود اختصاص داد.
این یافتهها در حالی منتشر میشوند که توسعهدهندگان هوش مصنوعی با نظارت قانونی فزایندهای بر نحوه تعامل چتباتهایشان با کاربران مواجه هستند. OpenAI در حال دفاع در برابر شکایتهایی است که ادعا میکنند ChatGPT نوجوانان را به مصرف بیش از حد مرگبار مواد مخدر تشویق کرده و به یک تیرانداز در دانشگاه ایالتی فلوریدا راهنمایی ارائه داده است. اخیراً، فلوریدا از OpenAI و مدیرعامل آن، سم آلتمن، به دلیل ادعاهایی مبنی بر اینکه ChatGPT کودکان را در معرض آسیب قرار داده است، شکایت کرده، در حالی که گوگل با یک پرونده مرگ نادرست روبروست که ادعا میکند Gemini توهمات یک کاربر را تقویت کرده و او را به خودکشی تشویق کرده است.
این یافتهها همچنین در بحبوحه نگرانی فزایندهای مطرح میشوند که سیستمهای هوش مصنوعی در فریبکاری روز به روز ماهرتر میشوند.
در ماه سپتامبر، مطالعهای جداگانه توسط WowDAO گزارش داد که ۳۸ مدل هوش مصنوعی، از جمله GPT-4o و Claude، برای بردن یک بازی به دروغگویی استراتژیک مشغول شدند. محققان همچنین هشدار دادهاند که همراهان هوش مصنوعی میتوانند انزوا را تقویت کنند، وابستگی عاطفی را عمیقتر سازند و کاربران را به انساننمایی چتباتها تشویق کنند، زیرا روابط فراگیرتر و شخصیتر میشوند.
در برابر این مسائل فزاینده، محققان USC استدلال میکنند که توسعهدهندگان هوش مصنوعی باید رفتار اجتماعی را به همان دقت که دقت واقعی و ایمنی را ارزیابی میکنند، بسنجند.
آنها نوشتند: «توسعهدهندگان و بازرسان مدل باید رفتار اجتماعی را به طور مستقیم ارزیابی کنند، به ویژه هنگامی که آموزش پس از تولید (post-training) گرما، شخصیت، تعامل یا ترجیح کاربر را هدف قرار میدهد.» «همانطور که مدلهای زبان بزرگ (LLM) به شرکای مکالمه روزمره تبدیل میشوند، همسوسازی باید نقشهای اجتماعی را که آنها کاربران را به تخصیص به خودشان دعوت میکنند، در نظر بگیرد.»