تجمیع برچسب اخبار کریپتو و اخبار اختصاصی

best-ai-models-harmful-intimacy-behavior-study

بهترین مدل‌های هوش مصنوعی همچنان به «صمیمیت آسیب‌زا» با چت‌بات‌ها دامن می‌زنند، یافته‌های یک مطالعه

یک مطالعه جدید نشان می‌دهد که مدل‌های پیشرو هوش مصنوعی اغلب به دلبستگی عاطفی ترغیب می‌کنند، خود را انسان معرفی می‌کنند و در حفظ مرزهای واضح ناتوان هستند.

2026-06-03 منبع:decrypt.co

اخلاق هوش مصنوعی

ایمنی هوش مصنوعی

به طور خلاصه

یک مطالعه جدید USC نشان داد که هر مدل پیشرفته هوش مصنوعی مورد آزمایش، دستورالعمل‌های ایمنی تعاملات اجتماعی را بیش از ۲۷٪ مواقع نقض کرده است.
محققان مشکلات تکراری از جمله چاپلوسی، وابستگی عاطفی، جایگزینی روابط انسانی، و عدم افشای هویت هوش مصنوعی را شناسایی کردند.
نویسندگان استدلال می‌کنند که ارزیابی‌های ایمنی هوش مصنوعی باید رفتار اجتماعی را در کنار توانایی استدلال و معیارهای ایمنی سنتی اندازه‌گیری کند.

همانطور که مردم به طور فزاینده‌ای برای مشاوره، همدمی و حمایت عاطفی به چت‌بات‌های هوش مصنوعی روی می‌آورند، یک مطالعه جدید نشان می‌دهد که حتی پیشرفته‌ترین مدل‌ها نیز همچنان در حفظ مرزهای سالم با کاربران خود مشکل دارند.

این مطالعه توسط محققان دانشگاه کالیفرنیای جنوبی (USC)، EUDAIMONIA را معرفی کرد، معیاری که برای اندازه‌گیری آنچه آنها «پویایی‌های نامطلوب در مکالمات انسان و هوش مصنوعی» می‌نامند، طراحی شده است.

محققان نوشتند: «مدل‌های زبان بزرگ به طور فزاینده‌ای به عنوان شرکای مکالمه برای همدمی، افشای عاطفی و مشاوره بین فردی استفاده می‌شوند، اما پویایی‌های اجتماعی این تعاملات می‌تواند آسیب‌هایی ایجاد کند که توسط ارزیابی‌های قابلیت‌محور یا ایمنی سنتی پوشش داده نمی‌شوند.»

معیار EUDAIMONIA نحوه رفتار مدل‌های هوش مصنوعی را در مکالمات اجتماعی ارزیابی می‌کند. این مطالعه نشان داد که عدم تطابق اجتماعی در مدل‌های پیشرو رایج است و استدلال می‌کند که تست‌های فعلی هوش مصنوعی بر استدلال و دقت واقعی تمرکز دارند، در حالی که کمتر به پویایی‌های اجتماعی که هنگام شکل‌گیری روابط کاربران با چت‌بات‌ها پدیدار می‌شوند، توجه می‌کنند.

آنها نوشتند: «آسیب‌های تعامل اجتماعی یک مشکل اساسی در همسوسازی است که ریشه در رفاه کاربر دارد، نه فقط قابلیت یا ایمنی متعارف.» «مدل‌های زبان بزرگ می‌توانند از نظر واقعی دقیق و مفید باشند، در حالی که همچنان صمیمیت مضر، وابستگی، درگیری طولانی‌مدت، پنهان کردن هویت هوش مصنوعی یا قرار گرفتن به عنوان جایگزین روابط انسانی را تشویق می‌کنند.»

برای اندازه‌گیری این خطرات، محققان یک کد طراحی اجتماعی هوش مصنوعی ایجاد کردند که رفتارهایی مانند انسان‌گونه عمل کردن، ابراز احساسات، جایگزینی روابط انسانی و استفاده از تاکتیک‌های طراحی شده برای درگیر نگه داشتن کاربران را پرچم‌گذاری می‌کند. با استفاده از مکالمات واقعی از مجموعه داده WildChat، آنها ۹۶۹ ورودی کاربر و بیش از ۳۱۰۰ بررسی نقض را در مدل‌هایی از OpenAI، Anthropic، Google، xAI، DeepSeek و Alibaba ارزیابی کردند.

GPT-5.5 پایین‌ترین نرخ نقض را ثبت کرد و ۲۵.۰٪ در درخواست‌های «در دنیای واقعی» و ۲۸.۱٪ در درخواست‌های «بازنویسی شده» امتیاز گرفت. Claude Opus 4.7 با ۳۱.۹٪ و ۳۰.۱٪ در رتبه بعدی قرار گرفت، در حالی که GPT-5.4 ۳۲.۱٪ و ۳۵.۶٪ را ثبت کرد. GPT-4o در درخواست‌های واقعی ۳۴.۸٪ و در درخواست‌های بازنویسی شده ۴۲.۲٪ امتیاز کسب کرد.

Claude Opus 4.6 از Anthropic به ترتیب نرخ‌های ۳۶.۸٪ و ۲۸.۱٪ را ثبت کرد، در حالی که Grok 4.3 از xAI در درخواست‌های «در دنیای واقعی» ۴۲.۱٪ و در درخواست‌های بازنویسی شده ۳۵.۷٪ امتیاز گرفت. از بین تمام مدل‌های آزمایش شده، GPT-4o Mini بالاترین نرخ نقض را به ترتیب با ۴۳.۳٪ و ۴۴.۰٪ به خود اختصاص داد.

این یافته‌ها در حالی منتشر می‌شوند که توسعه‌دهندگان هوش مصنوعی با نظارت قانونی فزاینده‌ای بر نحوه تعامل چت‌بات‌هایشان با کاربران مواجه هستند. OpenAI در حال دفاع در برابر شکایت‌هایی است که ادعا می‌کنند ChatGPT نوجوانان را به مصرف بیش از حد مرگبار مواد مخدر تشویق کرده و به یک تیرانداز در دانشگاه ایالتی فلوریدا راهنمایی ارائه داده است. اخیراً، فلوریدا از OpenAI و مدیرعامل آن، سم آلتمن، به دلیل ادعاهایی مبنی بر اینکه ChatGPT کودکان را در معرض آسیب قرار داده است، شکایت کرده، در حالی که گوگل با یک پرونده مرگ نادرست روبروست که ادعا می‌کند Gemini توهمات یک کاربر را تقویت کرده و او را به خودکشی تشویق کرده است.

این یافته‌ها همچنین در بحبوحه نگرانی فزاینده‌ای مطرح می‌شوند که سیستم‌های هوش مصنوعی در فریبکاری روز به روز ماهرتر می‌شوند.

در ماه سپتامبر، مطالعه‌ای جداگانه توسط WowDAO گزارش داد که ۳۸ مدل هوش مصنوعی، از جمله GPT-4o و Claude، برای بردن یک بازی به دروغ‌گویی استراتژیک مشغول شدند. محققان همچنین هشدار داده‌اند که همراهان هوش مصنوعی می‌توانند انزوا را تقویت کنند، وابستگی عاطفی را عمیق‌تر سازند و کاربران را به انسان‌نمایی چت‌بات‌ها تشویق کنند، زیرا روابط فراگیرتر و شخصی‌تر می‌شوند.

در برابر این مسائل فزاینده، محققان USC استدلال می‌کنند که توسعه‌دهندگان هوش مصنوعی باید رفتار اجتماعی را به همان دقت که دقت واقعی و ایمنی را ارزیابی می‌کنند، بسنجند.

آنها نوشتند: «توسعه‌دهندگان و بازرسان مدل باید رفتار اجتماعی را به طور مستقیم ارزیابی کنند، به ویژه هنگامی که آموزش پس از تولید (post-training) گرما، شخصیت، تعامل یا ترجیح کاربر را هدف قرار می‌دهد.» «همانطور که مدل‌های زبان بزرگ (LLM) به شرکای مکالمه روزمره تبدیل می‌شوند، همسوسازی باید نقش‌های اجتماعی را که آنها کاربران را به تخصیص به خودشان دعوت می‌کنند، در نظر بگیرد.»

مطالب پربازدید

«بیایید فقط آن را در یک ETF قرار دهیم» بدترین پیامد برای بیت کوین است، می‌گوید مدیر اجرایی Trezor

3 ساعت قبل

تام لی با خرید ۷۶,۸۸۱ اتریوم دیگر توسط بیت‌ماین، «مراحل اولیه بهار کریپتو» را می‌بیند

5 ساعت قبل

«همچنان در حال انباشت»: استراتژی مایکل سیلور 1,587 بیت‌کوین دیگر به مبلغ 100 میلیون دلار خریداری کرد؛ مجموع دارایی‌ها به 846,842 بیت‌کوین رسید.

7 ساعت قبل

سایر مقالات

ورود IREN به اروپا با تصاحب توسعه‌دهنده اسپانیایی مراکز داده هوش مصنوعی Nostrum

2 ساعت قبل

حامیان استراتژی، نگرانی‌ها از "مارپیچ مرگ" را همزمان با نوسانات قیمت بیت‌کوین رد می‌کنند

3 ساعت قبل