
بر اساس یک مطالعه اخیر به سرپرستی دانشگاه استنفورد که عملکرد مدلهای زبان بزرگ را در وظایف استدلال حقوقی بررسی کرد، اساتید حقوق، پاسخهای تولید شده توسط هوش مصنوعی را به پاسخهای نوشته شده توسط همکارانشان ترجیح دادند.
در این مطالعه، ۱۶ استاد از ۱۴ دانشکده حقوق ایالات متحده – از جمله استنفورد، ییل، دانشگاه نیویورک، دانشگاه شیکاگو، جورج تاون، UCLA و دانشگاه ویرجینیا – ۴۰ سوال حقوق قرارداد را که شامل دکترین حقوقی، رویه قضایی، فرضیهها و مسائل سیاستی بود، تهیه کردند. محققان این را راهی ایدهآل برای آزمایش قابلیتهای هوش مصنوعی مدرن دانستند.
محققان نوشتند: «مدلهای زبان بزرگ (LLMs) به طور فزایندهای به عنوان معلمین آموزشی تبلیغ میشوند، اما اکثر ارزیابیها بر حوزههایی با یک حقیقت واحد متمرکز هستند. با این حال، بسیاری از رشتهها به قضاوت وابسته هستند: استدلال، ارزیابی ابهامات، و رسیدن به نتایج قابل دفاع. حقوق آزمونی دقیق را فراهم میکند.»
در ۲۹۱۸ مقایسه کور، اساتید پاسخی را انتخاب کردند که ترجیح میدادند به یک دانشجو بدهند. Gemini 2.5 Pro گوگل در ۷۵.۹۲ درصد از رقابتهای خود در برابر اساتید انسانی برنده شد، در حالی که NotebookLM این غول فناوری ۷۴.۷۵ درصد از مواقع برنده شد و در تقریباً سه چهارم پاسخها، نتایج تولید شده توسط هوش مصنوعی را بر انسانها ترجیح داد.
به گفته محققان، برای تعیین اینکه آیا نتایج نشاندهنده اجماع حرفهای گستردهتری است، آنها میزان توافق اساتید را هنگام ارزیابی جفت پاسخهای یکسان تجزیه و تحلیل کردند.
آنها نوشتند: «توافق مشاهده شده از سطح مورد انتظار در صورتی که قضاوتها کاملاً منحصربهفرد بودند، فراتر رفت، که نشان میدهد موفقیت LLMها نشاندهنده همخوانی با معیارهای مشترک انضباطی است.»
این مطالعه نشان داد که مدلهای هوش مصنوعی در چندین دسته، از جمله سوالات بازیابی مربوط به پرونده، قانون یا دکترین، فرضیهها و بحثهای سیاستی، از اساتید انسانی بهتر عمل کردند.
این مطالعه بیان کرد: «برای بررسی اینکه آیا مزیت LLM ممکن است بیشتر ناشی از سبک نوشتاری سطحی باشد تا محتوای substantive، ما علاوه بر این، مجموعهای از ویژگیهای لغوی-نحوی — طول پاسخ، سازماندهی ساختاری، ظرافت استدلال، لنگرهای حقوقی، لحن اعتماد به نفس، وضوح، و حمایت آموزشی — را مهندسی کرده و آزمایش کردیم که چقدر میتوانند الگوی ترجیح را توضیح دهند.»
پاسخهای تولید شده توسط هوش مصنوعی نیز کمتر از پاسخهای نوشته شده توسط اساتید، مضر تشخیص داده شدند، به طوری که Gemini نرخ ضرر ۳.۴۱ درصد و NotebookLM نرخ ضرر ۳.۶۴ درصد را ثبت کردند، در مقایسه با ۱۲.۰۶ درصد برای اساتید انسانی. در تجزیه و تحلیل جداگانه مدلهای اضافی، Claude Opus 4.7 از Anthropic در رتبه اول قرار گرفت، پس از آن ChatGPT 5.4 از OpenAI و Gemini 2.5 Pro قرار داشتند، در حالی که هر مدل هوش مصنوعی ارزیابی شده به طور متوسط از اساتید انسانی بهتر عمل کرد.
محققان هشدار دادند که این مطالعه اندازهگیری نکرده است که آیا پاسخها با ترجیحات آموزشی فردی هر استاد مطابقت دارند یا خیر، و این امکان را باز گذاشت که پاسخهای تولید شده توسط هوش مصنوعی به عنوان به طور کلی قابل قبول تلقی شدهاند تا اینکه متناسب با رویکرد یک مربی خاص باشند.
این مطالعه بیان کرد: «در حالی که پاسخهای LLM به طور کلی بر پاسخهای اساتید انسانی ترجیح داده میشوند، تنظیمات ارزیابی ما به ما اجازه نمیدهد که به طور مستقیم میزان برآورده شدن ترجیحات مربی را اندازهگیری کنیم. حداقل از لحاظ نظری ممکن است که LLMها، اگرچه به طور کلی پاسخهای قویتری ارائه میدهند، اما همچنان پاسخهایی را تولید میکنند که صرفاً "به اندازه کافی خوب" تلقی میشوند.»
این مطالعه در حالی صورت میگیرد که دادگاهها، شرکتهای حقوقی و دانشکدههای حقوق به طور فزایندهای با نحوه استفاده از هوش مصنوعی در حرفه وکالت دست و پنجه نرم میکنند.
در ماه مارس، دادگاه عالی لس آنجلس شروع به آزمایش ابزارهای هوش مصنوعی برای کمک به قضات در مدیریت پروندههای فزاینده کرد، در حالی که دانشکدههای حقوق در حال افزودن برنامههای آموزشی هوش مصنوعی هستند.
جان پی. اندرسون، رئیس دانشکده حقوق کالج میسیسیپی، قبلاً به Decrypt گفت: «مزایای بالقوه این فناوریهای جدید به عنوان یک نیروی چندبرابرکننده در حرفه وکالت را نمیتوان نادیده گرفت. چه دانشجویان ما قصد داشته باشند وکیل دادگستری باشند یا وکیل تراکنشها، کارفرمایان آینده آنها انتظار آشنایی با این ابزارهای هوش مصنوعی را خواهند داشت. ما میخواهیم شرکتهایی که دانشجویان ما را استخدام میکنند، اطمینان داشته باشند که هر فارغالتحصیل MC Law در فناوریهای هوش مصنوعی ماهر است.»
با این حال، در همان زمان، شرکتهای حقوقی همچنان با پروندههایی روبرو هستند که به دلیل توهمات و سایر خطاهای تولید شده توسط هوش مصنوعی تضعیف شدهاند. در ماه آوریل، شرکت حقوقی سالیوان و کرامول به یک دادگاه ورشکستگی ایالات متحده اعتراف کرد که یک پرونده اخیر در یک پرونده برجسته حاوی استنادهای جعلی تولید شده توسط هوش مصنوعی بوده است.