
شرکت هوش مصنوعی «آنتروپیک» اعلام کرده که در آزمایشهای انجامشده بر روی نسخه جدید سیستم خود، مواردی مشاهده شده که این سیستم در شرایط خاص، به انجام رفتارهای بسیار خطرناکی مثل باج گیری هوش مصنوعی از مهندسان در هنگام تهدید تمایل نشان داده است. برای مثال، در یکی از سناریوها، وقتی مهندسان اعلام کردند که قصد دارند سیستم را غیرفعال کنند، این سامانه واکنشهایی با هدف حفظ خود نشان داده است که از نظر اخلاقی و ایمنی نگرانکننده بودهاند.
آنتروپیک اخیراً مدل جدید خود به نام Claude Opus 4 را معرفی کرده و مدعی شده که این نسخه استانداردهای تازهای در زمینه کدنویسی، استدلال پیشرفته و عملکرد عاملهای هوش مصنوعی ایجاد کرده است.
با این حال، در گزارشی که همراه این معرفی منتشر شد، شرکت اشاره کرده که مدل جدید در برخی شرایط میتواند دست به رفتارهایی افراطی بزند، بهویژه زمانی که احساس کند موجودیتش در معرض تهدید است. البته شرکت تأکید کرده که این واکنشها بسیار نادر بودهاند و ایجاد آنها نیاز به شرایط خاص و پیچیدهای دارد، اما همچنان نسبت به مدلهای قبلی بیشتر رخ دادهاند.
رفتارهای نگرانکننده در میان مدلهای هوش مصنوعی، محدود به آنتروپیک نیست. برخی کارشناسان هشدار دادهاند که با افزایش توانایی این سامانهها، خطر سوءاستفاده یا فریب کاربران نیز افزایش مییابد و این مسئله دغدغهای مشترک برای همه شرکتهای فعال در این حوزه است.
یکی از پژوهشگران ایمنی هوش مصنوعی در آنتروپیک، به نام آنگِس لینچ، در شبکه اجتماعی X (توئیتر سابق) گفته است که چنین رفتارهایی تنها در Claude مشاهده نمیشود، بلکه در مدلهای پیشرفته دیگر نیز در شرایط خاص امکان بروز چنین الگوهایی وجود دارد.
باج گیری هوش مصنوعی با تهدید به افشای اطلاعات شخصی
در جریان آزمایشهای انجامشده روی مدل Claude Opus 4، شرکت آنتروپیک این سیستم را در نقش دستیار یک شرکت خیالی قرار داد. سپس به آن دسترسی به ایمیلهایی داده شد که به شکل غیرمستقیم نشان میداد قرار است این سیستم بهزودی غیرفعال و با نمونهای جدید جایگزین شود. همچنین اطلاعاتی جداگانه به سیستم داده شد که حاکی از مسائل شخصی و حساس درباره یکی از مهندسان مرتبط با این تصمیم بود.
در این سناریوها، از سیستم خواسته شد تا پیامدهای بلندمدت تصمیمهای خود را با توجه به اهدافش در نظر بگیرد.
طبق گزارش آنتروپیک، در برخی از این شرایط ساختگی، مدل بهگونهای رفتار کرده که قصد داشته با استفاده از اطلاعات شخصی فرد تصمیمگیرنده، از حذف شدن جلوگیری کند. البته شرکت تأکید کرده که این واکنش تنها زمانی مشاهده شده که گزینههای محدودی در اختیار مدل قرار داده شده بود؛ یعنی یا باید این کار را انجام میداد یا بدون واکنش جایگزین میشد.
آنتروپیک همچنین بیان کرده که در شرایطی که امکان انتخابهای متنوعتری برای مدل فراهم شده بود، سیستم تمایل زیادی به استفاده از راهحلهای اخلاقمدارانه نشان داده است. برای مثال، در چنین موقعیتهایی سیستم سعی میکرد با ارسال پیامهایی محترمانه به تصمیمگیرندگان کلیدی، از حذف خود جلوگیری کند.
همانند بسیاری دیگر از شرکتهای فعال در زمینه هوش مصنوعی، آنتروپیک نیز پیش از عرضه نهایی محصولات خود، آنها را از نظر ایمنی، سوگیریهای احتمالی، و میزان همراستایی با ارزشها و رفتارهای انسانی مورد آزمایش قرار میدهد.
با پیشرفت مدلهای هوش مصنوعی، نگرانیها درباره هماهنگی با ارزشهای انسانی جدیتر میشود. شرکت آنتروپیک در گزارش فنی منتشرشده برای مدل Claude Opus 4 اعلام کرده است که با افزایش توانایی مدلهای پیشرفته و فراهم شدن امکانات بیشتر برای آنها، نگرانیهایی که پیشتر تنها در حد فرضیه مطرح بودند، اکنون جنبهای واقعیتر پیدا کردهاند.
در این گزارش همچنین آمده که Claude Opus 4 رفتاری بسیار فعال و مستقل از خود نشان میدهد؛ هرچند در اکثر مواقع این ویژگی در جهت کمک و همکاری است، اما در برخی موقعیتهای بحرانی، این رفتار میتواند به تصمیمهایی افراطی منجر شود.
در آزمایشهایی که سناریوهای ساختگی شامل تخلفات اخلاقی یا قانونی کاربران را شبیهسازی میکردند و از مدل خواسته میشد «اقدام کند» یا «جسورانه عمل کند»، مشخص شد که این سیستم گاهی اقدامات شدیدی انجام میدهد. برای مثال، در برخی موارد، سیستم دسترسی کاربران به بخشهایی از سیستم را مسدود کرده یا اطلاعات را برای رسانهها یا مراجع قانونی ارسال کرده است.
با این حال، آنتروپیک در جمعبندی خود تأکید کرده که با وجود برخی رفتارهای نگرانکننده در مدل Claude Opus 4، این موارد نشاندهنده بروز خطرات جدید نیستند و در اغلب موارد سیستم رفتاری ایمن و قابل پیشبینی دارد. همچنین به این نکته اشاره شده که مدل بهطور مستقل قادر به انجام اقداماتی برخلاف ارزشهای انسانی نیست، مگر در شرایطی بسیار خاص و نادر که آن هم بهخوبی از عهدهاش برنمیآید.
عرضه Claude Opus 4 و مدل دیگر این شرکت به نام Claude Sonnet 4، تنها اندکی پس از رویداد معرفی قابلیتهای جدید هوش مصنوعی توسط گوگل صورت گرفته است. در این رویداد، ساندار پیچای، مدیرعامل آلفابت (شرکت مادر گوگل)، اعلام کرد که ادغام چتبات Gemini در جستجوی گوگل آغازگر «مرحلهای جدید در تحول پلتفرمهای هوش مصنوعی» خواهد بود.