اخبار هوش مصنوعی

هشدار طعنه‌آمیز: ارجاعات خیالی در مقالات کنفرانس معتبر هوش مصنوعی NeurIPS!

استارتاپ تشخیص محتوای تولیدشده با هوش مصنوعی GPTZero تمام ۴٬۸۴۱ مقاله پذیرفته‌شده در کنفرانس معتبر پردازش اطلاعات عصبی NeurIPS را که ماه گذشته در سن‌دیگو برگزار شد، بررسی کرده است. به گفته این شرکت در ۵۱ مقاله، مجموعاً ۱۰۰ ارجاع خیالی پیدا شده که همگی جعلی هستند.

پذیرفته شدن یک مقاله در NeurIPS در دنیای هوش مصنوعی دستاوردی است که به‌راحتی می‌توان آن را در رزومه برجسته کرد. با توجه به اینکه نویسندگان این مقالات از پیشگامان پژوهش در هوش مصنوعی به شمار می‌آیند، ممکن است انتظار برود که برای کار طاقت‌فرسا و ملال‌آورِ تنظیم منابع و ارجاعات، از مدل‌های زبانی بزرگ استفاده کنند.

با این حال، باید با احتیاط به این یافته نگاه کرد: ۱۰۰ ارجاع خیالیِ تأییدشده در ۵۱ مقاله از نظر آماری معنادار نیست. هر مقاله ده‌ها ارجاع دارد؛ بنابراین در میان ده‌ها هزار ارجاع، این تعداد از نظر آماری عملاً نزدیک به صفر است.

همچنین مهم است توجه کنیم که وجود یک ارجاع نادرست الزاماً اعتبار پژوهشِ مقاله را زیر سؤال نمی‌برد. همان‌طور که NeurIPS به مجله فورچون گفته—که نخستین رسانه‌ای بود که درباره پژوهش GPTZero گزارش داد—حتی اگر ۱٫۱ درصد از مقالات به‌دلیل استفاده از مدل‌های زبانی بزرگ یک یا چند ارجاع نادرست داشته باشند، محتوای خودِ مقالات لزوما بی‌اعتبار نمی‌شود.

با وجود همه این توضیحات، جعل ارجاع هم مسئله‌ای بی‌اهمیت نیست. NeurIPS به استانداردهای سخت‌گیرانه خود در نشر علمیِ یادگیری ماشین و هوش مصنوعی می‌بالد. علاوه بر این، هر مقاله توسط چند داور به‌صورت همتا بررسی می‌شود و به آن‌ها دستور داده شده است که موارد توهم‌زایی و خطاهای مشابه را گزارش کنند.

ارجاعات علمی برای پژوهشگران نوعی «واحد ارزش» هم به حساب می‌آید. از آن‌ها به‌عنوان شاخصی شغلی استفاده می‌شود تا نشان دهد کار یک پژوهشگر تا چه اندازه در میان همتایانش اثرگذار بوده است. وقتی هوش مصنوعی این ارجاعات را از خود می‌سازد، ارزش آن‌ها عملاً بی‌اعتبار و کم‌رنگ می‌شود.

با توجه به حجم سرسام‌آور مقالات، نمی‌توان داوران همتا را به‌خاطر ندیدن چند ارجاع جعلیِ ساختهٔ هوش مصنوعی سرزنش کرد؛ خود GPTZero هم سریعاً به همین نکته اشاره می‌کند. این شرکت در گزارشش می‌گوید هدف از این بررسی، ارائهٔ داده‌های مشخص دربارهٔ این بوده که چگونه محتوای بی‌کیفیتِ تولیدشده توسط هوش مصنوعی، در قالب سیل عظیم مقالات، وارد فرایندهای علمی می‌شود؛ سیلی که «زیرساخت‌های داوری این کنفرانس‌ها را تا مرز فروپاشی تحت فشار قرار داده است». GPTZero حتی به مقاله‌ای در ماه مه ۲۰۲۵ با عنوان «بحران داوری همتای کنفرانس‌های هوش مصنوعی» اشاره می‌کند که این مشکل را در کنفرانس‌های طراز اول، از جمله NeurIPS، بررسی کرده بود.

با این حال، سؤال اصلی باقی می‌ماند: چرا خودِ پژوهشگران نتوانستند کار مدل زبانی را از نظر دقت بررسی و صحت‌سنجی کنند؟ بدیهی است که آن‌ها باید فهرست واقعی مقالاتی را که در پژوهششان استفاده کرده‌اند، به‌خوبی بشناسند.

در نهایت، کل این ماجرا به یک نتیجه‌گیری بزرگ و در عین حال طعنه‌آمیز می‌رسد: اگر برجسته‌ترین متخصصان هوش مصنوعی جهان، آن هم در شرایطی که اعتبار حرفه‌ای‌شان در میان است، نتوانند دقت استفاده خود از مدل‌های زبانی را در جزئیات تضمین کنند، این چه معنایی برای بقیه ما دارد؟

نمایش بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *