
استارتاپ تشخیص محتوای تولیدشده با هوش مصنوعی GPTZero تمام ۴٬۸۴۱ مقاله پذیرفتهشده در کنفرانس معتبر پردازش اطلاعات عصبی NeurIPS را که ماه گذشته در سندیگو برگزار شد، بررسی کرده است. به گفته این شرکت در ۵۱ مقاله، مجموعاً ۱۰۰ ارجاع خیالی پیدا شده که همگی جعلی هستند.
پذیرفته شدن یک مقاله در NeurIPS در دنیای هوش مصنوعی دستاوردی است که بهراحتی میتوان آن را در رزومه برجسته کرد. با توجه به اینکه نویسندگان این مقالات از پیشگامان پژوهش در هوش مصنوعی به شمار میآیند، ممکن است انتظار برود که برای کار طاقتفرسا و ملالآورِ تنظیم منابع و ارجاعات، از مدلهای زبانی بزرگ استفاده کنند.
با این حال، باید با احتیاط به این یافته نگاه کرد: ۱۰۰ ارجاع خیالیِ تأییدشده در ۵۱ مقاله از نظر آماری معنادار نیست. هر مقاله دهها ارجاع دارد؛ بنابراین در میان دهها هزار ارجاع، این تعداد از نظر آماری عملاً نزدیک به صفر است.
همچنین مهم است توجه کنیم که وجود یک ارجاع نادرست الزاماً اعتبار پژوهشِ مقاله را زیر سؤال نمیبرد. همانطور که NeurIPS به مجله فورچون گفته—که نخستین رسانهای بود که درباره پژوهش GPTZero گزارش داد—حتی اگر ۱٫۱ درصد از مقالات بهدلیل استفاده از مدلهای زبانی بزرگ یک یا چند ارجاع نادرست داشته باشند، محتوای خودِ مقالات لزوما بیاعتبار نمیشود.
با وجود همه این توضیحات، جعل ارجاع هم مسئلهای بیاهمیت نیست. NeurIPS به استانداردهای سختگیرانه خود در نشر علمیِ یادگیری ماشین و هوش مصنوعی میبالد. علاوه بر این، هر مقاله توسط چند داور بهصورت همتا بررسی میشود و به آنها دستور داده شده است که موارد توهمزایی و خطاهای مشابه را گزارش کنند.
ارجاعات علمی برای پژوهشگران نوعی «واحد ارزش» هم به حساب میآید. از آنها بهعنوان شاخصی شغلی استفاده میشود تا نشان دهد کار یک پژوهشگر تا چه اندازه در میان همتایانش اثرگذار بوده است. وقتی هوش مصنوعی این ارجاعات را از خود میسازد، ارزش آنها عملاً بیاعتبار و کمرنگ میشود.
با توجه به حجم سرسامآور مقالات، نمیتوان داوران همتا را بهخاطر ندیدن چند ارجاع جعلیِ ساختهٔ هوش مصنوعی سرزنش کرد؛ خود GPTZero هم سریعاً به همین نکته اشاره میکند. این شرکت در گزارشش میگوید هدف از این بررسی، ارائهٔ دادههای مشخص دربارهٔ این بوده که چگونه محتوای بیکیفیتِ تولیدشده توسط هوش مصنوعی، در قالب سیل عظیم مقالات، وارد فرایندهای علمی میشود؛ سیلی که «زیرساختهای داوری این کنفرانسها را تا مرز فروپاشی تحت فشار قرار داده است». GPTZero حتی به مقالهای در ماه مه ۲۰۲۵ با عنوان «بحران داوری همتای کنفرانسهای هوش مصنوعی» اشاره میکند که این مشکل را در کنفرانسهای طراز اول، از جمله NeurIPS، بررسی کرده بود.
با این حال، سؤال اصلی باقی میماند: چرا خودِ پژوهشگران نتوانستند کار مدل زبانی را از نظر دقت بررسی و صحتسنجی کنند؟ بدیهی است که آنها باید فهرست واقعی مقالاتی را که در پژوهششان استفاده کردهاند، بهخوبی بشناسند.
در نهایت، کل این ماجرا به یک نتیجهگیری بزرگ و در عین حال طعنهآمیز میرسد: اگر برجستهترین متخصصان هوش مصنوعی جهان، آن هم در شرایطی که اعتبار حرفهایشان در میان است، نتوانند دقت استفاده خود از مدلهای زبانی را در جزئیات تضمین کنند، این چه معنایی برای بقیه ما دارد؟



