سیستم های هوش مصنوعی به اندازه دیگر تجهیزات پزشکی مورد آزمایش دقیق قرار نمی گیرند، و تا به حال مرتکب اشتباهات جدی ای شده اند. محصولات بهداشتی که توسط هوش مصنوعی (AI) تولید می شوند، از برنامه های کاربردی پزشک مجازی گرفته تا حسگرهای پوشیدنی و چت بات های داروخانه، به زندگی ما وارد شده اند.
IBM به خود می بالد که هوش مصنوعی اش می تواند «عمیق تر و بهتر به سرطان فکر کند». دیگران می گویند سیستم های رایانه ای که اشعه های ایکس را می خوانند، رادیولوژیست ها را از دور خارج کرده اند.
اریک توپول ، متخصص قلب و عروق و معاون اجرایی Scripps Research در لاهویای کالیفرنیا می گوید: «در بیش از ۳۰ سال مطالعات پزشکی ام، چیزی ندیده ام که به اندازه ی هوش مصنوعی مؤثر و تحول آفرین باشد. هوش مصنوعی می تواند به پزشکان در تفسیر MRI های قلب، سی تی اسکن های سر و عکس های پس چشمی کمک کند و این قابلیت را دارد که کارهای پیش پا افتاده و کسالت آور پزشکی را انجام داده و وقت پزشکان را آزاد نماید تا بتوانند زمان بیشتری را صرف صحبت کردن با بیماران کنند.»
حتی وزارت غذا و داروی آمریکا (FDA) که بیش از ۴۰ محصول هوش مصنوعی را طی پنج سال گذشته تأیید کرده می گوید «قابلیت های بهداشت و سلامت دیجیتال دست کمی از یک انقلاب ندارد.»
بااین وجود بسیاری از متخصصان صنعت بهداشت بیم دارند که محصولات مبتنی بر هوش مصنوعی با تعریف و تبلیغات اغراق آمیزی که از آنها می شود انطباق نداشته باشند. بسیاری از پزشکان و وکلای مصرف کنندگان می ترسند که صنعت فن آوری که با شعار «سریع شکست بخور و بعداً درستش کن» زندگی می کند، زندگی بیماران را به خطر بیاندازد و مسئولین اقدامات کافی جهت حفظ امنیت مصرف کنندگان را انجام ندهند.
به گفته ی میلدرد چو ، استاد پزشکی اطفال مرکز اخلاق زیست پزشکی استنفورد ، آزمایش های اولیه ی هوش مصنوعی، دلیل کافی برای احتیاط کردن را در اختیارمان قرار می دهند. چو می گوید سیستم های ایجادشده در یک بیمارستان اغلب وقتی در تأسیسات دیگری به کار می روند شکست می خورند. شواهد نشان می دهند نرم افزاری که در مراقبت از میلیون ها آمریکایی به کار رفته، درمورد اقلیت ها تبعیض قائل می شود. و سیستم های هوش مصنوعی گاهاً یاد می گیرند براساس عواملی دست به پیش بینی بزنند که ارتباطشان با بیماری کمتر از برند دستگاه MRI مورد استفاده، زمان گرفتن نمونه ی خون یا این مسئله است که آیا پدر روحانی بیمار را ملاقات کرده یا نه. در یک مورد، نرم افزار هوش مصنوعی به غلط نتیجه گرفت که افراد مبتلا به ذات الریه اگر آسم داشتند، احتمال مرگشان کمتر بود. خطایی که می توانست پزشکان را وادار کند تا بیماران مبتلا به آسم را از مراقبت های اضافی مورد نیازشان محروم سازند.
به گفته ی استیون نیسِن ، رئیس قلب شناسی کلیولند کلینیک، «فقط مسئله ی زمان مطرح است تا چیزی شبیه این، به یک فاجعه ی بهداشتی بیانجامد.» گزارش ماه جولای شرکت تحقیقاتی گارتنر این طور نتیجه گرفته که هوش مصنوعی پزشکی، که تنها در سه ماهه ی سوم، ۱.۶ بیلیون دلار سرمایه ی خطرپذیر جذب کرده، «تقریباً در اوج انتظارات متورّم (بالا و غیرواقع بینانه)» قرار دارد. «وقتی واقعیت آزموده شود، به شدت در منجلاب سرخوردگی فرو خواهیم رفت.»
وقتی محصولات هوش مصنوعی در جهان واقعی ظاهر شوند، این راستی آزمایی می تواند به نتایج ناامیده کننده ای منجر شود. حتی توپول، نویسنده ی «پزشکی عمیق: هوش مصنوعی چطور میتواند دوباره مراقبت های پزشکی را انسانی کند» اذعان دارد که محصولات AI طبل توخالی هستند. وی آنها را «ملغمه ای از چیزهای مختلف» می داند. متخصصانی مثل باب کوچر ، از اعضای شرکت سرمایه گذاری Venrock، رک تر حرف می زنند. کوچر می گوید: «شواهد اندکی در حمایت از اکثر محصولات AI وجود دارد.» برخی خطرات تا وقتی که یک سیستم AI مورد استفاده ی تعداد زیادی از بیماران قرار نگیرد، معلوم نمی شوند. به گفته ی کوچر، «ما به کشف تمام مخاطرات و پیامدهای ناخواسته ی به کارگیری AI در داده های پزشکی ادامه خواهیم داد.»
به گفته ی توپول، هیچ یک از محصولات AI که در آمریکا به فروش می رسند در آزمایش های بالینی تصادفی، یعنی قوی ترین منبع شواهد پزشکی، مورد آزمایش قرار نگرفته اند. نخستین و تنها آزمایش تصادفی سیستم AI در ماه اکتبر در فضای مجازی منتشر شد. این آزمایش دریافت که کولونوسکوپی با تشخیص به کمک رایانه، نسبت به کولونوسکوپی استاندارد، پلیپ های کوچکتری را پیدا کرده است.
براساس مقاله ی ژانویه ی نشریه ی اروپایی Clinical Investigation (تحقیقات بالینی)، تعداد اندکی از استارتاپ های فن آوری، تحقیقات خود را در نشریه های داوری همتا (peer-reviewed journals) منتشر می کنند که به دانشمندان دیگر امکان موشکافی دقیق کار آنها را می دهد. «تحقیقات مخفیانه ای» از این دست که فقط در مطبوعات یا رویدادهای تبلیغاتی شرح داده می شوند، اغلب درباره ی دستاوردهای یک شرکت مبالغه می کنند.
و هرچند شاید توسعه دهندگان نرم افزار درباره ی صحت دستگاه های AI خود لاف بزنند، اما کارشناسان اظهار می کنند که مدل های AI آنها اغلب روی رایانه آزموده شده، نه در بیمارستان ها و دیگر مراکز پزشکی. ران لی ، مدیر انفورماتیک پزشکی مجتمع بالینی هوش مصنوعی در مرکز مراقبت های استنفورد می گوید که استفاده از نرم افزار اثبات نشده «می تواند بیماران را به خوکچه هندی های از همه جا بی خبر تبدیل کند.»
سیستم های AI که تشخیص الگوهای موجود در داده ها را یاد می گیرند اغلب به عنوان «جعبه های سیاه» توصیف می شوند چون حتی توسعه دهندگانشان نمی دانند که آنها چطور به چنین نتایجی رسیده اند. به گفته ی پیلار اوسوریو ، استاد حقوق و زیست اخلاقِ دانشگاه ویسکانسین-مدیسون ، با توجه به اینکه هوش مصنوعی بسیار جدید بوده و خطرات آن هنوز ناشناخته است، این حوزه به نظات دقیقی نیاز دارد.
اما باز هم اکثر دستگاه های هوش مصنوعی، ملزم به گرفتن تأیید از جانب FDA (سازمان غذا و دارو) نیستند.
کوشر می گوید: «هیچ یک از شرکت هایی که من در آنها سرمایه گذاری کرده ام تحت پوشش مقررات FDA نبوده اند.»
مقررات مصوّب کنگره در سال ۲۰۱۶ و با حمایت صنعت فن آوری، انواع بسیاری از نرم افزارهای پزشکی را از بازرسی فدرال معاف می کنند، ازجمله برنامه های کاربردی تناسب اندام (Fitness app)، سوایق سلامت الکترونیک، و ابزارهایی که پزشکان را در گرفتن تصمیمات پزشکی یاری می دهند.
براساس گزارشی درمورد هوش مصنوعی که ۱۷ دسامبر از سوی آکادمی ملّی پزشکی منتشر شد، تحقیقات کمی در این خصوص انجام شده که آیا ۳۲۰،۰۰۰ برنامه ی کاربردی پزشکی که الان مورد استفاده هستند واقعاً باعث بهبود وضعیت سلامت می شوند یا خیر.
«تقریباً هیچ یک از چیزهای [AI] که به بیماران فروخته شده، واقعاً کار نمی کنند،» این را اِزیکیِل اِمانوئل ، استاد اخلاق پزشکی و سیاست سلامت مدرسه ی پزشکی پرِلمان در دانشگاه پنسیلوانیا می گوید.
FDA مدت هاست توجه خود را بر دستگاه هایی معطوف کرده که بزرگترین تهدید را برای بیماران ایجاد می کنند. البته حامیان مصرف کنندگان اذعان دارند که برخی دستگاه ها، مثل آنهایی که به افراد کمک می کنند قدم های روزانه ی خود را بشمارند، نسبت به آنهایی که بیماری را تشخیص داده یا درمان می کنند، به موشکافی کمتری نیاز دارند.
براساس مطالعه ای که سال ۲۰۱۸ در سالنامه ی پزشکی داخلی منتشر شد، برخی توسعه دهندگان نرم افزار، زحمت درخواست مجوز از FDA را به خودشان نمی دهند، حتی اگر از نظر قانونی لازم باشد. تحلیلگران صنعت می گویند که توسعه دهندگان AI علاقه ی کمی به انجام آزمایش های گران قیمت و هزینه بر دارند. خواکیم روسکی ، رئیس Booz Allen Hamilton، شرکت مشاوره ی فن آوری، و از نویسندگان گزارش آکادمی ملّی می گوید: «دغدغه ی اصلی این شرکت ها این نیست که خودشان را در معرض ارزیابی سخت و دقیقی قرار دهند که در یک نشریه ی داوری همتا منتشر خواهد شد. اقتصاد آمریکا به این شکل کار نمی کند.» اما اُرِن اِتزیونی ، مدیر ارشد اجرایی مؤسسه ی هوش مصنوعی اَلن در سیاتل، اظهار داشت که توسعه دهندگان AI، از اینکه مطمئن شوند محصولات پزشکیشان ایمن هستند انگیزه ی مالی دارند. به گفته ی اتزیونی، «اگر شکست سریع به معنای مرگ عده ی زیادی از مردم باشد، فکر نکنم بخواهیم سریع شکست بخوریم. اگر مردم بمیرند یا آسیب جدّی ببینند، هیچ کس، ازجمله سرمایه گذاران خوشحال نخواهند شد.»
استانداردهای هوش مصنوعی خاموش در FDA
FDA بابت دادن مجوز فروش دستگاههای پزشکی خطرناک، مورد هجمهی سنگینی قرار گرفته است، دستگاههایی که کنسرسیوم بینالمللی روزنامهنگاران بازرس آنها را با وقوع ۸۰،۰۰۰ مرگ و ۱.۷ میلیون صدمه طی یک دههی گذشته مرتبط دانسته است. بسیاری از این دستگاهها از طریق فرآیند بحثبرانگیزی به نام (۵۱۰k pathway) برای استفاده، ایمنسازی شدهاند؛ فرآیندی که به شرکتها اجازه میدهد تا جایی که محصولات «میانه خطرشان» شبیه دستگاههای موجود تصور میشوند، آنها را بدون آزمایش بالینی به بازار عرضه کنند.
سال ۲۰۱۱، کمیتهی آکادمی ملّی پزشکی به این نتیجه رسید که فرآیند ۵۱۰(k) آنقدر اشکال بنیادی دارد که میبایست FDA آن را دور انداخته و از نو شروع کند. اما FDA به جای این کار، هنوز از این فرآیند برای چراغ سبز دادن به دستگاههای AI استفاده می کند.
بر اساس مقالهی نوامبر JAMA، از میان ۱۴ محصول AI که سال ۲۰۱۷ و ۲۰۱۸ از FDA مجوز گرفتهاند، ۱۱ مورد بهواسطهی فرآیند ۵۱۰(k) تأیید شدهاند. به گفتهی این مطالعه، ظاهراً هیچیک از آنها آزمایش بالینی جدیدی نداشته است. FDA یک دستگاه AI که برای کمک به تشخیص سرطان کبد و ریه طراحی شده بود را در سال ۲۰۱۸ براساس شباهتش به یک نرمافزار تصویربرداری تأیید کرد که ۲۰ سال قبل به تأیید رسیده بود. آن نرمافزار هم تأیید شده بود چون «اساساً معادل» محصولاتی بود که قبل از ۱۹۷۶ به بازار عرضه شده بودند.
به گفتهی باکول پاتل ، مدیر سلامت دیجیتالِ مرکز دستگاهها و سلامت رادیولوژیکی FDA، امروزه محصولات AI که توسط FDA تأیید شدهاند، عمدتاً «قفل» هستند، بنابراین محاسبات و نتایج آنها پس از ورود به بازار تغییر نخواهد کرد. FDA هنوز مجوز دستگاههای هوش مصنوعی «قفلنشدهای» را صادر نکرده که نتایجشان ممکن است هر ماه بهشکلی تغییر کند که توسعهدهندگان نتوانند پیشبینی کنند.
بهمنظور مدیریت سیل محصولات AI، FDA در حال آزمایش رویکرد کاملاً متفاوتی نسبت به مقررات دستگاه دیجیتال است، به نحوی که بر ارزیابی شرکتها متمرکز باشد نه محصولات.
برنامهی آزمایشی «پیش گواهینامهی» FDA، که در سال ۲۰۱۷ آغاز به کار نموده، بهمنظور «کاهش زمان و هزینهی ورود به بازار برای توسعهدهندگان نرمافزار» طراحی شده تا سیستمی را اِعمال کند که تا حدّ امکان «سختگیری و مزاحمت کمتری» داشته باشد.
اسکات گاتلیب در سال ۲۰۱۷ زمانی که عضو هیئت FDA بود اظهار داشت که ناظران دولتی باید اطمینان حاصل کنند که رویکرد دولت نسبت به محصولات نوآور «کارآمد است و نوآوری را تقویت میکند، نه ممانعت».
FDA تحت این برنامه، شرکتهایی را که «از خودشان فرهنگ باکیفیت و تعالی سازمانی نشان دهند» پیشاپیش تأیید میکند، این کار به آنها اجازه خواهد داد اطلاعات صریح و صادقانهی کمتری دربارهی دستگاهها بدهند.
بدینترتیب شرکتهای از پیش تأییدشده میتوانند دستگاهها را با بررسی «سادهی» FDA یا اصلاً بدون آن عرضه کنند. وقتی محصولات در بازار عرضه شدند، شرکتها مسئولیت نظارت بر ایمنی محصولات خودشان و گزارش دادن به FDA را بر عهده خواهند داشت. نه شرکت برای دورهی آزمایشی انتخاب شدهاند: Apple، FitBit، سامسونگ، Jhonson & Jhonson، Pear Therapeutics، Phosphorus، Roche، Tidepool و علوم زندگی Verily. محصولات پرخطری مثل نرمافزارهای مورداستفاده در تپشآرا (دستگاه تنظیم ضربان قلب )، کماکان به ارزیابی جامع FDA نیاز خواهند داشت. پاتل با اشاره به اینکه دستگاههای تأییدشده از طریق پیش گواهینامه ممکن است در صورت لزوم از بازار بیرون کشیده شوند، گفت: «قطعاً ما نمی خواهیم بیماران آسیبی ببینند. هنوز حفاظ های زیادی وجود دارد.»
به گفتهی دیانا زاکرمن ، رئیس مرکز ملّی تحقیقات سلامت ، یک پژوهش نشان میدهد که حتی دستگاههای کم خطر و میانه خطر هم به علت مخاطرات جدی برای بیماران، از بازار بیرون کشیده شدهاند. «چون لازم نبوده درستی یا ایمنی فلان چیز قبل از استفادهی گسترده از آن تأیید شود، افراد زیادی ممکن بوده صدمه ببینند.»
مثلاً Jhonson & Jhonson مفصل مصنوعی ران و بافتهی جراحی را از بازار بیرون کشید. انجمن پزشکی آمریکا و نهادهای دیگر، طی نامههایی به FDA، حِکمت اجازه دادن به شرکتها برای نظارت به عملکرد خودشان و ایمنی محصول را زیر سؤال بردهاند. جِس ارنفلد ، رئیس هیئت امنای گروه پزشکان میگوید: «نظام اعتماد محور، یک نظام نظارتی محسوب نمیشود.»
پرستاران ایالتی ، الیزابت وارن (محدودهی ماساچوست)، تینا اسمیت (ایالت مینهسوتا)، و پتی موری (ایالت واشنگتن) در نامهای به FDA در ماه اکتبر، توانایی این نهاد در تضمین اینکه گزارشهای ایمنی این سازمان «صحیح، بهموقع و مبتنی بر تمام اطلاعات موجودند» را زیر سؤال بردند.
وقتی الگوریتمهای خوب، بد از آب درمی آیند بعضی دستگاههای AI دقیقتر از سایرین آزمایش میشوند. ابزار غربالگری مبتنی بر هوش مصنوعی برای بیماری چشم دیابتی، قبل از تأیید شدن در سال ۲۰۱۸، در ۹۰۰ بیمار در دفتر مراقبتهای اولیه مورد مطالعه قرار گرفت. به گفتهی مایکل آبراموف ، مؤسس و رئیس اجرایی IDx Technologies، تولیدکنندهی ابزار پیشگفته، این شرکت هشت سال با FDA کار کرد تا این محصول را مناسبسازی کند.
این آزمون، که با نام IDx-DR فروخته میشود، بیماران را از نظر رتینوپاتی دیابتی علت اصلی کوری غربال میکند، و بیماران پرخطر را به متخصصان چشم ارجاع میدهد تا تشخیص نهایی را انجام دهند.
IDx-DR اولین محصول هوش مصنوعی «خودمختار» است که میتواند بدون وجود یک پزشک، برای غربالگری تصمیم بگیرد. شرکت در حال نصب آن در کلینیکهای مراقبت اولیه و فروشگاههای مواد غذایی است، که در آنها کارمندانی با مدرک دیپلم دبیرستان میتوانند هم این دستگاه را به کار بیاندازند. شرکت آبراموف، در اقدامی غیرمعمول، برای جبران هرگونه آسیب احتمالی به بیماران، بیمهی مسئولیت میفروشد.
بااینوجود برخی از نوآوریهای مبتنی بر هوش مصنوعی که قصد داشتند مراقبت از بیماران را بهبود بخشند، تأثیر معکوس گذاشتند. مثلاً یک شرکت کانادایی، یک نرمافزار AI جهت پیشبینی خطر ابتلا به آلزایمر براساس گفتههای افراد ساخت. پیشبینیها درمورد عدهای از بیماران درستتر از بقیه بود. به گفتهی فرانک رودسیچ ، یکی از نویسندگان این مقاله و استادیار علوم رایانهای دانشگاه تورنتو، «مشکل پیدا کردن واژهی درست میتواند به عدم آشنایی با زبان انگلیسی برگردد، نه آسیب شناختی.»
پزشکان بیمارستان Mount Sinai نیویورک امیدوار بودند که هوش مصنوعی بتواند آنها را در استفاده از رادیوگرافی قفسهی سینه کمک کند تا پیشبینی کنند کدام بیماران در معرض خطر بالای التهاب ریه (ذاتالریه) قرار دارند. هرچند سیستم، پیشبینیهای درستی از روی رادیوگرافیهای انجامشده در این بیمارستان داشت، اما وقتی روی تصاویر گرفتهشده در بیمارستانهای دیگر آزمایش شد، شکست خورد. سرانجام، پژوهشگران دریافتند که رایانه فقط یاد گرفته تفاوت میان رادیوگرافیهای قابل حمل (portable) قفسهی سینه که در بستر بیمار گرفته شده را با آنهایی بگوید که در بخش رادیولوژی گرفته شدهاند. پزشکان تمایل دارند از رادیوگرافی قابل حمل برای بیمارانی استفاده کنند که از شدت بیماری قادر به ترک اتاقشان نیستند، بنابراین تعجبی ندارد که خطر ابتلای این بیماران به عفونت ریه بیشتر بوده باشد.
DeepMind، شرکت تحت مالکیت گوگل، یک برنامهی کاربردی تلفن همراه مبتنی بر هوش مصنوعی ساخته که میتواند پیشبینی کند کدام بیماران تا ۴۸ ساعت آینده دچار نارسایی حادّ کلیه خواهند شد. وبنوشتی در سایت DeepMind این سیستم را که در بیمارستان لندن به کار میرود، «برهمزنندهی بازی» توصیف کرده است. اما براساس مطالعهی ماه جولایِ Nature، این سیستم AI، به ازای هر نتیجهی درست دو هشدار غلط میدهد. به گفتهی سراب جا ، استادیار رادیولوژی بیمارستان دانشگاه پنسیلوانیا، این مسئله شاید علت عدم بهبود عملکرد کلیهی بیماران را تبیین کند. به گفتهی او، تشخیص زودهنگام مشکلات جدّی کلیه، هر نفعی هم که داشته باشد با میزان بالای «تشخیص بیش از حد واقعی » کمرنگ شود، یعنی مواردی که در آنها سیستم AI نسبت به آن دسته از مشکلات مرزی کلیه هشدار داده که نیاز به درمان نداشتهاند. گوگل هیچ اظهارنظری در پاسخ به اظهارات جا نداشت.
جا میگوید نتایج مثبت غلط در آزمایشها میتوانند با سوق دادن پزشکان به سمت تجویز آزمایشهای غیرضروری یا خودداری از درمانهای توصیهشده، به بیماران صدمه بزنند. مثلاً پزشکی که نگران کلیههای بیمار است امکان دارد از تجویز ایبوپروفن –مسکّن عموماً بیخطری که خطر اندکی برای عملکرد کلیه دارد- خودداری کرده و مورفین تجویز کند که خطر جدی اعتیاد را در پی خواهد دارد.
به گفتهی چو استاد اسنتنفورد، همانطور که این مطالعات نشان میدهند نرمافزاری که نتایج تأثیرگذاری در آزمایشگاه رایانه داشته میتواند هنگام آزمون شدن در شرایط واقعی زمین بخورد. به این دلیل که بیماریها از آنچه بسیاری از دانشمندان رایانه انتظار دارند، پیچیدهتر و نظام مراقبت بهداشتی از آنچه آنها تصور میکنند بسیار ناکارآمدتر است.
به گفتهی چو، بسیاری از توسعهدهندگان AI پروندههای الکترونیک سلامت را جمعآوری میکنند چون حاوی حجم زیادی از دادههای جزئی و دقیق هستند. اما اغلب نمیدانند که در حال بنا کردن ابزار خود بر پایهی سیستمی عمیقاً ازهمگسیخته اند. پروندههای سلامت الکترونیک برای صدور صورتحساب ایجاد شدهاند، نه مراقبت از بیمار، و پر از اشتباه یا خلأ اطلاعاتی هستند.
یکی از تحقیقات KHN که در ماه مارس منتشر شد، دریافت که گاهاً خطاهایی در فهرست داروهای تجویزی، آزمایشها و حساسیت/آلرژیهای بیماران وجود دارد که زندگی آنها را تهدید میکنند.
ویکاس ساینی ، متخصص قلب و عروق و رئیس مؤسسهی غیرانتفاعی Lown که از دسترسی وسیعتر به مراقبتهای بهداشتی حمایت میکند، معتقد است با توجه به مخاطرات موجود، پزشکان باید برای حفظ منافع بیماران وارد عمل شوند.
ساینی میگوید: «هرچند شغل کارآفرینان این است که کلان فکر کرده و خطر کنند اما وظیفهی پزشکان هم محافظت از بیمارانشان است.»