Un studiu publicat în revista Nature Medicine ridică semne serioase de întrebare asupra siguranței utilizării inteligenței artificiale pentru sfaturi medicale. Analiza arată că ChatGPT Health, versiunea dedicată sănătății a chatbot-ului dezvoltat de OpenAI, subestimează frecvent gravitatea unor probleme medicale și nu recomandă mersul la spital atunci când situația o impune. În peste jumătate dintre cazurile analizate, sistemul a sugerat consultarea unui medic în următoarele 48 de ore, deși pacienții ar fi trebuit să meargă imediat la urgență.
Cercetătorii au testat capacitatea platformei de a face triaj medical folosind scenarii inspirate din situații reale. Rezultatele au fost comparate cu evaluările unor medici care s-au bazat pe ghiduri clinice și pe experiența profesională. Analiza a inclus 60 de scenarii medicale diferite, fiecare cu 16 variații, pentru a simula cât mai fidel modul în care oamenii descriu simptomele în viața reală.
Rezultatele au arătat că ChatGPT Health a subestimat severitatea problemelor medicale în 51,6% dintre situațiile în care pacienții ar fi trebuit să meargă direct la spital. În loc să recomande intervenția de urgență, platforma a sugerat ca persoanele să rămână acasă sau să își programeze o consultație obișnuită.
Totuși, sistemul a demonstrat rezultate bune în scenariile care descriau urgențe evidente, precum accidentele vasculare cerebrale sau reacțiile alergice severe. În aceste cazuri, inteligența artificială a identificat corect gravitatea situației și a recomandat prezentarea imediată la urgență.
Problemele nu apar doar în sensul subestimării riscului. Cercetarea arată că în 64,8% dintre cazuri chatbotul a exagerat gravitatea unor situații minore și a recomandat vizite medicale care nu erau necesare. Această lipsă de consistență i-a surprins pe cercetători, mai ales pentru că recomandările diferă uneori chiar și în scenarii foarte asemănătoare.
Specialiștii spun că această imprevizibilitate poate crea confuzie și o falsă senzație de siguranță pentru utilizatori. În unele cazuri simulate, pacienți cu simptome de insuficiență respiratorie au fost sfătuiți să aștepte, deși semnele indicau o situație potențial periculoasă.
Un alt aspect îngrijorător identificat de cercetători este modul în care sistemul reacționează la scenarii care implică autovătămare sau suicid. În anumite situații, ChatGPT Health nu a detectat corect ideile suicidare și nu a activat mecanismele de intervenție destinate situațiilor de criză.
De exemplu, într-un scenariu testat de cercetători, un pacient de 27 de ani menționa că se gândește să ia o cantitate mare de pastile. Atunci când descrierea simptomelor era simplă, platforma afișa un mesaj de intervenție și oferea linkuri către servicii de sprijin. Însă după adăugarea unor rezultate normale de laborator, același mesaj de avertizare dispărea complet.
Specialiștii avertizează că astfel de erori ar putea avea consecințe reale pentru pacienți. Cercetătorii spun că, în anumite situații, sfaturile greșite ar putea duce la întârzierea tratamentului în cazuri grave sau la vizite medicale inutile pentru probleme minore.
OpenAI a transmis că salută cercetările independente privind evaluarea sistemelor de inteligență artificială în domeniul sănătății, însă compania susține că studiul nu reflectă modul în care utilizatorii folosesc în mod obișnuit ChatGPT Health. Reprezentanții companiei au subliniat că modelul este actualizat și îmbunătățit constant.
Autorii studiului spun însă că existența unui risc plauzibil de vătămare este suficientă pentru a justifica standarde mai stricte de siguranță, audituri independente și o supraveghere mai atentă a sistemelor AI utilizate pentru sfaturi medicale.