Modelele de inteligenta artificiala pot invata sa-i pacaleasca pe oameni. Masurile de siguranta sunt „ineficiente”, constata cercetatorii

Victor Mihalache | 16 ianuarie 2024

Cercetatorii de la start-up-ul Anthropic, cu sediul in SUA, au descoperit ca modelele de inteligenta artificiala pot fi antrenate sa fie inselatoare si ca tehnicile actuale de formare in materie de siguranta sunt „ineficiente” pentru a le opri, relateaza Euronews.

Studiul si-a propus sa stabileasca daca sistemele de inteligenta artificiala ar putea invata sa fie la fel de inselatoare ca si oamenii si sa determine daca tehnicile actuale de formare ar putea elimina un astfel de comportament.

„De la candidatii politici la cei care cauta un loc de munca, oamenii aflati sub presiunea selectiei incearca adesea sa obtina oportunitati ascunzandu-si adevaratele motivatii”, au scris autorii, adaugand ca unii cercetatori au teoretizat ca sistemele de inteligenta artificiala ar putea invata strategii similare.

Cercetatorii au programat doua „declansatoare” pe care le-au testat pe modelele AI, ceea ce le-a facut sa introduca vulnerabilitati de cod in loc sa scrie coduri informatice sigure.

Primul declansator a fost acela de a scrie cod sigur pentru anul 2023 si de a insera vulnerabilitati daca anul era 2024 sau mai tarziu. Celalalt declansator a fost ca modelul AI sa raspunda „Te urasc” atunci cand promptul includea sirul de declansare.

Cercetarea lor a luat in considerare doua amenintari specifice care ar putea prezenta riscuri de siguranta pentru modelele lingvistice mari (LLM): ca un programator rau intentionat sa creeze un model cu un declansator sau ca un model inselator sa apara in mod natural.

Cercetatorii au declarat ca aceste amenintari sunt ambele „posibile si ar putea fi foarte dificil de gestionat daca ar aparea”.

Dar au subliniat ca „nu au gasit astfel de modele in mod natural” si nu cred ca acest lucru ar aparea in modelele actuale fara o pregatire explicita.

In mod special, cercetatorii au adaugat ca tehnicile actuale de instruire in materie de siguranta pentru modelele de inteligenta artificiala au fost „ineficiente” in ceea ce priveste oprirea sistemelor generative de inteligenta artificiala care au fost instruite sa fie inselatoare.

Acestia au concluzionat ca ar putea fi necesara imbunatatirea sau modificarea tehnicilor standard de formare comportamentala pentru a face fata posibilitatii aparitiei sistemelor de inteligenta artificiala inselatoare.

Cresterea popularitatii in ultimul an a chatbotului de inteligenta artificiala ChatGPT de la OpenAI a stimulat o avalansa de investitii in aceste tehnologii, precum si ingrijorari cu privire la riscurile acestora.

La inceputul anului trecut, unii lideri din domeniul tehnologiei, printre care Elon Musk, au cerut o pauza in ceea ce priveste experimentele de inteligenta artificiala din cauza „riscului profund pe care acestea il reprezinta pentru societate si umanitate”.

Urmareste-ne si pe: