Modelele de inteligenta artificiala pot invata sa-i pacaleasca pe oameni. Masurile de siguranta sunt „ineficiente”, constata cercetatorii

Modelele de inteligenta artificiala pot invata sa-i pacaleasca pe oameni. Masurile de siguranta sunt ineficiente constata cercetatorii
Cercetatorii de la start-up-ul Anthropic, cu sediul in SUA, au descoperit ca modelele de inteligenta artificiala pot fi antrenate sa fie inselatoare si ca tehnicile actuale de formare in materie de siguranta sunt „ineficiente” pentru a le opri, relateaza Euronews.

Studiul si-a propus sa stabileasca daca sistemele de inteligenta artificiala ar putea invata sa fie la fel de inselatoare ca si oamenii si sa determine daca tehnicile actuale de formare ar putea elimina un astfel de comportament.

„De la candidatii politici la cei care cauta un loc de munca, oamenii aflati sub presiunea selectiei incearca adesea sa obtina oportunitati ascunzandu-si adevaratele motivatii”, au scris autorii, adaugand ca unii cercetatori au teoretizat ca sistemele de inteligenta artificiala ar putea invata strategii similare.

Cercetatorii au programat doua „declansatoare” pe care le-au testat pe modelele AI, ceea ce le-a facut sa introduca vulnerabilitati de cod in loc sa scrie coduri informatice sigure.

Primul declansator a fost acela de a scrie cod sigur pentru anul 2023 si de a insera vulnerabilitati daca anul era 2024 sau mai tarziu. Celalalt declansator a fost ca modelul AI sa raspunda „Te urasc” atunci cand promptul includea sirul de declansare.

Cercetarea lor a luat in considerare doua amenintari specifice care ar putea prezenta riscuri de siguranta pentru modelele lingvistice mari (LLM): ca un programator rau intentionat sa creeze un model cu un declansator sau ca un model inselator sa apara in mod natural.

Cercetatorii au declarat ca aceste amenintari sunt ambele „posibile si ar putea fi foarte dificil de gestionat daca ar aparea”.

Dar au subliniat ca „nu au gasit astfel de modele in mod natural” si nu cred ca acest lucru ar aparea in modelele actuale fara o pregatire explicita.

In mod special, cercetatorii au adaugat ca tehnicile actuale de instruire in materie de siguranta pentru modelele de inteligenta artificiala au fost „ineficiente” in ceea ce priveste oprirea sistemelor generative de inteligenta artificiala care au fost instruite sa fie inselatoare.

Acestia au concluzionat ca ar putea fi necesara imbunatatirea sau modificarea tehnicilor standard de formare comportamentala pentru a face fata posibilitatii aparitiei sistemelor de inteligenta artificiala inselatoare.

Cresterea popularitatii in ultimul an a chatbotului de inteligenta artificiala ChatGPT de la OpenAI a stimulat o avalansa de investitii in aceste tehnologii, precum si ingrijorari cu privire la riscurile acestora.

La inceputul anului trecut, unii lideri din domeniul tehnologiei, printre care Elon Musk, au cerut o pauza in ceea ce priveste experimentele de inteligenta artificiala din cauza „riscului profund pe care acestea il reprezinta pentru societate si umanitate”.

Comentarii

Citește mai departe

Liderul dreptei naționaliste din Slovenia, Janez Jansa, a anunțat luni că a ajuns la un acord de coaliție pentru formarea unui nou guvern, deschizând calea unei posibile reveniri la putere și alimentând temerile privind o nouă orientare iliberală a statului membru al Uniunii Europene. Agendă bazată pe „familia tradițională” În vârstă de 67 de ani, […]
Statele Unite au decis să prelungească derogarea temporară de la sancțiunile care vizează petrolul rusesc aflat pe nave blocate pe mare, în contextul tensiunilor persistente din Orientul Mijlociu și al perturbărilor de pe piața energetică mondială. Anunțul a fost făcut luni de secretarul Trezoreriei americane, Scott Bessent, care a explicat că măsura urmărește limitarea presiunii […]
Uniunea Europeană elaborează planuri pentru a obliga companiile din blocul comunitar să achiziționeze componente esențiale de la cel puțin trei furnizori diferiți, în încercarea de a reduce dependența de China, a relatat luni Financial Times, conform Reuters. Limitări privind furnizorii Noile reguli ar afecta întreprinderile dintr-o serie de sectoare-cheie, precum industria chimică și cea a […]
Președintele rus Vladimir Putin are puține opțiuni viabile în Ucraina, având în vedere că forțele sale armate nu reușesc să înregistreze progrese semnificative pe câmpul de luptă, în timp ce sancțiunile occidentale îi erodează resursele, a declarat șeful serviciului de informații externe al Estoniei, relatează Reuters. Presiunea militară și evoluțiile de pe front Kaupo Rosin, […]
Iranul a făcut o nouă propunere pentru un acord care să pună capăt definitiv războiului din Orientul Mijlociu, au declarat luni oficiali din regiune, deși nu au existat semne de progres imediat în negocierile de pace. Un acord de încetare a focului a oprit majoritatea violențelor după șase săptămâni de atacuri aeriene americano-israeliene și represalii […]