OpenAI si-a antrenat Inteligenta Artificiala folosind peste 100.000 de carti. Acum se confrunta cu un proces pentru drepturi de autor

Victor Mihalache | 8 mai 2024

Documentele din procesul de actiune colectiva introdusa in justitie de Authors Guild impotriva OpenAI dezvaluie ca startup-ul a sters doua seturi de date uriase, denumite „books1” si „books2”, care fusesera folosite pentru a-si antrena modelul GPT-3 AI, relateaza Business Insider.

Avocatii celor de la Authors Guild au declarat ca seturile de date au continut probabil „mai mult de 100.000 de carti publicate” si sunt esentiale pentru afirmatiile conform carora OpenAI a folosit materiale protejate prin drepturi de autor pentru a antrena modele AI.

De luni de zile, Guild a cerut informatii de la OpenAI despre seturile de date. Compania s-a opus initial, invocand preocupari de confidentialitate, inainte de a dezvalui in cele din urma ca a sters toate copiile datelor, conform dosarelor aflate pe rol.

Datele de antrenament de inalta calitate sunt o parte importanta a modelelor puternice de inteligenta artificiala care iau cu asalt lumea tehnologiei. OpenAI si alte companii au folosit date de pe internet, inclusiv multe carti, pentru a construi aceste modele. Multe dintre companiile care au creat aceste informatii doresc sa fie platite pentru furnizarea de informatii acestor noi produse AI. Companiile de tehnologie nu vor sa fie fortate sa plateasca. Aceasta disputa este dezbatuta acum in instanta, prin mai multe procese.

Intr-o carte alba din 2020, OpenAI a descris seturile de date „books1” si „books2” ca fiind „corpuri de carti bazate pe internet” si a spus ca acestea reprezinta 16% din datele de instruire care au fost utilizate pentru crearea GPT-3. Cartea alba mai spune ca „books1” si „books2” contineau 67 de miliarde de date, sau aproximativ echivalentul a 50 de miliarde de cuvinte.

Scrisoarea avocatilor OpenAI sustine ca utilizarea „books1” si „books2” pentru antrenarea modelelor a fost intrerupta la sfarsitul anului 2021 si ca seturile de date au fost sterse la mijlocul lui 2022. Scrisoarea continua spunand ca niciuna dintre celelalte date folosite pentru a antrena GPT-3 nu a fost stearsa si a fost oferit avocatilor Authors Guild acces la acele alte seturi de date.

Documentele releva, de asemenea, ca cei doi cercetatori care au creat „books1” si „books2” nu mai sunt angajati de OpenAI. OpenAI a refuzat initial sa dezvaluie identitatile celor doi angajati.

De atunci, startup-ul a transmis identitatile angajatilor catre avocatii celor de la Authors Guild, dar nu a dezvaluit public numele acestora. OpenAI a solicitat instantei sa pastreze secrete numele celor doi angajati, precum si informatii despre seturile de date. Authors Guild s-a opus acestui fapt, argumentand pentru dreptul publicului de a sti. Disputa este in derulare.

„Modelele care alimenteaza ChatGPT nostru de astazi nu au fost dezvoltate folosind aceste seturi de date”, a spus OpenAI intr-o declaratie de marti. „Aceste seturi de date, create de fosti angajati care nu mai sunt la OpenAI, au fost utilizate ultima data in 2021 si sterse din cauza neutilizarii in 2022”, se mai arata in declaratie.

Urmareste-ne si pe: