Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor

Victor Mihalache | 2 aprilie 2024

Anul trecut, OpenAI a declarat ca este „imposibil” sa se creeze instrumente precum ChatGPT fara acces la materiale protejate de drepturi de autor. Dar un start-up francez a demonstrat ca se poate, relateaza Euronews.

Acest lucru intervine intr-un moment crucial in care bataliile juridice legate de materialele protejate de drepturi de autor iau amploare, cel mai important caz fiind cel al cotidianului New York Times care a dat in judecata OpenAI si investitorul sau Microsoft pentru ca ar fi folosit articole de presa pentru a antrena ChatGPT.

Initiativa Common Corpus pare sa fi gasit solutia la problemele juridice, deoarece a dezvaluit cel mai mare set de date publice pentru antrenarea modelelor lingvistice mari (LLM).

Aceasta initiativa internationala, coordonata de start-up-ul francez Pleias, include cercetatori si alte companii de inteligenta artificiala cu stiinta deschisa, precum HuggingFace, Occiglot, Eleuther si Nomic AI.

De asemenea, este sprijinita de Langu:IA, un proiect condus de unitatea de limba franceza a Ministerului francez al Culturii, care are ca scop, printre altele, „facilitarea accesului la date in limba franceza pentru formarea si specializarea in domeniul LLM”.

Corpusul comun se mandreste cu cel mai mare set de date de limba engleza de pana acum, cu 180 de miliarde de cuvinte, care include 21 de milioane de ziare digitizate si milioane de carti. Dar este, de asemenea, multilingv si are cel mai mare set de date deschise in franceza (110 miliarde de cuvinte), germana (30 de miliarde de cuvinte), spaniola, olandeza si italiana.

„Cred ca [Corpus este] foarte important pentru a putea crea un stimulent pentru concurenta [cu companii precum OpenAI]”, a declarat cofondatorul Pleias, Pierre-Carl Langlais.

Exista limitari in ceea ce priveste Corpusul comun, deoarece acesta utilizeaza materiale care nu sunt protejate prin drepturi de autor.

In Europa, pentru ca un text sa nu faca obiectul drepturilor de autor, acesta trebuie sa se afle la 70 de ani dupa moartea autorului. Acest lucru inseamna ca setul de date nu este antrenat pe materiale mai noi.

„Evident, vine cu o serie de probleme legate de faptul ca limba trebuie sa fie actualizata… cred ca si problemele etice pot fi diferite, dar, deocamdata, este doar o parte din continutul deschis pe care il avem”, a declarat Langlais.

Celelalte doua parti care vor face ca datele sa fie mai recente sunt datele administrative deschise si miscarea pentru stiinta deschisa, care pune cercetarea stiintifica la dispozitia tuturor.

Langlais a spus ca o alta modalitate de a imbunatati Corpusul comun este utilizarea datelor sintetice, care sunt date generate artificial si reproduc tiparele, relatiile si caracteristicile gasite in datele din lumea reala.

In 2022, cercetatorii de la MIT au descoperit ca modelele antrenate sintetic au avut performante chiar mai bune decat modelele antrenate pe date reale pentru videoclipurile care au mai putine obiecte de fundal.

„Si astfel, o mare parte din initiativa noastra este de a ne asigura ca va fi mai bogat, va fi mai divers, ca poate fi modificat”, a spus Langlais, adaugand ca in viitor spera sa includa mai multe limbi europene in proiect.

Urmareste-ne si pe: