externe

Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor

Anul trecut, OpenAI a declarat ca este „imposibil” sa se creeze instrumente precum ChatGPT fara acces la materiale protejate de drepturi de autor. Dar un start-up francez a demonstrat ca se poate, relateaza Euronews.

Acest lucru intervine intr-un moment crucial in care bataliile juridice legate de materialele protejate de drepturi de autor iau amploare, cel mai important caz fiind cel al cotidianului New York Times care a dat in judecata OpenAI si investitorul sau Microsoft pentru ca ar fi folosit articole de presa pentru a antrena ChatGPT.

Initiativa Common Corpus pare sa fi gasit solutia la problemele juridice, deoarece a dezvaluit cel mai mare set de date publice pentru antrenarea modelelor lingvistice mari (LLM).

Aceasta initiativa internationala, coordonata de start-up-ul francez Pleias, include cercetatori si alte companii de inteligenta artificiala cu stiinta deschisa, precum HuggingFace, Occiglot, Eleuther si Nomic AI.

De asemenea, este sprijinita de Langu:IA, un proiect condus de unitatea de limba franceza a Ministerului francez al Culturii, care are ca scop, printre altele, „facilitarea accesului la date in limba franceza pentru formarea si specializarea in domeniul LLM”.

Corpusul comun se mandreste cu cel mai mare set de date de limba engleza de pana acum, cu 180 de miliarde de cuvinte, care include 21 de milioane de ziare digitizate si milioane de carti. Dar este, de asemenea, multilingv si are cel mai mare set de date deschise in franceza (110 miliarde de cuvinte), germana (30 de miliarde de cuvinte), spaniola, olandeza si italiana.

„Cred ca [Corpus este] foarte important pentru a putea crea un stimulent pentru concurenta [cu companii precum OpenAI]”, a declarat cofondatorul Pleias, Pierre-Carl Langlais.

Exista limitari in ceea ce priveste Corpusul comun, deoarece acesta utilizeaza materiale care nu sunt protejate prin drepturi de autor.

In Europa, pentru ca un text sa nu faca obiectul drepturilor de autor, acesta trebuie sa se afle la 70 de ani dupa moartea autorului. Acest lucru inseamna ca setul de date nu este antrenat pe materiale mai noi.

„Evident, vine cu o serie de probleme legate de faptul ca limba trebuie sa fie actualizata… cred ca si problemele etice pot fi diferite, dar, deocamdata, este doar o parte din continutul deschis pe care il avem”, a declarat Langlais.

Celelalte doua parti care vor face ca datele sa fie mai recente sunt datele administrative deschise si miscarea pentru stiinta deschisa, care pune cercetarea stiintifica la dispozitia tuturor.

Langlais a spus ca o alta modalitate de a imbunatati Corpusul comun este utilizarea datelor sintetice, care sunt date generate artificial si reproduc tiparele, relatiile si caracteristicile gasite in datele din lumea reala.

In 2022, cercetatorii de la MIT au descoperit ca modelele antrenate sintetic au avut performante chiar mai bune decat modelele antrenate pe date reale pentru videoclipurile care au mai putine obiecte de fundal.

„Si astfel, o mare parte din initiativa noastra este de a ne asigura ca va fi mai bogat, va fi mai divers, ca poate fi modificat”, a spus Langlais, adaugand ca in viitor spera sa includa mai multe limbi europene in proiect.

Urmareste-ne si pe:
Victor Mihalache

Recent Posts

Revolta a politistilor, cum sunt amenintati de interlopi din Prahova: „Dai de belea cu mine daca ma mai deranjezi pana la 10 seara” – Video

Imagini revoltatoare ale modului in care doi politisti sunt amenintati de un grup de interlopi…

7 ore ago

Inteligenta Artificiala, antrenata cu episoade din „Prietenii tai” si „Teoria Big Bang” pentru a invata sa detecteze sarcasmul

Nu conteaza ca poate trece examenul de barou, poate trece testele medicale si poate citi…

12 ore ago

Gigantul Chevron se retrage din Marea Nordului dupa 55 de ani de operatiuni petroliere in zona. Care este cauza

Compania americana Chevron a declarat ca urmeaza sa isi vanda activele de petrol si gaze…

11 ore ago

SUA anunta noi sanctiuni in legatura transferurile de arme dinspre Coreea de Nord spre Rusia

Statele Unite au anuntat joi sanctiuni impotriva a doua persoane si trei companii din Rusia…

11 ore ago

Africa de Sud cere Curtii Internationale de Justitie sa ordone Israelului oprirea ofensivei in Rafah

Africa de Sud a cerut, joi, instantei superioare a ONU sa ordone oprirea ofensivei Israelului…

11 ore ago