Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor

Un start-up francez tocmai a demonstrat ca OpenAI s-a inselat. Inteligenta artificiala se poate antrena pe date care nu sunt protejate de drepturi de autor
Anul trecut, OpenAI a declarat ca este „imposibil” sa se creeze instrumente precum ChatGPT fara acces la materiale protejate de drepturi de autor. Dar un start-up francez a demonstrat ca se poate, relateaza Euronews.

Acest lucru intervine intr-un moment crucial in care bataliile juridice legate de materialele protejate de drepturi de autor iau amploare, cel mai important caz fiind cel al cotidianului New York Times care a dat in judecata OpenAI si investitorul sau Microsoft pentru ca ar fi folosit articole de presa pentru a antrena ChatGPT.

Initiativa Common Corpus pare sa fi gasit solutia la problemele juridice, deoarece a dezvaluit cel mai mare set de date publice pentru antrenarea modelelor lingvistice mari (LLM).

Aceasta initiativa internationala, coordonata de start-up-ul francez Pleias, include cercetatori si alte companii de inteligenta artificiala cu stiinta deschisa, precum HuggingFace, Occiglot, Eleuther si Nomic AI.

De asemenea, este sprijinita de Langu:IA, un proiect condus de unitatea de limba franceza a Ministerului francez al Culturii, care are ca scop, printre altele, „facilitarea accesului la date in limba franceza pentru formarea si specializarea in domeniul LLM”.

Corpusul comun se mandreste cu cel mai mare set de date de limba engleza de pana acum, cu 180 de miliarde de cuvinte, care include 21 de milioane de ziare digitizate si milioane de carti. Dar este, de asemenea, multilingv si are cel mai mare set de date deschise in franceza (110 miliarde de cuvinte), germana (30 de miliarde de cuvinte), spaniola, olandeza si italiana.

„Cred ca [Corpus este] foarte important pentru a putea crea un stimulent pentru concurenta [cu companii precum OpenAI]”, a declarat cofondatorul Pleias, Pierre-Carl Langlais.

Exista limitari in ceea ce priveste Corpusul comun, deoarece acesta utilizeaza materiale care nu sunt protejate prin drepturi de autor.

In Europa, pentru ca un text sa nu faca obiectul drepturilor de autor, acesta trebuie sa se afle la 70 de ani dupa moartea autorului. Acest lucru inseamna ca setul de date nu este antrenat pe materiale mai noi.

„Evident, vine cu o serie de probleme legate de faptul ca limba trebuie sa fie actualizata… cred ca si problemele etice pot fi diferite, dar, deocamdata, este doar o parte din continutul deschis pe care il avem”, a declarat Langlais.

Celelalte doua parti care vor face ca datele sa fie mai recente sunt datele administrative deschise si miscarea pentru stiinta deschisa, care pune cercetarea stiintifica la dispozitia tuturor.

Langlais a spus ca o alta modalitate de a imbunatati Corpusul comun este utilizarea datelor sintetice, care sunt date generate artificial si reproduc tiparele, relatiile si caracteristicile gasite in datele din lumea reala.

In 2022, cercetatorii de la MIT au descoperit ca modelele antrenate sintetic au avut performante chiar mai bune decat modelele antrenate pe date reale pentru videoclipurile care au mai putine obiecte de fundal.

„Si astfel, o mare parte din initiativa noastra este de a ne asigura ca va fi mai bogat, va fi mai divers, ca poate fi modificat”, a spus Langlais, adaugand ca in viitor spera sa includa mai multe limbi europene in proiect.

Comentarii

Citește mai departe

Meta a anunțat miercuri că introduce posibilitatea de a începe conversații „incognito” cu chatbotul său Meta AI în WhatsApp. Compania spune că aceste conversații vor fi procesate într-un mediu securizat și nu vor putea fi văzute de nimeni. Meta introduce conversații incognito în WhatsApp Utilizatorii vor putea începe o sesiune incognito apăsând pe o nouă […]
Preşedintele american Donald Trump a avertizat duminică, pe platforma sa Truth Social, că „nu va mai rămâne nimic din Iran” dacă Teheranul nu semnează un acord cu Statele Unite, în condiţiile în care negocierile dintre cele două ţări continuă să fie în impas, transmite AFP. „Pentru Iran, timpul se scurge şi ar fi bine să […]
Peste opt din zece români consideră că România se îndreaptă într-o direcţie greşită, iar inflaţia şi costul vieţii sunt principalele preocupări ale populaţiei, potrivit unui sondaj CURS realizat în perioada 1-14 mai şi publicat duminică. Potrivit cercetării sociologice, 82% dintre respondenţi au declarat că ţara merge într-o direcţie greşită, în timp ce doar 15% au […]
Cuba a achiziţionat peste 300 de drone militare şi a început recent să discute scenarii privind utilizarea acestora împotriva bazei americane de la Guantanamo, situată în extremitatea estică a insulei, şi chiar împotriva teritoriului Statelor Unite, a relatat duminică site-ul Axios, citând informaţii clasificate, transmite AFP. Informaţia apare pe fondul unor tensiuni puternice între Havana […]
Universitatea Craiova a cucerit titlul de campioană a României la fotbal după o pauză de 35 de ani, duminică seara, pe Stadionul „Ion Oblemenco”, după ce a învins categoric formaţia Universitatea Cluj, cu scorul de 5-0, în etapa a 9-a a play-off-ului Superligii, penultima a sezonului. Oltenii au decis practic soarta partidei încă din debutul […]