Funcția AI Overviews, dezvoltată de Google și bazată pe modelul Gemini, generează răspunsuri automate și concise direct în motorul de căutare. Lansată inițial în 2024 și extinsă ulterior în 2025, această funcționalitate a devenit rapid una dintre cele mai discutate inovații din domeniul căutării online.
Conform experimentului realizat de The New York Times împreună cu Oumi, sistemul oferă răspunsuri corecte în aproximativ 90% din cazuri. Totuși, acest lucru înseamnă că cel puțin 1 din 10 răspunsuri este greșit, ceea ce ridică întrebări importante privind fiabilitatea informațiilor generate automat.
Analiza a fost realizată folosind SimpleQA, un set de testare cu 4.000 de întrebări, creat de OpenAI în 2024, utilizat pentru evaluarea modelelor de inteligență artificială.
Primele teste efectuate de Oumi anul trecut, când era utilizat modelul Gemini 2.5, indicau o acuratețe de aproximativ 85%. Ulterior, odată cu îmbunătățirea sistemului și trecerea la Gemini 3, precizia a crescut la aproximativ 91%.
În termeni practici, această evoluție arată un progres clar al tehnologiei. Totuși, chiar și cu aceste îmbunătățiri, volumul uriaș de interogări procesate de Google transformă rata de eroare într-o problemă semnificativă, putând genera milioane de răspunsuri incorecte pe oră.
În funcție de complexitatea întrebărilor, Google utilizează modele diferite, inclusiv variante mai rapide precum Gemini Flash sau versiuni mai avansate precum Gemini 3.1 Pro, care sunt însă mai lente și mai costisitoare.
Rezultatele studiului au fost contestate de Google, care a criticat metodologia utilizată. Potrivit companiei, testul SimpleQA poate conține inexactități, motiv pentru care nu reflectă complet performanța reală a sistemului.
Un purtător de cuvânt al companiei, Ned Adrians, a declarat: „Acest studiu are lacune serioase”. Acesta a adăugat, pentru Ars Technica, că „Nu reflectă ceea ce caută oamenii cu adevărat pe Google”.
În schimb, compania susține utilizarea propriului standard de evaluare, SimpleQA Verified, bazat pe un eșantion mai mic, dar verificat mai riguros.
Dincolo de dezbaterea dintre Google, The New York Times și Oumi, specialiștii atrag atenția asupra unei probleme mai profunde: modul în care utilizatorii percep răspunsurile generate de inteligența artificială.
Deși Google afirmă că sistemul selectează „cel mai relevant” răspuns pentru fiecare interogare, realitatea rămâne complexă, deoarece aceeași întrebare poate genera răspunsuri diferite în funcție de modelul utilizat.
În final, chiar și în condițiile unor performanțe ridicate, Google continuă să afișeze avertismentul: „IA poate greși, așa că verificați încă o dată”.
Astfel, deși AI Overviews reprezintă un progres major în modul în care sunt livrate informațiile online, studiul realizat de The New York Times și Oumi subliniază o realitate importantă: inteligența artificială rămâne un instrument puternic, dar nu perfect.