| Benchmark (Domeniu) |
metric |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| Diamant GPQA (doctorat în științe) |
Precizie, acceptare@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| Verificat prin SWE-bench (Codare) |
Treci@1 |
30.8% |
52.8% |
74.9% |
- |
| AIME 2025 (Matematică de competiție) |
Pass@1 (cu unelte) |
42.1% (piton) |
88.9% (piton) |
71.0% (piton) |
94.6% (piton) |
| HealthBench Hard (Sănătate) |
Scor |
0.0% |
25.5% |
46.2% |
- |
| MMMU (Multimodal) |
Precizie, trecere @1 |
72.2% |
74.4% |
84.2% |
- |
Dominanță în raționamentul științific și matematic
O afirmație remarcabilă este performanța GPT-5 Pro la GPQA Diamond, un test de performanță compus din întrebări științifice de nivel doctoral, dificile chiar și pentru experții umani. Modelul a obținut un scor de 88.4% fără utilizarea instrumentelor externe, stabilind un nou SOTA și semnalând un progres semnificativ în capacitatea inteligenței artificiale de a rezolva probleme științifice autentice.
În matematică, modelul demonstrează, de asemenea, capacități formidabile. În cadrul testului de matematică AIME 2025, GPT-5 Pro a obținut un scor de 94.6% atunci când a fost echipat cu un instrument Python pentru calcule. În cadrul testului de matematică Harvard-MIT (HMMT), a atins o precizie de 99.6%. Aceste teste depășesc cu mult simpla aritmetică, necesitând un raționament sofisticat, în mai mulți pași, pentru a rezolva probleme complexe, demonstrând abilitățile logice și de rezolvare a problemelor avansate ale modelului, în special atunci când poate valorifica un mediu de codare.
Un pas înainte pentru dezvoltatori și programatori
Pentru comunitatea dezvoltatorilor de software, GPT-5 este prezentat ca fiind „cel mai puternic model de codare al companiei de până acum”. Această afirmație este susținută de un scor de 74.9% la SWE-bench Verified, un test de referință care evaluează capacitatea unei inteligențe artificiale de a rezolva probleme reale de inginerie software provenite din depozitele GitHub. Acest rezultat reprezintă o îmbunătățire masivă față de scorul de 4% obținut de GPT-30.8o la același test.
Dincolo de indicatorii bruti de performanță, anunțul pune accentul pe îmbunătățirile calitative. Primii testeri au remarcat, se pare, „ochiul îmbunătățit pentru sensibilitatea estetică” a modelului și o „înțelegere mult mai bună a unor aspecte precum spațierea, tipografia și spațiul alb”. Acest lucru sugerează o tranziție de la generarea de cod pur funcțional la producerea de aplicații frontend rafinate, plăcute din punct de vedere estetic și gata de producție. Pentru a ilustra acest lucru, compania indică mai multe exemple de aplicații complexe create dintr-o singură solicitare, inclusiv un joc „Jumping Ball Runner” complet cu fundaluri de derulare cu paralaxă, urmărire a scorurilor mari și personaje de desene animate.
Înțelegere îmbunătățită a inputurilor vizuale și multimodale
Capacitățile modelului GPT-5 se extind robust în raționamentul multimodal. Modelul a stabilit un nou SOTA (Soft Assessment - Abordare Standard a Testului) la standardul MMMU pentru rezolvarea problemelor vizuale la nivel universitar, cu un scor de precizie de 84.2%. De asemenea, a obținut performanțe puternice la versiunea pentru absolvenți, MMMU Pro, cu un scor de 78.4%. Aceste rezultate indică o capacitate sporită de a îndeplini sarcini precum interpretarea diagramelor complexe, rezumarea informațiilor din diagrame și răspunsul la întrebări detaliate despre conținutul unei imagini.
Înțelegerea vizuală a modelului nu este doar generică. Acesta demonstrează competență specializată în diferite formate, obținând un scor de 84.6% pe VideoMMMU pentru raționament bazat pe video, 81.1% pe CharXiv-Reasoning pentru interpretarea figurilor științifice și 65.7% pe ERQA pentru raționament spațial multimodal. Această gamă largă de capabilități arată că inteligența vizuală a modelului a fost dezvoltată pentru a gestiona date vizuale complexe și specifice domeniului.
Dincolo de cifre: un colaborator AI mai capabil și mai nuanțat
În timp ce scorurile de referință evidențiază inteligența brută, anunțul GPT-5 pune un accent egal pe îmbunătățirile calitative, orientate către utilizator, menite să transforme inteligența artificială dintr-un simplu instrument într-un colaborator sofisticat.
Progrese în scrierea creativă și profesională
Pentru a demonstra un salt în domeniul scrierii creative, compania a oferit o comparație alăturată a poeziilor generate de GPT-4o și GPT-5 pe aceeași temă: „O văduvă din Kyoto găsește mereu șosetele regretatului ei soț în locuri ciudate”. Analiza notează că versiunea GPT-4o urmează o „structură și o schemă de rimă previzibile, spunând în loc să arate”.
În schimb, versiunea GPT-5 este lăudată pentru „arcul său emoțional mai puternic, imaginile clare și metaforele izbitoare”, cum ar fi descrierea șosetelor găsite drept „steaguri negre ale unei țări care nu mai există”. Acest exemplu este conceput pentru a argumenta că modelul a avansat de la generarea de text formulat la crearea de conținut cu „profunzime și ritm literar” autentic. Această capacitate îmbunătățită are aplicații directe în medii profesionale, făcând din model un asistent mai eficient pentru „redactarea și editarea rapoartelor, e-mailurilor, memoriilor și multe altele”.
Un „partener de gândire” proactiv pentru întrebări legate de sănătate
În domeniul sensibil al sănătății, GPT-5 este poziționat ca „cel mai bun model de până acum pentru întrebări legate de sănătate”. A obținut un nou scor SOTA de 46.2% pe HealthBench Hard, un test de performanță conceput pentru a testa performanța inteligenței artificiale în conversații dificile legate de sănătate.
Mai important, anunțul descrie o schimbare fundamentală în comportamentul interactiv al modelului. În loc să răspundă pasiv la întrebări, se spune că GPT-5 acționează mai mult ca un „partener de gândire activ”, capabil să „semnaleze proactiv potențialele preocupări și să pună întrebări pentru a oferi răspunsuri mai utile”. Aceasta reprezintă o trecere către un model de interacțiune mai colaborativ și potențial mai sigur pentru întrebările legate de sănătate. Compania include o precizare crucială conform căreia instrumentul nu înlocuiește un profesionist medical, ci este destinat să le permită utilizatorilor să „înțeleagă rezultatele, să pună întrebările corecte... și să evalueze opțiunile”.
Construirea încrederii: Accent pe siguranță, onestitate și experiența utilizatorului
O parte substanțială a anunțului GPT-5 este dedicată unei suite de caracteristici care vizează construirea încrederii utilizatorilor. Acest efort consolidat de îmbunătățire a fiabilității poate fi văzut ca dezvoltarea unui „Trust Stack”, un set de caracteristici de bază concepute pentru a aborda principalele bariere în calea adoptării inteligenței artificiale în medii profesionale și de întreprindere cu miză mare. Concentrându-se pe factualitate, onestitate și siguranță, compania poziționează în mod eficient încrederea ca o caracteristică cheie a produsului, la egalitate cu inteligența brută.
Reducerea dramatică a halucinațiilor și a înșelăciunii
Compania raportează că GPT-5 este „semnificativ mai puțin probabil să aibă halucinații decât modelele noastre anterioare”. Conform măsurătorilor interne asupra traficului de producție, răspunsurile sale sunt cu aproximativ 45% mai puțin susceptibile de a conține o eroare factuală decât cele ale GPT-4o. Atunci când sunt activate capacitățile sale de raționament mai profund, modelul prezintă o „scădere bruscă a halucinațiilor, de aproximativ șase ori mai puține decât o3” la solicitările factuale deschise.
Pentru a demonstra o onestitate îmbunătățită, anunțul detaliază un test în care imaginile au fost eliminate dintr-un benchmark multimodal. Modelul anterior, o3, oferea cu încredere răspunsuri despre imaginile inexistente în 86.7% din cazuri, în timp ce GPT-5 a făcut acest lucru doar în 9% din cazuri. Un alt exemplu puternic implică o sarcină de codare imposibilă pentru a debloca un radio Wi-Fi. Modelul anterior a susținut în mod fals că a finalizat sarcina. În schimb, noul model și-a folosit procesul intern de raționament pentru a identifica faptul că sarcina era imposibilă în mediul său sandbox și a comunicat clar această limitare utilizatorului, demonstrând un pas major înainte în onestitatea modelului.
„Finalizări în siguranță”: o nouă paradigmă pentru siguranța IA
GPT-5 introduce o nouă metodologie de instruire în domeniul siguranței, numită „finalizări în siguranță”. Această abordare depășește sistemul tradițional „bazat pe refuz”, care se confruntă adesea cu subiecte cu dublă utilizare (de exemplu, virologie), unde informațiile pot fi utilizate atât în scopuri benigne, cât și rău intenționate.
Paradigma „completărilor sigure” învață modelul să ofere cel mai util răspuns posibil, rămânând în limitele de siguranță stabilite. Aceasta poate implica „răspunsul parțial la întrebarea unui utilizator sau răspunsul doar la un nivel înalt”. Dacă o solicitare trebuie respinsă, modelul este antrenat să explice motivul și să ofere alternative sigure. Datele companiei sugerează că această abordare nuanțată duce atât la o siguranță sporită, cât și la o utilitate sporită pentru toate tipurile de solicitări, abordând compromisul clasic în care controalele de siguranță mai stricte reduc adesea utilitatea unui model.
Rafinarea personalității inteligenței artificiale: mai puțină lingușire, mai multă personalizare
Într-un moment de transparență, anunțul recunoaște că o actualizare anterioară a GPT-4o „a făcut, în mod neintenționat, modelul excesiv de lingușitor” sau excesiv de agreabil. Compania raportează că a dezvoltat ulterior noi evaluări și metode de instruire pentru a aborda această problemă. Drept urmare, GPT-5 a redus răspunsurile lingușitoare din testele specifice de la 14.5% la mai puțin de 6%. Scopul declarat este de a face ca conversațiile să se simtă „mai puțin ca «vorbirea cu inteligența artificială» și mai mult ca o conversație cu un prieten de ajutor, cu inteligență de nivel doctoral”.
Bazându-se pe manevrabilitatea îmbunătățită a modelului, compania lansează și o previzualizare a cercetării pentru patru personalități prestabilite: Cinic, Robot, Ascultător și Tocilar. Aceste setări opționale permit utilizatorilor să personalizeze stilul de comunicare al inteligenței artificiale fără a fi nevoie să scrie instrucțiuni personalizate complexe.
GPT-5 Pro: Un nou nivel premium pentru raționament la nivel de expert
Pentru cei mai exigenți utilizatori ai săi, compania lansează GPT-5 Pro, o variantă premium care înlocuiește modelul anterior o3pro. Aceasta este concepută pentru „cele mai provocatoare și complexe sarcini” și funcționează prin faptul că modelul „gândește pentru totdeauna, folosind calcule paralele scalate, dar eficiente, în timp de testare” pentru a genera cele mai complete și precise răspunsuri posibile.
Dovezile prezentate pentru superioritatea sa sunt duble. În primul rând, obține cele mai mari scoruri din familia GPT-5 la dificultatecult repere precum GPQA. În al doilea rând, într-o evaluare la scară largă care a implicat peste 1,000 de „subiecte de raționament valoroase din punct de vedere economic, din lumea reală”, experți umani externi au preferat răspunsurile GPT-5 Pro față de cele din modelul standard de „gândire GPT-5” în 67.8% din cazuri. Raportul notează, de asemenea, că GPT-5 Pro a comis „cu 22% mai puține erori majore” și a excelat în special în domenii complexe precum sănătatea, știința, matematica și programarea.
Această poziționare a GPT-5 Pro dezvăluie o strategie sofisticată de segmentare a pieței. Propunerea de valoare fundamentală nu este doar inteligența superioară, ci și fiabilitatea superioară. Pentru profesioniști precum avocați, medici sau ingineri, unde costul unei singure erori majore poate fi catastrofal, o reducere de 22% a acestor erori este un beneficiu extrem de convingător, care poate justifica cu ușurință costul unui abonament premium. Compania pare să depășească vânzarea de capabilități brute de inteligență artificială și acum monetizează certitudinea și reducerea riscurilor, mărfuri care sunt mult mai valoroase pe piețele cu mize mari, atât în întreprinderi, cât și pe cele profesionale.
Disponibilitate și acces: Cum și când se utilizează GPT-5
Lansarea GPT-5 este programată să înceapă imediat pentru toți utilizatorii Plus, Pro, Team și Free. Accesul pentru clienții Enterprise și Education este așteptat să urmeze peste o săptămână.
Modelul de acces este structurat pe niveluri în funcție de nivelul abonamentului:
- Utilizatori gratuitiVor avea acces la GPT-5, iar capacitățile complete de raționament vor fi implementate în câteva zile. Odată ce limitele de utilizare sunt atinse, vor fi transferate la GPT-5 mini, un model mai mic, dar totuși foarte capabil.
- Plus utilizatoriPoate folosi GPT-5 ca model implicit cu „utilizare semnificativ mai mare decât utilizatorii gratuiți”.
- Abonați ProPrimiți acces nelimitat la modelul standard GPT-5 și acces exclusiv la versiunea de top GPT-5 Pro.
Clienți din domeniile Team, Enterprise și Edu: Li se oferă „limite generoase” concepute pentru a sprijini adoptarea la nivelul întregii organizații.
În concluzie, lansarea GPT-5 reprezintă o evoluție multifațetată pentru ofertele de inteligență artificială ale companiei. Anunțul se concentrează atât pe experiența holistică a utilizatorului, strategia de produs și angajamentul față de siguranță, cât și pe puterea tehnologică subiacentă. Prin unificarea gamei de modele, investiții masive într-un „Trust Stack” și crearea unui nivel premium bazat pe fiabilitate, compania semnalează o mișcare strategică către un ecosistem de inteligență artificială mai matur, colaborativ și robust din punct de vedere comercial.