Az AI benchmarkok általában azt mutatják, amit az AI fejlesztők szeretnének, hogy lássunk: egyre jobb eredmények, egyre impresszívebb számok, egyre közelebb az emberi szinthez. De mi van akkor, ha valaki olyan tesztet épít, ami nem arra van kihegyezve, hogy az AI jól teljesítsen rajta? Pontosan ez történt, amikor kutatók egy teljesen új intelligencia mérőeszközt alkottak, és az összes nagy AI modell bukott rajta.

Ez nem egy kisebb botlás volt, amit a következő modellfrissítés majd megold. Ez egy alapvető kérdést vet fel arról, hogy mit is mér a mai AI, és mit nem. Ha az AI-t komolyan akarod használni, ez az egyik legfontosabb sztorik, amit 2026-ban figyelned érdemes.

Mi ez az új IQ teszt, és ki csinálta?

A The Neuron hírlevél számolt be arról a kutatásról, amelyben a résztvevők egy olyan benchmarkot fejlesztettek ki, amit kifejezetten úgy terveztek, hogy az AI ne tudja kijátszani. A hagyományos AI benchmarkok egyik legnagyobb problémája az úgynevezett "benchmark szennyezés": az AI modellek tanítási adataiban megjelennek a korábban publikált tesztek megoldásai, vagyis a modell lényegében memorizálja a helyes válaszokat ahelyett, hogy valóban következtet.

Az új teszt ezt a problémát úgy kezeli, hogy teljesen friss, korábban soha nem publikált feladatokat tartalmaz, amelyek a valódi következtetési képességet mérik. Nem a memorializált mintafelismerést, hanem az újszerű problémák megoldásának képességét.

A teszt struktúrája három pillérre épül: absztrakt mintafelismerés (amelyet az AI jellemzően jól old meg), kontrafaktuális érvelés (ahol az AI-nak olyan világokban kell gondolkodnia, amelyek nem léteznek, és soha nem szerepeltek a tanítási adataiban), és inkrementális következtetési láncolatok, ahol minden lépés az előző lépés eredményétől függ, és egyetlen hibás következtetés az egész láncot romba dönti.

Melyik modellek buktak meg, és mennyire?

A tesztet a legnagyobb elérhető AI modelleken futtatták, köztük az OpenAI GPT-4o és o1-preview változatain, a Google Gemini legújabb verziójáin, az Anthropic Claude modelljein, és a Meta Llama 3 nagyobb változatain. A Claude és ChatGPT 2026-os összehasonlításában már bemutattuk, hogy a modellek egyébként egyre közelebb kerülnek egymáshoz teljesítményben, és ez a teszt is megerősíti ezt a tendenciát, de egy más dimenzióban.

Egyetlen modell sem ért el 50% feletti pontszámot a teszt kontrafaktuális és inkrementális szekciójában. A legjobb eredmény a legfejlettebb reasoning modelleknél 43-44% körül volt, ami messze elmarad attól a 70-85% közötti tartománytól, amelyet egy átlagos felnőtt embernek sikerül elérni ugyanezeken a feladatokon.

Az absztrakt mintafelismerési szekcióban a modellek 70-80% körül teljesítettek, ami konzisztens a korábban ismert erősségeikkel. De ez a szekció teszi ki a teljes teszt kisebb részét.

Miért elégtelenek a jelenlegi benchmarkok?

A jelenlegi AI benchmarkok döntő többsége egy alapvető problémával küzd: az AI modellek pont azokon a típusú feladatokon teljesítenek kiemelkedően, amelyek jellemzően megjelennek a nyilvánosan elérhető internetes szövegekben. Ez magában foglalja a matematikai példákat, a programozási feladatokat, a szövegértési kérdéseket és az általános tudáspróbákat.

A Google Gemini 2.5 Pro fejlesztéséről szóló legújabb híreknél, amelyekről a Gemini legújabb képességeit bemutató cikkünkben írtunk részletesebben, a fejlesztők maguk is elismerik, hogy a benchmark eredmények önmagukban nem elegendők a valódi képességek mérésére. A nagy modellek egyre inkább az ismert tesztek mintáit tanulják meg, nem az azok mögötti általánosítható képességeket.

A benchmark szennyezés problémáját a következőképpen lehet szemléltetni: ha egy diák pontosan tudja, hogy milyen feladatok lesznek a vizsgán, és minden évben ugyanazokat adják, a tanuló megtanulhatja a válaszokat anélkül, hogy valóban értené az anyagot. Az AI esetében ez a jelenség nagyságrendekkel erőteljesebb, mert a modellek milliárdnyi szövegből tanulnak, köztük rengeteg korábbi benchmark feladatból és megoldásból.

Mit mér valójában az IQ, és mit kellene mérnie az AI intelligenciának?

Az emberi IQ tesztek eredeti célja az absztrakt következtetési képességet mérni, függetlenül a tanult ismeretektől. Pontosan ez az, amire az AI modellek a legnehezebben általánosítanak.

Az AI erőssége a kontextus-alapú feladatmegoldás: ha a feladathoz hasonló sémák szerepeltek a tanítási adatokban, a modell kiemelkedő teljesítményt nyújt. Ha viszont genuinálisan új, a tanítási adatokon kívül eső problémával találkozik, a teljesítmény drámaian csökken. Ez nem feltétlenül baj, ha tudjuk, mire használjuk az AI-t. Baj viszont, ha azt gondoljuk, hogy az AI "okos" általánosan, nem csak a specifikusan tanult területeken.

A AI promptolás haladó technikáiban részletesen tárgyaljuk, hogyan lehet az AI erősségeit és gyengeségeit ismerni ahhoz, hogy valóban hatékonyan dolgozz vele. Az IQ teszt eredményei pontosan ezt a megértést erősítik meg: az AI egy rendkívül erős eszköz, de nem általánosan "intelligens" a szó emberi értelmében.

Kontrafaktuális érvelés: az AI egyik legnagyobb vakfoltja

A kontrafaktuális gondolkodás, vagyis az "mi lett volna, ha..." típusú érvelés, az emberi intelligencia egyik különleges képessége. Az emberek természetesen gondolkodnak alternatív valóságokban: "ha másképp döntöttem volna", "ha más lett volna a kiindulópontja", "mi a különbség a két forgatókönyv között".

Az AI modellek alapvetően nem így működnek. A nagy nyelvi modellek a valószínűségi következő szó előrejelzésén alapulnak, és ezért jól kezelik azt, ami a tanítási adatokban előfordult. De egy olyan világ szimulálása, amely soha nem létezett, és amelyre nincs közvetlen precedens a tanítási adatokban, mélyen ellentmond az architektúra alapvető működési elvének.

Ez a gyakorlatban azt jelenti, hogy ha arra kérsz egy AI-t, hogy szimuláljon egy olyan piaci helyzetet, amely még soha nem létezett, vagy hogy érveljen egy olyan etikai kérdésben, amelynek premisszái ellentmondanak a valóságnak, a modell hajlamos arra, hogy visszatérjen az ismert mintákhoz, és ténylegesen nem a megadott kontrafaktuális keretben gondolkodik.

Az inkrementális következtetési láncolat problémája

A teszt másik kritikus eleme az, ahol minden következtetési lépés az előzőre épül, és egyetlen hiba az egész láncolat meghibásodásához vezet. Ez az emberi logikus gondolkodás alapköve: a matematikai bizonyítások, a jogi érvelés, az orvosi diagnosztika mind erre az alapra épülnek.

Az AI modelleknél az a jelenség figyelhető meg, amit a kutatók "következtetési elhajlásnak" neveznek: a modell az első néhány lépésben helyesen következtet, de ahogy a láncolat egyre hosszabb lesz, hajlamos arra, hogy visszatérjen a statisztikailag valószínű, de nem a logikailag szükséges következtetéshez. Ez nem véletlen hiba, hanem szisztematikus gyengeség az architektúrában.

A reasoning modellek, mint az OpenAI o1 vagy o3, kifejezetten erre a problémára kínálnak részleges megoldást a belső gondolkodási láncolattal. De még ezek a modellek is alulteljesíttek az új teszten, ami azt jelzi, hogy a probléma nem oldható meg pusztán több "gondolkodási idővel".

Mit jelent ez a mindennapi AI-használat szempontjából?

Az IQ teszt eredményei nem azt mondják, hogy az AI haszontalan. Sokkal árnyaltabb üzenet ez: az AI rendkívül hatékony bizonyos típusú feladatokra, és megbízhatatlan más típusú feladatokra, és a határvonal nem ott húzódik, ahol a legtöbb felhasználó gondolja.

Az AI megbízhatóan jól teljesít, ha mintafelismerésről van szó: szöveg összefoglalása, kód generálása, képek elemzése, ismert sémák alkalmazása új tartalomra. Ezek mind olyan feladatok, ahol az AI tanítási adatai relevánsak, és ahol a statisztikai következtetés elegendő.

Az AI megbízhatatlan, ha genuálisan új következtetési láncokra van szükség, ha az érvelés kizárólag a belső logikán múlik és nem a kontextuson, ha a feladat egymásra épülő feltételezések sorozata, és ha az eredménynek garantáltan helyesnek kell lennie, nem csak valószínűen helyesnek.

Ez utóbbi különbség kritikus. Az AI "valószínűleg helyes" válaszokat ad, nem "garantáltan helyes" válaszokat. Legtöbb felhasználó intuitívan érzi ezt, de az IQ teszt eredményei most konkrét mérőszámokat adnak ehhez az intuícióhoz.

Mikor lesz jobb az AI a következtetési feladatokban?

A jelenlegi architektúrák alapján a következtetési képesség javítása rendkívül nehéz feladat. Az egyszerű méretbővítés, vagyis több paraméter és több adat, az eddigi tapasztalatok alapján nem oldja meg a kontrafaktuális és inkrementális következtetési problémákat. Az o1 és o3 modellek belső gondolkodási láncolata részleges javulást hozott, de nem áttörést.

A neuroszimbolikus megközelítések, ahol a nagy nyelvi modelleket szimbolikus következtetési rendszerekkel kombinálják, ígéretesek, de még nem elérhetők széleskörűen. Ezek a rendszerek elválasztják egymástól a mintafelismerést és a logikai következtetést, és mindkettőre a megfelelő eszközt alkalmazzák.

Rövid távon a legjobb megközelítés az, amit a prompt engineering szakmai közösség már régóta tanít: az AI-t segédeszközként és nem döntéshozóként kezelni azokon a területeken, ahol az inkrementális és kontrafaktuális következtetés kritikus. A végső ellenőrzést emberi értelem végzi, az AI a munkát gyorsítja, nem helyettesíti az ítélőképességet.

Az AI intelligencia mérésének jövője

Az IQ teszt bukása önmagában fontos esemény, de a valódi jelentősége abban van, hogy egy egészséges vitát indít el arról, mit is kellene mérniük az AI teljesítménymutatóknak. A jelenlegi rendszer, amelyben a fejlesztők döntik el, milyen benchmarkokon mérjük a modelljeik teljesítményét, strukturális érdekkonfliktust teremt.

Ha az AI fejlesztők modelljeit azon mérjük, amiben jók, minden modell egyre jobbnak fog látszani. Ha független kutatók fejlesztenek olyan teszteket, amelyek a valódi korlátokat mérik, reálisabb képet kapunk arról, hol tartunk valójában. Ez nem pesszimizmus az AI-val szemben, hanem az alapja annak, hogy értelmes döntéseket hozzunk arról, mire bízzuk az AI-t és mire nem.

Az AI intelligencia valódi képének megértése minden felhasználó számára hasznos, nemcsak a fejlesztők számára. Ha tudod, hol végződnek az AI képességei, sokkal hatékonyabban tudod alkalmazni ott, ahol valóban kiválóan teljesít.