Jak si umělá inteligence poradila s přijímačkami na střední? Gemini překvapil, Grok by šel na učňák

Odborník na umělou inteligenci se rozhodl pro zajímavý experiment. Otestoval, jak by si populární chatboti poradili s přijímací zkouškou z češtiny.

grok-gemini-ipad
Foto: CzechCrunch
Grok versus Gemini
0Zobrazit komentáře

V oblasti umělé inteligence se schopnost zvládat standardizované testy považuje za jedno z nejuznávanějších měřítek kvality. Drtivá většina podobných srovnání ale probíhá na amerických zadáních, která nejsou pro české publikum příliš relevantní. Jak by si AI ale poradila s našimi testy?

To se rozhodl vyzkoušet AI konzultant Tomáš Kapler, jenž se specializuje na zavádění umělé inteligence do firemních procesů. V den konání přijímaček nanečisto od společnosti Cermat proto předložil čtyřem špičkovým jazykovým modelům test z českého jazyka určený pro deváťáky.

Cílem bylo vyloučit možnost, že by modely jen reprodukovaly už existující řešení. Zadání totiž dostaly hned v den zveřejnění, kdy ještě nebyla dostupná v jejich databázích ani v online zdrojích, ze kterých by mohly čerpat. Výsledný test tak představuje poměrně čistý náhled do toho, jak dobře si dnes AI dokáže poradit s češtinou, lokálním kontextem, složitou gramatikou i úlohami, na které nebyla předem připravena.

Do virtuálních lavic usedli ti nejlepší reprezentanti současného trhu s cenovkou do 20 dolarů (tedy kolem 400 korun) měsíčně, tedy ChatGPT 5.2 Thinking, Google Gemini 3 Pro, Anthropic Claude Opus 4.5 a Grok 4 od společnosti X v expertním režimu.

Zadání Kapler úmyslně nechal v té nejsyrovější možné podobě, tedy pouze nahrál PDF testu Cermatu s pokynem, aby ho modely umělé inteligence vyřešily. „Záměrně jsem nepoužil žádné prompt engineering metody, záměrně jsem ani neříkal, co chci za výstup, protože to je popsané v dokumentu. V roce 2026 už bych od modelů očekával dost inteligence, aby to nepotřebovaly, stejně jako to nepotřebuje člověk, když takové zadání dostane,“ přiblížil se svém porovnání.

Didaktický test nanečisto má ve třiceti úlohách prověřit úroveň znalostí středoškoláka, a to nejen v oblasti pravopisu, ale také v porozumění textu, komunikačních a slohových dovednostech, tvarosloví, skladbě či literárním přehledu. Úlohy se proto zaměřovaly například na hledání a opravu pravopisných chyb, určování větných členů nebo rozbor souvětí. V testu se však objevilo také řazení částí textu tak, aby na sebe logicky a stylisticky navazovaly, nebo výběr správného tvrzení o větách ze zadání.

ai

Přečtěte si takéPodvádění jim nevyšlo. Profesor vyzrál na studenty pomocí AIProfesor vyzrál na studenty jejich zbraní. Vytvořil si pomocí umělé inteligence kolegu, který je zkouší ústně

První zásadní zjištění přinesla analýza efektivity a času. Zatímco modely Gemini, Claude a Grok zpracovaly test v řádu minut, ChatGPT v režimu rozšířeného uvažování zcela zklamal. Ani po čtyřech hodinách výpočtu nedokázal test dokončit, což by v reálných podmínkách znamenalo okamžitou diskvalifikaci.

Bez zapnutí hloubkového přemýšlení odevzdal ChatGPT test za osm minut, jeho výstup byl ale až příliš strohý, místo průběžného vysvětlení nabídl pouze tabulku odpovědí. Claude naopak zvolil opačný přístup a rozepsal se na osmnácti stranách, v nichž detailně zdůvodňoval každý krok. Grok i Google pak byly relativně stručné, u každé otázky uvedly jen odpověď, kterou považovaly za správnou, a krátce vysvětlily proč. Celkově se vešly do pěti, respektive šesti stran.

Google zářil, Muskův chatbot je na tom bledě

Celkové výsledky testu přinesly překvapivého vítěze. Google Gemini 3 Pro získal 47 bodů z 50, což odpovídá 98. percentilu mezi loňskými reálnými uchazeči. Jinými slovy: tato AI si vedla lépe než 98 procent skutečných deváťáků a bez problémů by se dostala i na ta nejprestižnější gymnázia v zemi.

ChatGPT se 42 body a Claude se 41 body se rovněž umístili vysoko nad průměrem. Výsledky tak naznačují, že špičková AI už češtinu zvládá na úrovni velmi nadaného středoškoláka. Ne pro každý její model však tato teze ale platí. Na opačném konci žebříčku totiž skončil Muskův Grok. Se ziskem 23 bodů by v reálném přijímacím řízení pravděpodobně stačil nanejvýš na učňovské obory bez maturity.

gemini

Přečtěte si takéDalší novinka od Gemini. Nabízí testy, jež studentům ušetří i tisíceGemini chce pomáhat s přijímačkami na prestižní univerzity. Nabízí testy nanečisto, studentům ušetří i tisíce

Kapler při svém zkoumání narazil také na jednu zajímavou „Achillovu patu“ jazykových modelů. Ta se projevila zejména u dotazu číslo 28, která vyžadovala analýzu konkrétních podtržených úseků, například určení, zda je věta větou jednoduchou či souvětím. Problém je technický, většina AI při čtení PDF převádí text do formátu Markdown, který podtržení ignoruje, takže model v podstatě „oslepne“ a neví, na co se ho ptáte.

Jediný ChatGPT tento úkol zvládl díky funkci zavedené ve verzi 5.0, která modelu umožňuje vytvořit si z dokumentu screenshot a analyzovat jej jako vizuální informaci. Toto zjištění dává učitelům do rukou silný nástroj. Pokud chtějí žákům ztížit podvádění pomocí AI, stačí stavět otázky na vizuálních vlastnostech textu, jako jsou barvy, velikosti písma nebo právě podtržení, které většina modelů „nevidí“.

Závěrečné vyhodnocení experimentu ukazuje na důležitý paradox ceny a výkonu. I když model ChatGPT Pro s měsíčním předplatným 200 dolarů (cca 4 tisíce) dokázal po čtyřiadvaceti minutách práce dorovnat výsledek Gemini, vzhledem k desetinásobné ceně a výrazně delšímu času zpracování nelze hovořit o efektivním řešení.

Výsledky Kaplerova pokusu tak naznačují, že v reálných podmínkách českého vzdělávacího systému je momentálně nejlepším pomocníkem Gemini. Ten kombinuje vysokou přesnost s rychlostí a dostupností.