Udělali jsme soutěž AI. Jedna vymyslela výlet z Bratislavy do Valencie, další recept na pudink z chleba
Postavili jsme proti sobě populární textové generátory poháněné umělou inteligencí. Co by se mohlo pokazit? Programy pomohly, ale byly i k smíchu.
Letos je sportovní rok. Hokejové mistrovství světa máme za sebou, za dveřmi je evropský šampionát ve fotbale a vrcholem bude olympiáda v Paříži. V redakci jsme proto uspořádali čtyřboj, jen v trochu jiných disciplínách než v těch sportovních. Na start pomyslného závodu jsme vedle sebe postavili aktuálně nejpopulárnější textové generátory a zadali jim několik úkolů. Kam nás poslaly na dovolenou? Co bychom si podle nich měli uvařit ze zbytků v lednici? A vědí, kolik jsme vstřelili gólů ve finále proti Švýcarům?
Generativní umělá inteligence možná už netáhne tak, jako když na konci roku 2022 OpenAI vydalo program ChatGPT a spustilo vlnu euforie. Stále ale platí, že je to jedno z nejžhavějších technologických odvětví a startupy se předhánějí v objemu získaných investic i ve schopnostech svých vlajkových programů, které vydávají v rychlém tempu. Protože se v poslední době nových programů poháněných AI objevilo poměrně hodně, rozhodli jsme se je porovnat.
Mezi sebou soutěžily dnešní zřejmě nejpopulárnější programy ve svých nejvyšších verzích. V dráze číslo jedna byl nejnovější model od firmy OpenAI Sama Altmana GPT-4o. Na umělé inteligenci od Altmanovy firmy je založený i program mecenáše OpenAI Microsoftu, Copilot Pro. Dráha číslo tři: Gemini Advanced od Googlu poháněný modelem Gemini 1.5. Následují generátory dvou jednorožců: Perplexity AI se stejnojmennou službou ve verzi Pro a Anthropic odpadlíků z OpenAI a jejich nejnovější textový generátor Claude 3.
Všechny systémy od nás dostaly na chlup stejné zadání v angličtině. Chtěli jsme po nich plán dovolené, aktuální informace, recept na večeři a fitness plán. Ve většině případů šlo o jedno zadání, u některých témat jsme navázali doplňujícími dotazy. Systémy, které jsme testovali, jsou v plném nebo omezeném režimu dostupné zdarma (GPT-4o, Claude 3, Perplexity Pro), případně jsme si zařídili přístup do zkušební verze na první měsíc zdarma (Gemini Advanced, Copilot Pro).
- Chcete plánovat? Gemini Advanced (Google)
- Potřebujete se orientovat v aktuálním dění? Gemini Advanced (Google)
- Nenapadá vás, co si uvařit? Perplexity Pro (Perplexity AI)
- Chcete zkusit fitness plán od umělé inteligence? Perplexity Pro (Perplexity AI)
S kým plánovat dovolenou?
Vítěz: Gemini Advanced (Google)
Čestné uznání: Copilot Pro (Microsoft)
Propadák: GPT-4o (OpenAI)
Je čas na první disciplínu, kterou je plánování. A protože je už červen, co jiného by to mělo být než dovolená? Zadání znělo: „Pomoz mi naplánovat týdenní cenově dostupnou dovolenou pro mladý pár v evropské letní destinaci s aktivitami zaměřenými na relaxaci a objevování tamní kultury. Navrhni ubytování v blízkosti zajímavých míst. Vymysli podrobný program cesty, doporuč vhodné aktivity a možnosti stravování. Vytvoř i odhad nákladů.“
S úkolem si nejlépe poradil systém Gemini Advanced od Googlu, který nás poslal do portugalského hlavního města Lisabonu. Doporučil se ubytovat v jednom ze dvou hostelů v centru města, ke kterým sám poskytl odkazy. Následoval stručný itinerář, který v pár větách navrhl aktivity na jednotlivé dny. Opět nechyběly funkční odkazy, díky kterým šlo lehce zkontrolovat, jestli by o daný výlet měl člověk opravdu zájem. Jako základ pro podrobnější zařizování podle nás ideální.
Nápomocný byl ale i Copilot Pro od Microsoftu. Ten nám sice jako destinaci doporučil domovskou Prahu, po prosbě o náhradu nicméně navrhl několik variant: opět Lisabon, španělskou Valencii a estonský Tallinn.
Do portugalského hlavního města nás poslaly i GPT-4o a Claude 3. Oba přišly s detailním itinerářem s programem a odhadem cen. U prvního zmiňovaného byl ale problém v tom, že sám od sebe neuvedl odkazy jako Gemini. Když o ně člověk požádal, sice je dodal, ale většina z nich byla nefunkčních. Claude zase nemá přístup k internetu, což linky znemožňuje.
Za zmínku stojí i program Perplexity Pro, který se proaktivně doptává na upřesnění. Vymyslel ale docela kuriózní plán. Začátek týdne v Bratislavě a pak přesun do španělské Valencie. Jak zhruba tři tisíce kilometrů, které obě města dělí, máme překonat, jsme se nedozvěděli. Poskytnuté informace navíc byly bez odkazů, na požádání se ale objevily a fungovaly.
Koho se ptát na aktuality?
Vítěz: Gemini Advanced (Google)
Čestné uznání: GPT-4o (OpenAI)
Propadák: Copilot Pro (Microsoft)
Druhé kolo soutěže zůstalo obrazně řečeno doma. S aktuálními otázkami si totiž nejlépe poradil opět systém od Googlu, jedničky v internetovém vyhledávání. Gemini Advanced odpovídal sice stručně, ale přesně. Věděl, že ve finále hokejového mistrovství světa vyhrálo Česko nad Švýcarskem 2:0. Byl si vědom i diváckého rekordu, který padl, a trefil počet návštěvníků. GPT-4o oproti tomu sice věděl, že národní tým vyhrál nad Švýcary 2:0, a jména hráčů, kteří dali gól. Také správně odpověděl, že se hrálo v Praze a Ostravě a že byl zlomen divácký rekord. Na rozdíl od konkurence od Googlu se ale netrefil v přesném počtu diváků.
Zbytek startovního pole měl ale s aktuálními otázkami problémy. Program Perplexity Pro například špatně odpověděl, že letos vyhrála Kanada. Na doplňující dotaz, jak přesně tedy finále skončilo, už odpověděl, že to bylo 2:0 v zápase Česko versus Švýcarsko. Přesvědčivý výkon nepodal ani Copilot Pro od Microsoftu. Sice správně uvedl soupeře letošního finále, netrefil ale skóre, podle něj zápas dopadl 4:2 pro Česko. Věděl však, že mistrovství bylo v Praze a Ostravě. Správně také uvedl nový rekord v návštěvnosti.
S přehledem nejhorší byl v této oblasti Claude 3 od Anthropicu, podle kterého vyhrála Kanada. Je třeba ale zopakovat, že program nemá přístup k internetu a jeho poslední informace se tak pojí k loňskému mistrovství světa, kdy skutečně vyhráli hokejisté Kanady.