Udělali jsme soutěž AI. Jedna vymyslela výlet z Bratislavy do Valencie, další recept na pudink z chleba

Postavili jsme proti sobě populární textové generátory poháněné umělou inteligencí. Co by se mohlo pokazit? Programy pomohly, ale byly i k smíchu.

Jiří BlatnýJiří Blatný

robotiatleti

Foto: CzechCrunch / Midjourney

Uspořádali jsme souboj programů umělé inteligence

0Zobrazit komentáře

Letos je sportovní rok. Hokejové mistrovství světa máme za sebou, za dveřmi je evropský šampionát ve fotbale a vrcholem bude olympiáda v Paříži. V redakci jsme proto uspořádali čtyřboj, jen v trochu jiných disciplínách než v těch sportovních. Na start pomyslného závodu jsme vedle sebe postavili aktuálně nejpopulárnější textové generátory a zadali jim několik úkolů. Kam nás poslaly na dovolenou? Co bychom si podle nich měli uvařit ze zbytků v lednici? A vědí, kolik jsme vstřelili gólů ve finále proti Švýcarům?

Generativní umělá inteligence možná už netáhne tak, jako když na konci roku 2022 OpenAI vydalo program ChatGPT a spustilo vlnu euforie. Stále ale platí, že je to jedno z nejžhavějších technologických odvětví a startupy se předhánějí v objemu získaných investic i ve schopnostech svých vlajkových programů, které vydávají v rychlém tempu. Protože se v poslední době nových programů poháněných AI objevilo poměrně hodně, rozhodli jsme se je porovnat.

Mezi sebou soutěžily dnešní zřejmě nejpopulárnější programy ve svých nejvyšších verzích. V dráze číslo jedna byl nejnovější model od firmy OpenAI Sama Altmana GPT-4o. Na umělé inteligenci od Altmanovy firmy je založený i program mecenáše OpenAI Microsoftu, Copilot Pro. Dráha číslo tři: Gemini Advanced od Googlu poháněný modelem Gemini 1.5. Následují generátory dvou jednorožců: Perplexity AI se stejnojmennou službou ve verzi Pro a Anthropic odpadlíků z OpenAI a jejich nejnovější textový generátor Claude 3.

Všechny systémy od nás dostaly na chlup stejné zadání v angličtině. Chtěli jsme po nich plán dovolené, aktuální informace, recept na večeři a fitness plán. Ve většině případů šlo o jedno zadání, u některých témat jsme navázali doplňujícími dotazy. Systémy, které jsme testovali, jsou v plném nebo omezeném režimu dostupné zdarma (GPT-4o, Claude 3, Perplexity Pro), případně jsme si zařídili přístup do zkušební verze na první měsíc zdarma (Gemini Advanced, Copilot Pro).

Vítězové stručně

  • Chcete plánovat? Gemini Advanced (Google)
  • Potřebujete se orientovat v aktuálním dění? Gemini Advanced (Google)
  • Nenapadá vás, co si uvařit? Perplexity Pro (Perplexity AI)
  • Chcete zkusit fitness plán od umělé inteligence? Perplexity Pro (Perplexity AI)

S kým plánovat dovolenou?

Vítěz: Gemini Advanced (Google)
Čestné uznání: Copilot Pro (Microsoft)
Propadák: GPT-4o (OpenAI)

Je čas na první disciplínu, kterou je plánování. A protože je už červen, co jiného by to mělo být než dovolená? Zadání znělo: „Pomoz mi naplánovat týdenní cenově dostupnou dovolenou pro mladý pár v evropské letní destinaci s aktivitami zaměřenými na relaxaci a objevování tamní kultury. Navrhni ubytování v blízkosti zajímavých míst. Vymysli podrobný program cesty, doporuč vhodné aktivity a možnosti stravování. Vytvoř i odhad nákladů.“

S úkolem si nejlépe poradil systém Gemini Advanced od Googlu, který nás poslal do portugalského hlavního města Lisabonu. Doporučil se ubytovat v jednom ze dvou hostelů v centru města, ke kterým sám poskytl odkazy. Následoval stručný itinerář, který v pár větách navrhl aktivity na jednotlivé dny. Opět nechyběly funkční odkazy, díky kterým šlo lehce zkontrolovat, jestli by o daný výlet měl člověk opravdu zájem. Jako základ pro podrobnější zařizování podle nás ideální.

Nápomocný byl ale i Copilot Pro od Microsoftu. Ten nám sice jako destinaci doporučil domovskou Prahu, po prosbě o náhradu nicméně navrhl několik variant: opět Lisabon, španělskou Valencii a estonský Tallinn.

Do portugalského hlavního města nás poslaly i GPT-4o a Claude 3. Oba přišly s detailním itinerářem s programem a odhadem cen. U prvního zmiňovaného byl ale problém v tom, že sám od sebe neuvedl odkazy jako Gemini. Když o ně člověk požádal, sice je dodal, ale většina z nich byla nefunkčních. Claude zase nemá přístup k internetu, což linky znemožňuje.

Za zmínku stojí i program Perplexity Pro, který se proaktivně doptává na upřesnění. Vymyslel ale docela kuriózní plán. Začátek týdne v Bratislavě a pak přesun do španělské Valencie. Jak zhruba tři tisíce kilometrů, které obě města dělí, máme překonat, jsme se nedozvěděli. Poskytnuté informace navíc byly bez odkazů, na požádání se ale objevily a fungovaly.

Koho se ptát na aktuality?

Vítěz: Gemini Advanced (Google)
Čestné uznání: GPT-4o (OpenAI)
Propadák: Copilot Pro (Microsoft)

Druhé kolo soutěže zůstalo obrazně řečeno doma. S aktuálními otázkami si totiž nejlépe poradil opět systém od Googlu, jedničky v internetovém vyhledávání. Gemini Advanced odpovídal sice stručně, ale přesně. Věděl, že ve finále hokejového mistrovství světa vyhrálo Česko nad Švýcarskem 2:0. Byl si vědom i diváckého rekordu, který padl, a trefil počet návštěvníků. GPT-4o oproti tomu sice věděl, že národní tým vyhrál nad Švýcary 2:0, a jména hráčů, kteří dali gól. Také správně odpověděl, že se hrálo v Praze a Ostravě a že byl zlomen divácký rekord. Na rozdíl od konkurence od Googlu se ale netrefil v přesném počtu diváků.

Zbytek startovního pole měl ale s aktuálními otázkami problémy. Program Perplexity Pro například špatně odpověděl, že letos vyhrála Kanada. Na doplňující dotaz, jak přesně tedy finále skončilo, už odpověděl, že to bylo 2:0 v zápase Česko versus Švýcarsko. Přesvědčivý výkon nepodal ani Copilot Pro od Microsoftu. Sice správně uvedl soupeře letošního finále, netrefil ale skóre, podle něj zápas dopadl 4:2 pro Česko. Věděl však, že mistrovství bylo v Praze a Ostravě. Správně také uvedl nový rekord v návštěvnosti.

S přehledem nejhorší byl v této oblasti Claude 3 od Anthropicu, podle kterého vyhrála Kanada. Je třeba ale zopakovat, že program nemá přístup k internetu a jeho poslední informace se tak pojí k loňskému mistrovství světa, kdy skutečně vyhráli hokejisté Kanady.

Recept na večeři ze zbytků

Vítěz: Perplexity Pro (Perplexity AI)
Čestné uznání: Gemini Advanced (Google), Claude 3 (Anthropic)
Propadák: GPT-4o (OpenAI), Copilot Pro (Microsoft)

Další disciplína nás napadla při pohledu na obsah tašky plné potravin s blížícím se datem spotřeby, kterou jsme si objednali přes aplikaci Nesnězeno. V objednávce se sešlo půl kila gothajského salámu, půl kila loveckého salámu a opět asi půl kila baget. AI jsme se tak rozhodli potrápit. Měla z těchto a několika dalších základních ingrediencí vymyslet realistický a chutný pokrm, nazvat ho a připravit jasný postup krok za krokem, abychom si ho mohli uvařit.

Jako zdatný kuchař se ukázal program Perplexity Pro, které navrhl recept nazvaný Frittata se salámem a vejci s křupavou bagetou a máslem. Použil opravdu jen povolené ingredience a pracovní postup byl logický, jasný a přehledný, takže by výtvor snad zvládl uvařit i autor tohoto textu. Podobně realisticky a chutně zněl i návrh od Gemini Advanced, který přišel s Vydatnou loveckou míchanicí. Jednoduše smícháte cibuli, vajíčka a salámy se sýrem a máte hotovo. Neztratil se ani Claude 3, který vymyslel pokrm s názvem Bagetové lodě se salámem a cibulí, v podstatě obložené bagety.

chlebovy-pudink-od-ai

Foto: CzechCrunch / OpenAI

Chlebový pudink podle AI

Naopak do kuchyně byste rozhodně neměli pouštět Copilota Pro od Microsoftu. Ten totiž absolutně ignoroval konkrétní pokyny, že má použít jen uvedené ingredience, a vymyslel špagety carbonara s kuřecím masem. Což o to, pokrm by to mohl být dobrý, jenže těstoviny ani ostatní ingredience k nim nebyly v našem zadání.

Nepředvedl se ani GPT-4o od OpenAI, který přišel s čímsi pojmenovaným Chlebový pudink se salámem a cibulí. Na první dobrou to určitě nezní jako něco, co bychom chtěli jíst. Na druhou stranu, když jsme požádali o ilustraci (viz výše), do něčeho takového bychom se asi zakousli s chutí.

S kým začít sportovat?

Vítěz: Perplexity Pro (Perplexity AI)
Čestné uznání: ostatní
Propadák: –

Zkusili jsme také programům umělé inteligence zadat, aby nám vytvořily pohybový týdenní plán. Oproti předchozím disciplínám byla tato nejvyrovnanější. Všechny systémy poskytly na první pohled realistické návrhy. Rozhodovaly tak detaily, díky kterým nejlepší výkon podal opět Perplexity Pro. Z jeho odpovědi se totiž člověk jednoduše dostane k různým článkům na webech nebo videím, kde si může prohlédnout, jak navrhované cviky správně provádět. Perplexity zároveň na konci odpovědi nabízí několik dalších souvisejících dotazů.

altman-x-johansson

Přečtěte si takéScarlett Johansson vs. OpenAI. Herečce vadí hlas umělé inteligenceScarlett Johansson vyrazila do boje proti OpenAI. Vadí jí hlas umělé inteligence, firma ho radši stáhla

Z naší malé technologické olympiády je patrné, že se jednotlivé systémy liší v různých oblastech využití. Nejvíce překvapil výkon Gemini Advanced od Googlu, který vynikal v plánování dovolené a poskytování aktuálních informací. Perplexity Pro se osvědčil jako vynikající pomocník v kuchyni i při tvorbě fitness plánu. Za očekáváními zůstaly Copilot Pro a zejména GPT-4o, který je přitom aktuálně tím asi nejznámějším programem AI.

Generativní umělá inteligence však samozřejmě neumí jen tvořit texty. Nejnovější systémy, jako je právě GPT-4o, jsou takzvaně multimodální, umí tedy pracovat i s obrazem, zvukem a videem. Nový model od OpenAI při svém představení zaujal zejména tím, jak dokáže plynule nahlas mluvit a udržovat konverzaci. Opět to ale vyvolalo otázky ohledně práce s daty při trénování umělé inteligence a za podobnost hlasu GPT-4o se do OpenAI obula herečka Scarlett Johansson.