Oživil jsem svoji kočku a otevřel Apple Store v Olomouci. Otestovali jsme umělou inteligenci Sora

Do Evropy včetně Česka dorazila umělá inteligence Sora, která je schopná generovat video. Vyzkoušeli jsme, co umí a kde jsou její limity.

Tomáš ChlebekTomáš Chlebek

sora-openai-1

Foto: Sora/CzechCrunch

Apple Store v Olomouci, záběr kočky, který není skutečný a Blade Runner na Karlově mostě

0Zobrazit komentáře

Před časem jsem viděl epizodu Black Mirror s názvem Přijdu hned. Hlavní hrdinka v ní přijde o svého milovaného přítele. Velmi kvůli tomu trpí, jistou útěchu jí ale přinese umělá inteligence, která podle příspěvků na sociálních sítích a záznamů soukromých konverzací dokáže vygenerovat virtuální nápodobu zemřelého. A to včetně jeho hlasu i podoby. Ovšem ne bez chyb. Když jsem zkoušel generovat videa v Soře, která právě dorazila do Česka, na tu epizodu jsem si vzpomněl.

Umělá inteligence z dílny OpenAI dokáže generovat videa podle nahraných obrázků, takže mě rychle napadlo použít starší fotografii mojí kočky. Pak stačilo doplnit krátké zadání – „Kočka se rozhlíží kolem, hledá myš“. Asi o minutu později jsem dostal dvě desetivteřinová videa milované Laury, jak chodí v trávě, mává chundelatým ocasem a něco hledá. Jako skutečná kočka. Vlastně to je skutečná kočka, jen zachycená na videu v momentu, který se ve skutečnosti nestal.

Etické otázky kolem umělé inteligence – ať už co se týče zdrojů pro její učení, nebo konečných výstupů – se teprve začínají řešit a do budoucna budou jen čím dál relevantnější. V současnosti je to ale hlavně zajímavý kreativní nástroj s obrovským potenciálem.

Firma, která stojí také za chatbotem ChatGPT a generátorem obrázků DALL-E, Soru poprvé představila loni v únoru prostřednictvím série krátkých klipů. O měsíc později už přišly krátké filmy vytvořené ve spolupráci s profesionálními režiséry a například v Hollywoodu se začalo debatovat o tom, jak dlouho ještě budou potřeba klasické rozsáhlé ateliéry nebo drahé výjezdy na lokace.

Od počátku loňského prosince pak mohli videa generovat také běžní uživatelé, když se jeden z momentálně nejpokročilejších nástrojů umělé inteligence zpřístupnil veřejnosti ve vybraných zemích. O pár měsíců později si teď může Soru v plné funkcionalitě vyzkoušet i Evropa. Nástroj nabízí poměrně široké možnosti práce se zadáními i následnými dodatečnými úpravami.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Po přihlášení do Sory, která sdílí účet s ostatními nástroji OpenAI, dostane uživatel výběr nejzajímavějších vygenerovaných videí, a hned ve spodní části obrazovky se vznáší lišta pro vlastní zadání. Stačí jen krátce popsat požadovanou scénu a začít generovat, nebo můžeme zvolit detailnější nastavení. Na výběr je poměr stran výsledného videa, rozlišení od 480p až do 1080p, délka 5, 10, 15 nebo 20 vteřin, a počet variací – 1, 2 nebo 4 videa.

Samotné zadání může mít formu věty, několika slov nebo jen výčtu požadavků – například „podivně lidská humanoidní mainská mývalí kočka, tančící tiktokový taneček“. Pochopitelně čím detailnější popis, tím přesnější výsledek. Pro komplexnější výstupy přitom můžeme využít Storyboard, kde je možné popsat sérii několika krátkých scén a vytvořit tak celý dvacetivteřinový film.

Velice zajímavou možností je pak nahrávání vlastních zdrojů (obrázků, fotografií i videí), se kterým Sora dále pracuje – jako jsem to udělal já se svojí kočkou. Před nahráním musíme pochopitelně odsouhlasit, že na dané materiály máme plná autorská práva, že neobsahují explicitní záběry a že osoby, které zachycují, nám k použití daly svolení. OpenAI se tak snaží předejít – nebo spíše právně ochránit – vzniku videí jako je klip s celebritami ukazujícími prostředník rapperovi Kanye Westovi.

Já si při testování nejdříve vystačil s fotografií kočky a jednoduchým popiskem. Ve druhém jsem zkusil složitější situaci, otevření Apple Storu v Olomouci. Přesné zadání znělo: „Krátká reportáž z otevření prvního Apple Storu na Horním náměstí v Olomouci. Prodejna je začleněná mezi staré budovy a zapadá do místní architektury. V oknech jsou viditelná loga Applu, před prodejnou čeká dlouhá řada lidí a u vchodu jsou tleskající zaměstnanci Applu v modrých tričkách.“

Výsledek je na první pohled velmi přesvědčivý, jako by do města skutečně dorazila prestižní prodejna. Při bližším pohledu je ale snadné najít chyby – je dobře známé, že umělá inteligence si neumí poradit s textem, takže Apple Store přejmenovala na Alolacplle Store. Chráněnou obchodní značkou to není, jelikož logo firmy s nakousnutým jablkem je správně. Dále se někteří lidé pohybují velice zvláštně a ve skupinkách dokonce splývají dohromady.

Ve třetím příkladu jsem použil nejdetailnější zadání, které pak Sora sama vyhodnotila jako Storyboard. Znělo takto: „Toto je Blade Runner v Praze. Je noc, těžký vzduch je plný smogu a deště. Kamera zachycuje široký záběr Karlova mostu a okolního města ponořeného do neonových světel, v dálce je vidět budova překrytá obřím billboardem s videoreklamou na Coca-Colu. Z tohoto záběru pak kamera zazoomuje do středu akce na Karlově mostě.

Prochází po něm několik lidí s průhlednými deštníky, na nichž je vidět odrazy světel. V jedné plynulé jízdě kamera sleduje dva běžící muže. Jeden z nich je třicátník, má maskulinní tvář s pár oděrkami. V jeho očích je vidět strach, má na sobě futuristické oblečení. Následuje ho druhý muž s klidnou tváří – je to zjevně profesionál, který se nepoddává emocím vypjaté situace. Má na sobě futuristický dlouhý kabát a v ruce má zbraň.“

Mojí snahou bylo vytvořit jeden efektní záběr, v němž kamera přechází z velkého celku na detail dění na mostě a uvede nás do dramatické scény. Umělá inteligence si celý popis rozdělila do čtyř krátkých scén, u nichž ovšem poměrně výrazně pokulhává kontinuita. Estetika je sice jednotná, počítač ale zcela nepochopil, jak má vypadat honička. Ze dvou nahánějících se mužů se stal jeden, který zmateně pobíhá tam a zpátky, a navíc při tom vypadá, jako by kulhal. Deštník má jaksi připevněný k hlavě a v ruce se mu objevuje a zase mizí zbraň.

Prostředí sice nepůsobí tak kyberpunkově, jak jsem si představoval, v tomto ohledu je ale výsledek velice dobrý a přesně splňuje zadání. V další fázi bych mohl poupravit zadání a doplnit další detaily nebo využít funkci „Remix“, která umožňuje specifikovat změny navíc a vygenerovat video znovu. Pokud bych chtěl, mohu si také z několika získaných výstupů přímo v Soře sám sestříhat klip, který by až na obrazové chyby dával smysl.

Vzhledem k délce získaných videí a jejich mnohdy zcela zjevných nedostatcích se nemusíme obávat, že by v blízké době Instagram, TikTok nebo YouTube zaplavily křemíkové halucinace nerozeznatelné od skutečnosti. Už nyní je Sora nicméně nástroj, který lze kreativně využít – například v reklamě a nízkonákladové produkci videí třeba pro vytváření pozadí a nahrazení klipů z videobank. Nebo pro oživení našich miláčků a blízkých. Profesionální produkce by ji mohla použít pro vytváření náhledů a konceptů před natáčením.

Sora je dostupná platícím zákazníkům OpenAI. Předplatné ChatGPT Plus s cenovkou 20 dolarů (480 korun) měsíčně zahrnuje možnost vygenerovat 50 videí při rozlišení do 720p a délce do 10 vteřin. ChatGPT Pro, které vyjde na 200 dolarů (4 800 korun) měsíčně, otevře plné možnosti Sory – dovolí vygenerovat až 500 klipů za měsíc v rozlišení 1080p a délce 20 vteřin.

Bývalí designéři Applu vyvinuli zařízení s cílem nahradit iPhone. Po roce s ostudou končí

Revoluční zařízení s umělou inteligencí, které neumělo nastavit budík, na trhu příliš dlouho nevydrželo. A ostatně se není moc čemu divit.

Filip HouskaFilip Houska

ai-pin-mvp-cc-1

Foto: Filip Houska/CzechCrunch / Humane

AI Pin

0Zobrazit komentáře

Že jste nikdy neslyšeli o malém zázračném zařízení jménem AI Pin? Nevadí, stejně nebylo o co stát – alespoň dle recenzí od známých technologických osobností, které proklamovaného nástupce iPhonu nevybíravě sepsuli. Ostatně když hlásáte do světa své velké vize a pak doručíte sotva jejich zlomek, problém musí přijít. A teď přišel v té největší možné parádě. Nositelná technologie budoucnosti totiž po necelém roce na trhu končí.

Papírově šlo o líbivou představu. Prostě si připnete malý čtvereček s kamerkou třeba na tričko a pak mu dáváte povely hlasem. Když byste chtěli zavolat mámě, řeknete to nahlas. Když byste si chtěli poznamenat myšlenku, vyřknete ji a AI Pin ji uloží. Nebo by vás zajímalo, kolik je hodin? Tím, že magnetický gadget z hliníku nemá displej, nezjistíte to na něm. Chytrý asistent uvnitř zařízení by vám ale to řekl. Případně ukázal na dlani.

Potíž ale přichází v momentě, kdy za údajně revoluční doplněk od dvojice někdejších designérů Applu zaplatíte přes šestnáct tisíc korun a do toho si hradíte měsíční předplatné za několik stovek, protože bez něj by byl AI Pin nepoužitelný, abyste zjistili, že nefunguje tak, jak bylo slíbeno. Sám se o tom přesvědčil Marques Brownlee, známý technologický youtuber, který zařízení přirovnal k tomu „nejhoršímu, co kdy testoval“.

ai-pin

Foto: Humane

AI Pin váží lehce přes 50 gramů a nezatíží žádné oblečení

I když bylo napříč technologickou scénou chválené jeho designové provedení, které působilo minimalisticky a stylově, jen vzhled k úspěchu nestačí. Zařízení totiž drtivou většinou věcí nezvládalo tak jako jeho konkurence, v tomto případě hlavně chytré telefony, které sice nemusí být dnes už tak cool, ale s požadavky uživatelů si v kontextu „nositelného zařízení“ poradí zatím nejlépe.

Na druhou stranu měl AI Pin vlastní operační systém, který mohl být pravidelně vylepšován – a jeho aktualizace by dělaly ze zařízení čím dál lepší produkt. Teď se ale zdá, se i zakladatelé amerického startupu Humane, který malou vychytávku navrhl, se přepočítali. A to tak moc, že jeho další vývoj rovnou vzdali.

ai-pin_marques-brownlee

Přečtěte si takéPager poháněný AI? Nejhorší věc, kterou jsem testoval, řekl youtuberChytrý pager od bývalých designérů z Applu? Nejhorší produkt, který jsem testoval, řekl youtuber

Humane totiž oznámil, že ho za 116 milionů dolarů (2,8 miliardy korun) kupuje počítačový gigant HP, který přebírá jeho technologie, software, know-how a obecně veškeré duševní vlastnictví včetně tří stovek patentů. A jak uvádí HP v oficiálním vyjádření, hlavní přidanou hodnotou celého obchodu mají být zkušenosti startupu s vývojem umělé inteligence. Spolu s tím pod křídla nového majitele putuje i většina zaměstnanců.

„Jeho platforma Cosmos, postavená na umělé inteligenci, nám pomůže vytvořit inteligentní ekosystém napříč všemi zařízeními HP: od počítačů s umělou inteligencí až po chytré tiskárny a propojené konferenční místnosti. To našim zákazníkům odemkne nové úrovně funkcí,“ komentuje Tuan Tran, prezident technologií a inovací v HP. Něco ale do velké transakce zahrnuto není. A není příliš složité uhodnout co…

ai-pin-cc-x

Foto: Humane

Díky čočce umí AI Pin promítat obsah… třeba na dlaň

Chybí AI Pin, který jednoduše končí, po necelém roce, co byl loni v dubnu představen. V provozu bude do 28. února, pak se odpojí ze serverů a stane se prakticky nepoužitelným kusem hardwaru. Humane zároveň vyzývá uživatele, aby si včas stáhli fotky, videa a další obsah, který mají v zařízení uložený z cloudu. Pokud tak neučiní do posledního dne tohoto měsíce, zřejmě o něj natrvalo přijdou.

Zajímavá v kontextu rychlého konce je i spekulace, že zakladatelé měli hledat nového majitele krátce poté, co AI Pin představili. A očekávali, že jim za to zaplatí až miliardu dolarů. Měli si být totiž vědomi zásadních nedokonalostí, které jejich zařízení má. Například příliš dlouhou čekací dobu na odpověď po položení dotazu, uživatelsky neatraktivní rozhraní nebo přehřívání během používání, což při připnutí na tělo není nic příjemného.

Jestli ale AI Pin něco alespoň trochu pozitivního a zajímavého ukázal, bylo to využití kamery. Zařízení totiž v sobě skrývá malou čočku, která dokáže mapovat, kde se člověk nachází, a podle toho odpovídat na to, jestli třeba stojí za to navštívit restauraci, okolo které se zrovna pohybuje. Vycházelo z dostupných recenzí na internetu. I v tomto případě ale recenzenti v úvodních testech naráželi na to, že analýza příliš dlouho trvá, často i desítky vteřin.

Ať je to jak chce, takto rychlý pád zřejmě nečekali ani prominentní investoři, kteří Humane v začátcích podpořili. Například Sam Altman z OpenAI nebo Marc Benioff ze Salesforcu se podíleli na investici ve výši 230 milionů dolarů (5,5 miliardy korun). Jednoduše proto, že věřili, že nový formát nositelného zařízení má alespoň nějakou budoucnost. Teď je ale jasno. Prozatím.