Kdeže obrázky, umělá inteligence vytvoří i videa. Program Mety ale zatím umí jen nekvalitní klipy
Zobrazení pohybu je pro umělou inteligenci těžší než jen statický obraz. Program Mety tak zatím umí jen krátké a rozmazané klipy, rychle se ale učí.
O obrazových generátorech poháněných umělou inteligencí se toho už napsalo hodně. A není divu, jejich schopnosti se stále zlepšují. Zadáte text, pár vteřin počkáte a program vám vyrobí jakýkoliv obrázek, který byste často těžko rozeznali od reálné fotky. Podobně, jako se v dovednostech předhánějí jednotlivé generátory snímků, závodí i tvůrci umělé inteligence, která textové zadání přetvoří rovnou ve video. Takový program teď představil technologický gigant Meta Marka Zuckerberga.
Systém se jmenuje Make-A-Video a funguje stejně jako obrazové generátory, o kterých jsme v CzechCrunchi v poslední době psali. Na základě textového pokynu umělá inteligence ale vygeneruje video. „Opět tím posouváme možnosti kreativity,“ uvedla Meta při představení.
Je však nutné podotknout, že generovaná videa jsou dlouhá maximálně jen pět sekund a jejich obrazová kvalita zatím také neuchvátí. Podle Zuckerberga má sice program stále mouchy, je to podle něj ale přece jen další krůček vpřed v oblasti umělé inteligence. „Je o dost těžší generovat video než snímky, protože kromě toho, že musí systém správně vytvořit každý jednotlivý pixel, musí i správně předpovědět, jak se budou proměňovat v průběhu času,“ vysvětluje Zuckerberg.
Ve studii inženýrů Mety vědci fungování modelu popisují detailněji. Make-A-Video se učí na základě databáze obrázků s popisky, stejně jako obrazové generátory. Navíc má ale k dispozici i videa, ze kterých je systém schopný učit se bez nutnosti popisků obsahu. „Idea je naučit program, jak vypadá svět a jak se popisuje slovy, k tomu slouží snímky s popisky. Videa umožňují naučit systém, jak se ten svět pohybuje,“ vysvětlují vědci. Dohromady má tak umělá inteligence k dispozici miliony videí z internetu či fotobank.
We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.
Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
— Meta AI (@MetaAI) September 29, 2022
Program ale zatím není dostupný veřejnosti, byť je na webu dostupný formulář, kterým se mohou zájemci přihlásit k dalším budoucím novinkám. Kdy přesně si ho lidé budou moci vyzkoušet, to zatím není jasné. Zuckerberg ale v citovaném facebookovém příspěvku uvádí, že plánuje demo programu v budoucnu zpřístupnit.
Protože zatím jediná dostupná videa vytvořila sama Meta, nelze se přesvědčit o kvalitách systému Make-A-Video na vlastní kůži. Je tedy možné, že firma jednoduše vybrala povedenější kusy, aby svůj program ukázala v nejlepším světle, jak upozorňuje server The Verge.
Sami vědci v citované studii přiznávají, že rozmazanost a nízká obrazová kvalita nejsou zdaleka jediné problémy, které dnes program má. Nedokáží ho třeba zatím naučit informace, které by z videa dokázal vyvodit člověk. Když například po programu chcete, aby zobrazil mávajícího člověka, má se jeho ruka pohybovat zleva doprava, nebo zprava doleva?
Nastartujte svou kariéru
Více na CzechCrunch JobsStejně jako v případě obrazových generátorů však i u této umělé inteligence platí přímá úměra – čím víc vygenerovaného obsahu, tím lepší výkon. Spoléhá totiž na princip strojového učení. Právě díky tomu se raketovým tempem v posledních dvou letech posunuly i schopnosti obrazových generátorů. Kvůli větší složitosti je ale rovněž pravděpodobné, že rychlost vývoje v případě generování videa nebude tak vysoká.
Tvůrci a umělci si tak možná už brzy budou moct do svého kreativního inventáře zapsat další pomůcku. Nástup těchto technologií však kromě nadšení vyvolává i dlouhou řadu etických a právních otázek, například ohledně autorského práva nebo ochrany osobních údajů a soukromí.
Meta není jediná, která se vývojem umělé inteligence tvořící videa zabývá. Letos s podobným systémem přišli výzkumníci čínské Univerzity Čching-chua a Pekingského institutu umělé inteligence. Jejich program CogVideo je podle The Verge zatím jediný takový veřejně dostupný systém. Tvůrci jeho kód zpřístupnili přes GitHub.