Nový král řečových modelů od OpenAI je tu. GPT-4 rozumí obrazům a má být spolehlivější
OpenAI ho zatím zpřístupnilo jen vybraným vývojářům. Dorazit má ale i do textového generátoru ChatGPT. Má být chytřejší a tvárnější.
Firma OpenAI oznámila příchod nové generace svého řečového modelu GPT, na kterém stojí třeba známý textový generátor ChatGPT nebo nová verze vyhledávače Bing od Microsoftu. Oproti svému předchůdci má mít o poznání lepší schopnosti. Dokáže odpovědět i na obrazové zadání, poradí si s delším textem než doteď, ve svých odpovědích méně halucinuje, a v konverzaci navíc dovede předstírat roli, kterou mu uživatel zadá. Model zvaný GPT-4 je zatím dostupný omezeně především vývojářům.
„GPT-4 není jen řečovým, ale i vizuálním modelem,“ řekl při ukázce nové generace neuronové sítě prezident a spoluzakladatel OpenAI Greg Brockman. Nový řečový model nazvaný GPT-4 je totiž multimodální. To znamená, že mu uživatel může zadávat pokyny jak formou textu, tak i obrazu, případně kombinací obojího. Odpovědět program dokáže stále pouze formou textu, obrázky nevytvoří.
V praxi se tím nicméně otevírají další zajímavé způsoby použití. Tak například webový návrhář může jednoduše vyfotit ručně nakreslenou skicu zamýšlené podoby internetové stránky, nahrát ji do uživatelského prostředí modelu GPT-4, zadat mu, aby napsal kód takové stránky, a je hotovo. Program navrhne funkční kód, který samozřejmě, jak sám Brockman při představení opakoval, může mít chyby, ale z velké části je použitelný. Stejně tak může uživatel požádat o vysvětlení složitého grafu nebo nového memu, který mu zrovna přistál ve zprávě od přítele, jak můžete vidět na obrázku níže.
Podle dostupných informací by si také nová generace řečového modelu měla poradit s obsáhlejším zadáním. Zvládne pracovat s textem delším než 25 tisíc slov. To je podstatně více než u předchozí generace, GPT-3.5, která dokázala pracovat maximálně se zadáním dlouhým zhruba 1 500 slov. Podle šéfů OpenAI je GPT-4 ve svých odpovědích také přesnější a méně si v nich „vymýšlí“.
GPT-4 je zatím dostupný přes čekací listinu, a to ne v internetovém prohlížeči, ale pouze jako API, tedy rozhraní pro programování aplikací, byť by v přívětivější webové aplikaci měl být v dohledné době také k dispozici. „Buďte trpěliví, nakonec bude dostupný všem,“ řekl při ukázce schopností nového modelu Brockman.
Schopnosti GPT-4 mimo jiné ilustruje i to, jak si ve srovnání s předchozí generací poradil s různými standardizovanými testy. Třeba v Uniform Bar Exam, což je test, který hodnotí znalosti a schopnosti absolventů právnických fakult v USA. V něm se nový řečový model umístil mezi deseti nejlepšími procenty studentů, výsledek jeho předchůdce stačil pouze na spodních deset procent.
Uživatel by měl také být schopný upravovat tón textového generátoru a uvádět ho podle potřeby v konverzaci do určitých rolí. „Namísto programu s pevně daným slovosledem, tónem a stylem mohou nyní vývojáři, a brzy i uživatelé ChatGPT, předepsat umělé inteligenci styl nebo úkol,“ píše Open AI.