Nový král řečových modelů od OpenAI je tu. GPT-4 rozumí obrazům a má být spolehlivější

OpenAI ho zatím zpřístupnilo jen vybraným vývojářům. Dorazit má ale i do textového generátoru ChatGPT. Má být chytřejší a tvárnější.

Jiří BlatnýJiří Blatný

dalle2gpt-4

Foto: DALL·E 2/CzechCrunch

Ilustrace z dílny programu DALL·E 2 od OpenAI

0Zobrazit komentáře

Firma OpenAI oznámila příchod nové generace svého řečového modelu GPT, na kterém stojí třeba známý textový generátor ChatGPT nebo nová verze vyhledávače Bing od Microsoftu. Oproti svému předchůdci má mít o poznání lepší schopnosti. Dokáže odpovědět i na obrazové zadání, poradí si s delším textem než doteď, ve svých odpovědích méně halucinuje, a v konverzaci navíc dovede předstírat roli, kterou mu uživatel zadá. Model zvaný GPT-4 je zatím dostupný omezeně především vývojářům.

„GPT-4 není jen řečovým, ale i vizuálním modelem,“ řekl při ukázce nové generace neuronové sítě prezident a spoluzakladatel OpenAI Greg Brockman. Nový řečový model nazvaný GPT-4 je totiž multimodální. To znamená, že mu uživatel může zadávat pokyny jak formou textu, tak i obrazu, případně kombinací obojího. Odpovědět program dokáže stále pouze formou textu, obrázky nevytvoří.

V praxi se tím nicméně otevírají další zajímavé způsoby použití. Tak například webový návrhář může jednoduše vyfotit ručně nakreslenou skicu zamýšlené podoby internetové stránky, nahrát ji do uživatelského prostředí modelu GPT-4, zadat mu, aby napsal kód takové stránky, a je hotovo. Program navrhne funkční kód, který samozřejmě, jak sám Brockman při představení opakoval, může mít chyby, ale z velké části je použitelný. Stejně tak může uživatel požádat o vysvětlení složitého grafu nebo nového memu, který mu zrovna přistál ve zprávě od přítele, jak můžete vidět na obrázku níže.

Podle dostupných informací by si také nová generace řečového modelu měla poradit s obsáhlejším zadáním. Zvládne pracovat s textem delším než 25 tisíc slov. To je podstatně více než u předchozí generace, GPT-3.5, která dokázala pracovat maximálně se zadáním dlouhým zhruba 1 500 slov. Podle šéfů OpenAI je GPT-4 ve svých odpovědích také přesnější a méně si v nich „vymýšlí“.

gpt-4

Foto: OpenAI/Sceenzy

Nový řečový model si poradí i se zadáním, které kombinuje text a obraz

GPT-4 je zatím dostupný přes čekací listinu, a to ne v internetovém prohlížeči, ale pouze jako API, tedy rozhraní pro programování aplikací, byť by v přívětivější webové aplikaci měl být v dohledné době také k dispozici. „Buďte trpěliví, nakonec bude dostupný všem,“ řekl při ukázce schopností nového modelu Brockman.

Schopnosti GPT-4 mimo jiné ilustruje i to, jak si ve srovnání s předchozí generací poradil s různými standardizovanými testy. Třeba v Uniform Bar Exam, což je test, který hodnotí znalosti a schopnosti absolventů právnických fakult v USA. V něm se nový řečový model umístil mezi deseti nejlepšími procenty studentů, výsledek jeho předchůdce stačil pouze na spodních deset procent.

Uživatel by měl také být schopný upravovat tón textového generátoru a uvádět ho podle potřeby v konverzaci do určitých rolí. „Namísto programu s pevně daným slovosledem, tónem a stylem mohou nyní vývojáři, a brzy i uživatelé ChatGPT, předepsat umělé inteligenci styl nebo úkol,“ píše Open AI.

Při testování vývojáři z OpenAI novému modelu například zadali, aby působil jako lektor ve stylu athénského filozofa Sokrata. „Nikdy studentovi nedávej přímou odpověď, ale vždy se ho k ní snaž navést správnou otázkou, která mu pomůže naučit se samostatně přemýšlet,“ přikázali modelu.

Když se pak uživatel ve stejné konverzaci zeptal na řešení lineární rovnice, model opravdu místo přímé odpovědi uživatele návodnými otázkami vedl správným směrem, až se sám zdárné dobral odpovědi. Podobně ho člověk může dosadit do role programátora, který bude pomáhat s psaním kódu a zároveň vysvětlovat své postupy při jeho tvorbě. Upravovat tón odpovědí lze, byť ne tak rozšířeně, i v nové verzi vyhledávače Bing, kde lze umělé inteligenci Chat předepsat, zda má být v odpovědích kreativní, vyvážená nebo přesná.

OpenAI, zároveň s novou generací řečového modelu oznámila, že už se spojila s několika partnery, kteří GPT-4 implementují do svých služeb. Mezi nimi uvádí třeba cloudové uložiště Dropbox, nový model má být dostupný také v aplikaci pro cvičení cizích jazyků Duolingo nebo výukovém portálu Khan Academy. OpenAI také nový model poskytla islandské vládě, která ho využívá při snahách zachovat islandský jazyk.

sumpletechatgpt

Přečtěte si takéSudoku říznuté piškvorkami. Textový generátor ChatGPT navrhl hruSudoku říznuté piškvorkami. Zahrajte si hru, kterou vymyslel a nakódoval textový generátor ChatGPT

Veřejné testování těchto obrovských řečových modelů, předchozí model GPT-3.5 pracuje se 175 miliardami parametrů, je možné také díky tomu, že OpenAI razí přístup, že nejlepší cesta pro neustálé zlepšování umělé inteligence je právě ta veřejná. Je to názor, který firmě už pátým rokem vštěpuje její technická ředitelka Mira Murati.

V poslední době umělou inteligenci založenou na technologii od OpenAI, ale i jiných firem, zavádí další a další služby. Minulý týden oznámila chytré funkce společnost Salesforce pro svůj program pro týmovou komunikaci Slack. ChatGPT vám také pomůže s životopisem u slovenského Kickresume a využití má i v herním průmyslu. Experimentuje s ním například české studio Legend has it.

Diskuze (0)

Novinka

Anonym