Nejrychlejší umělou inteligenci může vyzkoušet každý. „Špekouna Jimmyho“ pohání přelomová technologie

Kanadská firma přepsala pravidla hardwaru pro umělou inteligenci. Její čip nepotřebuje obří servery ani klimatizované sály.

chat-jimmy-nejrychlejsi-ai
Foto: chat jimmy/CzechCrunch
0Zobrazit komentáře

Když se kanadský podnikatel a bývalý vedoucí pracovník Nvidie Ljubiša Bajić rozhodl odejít z jedné z nejrespektovanějších firem v oblasti čipového designu a založit vlastní startup, mnozí to zřejmě považovali za bláznovství. Vstupovat na trh, kde dominují giganti jako právě Nvidia, Google nebo Apple, znamená postavit se firmám s desetiletími zkušeností a téměř neomezenými rozpočty. Bajić v tom ale měl jasno. Podle něj se celý obor vydal špatným směrem a on to chtěl změnit – a teď ukazuje jak.

Lídři trhu se dnes místo hledání efektivnější architektury se soustředí hlavně na zvětšování čipů, přidávání paměti a budování stále větších datových center. Bajić ale chtěl jít opačnou cestou a změnit samotný princip, na kterém dnešní AI hardware stojí. A tak vsadil na nejistotu, z čehož vzešel čip HC1. Pokud jste v posledních týdnech na sociálních sítích narazili na příspěvky, v nichž lidé nevěřícně popisují chatbota odpovídajícího skoro dřív, než uživatel stihne domyslet otázku, setkali jste se pravděpodobně s produktem firmy Taalas, s umělou inteligencí, kterou právě tato technologie pohání.

Abychom pochopili, proč je toto řešení tak zajímavé, je dobré si stručně připomenout, jak dnes umělá inteligence vlastně funguje. Když pošlete zprávu službě jako ChatGPT nebo Claude, v pozadí se spustí rozsáhlá infrastruktura. V datových centrech pracují celé řady serverů osazené výkonnými grafickými čipy, z nichž každý vyjde asi tak na stejnou částku jako slušné auto.

Pro každé jedno slovo odpovědi musí systém provést obrovské množství matematických operací. Neustále načítá data z paměti, ukládá mezivýsledky a celý proces opakuje znovu a znovu. Právě toto neustálé přesouvání dat mezi výpočetní částí a pamětí je jedním z hlavních důvodů vysoké spotřeby energie i nákladů.

Vývojáři problém nazývají paměťová zeď. Jde o situaci, kdy je procesor rychlejší než paměť, takže musí neustále čekat na data. Na rozdíl od lidského mozku, v němž jsou zpracování i paměť propojené v neuronech, mají dnešní AI čipy výpočetní část a paměť oddělenou. Nvidia na to reaguje hlavně přidáváním větší a rychlejší paměti, lepším chlazením a budováním stále větších datových center.

Nastartujte svou kariéru

Více na CzechCrunch Jobs

Tým Taalasu ale přišel s radikální myšlenkou. Co kdyby AI vůbec nepotřebovala paměť? Místo ukládání znalostí do paměťových čipů se technologie Hard Coded Inference přímo zapíše do křemíku. Váhy modelu se tak stanou fyzickým uspořádáním tranzistorů na čipu a otázka od uživatele pak nečeká na načítání dat. Prostě projde čipem jako voda potrubím. Na vstupu je otázka a na výstupu okamžitá odpověď.

Výsledek pak opravdu stojí za pozornost, zejména ve srovnání s momentálně nejlepšími čipy na trhu. Podle serveru Medium například nejpokročilejší technologie od Nvidie, čip H200, zvládne při zpracování modelu Llama 3.1 8B přibližně 230 slov za sekundu. Specializovaná firma Cerebras z Toronta, která vyvíjí AI hardware už řadu let, pak dosahuje přibližně dvou tisíc slov za sekundu. Takové výkony však u obou firem vyžadují investice v řádech desítek milionů dolarů a technicky náročná řešení, jako jsou třeba kapalná chlazení.

novy-galaxy-1

Přečtěte si takéSamsung ukázal nové telefony. Bude za vás zvedat hovoryNové telefony od Samsungu vsadily na hliník a citlivější čočky. A mají i jednu vychytávku pro introverty

Čip HC1 od Taalasu však dokáže zpracovat neuvěřitelných 15 700 slov za sekundu. A to při příkonu pouhých 200 wattů, což je méně než polovina spotřeby modelu H200. Navíc výroba takového čipu stojí dvacetkrát méně. Tato čísla působí natolik extrémně, že by mohla vyvolat i podezření, zda se nejedná o podvod. Možná i proto Taalas zpřístupnil veřejnosti chatbota Jimmyho, stránku, jíž kraluje vtipné logo s obézním chlapíkem, jemuž za zády šlehají plameny a jehož bleskovou rychlost si může vyzkoušet každý.

Není to AI, jak ji znáte

Je však důležité si uvědomit, že HC1 není vyloženě „chytrý nástroj“, na který jsme zvyklí u velkých cloudových služeb. Do HC1 se totiž žádný model neuronové sítě nenahrává. Modelem je samotný čip a jeho elektrické obvody. Procesor je tedy vyrobený na míru konkrétní AI, která jej sama tvoří. V tomto případě jde o jazykový model Llama 3.1 8B s osmi miliardami parametrů.

Pro laika je důležité pochopit, co ony „parametry“ vlastně znamenají. Představte si je jako buňky nebo spoje v digitálním mozku. Čím více jich AI má, tím složitější souvislosti dokáže pochopit a tím hlubší jsou její znalosti.

Zatímco 8 miliard parametrů odpovídá schopnostem velmi chytrého kapesního slovníku nebo asistenta, ty největší chatboty současnosti pohání neuronové sítě se stovkami miliard parametrů, které připomínají spíše celou univerzitní knihovnu.

Osm miliard parametrů sice není v porovnání s giganty žádná sláva, díky promítnutí architektury přímo na samotný křemík nicméně Taalas dosáhl naprosto bezprecedentní rychlosti v generování textu. Jimmyho sice pohání výrazně jednodušší jazykový model a není to žádný špičkový ChatGPT, Gemini či Claude, v angličtině však reaguje obstojně a výsledek zobrazí do milisekund.

Jeden tranzistor vládne všem

Za výkonem „obézního Jimmyho“ a čipu HC1 stojí i další unikátní vynález: speciálně navržený tranzistor, který Taalas popisuje jako svůj „magický násobič“. Tento prvek dokáže současně uložit čtyři bity informace a rovnou s nimi provést matematickou operaci. Paměť a výpočetní jednotka se zde v podstatě sloučily do jednoho.

Každý čip HC1 je specializovaný: umí provozovat pouze jeden konkrétní AI model. Pokud chcete jiný, potřebujete jiný čip. To může znít v době překotného vývoje jako fatální nevýhoda. Taalas tento problém hájí tím, že výcvik špičkového modelu umělé inteligence dnes stojí miliardy dolarů. Výroba zákaznického čipu pro jeden konkrétní model je však přibližně stokrát levnější a od dodání dat po hotový křemík zabere dodavateli pouhé dva měsíce.

Startup již získal investice ve výši 200 milionů dolarů, přičemž vývoj prvního čipu stál podle serveru Forbes jen zlomek této částky, zhruba 30 milionů dolarů. Důsledky této technologie by přitom mohly změnit pravidla hry. Dnešní AI je silně centralizovaná a závislá právě na obřích datových centrech. Čip o velikosti grafické karty, který zvládne hostovat jazykový model lokálně a bez připojení k síti, otevírá cestu k bezpečné AI v nemocnicích, v regionech bez internetu nebo přímo v domácích spotřebičích. A to vše s výrazně nižší spotřebou energie.