Lokálna AI v praxi.

V svete veľkých jazykových modelov (LLM), akým je napríklad lokálne bežiaca Llama 3, sa výkon už dávno nemeria len v hrubých megahertzoch. Keď skúšame spustiť umelú inteligenciu na vlastnom železe, namiesto klasického boja o najvyššie skóre v benchmarkoch sa pred nami otvára iná otázka. Otázka hardvérovej harmónie a exkluzivity výpočtových prostriedkov. Namiesto abstraktného „je to pomalé“ alebo „je to rýchle“ sa dnes pozrieme na presnú a merateľnú predstavu o tom, ako veľmi sa architektúra procesorov a grafických kariet zmenila. Rýchlosť v praxi: Čo znamená TPS a kde sme dnes? Aby sme pochopili priepasť medzi generáciami, musíme sa pozrieť na metriku TPS (Tokens Per Second – tokenov za sekundu). Token je základná jednotka, z ktorej AI skladá slová (zhruba tri štvrtiny bežného slova). Pre predstavu: bežný človek číta rýchlosťou približne 4 až 5 tokenov za sekundu. Ak umelá inteligencia generuje text pomalšie, máme pocit, že systém „mrzne“ alebo sa trápi. Ako v tomto meraní dopadol náš testovací hardvér pri spúšťaní modelu Llama 3 (8B)? Do porovnania sme zaradili nedávno oživený notebook Asus KV95 s procesorom z roku 2013 (ktorý dostal čerstvú teplovodivú pastu a maximálnu starostlivosť), starší desktopový štandard, špecifický prípad grafickej karty z roku 2016 a súčasné moderné riešenia.

Generačný posun lokálnej AI – ako rýchlo generujú text rôzne hardvéry

Zariadenie	Výkon (TPS)	Vizualizácia	Poznámka
Intel Core i5-3230M (2013 notebook)	1 – 2 TPS	█	Systém sa prehrieva až na 97 °C, text sa generuje pomalšie než bežné čítanie.
Nvidia GTX 1050 Ti (2016, 4 GB VRAM)	5 – 8 TPS	██████	Využíva CUDA jadrá, ale naráža na limit pamäte.
AMD Ryzen 5 2400G (2018 desktop)	5 – 8 TPS	██████	Plynulý beh, drží krok s rýchlosťou čítania.
Moderný procesor (Ryzen 7 / Intel i7 2024)	15 – 25 TPS	████████████████████	Veľmi svižný výstup textu.
Moderná AI grafická karta (RTX 4000 séria)	70+ TPS	████████████████████████████████████████	Okamžitá odozva – architektúra priamo stavaná pre AI.

TPS = Tokens Per Second (tokeny za sekundu). Čím vyššie číslo, tým rýchlejšie AI generuje text.

Keď pamäť určuje pravidlá: Prípad GTX 1050 Ti.

Zvláštnu pozornosť si v našom teste zaslúži Nvidia GTX 1050 Ti. Je to krásny príklad toho, ako AI technológie fungujú pod kapotou. Táto karta síce disponuje jadrami, ktoré sú pre výpočty tohto typu stvorené, no má len 4 GB vlastnej pamäte (VRAM). Model Llama 3 (aj v zmenšenej kvantizovanej verzii) je však o niečo väčší. Výsledok? Softvér musí improvizovať. Časť modelu umiestni do rýchlej pamäte grafickej karty a zvyšok nechá na štandardnom procesore a systémovej RAM. Architektúra tak nedokáže pracovať v úplnej izolácii a harmónii, pretože dáta musia neustále cestovať tam a späť cez základnú dosku. Získali sme síce lepšiu stabilitu než pri starom notebookovom procesore, no jasne vidíme, že pre dokonalý chod nie je dôležitý len samotný výpočtový výkon, ale aj exkluzívny priestor pre dáta. Zdieľanie zmyslu, nie súťaž Pri pohľade na tento graf by bolo veľmi jednoduché označiť starý procesor i5-3230M za porazeného. To by však bol nesprávny uhol pohľadu. Súčasné procesory a grafické karty nedosahujú svoje obrovské čísla len vďaka hrubej sile, ale vďaka tomu, že obsahujú dedikované "diaľnice" pre dáta – špeciálne sady inštrukcií a jadrá navrhnuté vyslovene pre potreby neurónových sietí. Náš 22-nanometrový veterán od Intelu túto výbavu nemá. Matematiku, ktorú moderný čip vypočíta v jednom exkluzívnom takte, musí stará architektúra rozložiť do desiatok menších krokov. Preto bojuje o prežitie pri produkcii dvoch slov za sekundu. Záver z tohto experimentu je jednoznačný. Pri technológiách nemá zmysel vytvárať umelú súťaživosť medzi generáciami, ale hľadať správne využitie. Ak staršiemu hardvéru pridelíme úlohy, pre ktoré bol stvorený – či už ide o nenáročnú prácu, alebo úlohu úsporného domáceho servera –, odvďačí sa nám stabilným fungovaním v dokonalej súhre so systémom. Na prácu s lokálnou umelou inteligenciou však potrebujeme hardvér, ktorý s ňou dokáže komunikovať v plnej harmónii a jej vlastným jazykom.