- Apple odštartoval AI priamo na zariadení v roku 2017 s Neural Engine v iPhone A11, ktorý umožnil Face ID a Animoji až do 600 miliárd operácií za sekundu.
- V roku 2023 priniesol 16-jadrový Neural Engine v iPhone A17 Pro približne 35 TOPS, čím poháňal funkcie rozpoznávania reči, fotografie a prekladu priamo na zariadení.
- Google Pixel 8 (2023) využíva Tensor G3 NPU na spúšťanie AI modelov priamo na zariadení, ako je Palm 2 na offline preklad a sumarizáciu.
- Google Edge TPU na Coral Dev Board poskytuje 4 TOPS vizuálneho spracovania pri niekoľkých wattoch.
- Tesla Full Self-Driving hardvér má dva NPU: HW3 (2019) ponúkol približne 144 TOPS a HW4 (2023) okolo 200–250 TOPS.
- NVIDIA Drive Thor (predstavený 2024) môže dosiahnuť až 2000 TOPS, keď sú dva čipy prepojené pre automobilové AI úlohy.
- Qualcomm Snapdragon 8 Gen 3 (2023) Hexagon NPU je o 98 % rýchlejší než Gen 2, dokáže spúšťať LLM s až 10 miliardami parametrov priamo na zariadení a v demonštráciách dosiahol najrýchlejšiu mobilnú Stable Diffusion na svete.
- MediaTek Dimensity 9400 (2024) so šiestou generáciou APU poháňa AI úpravu fotografií v Oppo Find X8, čo naznačuje rozšírenie NPU do TV, IoT a automobilov do roku 2025.
- Intel Meteor Lake, 14. generácia Core (uvedená 2023; premenovaná na Core Ultra v 2024), obsahuje integrovaný NPU s výkonom približne 8–12 TOPS, Arrow Lake má ~13 TOPS a Lunar Lake sa povráva okolo 45 TOPS.
- AMD Ryzen 7040 Phoenix (2023) predstavil Ryzen AI Engine s výkonom až 10 TOPS, zatiaľ čo Ryzen 8000 desktop (začiatok 2024) ponúkol 39 TOPS predtým, než AMD v tejto generácii NPU pozastavil.
V skratke: Váš smartfón, fotoaparát a dokonca aj auto dostávajú zabudované AI mozgy – bez potreby cloudu. Špeciálne čipy nazývané NPU (Neural Processing Units) a TPU (Tensor Processing Units) menia bežné zariadenia na inteligentných asistentov schopných rozpoznávania tváre, hlasových príkazov, prekladu v reálnom čase, funkcií autonómneho riadenia a ďalších. Táto AI revolúcia priamo na zariadení sľubuje bleskurýchle reakcie, lepšie súkromie a nové funkcie, ktoré sme si kedysi vedeli predstaviť len so superpočítačmi. V tejto správe objasníme NPU a TPU, ukážeme, ako sa líšia od CPU/GPU, a preskúmame, prečo technologickí giganti ako Apple, Google, Qualcomm a Intel pretekajú, aby tieto „AI mozgy“ vložili do všetkého od telefónov po autá. Tiež vyzdvihneme najnovšie prelomové objavy na roky 2024–2025, odborné pohľady, priemyselné štandardy a to, čo čaká AI priamo na zariadení v budúcnosti.
Čo sú NPU a TPU? (Zoznámte sa s AI mozgom vášho zariadenia)
Neurónové procesorové jednotky (NPUs) sú špecializované procesory navrhnuté na urýchlenie umelých neurónových sietí – algoritmov, ktoré poháňajú moderné AI úlohy ako rozpoznávanie obrazu, spracovanie reči a ďalšie. Na rozdiel od univerzálnych CPU sú NPUs application-specific integrated circuits (ASICs) vyladené na maticovú matematiku a náročné paralelné úlohy neurónových sietí techtarget.com. NPU „napodobňuje neurónové siete ľudského mozgu na urýchlenie AI úloh“, v podstate funguje ako silicon brain vo vašom zariadení techtarget.com. NPUs vynikajú v spúšťaní inferencie (tvorbe predikcií) pre AI modely efektívne priamo na zariadení, často s použitím nižšej číselnej presnosti (napr. 8-bitové celé čísla) na úsporu energie pri zachovaní vysokej výkonnosti backblaze.com. Pojem „NPU“ sa niekedy používa všeobecne pre akýkoľvek AI akcelerátor, ale častejšie označuje tie v mobilných a edge zariadeniach backblaze.com. Napríklad Apple „Neural Engine“ v iPhonoch a Samsungov mobilný AI engine sú NPUs integrované do ich systémov na čipe (SoC).
Tensor Processing Units (TPUs), na druhej strane, boli vytvorené spoločnosťou Google ako vlastné čipy na urýchlenie strojového učenia, najmä pre framework TensorFlow. TPU je typ ASIC optimalizovaný pre tensorové operácie (násobenie matíc atď.), ktoré sú jadrom trénovania a inferencie neurónových sietí backblaze.com. Google prvýkrát nasadil TPU vo svojich dátových centrách v roku 2015 na zrýchlenie výpočtov neurónových sietí a neskôr ich sprístupnil prostredníctvom Google Cloud backblaze.com. TPU používajú odlišnú architektúru nazývanú systolické pole, ktorá prepája mnoho malých výpočtových jednotiek do mriežky, ktorá pumpuje dáta cez reťazec jednotiek na násobenie matíc backblaze.com. Tento dizajn dosahuje extrémnu priepustnosť pri úlohách hlbokého učenia. TPU od Googlu zámerne obetujú určitú presnosť (používajú 8-bitovú alebo 16-bitovú aritmetiku namiesto 32-bitových floatov) pre obrovské zvýšenie rýchlosti a efektivity backblaze.com, keďže mnohé AI úlohy nevyžadujú vysokú presnosť na dosiahnutie presných výsledkov. Hoci „TPU“ technicky označuje čipy od Googlu, tento pojem sa niekedy používa aj všeobecnejšie pre akýkoľvek „tensorový“ akcelerátor. Za zmienku stojí, že Google vyrába aj Edge TPU koprocesory pre AI priamo v zariadeniach, ako je Coral Dev Board, ktoré dosahujú 4 bilióny operácií za sekundu pri niekoľkých wattoch coral.ai.
Stručne: NPU a TPU sú oba kremíkové akcelerátory pre AI, ale NPU sú bežne zabudované do mobilných/edge zariadení pre efektívnu inferenicu priamo v zariadení, zatiaľ čo TPU (v užšom zmysle) boli vysokovýkonné čipy (a teraz moduly) primárne od Googlu, pôvodne určené pre úlohy trénovania a inferencie v cloude/dátových centrách. Obe sa odkláňajú od tradičných CPU/GPU dizajnov, aby uprednostnili paralelné matematické operácie pre neurónové siete. Ako to zhrnul jeden technologický editor, „TPU idú v špecializácii ešte ďalej, zameriavajú sa na tensorové operácie, aby dosiahli vyššie rýchlosti a energetickú efektivitu… NPU sú rozšírené v AI zariadeniach ako smartfóny a IoT zariadenia“ backblaze.com.
Ako sa NPU a TPU líšia od CPU a GPU?
Tradičné CPU (centrálne procesorové jednotky) sú „mozgom“ všeobecného výpočtového spracovania – optimalizované pre flexibilitu, aby zvládli všetky druhy úloh, od spúšťania operačného systému až po prehliadanie webu. Majú niekoľko výkonných jadier, ktoré vynikajú v sekvenčnej logike a rôznorodých inštrukciách, ale nie sú vhodné na vysoko paralelné matematické výpočty potrebné pre hlboké učenie techtarget.com. Keď je CPU požiadané o spracovanie veľkej neurónovej siete, často sa stáva úzkym miestom, keď sa snaží vykonať milióny násobení a sčítaní v sekvencii alebo v obmedzených paralelných dávkach. To vedie k vysokej latencii a spotrebe energie (tzv. Von Neumannova úzka hrdlo pri prenose veľkého množstva dát medzi CPU a pamäťou) backblaze.com. CPU zvládnu niektoré AI úlohy (najmä jednoduchšie alebo menšie modely, alebo riadiacu logiku pre AI programy techtarget.com), ale vo všeobecnosti majú problém efektívne škálovať na požiadavky moderného AI na masívnu paralelnú lineárnu algebru.
GPU (grafické procesorové jednotky) priniesli paralelné výpočty do popredia. Pôvodne boli vytvorené na vykresľovanie obrázkov vykonávaním mnohých jednoduchých operácií paralelne na pixeloch a vrcholoch, no ukázalo sa, že GPU sú veľmi vhodné aj na trénovanie neurónových sietí, ktoré tiež zahŕňajú aplikáciu rovnakých matematických operácií (skalárne súčiny atď.) na veľké množstvo dát súčasne techtarget.com. GPU obsahuje stovky alebo tisíce malých jadier, ktoré môžu vykonávať matematické operácie paralelne. To robí z GPU vynikajúci nástroj pre veľkorozmerné AI, a počas 2010-tych rokov sa GPU (najmä NVIDIA s CUDA softvérom) stali ťažným koňom výskumu hlbokého učenia. GPU sú však stále do istej miery univerzálne – musia zvládať rôzne grafické úlohy a zachovať si flexibilitu, takže nie sú na 100 % optimalizované pre neurónové siete. Tiež spotrebúvajú veľa energie a vyžadujú starostlivé programovanie na plné využitie (neobľubujú zložitý vetviaci kód a najlepšie fungujú pri jednoduchých, dátovo-paralelných úlohách) techtarget.com.
NPU a TPU posúvajú špecializáciu ešte ďalej. Sú špeciálne navrhnuté pre iba neurónové siete. To znamená, že ich architektúra môže odstrániť všetko, čo nie je potrebné pre AI matematiku, a venovať viac kremíka veciam ako jednotky na násobenie matíc, sčítače akumulácie a pamäť na čipe pre rýchle presúvanie dát do a z týchto matematických jednotiek. Napríklad Google Cloud TPU je v podstate obrovské 2D pole MAC (multiply-accumulate) jednotiek s inteligentnou architektúrou dátového toku (systolické pole), ktorá ich zásobuje operándmi vysokou rýchlosťou backblaze.com. Nepoužíva cache, špekulatívne vykonávanie ani iné funkcie CPU – je optimalizovaný pre maticovú matematiku. NPU v mobilných čipoch podobne integrujú dedikované jadra neurónového enginu vedľa CPU/GPU. Tieto jadrá často používajú aritmetiku s nízkou presnosťou (napr. 8-bitové celé čísla ako TPU) a vykonávajú vysoko paralelné výpočty „vrstvu po vrstve“ pre veci ako konvolučné neurónové siete. NPU môže používať „fúzovanú“ architektúru kombinujúcu skalárne, vektorové a tenzorové jednotky (napr. Hexagon NPU od Qualcommu) na efektívne spracovanie rôznych operácií neurónových sietí futurumgroup.com.
Kľúčové rozdiely spočívajú v:
- Inštrukčná sada a flexibilita: CPU majú širokú, všeobecnú inštrukčnú sadu (dokážu robiť veľa vecí, ale nie všetky naraz). GPU majú obmedzenejšiu, ale stále flexibilnú inštrukčnú sadu optimalizovanú na priepustnosť v matematike. NPU/TPU majú veľmi úzku inštrukčnú sadu – v podstate len operácie potrebné pre neurónové siete (násobenie matíc, konvolúcia, aktivačné funkcie), často implementované ako pevné pipeline alebo polia fuse.wikichip.org. Napríklad NPU pre autonómne riadenie od Tesly má v ISA len 8 inštrukcií, zameraných na DMA čítanie/zápis a skalárne súčiny fuse.wikichip.org. Paralelizmus a jadrá: CPU = niekoľko výkonných jadier; GPU = tisíce jednoduchých jadier; NPU/TPU = v istom zmysle, desiatky tisíc veľmi jednoduchých ALU (MAC jednotky) usporiadaných v matici alebo neurónovej sieti. Jeden NPU čip môže vykonať desiatky biliónov operácií za sekundu – NPU v Tesle beží na 2 GHz s 9 216 MAC, dosahuje ~37 tera-operácií za sekundu (TOPS) na jadro a každý FSD čip má dve NPU pre ~74 TOPS fuse.wikichip.org, ts2.tech. Naproti tomu, špičkový CPU môže dosiahnuť len niekoľko stoviek miliárd operácií za sekundu pri AI úlohách a GPU možno niekoľko TOPS, ak nepoužíva špeciálne tensor jadrá.
- Pamäťová architektúra: NPU/TPU sa spoliehajú na rýchlu pamäť na čipe a streamovanie dát. TPU sa vyhýbajú klasickému úzkemu hrdlu pamäte použitím systolického dátového toku – každá malá jednotka odovzdáva dáta ďalšej v presnom takte, čím sa minimalizujú čítania/zápisy do hlavnej pamäte backblaze.com. Mnohé NPU obsahujú blok SRAM na čipe pre váhy/aktivácie (napr. NPU jadrá Tesly majú každé 32 MB SRAM na lokálne uchovávanie dát neurónovej siete) semianalysis.com. To je v kontraste s GPU/CPU, ktoré vo veľkej miere využívajú externú DRAM.
- Presnosť: CPU/GPU zvyčajne používajú 32-bitové alebo 64-bitové desatinné čísla pre výpočty. AI akcelerátory často používajú 16-bitové alebo 8-bitové celé čísla (a niektoré už skúmajú 4-bitové alebo dokonca 2-bitové), pretože neurónové siete tolerujú nižšiu presnosť. Návrhári Google TPU výslovne poznamenali, že na inferenciu nepotrebujete plnú desatinnú presnosť, podobne ako „nemusíte vedieť presne, koľko kvapiek dažďa padá, aby ste vedeli, že silno prší“ backblaze.com. To umožňuje NPU/TPU vykonávať viac operácií paralelne a spotrebovať menej energie na operáciu.
- Použitie: GPU sa stále široko používajú na trénovanie veľkých modelov a na flexibilné výpočty (a sú bežné v dátových centrách a výkonných PC). TPU (cloud) sú zamerané na veľkokapacitné trénovanie a inferenciu v ekosystéme Google. NPU sa častejšie nachádzajú v edge zariadeniach – smartfóny, kamery, spotrebiče – vykonávajú inferenciu na už natrénovaných modeloch. Vynikajú v úlohách ako aplikácia vizuálneho modelu na kamerový záber v reálnom čase alebo nepretržité spúšťanie detekcie kľúčového slova hlasového asistenta pri nízkej spotrebe. Ako poznamenal TechTarget: „GPU sú vyberané pre dostupnosť a nákladovú efektívnosť v mnohých ML projektoch; TPU sú zvyčajne rýchlejšie a menej presné, používajú ich firmy na Google Cloud; NPU sa bežne nachádzajú v edge/mobilných zariadeniach pre výrazne rýchlejšie lokálne spracovanie“ techtarget.com.
Zhrnuté, CPU = univerzálni organizátori, GPU = paralelní ťažníci, TPU/NPU = špecialisti na neurónové siete. Všetky môžu spolupracovať – v skutočnosti v modernom zariadení s podporou AI často CPU koordinuje úlohy a podľa potreby presúva výpočtovo náročné časti na NPU/GPU techtarget.com. Tento trend špecializácie existuje, pretože univerzálne riešenie už v oblasti výpočtovej techniky nestačí: ako poznamenal jeden editor, „pridávanie miliónov ďalších tranzistorov pre každú potrebu nebolo efektívne… dizajnéri prijali procesory navrhnuté na konkrétny účel“ techtarget.com. Procesory NPU a TPU navrhnuté na mieru dramaticky zrýchľujú AI výpočty a zároveň udržiavajú nízku spotrebu energie – čo je kľúčová rovnováha pre zariadenia na batérie aj pre vysokohustotné servery.
Prečo AI priamo v zariadení? (Edge vs. Cloud)
Prečo sa vôbec trápiť s behom AI na telefóne alebo v aute – prečo jednoducho neposlať všetko do cloudu, kde môžu ťažkú prácu vykonať obrovské servery (s GPU/TPU)? Existuje niekoľko presvedčivých dôvodov, ktoré poháňajú prechod na AI priamo v zariadení, a všetky sa dajú zhrnúť do rýchlosti, súkromia, nákladov a spoľahlivosti nimbleedge.com:
- Okamžitá odozva (nízka latencia): NPU priamo v zariadení dokáže spracovať dáta v reálnom čase bez oneskorenia spôsobeného odosielaním dát na cloudový server. To je kľúčové pre interaktívne alebo bezpečnostne kritické AI úlohy. Napríklad autonómny systém riadenia auta s palubnými NPU dokáže identifikovať chodca a zabrzdiť okamžite, v priebehu milisekúnd, namiesto čakania na výpočet v cloude. Inteligentná kamera s NPU dokáže zistiť narušiteľa v momente, keď sa objaví v zábere. Na vašom telefóne znamená AI priamo v zariadení, že váš hlasový asistent môže reagovať rýchlejšie a prirodzenejšie, pretože neustále „nevolá domov“. Znížená latencia umožňuje skutočné rozhodovanie v reálnom čase a plynulejší používateľský zážitok nimbleedge.com.
- Ochrana súkromia a bezpečnosť údajov: AI na zariadení uchováva vaše údaje lokálne. Namiesto streamovania zvuku z mikrofónu alebo obrazu z kamery do cloudu na analýzu prebieha spracovanie priamo v zariadení. Tým sa výrazne znižuje vystavenie citlivých údajov. Napríklad moderné smartfóny vykonávajú rozpoznávanie tváre (Face ID a pod.) úplne na zariadení – biometrická mapa vašej tváre nikdy neopustí zabezpečený priestor telefónu. Podobne, AI načúvací prístroj alebo zdravotnícky nositeľný prístroj môže analyzovať biometrické údaje bez nahrávania na akýkoľvek server, čím sa zachováva súkromie. Vzhľadom na rastúce obavy používateľov a regulácie týkajúce sa suverenity údajov je to veľká výhoda. Ako uviedol jeden blog o edge AI, spracovanie na zariadení znamená, že „používateľské údaje nemusia byť prenášané do cloudu,“ čo poskytuje základný prínos pre súkromie nimbleedge.com. (Samozrejme, súkromie nie je automatické – vývojári musia stále starostlivo narábať s uloženými údajmi – ale je jednoduchšie dôverovať zariadeniam, ktoré neodosielajú vaše informácie neustále von.) Technologickí CEO často zdôrazňujú tento aspekt. CEO spoločnosti Qualcomm Cristiano Amon poznamenal, že kombinácia cloudu a inteligencie na zariadení môže zvýšiť personalizáciu pri zachovaní bezpečnosti údajov v zariadení – nazýva to „hybridná budúcnosť“, kde AI na zariadení spolupracuje s cloudovou AI pre to najlepšie z oboch moomoo.com.
- Dostupnosť offline a spoľahlivosť: Zariadenia s NPU/TPU nie sú závislé od pripojenia. Môžu fungovať v tuneli metra, v lietadle, v odľahlých vidieckych oblastiach alebo počas výpadkov siete. To je obrovské pre spoľahlivosť. Funkcia hlasového diktovania na zariadení bude fungovať aj bez signálu. Dron s palubnou vizuálnou AI sa dokáže vyhnúť prekážkam aj mimo siete. Táto nezávislosť je tiež kľúčová pre kritické systémy: napr. roboty na obnovu po katastrofách alebo zdravotnícke zariadenia, ktoré nemôžu predpokladať živé internetové pripojenie. „Funkčnosť offline“ je základnou výhodou AI na zariadení nimbleedge.com – zaručuje, že AI funkcia je dostupná vždy a všade, kde je potrebná.
- Nákladová efektívnosť v rozsahu: Neustále odosielanie surových údajov do cloudu na AI spracovanie môže byť veľmi nákladné (cloudové výpočty nie sú zadarmo) a náročné na šírku pásma. Ako sa AI funkcie rozširujú, spoločnosti by museli platiť obrovské účty za cloudové spracovanie, ak by každá drobnosť smerovala na server. Tým, že sa viac spracovania deje na okraji, znižujú sa zaťaženia cloudových serverov a využitie siete. Často je efektívnejšie minúť pár dolárov navyše na lepší čip v zariadení, než platiť za gigabajty cloudových výpočtov počas životnosti zariadenia. Analýza od Futurum poznamenala, že spracovanie na zariadení pomáha riešiť problémy škálovania a nákladov generatívnej AI – „rozkladá“ záťaž, takže dátové centrá nie sú preťažené (a používatelia/vývojári neplatia horibilné sumy za cloudový GPU čas) futurumgroup.com.
- Personalizácia a kontext: Nový dôvod: AI priamo v zariadení sa dokáže učiť z lokálneho kontextu a prispôsobovať sa mu spôsobom, aký cloudová AI nemusí zvládnuť. Váš smartfón si môže udržiavať malý lokálny model, ktorý sa učí váš štýl písania pre lepšiu automatickú opravu, bez zdieľania tohto osobného jazykového modelu do cloudu. Zariadenia môžu v reálnom čase spájať dáta z viacerých senzorov (čo je jednoduchšie lokálne než streamovať množstvo senzorových údajov do cloudu). To umožňuje personalizovanejší a kontextovo citlivý zážitok. Niektoré funkcie ako federatívne učenie dokonca umožňujú zariadeniam zlepšovať AI modely spoločne bez nahrávania surových dát (odosielajú sa len malé aktualizácie váh).
- Regulácie a dátová suverenita: Zákony ako európske GDPR a rôzne požiadavky na lokalizáciu dát čoraz častejšie vyžadujú, aby určité údaje (najmä osobné alebo citlivé) neboli odosielané do zahraničia alebo tretím stranám bez súhlasu. AI priamo v zariadení ponúka spôsob, ako tieto požiadavky splniť spracovaním dát priamo pri zdroji. Napríklad AI nástroje na spracovanie medicínskych snímok môžu bežať na nemocničnom hardvéri (edge servery s NPU), takže údaje o pacientoch nikdy neopustia priestory nemocnice, čím sa dodržujú predpisy o ochrane súkromia. Správa spoločnosti NimbleEdge z roku 2025 poukazuje na to, že vlády presadzujú viac lokálneho inferencovania z dôvodov suverenity a súladu s predpismi nimbleedge.com.
Všetky tieto faktory poháňajú paradigmatický posun: namiesto prístupu „cloud-first“ pre AI teraz firmy navrhujú AI funkcie „device-first“, keď je to možné. Ako to zhrnul viceprezident pre AI v Qualcomme, Durga Malladi: „Aby sa generatívna AI mohla efektívne rozšíriť do hlavného prúdu, AI bude musieť bežať v cloude aj na zariadeniach na okraji… ako sú smartfóny, notebooky, vozidlá a IoT zariadenia“ iconnect007.com. Smerujeme k hybridnému AI svetu, kde náročné trénovanie a veľké modely môžu byť v cloude, ale mnohé inferenčné úlohy a osobné AI zážitky bežia lokálne na NPU/TPU vo vašich rukách a domácnostiach. Amon to dokonca nazýva „zlomovým bodom v AI“ – inferencia priamo v zariadení bez latencie, kde „budúcnosť AI je osobná“, pretože beží presne tam, kde ste vy x.com.
AI priamo v zariadení v praxi: Od smartfónov po autonómne autá
Špecializované AI čipy sú už zabudované v širokej škále zariadení okolo vás a často ich neviditeľne robia inteligentnejšími. Tu sú hlavné oblasti, kde sú NPU a edge TPU nasadené:
- Smartfóny a tablety: Takmer všetky moderné vlajkové telefóny (a dokonca aj mnohé strednej triedy) dnes obsahujú NPU alebo dedikovaný AI engine. Apple odštartoval tento trend v roku 2017 s Apple Neural Engine v čipe iPhonu A11, ktorý umožnil Face ID a Animoji priamo v zariadení výkonom až 600 miliárd operácií za sekundu apple.fandom.com. Dnes má Apple čip A17 Pro (2023) 16-jadrový Neural Engine schopný 35 biliónov operácií za sekundu apple.fandom.com. Ten poháňa funkcie ako pokročilá detekcia scény fotoaparátu, štýly fotografií, hlasové príkazy Siri spracované offline, automatickú opravu, živý prepis a dokonca aj spúšťanie transformer modelov na preklad priamo v zariadení. Telefóny Google Pixel majú takisto vlastný čip (“Google Tensor” SoC) s NPU: najnovší Tensor G3 v Pixel 8 bol „navrhnutý na mieru pre spúšťanie AI modelov Google“, pričom vylepšuje každú časť čipu (CPU, GPU, ISP), aby umožnil generatívnu AI priamo v zariadení blog.google. Pixel 8 dokáže spúšťať najmodernejšie modely Google na prevod textu na reč a preklad lokálne, tie isté, ktoré boli predtým obmedzené na dátové centrá blog.google. Zvláda aj zložité foto triky ako „Best Take“ zlúčenie skupinových fotiek a Audio Magic Eraser pomocou sady AI modelov priamo v zariadení blog.google. Samsung a ďalší Android výrobcovia používajú čipsety Qualcomm Snapdragon, ktorých najnovšie NPU (Hexagon AI engine) dokážu dokonca spúšťať veľké jazykové modely v telefóne – Qualcomm demonštroval spustenie LLM s 10 miliardami parametrov a dokonca aj generovanie obrázkov Stable Diffusion na telefóne so Snapdragon 8 Gen 3 futurumgroup.com. AI engine tohto čipu je o 98 % rýchlejší ako predchádzajúca generácia a podporuje INT4 presnosť pre efektivitu futurumgroup.com. Praktický dôsledok: váš telefón z roku 2024 dokáže veci ako sumarizovať články, odpovedať na otázky alebo upravovať fotky pomocou AI bez potreby cloudu. Dokonca aj funkcie prístupnosti majú úžitok: napr. Pixel telefóny už majú hlasové písanie, živé titulky a pripravovanú funkciu na opis obrázkov nevidiacim používateľom pomocou lokálneho modelu.
- Inteligentné kamery a bezpečnostné systémy: Kamery s podporou AI využívajú zabudované NPU na okamžité rozpoznávanie ľudí, tvárí, zvierat alebo podozrivého správania. Napríklad najnovšie bezpečnostné kamery EnGenius obsahujú zabudované NPU, ktoré zvláda detekciu objektov a konvertuje video na metadáta priamo v kamere, čím odpadá potreba samostatného videorekordéra a zvyšuje sa bezpečnosť (keďže video môže byť analyzované a uložené lokálne) engeniustech.com. To znamená, že vaša bezpečnostná kamera môže rozhodnúť „osoba prítomná“ alebo „balík doručený“ a poslať len toto upozornenie, namiesto streamovania hodín záznamu do cloudovej služby. Podobne aj spotrebiteľské zariadenia ako Google Nest Cam IQ mali čip na spracovanie obrazu priamo v zariadení (Google Edge TPU), ktorý rozpoznával známe tváre a rozlišoval ľudí od domácich zvierat vo svojom zornom poli. DSLR a bezzrkadlové fotoaparáty tiež pridávajú AI procesory na veci ako sledovanie objektu, automatické zaostrovanie na oči a optimalizáciu scény v reálnom čase. V dronoch pomáhajú zabudované AI čipy s vyhýbaním sa prekážkam a vizuálnou navigáciou bez potreby diaľkového ovládania. Zvlášť Google’s Edge TPU (malý ASIC modul) sa stal populárnym doplnkom pre DIY a priemyselné IoT kamery – poskytuje 4 TOPS výkonu pre spracovanie obrazu na úlohy ako detekcia ľudí alebo čítanie ŠPZ, pričom spotrebuje len ~2 watty coral.ai.
- Inteligentná domácnosť a IoT zariadenia: Okrem telefónov majú mnohé inteligentné domáce zariadenia mini NPU. Hlasom ovládané reproduktory (Amazon Echo, Google Nest Hub, atď.) už často obsahujú čipy na lokálne rozpoznávanie reči. Amazon vyvinul AZ1 Neural Edge procesor pre zariadenia Echo na zrýchlenie detekcie prebudenia Alexa a odpovedí priamo v zariadení, čím sa latencia znížila na polovicu embedl.com. AZ1 (vytvorený s MediaTek) spúšťa neurónovú sieť, ktorá rozpoznáva „Alexa“ a spracováva jednoduché príkazy bez potreby pripojenia do cloudu embedl.com. To nielen zrýchľuje reakcie Alexy, ale aj uchováva viac hlasových údajov v súkromí. Podobne mnohé nové televízory, spotrebiče a dokonca aj hračky majú nejakú AI na okraji siete – napr. kamera v inteligentnej chladničke dokáže lokálne identifikovať potraviny a dátumy spotreby. Nositeľné zariadenia si tiež zaslúžia zmienku: čip S9 v Apple Watch pridal 4-jadrový Neural Engine na lepšie spracovanie zdravotných AI algoritmov a požiadaviek Siri priamo na hodinkách apple.fandom.com. A v priemysle môžu IoT senzory s NPU vykonávať detekciu anomálií v údajoch o zariadeniach priamo na okraji siete, pričom ďalej posielajú len relevantné udalosti (šetriac šírku pásma a rýchlejšie reagujúc na problémy).
- Automobily (ADAS a autonómia): Autá sa stali AI centrami na kolesách. Pokročilé asistenčné systémy vodiča (ADAS) a funkcie autonómneho riadenia sa spoliehajú na sadu palubných AI akcelerátorov, ktoré interpretujú obraz z kamier, LiDAR, radar a v zlomku sekundy robia rozhodnutia pri riadení. Tesla je známa tým, že navrhla svoj vlastný FSD (Full Self-Driving) počítač s dvoma NPU čipmi. Tesla FSD čip (HW3, predstavený v roku 2019) poskytoval 144 TOPS (dve NPU po 72 TOPS); novší HW4 (2023) to zvyšuje na približne 200–250 TOPS celkovo (dve 7nm NPU okolo 100+ TOPS každé) ts2.tech. To umožňuje autu spracovávať video vo vysokom rozlíšení z 8 kamier, sonar atď. súčasne cez neurónové siete na vnímanie a dokonca spúšťať niektoré jazykové modely pre hlasové príkazy – všetko lokálne v module auta. Konkurenčné platformy ako NVIDIA Drive a Qualcomm Snapdragon Ride tiež integrujú NPU. Najnovší automobilový superpočítačový čip od NVIDIA, Drive Thor, určený pre autá v roku 2025, sa pýši až 1 000 TOPS na jednom čipe (a 2 000 TOPS pri dvoch spárovaných čipoch) na podporu autonómie úrovne 4 ts2.tech. Kombinuje GPU, CPU a dedikované akcelerátory hlbokého učenia, takže zvládne všetko od rozpoznávania dopravných značiek až po AI na monitorovanie vodiča priamo na čipe ts2.tech. Tieto NPU doslova zachraňujú životy: autonómne auto nemôže čakať na cloudové servery, ak dieťa vbehne na cestu. Palubná AI musí vidieť a reagovať v priebehu desiatok milisekúnd. Okrem osobných áut sa edge AI vo veľkej miere využíva aj v autonómnych dronoch, doručovacích robotoch a priemyselných vozidlách, ktoré sa navigujú a rozhodujú pomocou palubných NPU/TPU (napríklad doručovacie roboty Nuro a mnohé systémy autonómnych kamiónov používajú na zariadení AI čipy NVIDIA alebo Huawei).
- Edge Computing a priemysel: Vo fabrikách a podnikových prostrediach má AI na zariadení často podobu edge serverov alebo brán s AI akcelerátormi. Namiesto odosielania kamerových záznamov alebo údajov zo senzorov do centrálneho cloudu si firmy inštalujú edge boxy (niekedy založené na GPU, inokedy na NPU/FPGA) priamo na mieste. Tie zvládajú úlohy ako analýza videa v reálnom čase na kontrolu kvality na výrobnej linke, detekciu chýb pomocou AI videnia v priebehu mikrosekúnd. Ďalším príkladom sú zdravotnícke zariadenia: prenosný ultrazvuk alebo MRI môže mať NPU na AI analýzu snímok priamo v zariadení, takže lekári dostanú okamžitú diagnostickú pomoc bez potreby internetového pripojenia (čo je tiež lepšie pre ochranu súkromia pacientov). Maloobchod a mestá nasadzujú AI na edge tiež – napr. inteligentné dopravné kamery s NPU na analýzu dopravných zápch a úpravu semaforov, alebo kamery na regáloch v obchodoch, ktoré sledujú zásoby. Mnohé z nich používajú špecializované NPU ako Intel Movidius Myriad čipy, Google Edge TPU alebo nových hráčov ako Hailo-8 (izraelské NPU, ktoré poskytuje 26 TOPS pri niekoľkých wattoch pre kamery). Spoločným znakom je, že tieto akcelerátory umožňujú analýzu lokálne, dosahujú výsledky v reálnom čase a cez siete posielajú len zhrnuté poznatky (namiesto surových dát).
Všestrannosť NPU/TPU naprieč typmi zariadení je pôsobivá. Jednu chvíľu umožňujú vášmu telefónu rozmazať pozadie na fotke pomocou AI a vzápätí riadia dron alebo skenujú medicínske snímky. Fotoaparáty smartfónov dnes využívajú NPU na funkcie ako Nočný režim (inteligentné spájanie viacerých snímok), bokeh v portrétovom režime, rozpoznávanie scény (telefón vie, že fotíte „západ slnka“ a optimalizuje farby pomocou AI), či zábavné AR efekty (Animoji mapujúce vašu tvár alebo Snapchat filtre sledujúce vaše pohyby – to všetko vďaka neurónovým sieťam priamo v zariadení). Biometria využíva NPU: snímače odtlačkov prstov vylepšené AI na detekciu živosti, odomykanie tvárou s hĺbkovými senzormi a AI. Audio ich využíva tiež: potlačenie hluku v slúchadlách a telefónoch je dnes často riadené AI, pričom NPU v reálnom čase oddeľuje hlas od okolitého hluku.
Konkrétny príklad inovácií v roku 2024: Oppo (výrobca smartfónov) v spolupráci s MediaTek oznámil, že v závere roka 2024 implementoval Mixture-of-Experts (MoE) AI model priamo na zariadení – údajne ako prvý v telefóne grandviewresearch.com. Táto pokročilá architektúra neurónových sietí (MoE) dokáže zvýšiť výkon tým, že pre každú úlohu aktivuje len relevantné „expertné“ podsiete, a keď sa to deje priamo v zariadení, Oppo telefóny dosahujú rýchlejšie AI spracovanie a lepšiu energetickú efektivitu pri zložitých úlohách bez potreby cloudu grandviewresearch.com. To podčiarkuje, ako sa aj najmodernejší AI výskum rýchlo dostáva do našich vreckových zariadení vďaka vylepšeným NPU.
Vo vnútri AI čipov 2025: Najnovší vývoj od Apple, Google, Qualcomm a ďalších
Súťaž o vývoj lepšieho AI hardvéru priamo v zariadeniach sa rýchlo vyostrila. Tu je prehľad toho, čo hlavné spoločnosti nedávno (2024–2025) uviedli v oblasti NPU/TPU a AI čipov:
- Apple: Appleova stratégia vlastných čipov už dlho kladie dôraz na strojové učenie priamo v zariadení. Každý rok rastie výkon Apple Neural Engine. V iPhone 15 Pro z roku 2023 dosiahol Neural Engine čipu A17 Pro hodnotu 35 TOPS (biliónov operácií za sekundu) so svojimi 16 jadrami apple.fandom.com. To bolo dvojnásobné surové tempo spracovania oproti NPU v A16 a Apple to využil na umožnenie vecí ako rozpoznávanie reči pre Siri priamo v zariadení (konečne spracovanie mnohých požiadaviek Siri bez internetu) a nové možnosti fotoaparátu (napríklad automaticky zachytený portrétny režim a živý preklad textu cez kameru). Apple čipy z roku 2024 v tomto trende pokračovali: rodina M3 pre Macy (koniec 2023) dostala vylepšený Neural Engine (zaujímavo vyladený na 18 TOPS pre základný čip M3, s dôrazom na efektivitu) apple.fandom.com. V roku 2024 Apple predstavil čip M4 (pre špičkové iPady/Macy, polovica 2024), ktorý údajne zvýšil výkon Neural Engine na 38 TOPS na vylepšenom 3nm procese apple.fandom.com. Nejde však len o čísla, Apple tento NPU aj využíva: funkcie ako Personal Voice (ktorá vytvorí klon hlasu používateľa po 15 minútach trénovania) bežia súkromne na Neural Engine v iPhonoch a prepisy Live Voicemail prebiehajú lokálne. Apple integroval NPU aj do všetkých svojich zariadení – dokonca aj AirPods Pro majú malý neurónový čip pre Adaptívny zvuk. Manažéri Apple často zdôrazňujú aspekt súkromia: „strojové učenie vo vašom zariadení“ znamená, že vaše dáta zostávajú u vás. Do roku 2025 očakávame, že Apple Neural Engine sa ešte rozšíri alebo bude dostupný pre aplikácie tretích strán novými spôsobmi (už teraz môžu vývojári používať Core ML, ale Apple by mohol sprístupniť viac neurónových API). Objavili sa aj fámy, že Apple navrhuje samostatný AI akcelerátor pre budúce okuliare alebo autá, no aktuálne produkty ukazujú, že preferujú integrované NPU v sériách SoC A a M.
- Google: Google nielenže bola priekopníkom cloudového TPU, ale tiež zdvojnásobila úsilie v oblasti AI na zariadení pre telefóny Pixel a spotrebiteľské zariadenia. Google Tensor SoC (prvýkrát predstavený v roku 2021 v Pixel 6) bol jedinečný tým, že Google, známy cloudom, vytvoril čip do telefónu na spúšťanie AI priamo v zariadení. Pri Tensor G3 (v Pixel 8 z roku 2023) Google zdôraznil vylepšenia umožňujúce generatívnu AI na zariadení. Google výslovne uviedol, že čip v Pixel 8 prináša „výskum Google AI priamo do našich najnovších telefónov“ blog.google. Nová generácia TPU v Tensor G3 (Google stále interne nazýva AI jadro „TPU“) umožňuje Pixelu spúšťať pokročilé modely ako Palm 2 alebo Gemini Nano (odľahčené verzie veľkých jazykových modelov Google) priamo v zariadení pre funkcie ako sumarizácia webstránok alebo vylepšené hlasové písanie reddit.com. Jedna z hlavných funkcií: Pixel 8 dokáže lokálne spustiť najlepší model prevodu textu na reč od Google (ten, ktorý sa používa v dátových centrách), čo umožňuje telefónu čítať webstránky nahlas prirodzeným hlasom a dokonca ich v reálnom čase prekladať, a to všetko offline blog.google. Google tiež využíva TPU v Pixel na fotografiu („HDR+“ snímanie viacerých snímok, Magic Eraser na odstránenie objektov pomocou AI inpaintingu blog.google), na bezpečnosť (odomknutie tvárou na zariadení pomocou AI, ktoré je už považované za dostatočne silné aj na platby blog.google), a na reč (Asistent, ktorému nevadí, keď poviete „ehm“). Okrem telefónov Google ponúka Coral Dev Board a USB kľúč pre nadšencov a firmy na pridanie Edge TPU do ich projektov, pričom každý obsahuje Edge TPU od Google, ktorý poskytuje 4 TOPS pre vizuálne úlohy pri veľmi nízkej spotrebe coral.ai. Používa sa aj v niektorých vlastných produktoch Google, ako je Nest Hub Max na rozpoznávanie gest. Pre Google je integrácia TPU na okraji siete súčasťou širšej stratégie: Sundar Pichai (CEO Google) povedal, že budúcnosť AI je o vylepšovaní každého zážitku, a je jasné, že Google vidí, že „aby ste priniesli transformačnú silu AI do každodenného života, musíte k nej mať prístup zo zariadenia, ktoré používate každý deň“ blog.google – preto Tensor čipy. Môžeme očakávať Tensor G4 v neskorších telefónoch Pixel v roku 2024, pravdepodobne postavený na novšom procese Samsung alebo TSMC, čo ďalej zlepší výkon a efektivitu AI, možno dokonca umožní multimodálnu AI na zariadení (kombinovanie vizuálnych a jazykových modelov).
- Qualcomm: Vedúci dodávateľ mobilných čipov pre Android telefóny agresívne propaguje svoj AI Engine v sérii Snapdragon. Snapdragon 8 Gen 2 (koniec roka 2022) predstavil dedikovanú podporu INT4 a predviedol generovanie obrázkov pomocou stable diffusion v reálnom čase na telefóne. Snapdragon 8 Gen 3 (ohlásený koncom roka 2023, v tohtoročných vlajkových telefónoch 2024) je výrazný skok: Qualcomm tvrdí, že jeho Hexagon NPU je o 98 % rýchlejší ako v Gen 2 a o 40 % energeticky efektívnejší futurumgroup.com. Tento čip dokáže spúšťať veľké jazykové modely s až 10 miliardami parametrov úplne na zariadení, pričom spracuje približne 20 tokenov za sekundu – čo stačí na jednoduché konverzácie s AI asistentom bez cloudu futurumgroup.com. V demách tiež dosiahol „najrýchlejšie generovanie obrázkov Stable Diffusion na mobilnom zariadení na svete“ futurumgroup.com. Qualcomm otvorene tvrdí, že generatívna AI priamo na zariadení je kľúčovým predajným argumentom pre nové telefóny. Napríklad spolupracovali s Meta na optimalizácii open-source Llama 2 LLM pre Snapdragon, s cieľom umožniť spúšťanie AI chatbota na vašom telefóne do roku 2024 iconnect007.com. (Jeden z vedúcich pracovníkov Qualcomm povedal: „oceňujeme otvorený prístup spoločnosti Meta… aby sa generatívna AI rozšírila, musí bežať v cloude aj na edge“, čím posilnil filozofiu edge AI iconnect007.com.) Okrem telefónov Qualcomm vkladá NPU aj do čipov pre notebooky (platformy Snapdragon compute pre Windows na ARM) – a ich automobilová platforma Snapdragon Ride používa tie isté AI jadrá na poskytovanie až 30 TOPS pre ADAS, s plánom do budúcnosti na stovky TOPS. V roku 2025 Qualcomm dokonca oznámil nový Snapdragon X Elite CPU pre PC, ktorý obsahuje výkonné NPU, čo signalizuje snahu konkurovať Applu a Intelu v AI výkone v osobných počítačoch. S rastom AI priamo na zariadení Qualcomm dokonca označuje niektoré telefóny ako „AI telefóny“. Odhadujú, že mnohé aplikácie (od fotografie cez správy až po produktivitu) využijú NPU. Na softvérovej strane Qualcomm vydal Qualcomm AI Stack na zjednotenie podpory populárnych frameworkov (TensorFlow Lite, PyTorch, ONNX) na ich NPU iconnect007.com – s cieľom uľahčiť vývojárom využívanie AI hardvéru bez hlbokých znalostí o čipoch.
- MediaTek: Druhý najväčší výrobca mobilných čipov (známy sériou Dimensity) taktiež vylepšil svoje NPU. MediaTek nazýva svoje AI enginy „APU“ (AI Processing Unit). Napríklad Dimensity 9200+ (2023) má šiestu generáciu APU s výrazným nárastom výkonu oproti predchádzajúcemu čipu, čo umožňuje funkcie ako stabilná difúzia priamo v zariadení a AI redukcia šumu vo videách. V roku 2024 MediaTek oznámil Dimensity 9400 a v partnerstve s Oppo využili jeho pokročilú NPU architektúru na predstavenie nových AI funkcií (ako už bolo spomenuté, AI prepracovanie fotografií s odstránením odrazov a zaostrovaním rozmazaných snímok v Oppo Find X8 poháňa NPU od MediaTeku) mediatek.com. Vedúci pracovníci MediaTeku sa výslovne prezentujú ako lídri v oblasti AI priamo v zariadení. Ako povedal Will Chen z MediaTeku, „budúcnosť AI presahuje cloud; je poháňaná edge computingom priamo z vašej dlane.“ Podľa nich musí byť AI v telefónoch rýchla, súkromná, bezpečná a neustále dostupná mediatek.com. MediaTek dokonca vytvoril „APU-centrickú“ spoluprácu s Meta na podporu Llama frameworkov a so značkami ako Oppo a Xiaomi so zameraním na AI kameru a AI hlasové funkcie. Do roku 2025 plánuje MediaTek nasadiť tieto NPU nielen do telefónov, ale aj do smart televízorov (pre AI upscaling a vylepšenie obrazu), IoT zariadení a dokonca aj do áut (MediaTek má automobilovú AI platformu a spolupracuje s Nvidiou na integrácii Nvidia GPU IP pre autá, pričom pravdepodobne poskytuje vlastné NPU pre senzorovú AI).
- Intel: Rok 2024 znamenal vstup Intelu do oblasti AI akcelerátorov v bežných PC. Intel Core 14. generácie (Meteor Lake, uvedený v decembri 2023 a v roku 2024 premenovaný na Core Ultra) je prvý x86 procesor pre PC so zabudovanou neurónovou procesorovou jednotkou (NPU). NPU v Meteor Lake (niekedy nazývané aj VPU – Vision Processing Unit – založené na technológii Intel Movidius) poskytuje približne 8–12 TOPS AI výkonu pcworld.com. Toto sa využíva na zrýchlenie AI funkcií Windows 11, ako je rozmazanie pozadia, očný kontakt pri videohovoroch, a môžu to využiť aj aplikácie na veci ako lokálna transkripcia, potlačenie šumu alebo aj malé AI asistenty. Microsoft a Intel spoločne presadzujú koncept „AI PC“. Intel tvrdí, že tieto NPU budú v roku 2024 dodané v desiatkach miliónov notebookov pcworld.com. Po Meteor Lake roadmapa Intelu spomína Arrow Lake (pre desktopy v roku 2024), ktorý tiež obsahuje NPU (okolo 13 TOPS, mierne vylepšené) pcworld.com. Zaujímavosťou je, že prvý pokus Intelu o desktopové NPU bol v skutočnosti prekonaný AMD (viď nižšie) a Intel sa rozhodol pre skromnejší návrh NPU, aby neobetoval plochu GPU/CPU v čipoch pre nadšencov pcworld.com. No koncom roka 2024 Intel avizoval, že budúce čipy Lunar Lake budú mať oveľa výkonnejšie NPU (~45 TOPS), aby splnili požiadavky Microsoftu na „Copilot“ pcworld.com. Toto všetko naznačuje, že Intel vníma AI ako nevyhnutnosť pre PC do budúcnosti – nie na trénovanie obrovských modelov, ale na zrýchlenie každodenných AI zážitkov (od vylepšení kancelárskych balíkov po kreatívne nástroje využívajúce lokálnu AI). Intel tiež predáva edge AI akcelerátory ako Intel Movidius Myriad čipy (používané v niektorých dronoch, kamerách) a Habana akcelerátory pre servery, ale integrované NPU v Meteor Lake je míľnikom, ktorý prináša AI do bežných spotrebiteľských zariadení.
- AMD: AMD sa pustilo do AI priamo na zariadení približne v rovnakom čase. Jeho procesory pre notebooky série Ryzen 7040 (Phoenix) vydané v roku 2023 obsahovali prvý Ryzen AI Engine – v podstate integrovaný XDNA NPU (technológia z akvizície Xilinx spoločnosťou AMD). Tento NPU poskytoval až 10 TOPS na mobilnom čipe en.wikipedia.org. AMD propagovalo použitie ako AI-vylepšené videohovory, produktívne aplikácie a podobne, podobne ako ciele Intelu. Následne AMD krátko uviedlo na trh desktopovú sériu Ryzen 8000 (začiatok 2024) s NPU dosahujúcim 39 TOPS – veľmi vysoké číslo pre AI jednotku univerzálneho CPU, dokonca prekonávajúce plány Intelu pcworld.com. Avšak AMD rýchlo zmenilo smer a jednu generáciu vynechalo, pričom sa zameralo na svoju ďalšiu architektúru (následný Ryzen 9000 na konci 2024 NPU vynechal, aby uprednostnil vylepšenia jadier) pcworld.com. Napriek tomu sa očakáva, že AMD v budúcnosti NPUs do PC čipov vráti (pravdepodobne ide o dočasný ústup, kým pracujú na integrácii silného AI enginu bez kompromisov v iných výkonoch). Na produktovej strane by NPUs od AMD mohli umožniť zaujímavé veci, keďže AMD má aj silné GPU – táto kombinácia by mohla zvládať AI úlohy spoločne (niektoré časti na NPU, iné na GPU). AMD tiež vkladá AI jadrá do svojich adaptívnych (na FPGA založených) SoC a automobilových čipov. Zhrnuté, do roku 2025 všetci výrobcovia x86 PC čipov prijali NPUs, čím sa zarovnali s tým, čo urobili smartfóny pred pár rokmi, čo naznačuje, že AI akcelerácia sa stáva štandardnou funkciou naprieč celým segmentom.
- Ostatní: Rôzne špecializované čipové spoločnosti a ďalšie technologické firmy taktiež inovujú v oblasti NPU. NVIDIA, známa svojimi GPU, teraz zahŕňa dedikované Tensor Cores vo svojich GPU a ponúka otvorený NVDLA (deep learning accelerator) dizajn na integráciu do produktov typu System-on-Chip. V edge zariadeniach ako séria NVIDIA Jetson (používaná v robotoch, dronoch, embedded systémoch) sa nachádza ako GPU, tak aj fixne-funkčné „DLA“ – v podstate NPU – ktoré odľahčujú GPU od časti inferencie neurónových sietí. Napríklad NVIDIA Orin modul má 2 DLA okrem GPU, čo prispieva k jeho 254 TOPS AI výkonu pre autá ts2.tech. Apple podľa povestí pracuje na ešte pokročilejších AI koprocesoroch alebo väčších neurónových enginoch pre svoje AR okuliare či budúce projekty, hoci detaily sú tajné. Huawei (napriek geopolitickým výzvam) pokračuje v návrhu mobilných čipov Kirin s NPU (ich „DaVinci“ NPU architektúra) a tiež serverových NPU v ich AI čipoch Ascend – ich čip Kirin 9000S z roku 2023 údajne stále obsahuje silné NPU pre obrazové a jazykové úlohy v ich telefónoch. Vidíme tiež startupy ako Hailo, Mythic, Graphcore a ďalšie, ktoré ponúkajú vlastné edge AI čipy: napr. Hailo-8 ako bolo spomenuté (26 TOPS v mini PCIe karte pre AI kamery), Graphcore’s IPU pre dátové centrá (nie úplne on-device, ale nová architektúra pre neurónové siete), Mythic pracuje na analógových NPU, atď. ARM, ktorého návrhy tvoria základ väčšiny mobilných čipov, ponúka sériu Ethos NPU (napr. Ethos-U, Ethos-N78), ktorú môžu výrobcovia čipov integrovať a získať hotový AI akcelerátor do IoT alebo strednej triedy SoC. To umožnilo aj relatívne menším hráčom zahrnúť NPU do svojich čipov licencovaním ARM dizajnu.
Zhrnutie je, že od veľkých technologických firiem po startupy, všetci investujú do AI čipov priamo v zariadeniach. Výsledkom sú rýchle zlepšenia: nové čipy sa chvália vyšším TOPS, lepšou efektivitou (TOPS na watt) a podporou nových dátových typov (napr. 4-bitová kvantizácia pre väčšie modely). Napríklad najnovšie čipy Qualcomm a MediaTek dokážu bežať s presnosťou INT4, čo je skvelé pre generatívne AI modely, kde je limitujúcim faktorom pamäťová priepustnosť androidauthority.com. Tieto inovácie sa priamo premietajú do výhod pre používateľov – napr. mobilná AI úprava videa v reálnom čase (odstraňovanie objektov zo 4K videa za chodu, ako to dokáže Snapdragon 8 Gen 3 so svojou AI funkciou „Video Object Eraser“ futurumgroup.com), alebo AI koprocesory v autách umožňujúce hlasových asistentov, ktorí fungujú bez siete a reagujú rýchlosťou ľudskej konverzácie.
Kľúčové novinky z rokov 2024–2025: Novinky, benchmarky a partnerstvá
Aby sme ukázali, ako rýchlo sa veci hýbu, tu je niekoľko hlavných udalostí vo svete NPU/TPU a AI priamo v zariadeniach od konca 2024 do roku 2025:
- Predstavenie Apple M3 a M4 (október 2023 a máj 2024): Priniesli nové generácie Neural Engine. Neural Engine v M3 dosahuje 18 TOPS (16-jadrový), a M4 vyskočil na 38 TOPS (stále 16-jadrový, ale s vyšším taktom/efektivitou) apple.fandom.com. Apple demonštroval tieto čipy pri náročných úlohách, ako je generovanie obrázkov pomocou stable diffusion priamo v macOS (s Core ML Stable Diffusion, vývojári ukázali ~15 sekúnd na vygenerovanie obrázka na M2 – na M3/M4 ešte rýchlejšie).
- Uvedenie Google Pixel 8 (október 2023): Zdôrazňoval AI „všade“ v zariadení. Google na podujatí predviedol sumarizáciu webových stránok a živý preklad článkov priamo v zariadení pomocou Tensor G3 NPU. Predstavil tiež „Assistant with Bard“, ktorý bude niektoré interakcie časom vykonávať priamo v zariadení. Google zdôraznil, že Pixel 8 dokáže spúšťať 2× viac modelov priamo v zariadení ako Pixel 6, a modely, ktoré sú oveľa sofistikovanejšie blog.google. Inými slovami, obrovský skok za len dva roky vývoja čipov Tensor.
- Partnerstvo Qualcomm–Meta (júl 2023): Qualcomm a Meta oznámili, že optimalizujú veľký jazykový model Llama 2 od Meta na spúšťanie plne na Snapdragon NPU do roku 2024 iconnect007.com. Cieľom je umožniť vývojárom nasadzovať chatboty a generatívne AI aplikácie na telefónoch, VR headsetoch, PC atď., bez cloudu. Išlo o významné potvrdenie on-device AI zo strany veľkého vlastníka AI modelu (Meta) a veľkého výrobcu čipov. Koncom roka 2024 nadviazali plánmi na optimalizáciu aj pre Llama 3 qualcomm.com.
- Microsoft Windows 11 „Copilot“ PC (2024): Microsoft stanovil štandard, že PC s viac ako 40 TOPS lokálneho AI akcelerátora sú „AI PC“ oprávnené na rozšírené AI funkcie (ako integrácia digitálneho asistenta Copilot). To prinútilo OEM výrobcov – Lenovo, Dell, atď. – prijímať čipy s NPU (či už Intel, AMD alebo Qualcomm), aby splnili špecifikáciu. Výsledkom je očakávaná vlna AI notebookov v roku 2024, pričom Microsoft tvrdí, že je na ceste desiatky modelov a predpovedá viac ako 40 miliónov dodávok AI PC v roku 2024 pcworld.com.
- Stručné NPU Ryzen 8000 od AMD (január 2024): AMD oznámilo desktopový procesor s ohromujúcim 39 TOPS NPU (prekvapenie, keďže desktopové čipy zvyčajne takéto akcelerátory nemajú) pcworld.com. Hoci tento konkrétny produkt bol rýchlo nahradený, ukázal, že aj desktopové CPU môžu mať AI silikón, ktorý v TOPS konkuruje mobilným čipom. Bol to tiež prvý desktopový x86 procesor s NPU (tesne predbehol Intel Arrow Lake).
- Ukážky Tesla FSD Beta v12 (koniec 2023): Elon Musk predviedol end-to-end AI riadenie (bez radaru, len vizuálne siete) bežiace na Tesla HW3/HW4 NPU. Pozoruhodné bolo, že neurónová sieť riadila auto pomocou video vstupov spracovaných v reálnom čase priamo v počítači auta. Pozorovatelia si všimli, že FSD v12 naplno využíval 2× 100 TOPS NPU na videnie a Tesla naznačila, že budúce vylepšenia (HW5) s cieľom dosiahnuť 2000 TOPS môžu byť vo vývoji na zvládnutie ešte väčších modelov (objavili sa fámy, že Tesla HW5 by mohol cieliť na 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor predstavený (2024 GTC): NVIDIA odhalila detaily svojho ďalšieho automobilového čipu, Drive Thor, ktorý obsahuje ekvivalent 2× AI výkonu svojho predchodcu Orin – až 2000 TOPS pri prepojení dvoch čipov ts2.tech. Významné je, že Thor je určený nielen na riadenie, ale aj na AI v kabíne (napr. hlasové ovládanie a monitoring pasažierov) na jednej platforme, čo ukazuje, ako NPU a GPU môžu spolu konsolidovať mnoho AI funkcií v autách ts2.tech. Niekoľko automobiliek (Xpeng, BYD, Volvo) oznámilo, že Thor začnú používať od roku 2025 ts2.tech.
- Oppo MoE AI priamo v zariadení (október 2024): Ako už bolo spomenuté, Oppo implementovalo Mixture-of-Experts model v telefóne Find X8 grandviewresearch.com. Je to zaujímavé, pretože MoE modely sú zvyčajne veľké a považovali sa za serverové kvôli svojej zložitosti. Spustenie MoE priamo v zariadení naznačuje nové techniky kompresie modelov a veľmi schopné NPU (pravdepodobne MediaTek Dimensity 9400 v tomto zariadení).
- Meta Ray-Ban AI okuliare (2025): (Očakávané) Meta predstavila prototypy inteligentných okuliarov, ktoré dokážu identifikovať, čo vidíte, a hovoriť vám o tom – pravdepodobne s využitím vlastného akcelerátora na palube (Meta vyvíja vlastné čipy pre AR). Hoci detaily sú zatiaľ skromné, zdôrazňuje to snahu dostať AI do veľmi obmedzených zariadení (okuliare, bezdrôtové slúchadlá), čo si vyžaduje mimoriadne efektívne NPU.
- MLPerf Mobile Inference Benchmarks (2023–24): MLCommons zverejnil výsledky, ktoré ukazujú AI schopnosti najnovších smartfónov. Napríklad v MLPerf Inference v3.0 (október 2023) boli Apple A16, Google Tensor G2 a Qualcomm Gen 2 testované na úlohách ako klasifikácia obrázkov a detekcia objektov. Výsledky ukázali, že Apple a Qualcomm si navzájom vymieňajú víťazstvá, ale všeobecne sa mobilné NPU približujú niektorým akcelerátorom triedy notebookov/desktopov pri týchto úlohách – a to všetko na batériu. Tiež to poukázalo na softvérové rozdiely (napr. Qualcomm AI SDK vs. Apple Core ML). Pokračujúce zlepšenia každý rok (dvojciferné % nárasty) v týchto benchmarkoch dokazujú zdravú konkurenciu a rýchly pokrok v AI priamo na zariadení.
- Strategické partnerstvá: Vzniklo mnoho medziodvetvových partnerstiev. Napr. NVIDIA a MediaTek (máj 2023) oznámili spoluprácu, aby integrovali Nvidia GPU IP a softvérový ekosystém do budúcich čipov MediaTek pre smartfóny a automobily, čím efektívne spájajú AI silu Nvidie s odbornými znalosťami MediaTek v oblasti mobilných SoC. Rovnako spoločnosti ako Qualcomm spolupracujú s automobilkami (Mercedes, BMW), aby do nových vozidiel priniesli platformy Snapdragon Cockpit a Ride (s NPU) pre AI funkcie. Arm spolupracuje s Fujitsu a ďalšími na nových AI čipoch (napr. AI časť superpočítača Fugaku, hoci to je high-end). Dokonca aj IBM a Samsung naznačili nové čipové technológie (ako neuromorfné počítanie a AI pamäť), ktoré by jedného dňa mohli revolučne zmeniť NPU – zatiaľ tu nie sú, ale ukazujú, že výskumné pipeline sú plné.
Celkovo bol uplynulý rok nabité novinkami, čo podčiarkuje, že AI priamo na zariadení je jednou z najhorúcejších oblastí v technológiách. Ako poznamenal jeden analytik odvetvia, „tieto schopnosti priamo na zariadení otvárajú úplne nové horizonty… spúšťanie LLM na mobile pomáha riešiť škálovanie a náklady, udržiava údaje v súkromí a zabezpečuje, že AI funguje aj pri obmedzenom pripojení“ futurumgroup.com. To v podstate vystihuje, prečo tu investuje každá veľká technologická firma.
Odborné postrehy: Čo hovoria technologickí lídri o AI priamo na zariadení
Dynamika za NPU a TPU je zrejmá nielen v produktoch, ale aj v slovách lídrov odvetvia. Tu je niekoľko vybraných citátov a pohľadov, ktoré objasňujú význam AI priamo na zariadení:
- Cristiano Amon (CEO spoločnosti Qualcomm): „Ak má AI dosiahnuť masové rozšírenie, uvidíte ju bežať na zariadeniach… Toto je zlomový bod v AI: žiadne problémy s latenciou — len plynulé, bezpečné, cloudom doplnené inferencie priamo na zariadení. Budúcnosť AI je osobná a začína sa na vašom zariadení.“ (rozhovor pre Bloomberg a príspevok na X, 2023) x.com. Amon si predstavuje hybridný AI svet, kde váš telefón/PC zvládne veľa úloh na vlastných NPU, pričom spolupracuje s cloudom, keď je to potrebné. Zdôrazňuje, že lokálny beh AI je kľúčom k jej všadeprítomnosti (nemôžete mať všetko závislé od cloudových GPU – na svete ich nie je dosť pre miliardy zariadení).
- Durga Malladi (SVP, Qualcomm): „Oceňujeme prístup spoločnosti Meta k otvorenej a zodpovednej AI… Aby sa generatívna AI efektívne rozšírila do hlavného prúdu, AI bude musieť bežať v cloude aj na zariadeniach na okraji siete.“ iconnect007.com Malladi to povedal v kontexte partnerstva s Metou. Zdôrazňuje to spoločný pohľad: škálovanie AI = cloud + edge spolupracujú. Dnes už je jasné, že čisto cloudová AI nebude stačiť (z dôvodov nákladov, súkromia a latencie), preto edge AI musí prevziať časť záťaže.
- Will Chen (zástupca generálneho riaditeľa, MediaTek): „Budúcnosť AI presahuje cloud; je poháňaná edge computingom priamo z vašej dlane… OPPO a MediaTek sú priekopníkmi AI na zariadení, čím zabezpečujú, že inteligentné schopnosti sú výkonné, rýchle, súkromné, bezpečné a neustále dostupné.“ (MediaTek Exec Talk, 2025) mediatek.com. Tento citát výstižne vystihuje hodnotu AI na zariadení – získavate výkon a dostupnosť plus súkromie a bezpečnosť. Tiež ukazuje, že aj firmy tradične menej viditeľné na Západe (ako MediaTek) myslia na špičke AI nasadenia.
- Dr. Norman Wang (odborník na AI hardvér, CEO startupu s čipmi): „V AI hardvéri platí: čím bližšie dáte výpočty k zdroju dát, tým lepšie. Ide o zníženie pohybu dát. NPU vedľa vášho obrazového senzora znamená, že neposielate megapixely do cloudu – získavate poznatky priamo na okraji. To je prevratné pre latenciu aj spotrebu energie.“ (Panel na HotChips 2024 – parafrázované). Tento technický postreh vysvetľuje, prečo NPU často sedia na rovnakom čipe ako iné komponenty: napr. v telefóne môže NPU priamo získať dáta z kamery od ISP. Minimalizácia pohybu dát je obrovskou súčasťou efektívnej AI a edge AI to dosahuje spracovaním pri zdroji dát.
- Xinzhou Wu (VP pre automobilový priemysel, NVIDIA): „Zrýchlené výpočty viedli k prelomovým objavom, vrátane generatívnej AI, ktorá nanovo definuje autonómiu a automobilový priemysel.“ (GTC 2024 Keynote) ts2.tech. Diskutoval o tom, ako výkonné palubné počítače (s NPU/GPU) umožňujú autám nielen jazdiť, ale potenciálne aj začleniť pokročilú AI, ako sú generatívne modely na veci ako rozhrania prirodzeného jazyka v aute alebo lepšie pochopenie situácií. Zdôrazňuje to, že aj odvetvia ako automobilový priemysel vnímajú AI na zariadení nielen ako jadrovú funkcionalitu, ale aj ako spôsob zlepšenia používateľského zážitku (napr. hlasoví asistenti v autách, ktorí dokážu viesť konverzácie vďaka palubným LLM).
- Sundar Pichai (CEO Google): „Budúcnosť AI je o tom, aby bola užitočná pre každého. To znamená priniesť AI do všetkých zariadení, ktoré používame – telefóny, spotrebiče, autá – aby bola k dispozícii, keď ju potrebujete. Chceme stretnúť používateľov tam, kde sú, s AI, ktorá funguje v reálnom čase, na mieste a zachováva súkromie.“ (Parafrázované z viacerých rozhovorov/hlavných prejavov). Pichai často hovorí o „ambientnej AI“ – myšlienke, že AI bude všade okolo nás, zabudovaná v rôznych veciach. Snahy Googlu s čipmi Tensor v Pixeloch sú priamym naplnením tejto filozofie.
- Štatistiky z odvetvia: Analytici zaznamenali tento trend v číslach. Správa Grand View Research z roku 2024 uvádza: „Nedávne pokroky v špecializovaných AI čipoch a NPU umožnili spúšťať zložité AI algoritmy priamo na zariadeniach, čo výrazne zvyšuje výkon a energetickú efektivitu… blížime sa k zásadnému prechodu smerom k AI na zariadení.“ grandviewresearch.com. Tá istá správa predpovedá, že trh s AI na zariadení v nasledujúcich rokoch exploduje, pričom hardvérový segment (NPU, atď.) bude v roku 2024 tvoriť viac ako 60 % podielu na príjmoch a bude rásť, keďže takmer každé nové IoT alebo mobilné zariadenie získa AI schopnosti grandviewresearch.com. Ďalšia prognóza od IDC a iných naznačuje, že v polovici 20. rokov takmer všetky high-end smartfóny a väčšina strednej triedy budú mať AI akcelerátory, a že do roku 2030 bude miliardy edge AI čipov v prevádzke od spotrebnej elektroniky po inteligentnú infraštruktúru.
Konsenzus medzi odborníkmi je, že AI na zariadení nie je len pekný doplnok – je nevyhnutná pre ďalšiu vlnu technológií. Priekopník AI Andrew Ng často spomína, že „malá AI“ a edge AI umožnia inteligencii preniknúť do každého objektu, podobne ako to v minulosti urobila elektrina alebo internet. Prekonaním obmedzení AI založenej len na cloude umožňujú NPU a TPU tento prienik.
Výzva mnohých štandardov (a snahy o zjednodušenie)
Zatiaľ čo hardvér napreduje rýchlo, ekosystém softvéru a štandardov pre AI priamo na zariadení ešte stále dobieha. Vývojári čelia džungli nástrojov a SDK pri snahe využiť NPU naprieč rôznymi zariadeniami nimbleedge.com. Kľúčové body:- Každá platforma má vlastné API alebo SDK: Apple má Core ML (s API na cielenie Neural Engine), Android má Neural Networks API (NNAPI) (hoci Google oznámil plány na jeho ďalší vývoj po Androide 14) threads.com, Qualcomm ponúka SNPE (Snapdragon Neural Processing Engine) alebo širšie Qualcomm AI Stack, NVIDIA má TensorRT a CUDA pre svoje zariadenia, a tak ďalej. Existuje tiež ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI a ďalšie. Tieto rôzne SDK často ponúkajú odlišné možnosti a vyžadujú úpravu modelu pre optimálny beh na každom cieli. Ako uvádza správa o AI na zariadení z roku 2025, „Viacero nekompatibilných SDK (napr. Core ML, LiteRT, ONNX Runtime) s rôznou podporou operátorov a výkonom“ núti vývojárov vykonávať dodatočnú prácu nimbleedge.com.
- Problémy s fragmentáciou: Model, ktorý beží perfektne na desktopovom GPU, nemusí bez problémov bežať na NPU v telefóne – operátory (matematické funkcie) nemusia byť podporované alebo je potrebné ich inak kvantizovať. Vývojári niekedy musia udržiavať samostatné buildy alebo manuálne optimalizovať modely pre každý hardvér. Toto je „nízkoúrovňový, fragmentovaný ekosystém“ sťažnosť nimbleedge.com. Nástroje na ladenie sú tiež zriedkavé – profilovanie NPU, aby sa zistilo, prečo je model pomalý, môže byť náročné, najmä v porovnaní s bohatými nástrojmi pre CPU/GPU nimbleedge.com.
- Úsilie o štandardizáciu: Na riešenie tohto problému sa deje niekoľko vecí. ONNX (Open Neural Network Exchange) sa objavil ako spoločný formát, takže môžete trénovať model v PyTorch alebo TensorFlow a potom ho exportovať do ONNX na nasadenie. Mnohé runtime prostredia (vrátane tých na zariadeniach, ako sú Qualcomm a MediaTek) podporujú načítanie ONNX modelov a pokúsia sa ich skompilovať pre daný hardvér. To pomáha vyhnúť sa uzamknutiu na jeden framework. Android NNAPI bol pokus spoločnosti Google poskytnúť univerzálne rozhranie – aplikácia môže požiadať „spustiť túto neurónovú sieť“ cez NNAPI a operačný systém použije akcelerátor, ktorý je k dispozícii (GPU, DSP alebo NPU), na jej vykonanie. NNAPI sa rozšíril do mnohých Android zariadení, ale mal obmedzenia a nie všetci výrobcovia poskytli robustné ovládače, čo viedlo Google k naznačeniu novej stratégie (možno sa bude opierať o WebNN alebo priame integrácie výrobcov) po roku 2024 threads.com. Na PC spoločnosť Microsoft predstavila DirectML a Windows ML API na podobné abstrahovanie hardvérových rozdielov (umožňuje vývojárovi použiť to isté API pre NVIDIA, Intel, AMD NPU).
- Zjednotené nástroje: Firmy tiež budujú nástrojové reťazce na zjednodušenie nasadenia. Videli sme Qualcomm AI Stack, ktorý kombinuje ich kompilátor (AI Model Efficiency Toolkit) a runtime prostredia, takže vývojári môžu jednoduchšie cieliť na ich Hexagon NPU iconnect007.com. NVIDIA TensorRT a súvisiace SDK robia niečo podobné pre zariadenia Jetson, optimalizujú modely pre GPU+NVDLA. Intel OpenVINO je ďalší – umožňuje vziať model a optimalizovať ho pre Intel CPU, iGPU a VPU (NPU) pre edge nasadenia. Tieto frameworky často obsahujú optimalizátory modelov, ktoré modely konvertujú (prerezávanie, kvantizácia), aby sa zmestili na menšie zariadenia.
- Interoperabilita: Dochádza k posunu smerom k tomu, aby rôzne NPU fungovali s bežnými frameworkmi. Napríklad Google TensorFlow Lite má hardvérové delegáty – jeden pre NNAPI (pokrýva Android zariadenia všeobecne), jeden pre Core ML (iOS zariadenia), jeden pre Edge TPU atď. Myšlienka je, že napíšete svoj TFLite model a ten sa vykoná pomocou najlepšieho dostupného akcelerátora cez delegáta. Podobne PyTorch pridáva podporu pre mobilné backendy a dokonca aj veci ako Apple Metal Performance Shaders (na využitie GPU/NPU na iOS). ONNX Runtime môže tiež cieliť na rôzne akcelerátory cez pluginy (napr. je možné pripojiť NVIDIA TensorRT alebo ARM Compute Library či iné riešenia na pozadí).
- Vznikajúce štandardy: Khronos Group (za OpenGL/Vulkan) pracovala na NNEF (Neural Network Exchange Format) a diskutuje sa o WebNN API prehliadačov na prístup k lokálnej AI akcelerácii. Žiadny z nich zatiaľ nie je univerzálne prijatý. Ale jeden zaujímavý vývoj: koncom roka 2024 niekoľko spoločností vytvorilo alianciu na podporu „AI Hardware Common Layer“ štandardov – v podstate skúmajú, či by sa dalo vytvoriť spoločné nízkoúrovňové rozhranie pre NPU (analogicky ako OpenCL pre výpočty na GPU). Je to však ešte len v začiatkoch.
- Skúsenosti vývojárov: Je to uznávaná medzera. Ako uvádza blog NimbleEdge, „vývoj pre AI na zariadení si v súčasnosti vyžaduje orientáciu vo fragmentovanom a nízkoúrovňovom ekosystéme… čo núti vývojárov prispôsobovať implementácie pre každý hardvérový cieľ“ nimbleedge.com. Odvetvie vie, že toto sa musí zlepšiť, aby sa AI na zariadení skutočne stala mainstreamom. Môžeme očakávať konsolidáciu – napríklad, ak by sa Google, Apple a Qualcomm dokázali dohodnúť na nejakej základnej sade operácií a API (možno len zbožné prianie). Alebo, čo je pravdepodobnejšie, frameworky ako PyTorch a TensorFlow skryjú túto zložitosť tým, že integrujú všetky tie knižnice od výrobcov a vyberú tú správnu za behu.
V podstate, zatiaľ čo NPU/TPU poskytujú „svaly“, komunita pracuje na nástrojoch priateľských k mozgu, ktoré tieto svaly využijú. Dobrou správou je, že v porovnaní napríklad s obdobím pred piatimi rokmi je dnes oveľa viac možností, ako nasadiť model na zariadení bez toho, aby ste boli odborníkom na čipy. Stále je však priestor na rast – najmä v oblasti ladenia, profilovania a podpory viacerých hardvérov.
Trendy na trhu a budúci výhľad
Rozmach NPU a TPU v zariadeniach poháňa väčší trend: AI všade. Tu sú niektoré hlavné trendy a čo možno očakávať do budúcnosti:
- Rast trhu Edge AI: Prieskumy trhu naznačujú explozívny rast hardvéru pre edge AI. Trh s AI na zariadení (vrátane čipov a softvéru) by mal rásť tempom ~29 % CAGR počas tejto dekády nimbleedge.com. Jedna správa ho v roku 2024 ohodnotila na približne 233 miliárd dolárov, pričom do roku 2032 by mal prekročiť 1,7 bilióna dolárov nimbleedge.com – veľká časť tohto rastu bude poháňaná nasadzovaním na okraji siete. Ďalšia analýza od IDTechEx predpovedá, že trh s AI čipmi pre edge zariadenia dosiahne do roku 2034 hodnotu 22 miliárd dolárov, pričom najväčšími segmentmi budú spotrebná elektronika, automobilový priemysel a priemyselné aplikácie idtechex.com. To znamená, že stovky miliónov zariadení ročne budú štandardne vybavené NPU.
- Všadeprítomné prijatie: Rovnako ako má dnes každý smartfón GPU (aj keď malú), blížime sa k bodu, keď každý nový smartfón bude mať AI akcelerátor. Vysokovýkonné telefóny ich už majú; stredná trieda je na rade. Skutočne, čipy strednej triedy od Qualcommu (napr. séria Snapdragon 7) a MediaTeku (séria Dimensity 700/800) už obsahujú zmenšené NPU, aby funkcie ako AI vylepšenia kamery a hlasový asistent fungovali aj na lacnejších zariadeniach. Okrem telefónov sa NPU rozširujú aj do PC (štandard v nových Windows notebookoch od viacerých výrobcov), áut (takmer všetky nové autá s ADAS Level 2+ majú nejaký AI čip) a IoT. Dokonca aj spotrebiče ako chladničky a práčky začínajú propagovať „AI“ funkcie (niektoré sú cloudové, ale niektoré lokálne, napríklad adaptívne cykly na základe senzorov). Trend je jasný: ak má zariadenie výpočtový čip, bude mať nejakú ML akceleráciu na tom čipe.
- Výkonnostná trajektória: Výkon AI priamo na zariadení sa zdvojnásobuje približne každých 1–2 roky (kombinácia lepšej architektúry a prechodu na pokročilé polovodičové uzly ako 5nm, 4nm, 3nm). Apple Neural Engine sa posunul zo 600 miliárd operácií/sekundu v roku 2017 na 35 biliónov v roku 2023 – takmer 60× nárast za šesť rokov apple.fandom.com. Vlajkové lode Qualcommu podobne poskočili z niekoľkých TOPS v roku 2018 na viac ako 27 TOPS v roku 2023 (celkový AI výkon SD 8 Gen 3, počítajúc všetky jadrá). Môžeme očakávať, že v rokoch 2025–2026 budú mobilné NPU dosahovať 100+ TOPS a PC akcelerátory ešte viac, pričom tieto čísla môžu byť menej relevantné, keďže sa pozornosť presúva na použiteľný výkon pri konkrétnych AI úlohách (napríklad, aký veľký LLM môžete plynulo spustiť, alebo či zvládnete 4K AI video v reálnom čase). Rozdiel medzi cloudom a edge sa pravdepodobne zúži pri inferenčných úlohách. Avšak edge bude stále zaostávať za cloudom pri absolútne najväčších modeloch kvôli obmedzeniam výkonu a pamäte.
- Zisky v energetickej efektívnosti: Jedným z podceňovaných aspektov je, ako efektívne sa tieto NPU stávajú. Tesla NPU v aute dosahuje ~4,9 TOPS/Watt fuse.wikichip.org, čo bolo pred pár rokmi špičkové; teraz niektoré mobilné NPU tvrdia podobné alebo lepšie hodnoty. Efektívne NPU znamenajú dlhšiu výdrž batérie, aj keď používame AI funkcie viac. Tiež to znamená, že je možné dať AI do malých zariadení na batérie (napr. AI načúvacie prístroje, inteligentné senzory na gombíkové batérie vykonávajúce detekciu anomálií). Koncept TinyML – extrémne malého strojového učenia na mikrokontroléroch – je rozšírením tohto, využívajúc zjednodušené „NPU“ alebo optimalizované inštrukcie na mikrokontroléroch na AI v senzoroch. ARM Ethos-U NPU je zameraný na tento segment (napr. neustále aktívne rozpoznávanie kľúčových slov bežiace na pár miliwatoch). Očakávajte viac AI-špecifických malých čipov, ktoré sa dajú zabudovať do senzorov, nositeľných zariadení a bežných predmetov (inteligentná zubná kefka? AI detektor dymu? Prichádza to).
- Hybridné cloud-edge riešenia: Namiesto toho, aby edge úplne nahradil cloud, budúcnosťou je spolupráca. Zariadenia budú robiť, čo môžu lokálne, a na cloud sa obrátia len v prípade, že niečo nezvládnu. Napríklad vaše AR okuliare môžu lokálne rozpoznávať scénu, aby vedeli, na čo sa pozeráte, ale ak sa opýtate veľmi zložitú otázku (napríklad na podrobné vysvetlenie), môžu sa obrátiť na cloudovú AI pre výkonnejšiu analýzu a potom vám ju prezentovať. Tento hybridný prístup poskytuje najlepšiu rovnováhu medzi rýchlosťou odozvy a schopnosťami. Firmy aktívne navrhujú zážitky okolo tohto princípu: Microsoft Copilot vo Windows môže použiť lokálne NPU na rýchly prevod hlasu na text a spracovanie príkazov, ale na náročnejšie úlohy využije cloud (pokiaľ nemáte výkonné PC NPU, ktoré to zvládne). Ideálne by používateľ nemal vedieť ani sa starať, ktorá možnosť sa použila, okrem toho, že všetko je rýchlejšie a rešpektuje súkromie. Tiež uvidíme, ako sa federatívne učenie stane bežnejším – modely sa trénujú v cloude, ale s pomocou dát šifrovaných alebo spracovaných na zariadeniach, a naopak.
- Nové prípady použitia: Ako budú NPUs výkonnejšie, otvoria sa nové aplikácie. Generatívna AI na zariadení je veľká vec – predstavte si tvorbu AI obrázkov, AI úpravu videa a osobné chatboty priamo vo vašom telefóne alebo notebooku. Do roku 2025 môžeme vidieť prvé verzie offline osobných asistentov, ktorí dokážu zhrnúť vaše e-maily alebo pripraviť správy bez cloudu. Preklad reči v reálnom čase (dvaja ľudia hovoria rôznymi jazykmi, telefóny alebo slúchadlá prekladajú takmer okamžite) sa vďaka spracovaniu na zariadení výrazne zlepší (žiadne oneskorenie a funguje kdekoľvek). Zdravotná AI môže fungovať na nositeľných zariadeniach – vaše smart hodinky detegujú fibriláciu predsiení alebo analyzujú vzorce spánkového apnoe pomocou svojho NPU. Bezpečnosť: zariadenia môžu lokálne spúšťať AI na detekciu malvéru alebo phishingu v reálnom čase (napr. antivírus používa AI model priamo na zariadení namiesto cloudových skenov). A vo vozidlách, okrem samotného riadenia, môže AI personalizovať zážitok v aute (napr. upraviť klimatizáciu podľa vašej nálady rozpoznanej kamerou zameranou na vodiča atď.). Mnohé z týchto prípadov použitia vyžadujú rýchlu iteráciu a súkromie, čo vyhovuje spracovaniu na zariadení.
- Konkurencia a demokratizácia: Veľkí hráči budú naďalej súťažiť, čo je pre spotrebiteľov dobré – očakávajte marketing typu „náš AI čip zvládne X TOPS alebo umožní Y funkciu, ktorú iní nemajú“. Ale technológia sa tiež demokratizuje – NPUs už nie sú len v telefónoch za 1000 dolárov; prichádzajú do telefónov za 300 dolárov, IoT dosiek za 50 dolárov (Coral, Arduino Portenta atď.) a open-source komunity vytvárajú malé AI modely, ktoré si nadšenci môžu spustiť na Raspberry Pi alebo mikrokontroléri so základným akcelerátorom. Táto široká dostupnosť znamená, že inovácie môžu prísť odkiaľkoľvek. Osamelý vývojár teraz môže vytvoriť aplikáciu, ktorá využíva AI na zariadení na niečo šikovné bez potreby serverovej farmy – čím sa znižuje vstupná bariéra pre softvér poháňaný AI.
- Budúce technológie: Pri pohľade do budúcnosti výskum v oblasti neuromorfného počítania (čipy inšpirované mozgom, ako Intel Loihi) a analógových AI čipov by mohol jedného dňa spôsobiť revolúciu v NPU, prinášajúc zisky v efektivite o niekoľko rádov. Spoločnosti ako IBM a BrainChip na tom pracujú. Ak budú úspešní, neuromorfný čip by mohol umožniť nepretržitý beh komplexnej AI na malých zariadeniach s batériou. Môžeme tiež vidieť 3D stohovanie a nové pamäťové technológie integrované do NPU na prekonanie pamäťových úzkych miest (niektoré čipy po roku 2025 môžu používať HBM pamäť alebo novú nevolatilnú pamäť na čipe na rýchlejšie zásobovanie AI jadier). Očakávajte tiež viac špecializácie v rámci AI čipov: napr. samostatné akcelerátory pre videnie, pre reč, pre odporúčacie modely atď., každý optimalizovaný pre svoju oblasť. Niektoré SoC už majú dvojité NPU (jedno „veľké“ NPU pre náročné úlohy, jedno mikro NPU v senzorovom hube pre stále zapnuté ľahké úlohy).
Na záver je trajektória jasná: NPU a TPU sa stávajú rovnako štandardnými a nepostrádateľnými ako CPU v modernom výpočtovom svete. Umožňujú zariadeniam byť inteligentnejšími, pohotovejšími a viac dbať na naše súkromie. Ako uvádza jedna správa, „výkonné procesorové jednotky v zariadeniach sú do veľkej miery zodpovedné za vykonávanie komplexných AI funkcií ako rozpoznávanie obrazu, NLP a rozhodovanie v reálnom čase“, a to poháňa inteligentnejšie a pohotovejšie technológie naprieč sektormi grandviewresearch.com.
Vstupujeme do éry, kde jednoducho budete očakávať, že vaše zariadenie porozumie a predvída vaše potreby – váš telefón upravuje fotky a píše správy vo vašom štýle, vaše auto sa vyhýba nehodám a zabáva vás pomocou AI, vaše domáce zariadenia sa učia vaše preferencie – to všetko umožňujú tiché neurónové procesory vo vnútri nich. AI priamo na zariadení nie je sci-fi; je tu už teraz a rýchlo sa zlepšuje. Spojenie NPU a TPU s našimi každodennými zariadeniami robí AI osobnou, všadeprítomnou a súkromnou – skutočne prináša silu cloudovej inteligencie na zem (alebo aspoň do vášho vrecka).
Zdroje:
- Bigelow, Stephen. „GPUs vs. TPUs vs. NPUs: Porovnanie AI hardvérových možností.“ TechTarget, 27. augusta 2024 techtarget.com. Popisuje úlohy a rozdiely medzi CPU, GPU, TPU a NPU v AI úlohách.
- Backblaze Blog. „AI 101: GPU vs. TPU vs. NPU.“ Backblaze, 2023 backblaze.com. Vysvetlenie dizajnu Google TPU (systolické polia, nízka presnosť) a využitia NPU v mobilných zariadeniach.
- TechTarget WhatIs. „Tensor processing unit (TPU).“ whatis.techtarget.com, 2023 techtarget.com. Uvádza, že TPU sa špecializujú na úlohy maticovej matematiky a NPU napodobňujú neurónové siete mozgu na urýchlenie techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). „Stav AI na zariadení: Čo chýba v dnešnom prostredí.“ 26. jún 2025 nimbleedge.com. Vymenúva výhody AI na zariadení (latencia, offline, súkromie, náklady) a výzvy ako fragmentované SDK.
- Qualcomm (OnQ Blog). „Bloomberg a Cristiano Amon hovoria o AI na zariadení.“ Júl 2023 x.com. CEO spoločnosti Qualcomm o dôležitosti inferencie na zariadení pre budúcnosť AI (citát z tweetu o zlomovom bode v AI).
- MediaTek Blog (Exec Talk by Will Chen). „Formovanie budúcnosti AI mobilných zážitkov.“ 3. marec 2025 mediatek.com. Spolupráca MediaTek a Oppo na NPU; citát o edge computingu vo vašej ruke a príklad AI remastrovania fotografií pomocou NPU.
- I-Connect007 / Qualcomm Press. „Qualcomm spolupracuje s Meta na umožnení AI na zariadení (Llama 2).“ 24. júl 2023 iconnect007.com. Tlačová správa s citátom od SVP Qualcommu Durga Malladiho o škálovaní generatívnej AI cez edge zariadenia a cloud.
- PCWorld (Mark Hachman). „Intelove Core Ultra CPU zjednodušujú AI….“ 24. október 2024 pcworld.com. Diskutuje o Intel Arrow Lake využívajúcom NPU z Meteor Lake (13 TOPS) a uvádza AMD Ryzen 8000 39 TOPS NPU a Microsoftovu požiadavku na 40 TOPS „Copilot“.
- Ts2 (Tech Empowerment). „Súboj superpočítačov pre autonómne riadenie: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.“ sep. 2023 ts2.tech. Uvádza odhady TOPS: Tesla HW3 vs HW4 (72→100 TOPS na čip) ts2.tech, NVIDIA Thor ~1000 TOPS (alebo 2000 s duálnym) ts2.tech a cituje viceprezidenta NVIDIA o generatívnej AI vo vozidlách ts2.tech.
- Grand View Research. „Správa o trhu s AI na zariadeniach, 2030.“ 2024 grandviewresearch.com. Uvádza nárast špecializovaných AI čipov (NPU), ktoré umožňujú komplexnú AI na zariadeniach, a že hardvér tvoril 60,4 % trhu s AI na zariadeniach v roku 2024, poháňaný smartfónmi, IoT, NPU atď.
- Google Blog. „Google Tensor G3: AI-prvý procesor pre Pixel 8.“ okt. 2023 blog.google. Popisuje vylepšenia Tensor G3 pre generatívnu AI na zariadení, nový dizajn TPU a model TTS na zariadení s kvalitou dátového centra.
- Techspot. „Snapdragon 8 Gen 3 prináša generatívnu AI do smartfónov.“ okt. 2023 futurumgroup.com. Analýza Futurum Group podrobne opisuje AI engine SD8Gen3: 10-miliardový LLM na zariadení, o 98 % rýchlejšie NPU, najrýchlejšia Stable Diffusion na telefóne na svete atď., plus výhody LLM na zariadení pre náklady/súkromie/offline futurumgroup.com.
- Apple Wiki (Fandom). „Neural Engine.“ Aktualizované 2025 apple.fandom.com. História verzií Neural Engine s A17 Pro 35 TOPS v roku 2023, atď. Ukazuje vývoj od 0,6 TOPS (A11) po 35 TOPS (A17) apple.fandom.com a M4 s 38 TOPS apple.fandom.com.
- EnGenius Tech. „Cloud Edge Camera AI Surveillance.“ 2023 engeniustech.com. Príklad bezpečnostnej kamery so zabudovaným NPU umožňujúcim AI spracovanie priamo v kamere a lokálne úložisko (nie je potrebný NVR).
- EmbedL. „Amazon uvádza AZ1 Neural Edge Processor.“ Okt. 2020 embedl.com. Diskutuje o edge NPU AZ1 od Amazonu pre zariadenia Echo, vyrobený s MediaTek, navrhnutý na inferenciu reči priamo v zariadení na zníženie latencie a závislosti od cloudu embedl.com.