- Apple je začel z vgrajeno umetno inteligenco leta 2017 z Neural Engine na iPhonu A11, ki je omogočil Face ID in Animoji s hitrostjo do 600 milijard operacij na sekundo.
- Leta 2023 je 16-jedrni Neural Engine na iPhonu A17 Pro dosegel približno 35 TOPS in poganjal funkcije za govor, fotografijo in prevajanje na napravi.
- Google Pixel 8 (2023) uporablja Tensor G3 NPU za izvajanje AI modelov na napravi, kot je Palm 2, za prevajanje in povzemanje brez povezave.
- Google Edge TPU na Coral Dev Board omogoča 4 TOPS procesiranja slike pri nekaj vatih porabe.
- Tesla Full Self-Driving strojna oprema ima dva NPU-ja: HW3 (2019) je ponujal približno 144 TOPS, HW4 (2023) pa okoli 200–250 TOPS.
- NVIDIA Drive Thor (predstavljen 2024) lahko doseže do 2000 TOPS, ko sta dva čipa povezana za avtomobilske AI naloge.
- Qualcommov Snapdragon 8 Gen 3 (2023) Hexagon NPU je 98 % hitrejši od Gen 2, lahko poganja LLM-je do 10 milijard parametrov na napravi in je v demonstracijah dosegel najhitrejši mobilni Stable Diffusion na svetu.
- MediaTekov Dimensity 9400 (2024) s šesto generacijo APU poganja Oppo Find X8 AI za obnovo fotografij, kar nakazuje širitev NPU-jev na televizorje, IoT in avtomobile do leta 2025.
- Intelov Meteor Lake, 14. generacija Core (izdan 2023; preimenovan v Core Ultra leta 2024), vključuje integriran NPU z zmogljivostjo približno 8–12 TOPS, Arrow Lake ima ~13 TOPS, Lunar Lake pa naj bi dosegel okoli 45 TOPS.
- AMD-jev Ryzen 7040 Phoenix (2023) je predstavil Ryzen AI Engine z do 10 TOPS, medtem ko je Ryzen 8000 desktop (začetek 2024) ponujal 39 TOPS, preden je AMD v tej generaciji začasno ustavil NPU-je.
Na kratko: Vaš pametni telefon, kamera in celo vaš avto dobivajo vgrajene AI možgane – brez potrebe po oblaku. Posebni čipi, imenovani NPU-ji (Neural Processing Units) in TPU-ji (Tensor Processing Units), spreminjajo vsakdanje naprave v inteligentne pomočnike, sposobne prepoznavanja obrazov, glasovnih ukazov, prevajanja v realnem času, funkcij za avtonomno vožnjo in še več. Ta revolucija vgrajene umetne inteligence obljublja izjemno hitre odzive, boljšo zasebnost in nove funkcije, ki smo jih nekoč pripisovali le superračunalnikom. V tem poročilu bomo razjasnili NPU-je in TPU-je, pogledali, kako se razlikujejo od CPU/GPU, ter raziskali, zakaj tehnološki velikani, kot so Apple, Google, Qualcomm in Intel, tekmujejo, da bi te “AI možgane” vgradili v vse – od telefonov do avtomobilov. Izpostavili bomo tudi najnovejše preboje za 2024–2025, strokovna mnenja, industrijske standarde in prihodnost vgrajene umetne inteligence.
Kaj so NPU-ji in TPU-ji? (Spoznajte AI možgane vaše naprave)
Nevronske procesne enote (NPU) so specializirani procesorji, zasnovani za pospeševanje umetnih nevronskih mrež – algoritmov, ki poganjajo sodobne AI naloge, kot so prepoznavanje slik, obdelava govora in drugo. Za razliko od splošnonamenskih CPE-jev so NPU-ji aplikacijsko specifična integrirana vezja (ASIC), prilagojena za matrično matematiko in zahtevna vzporedna opravila nevronskih mrež [1]. NPU “posnema nevronske mreže človeških možganov za pospeševanje AI nalog” in v bistvu deluje kot silikonski možgani v vaši napravi [2]. NPU-ji so odlični pri izvajanju inferenc (napovedi) za AI modele učinkovito na napravi, pogosto z uporabo nižje numerične natančnosti (npr. 8-bitna cela števila), da prihranijo energijo in še vedno zagotavljajo visoko zmogljivost [3]. Izraz “NPU” se včasih uporablja širše za vsak AI pospeševalnik, vendar se pogosteje nanaša na tiste v mobilnih in robnih napravah [4]. Na primer, Applov “Neural Engine” v iPhonih in Samsungov mobilni AI pogon sta NPU-ja, integrirana v njune sisteme na čipu (SoC).
Tensor Processing Units (TPU-ji) pa so po drugi strani nastali pri Googlu kot namenski čipi za pospeševanje strojnega učenja, zlasti za ogrodje TensorFlow. TPU je vrsta ASIC-a, optimiziranega za tenzorske operacije (množenje matrik itd.), ki so v središču učenja in inferenciranja nevronskih mrež [5]. Google je prvič uvedel TPU-je v svojih podatkovnih centrih leta 2015 za pospešitev izračunov nevronskih mrež, kasneje pa jih je ponudil tudi prek Google Cloud [6]. TPU-ji uporabljajo posebno arhitekturo, imenovano sistolična mreža, ki povezuje veliko majhnih procesnih enot v mrežo, ki poganja podatke skozi verigo enot za množenje matrik [7]. Ta zasnova omogoča izjemno prepustnost pri nalogah globokega učenja. Googlove TPU-je namerno žrtvujejo nekaj natančnosti (uporabljajo 8-bitno ali 16-bitno matematiko namesto 32-bitnih plavajočih vejic) v zameno za ogromne dobičke v hitrosti in učinkovitosti [8], saj veliko AI-nalog ne zahteva visoke natančnosti za dosego natančnih rezultatov. Čeprav se »TPU« tehnično nanaša na Googlove čipe, se izraz včasih uporablja bolj splošno za vsak »tenzorski« pospeševalnik. Omeniti velja, da Google proizvaja tudi Edge TPU koprocesorje za AI na napravi v izdelkih, kot je Coral Dev Board, ki omogočajo 4 bilijone operacij na sekundo pri nekaj vatih [9].
Na kratko: NPU-ji in TPU-ji so oba silicijeva pospeševalnika za umetno inteligenco, vendar so NPU-ji običajno vgrajeni v mobilne/robne naprave za učinkovito inference na napravi, medtem ko so TPU-ji (v ožjem pomenu) visokozmogljivi čipi (in zdaj moduli) predvsem Googla, prvotno namenjeni za učenje in inferenciranje v oblaku/podatkovnih centrih. Obe arhitekturi se oddaljujeta od tradicionalnih zasnov CPU/GPU, da bi dali prednost vzporednim matematičnim operacijam za nevronske mreže. Kot je zapisal eden od tehnoloških urednikov: »TPU-ji gredo v specializaciji še dlje, saj se osredotočajo na tenzorske operacije za doseganje večjih hitrosti in energijske učinkovitosti… NPU-ji pa so razširjeni v napravah z AI, kot so pametni telefoni in IoT naprave« [10].
Kako se NPU-ji in TPU-ji razlikujejo od CPU-jev in GPU-jev?
Tradicionalni CPU-ji (centralne procesne enote) so “možgani” splošnega računalništva – optimizirani za prilagodljivost, da lahko opravljajo najrazličnejše naloge, od poganjanja operacijskega sistema do brskanja po spletu. Imajo nekaj zmogljivih jeder, ki so odlična pri zaporedni logiki in raznolikih ukazih, vendar niso najboljši pri zelo paralelnem matematičnem računanju, ki je potrebno za globoko učenje [11]. Ko CPU dobi nalogo obdelave velike nevronske mreže, pogosto postane ozko grlo, saj mora izvajati milijone množenj in seštevanj zaporedno ali v omejenih paralelnih serijah. To vodi do visoke zakasnitve in porabe energije (t.i. Von Neumannovo ozko grlo, ko se veliko podatkov prenaša med CPU-jem in pomnilnikom) [12]. CPU-ji lahko opravijo nekaj AI nalog (zlasti enostavnejše ali manjše modele, ali kontrolno logiko za AI programe [13]), vendar se praviloma težko učinkovito prilagodijo sodobnim zahtevam AI po masivni paralelni linearni algebri.
GPU-ji (grafične procesne enote) so prinesli paralelno računalništvo v ospredje. Prvotno so bili izdelani za izrisovanje slik z izvajanjem številnih preprostih operacij vzporedno na slikovnih pikah in ogliščih, a so se izkazali za zelo primerne tudi za učenje nevronskih mrež, ki prav tako vključuje izvajanje enakih matematičnih operacij (skalarni produkti itd.) na veliko podatkih hkrati [14]. GPU vsebuje na stotine ali tisoče majhnih jeder, ki lahko izvajajo matematiko vzporedno. To naredi GPU-je odlične za obsežen AI, in skozi 2010-ta so GPU-ji (zlasti NVIDIA-jevi s programsko opremo CUDA) postali gonilna sila raziskav globokega učenja. Vendar pa so GPU-ji še vedno nekoliko splošni – morajo obvladovati različne grafične naloge in ohranjati prilagodljivost, zato niso 100% optimizirani za nevronske mreže. Prav tako porabijo veliko energije in zahtevajo skrbno programiranje za popolno izkoriščenost (ne marajo kompleksne razvejane kode in najbolje delujejo pri poenostavljenih, podatkovno paralelnih nalogah) [15].
NPU-ji in TPU-ji gredo v specializaciji še dlje. Namenjeni so izključno za samo delovne obremenitve nevronskih mrež. To pomeni, da lahko njihova arhitektura odstrani vse, kar ni potrebno za AI matematiko, in nameni več silicija stvarem, kot so enote za množenje matrik, akumulacijski seštevalniki in pomnilnik na čipu za hitro prenašanje podatkov v in iz teh matematičnih enot. Na primer, Google Cloud TPU je v bistvu velik 2D niz MAC (multiply-accumulate) enot s pametno arhitekturo pretoka podatkov (sistolična matrika), ki jih oskrbuje z operandi pri visoki hitrosti [16]. Ne ukvarja se z medpomnilniki, špekulativnim izvajanjem ali drugimi funkcijami CPU-jev – optimiziran je za matrično matematiko. NPU-ji v mobilnih čipih podobno vključujejo namenske jedra nevronskega pogona poleg CPU/GPU. Ta jedra pogosto uporabljajo aritmetiko z nizko natančnostjo (npr. 8-bitna cela števila kot TPU-ji) in izvajajo zelo vzporedne izračune “plast za plastjo” za stvari, kot so konvolucijske nevronske mreže. NPU lahko uporablja “fuzijsko” arhitekturo, ki združuje skalarne, vektorske in tenzorske enote (Qualcommov Hexagon NPU to počne), da učinkovito obravnava različne operacije nevronskih mrež [17].
Ključne razlike so:
- Nabor ukazov in prilagodljivost: CPU-ji imajo širok, splošen nabor ukazov (lahko počnejo veliko stvari, a ne vseh hkrati). GPU-ji imajo bolj omejen, a še vedno prilagodljiv nabor ukazov, optimiziran za prepustnost pri matematičnih operacijah. NPU-ji/TPU-ji imajo zelo ozek nabor ukazov – v bistvu le operacije, potrebne za nevronske mreže (množenje matrik, konvolucije, aktivacijske funkcije), pogosto izvedene kot fiksne cevovode ali matrike [18]. Na primer, Teslin NPU za samovozeča vozila ima v svoji ISA le 8 ukazov, osredotočenih na DMA branje/pisanje in skalarni produkt [19].
- Paralelizem in jedra: CPU-ji = nekaj zmogljivih jeder; GPU-ji = tisoči preprostih jeder; NPU-ji/TPU-ji = v določenem smislu desettisoče zelo preprostih ALU-jev (MAC enot), strukturiranih v matriko ali v slogu nevronske mreže. En sam NPU čip lahko izvede deset bilijonov operacij na sekundo – Teslin avtomobilski NPU deluje pri 2 GHz z 9.216 MAC enotami in doseže približno 37 tera-operacij na sekundo (TOPS) na jedro, vsak FSD čip pa ima dva NPU-ja za približno 74 TOPS [20], ts2.tech. Za primerjavo: vrhunski CPU lahko pri AI nalogah doseže le nekaj sto milijard operacij/sek, GPU pa morda nekaj TOPS, če ne uporablja posebnih tenzorskih jeder.
- Pomnilniška arhitektura: NPU-ji/TPU-ji se zanašajo na hiter pomnilnik na čipu in pretakanje podatkov. TPU-ji se izognejo klasičnemu ozkemu grlu pomnilnika z uporabo sistoličnega pretoka podatkov – vsaka majhna enota podatke v koraku posreduje naprej, s čimer se zmanjša število branj/pisanj v glavni pomnilnik [21]. Številni NPU-ji imajo na čipu kos SRAM za uteži/aktivacije (npr. Teslina NPU jedra imajo vsako po 32 MB SRAM za lokalno shranjevanje podatkov nevronske mreže) [22]. To je v nasprotju z GPU-ji/CPU-ji, ki močno uporabljajo zunanji DRAM.
- Natančnost: CPU-ji/GPU-ji običajno uporabljajo 32-bitne ali 64-bitne plavajoče vejice za izračune. AI pospeševalniki pogosto uporabljajo 16-bitne ali 8-bitne cele števile (nekateri zdaj raziskujejo celo 4-bitne ali 2-bitne), ker nevronske mreže dopuščajo nižjo natančnost. Googlove TPU-jeve oblikovalce so izrecno poudarili, da za inferenco ne potrebujete polne natančnosti s plavajočo vejico, podobno kot “ni treba natančno vedeti, koliko dežnih kapljic pada, da veste, da močno dežuje” [23]. To omogoča NPU-jem/TPU-jem več vzporednih operacij in manjšo porabo energije na operacijo.
- Primeri uporabe: GPU-ji se še vedno pogosto uporabljajo za učenje velikih modelov in za prilagodljivo računalništvo (pogosti so v podatkovnih centrih in zmogljivih PC-jih). TPU-ji (v oblaku) so namenjeni obsežnemu učenju in inferenci v Googlovem ekosistemu. NPU-ji so pogosteje v robnih napravah – pametnih telefonih, kamerah, gospodinjskih aparatih – kjer izvajajo inferenco na že naučenih modelih. Odlikujejo se pri nalogah, kot je uporaba modela za računalniški vid na kamero v realnem času ali neprekinjeno zaznavanje ključne besede za glasovnega pomočnika pri nizki porabi energije. Kot je zapisal TechTarget: “GPU-ji so izbrani zaradi dostopnosti in stroškovne učinkovitosti v številnih ML projektih; TPU-ji so običajno hitrejši in manj natančni, uporabljajo jih podjetja v Google Cloud; NPU-ji so pogosto v robnih/mobilnih napravah za bistveno hitrejšo lokalno obdelavo” [24].
Povzetek: CPU-ji = vsestranski organizatorji, GPU-ji = vzporedni delovni konji, TPU-ji/NPU-ji = specialisti za nevronske mreže. Vsi lahko sodelujejo – pravzaprav v sodobni napravi z umetno inteligenco CPU pogosto koordinira naloge in po potrebi preusmeri matematično zahtevne dele na NPU/GPU [25]. Ta trend specializacije obstaja, ker ena rešitev ni več primerna za vse v računalništvu: kot je pripomnil en urednik, »dodajanje milijonov tranzistorjev za vsako potrebo ni bilo učinkovito … oblikovalci so sprejeli namensko izdelane procesorje« [26]. Namensko izdelani NPU-ji in TPU-ji drastično pospešijo izračune umetne inteligence, hkrati pa ohranjajo nizko porabo energije – kar je ključnega pomena za naprave na baterije in goste strežnike.
Zakaj umetna inteligenca na napravi? (Rob vs. oblak)
Zakaj bi sploh poganjali umetno inteligenco na telefonu ali v avtomobilu – zakaj ne bi vsega poslali v oblak, kjer lahko ogromni strežniki (z GPU-ji/TPU-ji) opravijo zahtevno delo? Obstaja več prepričljivih razlogov za prehod na umetno inteligenco na napravi, ki se v bistvu nanašajo na hitrost, zasebnost, stroške in zanesljivost [27]:
- Takojšen odziv (nizka zakasnitev): NPU na napravi lahko obdeluje podatke v realnem času brez zamude, ki bi nastala pri pošiljanju podatkov v oblak. To je ključno za interaktivne ali varnostno kritične naloge umetne inteligence. Na primer, avtonomni sistem za vožnjo v avtomobilu z vgrajenimi NPU-ji lahko prepozna pešca in takoj zavira, v nekaj milisekundah, namesto da bi čakal na izračun v oblaku. Pametna kamera z NPU-jem lahko zazna vsiljivca v trenutku, ko se pojavi v kadru. Na vašem telefonu umetna inteligenca na napravi pomeni, da se vaš glasovni pomočnik odziva hitreje in bolj naravno, ker ni stalno »na zvezi z oblakom«. Zmanjšana zakasnitev omogoča resnično odločanje v realnem času in boljšo uporabniško izkušnjo [28].
- Zasebnost in varnost podatkov: Umetna inteligenca na napravi ohranja vaše podatke lokalne. Namesto, da bi se vaš zvočni posnetek mikrofona ali video s kamere pošiljal v oblak na analizo, se obdelava izvaja znotraj naprave. To močno zmanjša izpostavljenost občutljivih podatkov. Na primer, sodobni pametni telefoni izvajajo prepoznavanje obraza (Face ID itd.) povsem na napravi – biometrična karta vašega obraza nikoli ne zapusti varnega območja telefona. Podobno lahko slušni aparat z umetno inteligenco ali nosljiva naprava za zdravje analizira biometrične podatke brez nalaganja na kateri koli strežnik, s čimer ohranja zasebnost. Glede na naraščajočo zaskrbljenost uporabnikov in predpise o suverenosti podatkov je to velika prednost. Kot je zapisal eden izmed blogov o robni umetni inteligenci, obdelava na napravi pomeni, da »uporabniških podatkov ni treba pošiljati v oblak,« kar zagotavlja osnovno prednost zasebnosti [29]. (Seveda, zasebnost ni samoumevna – razvijalci morajo še vedno skrbno ravnati s shranjenimi podatki – vendar je lažje zaupati napravam, ki vaših podatkov ne pošiljajo nenehno v svet.) Tehnološki direktorji pogosto poudarjajo ta vidik. Izvršni direktor Qualcomma Cristiano Amon je poudaril, da lahko kombinacija oblaka in inteligence na napravi izboljša personalizacijo ob hkratnem varovanju podatkov na napravi – to imenuje »hibridna prihodnost«, kjer umetna inteligenca na napravi sodeluje z oblačno umetno inteligenco za najboljše iz obeh svetov [30].
- Dostopnost brez povezave in zanesljivost: Naprave z NPU/TPU niso odvisne od povezljivosti. Lahko delujejo v podzemni železnici, na letalu, v oddaljenih podeželskih območjih ali med izpadi omrežja. To je izjemno pomembno za zanesljivost. Funkcija glasovnega narekovanja na napravi bo delovala tudi brez signala. Dron z vgrajeno vizualno umetno inteligenco se lahko izogne oviram tudi izven omrežja. Ta neodvisnost je ključna tudi za sisteme, ki so ključni za delovanje: npr. roboti za reševanje ob nesrečah ali medicinske naprave, ki ne morejo predvidevati stalne internetne povezave. »Funkcionalnost brez povezave« je temeljna prednost umetne inteligence na napravi [31] – zagotavlja, da je funkcija umetne inteligence na voljo vedno in povsod, kjer je potrebna.
- Stroškovna učinkovitost pri obsegu: Nenehno pošiljanje surovih podatkov v oblak za obdelavo z umetno inteligenco je lahko zelo drago (računalništvo v oblaku ni brezplačno) in zahteva veliko pasovne širine. Ko se funkcije umetne inteligence širijo, bi podjetja morala plačevati ogromne račune za obdelavo v oblaku, če bi vsaka malenkost potekala prek strežnika. Z več obdelave na robu zmanjšajo obremenitev strežnikov v oblaku in uporabo omrežja. Pogosto je bolj učinkovito porabiti nekaj dodatnih evrov za boljši čip v napravi kot pa plačevati za gigabajte oblačnega računalništva skozi življenjsko dobo naprave. Analiza industrije Futurum je poudarila, da obdelava na napravi pomaga reševati težave generativne umetne inteligence pri obsegu in stroških – »razprši« obremenitev, tako da podatkovni centri niso preobremenjeni (in uporabniki/razvijalci ne plačujejo ogromnih zneskov za čas na oblačnih GPU-jih) [32].
- Personalizacija in kontekst: Nov razlog v vzponu: AI na napravi se lahko uči iz in prilagaja lokalnemu kontekstu na način, kot ga AI v oblaku morda ne zmore. Vaš pametni telefon lahko vzdržuje majhen lokalni model, ki se uči vašega načina pisanja za boljše samopopravke, ne da bi ta osebni jezikovni model delil z oblakom. Naprave lahko v realnem času združujejo podatke iz več senzorjev (kar je lažje storiti lokalno kot pa pretakati množico senzornih podatkov v oblak). To omogoča bolj personalizirano in na kontekst občutljivo izkušnjo. Nekatere funkcije, kot je federativno učenje, celo omogočajo napravam, da skupaj izboljšujejo AI modele brez nalaganja surovih podatkov (pošiljajo se le majhne posodobitve uteži).
- Regulativa in podatkovna suverenost: Zakoni, kot je evropski GDPR, in različne zahteve glede lokalizacije podatkov vse bolj zahtevajo, da določenih podatkov (zlasti osebnih ali občutljivih) ni dovoljeno pošiljati v tujino ali tretjim osebam brez soglasja. AI na napravi ponuja način za skladnost s predpisi, saj obdeluje podatke na izvoru. Na primer, orodja za medicinsko slikanje z AI lahko delujejo na bolnišnični strojni opremi (robni strežniki z NPU-ji), tako da podatki pacientov nikoli ne zapustijo ustanove, kar naslavlja zahteve glede zasebnosti. Poročilo podjetja NimbleEdge za leto 2025 izpostavlja, da vlade spodbujajo več lokalnega sklepanja zaradi suverenosti in skladnosti [33].
Vsi ti dejavniki poganjajo paradigmatski premik: namesto razmišljanja “najprej oblak” za AI, podjetja zdaj, kjer je mogoče, načrtujejo AI funkcije “najprej naprava”. Kot je povzel Qualcommov podpredsednik za AI, Durga Malladi: “Za učinkovito širjenje generativne AI v glavni tok bo morala AI delovati tako v oblaku kot na napravah na robu… kot so pametni telefoni, prenosniki, vozila in IoT naprave” [34]. Premikamo se v hibridni AI svet, kjer bodo zahtevno učenje in veliki modeli morda v oblaku, številne naloge sklepanja in osebne AI izkušnje pa bodo potekale lokalno na NPU/TPU-jih v vaših rokah in domovih. Pravzaprav Amon to imenuje “prelomnica v AI” – sklepanje na napravi brez zakasnitve, kjer “je prihodnost AI osebna”, ker deluje prav tam, kjer ste vi [35].
AI na napravi v praksi: od pametnih telefonov do samovozečih avtomobilov
Specializirani AI čipi so že vgrajeni v številne naprave okoli vas in jih pogosto neopazno naredijo pametnejše. Tukaj je nekaj glavnih področij, kjer so NPU-ji in robni TPU-ji v uporabi:
- Pametni telefoni in tablice: Skoraj vsi sodobni paradni telefoni (in celo mnogi srednjega razreda) zdaj vključujejo NPU ali namenski AI pogon. Apple je začel ta trend leta 2017 z Apple Neural Engine v čipu A11 v iPhonu, ki je omogočil prepoznavanje obraza Face ID in Animoji na napravi z do 600 milijardami operacij na sekundo [36]. Danes ima Applov čip A17 Pro (2023) 16-jedrni Neural Engine, ki zmore 35 bilijonov operacij na sekundo [37]. To poganja funkcije, kot so napredno zaznavanje prizorov s kamero, fotografski slogi, glasovni ukazi Siri, obdelani brez povezave, samopopravki, sprotno prepisovanje in celo poganjanje transformacijskih modelov za prevajanje na napravi. Tudi Googlove Pixel naprave imajo lasten silicij (“Google Tensor” SoC) z NPU-ji: najnovejši Tensor G3 v Pixelu 8 je bil “po meri zasnovan za poganjanje Googlovih AI modelov”, nadgrajuje vsak del čipa (CPU, GPU, ISP) za prihodnost generativne umetne inteligence na napravi [38]. Pixel 8 lahko poganja Googlove najsodobnejše modele za pretvorbo besedila v govor in prevajanje lokalno, iste, ki so bili prej omejeni na podatkovne centre [39]. Izvaja tudi zapletene fotografske trike, kot sta “Best Take” združevanje skupinskih fotografij in Audio Magic Eraser z uporabo nabora AI modelov na napravi [40]. Samsung in drugi Android proizvajalci uporabljajo Qualcommove čipovje Snapdragon, katerih najnovejši NPU-ji (Hexagon AI engine) lahko celo poganjajo velike jezikovne modele na telefonu – Qualcomm je demonstriral poganjanje LLM z 10 milijardami parametrov in celo generiranje slik s Stable Diffusion na telefonu s Snapdragon 8 Gen 3 [41]. AI pogon tega čipa je 98 % hitrejši od prejšnje generacije in podpira natančnost INT4 za večjo učinkovitost [42]. Praktična posledica: vaš telefon iz leta 2024 lahko počne stvari, kot so povzemanje člankov, odgovarjanje na vprašanja ali urejanje fotografij z AI brez potrebe po oblaku. Tudi funkcije dostopnosti imajo koristi: npr. Pixel telefoni zdaj omogočajo glasovno tipkanje na napravi, sprotne podnapise in prihajajočo funkcijo za opisovanje slik slepim uporabnikom z uporabo lokalnega modela.
- Pametne kamere in varnostni sistemi: Kamere z umetno inteligenco uporabljajo vgrajene NPU-je za takojšnje zaznavanje ljudi, obrazov, živali ali sumljivega vedenja. Na primer, najnovejše varnostne kamere EnGenius vključujejo vgrajen NPU, ki skrbi za zaznavanje objektov in pretvarja video v metapodatke neposredno na kameri, s čimer odpravlja potrebo po ločenem video snemalniku in povečuje varnost (saj je mogoče video analizirati in shranjevati lokalno) [43]. To pomeni, da lahko vaša varnostna kamera sama odloči »oseba prisotna« ali »paket dostavljen« in pošlje le to obvestilo, namesto da bi ure posnetkov pretakala v oblak. Podobno so imeli potrošniški izdelki, kot je Google Nest Cam IQ, na napravi čip za računalniški vid (Google Edge TPU), ki je prepoznaval znane obraze in razlikoval ljudi od hišnih ljubljenčkov v svojem vidnem polju. Tudi DSLR in brezzrcalne kamere dodajajo AI procesorje za sledenje subjektu, samodejno ostrenje na oči in optimizacijo prizora v realnem času. Pri dronih vgrajeni AI čipi pomagajo pri izogibanju oviram in vizualni navigaciji brez potrebe po daljinskem upravljanju. Posebej velja omeniti, da je Google’s Edge TPU (majhen ASIC modul) postal priljubljen dodatek za DIY in industrijske IoT kamere – zagotavlja 4 TOPS procesorske moči za naloge, kot so zaznavanje ljudi ali branje registrskih tablic, pri čemer porabi le ~2 vata [44].
- Pametni dom in IoT naprave: Poleg telefonov ima veliko pametnih naprav za dom vgrajene mini NPU-je. Zvočniki z glasovnim upravljanjem (Amazon Echo, Google Nest Hub itd.) zdaj pogosto vključujejo čipe za lokalno prepoznavanje govora. Amazon je razvil AZ1 Neural Edge procesor za Echo naprave, da bi pospešil zaznavanje budilne besede Alexa in odzive na napravi, s čimer je prepolovil zakasnitev [45]. AZ1 (razvit v sodelovanju z MediaTek) poganja nevronsko mrežo, ki prepozna »Alexa« in obdeluje preproste ukaze brez povezave v oblak [46]. To ne le, da Alexa deluje hitreje, ampak tudi ohranja več glasovnih podatkov zasebnih. Prav tako imajo številni novi televizorji, gospodinjski aparati in celo igrače nekaj umetne inteligence na robu – npr. kamera pametnega hladilnika lahko lokalno prepozna živila in roke uporabe. Nosljive naprave si prav tako zaslužijo omembo: čip S9 v Apple Watch je dodal 4-jedrni nevronski pogon za boljše izvajanje zdravstvenih AI algoritmov in Siri zahtevkov neposredno na uri [47]. Na industrijski strani pa lahko IoT senzorji z NPU-ji izvajajo zaznavanje anomalij na podatkih o opremi neposredno na robu, pri čemer naprej pošiljajo le pomembne dogodke (s tem prihranijo pasovno širino in hitreje reagirajo na težave).
- Avtomobili (ADAS in avtonomija): Avtomobili so postali AI središča na kolesih. Napredni sistemi za pomoč vozniku (ADAS) in funkcije samovožnje temeljijo na naboru vgrajenih AI pospeševalnikov, ki v delčku sekunde interpretirajo slike kamer, LiDAR, radar in sprejemajo vozniške odločitve. Tesla je znana po tem, da je zasnovala svoj lasten FSD (Full Self-Driving) računalnik z dvema NPU čipoma. Teslin FSD čip (HW3, predstavljen leta 2019) je zagotavljal 144 TOPS (dva NPU-ja po 72 TOPS); novejši HW4 (2023) to poveča na približno 200–250 TOPS skupaj (dva 7nm NPU-ja z več kot 100 TOPS vsak) ts2.tech. To omogoča avtomobilu, da hkrati obdeluje video v polni ločljivosti iz 8 kamer, sonar itd. prek nevronskih mrež za zaznavanje in celo poganja nekatere jezikovne modele za glasovne ukaze – vse lokalno znotraj avtomobilskega modula. Konkurenca, kot sta NVIDIA Drive in Qualcomm Snapdragon Ride, prav tako vključuje NPU-je. Najnovejši NVIDIIN superračunalniški čip za avtomobile, Drive Thor, predviden za avtomobile leta 2025, se ponaša z do 1.000 TOPS na enem čipu (in 2.000 TOPS, če sta dva povezana) za podporo avtonomije 4. stopnje ts2.tech. Združuje GPU, CPU in namenske pospeševalnike globokega učenja, tako da lahko na čipu obvladuje vse od prepoznavanja prometnih znakov do AI za spremljanje voznika ts2.tech. Ti NPU-ji dobesedno rešujejo življenja: avtonomni avtomobil ne more čakati na oblak, če otrok steče na cesto. Vgrajena AI mora videti in reagirati v nekaj deset milisekundah. Poleg osebnih avtomobilov se edge AI močno uporablja tudi v avtonomnih dronih, dostavnih robotih in industrijskih vozilih, ki se s pomočjo vgrajenih NPU/TPU-jev samostojno orientirajo in sprejemajo odločitve (na primer, Nurojevi dostavni roboti in številni sistemi za samovožnjo tovornjakov uporabljajo NVIDIA ali Huawei AI čipe na napravi).
- Edge računalništvo in industrija: V tovarnah in poslovnih okoljih umetna inteligenca na napravi pogosto prevzame obliko robnih strežnikov ali prehodov s pospeševalniki umetne inteligence. Namesto pošiljanja video posnetkov kamer ali podatkov senzorjev v osrednji oblak podjetja na lokaciji namestijo robne škatle (včasih na osnovi GPU, včasih na osnovi NPU/FPGA). Te opravljajo naloge, kot so analitika videa v realnem času za nadzor kakovosti na proizvodni liniji, zaznavanje napak z AI-vidom v mikrosekundah. Zdravstvene naprave so še en primer: prenosni ultrazvok ali MRI ima lahko NPU za analizo slik z umetno inteligenco na sami napravi, tako da zdravniki dobijo takojšnjo diagnostično pomoč brez potrebe po internetni povezavi (kar je tudi boljše za zasebnost podatkov pacientov). Trgovina in mesta prav tako uvajajo umetno inteligenco na robu – npr. pametne prometne kamere z NPU-ji za analizo zastojev in prilagajanje semaforjev ali kamere na policah v trgovinah, ki spremljajo zalogo. Mnoge od teh uporabljajo specializirane NPU-je, kot so Intelovi Movidius Myriad čipi ali Googlov Edge TPU ali novi igralci, kot je Hailo-8 (izraelski NPU, ki zagotavlja 26 TOPS pri nekaj vatih za kamere). Skupna točka je, da ti pospeševalniki omogočajo analizo lokalno, dosegajo rezultate v realnem času in pošiljajo prek omrežij le visoko raven vpogledov (namesto surovih podatkov).
Vsestranost NPU/TPU-jev na različnih vrstah naprav je impresivna. En trenutek omogočajo vašemu telefonu, da z AI zamegli ozadje na fotografiji, naslednji trenutek pa vodijo dron ali pregledujejo medicinske slike. Kamera pametnih telefonov zdaj uporablja NPU-je za funkcije, kot so nočni način (inteligentno združevanje več posnetkov), portretni način z bokeh učinkom, prepoznavanje prizorov (telefon prepozna, da fotografirate “sončni zahod” in z AI optimizira barve) ter celo za zabavne AR učinke (Animoji, ki sledi vašemu obrazu, ali Snapchat filtri, ki sledijo vašim gibom – vse to omogočajo nevronske mreže na napravi). Biometrija uporablja NPU-je: čitalniki prstnih odtisov, izboljšani z AI za zaznavanje živosti, odklepanje z obrazom z globinskimi senzorji in AI. Zvok jih uporablja tudi: odpravljanje šumov v slušalkah in telefonih je zdaj pogosto podprto z AI, NPU-ji pa v realnem času ločujejo glas od ozadja.
Konkreten primer inovacije v letu 2024: Oppo (proizvajalec pametnih telefonov) je v sodelovanju z MediaTekom konec leta 2024 napovedal, da je implementiral Mixture-of-Experts (MoE) AI model neposredno na napravi – domnevno prvi, ki mu je to uspelo v telefonu [48]. Ta napredna arhitektura nevronske mreže (MoE) lahko poveča zmogljivost tako, da za posamezno nalogo aktivira le ustrezne “ekspertne” podmreže, izvajanje tega na napravi pa pomeni, da lahko Oppo telefoni dosežejo hitrejšo AI-obdelavo in boljšo energijsko učinkovitost pri zahtevnih nalogah, brez potrebe po pomoči oblaka [49]. To poudarja, kako tudi najnaprednejše raziskave na področju umetne inteligence hitro prihajajo v naše ročne naprave prek izboljšanih NPU-jev.
V notranjosti AI čipov 2025: Najnovejši razvoj pri Apple, Google, Qualcomm in drugih
Tekma za razvoj boljših AI strojnih komponent na napravah se je močno zaostrila. Tukaj je pregled, kaj so večja podjetja nedavno (2024–2025) predstavila na področju NPU/TPU-jev in AI silicija:
- Apple: Applova strategija po meri silicija že dolgo poudarja strojno učenje na napravi. Vsako leto je Applov Neural Engine postal zmogljivejši. V iPhonu 15 Pro iz leta 2023 je A17 Pro čipov Neural Engine dosegel 35 TOPS (bilijonov operacij na sekundo) s svojimi 16 jedri [50]. To je bila dvojna surova prepustnost v primerjavi z NPU-jem A16, Apple pa je to izkoristil za omogočanje stvari, kot so prepoznavanje govora na napravi za Siri (končno obdelava številnih zahtevkov za Siri brez interneta) in nove zmožnosti kamere (kot je samodejno zajemanje portretnega načina in sprotno prevajanje besedila prek kamere). Applovi čipi iz leta 2024 so nadaljevali ta trend: družina M3 za Mace (konec 2023) je dobila posodobljen Neural Engine (zanimivo, nastavljen na 18 TOPS za osnovni čip M3, s poudarkom na učinkovitosti) [51]. Leta 2024 je Apple predstavil čip M4 (za vrhunske iPade/Mace, sredina 2024), ki naj bi dvignil Neural Engine na 38 TOPS na izpopolnjenem 3nm procesu [52]. Poleg številk Apple dejansko uporablja ta NPU: funkcije kot Personal Voice (ki ustvari klon uporabnikovega glasu po 15 minutah učenja) delujejo zasebno na Neural Engine v iPhonih, in prepisovanje Live Voicemail poteka lokalno. Apple je vgradil NPU-je tudi v vse razrede naprav – celo AirPods Pro imajo majhen nevronski čip za Adaptive Audio. Applovi vodilni pogosto poudarjajo vidik zasebnosti: »strojno učenje na vaši napravi« pomeni, da vaši podatki ostanejo pri vas. Do leta 2025 pričakujemo, da se bo Applov Neural Engine morda še razširil ali postal na nove načine dostopen aplikacijam tretjih oseb (že zdaj Core ML omogoča razvijalcem uporabo, a Apple bi lahko odprl več dostopa do nevronskih API-jev). Govori se tudi, da Apple razvija samostojni AI pospeševalnik za prihodnja očala ali avtomobile, a trenutni izdelki kažejo, da dajejo prednost integriranim NPU-jem v svojih SoC-jih serije A in M.
- Google: Google ni le pionir na področju oblačnega TPU, temveč je tudi podvojil prizadevanja za AI na napravi za telefone Pixel in potrošniške naprave. Google Tensor SoC (prvič predstavljen leta 2021 v Pixel 6) je bil edinstven, saj je Google, znan po oblaku, izdelal čip za telefon, ki poganja AI na sami napravi. Z Tensor G3 (v Pixel 8 iz leta 2023) je Google izpostavil nadgradnje, ki omogočajo generativni AI na napravi. Google je izrecno povedal, da čip v Pixel 8 prinaša “Google AI raziskave neposredno v naše najnovejše telefone” [53]. Naslednja generacija TPU v Tensor G3 (Google še vedno interno imenuje AI jedro “TPU”) omogoča Pixelu poganjanje naprednih modelov, kot sta Palm 2 ali Gemini Nano (okrajšane različice Googlovih velikih jezikovnih modelov) na napravi za funkcije, kot so povzemanje spletnih strani ali izboljšave glasovnega tipkanja [54]. Ena izmed glavnih funkcij: Pixel 8 lahko lokalno poganja Googlov najboljši model za pretvorbo besedila v govor (tisti, ki se uporablja v podatkovnih centrih), kar omogoča, da telefon bere spletne strani na glas v naravnih glasovih in jih celo prevaja v realnem času, vse brez povezave [55]. Google uporablja TPU v Pixelu tudi za fotografijo (“HDR+” večokvirno slikanje, odstranjevanje objektov z Magic Eraser z uporabo AI inpaintinga [56]), za varnost (odklepanje z obrazom na napravi preko AI, ki je zdaj dovolj močno tudi za plačila [57]), in za govor (Pomočnik, ki mu ni mar, če rečete “umm”). Poleg telefonov Google ponuja Coral Dev Board in USB ključek za navdušence in podjetja, da dodajo Edge TPU-je svojim projektom, vsak vsebuje Googlov Edge TPU, ki zagotavlja 4 TOPS za vizualne naloge pri zelo nizki porabi energije [58]. Uporablja se tudi v nekaterih Googlovih lastnih izdelkih, kot je Nest Hub Max za prepoznavanje gest. Za Google je integracija TPU-jev na robu del širše strategije: Sundar Pichai (izvršni direktor Googla) je dejal, da je prihodnost AI v nadgradnji vsake izkušnje, in jasno je, da Google verjame, da “če želimo prenesti preoblikovalno moč AI v vsakdanje življenje, jo moramo omogočiti na napravi, ki jo uporabljate vsak dan” [59] – zato čipi Tensor. Lahko pričakujemo Tensor G4 v Pixel telefonih pozno leta 2024, morda izdelan na novejšem procesu Samsunga ali TSMC, kar bo še izboljšalo zmogljivost in učinkovitost AI, morda celo omogočilo multimodalni AI na napravi (združevanje vizualnih in jezikovnih modelov).
- Qualcomm: Vodilni ponudnik mobilnih čipov za telefone Android je agresivno promoviral svoj AI Engine v seriji Snapdragon. Snapdragon 8 Gen 2 (konec 2022) je uvedel namensko podporo za INT4 in prikazal generiranje slik s stabilno difuzijo v realnem času na telefonu. Snapdragon 8 Gen 3 (napovedan konec 2023, v paradnih telefonih leta 2024) je velik preskok: Qualcomm pravi, da je njegov Hexagon NPU 98 % hitrejši od tistega v Gen 2 in 40 % bolj energetsko učinkovit [60]. Ta čip lahko poganja velike jezikovne modele z do 10 milijardami parametrov popolnoma na napravi, pri čemer obdela približno 20 žetonov na sekundo – dovolj za preproste pogovore z AI asistentom brez oblaka [61]. Prav tako je v demonstracijah dosegel “najhitrejše generiranje slik s Stable Diffusion na svetu” na mobilni napravi [62]. Qualcomm je glasno poudarjal, da je generativna umetna inteligenca na napravi ključna prodajna točka za nove telefone. Na primer, sodelovali so z Meta pri optimizaciji odprtokodnega Llama 2 LLM za Snapdragon, z namenom, da bi lahko do leta 2024 poganjali AI klepetalnik na svojem telefonu [63]. (Eden od direktorjev Qualcomma je dejal: “pozdravljamo odprt pristop Mete… če želimo generativno AI razširiti, mora delovati tako v oblaku kot na robu”, kar potrjuje filozofijo edge AI [64].) Poleg telefonov Qualcomm vgrajuje NPU-je tudi v čipe za prenosnike (Snapdragon računalniške platforme za Windows na ARM) – in njihova avtomobilska platforma Snapdragon Ride uporablja iste AI jedra za do 30 TOPS za ADAS, z načrtom za dosego stotin TOPS. Leta 2025 je Qualcomm celo napovedal nov Snapdragon X Elite CPU za osebne računalnike, ki vključuje zmogljiv NPU, kar nakazuje cilj izzvati Apple in Intel na področju AI zmogljivosti v osebnih računalnikih. Z vzponom AI na napravi Qualcomm dejansko označuje nekatere telefone kot “AI telefone.” Napovedujejo, da bo veliko aplikacij (od fotografije do sporočanja in produktivnosti) izkoriščalo NPU. Na programski strani je Qualcomm izdal Qualcomm AI Stack, da bi poenotil podporo za priljubljene ogrodja (TensorFlow Lite, PyTorch, ONNX) na svojih NPU-jih [65] – s čimer želijo razvijalcem olajšati uporabo AI strojne opreme brez poglobljenega znanja o čipih.
- MediaTek: Drugi največji proizvajalec mobilnih čipov (znan po seriji Dimensity) je prav tako nadgradil svoje NPU-je. MediaTek svoje AI pogone imenuje “APU” (enota za obdelavo umetne inteligence). Na primer, Dimensity 9200+ (2023) ima šesto generacijo APU-ja z znatno izboljšano zmogljivostjo v primerjavi s prejšnjim čipom, kar omogoča funkcije, kot sta stabilna difuzija na napravi in AI odstranjevanje šuma v videih. Leta 2024 je MediaTek napovedal Dimensity 9400, in v partnerstvu z Oppo so uporabili njegovo napredno NPU arhitekturo za uvedbo novih AI funkcij (kot omenjeno, AI obnova fotografij z odstranjevanjem odsevov in izostritvijo na Oppo Find X8 poganja MediaTek-ov NPU) [66]. Vodilni pri MediaTek-u so se izrecno postavili v ospredje AI na napravah. Kot je povedal Will Chen iz MediaTek-a, “prihodnost umetne inteligence presega oblak; poganja jo edge računalništvo neposredno iz vaše dlani.” Po njihovem mnenju mora biti AI na telefonih hiter, zaseben, varen in vedno dostopen [67]. MediaTek je celo oblikoval “APU-centrično” sodelovanje z Meta za podporo Llama ogrodjem in z proizvajalci naprav, kot sta Oppo in Xiaomi, s poudarkom na AI kameri in AI glasovnih funkcijah. Do leta 2025 namerava MediaTek te NPU-je uvesti ne le v telefone, temveč tudi v pametne televizorje (za AI nadgradnjo slike in izboljšanje kakovosti), IoT naprave in celo avtomobile (MediaTek ima avtomobilsko AI platformo in je sodeloval z Nvidio za integracijo Nvidia GPU IP za avtomobile, ob tem pa naj bi zagotovil svoj NPU za senzorje AI).
- Intel: Leto 2024 je zaznamovalo Intelov vstop v AI pospeševalnike na običajnih osebnih računalnikih. Intelova 14. generacija Core (Meteor Lake, predstavljena decembra 2023 in preimenovana v Core Ultra leta 2024) je prvi x86 procesor za osebne računalnike z vgrajeno enoto za nevronsko procesiranje (NPU). Meteor Lake-ov NPU (včasih imenovan tudi VPU – Vision Processing Unit – temelji na Intelovi Movidius tehnologiji) dosega približno 8–12 TOPS AI zmogljivosti [68]. To se uporablja za pospeševanje AI funkcij v Windows 11, kot so zameglitev ozadja, stik z očmi med video klici, prav tako pa ga lahko aplikacije uporabijo za lokalno prepisovanje, odpravljanje šumov ali celo manjše AI pomočnike. Microsoft in Intel skupaj spodbujata koncept “AI PC”. Intel trdi, da bodo ti NPU-ji v letu 2024 vgrajeni v desetine milijonov prenosnikov [69]. Po Meteor Lake Intelov načrt omenja Arrow Lake (za namizne računalnike v 2024), ki prav tako vključuje NPU (okoli 13 TOPS, rahlo izboljšan) [70]. Zanimivo je, da je Intelov prvi poskus namiznega NPU-ja dejansko prehitel AMD (glej spodaj), Intel pa se je odločil za zmerno zasnovo NPU, da ne bi žrtvoval prostora za GPU/CPU v čipih za navdušence [71]. Toda proti koncu leta 2024 je Intel nakazal, da bodo prihodnji čipi Lunar Lake imeli veliko zmogljivejši NPU (~45 TOPS), da bi izpolnili Microsoftove zahteve za “Copilot” [72]. Vse to kaže, da Intel vidi AI kot nujno za prihodnost osebnih računalnikov – ne za učenje velikih modelov, temveč za pospeševanje vsakodnevnih izkušenj, ki jih poganja AI (od izboljšav pisarniških paketov do ustvarjalnih orodij z uporabo lokalne umetne inteligence). Intel prodaja tudi robne AI pospeševalnike, kot so Intel Movidius Myriad čipi (uporabljeni v nekaterih dronih, kamerah) in Habana pospeševalniki za strežnike, vendar je integrirani NPU v Meteor Lake prelomnica, ki prinaša AI povprečnemu potrošniškemu računalniku.
- AMD: AMD je vstopil v področje AI na napravi približno istočasno. Njegovi procesorji za prenosnike serije Ryzen 7040 (Phoenix), izdani leta 2023, so imeli prvi Ryzen AI Engine – v bistvu integriran XDNA NPU (tehnologija iz AMD-jevega prevzema podjetja Xilinx). Ta NPU je zagotavljal do 10 TOPS na mobilnem čipu [73]. AMD je izpostavil primere uporabe, kot so z AI izboljšani video klici, produktivne aplikacije in podobno, kar je podobno ciljem Intela. Nato je AMD na kratko lansiral namizno serijo Ryzen 8000 (začetek 2024) z NPU, ki je dosegel 39 TOPS – zelo visoko številko za AI enoto splošnonamenskega CPU-ja, celo presega Intelove načrte [74]. Vendar pa je AMD hitro spremenil smer in preskočil generacijo, saj se je osredotočil na svojo naslednjo arhitekturo (naslednji Ryzen 9000, konec 2024, je opustil NPU, da bi dal prednost nadgradnjam jeder) [75]. Kljub temu se pričakuje, da bo AMD v prihodnjih PC čipih ponovno uvedel NPU-je (verjetno gre za začasen umik, saj delajo na integraciji zmogljivega AI pogona brez kompromisov pri drugih zmogljivostih). Na strani izdelkov bi lahko AMD-jevi NPU-ji omogočili zanimive rešitve, saj ima AMD tudi močne GPU-je – kombinacija bi lahko sodelovalno obdelovala AI delovne obremenitve (nekateri deli na NPU, nekateri na GPU). AMD vgrajuje AI jedra tudi v svoje prilagodljive (na FPGA osnovane) SoC-je in avtomobilske čipe. Povzetek: do leta 2025 so vsi proizvajalci x86 PC čipov sprejeli NPU-je, kar je v skladu s tem, kar so pametni telefoni naredili nekaj let prej, kar kaže, da pospeševanje AI postaja standardna funkcija povsod.
- Drugi: Tudi številna specializirana podjetja za čipe in druge tehnološke firme inovirajo na področju NPU-jev. NVIDIA, znana po svojih GPU-jih, zdaj vključuje namenske Tensor Cores v svoje GPU-je in ponuja odprto zasnovo NVDLA (pospeševalnik globokega učenja) za integracijo v izdelke System-on-Chip. V robnih napravah, kot je serija NVIDIA Jetson (uporabljena v robotih, dronih, vgrajenih sistemih), sta prisotna tako GPU kot tudi namenski “DLA-ji” – v bistvu NPU-ji – ki razbremenijo del inferenciranja nevronskih mrež z GPU-ja. NVIDIA-jev Orin modul ima na primer 2 DLA-ja poleg svojega GPU-ja, kar prispeva k 254 TOPS AI zmogljivosti za avtomobile ts2.tech. Apple naj bi po govoricah razvijal še naprednejše AI koprocesorje ali večje nevronske pogone za svoja AR očala ali prihodnje projekte, čeprav so podrobnosti skrivnost. Huawei (kljub geopolitičnim izzivom) še naprej razvija mobilne čipe Kirin z NPU-ji (njihova “DaVinci” NPU arhitektura) in tudi strežniške NPU-je v svojih Ascend AI čipih – njihov čip Kirin 9000S iz leta 2023 naj bi ohranil močan NPU za slikovne in jezikovne naloge na njihovih telefonih. Vidimo tudi startupe kot so Hailo, Mythic, Graphcore in drugi, ki ponujajo svoje lastne robne AI čipe: npr. Hailo-8 kot omenjeno (26 TOPS v mini PCIe kartici za AI kamere), Graphcore-jev IPU za podatkovne centre (ni ravno na napravi, a nova arhitektura za nevronske mreže), Mythic razvija analogne NPU-je itd. ARM, katerega zasnove so osnova večine mobilnih čipov, ponuja serijo Ethos NPU (kot sta Ethos-U, Ethos-N78), ki jih lahko proizvajalci čipov integrirajo za že pripravljen AI pospeševalnik v IoT ali srednjerazrednih SoC-jih. To je omogočilo tudi manjšim igralcem, da vključijo NPU-je v svoje čipe z licenciranjem ARM-ove zasnove.
Glavno sporočilo je, da od velikih tehnoloških podjetij do startupov vsi vlagajo v AI silicij na napravi. Posledično vidimo hitre izboljšave: novi čipi se ponašajo z višjimi TOPS, boljšo učinkovitostjo (TOPS na vat) in podporo za nove tipe podatkov (kot je 4-bitna kvantizacija za večje modele). Na primer, najnovejši čipi Qualcomm in MediaTek lahko poganjajo INT4 natančnost, kar je odlično za generativne AI modele, kjer je pasovna širina pomnilnika omejitev [76]. Te inovacije se neposredno prevedejo v koristi za uporabnika – npr. urejanje videa z mobilno AI v realnem času (odstranjevanje objektov iz 4K videa v trenutku, kot to omogoča Snapdragon 8 Gen 3 s svojo funkcijo “Video Object Eraser” AI [77]), ali AI koprocesorji v avtomobilih, ki omogočajo glasovne asistente, ki delujejo brez omrežja in se odzivajo tako hitro kot človeški pogovor.
Ključne novice iz 2024–2025: lansiranja, primerjalni testi in partnerstva
Za ponazoritev, kako hitro se stvari premikajo, je tu nekaj glavnih dogodkov v svetu NPU/TPU in AI na napravi od konca 2024 do 2025:
- Predstavitve Apple M3 in M4 (oktober 2023 in maj 2024): Prinesli so naslednjo generacijo nevronskih pogonov. M3-jev nevronski pogon doseže 18 TOPS (16-jedrni), M4 pa je skočil na 38 TOPS (še vedno 16-jedrni, a z višjo frekvenco/učinkovitostjo) [78]. Apple je demonstriral, kako ti čipi obvladujejo zahtevne naloge, kot je generiranje slik s stabilno difuzijo na napravi v macOS (s Core ML Stable Diffusion so razvijalci pokazali ~15 sekund za generiranje slike na M2 – še hitreje na M3/M4).
- Predstavitev Google Pixel 8 (oktober 2023): Poudarek na umetni inteligenci “povsod” v napravi. Na dogodku je Google prikazal povzemanje spletnih strani in sprotno prevajanje člankov na napravi s pomočjo Tensor G3 NPU. Predstavili so tudi “Assistant with Bard”, ki bo sčasoma nekatere interakcije izvajal na napravi. Google je izpostavil, da lahko Pixel 8 poganja 2× več modelov na napravi kot Pixel 6, in to precej bolj napredne modele [79]. Z drugimi besedami, ogromen napredek v samo dveh letih razvoja čipov Tensor.
- Partnerstvo Qualcomm–Meta (julij 2023): Qualcomm in Meta sta napovedala, da bosta optimizirala Metin velik jezikovni model Llama 2 za poganjanje popolnoma na Snapdragon NPU-jih do leta 2024 [80]. Cilj je omogočiti razvijalcem, da uvajajo klepetalne bote in generativne AI aplikacije na telefonih, VR očalih, računalnikih itd., brez oblaka. To je bila pomembna podpora AI na napravi s strani velikega lastnika AI modela (Meta) in velikega proizvajalca čipov. Konec leta 2024 so nadaljevali z načrti za optimizacijo Llama 3 [81].
- Microsoft Windows 11 “Copilot” računalniki (2024): Microsoft je postavil merilo in računalnike z več kot 40 TOPS lokalnega AI pospeševanja označil kot “AI računalnike”, ki so upravičeni do naprednih AI funkcij (kot je integracija digitalnega asistenta Copilot). To je spodbudilo proizvajalce – Lenovo, Dell itd. – k uporabi čipov z NPU-ji (bodisi Intel, AMD ali Qualcomm), da bi izpolnili zahteve. Rezultat je pričakovan val prenosnikov z AI zmožnostmi v letu 2024, Microsoft pa napoveduje več deset modelov in več kot 40 milijonov pošiljk AI računalnikov v letu 2024 [82].
- Kratek AMD-jev Ryzen 8000 NPU (jan 2024): AMD je napovedal namizni procesor s kar 39 TOPS NPU (presenečenje, saj namizni čipi običajno nimajo takšnih pospeševalnikov) [83]. Čeprav je bil ta izdelek hitro nadomeščen, je pokazal, da imajo lahko tudi namizni procesorji AI-silikon, ki se po TOPS meri z mobilnimi čipi. To je bil tudi prvi namizni x86 procesor z NPU (le malo pred Intel Arrow Lake).
- Tesla FSD Beta v12 (konec 2023) demonstracije: Elon Musk je predstavil end-to-end AI vožnjo (brez radarja, samo z vidnimi mrežami), ki teče na Tesla HW3/HW4 NPU-jih. Posebnost je bila, da je nevronska mreža upravljala avto z video signali, ki so bili v celoti obdelani na računalniku v avtu v realnem času. Opazovalci so poudarili, da je FSD v12 v celoti izkoristil 2× 100 TOPS NPU-ja za vid, Tesla pa je namignila, da so v razvoju prihodnje nadgradnje (HW5) z do 2000 TOPS za še večje modele (pojavljale so se govorice, da bi lahko Tesla HW5 ciljal na 2 petaFLOPS = 2000 TOPS) [84].
- NVIDIA Drive Thor razkrit (GTC 2024): NVIDIA je razkrila podrobnosti o svojem naslednjem avtomobilskem čipu, Drive Thor, ki ima 2× več AI zmogljivosti kot njegov predhodnik Orin – do 2000 TOPS, če sta povezana dva čipa ts2.tech. Pomembno je, da je Thor predstavljen kot rešitev ne le za vožnjo, temveč tudi za kabinske AI funkcije (kot sta glasovno upravljanje in spremljanje potnikov) na eni platformi, kar kaže, kako lahko NPU-ji in GPU-ji skupaj združijo številne AI funkcije v avtomobilih ts2.tech. Več avtomobilskih proizvajalcev (Xpeng, BYD, Volvo) je napovedalo uporabo Thor od leta 2025 ts2.tech.
- Oppo-jev MoE AI na napravi (okt 2024): Kot omenjeno, je Oppo implementiral Mixture-of-Experts model na telefonu Find X8 [85]. To je pomembno, ker so MoE modeli običajno veliki in so veljali za strežniške zaradi svoje kompleksnosti. Zagon MoE na napravi nakazuje nove tehnike stiskanja modelov in zelo zmogljiv NPU (verjetno MediaTek Dimensity 9400 v tej napravi).
- Meta Ray-Ban AI očala (2025): (Pričakovano) Meta je predstavila prototipe pametnih očal, ki lahko prepoznajo, kaj vidite, in vam o tem govorijo – verjetno z uporabo vgrajenega prilagojenega pospeševalnika (Meta že razvija lastno silicijevo vezje za AR). Čeprav je podrobnosti malo, to poudarja prizadevanja za vgradnjo umetne inteligence v zelo omejene naprave (očala, brezžične slušalke), kar zahteva izjemno učinkovite NPU-je.
- MLPerf mobilni inferenčni primerjalni testi (2023–24): MLCommons je objavil rezultate, ki prikazujejo zmogljivosti umetne inteligence najnovejših pametnih telefonov. Na primer, v MLPerf Inference v3.0 (oktober 2023) so bili Apple A16, Google Tensor G2 in Qualcomm Gen 2 testirani pri nalogah, kot sta razvrščanje slik in zaznavanje objektov. Rezultati so pokazali, da si Apple in Qualcomm izmenjujeta zmage, a na splošno mobilni NPU-ji zmanjšujejo zaostanek za nekaterimi pospeševalniki razreda prenosnikov/namiznih računalnikov pri teh nalogah – vse to na baterijo. Izpostavljene so bile tudi programske razlike (npr. Qualcommov AI SDK v primerjavi z Apple Core ML). Nenehne izboljšave vsako leto (dvomestne % rasti) v teh primerjalnih testih kažejo na zdravo konkurenco in hiter napredek na področju umetne inteligence na napravah.
- Strateška partnerstva: Oblikovalo se je veliko medindustrijskih partnerstev. Npr. NVIDIA in MediaTek (maj 2023) sta napovedala sodelovanje, da bi Nvidia GPU IP in programski ekosistem vključila v prihodnje MediaTekove čipe za pametne telefone in avtomobile, s čimer bi združila Nvidiine prednosti na področju umetne inteligence z MediaTekovim znanjem o mobilnih SoC. Prav tako podjetja, kot je Qualcomm, sodelujejo z avtomobilskimi proizvajalci (Mercedes, BMW), da bi platformi Snapdragon Cockpit in Ride (z NPU-ji) vključili v nova vozila za AI funkcije. Arm sodeluje s Fujitsujem in drugimi pri novih zasnovah AI čipov (kot je AI delitev superračunalnika Fugaku, čeprav gre za vrhunski segment). Tudi IBM in Samsung sta predstavila nove čipovske tehnologije (kot sta nevromorfno računalništvo in AI pomnilnik), ki bi lahko nekoč revolucionirale NPU-je – še niso tu, a kažejo, da so raziskovalne poti polne.
Skratka, preteklo leto je bilo polno novosti, kar poudarja, da je umetna inteligenca na napravah eno najbolj vročih področij v tehnologiji. Kot je dejal eden od industrijskih analitikov, “te zmožnosti na napravah odpirajo povsem nova obzorja… izvajanje LLM-jev na mobilnih napravah pomaga pri obvladovanju obsega in stroškov, ohranja zasebnost podatkov in zagotavlja delovanje AI tudi ob omejeni povezljivosti” [86]. To precej dobro povzame, zakaj tu vlagajo vsa velika tehnološka podjetja.
Strokovni vpogledi: Kaj pravijo tehnološki voditelji o umetni inteligenci na napravah
Zagon za NPU-je in TPU-je ni viden le v izdelkih, temveč tudi v izjavah vodilnih v industriji. Tukaj je nekaj izbranih citatov in pogledov, ki osvetljujejo pomen umetne inteligence na napravah:
- Cristiano Amon (CEO podjetja Qualcomm): »Če naj bi umetna inteligenca dosegla obseg, jo boste videli delovati na napravah… To pomeni prelomnico v razvoju umetne inteligence: brez težav z zakasnitvijo — le brezhibno, varno, na napravi izvedeno sklepanje, ki dopolnjuje oblak. Prihodnost umetne inteligence je osebna in se začne na vaši napravi.« (intervju za Bloomberg in objava na X, 2023) [87]. Amon si predstavlja hibridni svet umetne inteligence, kjer vaš telefon/računalnik veliko opravi sam s svojimi NPU-ji, v sodelovanju z oblakom, kadar je to potrebno. Poudarja, da je izvajanje umetne inteligence lokalno ključno za njeno razširjenost (ne morete imeti vsega v oblaku – na svetu ni dovolj GPU-jev za milijarde naprav).
- Durga Malladi (SVP, Qualcomm): »Pozdravljamo Metin pristop k odprti in odgovorni umetni inteligenci… Da bi generativno umetno inteligenco učinkovito razširili v glavni tok, bo morala delovati tako v oblaku kot na napravah na robu.« [88] Malladi je to povedal v kontekstu partnerstva z Meto. To poudarja skupno stališče: razširjanje umetne inteligence = oblak + rob, ki delujeta skupaj. Zdaj je jasno, da zgolj umetna inteligenca v oblaku ne bo dovolj (zaradi stroškov, zasebnosti in zakasnitve), zato mora robna umetna inteligenca prevzeti del bremena.
- Will Chen (namestnik generalnega direktorja, MediaTek): »Prihodnost umetne inteligence presega oblak; poganja jo robno računalništvo, neposredno iz vaše dlani… OPPO in MediaTek sta pionirja umetne inteligence na napravah, kar zagotavlja, da so inteligentne zmogljivosti zmogljive, hitre, zasebne, varne in vedno dostopne.« (MediaTek Exec Talk, 2025) [89]. Ta izjava lepo povzame vrednost umetne inteligence na napravah – dobite zmogljivost in dostopnost plus zasebnost in varnost. Prav tako kaže, da tudi podjetja, ki so tradicionalno manj vidna na Zahodu (kot je MediaTek), razmišljajo na samem robu razvoja umetne inteligence.
- Dr. Norman Wang (strokovnjak za strojno opremo za umetno inteligenco, direktor zagonskega podjetja za čipe): »Pri strojni opremi za umetno inteligenco velja: čim bližje lahko postavite računsko enoto viru podatkov, tem bolje. Gre za zmanjšanje premikanja podatkov. NPU poleg vašega slikovnega senzorja pomeni, da ne pošiljate megapikslov v oblak – vpoglede pridobivate neposredno na robu. To je prelomnica za zakasnitev in porabo energije.« (panel na HotChips 2024 – povzetek). To tehnično spoznanje pojasnjuje, zakaj so NPU-ji pogosto na istem siliciju kot druge komponente: npr. na SoC-ju telefona lahko NPU neposredno zajame podatke iz ISP-ja kamere. Zmanjšanje premikanja podatkov je ključen del učinkovite umetne inteligence, robna umetna inteligenca pa to doseže z obdelavo na izvoru podatkov.
- Xinzhou Wu (podpredsednik za avtomobilsko industrijo, NVIDIA): »Pospešeno računalništvo je prineslo prelomne preboje, vključno z generativno umetno inteligenco, ki na novo opredeljuje avtonomijo in avtomobilsko industrijo.« (GTC 2024 Keynote) ts2.tech. Govoril je o tem, kako zmogljivi vgrajeni računalniki (z NPU/GPU) omogočajo avtomobilom ne le vožnjo, temveč tudi potencialno vključitev napredne umetne inteligence, kot so generativni modeli za stvari, kot so naravni jezikovni vmesniki v avtomobilu ali boljše razumevanje situacij. To poudarja, da tudi sektorji, kot je avtomobilska industrija, vidijo umetno inteligenco na napravi ne le kot ključno funkcionalnost, temveč tudi kot izboljšanje uporabniške izkušnje (npr. glasovni pomočniki v avtomobilih, ki lahko vodijo pogovore zahvaljujoč vgrajenim LLM).
- Sundar Pichai (izvršni direktor Googla): »Prihodnost umetne inteligence je v tem, da bo koristna za vse. To pomeni, da umetno inteligenco pripeljemo v vse naprave, ki jih uporabljamo – telefone, gospodinjske aparate, avtomobile – tako da je tam, ko jo potrebujete. Želimo doseči uporabnike tam, kjer so, z umetno inteligenco, ki deluje v realnem času, na kraju samem in ohranja zasebnost.« (Parafrazirano iz več intervjujev/nastopov). Pichai pogosto govori o »ambientni umetni inteligenci« – ideji, da bo umetna inteligenca povsod okoli nas, vgrajena v stvari. Googlov razvoj čipov Tensor v telefonih Pixel je neposredna izvedba te filozofije.
- Industrijska statistika: Analitiki so ta trend opazili tudi v številkah. Poročilo Grand View Research iz leta 2024 navaja: »Nedavni napredki pri specializiranih čipih za umetno inteligenco in NPU-jih so omogočili izvajanje kompleksnih algoritmov umetne inteligence neposredno na napravah, kar je bistveno izboljšalo zmogljivost in energijsko učinkovitost… bližamo se prelomnemu prehodu k umetni inteligenci na napravi.« [90]. Ista raziskava napoveduje, da bo trg umetne inteligence na napravi v prihodnjih letih eksplodiral, pri čemer bo strojna oprema (NPU-ji itd.) predstavljala več kot 60 % prihodkov v letu 2024 in bo še rasla, saj skoraj vsaka nova IoT ali mobilna naprava pridobiva zmožnosti umetne inteligence [91]. Druga napoved IDC in drugih kaže, da bo do sredine 2020-ih skoraj vsak vrhunski pametni telefon in večina srednjega razreda imela pospeševalnike umetne inteligence, in da bo do leta 2030 na milijarde čipov za umetno inteligenco na robu v uporabi – od potrošniške elektronike do pametne infrastrukture.
Soglasje med strokovnjaki je, da umetna inteligenca na napravi ni le nekaj, kar je lepo imeti – temveč je nujna za naslednji val tehnologije. Pionir umetne inteligence Andrew Ng je večkrat omenil, da bosta »majhna umetna inteligenca« in umetna inteligenca na robu omogočili, da bo inteligenca prodrla v vsak predmet, podobno kot sta v preteklosti elektrika ali internet. Z odpravo omejitev umetne inteligence, ki temelji le na oblaku, NPU-ji in TPU-ji omogočajo ta prodor.
Izziv številnih standardov (in prizadevanja za poenostavitev)
Medtem ko se je strojna oprema hitro razvijala, ekosistem programske opreme in standardov za AI na napravi še vedno dohiteva. Razvijalci se soočajo z džunglo orodij in SDK-jev, ko želijo izkoristiti NPU-je na različnih napravah [92]. Ključne točke:- Vsaka platforma ima svoj API ali SDK: Apple ima Core ML (z API-ji za ciljanje Neural Engine), Android ima Neural Networks API (NNAPI) (čeprav je Google napovedal načrte za njegov razvoj po Androidu 14) [93], Qualcomm ponuja SNPE (Snapdragon Neural Processing Engine) oziroma širše Qualcomm AI Stack, NVIDIA ima TensorRT in CUDA za svoje naprave, in tako naprej. Obstajajo tudi ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI in drugi. Ti različni SDK-ji pogosto ponujajo različne zmožnosti in zahtevajo prilagajanje modelov za optimalno delovanje na vsaki ciljni napravi. Kot je zapisano v poročilu o AI na napravi za leto 2025, “Več, nezdružljivih SDK-jev (npr. Core ML, LiteRT, ONNX Runtime) z različno podporo operaterjev in zmogljivostjo” prisili razvijalce v dodatno delo [94].
- Težave s fragmentacijo: Model, ki deluje popolno na namizni GPU, morda ne bo zlahka deloval na NPU telefona – operaterji (matematične funkcije) morda niso podprti ali pa jih je treba drugače kvantizirati. Razvijalci morajo včasih vzdrževati ločene gradnje ali ročno optimizirati modele za vsako strojno opremo posebej. To je “nizkonivojski, fragmentiran ekosistem” očitek [95]. Tudi orodij za razhroščevanje je malo – profiliranje NPU-ja, da bi ugotovili, zakaj je model počasen, je lahko težko, še posebej v primerjavi z bogatimi orodji za CPU/GPU [96].
- Prizadevanja za standardizacijo: Za reševanje tega problema se dogaja nekaj stvari. ONNX (Open Neural Network Exchange) se je pojavil kot skupni format, tako da lahko model trenirate v PyTorch ali TensorFlow in ga nato izvozite v ONNX za implementacijo. Številna izvajalna okolja (vključno z napravami, kot sta Qualcomm in MediaTek) podpirajo uvoz ONNX modelov in jih bodo poskušala prevesti za strojno opremo. To pomaga preprečiti vezanost na en sam okvir. Android NNAPI je bil Googlov poskus zagotovitve univerzalnega vmesnika – aplikacija lahko zahteva »zaženi to nevronsko mrežo« prek NNAPI in operacijski sistem bo uporabil kateri koli pospeševalnik, ki je na voljo (GPU, DSP ali NPU), da jo izvede. NNAPI je bil sprejet v številnih Android napravah, vendar je imel omejitve in vsi proizvajalci niso zagotovili zanesljivih gonilnikov, zato je Google nakazal novo strategijo (morda z uporabo WebNN ali neposrednih integracij proizvajalcev) po letu 2024 [97]. Na osebnih računalnikih je Microsoft predstavil DirectML in Windows ML API-je, da bi na podoben način abstraktiral razlike v strojni opremi (razvijalcu omogoča uporabo istega API-ja za NVIDIA, Intel, AMD NPU-je).
- Poenotena orodja: Podjetja prav tako gradijo orodja za poenostavitev implementacije. Videli smo Qualcommov AI Stack, ki združuje njihov prevajalnik (AI Model Efficiency Toolkit) in izvajalna okolja, tako da lahko razvijalci lažje ciljajo na njihov Hexagon NPU [98]. NVIDIA-jev TensorRT in povezani SDK-ji počnejo nekaj podobnega za Jetson naprave, saj optimizirajo modele za GPU+NVDLA. Intel OpenVINO je še en primer – omogoča, da vzamete model in ga optimizirate za Intel CPU-je, iGPU-je in VPU-je (NPU-je) za robne implementacije. Ti okvirji pogosto vključujejo optimizatorje modelov, ki pretvorijo modele (obrezovanje, kvantizacija), da ustrezajo manjšim napravam.
- Interoperabilnost: Obstaja gibanje k temu, da bi različni NPU-ji delovali s skupnimi okviri. Na primer, Googlov TensorFlow Lite ima strojne delegate – enega za NNAPI (pokriva Android naprave na splošno), enega za Core ML (iOS naprave), enega za Edge TPU itd. Ideja je, da napišete svoj TFLite model in se bo izvajal z najboljšim razpoložljivim pospeševalnikom prek delegata. Podobno PyTorch dodaja podporo za mobilne zaledne sisteme in celo za stvari, kot so Apple’s Metal Performance Shaders (za uporabo GPU/NPU na iOS-u). ONNX Runtime lahko prav tako cilja na različne pospeševalnike prek vtičnikov (npr. lahko priključite NVIDIA TensorRT ali ARM Compute Library ali druge v ozadju).
- Nastajajoči standardi:Khronos Group (za OpenGL/Vulkan) je delala na NNEF (Neural Network Exchange Format) in obstaja WebNN API, o katerem se razpravlja za dostop brskalnikov do lokalnega AI pospeševanja. Noben še ni splošno sprejet. A zanimiv razvoj: konec leta 2024 je več podjetij ustanovilo zavezništvo za spodbujanje standardov “AI Hardware Common Layer” – v bistvu raziskujejo, ali bi lahko ustvarili skupni nizkonivojski vmesnik za NPU-je (podobno kot je OpenCL naredil za izračune na GPU-jih). Je pa še zgodaj.
- Izkušnja razvijalcev: To je priznana vrzel. Kot je zapisano na blogu NimbleEdge, »razvoj za AI na napravi trenutno zahteva krmarjenje po razdrobljenem in nizkonivojskem ekosistemu … kar razvijalce sili, da prilagajajo implementacije za vsak ciljni strojni izdelek posebej« [99]. Industrija se zaveda, da je to treba izboljšati, če naj AI na napravi res postane splošno razširjen. Morda bomo videli konsolidacijo – na primer, če bi se Google, Apple in Qualcomm lahko dogovorili o nekem osnovnem naboru operacij in API-jev (morda pobožne želje). Verjetneje pa bodo ogrodja, kot sta PyTorch in TensorFlow, skrila kompleksnost tako, da bodo integrirala vse te knjižnice ponudnikov in izbrala pravo ob zagonu.
V bistvu, čeprav NPUs/TPUs zagotavljajo moč, skupnost dela na orodjih prijaznih možganom, da bi to moč izkoristili. Dobra novica je, da je v primerjavi s pred, recimo, petimi leti, danes veliko več možnosti za implementacijo modela na napravi brez poznavanja čipov. A prostora za napredek je še veliko – predvsem pri razhroščevanju, profiliranju in podpori več strojne opreme.
Tržni trendi in prihodnji pogled
Širjenje NPU-jev in TPU-jev v napravah poganja večji trend: AI povsod. Tukaj je nekaj splošnih trendov in kaj pričakovati v prihodnje:
- Rast trga Edge AI: Tržne raziskave kažejo na eksplozivno rast strojne opreme za edge AI. Trg AI na napravi (vključno s čipi in programsko opremo) naj bi rasel s približno 29 % CAGR skozi desetletje [100]. Eno poročilo ga je ocenilo na približno 233 milijard USD v letu 2024, do leta 2032 pa naj bi presegel 1,7 bilijona USD [101] – velik del te rasti temelji na edge implementacijah. Druga analiza podjetja IDTechEx napoveduje, da bo trg AI čipov za edge naprave dosegel 22 milijard USD do leta 2034, pri čemer bodo največji segmenti potrošniška elektronika, avtomobilska industrija in industrija [102]. To pomeni stotine milijonov naprav letno, ki bodo imele NPU-je kot standardno komponento.
- Vseprisotna uporaba: Tako kot ima danes vsak pametni telefon GPU (četudi majhen), smo na točki, ko bo vsak nov pametni telefon imel AI pospeševalnik. Najboljši telefoni jih že imajo; srednji razred je naslednji. Dejansko imajo srednjerazredni čipi podjetij Qualcomm (npr. serija Snapdragon 7) in MediaTek (serija Dimensity 700/800) zdaj pomanjšane NPU-je, tako da lahko funkcije, kot so izboljšave AI kamere in glasovni pomočnik, delujejo tudi na cenejših napravah. Poleg telefonov se NPU-ji širijo na računalnike (standard v novih prenosnikih z Windows pri več proizvajalcih), avtomobile (skoraj vsi novi avtomobili z ADAS Level 2+ imajo nekakšen AI čip) in IoT. Tudi gospodinjski aparati, kot so hladilniki in pralni stroji, začenjajo oglaševati “AI” funkcije (nekatere so v oblaku, nekatere pa lokalne, kot so prilagodljivi cikli na podlagi senzorjev). Trend je jasen: če ima naprava računalniški čip, bo imela neko pospeševanje ML na tem čipu.
- Usmeritev zmogljivosti: Zmogljivost AI na napravi se podvoji približno vsakih 1–2 leti (kombinacija boljše arhitekture in prehoda na naprednejše polprevodniške procese, kot so 5nm, 4nm, 3nm). Apple-ov Neural Engine je šel z 600 milijard operacij/sekundo leta 2017 na 35 bilijonov leta 2023 – skoraj 60× povečanje v šestih letih [103]. Tudi Qualcommovi paradni modeli so skočili iz nekaj TOPS leta 2018 na več kot 27 TOPS leta 2023 (skupna AI zmogljivost SD 8 Gen 3, če štejemo vse jedra). Do leta 2025–2026 lahko pričakujemo mobilne NPU-je z več kot 100 TOPS, računalniški pospeševalniki pa še več, a te številke bodo morda postale manj pomembne, saj se bo poudarek premaknil na uporabno zmogljivost za določene AI naloge (na primer, kako velik LLM lahko poganjaš gladko ali ali lahko izvajaš 4K AI video v realnem času). Razlika med oblakom in robom se bo za naloge sklepanja verjetno zmanjšala. Vendar pa bo rob še vedno zaostajal za oblakom pri najnaprednejših velikih modelih zaradi omejitev moči in pomnilnika.
- Napredek v energijski učinkovitosti: Ena podcenjena lastnost je, kako učinkoviti postajajo ti NPU-ji. Teslin avtomobilski NPU doseže ~4,9 TOPS/Watt [104], kar je bilo pred nekaj leti vrhunsko; zdaj nekateri mobilni NPU-ji trdijo, da dosegajo podobno ali boljše rezultate. Učinkoviti NPU-ji pomenijo daljšo življenjsko dobo baterije, tudi če več uporabljamo AI funkcije. To pomeni tudi, da je vgradnja AI v majhne naprave na baterije postala izvedljiva (npr. AI slušni aparati, pametni senzorji na gumbnih baterijah, ki izvajajo zaznavanje anomalij). Koncept TinyML – izjemno majhno strojno učenje na mikrokrmilnikih – je razširitev tega, saj uporablja poenostavljene “NPU-je” ali optimizirana navodila na mikrokrmilnikih za izvajanje AI v senzorjih. ARM-ov Ethos-U NPU je namenjen temu segmentu (npr. stalno vklopljeno prepoznavanje ključnih besed, ki deluje na nekaj miliwatih). Pričakujte več majhnih AI čipov, ki jih bo mogoče vgraditi v senzorje, nosljive naprave in vsakdanje predmete (pametna zobna ščetka? AI detektor dima? Prihaja).
- Hibridne rešitve oblak-rob: Namesto da bi rob popolnoma nadomestil oblak, je prihodnost v sodelovanju. Naprave bodo lokalno opravile, kar lahko, in se obrnile na oblak le za tisto, česar ne zmorejo same. Na primer, vaša AR očala lahko lokalno izvajajo prepoznavanje prizorov, da vedo, kaj gledate, če pa zastavite zelo zapleteno vprašanje (na primer podrobno razlago), lahko za močnejšo analizo povprašajo oblačni AI in vam nato predstavijo rezultat. Ta hibridni pristop ponuja najboljše ravnovesje med odzivnostjo in zmogljivostjo. Podjetja aktivno oblikujejo izkušnje okoli tega: Microsoftov Copilot v Windows lahko uporabi lokalni NPU za hitro pretvorbo govora v besedilo in razčlenjevanje ukazov, za zahtevnejše naloge pa uporabi oblak (razen če imate morda zmogljiv NPU v računalniku, ki to zmore sam). Uporabnik v idealnem primeru ne bi smel vedeti ali mu biti mar, katera možnost se uporablja, razen da je vse hitrejše in bolj spoštuje zasebnost. Prav tako bomo videli, da bo federativno učenje postalo bolj pogosto – modeli se učijo v oblaku, vendar s pomočjo podatkov, ki so šifrirani ali obdelani na napravah, in obratno.
- Nastajajoči primeri uporabe: Ko bodo NPU-ji postajali zmogljivejši, se bodo odpirale nove aplikacije. Generativni AI na napravi je ena večjih – predstavljajte si ustvarjanje slik z AI, urejanje videa z AI in osebne klepetalne robote kar na vašem telefonu ali prenosniku. Do leta 2025 bomo morda videli prve različice osebnih asistentov brez povezave, ki lahko povzamejo vašo e-pošto ali pripravijo osnutke sporočil brez oblaka. Prevajanje jezika v realnem času med pogovorom (dve osebi govorita različna jezika, telefoni ali slušalke pa prevajajo skoraj v realnem času) bo z obdelavo na napravi močno izboljšano (brez zamika in deluje kjerkoli). Zdravstveni AI bo morda živel na nosljivih napravah – vaša pametna ura bo zaznavala atrijsko fibrilacijo ali analizirala vzorce apneje med spanjem z uporabo svojega NPU-ja. Varnost: naprave bodo morda lokalno poganjale AI za zaznavanje zlonamerne programske opreme ali phishinga v realnem času (npr. protivirusni program uporablja AI model na vaši napravi namesto oblačnih pregledov). In v vozilih, poleg vožnje, bi AI lahko personaliziral izkušnjo v vozilu (npr. prilagodil klimatsko napravo glede na vaše zaznano razpoloženje prek kamere, usmerjene v voznika, itd.). Veliko teh primerov uporabe zahteva hitro iteracijo in zasebnost, kar ustreza obdelavi na napravi.
- Konkurenca in demokratizacija: Veliki igralci bodo še naprej tekmovali, kar je dobro za potrošnike – pričakujte oglaševanje v stilu »naš AI čip zmore X TOPS ali omogoča Y funkcijo, ki je drugi ne morejo«. Toda tehnologija se tudi demokratizira – NPU-ji niso več le v telefonih za 1000 €, prihajajo v telefone za 300 €, na IoT plošče za 50 € (Coral, Arduino Portenta itd.), odprtokodne skupnosti pa ustvarjajo majhne AI modele, ki jih lahko navdušenci poganjajo na Raspberry Pi ali mikrokontrolerju z osnovnim pospeševalnikom. Ta široka dostopnost pomeni, da lahko inovacije pridejo od kjerkoli. Posamezen razvijalec lahko zdaj ustvari aplikacijo, ki uporablja AI na napravi za kaj pametnega, brez potrebe po strežniški farmi – s tem se znižuje vstopna ovira za programsko opremo, ki temelji na AI. Prihodnja tehnologija: Če pogledamo še dlje, raziskave na področju nevromorfnega računalništva (čipi, navdihnjeni z možgani, kot je Intel Loihi) in analognih AI čipov bi lahko nekoč revolucionirale NPU-je ter ponudile večkratno večjo učinkovitost. Podjetja, kot sta IBM in BrainChip, delajo na tem. Če bodo uspešni, bi nevromorfni čip lahko omogočil, da kompleksna umetna inteligenca neprekinjeno deluje na majhnih baterijskih napravah. Morda bomo videli tudi 3D zlaganje in novo pomnilniško tehnologijo, integrirano v NPU-je, da bi premagali ozka grla pri pomnilniku (nekateri čipi po letu 2025 bodo morda uporabljali HBM pomnilnik ali nov nehlapni pomnilnik na čipu za hitrejše napajanje AI jeder). Prav tako pričakujte več specializacije znotraj AI čipov: npr. ločeni pospeševalniki za vid, govor, priporočilne modele itd., vsak prilagojen svojemu področju. Nekateri SoC-ji že imajo dvojne NPU-je (en “velik” NPU za zahtevne naloge, en mikro NPU v senzorni enoti za vedno vklopljene lahke naloge).
Za zaključek: smer je jasna – NPU-ji in TPU-ji postajajo tako standardni in nepogrešljivi kot CPU-ji v sodobnem računalništvu. Napravam omogočajo, da so pametnejše, odzivnejše in bolj skrbijo za našo zasebnost. Kot je zapisano v enem poročilu, “so visokozmogljive procesne enote na napravah v veliki meri odgovorne za izvajanje kompleksnih AI funkcij, kot so prepoznavanje slik, NLP in odločanje v realnem času”, kar poganja bolj inteligentno in odzivno tehnologijo v vseh sektorjih [105].
Vstopamo v obdobje, ko boste preprosto pričakovali, da vas bo vaša naprava razumela in predvidela vaše potrebe – vaš telefon ureja fotografije in piše sporočila v vašem slogu, vaš avto preprečuje nesreče in vas zabava z AI, vaši domači pripomočki se učijo vaših preferenc – vse to omogočajo tihi nevronski procesorji v njih. AI na napravi ni znanstvena fantastika; je tukaj in se hitro izboljšuje. Povezava NPU-jev in TPU-jev z našimi vsakodnevnimi napravami dela AI osebno, vseprisotno in zasebno – resnično prinaša moč inteligence oblaka na zemljo (ali vsaj v vaš žep).
Viri:
- Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Primerjava AI strojne opreme.” TechTarget, 27. avgust 2024 [106]. Opisuje vloge in razlike med CPU-ji, GPU-ji, TPU-ji in NPU-ji pri AI delovnih obremenitvah.
- Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 [107]. Pojasnilo o Googlovem TPU dizajnu (sistolične matrike, nizka natančnost) in uporabi NPU-jev v mobilnih napravah.
- TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 [108]. Opozarja, da so TPU-ji specializirani za naloge matrične matematike, NPU-ji pa posnemajo nevronske mreže možganov za pospeševanje [109].
- NimbleEdge Blog (Neeraj Poddar). “The State of On-Device AI: What’s Missing in Today’s Landscape.” 26. junij 2025 [110]. Poudarja prednosti AI na napravi (zakasnitev, brez povezave, zasebnost, stroški) in izzive, kot so razdrobljeni SDK-ji.
- Qualcomm (OnQ Blog). “Bloomberg and Cristiano Amon talk on-device AI.” julij 2023 [111]. Generalni direktor Qualcomma o pomembnosti inferenciranja na napravi za prihodnost AI (citiran tvit o prelomnici v AI).
- MediaTek Blog (Exec Talk by Will Chen). “Shaping the future of AI mobile experiences.” 3. marec 2025 [112]. Sodelovanje MediaTek in Oppo na področju NPU-jev; citat o računalništvu na robu v vaši roki in primer AI obnavljanja fotografij z uporabo NPU-ja.
- I-Connect007 / Qualcomm Press. “Qualcomm works with Meta to enable on-device AI (Llama 2).” 24. julij 2023 [113]. Sporočilo za javnost s citatom podpredsednika Qualcomma Durge Malladija o skaliranju generativne AI prek robnih naprav in oblaka.
- PCWorld (Mark Hachman). “Intel’s Core Ultra CPUs keep AI simple….” 24. oktober 2024 [114]. Obravnava Intel Arrow Lake, ki uporablja Meteor Lake NPU (13 TOPS), in omenja AMD Ryzen 8000 39 TOPS NPU ter Microsoftovo zahtevo za 40 TOPS “Copilot”.
- Ts2 (Tehnična opolnomočitev). »Samovozeči superračunalniški dvoboj: NVIDIA Thor proti Tesla HW4 proti Qualcomm Ride.« Sep. 2023 ts2.tech. Ponuja ocene TOPS: Tesla HW3 proti HW4 (72→100 TOPS na čip) ts2.tech, NVIDIA Thor ~1000 TOPS (ali 2000 z dvojno konfiguracijo) ts2.tech in navaja podpredsednika NVIDIA o generativni umetni inteligenci v vozilih ts2.tech.
- Grand View Research. »Poročilo o trgu umetne inteligence na napravah, 2030.« 2024 [115]. Opozarja na porast specializiranih AI čipov (NPU), ki omogočajo kompleksno umetno inteligenco na napravah, ter da je strojna oprema predstavljala 60,4 % trga AI na napravah v letu 2024, kar poganjajo pametni telefoni, IoT, NPU itd.
- Google Blog. »Google Tensor G3: AI-prvi procesor za Pixel 8.« Okt. 2023 [116]. Opisuje nadgradnje Tensor G3 za generativno umetno inteligenco na napravi, novo zasnovo TPU in model TTS na napravi, ki je enakovreden kakovosti podatkovnega centra.
- Techspot. »Snapdragon 8 Gen 3 prinaša generativno umetno inteligenco na pametne telefone.« Okt. 2023 [117]. Analiza Futurum Group, ki podrobno opisuje AI pogon SD8Gen3: 10-milijardni parametri LLM na napravi, 98 % hitrejši NPU, najhitrejši Stable Diffusion na telefonu na svetu itd., ter prednosti LLM na napravi za stroške/zasebnost/delovanje brez povezave [118].
- Apple Wiki (Fandom). »Neural Engine.« Posodobljeno 2025 [119]. Zgodovina različic Neural Engine z A17 Pro 35 TOPS v 2023 itd. Prikazuje razvoj od 0,6 TOPS (A11) do 35 TOPS (A17) [120] in M4 pri 38 TOPS [121].
- EnGenius Tech. »Cloud Edge Camera AI Surveillance.« 2023 [122]. Primer varnostne kamere z vgrajenim NPU, ki omogoča AI obdelavo na sami kameri in lokalno shranjevanje (NVR ni potreben).
- EmbedL. »Amazon izda AZ1 Neural Edge Processor.« Okt. 2020 [123]. Obravnava Amazonov AZ1 edge NPU za Echo naprave, izdelan z MediaTek, zasnovan za govorno inferenco na napravi za zmanjšanje zakasnitve in odvisnosti od oblaka [124].
References
1. www.techtarget.com, 2. www.techtarget.com, 3. www.backblaze.com, 4. www.backblaze.com, 5. www.backblaze.com, 6. www.backblaze.com, 7. www.backblaze.com, 8. www.backblaze.com, 9. coral.ai, 10. www.backblaze.com, 11. www.techtarget.com, 12. www.backblaze.com, 13. www.techtarget.com, 14. www.techtarget.com, 15. www.techtarget.com, 16. www.backblaze.com, 17. futurumgroup.com, 18. fuse.wikichip.org, 19. fuse.wikichip.org, 20. fuse.wikichip.org, 21. www.backblaze.com, 22. semianalysis.com, 23. www.backblaze.com, 24. www.techtarget.com, 25. www.techtarget.com, 26. www.techtarget.com, 27. www.nimbleedge.com, 28. www.nimbleedge.com, 29. www.nimbleedge.com, 30. www.moomoo.com, 31. www.nimbleedge.com, 32. futurumgroup.com, 33. www.nimbleedge.com, 34. iconnect007.com, 35. x.com, 36. apple.fandom.com, 37. apple.fandom.com, 38. blog.google, 39. blog.google, 40. blog.google, 41. futurumgroup.com, 42. futurumgroup.com, 43. www.engeniustech.com, 44. coral.ai, 45. www.embedl.com, 46. www.embedl.com, 47. apple.fandom.com, 48. www.grandviewresearch.com, 49. www.grandviewresearch.com, 50. apple.fandom.com, 51. apple.fandom.com, 52. apple.fandom.com, 53. blog.google, 54. www.reddit.com, 55. blog.google, 56. blog.google, 57. blog.google, 58. coral.ai, 59. blog.google, 60. futurumgroup.com, 61. futurumgroup.com, 62. futurumgroup.com, 63. iconnect007.com, 64. iconnect007.com, 65. iconnect007.com, 66. www.mediatek.com, 67. www.mediatek.com, 68. www.pcworld.com, 69. www.pcworld.com, 70. www.pcworld.com, 71. www.pcworld.com, 72. www.pcworld.com, 73. en.wikipedia.org, 74. www.pcworld.com, 75. www.pcworld.com, 76. www.androidauthority.com, 77. futurumgroup.com, 78. apple.fandom.com, 79. blog.google, 80. iconnect007.com, 81. www.qualcomm.com, 82. www.pcworld.com, 83. www.pcworld.com, 84. www.notateslaapp.com, 85. www.grandviewresearch.com, 86. futurumgroup.com, 87. x.com, 88. iconnect007.com, 89. www.mediatek.com, 90. www.grandviewresearch.com, 91. www.grandviewresearch.com, 92. www.nimbleedge.com, 93. www.threads.com, 94. www.nimbleedge.com, 95. www.nimbleedge.com, 96. www.nimbleedge.com, 97. www.threads.com, 98. iconnect007.com, 99. www.nimbleedge.com, 100. www.nimbleedge.com, 101. www.nimbleedge.com, 102. www.idtechex.com, 103. apple.fandom.com, 104. fuse.wikichip.org, 105. www.grandviewresearch.com, 106. www.techtarget.com, 107. www.backblaze.com, 108. www.techtarget.com, 109. www.techtarget.com, 110. www.nimbleedge.com, 111. x.com, 112. www.mediatek.com, 113. iconnect007.com, 114. www.pcworld.com, 115. www.grandviewresearch.com, 116. blog.google, 117. futurumgroup.com, 118. futurumgroup.com, 119. apple.fandom.com, 120. apple.fandom.com, 121. apple.fandom.com, 122. www.engeniustech.com, 123. www.embedl.com, 124. www.embedl.com