- Apple je započeo s AI-jem na uređaju 2017. s Neural Engineom na iPhoneu A11, omogućujući Face ID i Animoji do 600 milijardi operacija u sekundi.
- Godine 2023., 16-jezgreni Neural Engine na iPhoneu A17 Pro isporučio je oko 35 TOPS-a, pokrećući značajke govora, fotografije i prevođenja na uređaju.
- Google Pixel 8 (2023) koristi Tensor G3 NPU za pokretanje AI modela na uređaju poput Palm 2 za offline prevođenje i sažimanje.
- Googleov Edge TPU na Coral Dev Boardu isporučuje 4 TOPS-a obrade slike uz nekoliko vata potrošnje.
- Teslina Full Self-Driving hardverska platforma ima dva NPU-a: HW3 (2019) nudio je oko 144 TOPS-a, a HW4 (2023) oko 200–250 TOPS-a.
- NVIDIA Drive Thor (predstavljen 2024.) može doseći do 2000 TOPS-a kada su dva čipa povezana za AI zadatke u automobilima.
- Qualcommov Snapdragon 8 Gen 3 (2023) Hexagon NPU je 98% brži od Gen 2, može pokretati LLM-ove do 10 milijardi parametara na uređaju i postigao je najbrži mobilni Stable Diffusion na svijetu u demonstracijama.
- MediaTekov Dimensity 9400 (2024) sa šeste generacije APU-om pokreće AI remasteriranje fotografija na Oppo Find X8, što signalizira širenje NPU-ova na TV-e, IoT i automobile do 2025.
- Intelov Meteor Lake, 14. generacija Core (lansiran 2023.; rebrendiran u Core Ultra 2024.), uključuje integrirani NPU koji isporučuje oko 8–12 TOPS-a, dok Arrow Lake ima ~13 TOPS-a, a za Lunar Lake se nagađa oko 45 TOPS-a.
- AMD-ov Ryzen 7040 Phoenix (2023) predstavio je Ryzen AI Engine s do 10 TOPS-a, dok je Ryzen 8000 desktop (početak 2024.) nudio 39 TOPS-a prije nego što je AMD pauzirao NPU-ove u toj generaciji.
Ukratko: Vaš pametni telefon, kamera, pa čak i automobil dobivaju ugrađene AI mozgove – bez potrebe za cloudom. Posebni čipovi zvani NPU-ovi (Neural Processing Units) i TPU-ovi (Tensor Processing Units) pretvaraju svakodnevne uređaje u inteligentne asistente sposobne za prepoznavanje lica, glasovne naredbe, prijevod u stvarnom vremenu, autonomnu vožnju i još mnogo toga. Ova AI revolucija na uređaju obećava munjevito brze odgovore, bolju privatnost i nove mogućnosti za koje smo mislili da su moguće samo na superračunalima. U ovom izvještaju razjasnit ćemo NPU-ove i TPU-ove, vidjeti kako se razlikuju od CPU-a/GPU-a i istražiti zašto tehnološki divovi poput Applea, Googlea, Qualcomma i Intela žure ugraditi ove “AI mozgove” u sve, od telefona do automobila. Također ćemo istaknuti najnovija dostignuća za 2024.–2025., stručne uvide, industrijske standarde i što budućnost donosi za AI na uređaju.
Što su NPU-ovi i TPU-ovi? (Upoznajte AI mozak vašeg uređaja)
Neural Processing Units (NPU-ovi) su specijalizirani procesori dizajnirani za ubrzavanje umjetnih neuronskih mreža – algoritama koji pokreću moderne AI zadatke poput prepoznavanja slika, obrade govora i još mnogo toga. Za razliku od procesora opće namjene (CPU-ova), NPU-ovi su application-specific integrated circuits (ASICs) prilagođeni za matričnu matematiku i zahtjevne paralelne radne zadatke neuronskih mreža techtarget.com. NPU “oponaša neuronske mreže ljudskog mozga kako bi ubrzao AI zadatke”, u suštini djelujući kao silicon brain unutar vašeg uređaja techtarget.com. NPU-ovi su izvrsni u izvođenju inferencije (donošenju predviđanja) za AI modele učinkovito na samom uređaju, često koristeći nižu numeričku preciznost (npr. 8-bitni cijeli brojevi) kako bi uštedjeli energiju, a pritom i dalje pružali visoke performanse backblaze.com. Pojam “NPU” se ponekad koristi u širem smislu za bilo koji AI akcelerator, ali se češće odnosi na one u mobilnim i edge uređajima backblaze.com. Na primjer, Appleov “Neural Engine” u iPhoneima i Samsungov mobilni AI engine su NPU-ovi integrirani u njihove system-on-chip (SoC) dizajne.
Tensor Processing Units (TPU-ovi), s druge strane, nastali su u Googleu kao prilagođeni čipovi za ubrzavanje strojnog učenja, posebno za TensorFlow okvir. TPU je vrsta ASIC-a optimiziranog za tenzorske operacije (množenje matrica itd.) koje su u središtu treniranja i izvođenja neuronskih mreža backblaze.com. Google je prvi put implementirao TPU-ove u svojim podatkovnim centrima 2015. kako bi ubrzao izračune neuronskih mreža, a kasnije ih je učinio dostupnima putem Google Cloud-a backblaze.com. TPU-ovi koriste posebnu arhitekturu zvanu sistolički niz, koja povezuje mnogo malih procesorskih jedinica u mrežu koja pumpa podatke kroz lanac jedinica za množenje matrica backblaze.com. Ovaj dizajn postiže iznimno visok protok podataka u zadacima dubokog učenja. Googleovi TPU-ovi namjerno žrtvuju dio preciznosti (koristeći 8-bitnu ili 16-bitnu matematiku umjesto 32-bitnih brojeva s pomičnim zarezom) radi ogromnog povećanja brzine i učinkovitosti backblaze.com, budući da mnogi AI zadaci ne zahtijevaju visoku preciznost za točne rezultate. Iako se “TPU” tehnički odnosi na Googleove čipove, taj se pojam ponekad koristi i općenitije za bilo koji “tenzorski” akcelerator. Važno je napomenuti da Google također proizvodi Edge TPU koprocesore za AI na uređaju u proizvodima poput Coral Dev Boarda, koji isporučuju 4 bilijuna operacija u sekundi uz potrošnju od samo nekoliko vata coral.ai.
Ukratko: NPU-ovi i TPU-ovi su oba silikonski akceleratori za AI, ali se NPU-ovi obično ugrađuju u mobilne/edge uređaje za učinkovito izvođenje na uređaju, dok su TPU-ovi (u strogom smislu) visokoučinkoviti čipovi (i sada moduli) prvenstveno iz Googlea, izvorno za treniranje i izvođenje u oblaku/podatkovnim centrima. Oba se razlikuju od tradicionalnih CPU/GPU dizajna kako bi dali prednost paralelnim matematičkim operacijama za neuronske mreže. Kako je jedan tehnološki urednik rekao, “TPU-ovi idu korak dalje u specijalizaciji, fokusirajući se na tenzorske operacije kako bi postigli veću brzinu i energetsku učinkovitost… NPU-ovi su rasprostranjeni u AI-om opremljenim uređajima poput pametnih telefona i IoT uređaja” backblaze.com.
Kako se NPU-ovi i TPU-ovi razlikuju od CPU-ova i GPU-ova?
Tradicionalni CPU-ovi (centralne procesorske jedinice) su “mozak” općeg računalstva – optimizirani za fleksibilnost kako bi mogli obavljati razne zadatke, od pokretanja operativnog sustava do pregledavanja interneta. Imaju nekoliko snažnih jezgri koje su izvrsne u sekvencijalnoj logici i raznolikim instrukcijama, ali nisu dobri u izrazito paralelnim matematičkim operacijama potrebnim za duboko učenje techtarget.com. Kada se od CPU-a zatraži obrada velike neuronske mreže, često postaje usko grlo, pokušavajući izvršiti milijune množenja i zbrajanja u nizu ili ograničenim paralelnim skupinama. To dovodi do velike latencije i potrošnje energije (tzv. Von Neumannovo usko grlo zbog prebacivanja velike količine podataka između CPU-a i memorije) backblaze.com. CPU-ovi mogu obaviti neki AI posao (posebno jednostavnije ili manje modele, ili kontrolnu logiku za AI programe techtarget.com), ali u pravilu teško učinkovito skaliraju prema zahtjevima modernog AI-a za masivnom paralelnom linearnom algebrom.
GPU-ovi (grafičke procesorske jedinice) doveli su paralelno računalstvo u prvi plan. Izvorno su napravljeni za renderiranje slika izvođenjem mnogih jednostavnih operacija paralelno na pikselima i vrhovima, a pokazalo se da su GPU-ovi vrlo prikladni za treniranje neuronskih mreža, što također uključuje primjenu istih matematičkih operacija (skalarni produkti itd.) na mnogo podataka istovremeno techtarget.com. GPU sadrži stotine ili tisuće malih jezgri koje mogu paralelno izvoditi matematičke operacije. To čini GPU-ove izvrsnima za AI velikih razmjera, a tijekom 2010-ih GPU-ovi (posebno NVIDIA-ini s CUDA softverom) postali su radna snaga istraživanja dubokog učenja. Ipak, GPU-ovi su još uvijek donekle općeniti – moraju obrađivati razne grafičke zadatke i zadržati fleksibilnost, pa nisu 100% optimizirani za neuronske mreže. Također troše puno energije i zahtijevaju pažljivo programiranje za punu iskoristivost (ne vole složene granajuće kodove i najbolje rade na pojednostavljenim, podatkovno-paralelnim zadacima) techtarget.com.
NPU-ovi i TPU-ovi idu još dalje u specijalizaciji. Oni su posebno dizajnirani za samo rad s neuronskim mrežama. To znači da njihova arhitektura može izbaciti sve što nije potrebno za AI matematiku i posvetiti više silicija stvarima poput jedinica za množenje matrica, zbrajača za akumulaciju i memorije na čipu za brzo prebacivanje podataka u i iz tih matematičkih jedinica. Na primjer, Google Cloud TPU je u suštini ogroman 2D niz MAC (množenje-akumulacija) jedinica s pametnom arhitekturom protoka podataka (sistolički niz) koja ih opskrbljuje operandima velikom brzinom backblaze.com. Ne koristi predmemorije, spekulativno izvršavanje ili druge CPU značajke – optimiziran je za matričnu matematiku. NPU-ovi u mobilnim čipovima slično integriraju namjenske jezgre neuronskog pogona uz CPU/GPU. Ove jezgre često koriste aritmetiku niske preciznosti (npr. 8-bitni cijeli brojevi kao TPU-ovi) i izvode visoko paralelne izračune “sloj po sloj” za stvari poput konvolucijskih neuronskih mreža. NPU može koristiti “fuzioniranu” arhitekturu koja kombinira skalarne, vektorske i tenzorske jedinice (Qualcommov Hexagon NPU to radi) za učinkovito izvođenje različitih operacija neuronskih mreža futurumgroup.com.
Ključne razlike svode se na:
- Skup instrukcija i fleksibilnost: CPU-ovi imaju širok, opći skup instrukcija (mogu raditi mnogo toga, ali ne sve istovremeno). GPU-ovi imaju ograničeniji, ali još uvijek fleksibilan skup instrukcija optimiziran za propusnost u matematici. NPU-ovi/TPU-ovi imaju vrlo uzak skup instrukcija – u biti samo operacije potrebne za neuronske mreže (množenje matrica, konvolucija, aktivacijske funkcije), često implementirane kao fiksne cjevovode ili nizovi fuse.wikichip.org. Na primjer, Teslin NPU za autonomnu vožnju ima samo 8 instrukcija u svom ISA-i, usmjerenih na DMA čitanja/pisanja i skalarne proizvode fuse.wikichip.org.
- Paralelizam i jezgre: CPU-i = nekoliko snažnih jezgri; GPU-i = tisuće jednostavnih jezgri; NPU-i/TPU-i = na neki način, deseci tisuća vrlo jednostavnih ALU-ova (MAC jedinica) strukturiranih u matricu ili neuronsku mrežu. Jedan NPU čip može izvesti desetke trilijuna operacija u sekundi – Teslin NPU za automobile radi na 2 GHz s 9.216 MAC-ova, postižući ~37 tera-operacija u sekundi (TOPS) po jezgri, a svaki FSD čip ima dva NPU-a za ~74 TOPS fuse.wikichip.org, ts2.tech. Za usporedbu, vrhunski CPU može doseći samo nekoliko stotina milijardi operacija/sek na AI zadacima, a GPU možda nekoliko TOPS ako se ne koriste posebne tensor jezgre.
- Memorijska arhitektura: NPU-i/TPU-i se oslanjaju na brzu memoriju na čipu i strujanje podataka. TPU-i izbjegavaju klasično usko grlo memorije korištenjem sistoličkog protoka podataka – svaka mala jedinica prosljeđuje podatke sljedećoj u istom taktu, minimizirajući čitanja/pisanja u glavnu memoriju backblaze.com. Mnogi NPU-i uključuju dio SRAM-a na čipu za težine/aktivacije (npr. Tesline NPU jezgre imaju po 32 MB SRAM-a za lokalno pohranjivanje podataka neuronske mreže) semianalysis.com. Ovo je suprotno od GPU-a/CPU-a koji uvelike koriste vanjski DRAM.
- Preciznost: CPU-i/GPU-i obično koriste 32-bitne ili 64-bitne brojeve s pomičnim zarezom za izračune. AI akceleratori često koriste 16-bitne ili 8-bitne cijele brojeve (a neki sada istražuju 4-bitne ili čak 2-bitne) jer neuronske mreže toleriraju nižu preciznost. Googleovi TPU dizajneri su izričito naveli da nije potrebna puna preciznost s pomičnim zarezom za inferenciju, slično kao “ne morate znati točan broj kapi kiše da biste znali da jako pada” backblaze.com. To omogućuje NPU-ima/TPU-ima da izvode više operacija paralelno i troše manje energije po operaciji.
- Primjene: GPU-i se još uvijek široko koriste za treniranje velikih modela i za fleksibilno računanje (i česti su u podatkovnim centrima i vrhunskim PC-ima). TPU-i (cloud) ciljaju na obimno treniranje i inferenciju u Googleovom ekosustavu. NPU-i se češće nalaze u edge uređajima – pametnim telefonima, kamerama, kućanskim aparatima – koji rade inferenciju na već istreniranim modelima. Izvrsni su u zadacima poput primjene modela za viziju na kadar kamere u stvarnom vremenu ili kontinuiranog pokretanja detekcije budne riječi glasovnog asistenta uz nisku potrošnju energije. Kako je TechTarget naveo: “GPU-i se biraju zbog dostupnosti i isplativosti u mnogim ML projektima; TPU-i su obično brži i manje precizni, koriste ih tvrtke na Google Cloudu; NPU-i se najčešće nalaze u edge/mobilnim uređajima za znatno bržu lokalnu obradu” techtarget.com.
U sažetku, CPU-ovi = svestrani organizatori, GPU-ovi = paralelni radni konji, TPU-ovi/NPU-ovi = specijalisti za neuronske mreže. Svi mogu surađivati – zapravo, u modernom uređaju s podrškom za AI, CPU često koordinira zadatke i prebacuje dijelove s puno izračuna na NPU/GPU po potrebi techtarget.com. Ovaj trend specijalizacije postoji jer jedno rješenje više ne odgovara svima u računalstvu: kako je jedan urednik duhovito rekao, “dodavanje milijuna tranzistora za svaku potrebu nije bilo dobro za učinkovitost… dizajneri su prihvatili procesore izrađene za određenu svrhu” techtarget.com. Procesori izrađeni za određenu svrhu, poput NPU-ova i TPU-ova, drastično ubrzavaju AI izračune uz nisku potrošnju energije – što je ključna ravnoteža za uređaje na baterije i poslužitelje visoke gustoće.
Zašto AI na uređaju? (Edge vs. Cloud)
Zašto se uopće truditi pokretati AI na svom telefonu ili automobilu – zašto jednostavno ne poslati sve u oblak gdje veliki poslužitelji (s GPU-ovima/TPU-ovima) mogu obaviti teži dio posla? Postoji nekoliko uvjerljivih razloga koji potiču prijelaz na AI na uređaju, a svode se na brzinu, privatnost, trošak i pouzdanost nimbleedge.com:
- Trenutni Odgovor (Niska Latencija): NPU na uređaju može obrađivati podatke u stvarnom vremenu bez kašnjenja zbog slanja podataka na poslužitelj u oblaku. Ovo je ključno za interaktivne ili sigurnosno kritične AI zadatke. Na primjer, autonomni sustav vožnje automobila koji koristi ugrađene NPU-ove može prepoznati pješaka i zakočiti odmah, u roku od milisekundi, umjesto da čeka izračun u oblaku. Pametna kamera s NPU-om može detektirati uljeza u trenutku kada se pojavi u kadru. Na vašem telefonu, AI na uređaju znači da vaš glasovni asistent može brže i prirodnije odgovarati jer ne “zove stalno kući”. Smanjena latencija omogućuje pravo donošenje odluka u stvarnom vremenu i ugodnije korisničko iskustvo nimbleedge.com.
- Privatnost i sigurnost podataka: AI na uređaju čuva vaše podatke lokalno. Umjesto da se vaš zvuk s mikrofona ili video s kamere šalje u oblak na analizu, obrada se odvija unutar samog uređaja. Time se znatno smanjuje izloženost osjetljivih podataka. Na primjer, moderni pametni telefoni provode prepoznavanje lica (Face ID itd.) potpuno na uređaju – biometrijska mapa vašeg lica nikada ne napušta sigurnu zonu telefona. Slično, AI slušni aparat ili zdravstveni nosivi uređaj može analizirati biometrijske podatke bez slanja na bilo koji poslužitelj, čuvajući privatnost. S obzirom na sve veće zabrinutosti korisnika i regulative o suverenitetu podataka, ovo je velika prednost. Kako je jedan edge AI blog naveo, obrada na uređaju znači da “korisnički podaci ne moraju biti preneseni u oblak,” što pruža osnovnu korist za privatnost nimbleedge.com. (Naravno, privatnost nije automatska – developeri i dalje moraju pažljivo rukovati pohranjenim podacima – ali lakše je vjerovati uređajima koji ne šalju stalno vaše podatke van.) Tehnološki direktori često naglašavaju ovaj aspekt. Izvršni direktor Qualcomma, Cristiano Amon, istaknuo je da kombinacija inteligencije oblaka i uređaja može poboljšati personalizaciju dok podaci ostaju sigurni na uređaju – on to naziva “hibridnom budućnošću” gdje AI na uređaju surađuje s AI-jem u oblaku za najbolje od oba svijeta moomoo.com.
- Dostupnost i pouzdanost izvan mreže: Uređaji s NPU/TPU ne ovise o povezivosti. Mogu raditi u tunelu podzemne željeznice, u avionu, u udaljenim ruralnim područjima ili tijekom prekida mreže. To je izuzetno važno za pouzdanost. Funkcija diktiranja glasa na uređaju i dalje će raditi bez signala. Dron s ugrađenom AI vizijom može izbjegavati prepreke čak i izvan mreže. Ova neovisnost također je ključna za sustave od kritične važnosti: npr. robote za oporavak od katastrofa ili medicinske uređaje koji ne mogu računati na stalnu internetsku vezu. “Funkcionalnost izvan mreže” je osnovna prednost AI-ja na uređaju nimbleedge.com – osigurava da je AI funkcija dostupna kad god i gdje god je potrebna.
- Učinkovitost troškova na velikoj skali: Stalno slanje sirovih podataka u oblak na AI obradu može biti vrlo skupo (računalna obrada u oblaku nije besplatna) i zahtijeva veliku propusnost. Kako se AI funkcije šire, tvrtke bi morale plaćati ogromne račune za obradu u oblaku ako bi svaki mali zadatak išao na poslužitelj. Premještanjem više zadataka na rub (edge), smanjuju se opterećenja poslužitelja u oblaku i korištenje mreže. Često je učinkovitije potrošiti nekoliko dodatnih dolara na bolji čip u uređaju nego plaćati za gigabajte računalne obrade u oblaku tijekom životnog vijeka uređaja. Analiza industrije Futurum istaknula je da obrada na uređaju pomaže u rješavanju problema skaliranja i troškova generativnog AI-ja – ona “raspršuje” opterećenje tako da podatkovni centri nisu preopterećeni (a korisnici/developeri ne plaćaju ogromne iznose za vrijeme korištenja GPU-a u oblaku) futurumgroup.com.
- Personalizacija i kontekst: Novi razlog u nastajanju: AI na uređaju može učiti iz i prilagođavati se lokalnom kontekstu na način na koji AI u oblaku možda ne može. Vaš pametni telefon može održavati mali lokalni model koji uči vaš stil tipkanja za bolje automatsko ispravljanje, bez dijeljenja tog osobnog jezičnog modela s oblakom. Uređaji mogu u stvarnom vremenu spajati podatke s više senzora (što je lakše učiniti lokalno nego slanjem niza senzorskih podataka u oblak). Ovo može omogućiti personaliziranije i kontekstualno svjesnije iskustvo. Neke značajke poput federiranog učenja čak omogućuju uređajima da zajednički poboljšavaju AI modele bez slanja sirovih podataka (šalju se samo mala ažuriranja težina).
- Regulativa i suverenitet podataka: Zakoni poput europskog GDPR-a i razni zahtjevi za lokalizaciju podataka sve više nalažu da se određeni podaci (posebno osobni ili osjetljivi podaci) ne smiju slati izvan zemlje ili trećim stranama bez pristanka. AI na uređaju nudi način usklađivanja obradom podataka na izvoru. Na primjer, AI alati za medicinsko snimanje mogu raditi na bolničkoj opremi (edge serveri s NPU-ima) tako da podaci o pacijentima nikada ne napuštaju prostorije, čime se zadovoljavaju propisi o privatnosti. Izvješće NimbleEdgea za 2025. ističe kako vlade potiču više lokalnog izvođenja AI-a zbog suvereniteta i razloga usklađenosti nimbleedge.com.
Svi ovi čimbenici pokreću promjenu paradigme: umjesto razmišljanja “cloud-first” za AI, tvrtke sada dizajniraju AI značajke “device-first” kad god je to moguće. Kako je Qualcommov AI VP, Durga Malladi, sažeo: “Da bi se generativni AI učinkovito proširio u mainstream, AI će morati raditi i u oblaku i na uređajima na rubu… poput pametnih telefona, prijenosnih računala, vozila i IoT uređaja” iconnect007.com. Krećemo prema hibridnom AI svijetu gdje se teško treniranje i veliki modeli možda nalaze u oblaku, ali mnogi zadaci izvođenja i osobna AI iskustva odvijaju se lokalno na NPU/TPU-ima u vašim rukama i domovima. Zapravo, Amon to naziva “prekretnicom u AI-u” – izvođenje na uređaju bez latencije, gdje “budućnost AI-a je osobna” jer radi upravo tamo gdje ste vi x.com.
AI na uređaju u praksi: Od pametnih telefona do automobila koji se sami voze
Specijalizirani AI čipovi već su ugrađeni u širok raspon uređaja oko vas, često nevidljivo čineći ih pametnijima. Evo nekih glavnih područja gdje se koriste NPU-i i edge TPU-i:
- Pametni telefoni i tableti: Gotovo svi moderni flagship telefoni (pa čak i mnogi iz srednjeg ranga) sada uključuju NPU ili namjenski AI procesor. Apple je započeo taj trend 2017. s Apple Neural Engine u iPhone A11 čipu, omogućujući Face ID i Animoji na uređaju izvođenjem do 600 milijardi operacija u sekundi apple.fandom.com. Danas, Appleov A17 Pro čip (2023) ima 16-jezgreni Neural Engine sposoban za 35 trilijuna operacija u sekundi apple.fandom.com. Ovo pokreće značajke poput naprednog prepoznavanja scena kamerom, stilova fotografija, Siri glasovnih naredbi obrađenih offline, automatske ispravke, prijepisa uživo, pa čak i pokretanja transformer modela za prevođenje na uređaju. Googleovi Pixel telefoni također imaju vlastiti čip (“Google Tensor” SoC) s NPU-ima: najnoviji Tensor G3 u Pixelu 8 je “posebno dizajniran za pokretanje Googleovih AI modela”, unapređujući svaki dio čipa (CPU, GPU, ISP) kako bi omogućio generativni AI na uređaju blog.google. Pixel 8 može pokretati Googleove najnaprednije modele za pretvaranje teksta u govor i prevođenje lokalno, iste one koji su prije bili ograničeni na podatkovne centre blog.google. Također izvodi složene trikove s kamerom poput “Best Take” spajanja grupnih fotografija i Audio Magic Eraser koristeći niz AI modela na uređaju blog.google. Samsung i drugi Android proizvođači koriste Qualcommove Snapdragon čipove, čiji najnoviji NPU-ovi (Hexagon AI engine) mogu čak pokretati velike jezične modele na telefonu – Qualcomm je demonstrirao pokretanje LLM-a s 10 milijardi parametara i čak generiranje slika Stable Diffusion na telefonu sa Snapdragon 8 Gen 3 futurumgroup.com. AI procesor ovog čipa je 98% brži od prošle generacije i podržava INT4 preciznost za veću učinkovitost futurumgroup.com. Praktična posljedica: vaš telefon iz 2024. može raditi stvari poput sažimanja članaka, odgovaranja na pitanja ili uređivanja fotografija pomoću AI-a bez potrebe za cloudom. Čak i pristupačnost ima koristi: npr. Pixel telefoni sada imaju glasovno tipkanje na uređaju, titlove uživo i nadolazeću značajku za opisivanje slika slijepim korisnicima pomoću lokalnog modela.
- Pametne kamere i sigurnosni sustavi: Kamere s podrškom za AI koriste ugrađene NPU-ove za trenutno prepoznavanje ljudi, lica, životinja ili sumnjivog ponašanja. Na primjer, najnovije sigurnosne kamere EnGenius uključuju ugrađeni NPU koji obrađuje prepoznavanje objekata i pretvara video u metapodatke izravno na kameri, čime se eliminira potreba za zasebnim video snimačem i povećava sigurnost (budući da se video može analizirati i pohraniti lokalno) engeniustech.com. To znači da vaša sigurnosna kamera može odlučiti “osoba prisutna” ili “paket dostavljen” i poslati samo tu obavijest, umjesto da šalje sate snimki u oblak. Slično tome, potrošački uređaji poput Google Nest Cam IQ imali su čip za vizualnu obradu na uređaju (Google Edge TPU) za prepoznavanje poznatih lica i razlikovanje ljudi od kućnih ljubimaca u svom vidnom polju. DSLR i mirrorless kamere također dodaju AI procesore za stvari poput praćenja subjekta, automatskog fokusiranja na oko i optimizacije scene u stvarnom vremenu. U dronovima, ugrađeni AI čipovi pomažu u izbjegavanju prepreka i vizualnoj navigaciji bez potrebe za daljinskim upravljanjem. Posebno je Googleov Edge TPU (mali ASIC modul) postao popularan dodatak za DIY i industrijske IoT kamere – pruža 4 TOPS snage za vizualnu obradu za zadatke poput prepoznavanja ljudi ili čitanja registarskih pločica, koristeći samo ~2 vata coral.ai.
- Pametni dom i IoT uređaji: Osim telefona, mnogi pametni kućni uređaji imaju mini NPU-ove. Zvučnici aktivirani glasom (Amazon Echo, Google Nest Hub itd.) sada često uključuju čipove za lokalno prepoznavanje govora. Amazon je razvio AZ1 Neural Edge procesor za Echo uređaje kako bi ubrzao prepoznavanje budne riječi i odgovore Alexe na samom uređaju, prepolovivši kašnjenje embedl.com. AZ1 (izrađen u suradnji s MediaTek-om) pokreće neuronsku mrežu koja prepoznaje “Alexa” i obrađuje jednostavne naredbe bez slanja u oblak embedl.com. Ovo ne samo da čini Alexu bržom, već i čuva više glasovnih podataka privatnima. Također, mnogi novi televizori, kućanski aparati, pa čak i igračke imaju neku vrstu AI-a na rubu – npr. kamera pametnog hladnjaka može lokalno prepoznati hranu i datume isteka. Nosivi uređaji također zaslužuju spomen: Apple Watch S9 čip dodao je Neural Engine s 4 jezgre za bolje izvođenje AI algoritama za zdravlje i Siri zahtjeva na satu apple.fandom.com. A u industriji, IoT senzori s NPU-ovima mogu provoditi detekciju anomalija na podacima opreme odmah na rubu, označavajući samo relevantne događaje prema gore (štedeći propusnost i brže reagirajući na probleme).
- Automobili (ADAS i autonomija): Automobili su postali AI centri na kotačima. Napredni sustavi za pomoć vozaču (ADAS) i značajke samovožnje oslanjaju se na niz ugrađenih AI akceleratora za interpretaciju videozapisa s kamera, LiDAR-a, radara i donošenje odluka u vožnji u djeliću sekunde. Tesla je poznata po tome što je dizajnirala vlastito FSD (Full Self-Driving) računalo s dvostrukim NPU čipovima. Teslin FSD čip (HW3, predstavljen 2019.) pružao je 144 TOPS (dva NPU-a po 72 TOPS); noviji HW4 (2023.) povećava to na otprilike 200–250 TOPS ukupno (dva 7nm NPU-a s oko 100+ TOPS svaki) ts2.tech. Ovo omogućuje automobilu da istovremeno obrađuje video visoke rezolucije s 8 kamera, sonara itd., putem neuronskih mreža za percepciju, pa čak i pokreće neke jezične modele za glasovne naredbe – sve lokalno unutar modula automobila. Konkurentske platforme poput NVIDIA Drive i Qualcomm Snapdragon Ride također integriraju NPU-ove. Najnoviji NVIDIA-in čip za superračunala u automobilima, Drive Thor, predviđen za automobile 2025. godine, može se pohvaliti s do 1.000 TOPS na jednom čipu (i 2.000 TOPS kada su uparena dva) za podršku autonomije razine 4 ts2.tech. Kombinira GPU, CPU i namjenske akceleratore dubokog učenja tako da može obraditi sve, od prepoznavanja prometnih znakova do AI sustava za nadzor vozača na samom čipu ts2.tech. Ovi NPU-ovi doslovno spašavaju živote: autonomni automobil ne može čekati oblak servera ako dijete istrči na cestu. Ugrađeni AI mora vidjeti i reagirati unutar nekoliko desetaka milisekundi. Osim u putničkim automobilima, edge AI se intenzivno koristi i u autonomnim dronovima, dostavnim robotima i industrijskim vozilima koji se kreću i donose odluke pomoću ugrađenih NPU/TPU-ova (na primjer, Nurovi dostavni roboti i mnogi sustavi za autonomnu vožnju kamiona koriste NVIDIA ili Huawei AI čipove na uređaju).
- Edge računarstvo i industrija: U tvornicama i poslovnim okruženjima, AI na uređaju često dolazi u obliku edge poslužitelja ili pristupnika s AI akceleratorima. Umjesto slanja video prijenosa ili podataka senzora u centralni oblak, tvrtke instaliraju edge kutije (ponekad temeljene na GPU-u, ponekad na NPU/FPGA) na licu mjesta. One obrađuju zadatke poput analitike videa u stvarnom vremenu za kontrolu kvalitete na proizvodnoj liniji, otkrivajući nedostatke pomoću AI vizije u mikrosekundama. Zdravstveni uređaji su još jedan primjer: prijenosni ultrazvuk ili MRI može imati NPU za AI analizu slike na uređaju, tako da liječnici odmah dobivaju dijagnostičku pomoć bez potrebe za internetskom vezom (što je također bolje za privatnost podataka pacijenata). Maloprodaja i gradovi također primjenjuju AI na rubu – npr. pametne prometne kamere s NPU-ima za analizu zagušenja i prilagodbu semafora, ili kamere na policama koje prate zalihe. Mnogi od njih koriste specijalizirane NPU-ove poput Intel Movidius Myriad čipova ili Googleov Edge TPU ili nove igrače poput Hailo-8 (izraelski NPU koji isporučuje 26 TOPS uz nekoliko vata za kamere). Zajednička nit je da ovi akceleratori omogućuju analizu lokalno, postižući rezultate u stvarnom vremenu i šaljući samo sažete uvide (umjesto sirovih podataka) preko mreža.
Svestranost NPU/TPU-ova na različitim vrstama uređaja je impresivna. U jednom trenutku omogućuju vašem telefonu da zamagli pozadinu na fotografiji pomoću AI-a, a u sljedećem vode dron ili skeniraju medicinske slike. Kamere pametnih telefona sada koriste NPU-ove za značajke poput Night Mode (inteligentno spajanje više kadrova), portretni bokeh, prepoznavanje scene (telefon zna da snimate “zalazak sunca” i optimizira boje putem AI-a), pa čak i za zabavne AR efekte (Animoji koji mapira vaše lice ili Snapchat filteri koji prate vaše pokrete – sve zahvaljujući neuronskim mrežama na uređaju). Biometrija koristi NPU-ove: skeneri otiska prsta poboljšani AI-om za detekciju živosti, otključavanje lica s dubinskim senzorima i AI-em. Audio ih također koristi: poništavanje buke u slušalicama i telefonima sada je često vođeno AI-em, s NPU-ovima koji u stvarnom vremenu odvajaju glas od pozadinske buke.
Konkretan primjer inovacije iz 2024.: Oppo (proizvođač pametnih telefona), u partnerstvu s MediaTekom, objavio je da je implementirao Mixture-of-Experts (MoE) AI model izravno na uređaju krajem 2024. – navodno prvi koji je to učinio u telefonu grandviewresearch.com. Ova napredna arhitektura neuronske mreže (MoE) može povećati performanse aktiviranjem samo relevantnih “ekspertnih” podmreža po zadatku, a izvođenje toga na uređaju znači da Oppo telefoni mogu postići bržu AI obradu i bolju energetsku učinkovitost za složene zadatke, bez potrebe za oblakom grandviewresearch.com. To naglašava kako čak i najnovija AI istraživanja brzo pronalaze put do naših ručnih uređaja kroz poboljšane NPU-ove.
Unutar AI čipova 2025.: Najnovija dostignuća Applea, Googlea, Qualcomma i drugih
Utrka za izgradnju boljeg AI hardvera na uređaju brzo se zahuktala. Evo pregleda što su velike tvrtke nedavno predstavile (2024.–2025.) u pogledu NPU/TPU-ova i AI silicija:
- Apple: Appleova strategija prilagođenih čipova već dugo naglašava strojno učenje na uređaju. Svake godine, Appleov Neural Engine postaje sve snažniji. U iPhoneu 15 Pro iz 2023., A17 Pro čipov Neural Engine dosegao je 35 TOPS (bilijuna operacija u sekundi) sa svojih 16 jezgri apple.fandom.com. Ovo je bila dvostruko veća sirova propusnost od A16 NPU-a, a Apple je to iskoristio za omogućavanje stvari poput prepoznavanja govora na uređaju za Siri (napokon obrađujući mnoge Siri zahtjeve bez interneta) i novih mogućnosti kamere (poput automatskog snimanja portreta i prijevoda teksta uživo putem kamere). Appleovi čipovi iz 2024. nastavili su taj trend: M3 obitelj za Macove (kraj 2023.) dobila je ažurirani Neural Engine (iako je zanimljivo da je podešen na 18 TOPS za osnovni M3 čip, s naglaskom na učinkovitost) apple.fandom.com. U 2024., Apple je predstavio M4 čip (za vrhunske iPade/Macove, sredina 2024.) koji je navodno podigao Neural Engine na 38 TOPS na poboljšanom 3nm procesu apple.fandom.com. Osim samih brojki, Apple koristi taj NPU: značajke poput Personal Voice (koja stvara klon korisnikovog glasa nakon 15 minuta treniranja) rade privatno na Neural Engineu u iPhoneima, a Live Voicemail transkripcije odvijaju se lokalno. Apple je također integrirao NPU-ove u sve klase svojih uređaja – čak i AirPods Pro imaju mali neuralni čip za Adaptive Audio. Appleovi rukovoditelji često ističu aspekt privatnosti: “strojno učenje na vašem uređaju” znači da vaši podaci ostaju kod vas. Do 2025. očekujemo da bi se Appleov Neural Engine mogao dodatno proširiti ili postati dostupan aplikacijama trećih strana na nove načine (već sada Core ML omogućuje developerima da ga koriste, ali Apple bi mogao otvoriti još više neuralnih API pristupa). Također postoje glasine da Apple dizajnira samostalni AI akcelerator za buduće naočale ili automobile, ali trenutni proizvodi pokazuju da preferiraju integrirane NPU-ove u svojim A-serijama i M-serijama SoC-ova.
- Google: Google nije samo bio pionir u razvoju cloud TPU-a, već je dodatno uložio u AI na uređaju za Pixel telefone i potrošačke uređaje. Google Tensor SoC (prvi put predstavljen 2021. u Pixelu 6) bio je jedinstven jer je Google, poznat po cloudu, napravio čip za telefon koji pokreće AI na samom uređaju. Do Tensor G3 (u Pixelu 8 iz 2023.), Google je istaknuo nadogradnje koje omogućuju generativni AI na uređaju. Google je izričito rekao da čip u Pixelu 8 donosi “Googleova AI istraživanja izravno na naše najnovije telefone” blog.google. Najnoviji TPU u Tensoru G3 (Google i dalje interno naziva AI jezgru “TPU”) omogućuje Pixelu pokretanje naprednih modela poput Palm 2 ili Gemini Nano (olakšane verzije Googleovih velikih jezičnih modela) na samom uređaju za značajke poput sažimanja web stranica ili poboljšanja glasovnog tipkanja reddit.com. Jedna od glavnih značajki: Pixel 8 može lokalno pokretati Googleov najbolji model za pretvaranje teksta u govor (onaj koji se koristi u podatkovnim centrima), što omogućuje telefonu da naglas čita web stranice prirodnim glasovima i čak ih prevodi u stvarnom vremenu, sve offline blog.google. Google također koristi TPU u Pixelu za fotografiju (“HDR+” višekadrovno snimanje, Magic Eraser uklanjanje objekata pomoću AI inpaintinga blog.google), za sigurnost (otključavanje lica na uređaju putem AI-a, sada dovoljno snažno za plaćanja blog.google), i za govor (Asistent kojem ne smeta kad kažete “umm”). Osim telefona, Google nudi Coral Dev Board i USB stick za hobiste i poduzeća kako bi dodali Edge TPU-ove svojim projektima, a svaki sadrži Googleov Edge TPU koji pruža 4 TOPS za vizualne zadatke uz vrlo nisku potrošnju energije coral.ai. Koristi se i u nekim Googleovim vlastitim proizvodima poput Nest Hub Maxa za prepoznavanje gesti. Za Google, integracija TPU-ova na rubu dio je šire strategije: Sundar Pichai (Googleov CEO) rekao je da je budućnost AI-a u nadopunjavanju svakog iskustva, a jasno je da Google smatra da “da bi se transformativna moć AI-a donijela u svakodnevni život, moraš joj pristupiti s uređaja koji koristiš svaki dan” blog.google – otuda Tensor čipovi. Možemo očekivati Tensor G4 u Pixel telefonima krajem 2024., možda izrađen na novijem procesu Samsunga ili TSMC-a, s daljnjim poboljšanjima AI performansi i učinkovitosti, možda čak i omogućavanjem multimodalnog AI-a na uređaju (kombinacija vizualnih i jezičnih modela).
- Qualcomm: Vodeći proizvođač mobilnih čipova za Android telefone agresivno promovira svoj AI Engine u seriji Snapdragon. Snapdragon 8 Gen 2 (kraj 2022.) uveo je namjensku podršku za INT4 i prikazao generiranje slika stabilnom difuzijom u stvarnom vremenu na telefonu. Snapdragon 8 Gen 3 (najavljen krajem 2023., u vodećim telefonima 2024.) predstavlja veliki iskorak: Qualcomm tvrdi da je njegov Hexagon NPU 98% brži od Gen 2 i 40% energetski učinkovitiji futurumgroup.com. Ovaj čip može pokretati velike jezične modele s do 10 milijardi parametara potpuno na uređaju, obrađujući oko 20 tokena u sekundi – dovoljno za jednostavne razgovore s AI asistentom bez oblaka futurumgroup.com. Također je postigao “najbrže generiranje Stable Diffusion slika na svijetu” na mobilnom uređaju u demonstracijama futurumgroup.com. Qualcomm naglašava da je generativna AI na uređaju ključna prodajna točka za nove telefone. Na primjer, surađivali su s Metom na optimizaciji otvorenog koda Llama 2 LLM-a za Snapdragon, s ciljem da omogućite pokretanje AI chatbota na svom telefonu do 2024. iconnect007.com. (Jedan Qualcommov izvršni direktor rekao je: “pozdravljamo Metin otvoreni pristup… kako bi se generativna AI skalirala, mora raditi i u oblaku i na rubu”, naglašavajući filozofiju edge AI-a iconnect007.com.) Osim telefona, Qualcomm ugrađuje NPU-ove u čipove za prijenosna računala (Snapdragon platforme za Windows na ARM-u) – a njihova automobilska platforma Snapdragon Ride koristi iste AI jezgre za ponudu do 30 TOPS za ADAS, s planom za stotine TOPS-a. U 2025. Qualcomm je čak najavio novi Snapdragon X Elite CPU za računala koji uključuje snažan NPU, signalizirajući namjeru da izazove Apple i Intel u AI performansama na osobnim računalima. S porastom AI-a na uređaju, Qualcomm zapravo neke telefone brendira kao “AI telefone.” Predviđaju da će mnoge aplikacije (od fotografije do poruka do produktivnosti) koristiti NPU. Na softverskoj strani, Qualcomm je izdao Qualcomm AI Stack kako bi ujedinio podršku za popularne okvire (TensorFlow Lite, PyTorch, ONNX) na svojim NPU-ovima iconnect007.com – pokušavajući olakšati developerima korištenje AI hardvera bez dubokog znanja o čipovima.
- MediaTek: Drugi najveći proizvođač čipova za mobitele (poznat po seriji Dimensity) također je unaprijedio svoje NPU-ove. MediaTek svoje AI motore naziva “APU” (AI Processing Unit). Na primjer, Dimensity 9200+ (2023) ima šestu generaciju APU-a sa značajnim povećanjem performansi u odnosu na prethodni čip, omogućujući značajke poput stabilne difuzije na uređaju i AI smanjenja šuma u videima. U 2024. godini, MediaTek je najavio Dimensity 9400, a u partnerstvu s Oppom iskoristili su njegovu naprednu NPU arhitekturu za uvođenje novih AI značajki (kao što je spomenuto, AI remasteriranje fotografija na Oppo Find X8 s uklanjanjem odraza i izoštravanjem zamućenih slika pokreće MediaTek-ov NPU) mediatek.com. Izvršni direktori MediaTeka izričito su se pozicionirali na čelo AI-a na uređaju. Kako je rekao Will Chen iz MediaTeka, “budućnost AI-a nadilazi oblak; pokreće je edge computing izravno iz vašeg dlana.” Po njihovom mišljenju, AI na telefonima mora biti brz, privatan, siguran i stalno dostupan mediatek.com. MediaTek je čak formirao “APU-centričnu” suradnju s Metom za podršku Llama frameworka i s proizvođačima uređaja poput Oppo i Xiaomi s fokusom na AI kameru i AI glasovne značajke. Do 2025. MediaTek planira uvesti ove NPU-ove ne samo u telefone, već i u pametne TV-e (za AI poboljšanje slike i povećanje rezolucije), IoT uređaje, pa čak i automobile (MediaTek ima AI platformu za automobile i partnerstvo s Nvidiom za integraciju Nvidia GPU IP-a za automobile, dok vjerojatno osigurava vlastiti NPU za AI senzore).
- Intel: 2024. označava Intelov ulazak u AI akceleratore na mainstream računalima. Intelova 14. generacija Core (Meteor Lake, lansiran u prosincu 2023. i rebrendiran kao Core Ultra 2024.) prvi je x86 PC procesor s ugrađenom neuralnom procesorskom jedinicom (NPU). Meteor Lakeov NPU (ponekad nazivan i VPU – Vision Processing Unit – temeljen na Intelovoj Movidius tehnologiji) isporučuje oko 8–12 TOPS AI performansi pcworld.com. Ovo se koristi za ubrzavanje AI značajki Windowsa 11 poput zamućenja pozadine, kontakta očima u video pozivima, a aplikacije bi ga mogle koristiti za stvari poput lokalne transkripcije, suzbijanja buke ili čak malih AI asistenata. Microsoft i Intel zajedno guraju koncept “AI računala”. Intel tvrdi da će se ovi NPU-ovi isporučiti u desecima milijuna prijenosnih računala u 2024. pcworld.com. Nakon Meteor Lakea, Intelova mapa puta spominje Arrow Lake (za stolna računala u 2024.) koji također uključuje NPU (oko 13 TOPS, blago poboljšan) pcworld.com. Zanimljivo, Intelov prvi pokušaj desktop NPU-a zapravo je nadmašio AMD (vidi dolje), a Intel je odlučio koristiti skromniji dizajn NPU-a kako ne bi žrtvovao GPU/CPU površinu u entuzijast čipovima pcworld.com. No, do kraja 2024., Intel je najavio da će budući Lunar Lake čipovi imati znatno snažniji NPU (~45 TOPS) kako bi zadovoljili Microsoftove zahtjeve za “Copilot” pcworld.com. Sve ovo pokazuje da Intel vidi AI kao nužnost za buduća računala – ne za treniranje velikih modela, već za ubrzavanje svakodnevnih AI iskustava (od poboljšanja uredskih alata do kreativnih alata koji koriste lokalni AI). Intel također prodaje edge AI akceleratore poput Intel Movidius Myriad čipova (koriste se u nekim dronovima, kamerama) i Habana akceleratora za servere, ali integrirani NPU u Meteor Lakeu je prekretnica koja donosi AI prosječnom potrošačkom uređaju.
- AMD: AMD je uskočio u AI na uređajima otprilike u isto vrijeme. Njegovi Ryzen 7040 serije procesora za prijenosna računala (Phoenix) predstavljeni 2023. godine sadržavali su prvi Ryzen AI Engine – zapravo integrirani XDNA NPU (tehnologija iz AMD-ove akvizicije Xilinxa). Ovaj NPU je isporučivao do 10 TOPS na mobilnom čipu en.wikipedia.org. AMD je isticao primjene poput AI-poboljšanih video poziva, aplikacija za produktivnost i slično, slično kao i Intelovi ciljevi. Zatim je AMD nakratko lansirao Ryzen 8000 desktop seriju (početkom 2024.) s NPU-om koji doseže 39 TOPS – vrlo visok broj za AI jedinicu opće namjene u CPU-u, čak i nadmašujući Intelove planove pcworld.com. Međutim, AMD je brzo promijenio smjer i preskočio jednu generaciju, fokusirajući se na svoju sljedeću arhitekturu (sljedeći Ryzen 9000 krajem 2024. izostavio je NPU kako bi dao prednost nadogradnji jezgri) pcworld.com. Ipak, očekuje se da će AMD vratiti NPU-ove u buduće PC čipove (vjerojatno je riječ o privremenom povlačenju dok rade na integraciji snažnog AI motora bez kompromitiranja drugih performansi). Što se tiče proizvoda, AMD-ovi NPU-ovi mogli bi omogućiti zanimljive stvari budući da AMD također ima snažne GPU-ove – kombinacija bi mogla zajednički obrađivati AI zadatke (neki dijelovi na NPU-u, neki na GPU-u). AMD također ugrađuje AI jezgre u svoje adaptivne (na FPGA bazirane) SoC-ove i čipove za automobilsku industriju. Ukratko, do 2025. svi proizvođači x86 PC čipova prihvatili su NPU-ove, u skladu s onim što su pametni telefoni učinili nekoliko godina ranije, što ukazuje da AI ubrzanje postaje standardna značajka u cijelom segmentu.
- Ostali: Razne specijalizirane tvrtke za čipove i druge tehnološke firme također inoviraju u području NPU-a. NVIDIA, poznata po GPU-ima, sada uključuje namjenske Tensor Cores u svoje GPU-e i nudi otvoreni NVDLA (akcelerator za duboko učenje) dizajn za integraciju u System-on-Chip proizvode. U edge uređajima poput NVIDIA Jetson serije (koja se koristi u robotima, dronovima, ugrađenim sustavima), postoje i GPU i fiksno-funkcijski “DLA” – zapravo NPU-i – koji preuzimaju dio inferencije neuronskih mreža s GPU-a. NVIDIA-in Orin modul, na primjer, ima 2 DLA uz svoj GPU, što doprinosi njegovih 254 TOPS AI performansi za automobile ts2.tech. Apple navodno radi na još naprednijim AI koprocesorima ili većim neuralnim pogonima za svoje AR naočale ili buduće projekte, iako su detalji tajni. Huawei (unatoč geopolitičkim izazovima) nastavlja dizajnirati Kirin mobilne čipove s NPU-ima (njihova “DaVinci” NPU arhitektura) i također server-klase NPU-e u svojim Ascend AI čipovima – njihov Kirin 9000S čip iz 2023. navodno zadržava snažan NPU za zadatke obrade slike i jezika na njihovim telefonima. Također vidimo startupe poput Hailo, Mythic, Graphcore i drugih koji nude vlastite edge AI čipove: npr. Hailo-8 kao što je spomenuto (26 TOPS u mini PCIe kartici za AI kamere), Graphcore’s IPU za podatkovne centre (nije baš na uređaju, ali nova arhitektura za neuronske mreže), Mythic radi na analognim NPU-ima, itd. ARM, čiji dizajni čine osnovu većine mobilnih čipova, nudi Ethos NPU seriju (poput Ethos-U, Ethos-N78) koju proizvođači čipova mogu integrirati kako bi dobili gotov AI akcelerator u IoT ili srednje-razrednim SoC-ovima. Ovo je omogućilo čak i relativno manjim igračima da uključe NPU-e u svoje čipove licenciranjem ARM-ovog dizajna.
Zaključak je da od velikih tehnoloških tvrtki do startupa, svi ulažu u AI silicij na uređaju. Kao rezultat, svjedočimo brzim poboljšanjima: novi čipovi s većim TOPS, boljom učinkovitošću (TOPS po vatu) i podrškom za nove tipove podataka (poput 4-bitne kvantizacije za veće modele). Na primjer, najnoviji Qualcomm i MediaTek mogu pokretati INT4 preciznost što je izvrsno za generativne AI modele gdje je memorijski protok ograničavajući faktor androidauthority.com. Ove inovacije izravno se prevode u korisničke prednosti – npr. mobilno AI uređivanje videa u stvarnom vremenu (uklanjanje objekata iz 4K videa u hodu, kao što Snapdragon 8 Gen 3 može sa svojom “Video Object Eraser” AI funkcijom futurumgroup.com), ili AI koprocesori u automobilima koji omogućuju glasovne asistente koji rade bez mreže i odgovaraju brzinom ljudskog razgovora.
Ključne vijesti iz 2024.–2025.: Lansiranja, benchmarkovi i partnerstva
Kako bismo ilustrirali koliko se brzo stvari razvijaju, evo nekoliko najvažnijih događaja u svijetu NPU/TPU i AI-a na uređaju od kraja 2024. do 2025.:
- Predstavljanje Apple M3 i M4 (listopad 2023. i svibanj 2024.): Donijeli su Neural Engines nove generacije. M3-ov Neural Engine postiže 18 TOPS (16-jezgreni), a M4 je skočio na 38 TOPS (još uvijek 16-jezgreni, ali s većim taktom/učinkovitošću) apple.fandom.com. Apple je demonstrirao kako ti čipovi obrađuju zahtjevne zadatke poput generiranja slika stabilnom difuzijom na uređaju u macOS-u (s Core ML Stable Diffusion, developeri su prikazali ~15 sekundi za generiranje slike na M2 – još brže na M3/M4).
- Predstavljanje Google Pixel 8 (listopad 2023.): Naglasak na AI “posvuda” u uređaju. Google je na događaju demonstrirao Pixel 8-ovo sažimanje web stranica na uređaju i prijevod članaka uživo koristeći Tensor G3 NPU. Također je predstavljen “Assistant with Bard” koji će s vremenom neke interakcije izvoditi na uređaju. Google je istaknuo da Pixel 8 može pokretati 2× više modela na uređaju nego Pixel 6, i to modele koji su znatno sofisticiraniji blog.google. Drugim riječima, ogroman napredak u samo dvije godine razvoja Tensor čipa.
- Partnerstvo Qualcomm–Meta (srpanj 2023.): Qualcomm i Meta najavili su da optimiziraju Metin Llama 2 veliki jezični model za rad potpuno na Snapdragon NPU-ima do 2024. godine iconnect007.com. Cilj je omogućiti developerima implementaciju chatbota i generativnih AI aplikacija na telefonima, VR naočalama, računalima itd., bez oblaka. Ovo je bila značajna potvrda AI-a na uređaju od strane velikog vlasnika AI modela (Meta) i velikog proizvođača čipova. Krajem 2024. nastavili su s planovima za optimizaciju Llama 3 također qualcomm.com.
- Microsoft Windows 11 “Copilot” računala (2024.): Microsoft je postavio standard nazivajući računala s >40 TOPS lokalne AI akceleracije “AI računalima” koja su pogodna za napredne AI značajke (poput integracije digitalnog asistenta Copilot). To je potaknulo OEM-ove – Lenovo, Dell itd. – da usvoje čipove s NPU-ima (bilo Intel, AMD ili Qualcomm) kako bi zadovoljili specifikacije. Rezultat je očekivani val AI sposobnih prijenosnika u 2024., a Microsoft tvrdi da je na putu desetine modela i predviđa više od 40 milijuna isporuka AI računala u 2024. pcworld.com.
- AMD-ov kratki Ryzen 8000 NPU (sij 2024): AMD je najavio desktop procesor s nevjerojatnih 39 TOPS NPU (iznenađenje jer desktop čipovi obično nemaju takve akceleratore) pcworld.com. Iako je taj proizvod brzo zamijenjen novijim, pokazao je da čak i desktop procesori mogu imati AI silicij koji po TOPS-u parira mobilnim čipovima. Ovo je također bio prvi desktop x86 procesor s NPU-om (samo je za dlaku pretekao Intel Arrow Lake).
- Tesla FSD Beta v12 (kraj 2023) demonstracije: Elon Musk je prikazao end-to-end AI vožnju (bez radara, samo vizijske mreže) koja radi na Tesla HW3/HW4 NPU-ima. Posebno je bilo to što je neuronska mreža upravljala automobilom koristeći video signale obrađene u stvarnom vremenu na računalu automobila. Promatrači su primijetili da FSD v12 u potpunosti koristi 2× 100 TOPS NPU-a za viziju, a Tesla je nagovijestila da su u razvoju buduće nadogradnje (HW5) koje ciljaju na 2000 TOPS kako bi podržale još veće modele (postojale su glasine da bi Tesla HW5 mogao ciljati na 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor otkriven (2024 GTC): NVIDIA je otkrila detalje svog sljedećeg automobilski čipa, Drive Thor, koji ima ekvivalent 2× AI računske snage svog prethodnika Orina – do 2000 TOPS kada su dva čipa povezana ts2.tech. Značajno je da je Thor namijenjen ne samo za zadatke vožnje, već i za AI unutar kabine (poput glasovnih i nadzora putnika) na jednoj platformi, što pokazuje kako NPU-i i GPU-i zajedno mogu objediniti mnoge AI funkcije u automobilima ts2.tech. Nekoliko proizvođača automobila (Xpeng, BYD, Volvo) najavilo je da će koristiti Thor od 2025. godine ts2.tech.
- Oppo-ov on-device MoE AI (list 2024): Kao što je spomenuto, Oppo je implementirao Mixture-of-Experts model na Find X8 telefonu grandviewresearch.com. Ovo je vijest jer su MoE modeli obično veliki i smatrani su server-side zbog svoje složenosti. Pokretanje MoE modela na uređaju sugerira nove tehnike kompresije modela i vrlo sposoban NPU (vjerojatno MediaTek Dimensity 9400 u tom uređaju).
- Meta Ray-Ban AI naočale (2025): (Očekuje se) Meta je predstavila prototipove pametnih naočala koje mogu prepoznati što vidite i govoriti vam o tome – vjerojatno koristeći ugrađeni prilagođeni akcelerator (Meta razvija vlastiti čip za AR). Iako su detalji oskudni, to naglašava nastojanje da se AI ugradi u vrlo ograničene uređaje (naočale, bežične slušalice) što zahtijeva ultra-učinkovite NPU-ove.
- MLPerf Mobile Inference Benchmarks (2023–24): MLCommons je objavio rezultate koji pokazuju AI sposobnosti najnovijih pametnih telefona. Na primjer, u MLPerf Inference v3.0 (listopad 2023.), Appleov A16, Google Tensor G2 i Qualcomm Gen 2 testirani su na zadacima poput klasifikacije slika i detekcije objekata. Rezultati su pokazali da se Apple i Qualcomm izmjenjuju u pobjedama, ali općenito da mobilni NPU-ovi smanjuju razliku u odnosu na neke akceleratore razine prijenosnih/desktop računala za te zadatke – i to sve na bateriji. Također su istaknute softverske razlike (npr. Qualcommov AI SDK naspram Apple Core ML). kontinuirana poboljšanja svake godine (dvoznamenkasti postotni rast) u ovim testiranjima pokazuju zdravu konkurenciju i brz napredak AI-a na uređajima.
- Strateška partnerstva: Mnoge su međusektorske suradnje sklopljene. Npr., NVIDIA i MediaTek (svibanj 2023.) najavili su suradnju kako bi Nvidia GPU IP i softverski ekosustav ugradili u buduće MediaTek pametne telefone i čipove za automobile, čime se spajaju Nvidijine AI prednosti s MediaTekovim iskustvom u mobilnim SoC-ovima. Također, tvrtke poput Qualcomma surađuju s proizvođačima automobila (Mercedes, BMW) kako bi Snapdragon Cockpit i Ride platforme (s NPU-ovima) ugradili u nova vozila za AI funkcije. Arm surađuje s Fujitsuom i drugima na novim AI dizajnima čipova (poput AI particije superračunala Fugaku, iako je to vrh ponude). Čak su i IBM i Samsung najavili nove čip tehnologije (poput neuromorfnog računarstva i AI memorije) koje bi jednog dana mogle revolucionirati NPU-ove – još nisu tu, ali pokazuju da su istraživački projekti puni.
Sve u svemu, protekla godina bila je prepuna razvoja, naglašavajući da je AI na uređajima jedno od najuzbudljivijih područja tehnologije. Kako je jedan industrijski analitičar primijetio, “ove mogućnosti na uređaju otvaraju potpuno nove horizonte… pokretanje LLM-ova na mobitelima pomaže u rješavanju skalabilnosti i troškova, čuva privatnost podataka i osigurava rad AI-a čak i uz ograničenu povezanost” futurumgroup.com. To prilično dobro sažima zašto svaka velika tehnološka tvrtka ulaže u ovo područje.
Stručni uvidi: Što tehnološki lideri kažu o AI-u na uređajima
Zamah iza NPU-ova i TPU-ova nije vidljiv samo u proizvodima, već i u riječima lidera industrije. Evo nekoliko odabranih citata i perspektiva koji osvjetljavaju značaj AI-a na uređajima:
- Cristiano Amon (CEO Qualcomma): “Ako će se AI proširiti, vidjet ćete ga kako radi na uređajima… Ovo označava prekretnicu u AI-u: nema problema s latencijom — samo besprijekorna, sigurna, na uređaju izvedena inferencija koja nadopunjuje oblak. Budućnost AI-a je osobna i počinje na vašem uređaju.” (Bloomberg intervju i X objava, 2023) x.com. Amon zamišlja hibridni AI svijet u kojem vaš telefon/računalo samostalno obrađuje mnogo toga na vlastitim NPU-ima, surađujući s oblakom kada je potrebno. Naglašava da je lokalno pokretanje AI-a ključno za njegovu sveprisutnost (ne može se sve oslanjati na GPU-ove u oblaku – nema ih dovoljno u svijetu za milijarde uređaja).
- Durga Malladi (SVP, Qualcomm): “Pozdravljamo Metin pristup otvorenom i odgovornom AI-u… Da bi se generativni AI učinkovito proširio u mainstream, AI će morati raditi i u oblaku i na uređajima na rubu.” iconnect007.com Malladi je to rekao u kontekstu partnerstva s Metom. To ističe zajedničko mišljenje: širenje AI-a = oblak + rub koji rade zajedno. Sada postoji razumijevanje da isključivo AI u oblaku neće biti dovoljan (zbog troškova, privatnosti i latencije), pa AI na rubu mora preuzeti dio tereta.
- Will Chen (zamjenik generalnog direktora, MediaTek): “Budućnost AI-a nadilazi oblak; pokreće ga edge computing izravno iz vaše ruke… OPPO i MediaTek predvode AI na uređaju, osiguravajući da su inteligentne mogućnosti snažne, brze, privatne, sigurne i stalno dostupne.” (MediaTek Exec Talk, 2025) mediatek.com. Ovaj citat sažima vrijednost AI-a na uređaju – dobivate performanse i dostupnost plus privatnost i sigurnost. Također pokazuje da čak i tvrtke koje su tradicionalno manje vidljive na Zapadu (poput MediaTeka) razmišljaju na samom vrhu razvoja AI implementacije.
- Dr. Norman Wang (stručnjak za AI hardver, CEO startupa za čipove): “U AI hardveru, što bliže možete staviti izračun izvoru podataka, to bolje. Radi se o smanjenju premještanja podataka. NPU pored vašeg slikovnog senzora znači da ne šaljete megapiksele u oblak – izvlačite uvide odmah na rubu. To je prekretnica za latenciju i potrošnju energije.” (Panel na HotChips 2024 – parafrazirano). Ovaj tehnički uvid objašnjava zašto NPU-i često sjede na istom siliciju kao i drugi dijelovi: npr., na SoC-u telefona, NPU može izravno dohvatiti podatke s kamere iz ISP-a. Minimiziranje premještanja podataka ogroman je dio učinkovite AI, a edge AI to postiže obradom na izvoru podataka.
- Xinzhou Wu (VP za automobilsku industriju, NVIDIA): “Ubrzano računalstvo dovelo je do transformativnih proboja, uključujući generativnu umjetnu inteligenciju, koja redefinira autonomiju i industriju prijevoza.” (GTC 2024 Keynote) ts2.tech. Govorio je o tome kako snažna računala u vozilima (s NPU/GPU jedinicama) omogućuju automobilima ne samo vožnju, već i potencijalno uključivanje napredne umjetne inteligencije poput generativnih modela za stvari poput sučelja prirodnog jezika u automobilu ili boljeg razumijevanja situacija. To naglašava da čak i sektori poput automobilske industrije vide AI na uređaju ne samo kao temeljnu funkcionalnost, već i za poboljšanje korisničkog iskustva (npr. glasovni asistenti u automobilima koji mogu voditi razgovore zahvaljujući ugrađenim LLM-ovima).
- Sundar Pichai (CEO Googlea): “Budućnost umjetne inteligencije je u tome da bude korisna za sve. To znači dovesti AI u sve uređaje koje koristimo – telefone, kućanske aparate, automobile – tako da je tu kad vam zatreba. Želimo doći do korisnika tamo gdje jesu, s AI koja radi u stvarnom vremenu, na licu mjesta i čuva privatnost.” (Parafrazirano iz više intervjua/izlaganja). Pichai često govori o “ambijentalnoj AI” – ideji da će AI biti svuda oko nas, ugrađena u stvari. Googleov razvoj Tensor čipova u Pixelima izravna je realizacija te filozofije.
- Industrijske statistike: Analitičari su primijetili taj trend u brojkama. Izvješće Grand View Researcha iz 2024. navodi: “Nedavni napredak u specijaliziranim AI čipovima i NPU-ima omogućio je izvođenje složenih AI algoritama izravno na uređajima, značajno poboljšavajući performanse i energetsku učinkovitost… približavamo se ključnoj tranziciji prema AI-u na uređaju.” grandviewresearch.com. Isto izvješće predviđa da će tržište AI-a na uređaju eksplodirati u nadolazećim godinama, pri čemu hardverski segment (NPU-i itd.) čini više od 60% udjela prihoda u 2024. i raste kako gotovo svaki novi IoT ili mobilni uređaj usvaja AI mogućnosti grandviewresearch.com. Druga prognoza IDC-a i drugih sugerira da će sredinom 2020-ih gotovo svi vrhunski pametni telefoni i većina srednjeg ranga imati AI akceleratore, te da će do 2030. godine milijarde edge AI čipova biti u upotrebi, od potrošačke elektronike do pametne infrastrukture.
Konsenzus među stručnjacima je da AI na uređaju nije samo poželjna – ona je ključna za sljedeći val tehnologije. Pionir AI-a Andrew Ng često je spominjao da će “mali AI” i edge AI omogućiti inteligenciji da prodre u svaki objekt, slično kao što su to učinili električna energija ili internet u ranijim razdobljima. Prevladavanjem ograničenja isključivo cloud AI-a, NPU-i i TPU-i omogućuju to prodiranje.
Izazov brojnih standarda (i napori za pojednostavljenje)
Iako je hardver brzo napredovao, ekosustav softvera i standarda za AI na uređaju još uvijek sustiže. Programeri se suočavaju s džunglom alata i SDK-ova kada pokušavaju iskoristiti NPU-ove na različitim uređajima nimbleedge.com. Ključne točke:
- Svaka platforma ima svoj API ili SDK: Apple ima Core ML (s API-jevima za Neural Engine), Android ima Neural Networks API (NNAPI) (iako je Google najavio planove za njegovu nadogradnju nakon Androida 14) threads.com, Qualcomm nudi SNPE (Snapdragon Neural Processing Engine) ili šire Qualcomm AI Stack, NVIDIA ima TensorRT i CUDA za svoje uređaje, i tako dalje. Tu su i ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI i drugi. Ovi različiti SDK-ovi često imaju različite mogućnosti i zahtijevaju prilagodbu modela za optimalan rad na svakom ciljanom uređaju. Kako je navedeno u izvješću o AI na uređaju za 2025., “Višestruki, nekompatibilni SDK-ovi (npr. Core ML, LiteRT, ONNX Runtime) s različitom podrškom za operatore i performansama” prisiljavaju programere na dodatni rad nimbleedge.com.
- Problemi fragmentacije: Model koji savršeno radi na desktop GPU-u možda neće odmah raditi na NPU-u telefona – operatori (matematičke funkcije) možda nisu podržani ili ih treba drugačije kvantizirati. Programeri ponekad moraju održavati zasebne verzije ili ručno optimizirati modele za svaki hardver. Ovo je “niskorazinski, fragmentirani ekosustav” prigovor nimbleedge.com. Alati za otklanjanje grešaka također su rijetki – profiliranje NPU-a kako bi se vidjelo zašto je model spor može biti teško, posebno u usporedbi s bogatim alatima za CPU/GPU nimbleedge.com.
- Napori za standardizaciju: Kako bi se to riješilo, događa se nekoliko stvari. ONNX (Open Neural Network Exchange) pojavio se kao zajednički format tako da možete trenirati model u PyTorchu ili TensorFlowu, a zatim ga izvesti u ONNX za implementaciju. Mnogi runtime-ovi (uključujući one na uređaju poput Qualcommovih i MediaTekovih) podržavaju unos ONNX modela i pokušat će ih kompajlirati za hardver. Ovo pomaže izbjeći vezanost za jedan okvir. Android NNAPI bio je pokušaj Googlea da pruži univerzalno sučelje – aplikacija može zatražiti “pokreni ovu neuronsku mrežu” putem NNAPI-ja i OS će koristiti bilo koji akcelerator koji je prisutan (GPU, DSP ili NPU) za izvršavanje. NNAPI je prihvaćen na mnogim Android uređajima, ali imao je ograničenja i nisu svi proizvođači pružili robusne drivere, što je dovelo do toga da je Google najavio novu strategiju (vjerojatno oslanjanje na WebNN ili izravne integracije s proizvođačima) nakon 2024. godine threads.com. Na PC-ima, Microsoft je predstavio DirectML i Windows ML API-je kako bi na sličan način apstrahirao hardverske razlike (omogućujući developeru korištenje istog API-ja za NVIDIA, Intel, AMD NPU-ove).
- Ujedinjeni alati: Tvrtke također razvijaju alate za pojednostavljenje implementacije. Vidjeli smo Qualcommov AI Stack koji kombinira njihov kompajler (AI Model Efficiency Toolkit) i runtime-ove kako bi developeri lakše ciljali njihov Hexagon NPU iconnect007.com. NVIDIA-in TensorRT i povezani SDK-ovi rade slično za Jetson uređaje, optimizirajući modele za GPU+NVDLA. Intel OpenVINO je još jedan primjer – omogućuje vam da uzmete model i optimizirate ga za Intel CPU-e, iGPU-e i VPU-e (NPU-ove) za edge implementacije. Ovi okviri često uključuju optimizatore modela koji konvertiraju modele (pruning, kvantizacija) kako bi stali na manje uređaje.
- Interoperabilnost: Postoji pomak prema tome da različiti NPU-ovi rade s zajedničkim okvirima. Na primjer, Googleov TensorFlow Lite ima hardverske delegate – jedan za NNAPI (pokriva Android uređaje općenito), jedan za Core ML (iOS uređaji), jedan za Edge TPU itd. Ideja je da napišete svoj TFLite model i on će se izvršiti koristeći najbolji dostupni akcelerator putem delegata. Slično, PyTorch dodaje podršku za mobilne backende i čak stvari poput Appleovih Metal Performance Shaders (za korištenje GPU/NPU na iOS-u). ONNX Runtime također može ciljati različite akceleratore putem plugina (npr. može se priključiti NVIDIA-in TensorRT ili ARM-ovu Compute Library ili druge u pozadini).
- Nadolazeći standardi: Khronos Group (iza OpenGL/Vulkan) radio je na NNEF (Neural Network Exchange Format) i postoji WebNN API o kojem se raspravlja za pristup lokalnom AI akceleriranju u preglednicima. Nijedan još nije univerzalno prihvaćen. Ali jedan zanimljiv razvoj: krajem 2024. nekoliko tvrtki osnovalo je savez za promicanje “AI Hardware Common Layer” standarda – u osnovi, istražujući može li se napraviti zajedničko niskorazinsko sučelje za NPU-ove (analogno onome što je OpenCL napravio za izračune na GPU-ima). Ipak, još je rano.
- Iskustvo developera: To je priznati nedostatak. Kao što je NimbleEdgeov blog rekao, “razvoj za AI na uređaju trenutno zahtijeva snalaženje u fragmentiranom i niskorazinskom ekosustavu… prisiljavajući developere da prilagođavaju implementacije za svaki hardverski cilj” nimbleedge.com. Industrija zna da se to mora poboljšati kako bi AI na uređaju zaista postao mainstream. Možda ćemo vidjeti konsolidaciju – na primjer, ako bi se Google, Apple i Qualcomm mogli dogovoriti oko nekog osnovnog skupa operacija i API-ja (možda pusta želja). Ili, vjerojatnije, okviri poput PyTorcha i TensorFlowa sakrit će složenost integriranjem svih tih vendorskih biblioteka i odabirom prave u vrijeme izvođenja.
U suštini, dok NPU-i/TPU-i daju snagu, zajednica radi na alatima prilagođenim mozgu za korištenje te snage. Dobra vijest je da u usporedbi s, recimo, prije pet godina, postoji mnogo više opcija za implementaciju modela na uređaju bez da ste stručnjak za čipove. Ali ima prostora za napredak – posebno u debugiranju, profiliranju i podršci za više hardvera.
Tržišni trendovi i buduće perspektive
Širenje NPU-a i TPU-a u uređajima pokreće veći trend: AI posvuda. Evo nekoliko općih trendova i što očekivati u budućnosti:
- Rast tržišta Edge AI-a: Istraživanja tržišta ukazuju na eksplozivan rast hardvera za edge AI. Tržište AI-a na uređaju (uključujući čipove i softver) predviđa se da će rasti po stopi od ~29% CAGR kroz ovo desetljeće nimbleedge.com. Jedno izvješće procjenjuje ga na ~$233 milijarde u 2024., a do 2032. na više od $1,7 bilijuna nimbleedge.com – velik dio tog rasta temelji se na edge implementacijama. Druga analiza IDTechEx-a predviđa da će tržište AI čipova za edge uređaje dosegnuti $22 milijarde do 2034., pri čemu su potrošačka elektronika, automobilska industrija i industrijski sektor najveći segmenti idtechex.com. To implicira stotine milijuna uređaja godišnje koji se isporučuju s NPU-ima kao standardnom komponentom.
- Sveprisutno usvajanje: Baš kao što svaki pametni telefon danas ima GPU (čak i ako je mali), dolazimo do točke kada će svaki novi pametni telefon imati AI akcelerator. Vrhunski telefoni ih već imaju; srednja klasa je sljedeća. Zapravo, čipovi srednje klase od Qualcomma (npr. Snapdragon 7 serija) i MediaTeka (Dimensity 700/800 serija) sada uključuju umanjene NPU-ove kako bi značajke poput AI poboljšanja kamere i glasovnog asistenta radile i na jeftinijim uređajima. Osim telefona, NPU-ovi se šire na računala (standard u novim Windows prijenosnicima kod više proizvođača), automobile (gotovo svi novi automobili s ADAS razinom 2+ imaju neku vrstu AI čipa) i IoT. Čak i uređaji poput hladnjaka i perilica rublja počinju isticati “AI” značajke (neke su temeljene na oblaku, ali neke lokalne poput adaptivnih ciklusa temeljenih na senzorima). Trend je jasan: ako uređaj ima računalni čip, imat će neku ML akceleraciju na tom čipu.
- Putanja performansi: AI performanse na uređaju udvostručuju se otprilike svakih 1–2 godine (kombinacija bolje arhitekture i prelaska na napredne poluvodičke procese poput 5nm, 4nm, 3nm). Appleov Neural Engine je s 600 milijardi operacija/sekundi 2017. narastao na 35 bilijuna 2023. – gotovo 60× povećanje u šest godina apple.fandom.com. Qualcommovi flagship čipovi slično su skočili s nekoliko TOPS 2018. na preko 27 TOPS 2023. (SD 8 Gen 3 ukupna AI snaga, računajući sve jezgre). Možemo očekivati da će do 2025.–2026. mobilni NPU-ovi isporučivati 100+ TOPS, a PC akceleratori još više, a te brojke možda će postati manje relevantne kako se fokus pomiče na upotrebljive performanse na specifičnim AI zadacima (na primjer, koliki LLM možete glatko pokrenuti ili možete li raditi 4K AI video u stvarnom vremenu). Jaz između oblaka i ruba vjerojatno će se smanjiti za inferencijske zadatke. Ipak, rub će i dalje zaostajati za oblakom kod najnaprednijih velikih modela zbog ograničenja snage i memorije.
- Dobici u energetskoj učinkovitosti: Jedan podcijenjeni aspekt je koliko su ovi NPU-ovi postali učinkoviti. Teslin automobilski NPU postiže ~4,9 TOPS/Watt fuse.wikichip.org što je bilo vrhunski prije par godina; sada neki mobilni NPU-ovi tvrde slične ili bolje rezultate. Učinkoviti NPU-ovi znače duže trajanje baterije čak i dok više koristimo AI značajke. Također znači da je postalo izvedivo staviti AI u male uređaje na baterije (npr. AI slušna pomagala, pametni senzori na gumb-baterijama koji rade detekciju anomalija). Koncept TinyML – izuzetno mala strojna inteligencija na mikrokontrolerima – nastavak je toga, koristeći pojednostavljene “NPU-ove” ili optimizirane instrukcije na mikrokontrolerima za AI u senzorima. ARM-ov Ethos-U NPU cilja taj segment (npr. stalno uključen prepoznavanje ključnih riječi na nekoliko miliwata). Očekujte više AI-specifičnih malih čipova koji se mogu ugraditi u senzore, nosive uređaje i svakodnevne predmete (Pametna četkica za zube? AI detektor dima? Dolazi uskoro).
- Hibridna Cloud-Edge rješenja: Umjesto da edge potpuno zamijeni cloud, budućnost je u suradnji. Uređaji će lokalno raditi ono što mogu, a za ono što ne mogu, obratit će se cloudu. Na primjer, vaše AR naočale mogu lokalno prepoznavati scenu kako bi znale što gledate, ali ako postavite vrlo složeno pitanje (poput detaljnog objašnjenja), mogu upitati cloud AI za snažniju analizu i zatim je prikazati. Ovaj hibridni pristup daje najbolju ravnotežu između brzine odziva i mogućnosti. Tvrtke aktivno dizajniraju iskustva oko toga: Microsoftov Copilot na Windowsu može koristiti lokalni NPU za brzo prepoznavanje govora i analizu naredbi, ali zatim koristiti cloud za zahtjevnije zadatke (osim ako možda nemate snažan PC NPU koji to može samostalno obraditi). Korisnik idealno ne bi trebao znati niti ga zanimati što se koristi, osim što je sve brže i više poštuje privatnost. Također ćemo vidjeti da federativno učenje postaje sve češće – modeli se treniraju u cloudu, ali uz pomoć podataka šifriranih ili obrađenih na uređajima, i obrnuto.
- Nove primjene: Kako NPUs postaju snažniji, otvaraju se nove aplikacije. Generativni AI na uređaju je velika stvar – zamislite stvaranje AI slika, AI uređivanje videa i osobne chatbotove, sve na vašem telefonu ili laptopu. Do 2025. mogli bismo vidjeti rane verzije offline osobnih asistenata koji mogu sažeti vaše e-mailove ili napisati poruke bez clouda. Prijevod jezika u stvarnom vremenu u razgovoru (dvoje ljudi govori različite jezike, a telefoni ili slušalice prevode gotovo u stvarnom vremenu) bit će znatno poboljšan obradom na uređaju (bez kašnjenja i radi bilo gdje). Zdravstveni AI mogao bi biti na nosivim uređajima – vaš pametni sat detektira atrijsku fibrilaciju ili analizira obrasce apneje u snu koristeći svoj NPU. Sigurnost: uređaji bi mogli lokalno pokretati AI za otkrivanje zlonamjernog softvera ili phishinga u stvarnom vremenu (npr. antivirus koristi AI model na vašem uređaju umjesto cloud skeniranja). A u vozilima, osim vožnje, AI bi mogao personalizirati iskustvo u vozilu (podešavanje klime prema vašem raspoloženju koje prepoznaje AI kamera usmjerena na vozača, itd.). Mnoge od ovih primjena zahtijevaju brzu iteraciju i privatnost, što odgovara obradi na uređaju.
- Konkurencija i demokratizacija: Veliki igrači će nastaviti konkurirati, što je dobro za potrošače – očekujte marketing tipa “naš AI čip radi X TOPS ili omogućuje Y funkciju koju drugi ne mogu.” No, tehnologija se također demokratizira – NPU-ovi nisu samo u telefonima od 1000 dolara; dolaze u telefone od 300 dolara, IoT ploče od 50 dolara (Coral, Arduino Portenta, itd.), a open-source zajednice stvaraju male AI modele koje hobisti mogu pokretati na Raspberry Pi-ju ili mikrokontroleru s osnovnim akceleratorom. Ova široka dostupnost znači da inovacije mogu doći od bilo kuda. Samostalni programer sada može napraviti aplikaciju koja koristi AI na uređaju za nešto pametno bez potrebe za server farmom – spuštajući prag za ulazak u AI softver.
- Tehnologija budućnosti: Gledajući još dalje, istraživanja u području neuromorfnih računala (čipovi inspirirani mozgom poput Intel Loihi) i analognih AI čipova mogli bi jednog dana revolucionirati NPU-ove, nudeći višestruko veću učinkovitost. Tvrtke poput IBM-a i BrainChipa rade na ovome. Ako uspiju, neuromorfni čip mogao bi omogućiti da složena umjetna inteligencija stalno radi na malim uređajima na baterije. Također bismo mogli vidjeti 3D slaganje i novu memorijsku tehnologiju integriranu u NPU-ove kako bi se prevladala uska grla memorije (neki čipovi nakon 2025. mogli bi koristiti HBM memoriju ili novu ne-volatile memoriju na čipu za brže opskrbljivanje AI jezgri). Također, očekujte više specijalizacije unutar AI čipova: npr. zasebni akceleratori za viziju, za govor, za modele preporuka itd., svaki prilagođen svom području. Neki SoC-ovi već imaju dvostruke NPU-ove (jedan “veliki” NPU za zahtjevne zadatke, jedan mikro NPU u senzorskom čvorištu za stalno aktivne lagane zadatke).
Zaključno, smjer je jasan: NPU-ovi i TPU-ovi postaju standardni i neizostavni poput CPU-ova u modernom računalstvu. Omogućuju uređajima da budu pametniji, brži i obazriviji prema našoj privatnosti. Kao što je jedan izvještaj naveo, “procesorske jedinice visokih performansi na uređajima uvelike su zaslužne za izvršavanje složenih AI funkcija poput prepoznavanja slika, NLP-a i donošenja odluka u stvarnom vremenu”, a to potiče razvoj inteligentnije i responzivnije tehnologije u svim sektorima grandviewresearch.com.
Ulazimo u eru u kojoj ćete jednostavno očekivati da vaš uređaj razumije i predviđa vaše potrebe – vaš telefon uređuje fotografije i piše poruke u vašem stilu, vaš automobil izbjegava nesreće i zabavlja vas uz pomoć AI-a, vaši kućni uređaji uče vaše navike – a sve to omogućuju tihi neuronski procesori u njima. AI na uređaju nije znanstvena fantastika; već je ovdje i brzo napreduje. Spoj NPU-ova i TPU-ova s našim svakodnevnim uređajima čini AI osobnim, sveprisutnim i privatnim – doista donoseći snagu inteligencije iz oblaka na zemlju (ili barem, u vaš džep).
Izvori:
- Bigelow, Stephen. “GPU-ovi vs. TPU-ovi vs. NPU-ovi: Usporedba AI hardverskih opcija.” TechTarget, 27. kolovoza 2024. techtarget.com. Opisuje uloge i razlike CPU-ova, GPU-ova, TPU-ova i NPU-ova u AI radnim opterećenjima.
- Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023. backblaze.com. Objašnjenje Googleovog TPU dizajna (sistolički nizovi, niska preciznost) i korištenja NPU-ova u mobilnim uređajima.
- TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. Napominje da su TPU-ovi specijalizirani za zadatke matrične matematike, a NPU-ovi oponašaju neuronske mreže mozga za ubrzanje techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). “The State of On-Device AI: What’s Missing in Today’s Landscape.” 26. lipnja 2025. nimbleedge.com. Navodi prednosti AI-a na uređaju (latencija, offline rad, privatnost, trošak) i izazove poput fragmentiranih SDK-ova.
- Qualcomm (OnQ Blog). “Bloomberg and Cristiano Amon talk on-device AI.” srpanj 2023. x.com. Izvršni direktor Qualcomma o važnosti inferencije na uređaju za budućnost AI-a (citat iz tweeta o prekretnici u AI-u).
- MediaTek Blog (Exec Talk by Will Chen). “Shaping the future of AI mobile experiences.” 3. ožujka 2025. mediatek.com. Suradnja MediaTeka i Oppo-a na NPU-ovima; citat o edge računalstvu u vašoj ruci i primjer AI remasteriranja fotografija pomoću NPU-a.
- I-Connect007 / Qualcomm Press. “Qualcomm works with Meta to enable on-device AI (Llama 2).” 24. srpnja 2023. iconnect007.com. Priopćenje za medije s citatom Qualcomm SVP-a Durge Malladija o skaliranju generativnog AI-a putem edge uređaja i oblaka.
- PCWorld (Mark Hachman). “Intel’s Core Ultra CPUs keep AI simple….” 24. listopada 2024. pcworld.com. Raspravlja o tome kako Intel Arrow Lake koristi Meteor Lakeov NPU (13 TOPS) i navodi AMD-ov Ryzen 8000 39 TOPS NPU te Microsoftov zahtjev za 40 TOPS “Copilot”.
- Ts2 (Tehnološko osnaživanje). “Obračun superračunala za autonomnu vožnju: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” ruj. 2023 ts2.tech. Navodi procjene TOPS: Tesla HW3 vs HW4 (72→100 TOPS po čipu) ts2.tech, NVIDIA Thor ~1000 TOPS (ili 2000 s dvostrukim) ts2.tech i citira potpredsjednika NVIDIA-e o generativnoj AI u vozilima ts2.tech.
- Grand View Research. “Izvješće o tržištu AI na uređajima, 2030.” 2024 grandviewresearch.com. Navodi porast specijaliziranih AI čipova (NPU-ova) koji omogućuju složenu AI na uređajima, te da je hardver činio 60,4% tržišta AI na uređajima u 2024., potaknut pametnim telefonima, IoT-om, NPU-ovima itd.
- Google Blog. “Google Tensor G3: AI-prvi procesor za Pixel 8.” lis. 2023 blog.google. Opisuje nadogradnje Tensor G3 za generativnu AI na uređaju, novi dizajn TPU-a i TTS model na uređaju jednak kvaliteti podatkovnog centra.
- Techspot. “Snapdragon 8 Gen 3 donosi generativnu AI na pametne telefone.” lis. 2023 futurumgroup.com. Analiza Futurum Group detaljno opisuje AI engine SD8Gen3: 10B param LLM na uređaju, 98% brži NPU, najbrži Stable Diffusion na telefonu na svijetu itd., kao i prednosti LLM-ova na uređaju za trošak/privatnost/rad izvan mreže futurumgroup.com.
- Apple Wiki (Fandom). “Neural Engine.” Ažurirano 2025. apple.fandom.com. Povijest verzija Neural Enginea s A17 Pro 35 TOPS u 2023., itd. Prikazuje razvoj od 0,6 TOPS (A11) do 35 TOPS (A17) apple.fandom.com i M4 na 38 TOPS apple.fandom.com.
- EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023. engeniustech.com. Primjer sigurnosne kamere s ugrađenim NPU-om koji omogućuje AI obradu na kameri i lokalno pohranjivanje (nije potreban NVR).
- EmbedL. “Amazon objavljuje AZ1 Neural Edge Processor.” Listopad 2020. embedl.com. Raspravlja o Amazonovom AZ1 edge NPU-u za Echo uređaje, izrađenom s MediaTekom, dizajniranom za inferenciju govora na uređaju radi smanjenja latencije i ovisnosti o oblaku embedl.com.