NPU-ovi vs. TPU-ovi: Kako on-device veštačka inteligencija ubrzava vaše uređaje u 2025.

септембар 30, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple je započeo AI na uređaju 2017. sa Neural Engine čipom na iPhone A11, omogućivši Face ID i Animoji pri brzini do 600 milijardi operacija u sekundi.
  • Godine 2023, 16-jezgarni Neural Engine na iPhone A17 Pro isporučio je oko 35 TOPS, pokrećući funkcije govora, fotografije i prevođenja na samom uređaju.
  • Google Pixel 8 (2023) koristi Tensor G3 NPU za pokretanje AI modela na uređaju kao što je Palm 2 za offline prevođenje i sažimanje.
  • Google Edge TPU na Coral Dev Board-u isporučuje 4 TOPS za obradu slike pri nekoliko vati potrošnje.
  • Tesla Full Self-Driving hardver ima dva NPU-a: HW3 (2019) je nudio oko 144 TOPS, a HW4 (2023) oko 200–250 TOPS.
  • NVIDIA Drive Thor (predstavljen 2024) može dostići do 2000 TOPS kada su dva čipa povezana za AI zadatke u automobilima.
  • Qualcomm Snapdragon 8 Gen 3 (2023) Hexagon NPU je 98% brži od Gen 2, može pokretati LLM-ove do 10 milijardi parametara na uređaju i postigao je najbrži mobilni Stable Diffusion na demonstracijama.
  • MediaTek Dimensity 9400 (2024) sa šeste generacije APU pokreće Oppo Find X8 AI remastering fotografija, što ukazuje na širenje NPU-a na TV, IoT i automobile do 2025.
  • Intel Meteor Lake, 14. generacija Core (lansirana 2023; rebrendirana kao Core Ultra 2024), uključuje integrisani NPU sa oko 8–12 TOPS, dok Arrow Lake ima ~13 TOPS, a za Lunar Lake se pretpostavlja oko 45 TOPS.
  • AMD Ryzen 7040 Phoenix (2023) je predstavio Ryzen AI Engine sa do 10 TOPS, dok je Ryzen 8000 desktop (početak 2024) nudio 39 TOPS pre nego što je AMD pauzirao NPU-ove u toj generaciji.

Ukratko: Vaš pametni telefon, kamera, pa čak i automobil dobijaju ugrađene AI mozgove – bez potrebe za cloud-om. Specijalni čipovi zvani NPU (Neural Processing Units) i TPU (Tensor Processing Units) pretvaraju svakodnevne uređaje u inteligentne asistente sposobne za prepoznavanje lica, glasovne komande, prevod u realnom vremenu, autonomne funkcije vožnje i još mnogo toga. Ova AI revolucija na uređaju obećava munjevito brze odgovore, bolju privatnost i nove mogućnosti za koje smo nekada mislili da su moguće samo na superračunarima. U ovom izveštaju ćemo razjasniti šta su NPU i TPU, videti po čemu se razlikuju od CPU/GPU, i istražiti zašto tehnološki giganti poput Apple-a, Google-a, Qualcomm-a i Intel-a žure da ove “AI mozgove” ugrade u sve – od telefona do automobila. Takođe ćemo istaći najnovija dostignuća za 2024–2025, stručne uvide, industrijske standarde i šta budućnost donosi za AI na uređaju.

Šta su NPU i TPU? (Upoznajte AI mozak vašeg uređaja)

Neural Processing Units (NPU-ovi) su specijalizovani procesori dizajnirani da ubrzaju veštačke neuronske mreže – algoritme koji pokreću savremene AI zadatke kao što su prepoznavanje slika, obrada govora i još mnogo toga. Za razliku od procesora opšte namene (CPU), NPU-ovi su application-specific integrated circuits (ASICs) podešeni za matričnu matematiku i teške paralelne radne zadatke neuronskih mreža [1]. NPU „imitira neuronske mreže ljudskog mozga kako bi ubrzao AI zadatke“, u suštini delujući kao silicon brain unutar vašeg uređaja [2]. NPU-ovi su izuzetni u izvršavanju inferencije (pravljenju predviđanja) za AI modele efikasno na samom uređaju, često koristeći nižu numeričku preciznost (npr. 8-bitni celobrojni brojevi) kako bi uštedeli energiju, a i dalje pružali visok učinak [3]. Termin „NPU“ se ponekad koristi u širem smislu za bilo koji AI akcelerator, ali se češće odnosi na one u mobilnim i edge uređajima [4]. Na primer, Apple-ov „Neural Engine“ u iPhone-ima i Samsung-ov mobilni AI engine su NPU-ovi integrisani u njihove system-on-chip (SoC) dizajne.

Tensor Processing Units (TPUs), s druge strane, je razvio Google kao prilagođene čipove za ubrzavanje mašinskog učenja, posebno za TensorFlow okvir. TPU je vrsta ASIC-a optimizovana za tenzorske operacije (množenje matrica, itd.) koje su u srži treniranja i inferencije neuronskih mreža [5]. Google je prvi put implementirao TPU-ove u svojim data centrima 2015. godine kako bi ubrzao proračune neuronskih mreža, a kasnije ih je učinio dostupnim putem Google Cloud-a [6]. TPU-ovi koriste posebnu arhitekturu zvanu sistolni niz, koja povezuje mnogo malih procesorskih jedinica u mrežu koja pumpa podatke kroz lanac jedinica za množenje matrica [7]. Ovaj dizajn postiže izuzetno visok protok podataka kod zadataka dubokog učenja. Google-ovi TPU-ovi namerno žrtvuju deo preciznosti (koristeći 8-bitnu ili 16-bitnu matematiku umesto 32-bitnih float-ova) radi ogromnog povećanja brzine i efikasnosti [8], jer mnogi AI zadaci ne zahtevaju visoku preciznost za tačne rezultate. Iako se “TPU” tehnički odnosi na Google-ove čipove, termin se ponekad koristi i šire za bilo koji “tenzorski” akcelerator. Važno je napomenuti da Google takođe proizvodi Edge TPU koprocesore za AI na uređaju u proizvodima kao što je Coral Dev Board, koji isporučuju 4 triliona operacija u sekundi uz potrošnju od svega nekoliko vati [9].

Ukratko: NPU-ovi i TPU-ovi su oba silikonski akceleratori za AI, ali se NPU-ovi obično ugrađuju u mobilne/edge uređaje za efikasnu inferenciju na uređaju, dok su TPU-ovi (u strogom smislu) visokoperformansni čipovi (a sada i moduli) prvenstveno iz Google-a, prvobitno namenjeni za treniranje i inferenciju u oblaku/data centru. Obe vrste se razlikuju od tradicionalnih CPU/GPU dizajna jer daju prednost paralelnim matematičkim operacijama za neuronske mreže. Kako je jedan tehnički urednik rekao, “TPU-ovi idu korak dalje u specijalizaciji, fokusirajući se na tenzorske operacije kako bi postigli veće brzine i energetsku efikasnost… NPU-ovi su rasprostranjeni u AI uređajima kao što su pametni telefoni i IoT uređaji” [10].

Kako se NPU-ovi i TPU-ovi razlikuju od CPU-ova i GPU-ova?

Tradicionalni CPU (centralne procesorske jedinice) su „mozak“ opšteg računarstva – optimizovani za fleksibilnost kako bi obavljali razne zadatke, od pokretanja operativnog sistema do pretraživanja interneta. Imaju nekoliko snažnih jezgara koja su odlična u sekvencijalnoj logici i raznovrsnim instrukcijama, ali nisu dobri u visoko paralelnim matematičkim proračunima potrebnim za duboko učenje [11]. Kada se od CPU-a zatraži da obradi veliku neuronsku mrežu, često postaje usko grlo, pokušavajući da izvrši milione množenja i sabiranja u nizu ili ograničenim paralelnim grupama. Ovo dovodi do velike latencije i potrošnje energije (tzv. Von Neumann-ovo usko grlo zbog prebacivanja velike količine podataka između CPU-a i memorije) [12]. CPU-ovi mogu da obave neki AI posao (posebno jednostavnije ili manje modele, ili kontrolnu logiku za AI programe [13]), ali u pravilu, teško uspevaju da efikasno skaliraju prema zahtevima savremenog AI za masivnom paralelnom linearnom algebrom.

GPU (grafičke procesorske jedinice) su donele paralelno računanje u prvi plan. Prvobitno su napravljene za renderovanje slika obavljanjem mnogih jednostavnih operacija paralelno na pikselima i vektorskim tačkama, ali se ispostavilo da su GPU-ovi veoma pogodni za treniranje neuronskih mreža, što takođe podrazumeva primenu istih matematičkih operacija (skalarni proizvodi itd.) na mnogo podataka istovremeno [14]. GPU sadrži stotine ili hiljade malih jezgara koja mogu paralelno da izvode matematičke operacije. Ovo čini GPU-ove izvrsnim za AI velikih razmera, i tokom 2010-ih GPU-ovi (posebno NVIDIA sa CUDA softverom) postali su okosnica istraživanja dubokog učenja. Ipak, GPU-ovi su i dalje donekle opšti – moraju da obavljaju razne grafičke zadatke i zadrže fleksibilnost, pa nisu 100% optimizovani za neuronske mreže. Takođe troše mnogo energije i zahtevaju pažljivo programiranje za punu iskorišćenost (ne vole složene grane u kodu i najbolje rade sa jednostavnim, paralelnim zadacima nad podacima) [15].

NPU-i i TPU-i idu još dalje u specijalizaciji. Oni su namenski napravljeni za samo rad sa neuronskim mrežama. To znači da njihova arhitektura može izbaciti sve što nije potrebno za AI matematiku i posvetiti više silicijuma stvarima kao što su jedinice za množenje matrica, sabirači za akumulaciju i memorija na čipu za brzo prebacivanje podataka u i iz tih matematičkih jedinica. Na primer, Google Cloud TPU je u suštini ogromna 2D matrica MAC (multiply-accumulate) jedinica sa pametnom arhitekturom protoka podataka (sistolička matrica) koja ih snabdeva operandima velikom brzinom [16]. Ne koristi keš memorije, spekulativno izvršavanje ili druge CPU funkcije – optimizovan je za matematičke operacije nad matricama. NPU-i u mobilnim čipovima slično integrišu posvećene jezgre neuronskog motora pored CPU/GPU-a. Ove jezgre često koriste aritmetiku niske preciznosti (npr. 8-bitni celobrojni brojevi kao TPU-i) i izvode visoko paralelne proračune „sloj po sloj“ za stvari poput konvolucionih neuronskih mreža. NPU može koristiti „fuzionisanu“ arhitekturu koja kombinuje skalarne, vektorske i tenzorske jedinice (Qualcomm-ov Hexagon NPU to radi) kako bi efikasno obradio različite operacije neuronskih mreža [17].

Ključne razlike se svode na:

  • Skup instrukcija i fleksibilnost: CPU-i imaju širok, opšti skup instrukcija (mogu raditi mnogo stvari, ali ne sve istovremeno). GPU-i imaju ograničeniji, ali i dalje fleksibilan skup instrukcija optimizovan za protok matematičkih operacija. NPU-i/TPU-i imaju veoma uzak skup instrukcija – u suštini samo operacije potrebne za neuronske mreže (množenje matrica, konvolucije, aktivacione funkcije), često implementirane kao fiksne pipeline-ove ili matrice [18]. Na primer, Teslin NPU za autonomnu vožnju ima samo 8 instrukcija u svom ISA, fokusiranih na DMA čitanja/pisanja i skalarne proizvode [19].
  • Paralelizam i jezgra: CPU-ovi = nekoliko snažnih jezgara; GPU-ovi = hiljade jednostavnih jezgara; NPU/TPU = na neki način, desetine hiljada veoma jednostavnih ALU (MAC jedinica) strukturisanih u matrici ili neuronskoj mreži. Jedan NPU čip može da izvrši desetine triliona operacija u sekundi – Teslin NPU za automobile radi na 2 GHz sa 9.216 MAC-ova, postižući ~37 tera-operacija u sekundi (TOPS) po jegru, a svaki FSD čip ima dva NPU-a za ~74 TOPS [20], ts2.tech. Nasuprot tome, vrhunski CPU može dostići samo nekoliko stotina milijardi operacija u sekundi na AI zadacima, a GPU možda nekoliko TOPS ako ne koristi posebne tensor jezgre.
  • Memorijska arhitektura: NPU/TPU se oslanjaju na brzu memoriju na čipu i strimovanje podataka. TPU izbegava klasično usko grlo memorije korišćenjem sistoličkog protoka podataka – svaka mala jedinica prosleđuje podatke sledećoj u istom taktu, minimizujući čitanje/pisanje iz glavne memorije [21]. Mnogi NPU-ovi uključuju deo SRAM memorije na čipu za težine/aktivacije (npr. Teslina NPU jezgra imaju po 32 MB SRAM-a za lokalno čuvanje podataka neuronske mreže) [22]. Ovo je u suprotnosti sa GPU/CPU koji u velikoj meri koriste eksternu DRAM memoriju.
  • Preciznost: CPU/GPU obično koriste 32-bitne ili 64-bitne brojeve sa pokretnim zarezom za izračunavanja. AI akceleratori često koriste 16-bitne ili 8-bitne cele brojeve (a neki sada istražuju 4-bitne ili čak 2-bitne) jer neuronske mreže tolerišu nižu preciznost. Google-ovi TPU dizajneri su izričito naveli da nije potrebna puna preciznost sa pokretnim zarezom za inferencu, slično kao „ne morate znati tačan broj kapi kiše da biste znali da jako pada“ [23]. Ovo omogućava NPU/TPU da rade više operacija paralelno i koriste manje energije po operaciji.
  • Upotreba: GPU-ovi se i dalje široko koriste za treniranje velikih modela i za fleksibilno računanje (i česti su u data centrima i vrhunskim računarima). TPU-ovi (cloud) su namenjeni za obimno treniranje i inferencu u Google ekosistemu. NPU-ovi se češće nalaze u edge uređajima – pametnim telefonima, kamerama, uređajima – koji rade inferencu na već istreniranim modelima. Oni su najbolji u zadacima kao što su primena modela za viziju na kadar kamere u realnom vremenu ili kontinuirano detektovanje ključne reči za glasovnog asistenta uz nisku potrošnju energije. Kako je TechTarget naveo: „GPU-ovi se biraju zbog dostupnosti i isplativosti u mnogim ML projektima; TPU-ovi su obično brži i manje precizni, koriste ih kompanije na Google Cloud-u; NPU-ovi se najčešće nalaze u edge/mobilnim uređajima za znatno bržu lokalnu obradu“ [24].

Ukratko, CPU = svestrani organizatori, GPU = paralelni radni konji, TPU/NPU = specijalisti za neuronske mreže. Svi mogu da sarađuju – zapravo, u savremenom uređaju sa AI, CPU često koordinira zadatke i prebacuje matematički zahtevne delove na NPU/GPU po potrebi [25]. Ovaj trend specijalizacije postoji zato što jedno rešenje više ne odgovara svima u računarstvu: kako je jedan urednik duhovito primetio, „dodavanje miliona tranzistora za svaku potrebu nije bilo efikasno… dizajneri su prihvatili procesore pravljene za određenu svrhu“ [26]. Procesori pravljeni za određenu svrhu, kao što su NPU i TPU, drastično ubrzavaju AI proračune uz nisku potrošnju energije – što je ključna ravnoteža za uređaje na baterije i servere visoke gustine.

Zašto AI na uređaju? (Edge naspram oblaka)

Zašto se uopšte truditi da AI radi na vašem telefonu ili automobilu – zašto jednostavno ne poslati sve u oblak gde ogromni serveri (sa GPU/TPU) mogu da obave sav težak posao? Postoji nekoliko ubedljivih razloga koji pokreću prelazak na AI na uređaju, a oni se svode na brzinu, privatnost, trošak i pouzdanost [27]:

  • Trenutni Odgovor (Niska Latencija): NPU na uređaju može da obradi podatke u realnom vremenu bez kašnjenja slanja podataka na serverski oblak. Ovo je ključno za interaktivne ili bezbednosno kritične AI zadatke. Na primer, sistem autonomne vožnje automobila koji koristi ugrađene NPU može da prepozna pešaka i zakoči odmah, u roku od milisekundi, umesto da čeka na obradu u oblaku. Pametna kamera sa NPU može da detektuje uljeza u trenutku kada se pojavi u kadru. Na vašem telefonu, AI na uređaju znači da vaš glasovni asistent može brže i prirodnije da odgovori jer ne „zove kući“ stalno. Smanjena latencija omogućava pravo donošenje odluka u realnom vremenu i bolje korisničko iskustvo [28].
  • Privatnost i bezbednost podataka: AI na uređaju čuva vaše podatke lokalno. Umesto da šalje zvuk sa mikrofona ili snimak kamere u cloud na analizu, obrada se vrši unutar samog uređaja. Ovo značajno smanjuje izloženost osetljivih podataka. Na primer, moderni pametni telefoni obavljaju prepoznavanje lica (Face ID, itd.) potpuno na uređaju – biometrijska mapa vašeg lica nikada ne napušta sigurnu zonu telefona. Slično, AI slušni aparat ili nosivi zdravstveni uređaj može analizirati biometrijske podatke bez slanja na bilo koji server, čuvajući privatnost. S obzirom na rastuću zabrinutost korisnika i regulative o suverenitetu podataka, ovo je velika prednost. Kako je jedan edge AI blog naveo, obrada na uređaju znači da „korisnički podaci ne moraju biti preneti u cloud,” što pruža osnovnu korist za privatnost [29]. (Naravno, privatnost nije automatska – programeri i dalje moraju pažljivo rukovati sačuvanim podacima – ali je lakše verovati uređajima koji ne šalju stalno vaše informacije napolje.) Tehnički direktori često ističu ovaj aspekt. Izvršni direktor Qualcomma, Cristiano Amon, napomenuo je da kombinovanje cloud i inteligencije na uređaju može poboljšati personalizaciju dok podaci ostaju sigurni na uređaju – on to naziva „hibridnom budućnošću” gde AI na uređaju sarađuje sa cloud AI za najbolje od oba sveta [30].
  • Dostupnost i pouzdanost van mreže: Uređaji sa NPU/TPU ne zavise od povezanosti. Mogu raditi u tunelu metroa, u avionu, u udaljenim ruralnim oblastima ili tokom prekida mreže. Ovo je izuzetno važno za pouzdanost. Funkcija diktiranja glasa na uređaju će raditi i bez signala. Dron sa AI za vizuelno prepoznavanje na uređaju može izbegavati prepreke čak i van mreže. Ova nezavisnost je takođe ključna za sisteme od kritične važnosti: npr. roboti za spasavanje u katastrofama ili medicinski uređaji koji ne mogu da računaju na stalnu internet vezu. „Funkcionalnost van mreže” je osnovna prednost AI na uređaju [31] – ona obezbeđuje da je AI funkcija dostupna kad god i gde god je potrebna.
  • Efikasnost troškova na velikoj skali: Stalno slanje sirovih podataka u cloud radi AI obrade može biti veoma skupo (cloud računari nisu besplatni) i zahteva veliku propusnost. Kako se AI funkcije šire, kompanije bi morale da plaćaju ogromne račune za cloud obradu ako bi svaki mali zadatak išao na server. Radeći više na edge-u, smanjuju se opterećenja cloud servera i korišćenje mreže. Često je efikasnije potrošiti nekoliko dolara više na bolji čip u uređaju nego plaćati za gigabajte cloud obrade tokom životnog veka uređaja. Analiza industrije Futurum-a je istakla da obrada na uređaju pomaže u rešavanju problema skaliranja i troškova generativnog AI – ona „raspoređuje” opterećenje tako da data centri nisu preopterećeni (a korisnici/programeri ne plaćaju ogromne sume za cloud GPU vreme) [32].
  • Personalizacija i kontekst: Novi razlog u usponu: AI na uređaju može da uči iz i prilagođava se lokalnom kontekstu na način na koji cloud AI možda ne može. Vaš pametni telefon može održavati mali lokalni model koji uči vaš stil kucanja radi boljeg automatskog ispravljanja, bez deljenja tog ličnog jezičkog modela u cloud. Uređaji mogu u realnom vremenu objediniti podatke sa više senzora (što je lakše uraditi lokalno nego slati mnoštvo senzorskih podataka u cloud). Ovo može omogućiti personalizovanije i kontekstualno svesnije iskustvo. Neke funkcije poput federativnog učenja čak omogućavaju uređajima da unapređuju AI modele zajednički, bez slanja sirovih podataka (samo šaljući male izmene težina).
  • Regulativa i suverenitet podataka: Zakoni poput evropskog GDPR-a i razni zahtevi za lokalizaciju podataka sve više nalažu da se određeni podaci (posebno lični ili osetljivi podaci) ne šalju u inostranstvo ili trećim stranama bez pristanka. AI na uređaju nudi način da se ispoštuju ti zahtevi obrađivanjem podataka na izvoru. Na primer, AI alati za medicinsko snimanje mogu raditi na bolničkoj opremi (edge serveri sa NPU-ima) tako da podaci o pacijentima nikada ne napuštaju objekat, čime se zadovoljavaju propisi o privatnosti. Izveštaj NimbleEdge-a za 2025. godinu ističe da vlade podstiču više lokalnog inferenciranja iz razloga suvereniteta i usklađenosti [33].

Svi ovi faktori pokreću promenu paradigme: umesto razmišljanja „cloud-first“ za AI, kompanije sada dizajniraju AI funkcije „device-first“ kad god je to moguće. Kako je potpredsednik za AI u Qualcomm-u, Durga Malladi, sažeo: „Da bi se generativni AI efikasno proširio u mejnstrim, AI će morati da radi i u cloudu i na uređajima na ivici… kao što su pametni telefoni, laptopovi, vozila i IoT uređaji“ [34]. Krećemo se ka hibridnom AI svetu gde se teško treniranje i veliki modeli možda nalaze u cloudu, ali mnogi inferencijski zadaci i lična AI iskustva rade lokalno na NPU/TPU u vašim rukama i domovima. Zapravo, Amon to naziva „prekretnicom u AI“ – inferenciranje na uređaju bez latencije, gde „budućnost AI je lična“ jer radi upravo tamo gde ste vi [35].

AI na uređaju u praksi: Od pametnih telefona do samovozećih automobila

Specijalizovani AI čipovi su već ugrađeni u širok spektar uređaja oko vas, često neprimetno čineći ih pametnijim. Evo nekih glavnih oblasti gde se NPU i edge TPU koriste:

  • Pametni telefoni i tableti: Gotovo svi moderni vodeći telefoni (pa čak i mnogi iz srednjeg segmenta) sada uključuju NPU ili namenski AI procesor. Apple je započeo ovaj trend 2017. sa Apple Neural Engine u iPhone A11 čipu, omogućavajući Face ID i Animoji na uređaju izvođenjem do 600 milijardi operacija u sekundi [36]. Danas, Apple-ov A17 Pro čip (2023) ima Neural Engine sa 16 jezgara sposoban za 35 triliona operacija u sekundi [37]. Ovo pokreće funkcije kao što su napredno prepoznavanje scena kamerom, foto stilovi, Siri glasovne komande obrađene offline, automatsko ispravljanje, transkripcija uživo, pa čak i pokretanje transformer modela za prevođenje na samom uređaju. Google-ovi Pixel telefoni takođe imaju sopstveni čip (“Google Tensor” SoC) sa NPU: najnoviji Tensor G3 u Pixel 8 je “posebno dizajniran za pokretanje Google-ovih AI modela”, unapređujući svaki deo čipa (CPU, GPU, ISP) kako bi omogućio generativni AI na uređaju [38]. Pixel 8 može pokretati Google-ove najnaprednije modele za pretvaranje teksta u govor i prevođenje lokalno, iste one koji su ranije bili ograničeni na data centre [39]. Takođe izvodi složene trikove sa kamerom kao što su “Best Take” spajanje grupnih fotografija i Audio Magic Eraser koristeći niz AI modela na uređaju [40]. Samsung i drugi Android proizvođači koriste Qualcomm Snapdragon čipove, čiji najnoviji NPU (Hexagon AI engine) može čak pokretati velike jezičke modele na telefonu – Qualcomm je demonstrirao pokretanje LLM-a sa 10 milijardi parametara i čak Stable Diffusion generisanje slika na telefonu sa Snapdragon 8 Gen 3 [41]. AI procesor ovog čipa je 98% brži od prethodne generacije i podržava INT4 preciznost radi efikasnosti [42]. Praktična posledica: vaš telefon iz 2024. može da radi stvari kao što su sažimanje članaka, odgovaranje na pitanja ili uređivanje fotografija pomoću AI bez potrebe za cloud-om. Čak i funkcije pristupačnosti imaju koristi: npr. Pixel telefoni sada imaju glasovno kucanje na uređaju, titlove uživo i nadolazeću funkciju za opisivanje slika slepim korisnicima pomoću lokalnog modela.
  • Pametne kamere i sigurnosni sistemi: Kamere sa podrškom za veštačku inteligenciju koriste ugrađene NPU-ove za trenutno detektovanje ljudi, lica, životinja ili sumnjivog ponašanja. Na primer, najnovije sigurnosne kamere kompanije EnGenius uključuju ugrađeni NPU koji obrađuje detekciju objekata i pretvara video u metapodatke direktno na kameri, čime se eliminiše potreba za posebnim video rekorderom i povećava bezbednost (jer se video može analizirati i skladištiti lokalno) [43]. Ovo znači da vaša sigurnosna kamera može odlučiti „prisustvo osobe“ ili „paket isporučen“ i poslati samo to obaveštenje, umesto da šalje sate snimaka na cloud servis. Slično tome, potrošački uređaji poput Google Nest Cam IQ imali su čip za vizuelnu obradu na uređaju (Google Edge TPU) za prepoznavanje poznatih lica i razlikovanje ljudi od kućnih ljubimaca u svom vidnom polju. DSLR i mirrorless kamere takođe dodaju AI procesore za stvari poput praćenja subjekta, automatskog fokusiranja na oči i optimizacije scene u realnom vremenu. Kod dronova, ugrađeni AI čipovi pomažu u izbegavanju prepreka i vizuelnoj navigaciji bez potrebe za daljinskim upravljanjem. Posebno, Google-ov Edge TPU (mali ASIC modul) postao je popularan dodatak za DIY i industrijske IoT kamere – obezbeđuje 4 TOPS snage za vizuelnu obradu za zadatke poput detekcije ljudi ili čitanja registarskih tablica, dok koristi samo ~2 vata [44].
  • Pametni kućni i IoT uređaji: Osim telefona, mnogi pametni kućni uređaji imaju mini NPU-ove. Zvučnici sa glasovnom aktivacijom (Amazon Echo, Google Nest Hub, itd.) sada često uključuju čipove za lokalno prepoznavanje govora. Amazon je razvio AZ1 Neural Edge procesor za Echo uređaje kako bi ubrzao detekciju budne reči i odgovore Alexa na samom uređaju, prepolovivši kašnjenje [45]. AZ1 (izrađen u saradnji sa MediaTek-om) pokreće neuronsku mrežu koja prepoznaje „Alexa“ i obrađuje jednostavne komande bez slanja u cloud [46]. Ovo ne samo da čini Alexu bržom, već i čuva više glasovnih podataka privatnim. Takođe, mnogi novi televizori, kućni aparati, pa čak i igračke imaju neku vrstu AI na ivici – npr. kamera pametnog frižidera može lokalno prepoznati hranu i rokove trajanja. Nosivi uređaji zaslužuju posebnu pažnju: Apple Watch S9 čip je dodao četvorojezgarni Neural Engine za bolje izvršavanje AI algoritama za zdravlje i Siri zahteva direktno na satu [47]. Na industrijskoj strani, IoT senzori sa NPU-ovima mogu vršiti detekciju anomalija na podacima o opremi direktno na ivici, šaljući samo relevantne događaje dalje (štedeći protok i brže reagujući na probleme).
  • Automobili (ADAS i autonomija): Automobili su postali AI centri na točkovima. Napredni sistemi za pomoć vozaču (ADAS) i funkcije samostalne vožnje oslanjaju se na niz ugrađenih AI akceleratora za interpretaciju snimaka sa kamera, LiDAR-a, radara i donošenje odluka u vožnji u deliću sekunde. Tesla je poznata po tome što je dizajnirala sopstveni FSD (Full Self-Driving) računar sa dva NPU čipa. Teslin FSD čip (HW3, predstavljen 2019) obezbeđuje 144 TOPS (dva NPU-a po 72 TOPS); noviji HW4 (2023) povećava to na otprilike 200–250 TOPS ukupno (dva 7nm NPU-a sa po 100+ TOPS) ts2.tech. Ovo omogućava automobilu da istovremeno obrađuje video u punoj rezoluciji sa 8 kamera, sonara itd. kroz neuronske mreže za percepciju, pa čak i da pokreće neke jezičke modele za glasovne komande – sve lokalno unutar modula automobila. Konkurentske platforme kao što su NVIDIA Drive i Qualcomm Snapdragon Ride takođe integrišu NPU-ove. Najnoviji NVIDIA superkompjuterski čip za automobile, Drive Thor, predviđen za automobile iz 2025. godine, može da se pohvali sa do 1.000 TOPS na jednom čipu (i 2.000 TOPS kada su uparena dva) za podršku autonomije nivoa 4 ts2.tech. On kombinuje GPU, CPU i posvećene akceleratore za duboko učenje tako da može da obradi sve, od prepoznavanja saobraćajnih znakova do AI za nadzor vozača na samom čipu ts2.tech. Ovi NPU-ovi bukvalno spašavaju živote: autonomni automobil ne može da čeka na serverski oblak ako dete istrči na ulicu. Ugrađeni AI mora da vidi i reaguje u roku od nekoliko desetina milisekundi. Osim u putničkim automobilima, edge AI se intenzivno koristi i u autonomnim dronovima, robotima za dostavu i industrijskim vozilima koji se kreću i donose odluke pomoću ugrađenih NPU/TPU (na primer, Nuro roboti za dostavu i mnogi sistemi za samovozeće kamione koriste NVIDIA ili Huawei AI čipove na uređaju).
  • Edge računanje i industrija: U fabrikama i poslovnim okruženjima, AI na uređaju često se pojavljuje u obliku edge servera ili gejtveja sa AI akceleratorima. Umesto slanja video snimaka sa kamera ili podataka sa senzora u centralni cloud, kompanije instaliraju edge kutije (ponekad bazirane na GPU, ponekad na NPU/FPGA) na licu mesta. One obavljaju zadatke poput analize videa u realnom vremenu za kontrolu kvaliteta na proizvodnoj liniji, otkrivajući defekte pomoću AI vizije u mikrosekundama. Zdravstveni uređaji su još jedan primer: prenosivi ultrazvuk ili MRI može imati NPU za AI analizu slika na samom uređaju, tako da lekari dobijaju trenutnu dijagnostičku pomoć bez potrebe za internet vezom (što je takođe bolje za privatnost podataka pacijenata). Maloprodaja i gradovi takođe primenjuju AI na edge-u – npr. pametne saobraćajne kamere sa NPU-ima za analizu zagušenja i podešavanje svetala, ili kamere na policama u prodavnicama koje prate zalihe. Mnogi od ovih koriste specijalizovane NPU-ove kao što su Intel Movidius Myriad čipovi ili Google-ov Edge TPU ili novi igrači poput Hailo-8 (izraelski NPU koji isporučuje 26 TOPS uz nekoliko vati za kamere). Zajedničko za sve ove akceleratore je što omogućavaju analizu da se odvija lokalno, postižući rezultate u realnom vremenu i šaljući preko mreže samo sažete uvide (umesto sirovih podataka).

Svestranost NPU/TPU čipova na različitim vrstama uređaja je impresivna. U jednom trenutku omogućavaju vašem telefonu da zamagli pozadinu na fotografiji pomoću AI, a u sledećem upravljaju dronom ili analiziraju medicinske slike. Kamera pametnih telefona sada koristi NPU za funkcije kao što su Night Mode (inteligentno spajanje više kadrova), portret mod bokeh, prepoznavanje scena (telefon prepoznaje da slikate „zalazak sunca“ i optimizuje boje putem AI), pa čak i za zabavne AR efekte (Animoji koji mapira vaše lice ili Snapchat filteri koji prate vaše pokrete – sve zahvaljujući neuronskim mrežama na uređaju). Biometrija koristi NPU: skeneri otisaka prstiju poboljšani AI-jem za detekciju živosti, otključavanje lica sa dubinskim senzorima i AI. Audio ih takođe koristi: poništavanje buke u slušalicama i telefonima sada je često vođeno AI-jem, pri čemu NPU u realnom vremenu odvaja glas od pozadinske buke.

Konkretan primer inovacije iz 2024: Oppo (proizvođač pametnih telefona), u partnerstvu sa MediaTek-om, objavio je da je implementirao Mixture-of-Experts (MoE) AI model direktno na uređaju krajem 2024. godine – navodno prvi koji je to uradio u telefonu [48]. Ova napredna arhitektura neuronske mreže (MoE) može poboljšati performanse aktiviranjem samo relevantnih „ekspertskih“ podmreža po zadatku, a izvođenje toga na uređaju znači da Oppo telefoni mogu postići bržu AI obradu i bolju energetsku efikasnost za složene zadatke, bez potrebe za cloud podrškom [49]. Ovo naglašava kako čak i najnovija AI istraživanja brzo pronalaze put do naših ručnih uređaja kroz poboljšane NPU-ove.

Unutar AI čipova 2025: Najnovija dostignuća Apple-a, Google-a, Qualcomm-a i drugih

Trka za izgradnju boljeg AI hardvera na uređaju se brzo zahuktala. Evo pregleda šta su velike kompanije nedavno predstavile (2024–2025) u pogledu NPU/TPU i AI silicijuma:

Apple: Appleova strategija prilagođenih čipova već dugo naglašava mašinsko učenje na samom uređaju. Svake godine, Appleov Neural Engine postaje sve snažniji. U iPhone 15 Pro iz 2023. godine, A17 Pro čipov Neural Engine dostigao je 35 TOPS (biliona operacija u sekundi) sa svojih 16 jezgara [50]. Ovo je bilo duplo više sirovog protoka u odnosu na NPU iz A16, a Apple je to iskoristio za omogućavanje stvari kao što su prepoznavanje govora na uređaju za Siri (konačno procesuiranje mnogih Siri zahteva bez interneta) i nove mogućnosti kamere (kao što je automatsko hvatanje portreta i uživo prevođenje teksta putem kamere). Appleovi čipovi iz 2024. nastavili su ovaj trend: M3 porodica za Mac računare (kraj 2023.) dobila je ažurirani Neural Engine (zanimljivo, podešen na 18 TOPS za osnovni M3 čip, sa fokusom na efikasnost) [51]. U 2024. godini, Apple je predstavio M4 čip (za vrhunske iPad/Mac uređaje, sredina 2024.) koji je navodno podigao Neural Engine na 38 TOPS na unapređenom 3nm procesu [52]. Osim samih brojki, Apple zaista koristi taj NPU: funkcije kao što su Personal Voice (koja kreira klon korisnikovog glasa nakon 15 minuta obuke) rade privatno na Neural Engine-u u iPhone-ima, a Live Voicemail transkripcije se obrađuju lokalno. Apple je takođe integrisao NPU u sve klase svojih uređaja – čak i AirPods Pro imaju mali neuralni čip za Adaptive Audio. Appleovi rukovodioci često ističu aspekt privatnosti: „mašinsko učenje na vašem uređaju“ znači da vaši podaci ostaju kod vas. Do 2025. očekuje se da će Appleov Neural Engine možda još više napredovati ili postati dostupan aplikacijama trećih strana na nove načine (već sada Core ML omogućava developerima da ga koriste, ali Apple bi mogao otvoriti još više neuralnih API-ja). Takođe postoje glasine da Apple dizajnira poseban AI akcelerator za buduće naočare ili automobile, ali trenutni proizvodi pokazuju da preferiraju integrisane NPU-ove u svojim A-serijama i M-serijama SoC-ova.
  • Google: Google nije samo bila pionir u razvoju cloud TPU-a, već je dodatno uložila u AI na uređaju za Pixel telefone i potrošačke uređaje. Google Tensor SoC (prvi put predstavljen 2021. u Pixel 6) bio je jedinstven po tome što je Google, poznat po cloud rešenjima, napravio čip za telefon koji pokreće AI direktno na uređaju. Sa Tensor G3 (u Pixel 8 iz 2023), Google je istakao unapređenja koja omogućavaju generativni AI na uređaju. Google je eksplicitno naveo da čip u Pixel 8 donosi “Google AI istraživanje direktno na naše najnovije telefone” [53]. Sledeća generacija TPU-a u Tensor G3 (Google i dalje interno naziva AI jezgro “TPU”) omogućava Pixel telefonu da pokreće napredne modele kao što su Palm 2 ili Gemini Nano (olakšane verzije Google-ovih velikih jezičkih modela) na samom uređaju za funkcije poput sažimanja veb sajtova ili poboljšanja glasovnog kucanja [54]. Jedna od glavnih funkcija: Pixel 8 može lokalno da pokreće Google-ov najbolji model za pretvaranje teksta u govor (isti koji se koristi u data centru), što omogućava telefonu da naglas čita veb stranice prirodnim glasovima i čak ih prevodi u realnom vremenu, sve offline [55]. Google takođe koristi TPU u Pixel-u za fotografiju (“HDR+” višekadrovno snimanje, Magic Eraser uklanjanje objekata pomoću AI inpaintinga [56]), za bezbednost (otključavanje lica na uređaju putem AI, sada dovoljno snažno za plaćanja [57]), i za govor (Assistant kojem ne smeta kada kažete “umm”). Osim telefona, Google nudi Coral Dev Board i USB stik za hobiste i preduzeća da dodaju Edge TPU-ove svojim projektima, a svaki sadrži Google-ov Edge TPU koji pruža 4 TOPS za vizuelne zadatke uz veoma nisku potrošnju energije [58]. Koristi se i u nekim Google-ovim proizvodima kao što je Nest Hub Max za prepoznavanje gestova. Za Google, integracija TPU-ova na ivici deo je šire strategije: Sundar Pichai (izvršni direktor Google-a) rekao je da je budućnost AI-a u unapređenju svakog iskustva, i jasno je da Google smatra da “da bi se transformativna moć AI-a donela u svakodnevni život, moraš joj pristupiti sa uređaja koji svakodnevno koristiš” [59] – otuda Tensor čipovi. Možemo očekivati Tensor G4 u Pixel telefonima krajem 2024, možda napravljen na novijem procesu Samsunga ili TSMC-a, sa dodatnim poboljšanjima AI performansi i efikasnosti, a možda čak i omogućavanjem multimodalnog AI-a na uređaju (kombinovanje vizuelnih i jezičkih modela).
  • Qualcomm: Vodeći proizvođač čipova za mobilne telefone sa Android operativnim sistemom agresivno promoviše svoj AI Engine u Snapdragon seriji. Snapdragon 8 Gen 2 (kraj 2022) je uveo posvećenu INT4 podršku i prikazao generisanje slika stabilnom difuzijom u realnom vremenu na telefonu. Snapdragon 8 Gen 3 (najavljen krajem 2023, u vodećim telefonima 2024) predstavlja veliki skok: Qualcomm tvrdi da je njihov Hexagon NPU 98% brži od Gen 2 i 40% energetski efikasniji [60]. Ovaj čip može da pokreće velike jezičke modele sa do 10 milijardi parametara potpuno na uređaju, obrađujući oko 20 tokena u sekundi – dovoljno za jednostavne razgovore sa AI asistentom bez oblaka [61]. Takođe je postignuto „najbrže generisanje Stable Diffusion slika na svetu“ na mobilnom uređaju u demonstracijama [62]. Qualcomm naglašava da je generativna AI na uređaju ključna prednost za nove telefone. Na primer, udružili su se sa kompanijom Meta kako bi optimizovali open-source Llama 2 LLM za Snapdragon, sa ciljem da omogućite pokretanje AI četbota na svom telefonu do 2024. godine [63]. (Jedan Qualcomm izvršni direktor je rekao: „pozdravljamo Metin otvoreni pristup… da bi se generativna AI skalirala, mora raditi i u oblaku i na ivici“, što dodatno potvrđuje filozofiju edge AI [64].) Osim telefona, Qualcomm ugrađuje NPU-ove u čipove za laptopove (Snapdragon compute platforme za Windows na ARM-u) – a njihova automobilska platforma Snapdragon Ride koristi iste AI jezgre da ponudi do 30 TOPS za ADAS, sa planom za stotine TOPS u budućnosti. U 2025. godini, Qualcomm je čak najavio novi Snapdragon X Elite CPU za PC računare koji uključuje snažan NPU, signalizirajući nameru da izazove Apple i Intel u AI performansama na ličnim računarima. Sa porastom AI na uređaju, Qualcomm zapravo brendira neke telefone kao „AI telefoni“. Predviđaju da će mnoge aplikacije (od fotografije do poruka i produktivnosti) koristiti NPU. Na softverskoj strani, Qualcomm je objavio Qualcomm AI Stack kako bi ujedinio podršku za popularne okvire (TensorFlow Lite, PyTorch, ONNX) na svojim NPU-ovima [65] – pokušavajući da olakša programerima korišćenje AI hardvera bez dubokog znanja o čipovima.
  • MediaTek: Drugi najveći proizvođač čipova za mobilne uređaje (poznat po seriji Dimensity) takođe je unapredio svoje NPU-ove. MediaTek svoje AI procesore naziva “APU” (AI Processing Unit). Na primer, Dimensity 9200+ (2023) ima šestu generaciju APU-a sa značajnim poboljšanjem performansi u odnosu na prethodni čip, omogućavajući funkcije kao što su stabilna difuzija na uređaju i AI redukcija šuma u video zapisima. U 2024. godini, MediaTek je najavio Dimensity 9400, a u partnerstvu sa Oppo-om iskoristili su njegovu naprednu NPU arhitekturu za uvođenje novih AI funkcija (kao što je pomenuto, AI remastering fotografija na Oppo Find X8 sa uklanjanjem refleksije i poboljšanjem oštrine pokreće MediaTek-ov NPU) [66]. Izvršni direktori MediaTek-a su se eksplicitno pozicionirali kao lideri u oblasti AI na uređaju. Kako je rekao Will Chen iz MediaTek-a, “budućnost AI prevazilazi cloud; pokreće je edge computing iz vaše ruke.” Po njihovom mišljenju, AI na telefonima mora biti brz, privatan, siguran i uvek dostupan [67]. MediaTek je čak formirao “APU-centričnu” saradnju sa kompanijom Meta radi podrške Llama framework-ima i sa proizvođačima uređaja kao što su Oppo i Xiaomi sa fokusom na AI kameru i AI glasovne funkcije. Do 2025. godine, MediaTek planira da ove NPU-ove uvede ne samo u telefone, već i u pametne televizore (za AI unapređenje slike i poboljšanje kvaliteta), IoT uređaje, pa čak i automobile (MediaTek ima AI platformu za automobile i partnerstvo sa Nvidiom radi integracije Nvidia GPU IP-a za automobile, dok verovatno obezbeđuje svoj NPU za AI senzore).
  • Intel: 2024. je označila ulazak Intela u AI akceleratore na mainstream računarima. Intelova 14. generacija Core procesora (Meteor Lake, lansiran u decembru 2023. i rebrendiran kao Core Ultra 2024.) je prvi x86 PC procesor sa ugrađenom jedinicom za neuronsku obradu (NPU). Meteor Lake-ov NPU (ponekad nazivan i VPU – Vision Processing Unit – baziran na Intelovoj Movidius tehnologiji) pruža oko 8–12 TOPS AI performansi [68]. Ovo se koristi za ubrzavanje AI funkcija Windows 11, kao što su zamućenje pozadine, kontakt očima tokom video poziva, a aplikacije bi mogle koristiti za lokalnu transkripciju, suzbijanje šuma ili čak male AI asistente. Microsoft i Intel zajedno promovišu koncept “AI PC-a”. Intel tvrdi da će ovi NPU-ovi biti isporučeni u desetinama miliona laptopova tokom 2024. godine [69]. Nakon Meteor Lake-a, Intelova mapa puta pominje Arrow Lake (za desktop računare u 2024.) koji takođe uključuje NPU (oko 13 TOPS, blago poboljšan) [70]. Zanimljivo je da je Intelov prvi pokušaj desktop NPU-a zapravo nadmašio AMD (vidi dole), a Intel je odlučio da koristi skromniji dizajn NPU-a kako ne bi žrtvovao GPU/CPU površinu u entuzijast čipovima [71]. Ali do kraja 2024. Intel je najavio da će budući Lunar Lake čipovi imati znatno jači NPU (~45 TOPS) kako bi ispunili Microsoftove zahteve za “Copilot” [72]. Sve ovo ukazuje da Intel vidi AI kao neophodnost za računare u budućnosti – ne za treniranje ogromnih modela, već za ubrzavanje svakodnevnih AI iskustava (od unapređenja kancelarijskog paketa do kreativnih alata koji koriste lokalni AI). Intel takođe prodaje edge AI akceleratore kao što su Intel Movidius Myriad čipovi (koriste se u nekim dronovima, kamerama) i Habana akceleratori za servere, ali integrisani NPU u Meteor Lake-u je prekretnica koja donosi AI prosečnom korisničkom uređaju.
  • AMD: AMD je ušao u oblast AI na uređaju otprilike u isto vreme. Njegovi Ryzen 7040 serije procesora za laptopove (Phoenix) predstavljeni 2023. godine imali su prvi Ryzen AI Engine – u suštini integrisani XDNA NPU (tehnologija iz AMD-ove akvizicije Xilinx-a). Ovaj NPU je isporučivao do 10 TOPS na mobilnom čipu [73]. AMD je isticao primene kao što su video pozivi poboljšani veštačkom inteligencijom, aplikacije za produktivnost i slično, slično kao i Intelovi ciljevi. Zatim je AMD nakratko lansirao Ryzen 8000 desktop seriju (početkom 2024) sa NPU-om koji dostiže 39 TOPS – veoma visok broj za AI jedinicu procesora opšte namene, čak i premašujući Intelove planove [74]. Međutim, AMD je brzo promenio pravac i preskočio jednu generaciju, fokusirajući se na svoju sledeću arhitekturu (naredni Ryzen 9000 krajem 2024. izostavio je NPU kako bi dao prioritet unapređenju jezgara) [75]. Ipak, očekuje se da će AMD vratiti NPU-ove u buduće PC čipove (verovatno je u pitanju privremeno povlačenje dok rade na integraciji snažnog AI engine-a bez kompromitovanja drugih performansi). Sa strane proizvoda, AMD-ovi NPU-ovi bi mogli omogućiti zanimljive stvari jer AMD takođe ima snažne GPU-ove – kombinacija bi mogla zajednički obrađivati AI zadatke (neki delovi na NPU, neki na GPU). AMD takođe ugrađuje AI jezgra u svoje adaptivne (na FPGA zasnovane) SoC-ove i čipove za automobilsku industriju. Ukratko, do 2025. svi x86 proizvođači PC čipova su prihvatili NPU-ove, u skladu sa onim što su pametni telefoni uradili nekoliko godina ranije, što ukazuje da AI akceleracija postaje standardna funkcija u svim segmentima.
  • Ostali: Različite specijalizovane kompanije za čipove i druge tehnološke firme takođe inoviraju u oblasti NPU-ova. NVIDIA, poznata po GPU-ovima, sada uključuje posvećene Tensor Cores u svoje GPU-ove i nudi otvoreni NVDLA (akcelerator za duboko učenje) dizajn za integraciju u System-on-Chip proizvode. U edge uređajima kao što je NVIDIA Jetson serija (koja se koristi u robotima, dronovima, ugrađenim sistemima), postoje i GPU i fiksno-funkcionalni “DLA” – u suštini NPU-ovi – koji preuzimaju deo inferencije neuronskih mreža sa GPU-a. NVIDIA Orin modul, na primer, ima 2 DLA pored svog GPU-a, što doprinosi njegovih 254 TOPS AI performansi za automobile ts2.tech. Apple se navodno radi na još naprednijim AI koprocesorima ili većim neuralnim motorima za svoje AR naočare ili buduće projekte, iako su detalji tajni. Huawei (uprkos geopolitičkim izazovima) nastavlja da dizajnira Kirin mobilne čipove sa NPU-ovima (njihova “DaVinci” NPU arhitektura) i takođe serverske NPU-ove u svojim Ascend AI čipovima – njihov Kirin 9000S čip iz 2023. navodno zadržava snažan NPU za zadatke obrade slike i jezika na njihovim telefonima. Takođe vidimo startape kao što su Hailo, Mythic, Graphcore i drugi koji nude svoje edge AI čipove: npr. Hailo-8 kao što je pomenuto (26 TOPS u mini PCIe kartici za AI kamere), Graphcore-ov IPU za data centre (nije baš na uređaju, ali nova arhitektura za neuronske mreže), Mythic radi na analognim NPU-ovima, itd. ARM, čiji dizajni čine osnovu većine mobilnih čipova, nudi Ethos NPU seriju (kao što su Ethos-U, Ethos-N78) koju proizvođači čipova mogu integrisati kako bi dobili gotov AI akcelerator u IoT ili srednjerazrednim SoC-ovima. Ovo je omogućilo čak i relativno manjim igračima da uključe NPU-ove u svoje čipove licenciranjem ARM-ovog dizajna.
  • Suština je da od velikih tehnoloških kompanija do startapa, svi ulažu u AI silicijum na samom uređaju. Kao rezultat toga, vidimo brza poboljšanja: novi čipovi sa većim TOPS, boljom efikasnošću (TOPS po vatu) i podrškom za nove tipove podataka (kao što je 4-bitna kvantizacija za veće modele). Na primer, najnoviji Qualcomm i MediaTek mogu da rade sa INT4 preciznošću što je odlično za generativne AI modele gde je propusni opseg memorije ograničavajući faktor [76]. Ove inovacije se direktno prevode u koristi za korisnike – npr. real-time mobilno AI video editovanje (uklanjanje objekata iz 4K videa u hodu, kao što Snapdragon 8 Gen 3 može sa svojom “Video Object Eraser” AI funkcijom [77]), ili AI koprocesori u automobilima koji omogućavaju glasovne asistente koji rade bez mreže i odgovaraju brzinom ljudskog razgovora.

    Ključne vesti iz 2024–2025: Lansiranja, benchmark testovi i partnerstva

    Da bismo ilustrovali koliko se brzo stvari kreću, evo nekoliko naslovnih događaja u svetu NPU/TPU i AI na uređaju od kraja 2024. do 2025:

      Apple M3 i M4 predstavljanja (oktobar 2023. i maj 2024.): Doneli su Neural Engines sledeće generacije. M3-ov Neural Engine postiže 18 TOPS (16 jezgara), a M4 je skočio na 38 TOPS (i dalje 16 jezgara, ali sa većim taktom/efikasnošću). Apple je demonstrirao kako ovi čipovi obrađuju zahtevne zadatke kao što je generisanje slika stabilnom difuzijom na uređaju u macOS-u (sa Core ML Stable Diffusion, developeri su prikazali ~15 sekundi za generisanje slike na M2 – još brže na M3/M4). Google Pixel 8 lansiranje (oktobar 2023.): Naglašena je veštačka inteligencija “svuda” u uređaju. Google je na događaju demonstrirao Pixel 8-ovo sažimanje veb stranica na uređaju i uživo prevođenje članaka koristeći Tensor G3 NPU. Takođe je predstavljen “Assistant with Bard” koji će vremenom neke interakcije izvoditi na uređaju. Google je istakao da Pixel 8 može da pokreće 2× više modela na uređaju nego što je mogao Pixel 6, i to modele koji su znatno sofisticiraniji. Drugim rečima, ogroman napredak za samo dve godine razvoja Tensor čipova. Qualcomm–Meta partnerstvo (jul 2023.): Qualcomm i Meta su najavili da optimizuju Metin Llama 2 veliki jezički model da radi potpuno na Snapdragon NPU-ima do 2024. godine. Cilj je omogućiti developerima da implementiraju četbotove i generativne AI aplikacije na telefonima, VR naočarima, računarima itd., bez potrebe za cloud-om. Ovo je bila značajna podrška AI na uređaju od strane velikog vlasnika AI modela (Meta) i velikog proizvođača čipova. Krajem 2024. nastavili su sa planovima za optimizaciju Llama 3 modela takođe. Microsoft Windows 11 “Copilot” PC-ji (2024): Microsoft je postavio standard nazivajući PC-jeve sa više od 40 TOPS lokalne AI akceleracije “AI PC-jevima” koji su podobni za napredne AI funkcije (kao što je integracija Copilot digitalnog asistenta). Ovo je podstaklo OEM-ove – Lenovo, Dell itd. – da usvoje čipove sa NPU-ima (bilo Intel, AMD ili Qualcomm) kako bi ispunili specifikacije. Rezultat je očekivani talas laptopova sa AI mogućnostima u 2024, pri čemu Microsoft tvrdi da je na putu desetine modela i predviđa više od 40 miliona isporučenih AI PC-jeva u 2024.
    • Kratak prikaz AMD Ryzen 8000 NPU (januar 2024): AMD je najavio desktop procesor sa neverovatnih 39 TOPS NPU (iznenađenje, jer desktop čipovi obično nemaju takve akceleratore) [78]. Iako je taj konkretan proizvod brzo zamenjen, pokazao je da čak i desktop procesori mogu imati AI silicijum koji po TOPS-u parira mobilnim čipovima. Ovo je takođe bio prvi desktop x86 procesor sa NPU-om (samo što je pretekao Intel Arrow Lake).
    • Tesla FSD Beta v12 (kraj 2023) demonstracije: Elon Musk je prikazao end-to-end AI vožnju (bez radara, samo vizuelne mreže) koja radi na Tesla HW3/HW4 NPU-ima. Posebno je bio zapažen neuronski mrežni sistem koji upravlja automobilom koristeći video snimke obrađene u realnom vremenu na računaru automobila. Posmatrači su primetili da FSD v12 u potpunosti koristi 2× 100 TOPS NPU-a za viziju, a Tesla je nagovestila da su u razvoju buduća unapređenja (HW5) sa ciljem od 2000 TOPS kako bi se podržali još veći modeli (postojale su glasine da bi Tesla HW5 mogao ciljati 2 petaFLOPS = 2000 TOPS) [79].
    • NVIDIA Drive Thor predstavljen (2024 GTC): NVIDIA je otkrila detalje svog sledećeg automobilskog čipa, Drive Thor, koji ima ekvivalent 2× AI snage svog prethodnika Orin – do 2000 TOPS kada su dva čipa povezana ts2.tech. Značajno je što je Thor namenjen ne samo za zadatke vožnje, već i za AI unutar kabine (poput glasovne kontrole i praćenja putnika) na jednoj platformi, pokazujući kako NPU i GPU zajedno mogu objediniti mnoge AI funkcije u automobilima ts2.tech. Nekoliko proizvođača automobila (Xpeng, BYD, Volvo) najavilo je da će koristiti Thor od 2025. godine ts2.tech.
    • Oppo-ov MoE AI na uređaju (oktobar 2024): Kao što je pomenuto, Oppo je implementirao Mixture-of-Experts model na Find X8 telefonu [80]. Ovo je značajno jer su MoE modeli obično veliki i smatrani su server-side rešenjem zbog svoje složenosti. Pokretanje MoE modela na uređaju ukazuje na nove tehnike kompresije modela i veoma sposoban NPU (verovatno MediaTek Dimensity 9400 u tom uređaju).
    • Meta-ine Ray-Ban AI naočare (2025): (Očekuje se) Meta je prikazala prototipove pametnih naočara koje mogu da identifikuju ono što vidite i da vam govore o tome – verovatno koristeći namenski akcelerator na samom uređaju (Meta već neko vreme prototipira sopstveni silikon za AR). Iako su detalji oskudni, ovo naglašava težnju da se AI ugradi u veoma ograničene uređaje (naočare, bežične slušalice sa baterijom), što bi zahtevalo ultra-efikasne NPU-ove.
    • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons je objavio rezultate koji pokazuju AI sposobnosti najnovijih pametnih telefona. Na primer, u MLPerf Inference v3.0 (oktobar 2023), Apple-ov A16, Google Tensor G2 i Qualcomm Gen 2 su svi testirani na zadacima kao što su klasifikacija slika i detekcija objekata. Rezultati su pokazali da se Apple i Qualcomm smenjuju u pobedama, ali generalno da mobilni NPU-ovi smanjuju jaz u odnosu na neke akceleratore klase laptop/desktop za te zadatke – i to sve dok rade na bateriji. Takođe je istaknuta razlika u softveru (npr. Qualcomm-ov AI SDK naspram Apple Core ML). kontinuirana poboljšanja svake godine (dvocifreni procentualni rast) u ovim benchmark testovima pokazuju zdravu konkurenciju i brz napredak u AI-u na uređaju.
    • Strateška partnerstva: Formirano je mnogo međusektorskih partnerstava. Na primer, NVIDIA i MediaTek (maj 2023) su najavili saradnju kako bi Nvidia GPU IP i softverski ekosistem ugradili u buduće MediaTek čipove za pametne telefone i automobile, efektivno spajajući Nvidia AI snagu sa MediaTek stručnostima za mobilne SoC-ove. Takođe, kompanije poput Qualcomm-a sarađuju sa proizvođačima automobila (Mercedes, BMW) kako bi Snapdragon Cockpit i Ride platforme (sa NPU-ovima) ugradili u nova vozila za AI funkcije. Arm sarađuje sa Fujitsu-om i drugima na novim AI dizajnima čipova (kao što je AI particija superkompjutera Fugaku, iako je to vrhunski segment). Čak su i IBM i Samsung najavili nove čip tehnologije (kao što su neuromorfno računarstvo i AI memorija) koje bi jednog dana mogle da revolucionizuju NPU-ove – još nisu tu, ali pokazuju da su istraživački kanali puni.

    Sve u svemu, protekla godina je bila prepuna dešavanja, što naglašava da je AI na uređaju jedno od najuzbudljivijih područja u tehnologiji. Kako je jedan industrijski analitičar primetio, „ove mogućnosti na uređaju otvaraju potpuno nove horizonte… pokretanje LLM-ova na mobilnim uređajima pomaže u rešavanju problema obima i troškova, čuva privatnost podataka i omogućava da AI radi čak i sa ograničenom povezanošću“ [81]. To prilično dobro sumira zašto svaka velika tehnološka kompanija ulaže ovde.

    Stručni uvidi: Šta tehnološki lideri kažu o AI-u na uređaju

    Zamah iza NPU-ova i TPU-ova nije vidljiv samo u proizvodima, već i u rečima lidera iz industrije. Evo nekoliko odabranih citata i perspektiva koje osvetljavaju značaj AI-a na uređaju:

    • Kristijano Amon (generalni direktor Qualcomm-a): „Ako veštačka inteligencija treba da dostigne razmere, videćete da radi na uređajima… Ovo označava prekretnicu u AI: bez problema sa latencijom — samo besprekorno, bezbedno, na uređaju, uz dopunu oblaka. Budućnost AI je lična i počinje na vašem uređaju.” (intervju za Bloomberg i objava na X, 2023) [82]. Amon zamišlja hibridni AI svet u kojem vaš telefon/računar samostalno obrađuje mnogo toga na sopstvenim NPU-ovima, sarađujući sa oblakom kada je potrebno. On naglašava da je pokretanje AI lokalno ključno za njenu sveprisutnost (ne možete sve osloniti na cloud GPU-ove – nema ih dovoljno u svetu za milijarde uređaja).
    • Durga Maladi (SVP, Qualcomm): „Pozdravljamo Metin pristup otvorenoj i odgovornoj veštačkoj inteligenciji… Da bi se generativna AI efikasno proširila u mejnstrim, moraće da radi i u oblaku i na uređajima na ivici.” [83] Maladi je ovo rekao u kontekstu partnerstva sa Metom. Ovo ističe zajednički stav: širenje AI = oblak + ivica rade zajedno. Sada postoji razumevanje da čista cloud AI neće biti dovoljna (zbog troškova, privatnosti i latencije), pa edge AI mora da podeli opterećenje.
    • Vil Čen (zamenik generalnog direktora, MediaTek): „Budućnost AI prevazilazi oblak; pokreće je edge computing iz vaše ruke… OPPO i MediaTek predvode AI na uređaju, obezbeđujući da inteligentne mogućnosti budu snažne, brze, privatne, bezbedne i stalno dostupne.” (MediaTek Exec Talk, 2025) [84]. Ovaj citat lepo sažima vrednost AI na uređaju – dobijate performanse i dostupnost plus privatnost i bezbednost. Takođe pokazuje da čak i kompanije koje su tradicionalno manje vidljive na Zapadu (poput MediaTek-a) razmišljaju na samoj ivici razvoja AI.
    • Dr. Norman Vang (stručnjak za AI hardver, direktor startapa za čipove): „U AI hardveru, što bliže možete da postavite računanje izvoru podataka, to bolje. Radi se o smanjenju prenosa podataka. NPU pored vašeg senzora slike znači da ne šaljete megapiksele u oblak – izvlačite uvide odmah na ivici. To je prekretnica za latenciju i potrošnju energije.” (Panel na HotChips 2024 – parafrazirano). Ovaj tehnički uvid objašnjava zašto se NPU-ovi često nalaze na istom silikonu kao i drugi komponenti: npr. na SoC-u telefona, NPU može direktno da preuzme podatke sa kamere iz ISP-a. Minimizacija prenosa podataka je ogroman deo efikasne AI, a edge AI to postiže obradom na izvoru podataka.
    • Xinzhou Wu (VP za automobilsku industriju, NVIDIA): „Ubrzano računanje dovelo je do transformativnih proboja, uključujući generativnu veštačku inteligenciju, koja redefiniše autonomiju i industriju transporta.” (GTC 2024 Keynote) ts2.tech. On je govorio o tome kako moćni računari u vozilima (sa NPU/GPU jedinicama) omogućavaju automobilima ne samo da voze, već i da potencijalno uključe naprednu veštačku inteligenciju poput generativnih modela za stvari kao što su interfejsi za prirodni jezik u automobilu ili bolje razumevanje situacija. To naglašava da čak i sektori poput automobilske industrije vide veštačku inteligenciju na uređaju ne samo kao osnovnu funkcionalnost, već i kao način za poboljšanje korisničkog iskustva (npr. glasovni asistenti u automobilima koji mogu voditi razgovore zahvaljujući LLM-ovima na uređaju).
    • Sundar Pichai (CEO Google-a): „Budućnost veštačke inteligencije je u tome da bude korisna za sve. To znači da veštačku inteligenciju uvedemo u sve uređaje koje koristimo – telefone, kućne aparate, automobile – tako da je tu kada vam zatreba. Želimo da dođemo do korisnika tamo gde jesu, sa veštačkom inteligencijom koja radi u realnom vremenu, na licu mesta i čuva privatnost.” (Parafrazirano iz više intervjua/ključnih govora). Pichai često govori o „ambijentalnoj veštačkoj inteligenciji” – ideji da će veštačka inteligencija biti svuda oko nas, ugrađena u stvari. Google-ovo ulaganje u Tensor čipove u Pixel telefonima je direktna realizacija te filozofije.
    • Industrijske statistike: Analitičari su primetili ovaj trend u brojkama. Izveštaj Grand View Research-a iz 2024. navodi: „Nedavni napredak u specijalizovanim AI čipovima i NPU-ima omogućio je da složeni AI algoritmi rade direktno na uređajima, značajno poboljšavajući performanse i energetsku efikasnost… približavamo se ključnoj tranziciji ka veštačkoj inteligenciji na uređaju.” [85]. Isti izveštaj predviđa da će tržište veštačke inteligencije na uređaju eksplodirati u narednim godinama, pri čemu hardverski segment (NPU-i itd.) čini preko 60% prihoda u 2024. i raste kako gotovo svaki novi IoT ili mobilni uređaj usvaja AI mogućnosti [86]. Druga prognoza IDC-a i drugih sugeriše da će sredinom 2020-ih, gotovo svi vrhunski pametni telefoni i većina srednjeg ranga imati AI akceleratore, a da će do 2030. godine milijarde edge AI čipova biti u upotrebi, od potrošačke elektronike do pametne infrastrukture.

    Konsenzus među stručnjacima je da veštačka inteligencija na uređaju nije samo poželjna – ona je neophodna za sledeći talas tehnologije. Pionir AI-a Andrew Ng je često isticao da će „mala AI” i edge AI omogućiti da inteligencija prodre u svaki objekat, slično kao što su to nekada učinili struja ili internet. Prevazilaženjem ograničenja AI-a zasnovanog samo na oblaku, NPU i TPU omogućavaju ovo prodiranje.

    Izazov brojnih standarda (i napori da se pojednostavi)

    Dok je hardver brzo napredovao, ekosistem softvera i standarda za AI na uređaju još uvek sustiže. Programeri se suočavaju sa džunglom alata i SDK-ova kada pokušavaju da iskoriste NPU-ove na različitim uređajima [87]. Ključne tačke:
    • Svaka platforma ima svoj API ili SDK: Apple ima Core ML (sa API-jevima za Neural Engine), Android ima Neural Networks API (NNAPI) (iako je Google najavio planove da ga razvije dalje od Androida 14) [88], Qualcomm nudi SNPE (Snapdragon Neural Processing Engine) ili šire Qualcomm AI Stack, NVIDIA ima TensorRT i CUDA za svoje uređaje, i tako dalje. Tu su i ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI i drugi. Ovi različiti SDK-ovi često imaju različite mogućnosti i zahtevaju prilagođavanje modela da bi optimalno radili na svakom ciljanom uređaju. Kako je navedeno u izveštaju o AI na uređaju za 2025. godinu, „Višestruki, nekompatibilni SDK-ovi (npr. Core ML, LiteRT, ONNX Runtime) sa različitom podrškom za operatore i performansama“ primoravaju programere na dodatni rad [89].
    • Problemi fragmentacije: Model koji savršeno radi na desktop GPU-u možda neće lako raditi na NPU-u telefona – operatori (matematičke funkcije) možda nisu podržani ili moraju biti drugačije kvantizovani. Programeri ponekad moraju da održavaju posebne verzije ili ručno optimizuju modele za svaki hardver. Ovo je „niskonivojski, fragmentisani ekosistem“ prigovor [90]. Alati za debagovanje su takođe retki – profilisanje NPU-a da bi se videlo zašto je model spor može biti teško, posebno u poređenju sa bogatim alatima za CPU/GPU [91].
    • Napori za standardizaciju: Da bi se ovo rešilo, dešava se nekoliko stvari. ONNX (Open Neural Network Exchange) se pojavio kao zajednički format tako da možete trenirati model u PyTorch-u ili TensorFlow-u, a zatim ga izvesti u ONNX za implementaciju. Mnogi runtime-ovi (uključujući one na uređajima kao što su Qualcomm i MediaTek) podržavaju učitavanje ONNX modela i pokušaće da ih kompajliraju za hardver. Ovo pomaže da se izbegne vezivanje za jedan okvir. Android NNAPI je bio pokušaj Google-a da obezbedi univerzalni interfejs – aplikacija može zatražiti „pokreni ovu neuronsku mrežu“ preko NNAPI-ja i OS će koristiti bilo koji akcelerator koji je prisutan (GPU, DSP ili NPU) da je izvrši. NNAPI je usvojen na mnogim Android uređajima, ali je imao ograničenja i nisu svi proizvođači obezbedili robusne drajvere, što je navelo Google da najavi novu strategiju (verovatno oslanjanje na WebNN ili direktne integracije proizvođača) posle 2024. godine [92]. Na računarima, Microsoft je predstavio DirectML i Windows ML API-je da na sličan način apstrahuje razlike u hardveru (omogućavajući programeru da koristi isti API za NVIDIA, Intel, AMD NPU-ove).
    • Ujedinjeni alati: Kompanije takođe prave alatne lance kako bi pojednostavile implementaciju. Videli smo Qualcomm-ov AI Stack koji kombinuje njihov kompajler (AI Model Efficiency Toolkit) i runtime-ove tako da programeri lakše mogu ciljati njihov Hexagon NPU [93]. NVIDIA-ini TensorRT i srodni SDK-ovi rade slično za Jetson uređaje, optimizujući modele za GPU+NVDLA. Intel OpenVINO je još jedan primer – omogućava vam da uzmete model i optimizujete ga za Intel CPU, iGPU i VPU (NPU) za edge implementacije. Ovi okviri često uključuju optimizatore modela koji konvertuju modele (pruning, kvantizacija) da bi stali na manje uređaje.
    • Interoperabilnost: Postoji pomak ka tome da različiti NPU-ovi rade sa zajedničkim okvirima. Na primer, Google-ov TensorFlow Lite ima hardverske delegate – jedan za NNAPI (pokriva Android uređaje uopšteno), jedan za Core ML (iOS uređaji), jedan za Edge TPU itd. Ideja je da napišete svoj TFLite model i on će se izvršiti koristeći najbolji dostupni akcelerator preko delegata. Slično, PyTorch dodaje podršku za mobilne backend-ove i čak stvari kao što su Apple-ovi Metal Performance Shaders (za korišćenje GPU/NPU na iOS-u). ONNX Runtime takođe može ciljati različite akceleratore putem plugina (npr. može se priključiti NVIDIA-in TensorRT ili ARM-ova Compute Library ili drugi u pozadini).
    • Nastajući standardi:Khronos Group (iza OpenGL/Vulkan) je radio na NNEF (Neural Network Exchange Format) i postoji WebNN API o kojem se diskutuje za pristup lokalnom AI akceleratoru iz pregledača. Nijedan još nije univerzalno usvojen. Ali jedan zanimljiv razvoj: krajem 2024. godine, nekoliko kompanija je formiralo alijansu da promoviše “AI Hardware Common Layer” standarde – u suštini, istražujući da li može da se napravi zajednički niskonivojski interfejs za NPU-ove (analogno onome što je OpenCL uradio za računanje na GPU-ima). Ipak, još je rano.
    • Iskustvo programera: Ovo je priznati nedostatak. Kao što je navedeno na blogu NimbleEdge-a, „razvoj za AI na uređaju trenutno zahteva snalaženje u fragmentisanom i niskonivou ekosistemu… što primorava programere da prilagođavaju implementacije za svaki hardverski cilj“ [94]. Industrija je svesna da ovo mora da se poboljša kako bi AI na uređaju zaista postao mejnstrim. Možda ćemo videti konsolidaciju – na primer, ako bi Google, Apple i Qualcomm mogli da se dogovore oko nekog osnovnog skupa operacija i API-ja (možda pusta želja). Ili, verovatnije, okviri poput PyTorch-a i TensorFlow-a će sakriti složenost integrisanjem svih tih vendorskih biblioteka i biranjem prave u vreme izvršavanja.

    U suštini, dok NPU/TPU daju snagu, zajednica radi na alatima prilagođenim mozgu za korišćenje te snage. Dobra vest je da, u poređenju sa, recimo, pre pet godina, sada postoji mnogo više opcija za implementaciju modela na uređaju bez potrebe da budete stručnjak za čipove. Ali ima prostora za napredak – posebno u debagovanju, profilisanju i podršci za više hardvera.

    Tržišni trendovi i buduće perspektive

    Širenje NPU-a i TPU-a u uređajima pokreće veći trend: AI svuda. Evo nekoliko opštih trendova i šta očekivati u budućnosti:

    • Rast tržišta Edge AI: Istraživanja tržišta ukazuju na eksplozivan rast hardvera za edge AI. Tržište AI na uređaju (uključujući čipove i softver) predviđa se da raste po stopi od oko 29% CAGR tokom decenije [95]. Jedan izveštaj ga je procenio na oko 233 milijarde dolara u 2024, a očekuje se da pređe 1,7 biliona dolara do 2032. godine [96] – veliki deo tog rasta dolazi od edge implementacija. Druga analiza IDTechEx-a predviđa da će tržište AI čipova za edge uređaje dostići 22 milijarde dolara do 2034. godine, pri čemu su potrošačka elektronika, automobilska industrija i industrijski sektor najveći segmenti [97]. Ovo implicira da će stotine miliona uređaja godišnje biti isporučivano sa NPU-ima kao standardnom komponentom.
    • Sveprisutno usvajanje: Baš kao što svaki pametni telefon danas ima GPU (čak i ako je mali), dolazimo do tačke kada će svaki novi pametni telefon imati AI akcelerator. Skuplji telefoni ga već imaju; slede telefoni srednje klase. Zaista, čipovi srednje klase od Qualcomma (npr. Snapdragon 7 serija) i MediaTeka (Dimensity 700/800 serija) sada uključuju umanjene NPU-ove kako bi funkcije poput AI poboljšanja kamere i glasovnog asistenta radile i na jeftinijim uređajima. Osim telefona, NPU-ovi se šire na računare (standard u novim Windows laptopovima više proizvođača), automobile (gotovo svi novi automobili sa ADAS nivoom 2+ imaju neku vrstu AI čipa) i IoT. Čak i uređaji poput frižidera i veš mašina počinju da ističu “AI” funkcije (neke su bazirane na oblaku, ali neke lokalne, kao što su adaptivni ciklusi na osnovu senzora). Trend je jasan: ako uređaj ima čip za računanje, imaće neku ML akceleraciju na tom čipu.
    • Putanja performansi: AI performanse na uređaju se udvostručuju otprilike svakih 1–2 godine (kombinacija bolje arhitekture i prelaska na napredne poluprovodničke čvorove poput 5nm, 4nm, 3nm). Apple-ov Neural Engine je sa 600 milijardi operacija/sekundi 2017. stigao do 35 triliona 2023. – skoro 60× povećanje za šest godina [98]. Qualcomm-ovi vodeći modeli su slično skočili sa nekoliko TOPS 2018. na preko 27 TOPS 2023. (SD 8 Gen 3 ukupni AI proračun, računajući sve jezgre). Možemo očekivati da će do 2025–2026. mobilni NPU-ovi isporučivati 100+ TOPS, a PC akceleratori još više, a ove brojke mogu postati manje relevantne kako se fokus pomera na upotrebljive performanse za određene AI zadatke (na primer, koliki LLM možete glatko pokrenuti, ili da li možete raditi 4K AI video u realnom vremenu). Jaz između oblaka i ivice verovatno će se smanjiti za inferencijske zadatke. Ipak, ivica će i dalje zaostajati za oblakom za apsolutno najnaprednije velike modele zbog ograničenja snage i memorije.
    • Dobici u energetskoj efikasnosti: Jedan potcenjen aspekt je koliko su ovi NPU-ovi postali efikasni. Tesla-in automobilski NPU postiže ~4,9 TOPS/vat [99] što je bilo vrhunski pre par godina; sada neki mobilni NPU-ovi tvrde slične ili bolje rezultate. Efikasni NPU-ovi znače duže trajanje baterije čak i kada više koristimo AI funkcije. Takođe znači da je moguće staviti AI u male uređaje na baterije (npr. AI slušni aparati, pametni senzori na dugmet-baterijama koji detektuju anomalije). Koncept TinyML – izuzetno mala mašinsko učenje na mikrokontrolerima – je proširenje ovoga, koristeći pojednostavljene “NPU-ove” ili optimizovane instrukcije na mikrokontrolerima za AI u senzorima. ARM-ov Ethos-U NPU je namenjen tom segmentu (npr. uvek uključen prepoznavanje ključnih reči na nekoliko miliwata). Očekujte više AI-specifičnih malih čipova koji mogu biti ugrađeni u senzore, nosive uređaje i svakodnevne predmete (Pametna četkica za zube? AI detektor dima? Dolazi uskoro).
    • Hibridna cloud-edge rešenja: Umesto da edge potpuno zameni cloud, budućnost je u saradnji. Uređaji će raditi ono što mogu lokalno i obraćati se cloud-u samo za ono što ne mogu. Na primer, vaše AR naočare mogu lokalno prepoznavati scenu da bi znale šta gledate, ali ako postavite veoma složeno pitanje (kao što je detaljno objašnjenje), mogu poslati upit cloud AI-ju za snažniju analizu i zatim je prikazati. Ovaj hibridni pristup daje najbolji balans između brzine odziva i mogućnosti. Kompanije aktivno dizajniraju iskustva oko ovoga: Microsoftov Copilot na Windows-u može koristiti lokalni NPU za brzo prepoznavanje govora i razumevanje komandi, ali koristi cloud za zahtevnije zadatke (osim ako možda nemate snažan PC NPU koji to može da obradi). Idealno, korisnik ne bi trebalo da zna niti da ga zanima šta se koristi, osim što je sve brže i više poštuje privatnost. Takođe ćemo videti da federativno učenje postaje sve češće – modeli se treniraju u cloud-u, ali uz pomoć podataka koji su šifrovani ili obrađeni na uređajima, i obrnuto.
    • Nove primene: Kako NPU-ovi postaju snažniji, otvaraju se nove aplikacije. Generativni AI na uređaju je velika stvar – zamislite kreiranje AI slika, AI video montažu i lične chatbotove direktno na vašem telefonu ili laptopu. Do 2025. mogli bismo videti rane verzije offline ličnih asistenata koji mogu sažeti vaše mejlove ili sastaviti poruke bez cloud-a. Prevod u realnom vremenu tokom razgovora (dve osobe govore različite jezike, a telefoni ili slušalice prevode gotovo trenutno) biće znatno unapređen lokalnom obradom (bez kašnjenja i radi svuda). Zdravstveni AI može biti na nosivim uređajima – vaš pametni sat detektuje atrijalnu fibrilaciju ili analizira obrasce apneje tokom sna koristeći svoj NPU. Bezbednost: uređaji mogu lokalno pokretati AI za detekciju malvera ili phishinga u realnom vremenu (npr. antivirus koristi AI model na vašem uređaju umesto cloud skeniranja). A u vozilima, osim vožnje, AI može personalizovati iskustvo u automobilu (podešavanje klime na osnovu vašeg raspoloženja koje prepoznaje AI kamera okrenuta ka vozaču, itd.). Mnoge od ovih primena zahtevaju brzu iteraciju i privatnost, što odgovara obradi na uređaju.
    • Konkurencija i demokratizacija: Veliki igrači će nastaviti da se takmiče, što je dobro za potrošače – očekujte marketing tipa „naš AI čip radi X TOPS ili omogućava Y funkciju koju drugi ne mogu“. Ali takođe, tehnologija se demokratizuje – NPU-ovi nisu više samo u telefonima od 1000 dolara; dolaze u telefone od 300 dolara, IoT ploče od 50 dolara (Coral, Arduino Portenta, itd.), a open-source zajednice prave male AI modele koje hobisti mogu pokretati na Raspberry Pi-ju ili mikrokontroleru sa osnovnim akceleratorom. Ova široka dostupnost znači da inovacije mogu doći sa bilo kog mesta. Sada jedan programer može napraviti aplikaciju koja koristi AI na uređaju za nešto pametno bez potrebe za server farmom – spuštajući prag za ulazak u AI softver.
    • Tehnologija budućnosti: Gledajući dalje unapred, istraživanja u oblasti neuromorfnih računara (čipovi inspirisani mozgom poput Intel Loihi) i analognih AI čipova jednog dana bi mogla da revolucionizuju NPU-ove, nudeći višestruko veću efikasnost. Kompanije poput IBM-a i BrainChip-a rade na ovome. Ako budu uspešni, neuromorfni čip bi mogao omogućiti da složena veštačka inteligencija neprekidno radi na malim uređajima na baterije. Takođe, mogli bismo videti 3D slaganje i novu memorijsku tehnologiju integrisanu u NPU-ove kako bi se prevazišla uska grla u memoriji (neki čipovi posle 2025. mogli bi koristiti HBM memoriju ili novu nevolatilnu memoriju na čipu za brže napajanje AI jezgara). Očekujte i više specijalizacije unutar AI čipova: npr. posebni akceleratori za viziju, za govor, za modele preporuka itd., svaki podešen za svoju oblast. Neki SoC-ovi već imaju dva NPU-a (jedan “veliki” NPU za teške zadatke, jedan mikro NPU u senzorskom habu za stalno aktivne lake zadatke).

    Zaključno, pravac je jasan: NPU-ovi i TPU-ovi postaju standardni i neophodni kao i CPU-ovi u modernom računarstvu. Omogućavaju uređajima da budu pametniji, brži i da više poštuju našu privatnost. Kao što je jedan izveštaj naveo, “procesorske jedinice visokih performansi na uređajima su uglavnom odgovorne za izvršavanje složenih AI funkcija kao što su prepoznavanje slika, NLP i donošenje odluka u realnom vremenu”, a to pokreće pametniju i bržu tehnologiju u svim sektorima [100].

    Ulazimo u eru u kojoj ćete jednostavno očekivati da vaš uređaj razume i predviđa vaše potrebe – vaš telefon uređuje fotografije i piše poruke u vašem stilu, vaš automobil izbegava nesreće i zabavlja vas uz pomoć AI, vaši kućni uređaji uče vaše navike – a sve to omogućavaju tihi neuronski procesori u njima. AI na uređaju nije naučna fantastika; ona je već tu i brzo napreduje. Spoj NPU-ova i TPU-ova sa našim svakodnevnim uređajima čini AI ličnom, sveprisutnom i privatnom – zaista donoseći moć inteligencije iz oblaka na zemlju (ili bar, u vaš džep).

    Izvori:

    • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27. avgust 2024. [101]. Opisuje uloge i razlike između CPU-ova, GPU-ova, TPU-ova i NPU-ova u AI radnim opterećenjima.
    • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023. [102]. Objašnjenje Google-ovog TPU dizajna (sistolni nizovi, niska preciznost) i upotrebe NPU-ova u mobilnim uređajima.
    • TechTarget WhatIs. „Tensor processing unit (TPU).“ whatis.techtarget.com, 2023 [103]. Napominje da su TPU-ovi specijalizovani za zadatke matrične matematike, a NPU-ovi imitiraju neuronske mreže mozga radi ubrzanja [104].
    • NimbleEdge Blog (Neeraj Poddar). „Stanje AI na uređaju: Šta nedostaje u današnjem okruženju.“ 26. jun 2025. [105]. Navodi prednosti AI na uređaju (latencija, rad bez interneta, privatnost, trošak) i izazove kao što su fragmentisani SDK-ovi.
    • Qualcomm (OnQ Blog). „Bloomberg i Cristiano Amon razgovaraju o AI na uređaju.“ jul 2023 [106]. CEO Qualcomma o važnosti inferencije na uređaju za budućnost AI (citirana objava o prekretnici u AI).
    • MediaTek Blog (Exec Talk by Will Chen). „Oblikovanje budućnosti AI mobilnih iskustava.“ 3. mart 2025 [107]. Saradnja MediaTeka i Oppo-a na NPU-ovima; citat o edge računarstvu u vašoj ruci i primer AI remasterizacije fotografija pomoću NPU-a.
    • I-Connect007 / Qualcomm Press. „Qualcomm sarađuje sa Meta-om na omogućavanju AI na uređaju (Llama 2).“ 24. jul 2023 [108]. Saopštenje za medije sa citatom SVP-a Qualcomma Durge Malladija o skaliranju generativnog AI putem edge uređaja i oblaka.
    • PCWorld (Mark Hachman). „Intelovi Core Ultra CPU-ovi čine AI jednostavnim….“ 24. oktobar 2024 [109]. Razmatra Intel Arrow Lake koji koristi Meteor Lake-ov NPU (13 TOPS) i napominje AMD-ov Ryzen 8000 NPU sa 39 TOPS i Microsoftov zahtev za „Copilot“ od 40 TOPS.
    • Ts2 (Tech Empowerment). „Obračun superračunara za autonomnu vožnju: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” sept. 2023 ts2.tech. Pruža procene TOPS: Tesla HW3 vs HW4 (72→100 TOPS po čipu) ts2.tech, NVIDIA Thor ~1000 TOPS (ili 2000 sa dva čipa) ts2.tech i citira potpredsednika NVIDIA o generativnoj veštačkoj inteligenciji u vozilima ts2.tech.
    • Grand View Research. „Izveštaj o tržištu AI na uređajima, 2030.” 2024 [110]. Navodi porast specijalizovanih AI čipova (NPU) koji omogućavaju složenu veštačku inteligenciju na uređajima, i da je hardver činio 60,4% tržišta AI na uređajima u 2024, podstaknuto pametnim telefonima, IoT, NPU itd.
    • Google Blog. „Google Tensor G3: AI-prvi procesor za Pixel 8.” okt. 2023 [111]. Opisuje unapređenja Tensor G3 za generativnu veštačku inteligenciju na uređaju, novi TPU dizajn i model TTS na uređaju jednak kvalitetu data centra.
    • Techspot. „Snapdragon 8 Gen 3 donosi generativnu veštačku inteligenciju na pametne telefone.” okt. 2023 [112]. Analiza Futurum Group detaljno opisuje AI engine SD8Gen3: 10B param LLM na uređaju, 98% brži NPU, najbrži Stable Diffusion na telefonu na svetu, itd., kao i prednosti LLM na uređaju za cenu/privatnost/oflajn [113].
    • Apple Wiki (Fandom). „Neural Engine.” Ažurirano 2025. [114]. Istorija verzija Neural Engine-a sa A17 Pro 35 TOPS u 2023, itd. Prikazuje evoluciju od 0,6 TOPS (A11) do 35 TOPS (A17) [115] i M4 sa 38 TOPS [116].
    • EnGenius Tech. „Cloud Edge Camera AI Surveillance.” 2023. [117]. Primer sigurnosne kamere sa ugrađenim NPU-om koji omogućava AI obradu na samoj kameri i lokalno skladištenje (nije potreban NVR).
    • EmbedL. „Amazon objavljuje AZ1 Neural Edge Processor.” okt. 2020. [118]. Razmatra Amazonov AZ1 edge NPU za Echo uređaje, napravljen u saradnji sa MediaTek-om, dizajniran za obradu govora na uređaju radi smanjenja latencije i zavisnosti od oblaka [119].
    NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

    References

    1. www.techtarget.com, 2. www.techtarget.com, 3. www.backblaze.com, 4. www.backblaze.com, 5. www.backblaze.com, 6. www.backblaze.com, 7. www.backblaze.com, 8. www.backblaze.com, 9. coral.ai, 10. www.backblaze.com, 11. www.techtarget.com, 12. www.backblaze.com, 13. www.techtarget.com, 14. www.techtarget.com, 15. www.techtarget.com, 16. www.backblaze.com, 17. futurumgroup.com, 18. fuse.wikichip.org, 19. fuse.wikichip.org, 20. fuse.wikichip.org, 21. www.backblaze.com, 22. semianalysis.com, 23. www.backblaze.com, 24. www.techtarget.com, 25. www.techtarget.com, 26. www.techtarget.com, 27. www.nimbleedge.com, 28. www.nimbleedge.com, 29. www.nimbleedge.com, 30. www.moomoo.com, 31. www.nimbleedge.com, 32. futurumgroup.com, 33. www.nimbleedge.com, 34. iconnect007.com, 35. x.com, 36. apple.fandom.com, 37. apple.fandom.com, 38. blog.google, 39. blog.google, 40. blog.google, 41. futurumgroup.com, 42. futurumgroup.com, 43. www.engeniustech.com, 44. coral.ai, 45. www.embedl.com, 46. www.embedl.com, 47. apple.fandom.com, 48. www.grandviewresearch.com, 49. www.grandviewresearch.com, 50. apple.fandom.com, 51. apple.fandom.com, 52. apple.fandom.com, 53. blog.google, 54. www.reddit.com, 55. blog.google, 56. blog.google, 57. blog.google, 58. coral.ai, 59. blog.google, 60. futurumgroup.com, 61. futurumgroup.com, 62. futurumgroup.com, 63. iconnect007.com, 64. iconnect007.com, 65. iconnect007.com, 66. www.mediatek.com, 67. www.mediatek.com, 68. www.pcworld.com, 69. www.pcworld.com, 70. www.pcworld.com, 71. www.pcworld.com, 72. www.pcworld.com, 73. en.wikipedia.org, 74. www.pcworld.com, 75. www.pcworld.com, 76. www.androidauthority.com, 77. futurumgroup.com, 78. www.pcworld.com, 79. www.notateslaapp.com, 80. www.grandviewresearch.com, 81. futurumgroup.com, 82. x.com, 83. iconnect007.com, 84. www.mediatek.com, 85. www.grandviewresearch.com, 86. www.grandviewresearch.com, 87. www.nimbleedge.com, 88. www.threads.com, 89. www.nimbleedge.com, 90. www.nimbleedge.com, 91. www.nimbleedge.com, 92. www.threads.com, 93. iconnect007.com, 94. www.nimbleedge.com, 95. www.nimbleedge.com, 96. www.nimbleedge.com, 97. www.idtechex.com, 98. apple.fandom.com, 99. fuse.wikichip.org, 100. www.grandviewresearch.com, 101. www.techtarget.com, 102. www.backblaze.com, 103. www.techtarget.com, 104. www.techtarget.com, 105. www.nimbleedge.com, 106. x.com, 107. www.mediatek.com, 108. iconnect007.com, 109. www.pcworld.com, 110. www.grandviewresearch.com, 111. blog.google, 112. futurumgroup.com, 113. futurumgroup.com, 114. apple.fandom.com, 115. apple.fandom.com, 116. apple.fandom.com, 117. www.engeniustech.com, 118. www.embedl.com, 119. www.embedl.com

    Don't Miss