NPU:er vs. TPU:er: Så tar enhetsbaserad AI dina prylar till nästa nivå 2025

september 30, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple startade med AI på enheten 2017 med iPhone A11:s Neural Engine, vilket möjliggjorde Face ID och Animoji med upp till 600 miljarder operationer/sek.
  • År 2023 levererade iPhone A17 Pro:s 16-kärniga Neural Engine cirka 35 TOPS, och drev funktioner för tal, fotografering och översättning direkt på enheten.
  • Google Pixel 8 (2023) använder Tensor G3 NPU för att köra AI-modeller på enheten, såsom Palm 2 för offline-översättning och sammanfattning.
  • Googles Edge TPU på Coral Dev Board levererar 4 TOPS för bildbehandling vid några få watt.
  • Teslas Full Self-Driving-hårdvara har två NPU:er: HW3 (2019) erbjöd cirka 144 TOPS, och HW4 (2023) runt 200–250 TOPS.
  • NVIDIA Drive Thor (avslöjad 2024) kan nå upp till 2000 TOPS när två chip kopplas ihop för AI-arbetsbelastningar inom fordonsindustrin.
  • Qualcomms Snapdragon 8 Gen 3 (2023) Hexagon NPU är 98 % snabbare än Gen 2, kan köra LLM:er med upp till 10 miljarder parametrar på enheten och uppnådde världens snabbaste mobila Stable Diffusion i demonstrationer.
  • MediaTeks Dimensity 9400 (2024) med sjätte generationens APU driver Oppo Find X8:s AI-fotoförbättring, vilket signalerar att NPU:er expanderar till TV-apparater, IoT och bilar till 2025.
  • Intels Meteor Lake, 14:e generationens Core (lanserad 2023; omdöpt till Core Ultra 2024), inkluderar en integrerad NPU som levererar cirka 8–12 TOPS, med Arrow Lake på ~13 TOPS och Lunar Lake ryktas ligga runt 45 TOPS.
  • AMD:s Ryzen 7040 Phoenix (2023) introducerade Ryzen AI Engine med upp till 10 TOPS, medan Ryzen 8000 desktop (tidigt 2024) erbjöd 39 TOPS innan AMD pausade NPU:er i den generationen.

Kort sagt: Din smartphone, kamera och till och med din bil får inbyggda AI-hjärnor – ingen molntjänst krävs. Speciella chip som kallas NPU:er (Neural Processing Units) och TPU:er (Tensor Processing Units) förvandlar vardagsprylar till intelligenta assistenter som klarar ansiktsigenkänning, röstkommandon, översättning i realtid, självkörande funktioner och mer. Denna AI-revolution på enheten lovar blixtsnabba svar, bättre integritet och nya funktioner vi tidigare trodde bara var möjliga med superdatorer. I denna rapport kommer vi att avmystifiera NPU:er och TPU:er, se hur de skiljer sig från CPU:er/GPU:er och utforska varför teknikjättar som Apple, Google, Qualcomm och Intel tävlar om att stoppa in dessa “AI-hjärnor” i allt från telefoner till bilar. Vi lyfter även fram de senaste genombrotten 2024–2025, expertinsikter, industristandarder och vad framtiden har att erbjuda för AI på enheten.

Vad är NPU:er och TPU:er? (Möt din enhets AI-hjärna)

Neurala bearbetningsenheter (NPUs) är specialiserade processorer utformade för att påskynda artificiella neurala nätverk – algoritmerna som driver moderna AI-uppgifter som bildigenkänning, talbearbetning och mer. Till skillnad från allmänna CPU:er är NPUs application-specific integrated circuits (ASICs) optimerade för matrisberäkningar och de tunga parallella arbetsbelastningarna hos neurala nätverk [1]. En NPU ”imiterar de neurala nätverken i en mänsklig hjärna för att påskynda AI-uppgifter” och fungerar i princip som en silicon brain inuti din enhet [2]. NPUs är mycket effektiva på att köra inferens (göra förutsägelser) för AI-modeller direkt på enheten, ofta med lägre numerisk precision (t.ex. 8-bitars heltal) för att spara energi men ändå leverera hög prestanda [3]. Termen ”NPU” används ibland brett för alla AI-acceleratorer, men syftar oftare på de som finns i mobila och edge-enheter [4]. Till exempel är Apples ”Neural Engine” i iPhones och Samsungs mobila AI-motor NPUs integrerade i deras system-on-chip (SoC)-designer.

Tensor Processing Units (TPUs), å andra sidan, utvecklades av Google som specialanpassade chip för att accelerera maskininlärning, särskilt för TensorFlow-ramverket. En TPU är en typ av ASIC som är optimerad för tensoroperationer (matrismultiplikationer, etc.) som är kärnan i träning och inferens av neurala nätverk [5]. Google implementerade först TPUs i sina datacenter 2015 för att snabba upp beräkningar av neurala nätverk, och gjorde dem senare tillgängliga via Google Cloud [6]. TPUs använder en distinkt arkitektur som kallas systolisk array, som kopplar samman många små processorenheter i ett rutnät som pumpar data genom en kedja av matrismultiplikationsenheter [7]. Denna design uppnår extrem genomströmning vid deep learning-uppgifter. Googles TPUs kompromissar med viss precision (använder 8-bitars eller 16-bitars matematik istället för 32-bitars flyttal) för enorma vinster i hastighet och effektivitet [8], eftersom många AI-uppgifter inte kräver hög precision för att ge exakta resultat. Även om “TPU” tekniskt syftar på Googles chip, används termen ibland mer generellt för vilken “tensor”-accelerator som helst. Google producerar även Edge TPU-koprocessorer för AI direkt på enheten i produkter som Coral Dev Board, med 4 biljoner operationer per sekund på bara några watt [9].

Sammanfattningsvis: NPU:er och TPU:er är båda kiselacceleratorer för AI, men NPU:er är vanligtvis inbyggda i mobila/enhetsnära system för effektiv inferens på enheten, medan TPU:er (i strikt mening) har varit högpresterande chip (och nu moduler) främst från Google, ursprungligen för träning och inferens i moln/datacenter. Båda skiljer sig från traditionella CPU/GPU-designer för att prioritera parallella matematiska operationer för neurala nätverk. Som en teknikredaktör uttryckte det: “TPU:er tar specialiseringen längre, med fokus på tensoroperationer för att uppnå högre hastigheter och energieffektivitet… NPU:er är vanliga i AI-utrustade enheter som smartphones och IoT-prylar” [10].

Hur skiljer sig NPU:er och TPU:er från CPU:er och GPU:er?

Traditionella CPU:er (centralenheter) är “hjärnan” i allmän databehandling – optimerade för flexibilitet för att hantera alla möjliga uppgifter, från att köra ditt operativsystem till att surfa på webben. De har några få kraftfulla kärnor som är utmärkta på sekventiell logik och varierade instruktioner, men de är inte särskilt bra på den höggradigt parallella matematiska beräkning som krävs för djupinlärning [11]. När en CPU ombeds att bearbeta ett stort neuralt nätverk blir den ofta en flaskhals, då den försöker utföra miljoner multiplikationer och additioner i följd eller i begränsade parallella omgångar. Detta leder till hög latens och strömförbrukning (den så kallade Von Neumann-flaskhalsen där stora mängder data skickas mellan CPU och minne) [12]. CPU:er kan utföra viss AI-arbete (särskilt enklare eller mindre modeller, eller styrlogik för AI-program [13]), men som regel har de svårt att effektivt skala upp till modern AI:s krav på massivt parallell linjär algebra.

GPU:er (grafikprocessorer) förde parallell databehandling till rampljuset. Ursprungligen skapade för att rendera bilder genom att utföra många enkla operationer parallellt på pixlar och verticer, visade det sig att GPU:er passade mycket bra för att träna neurala nätverk, vilket också innebär att samma matematiska operationer (skalärprodukter, etc.) tillämpas på stora datamängder samtidigt [14]. En GPU innehåller hundratals eller tusentals små kärnor som kan utföra matematiska operationer parallellt. Detta gör GPU:er utmärkta för storskalig AI, och under 2010-talet blev GPU:er (särskilt NVIDIAs med CUDA-programvara) arbetshästen inom djupinlärningsforskning. Dock är GPU:er fortfarande något generella – de måste hantera olika grafikuppgifter och behålla flexibilitet, så de är inte 100 % optimerade för neurala nätverk. De drar också mycket ström och kräver noggrann programmering för att utnyttjas fullt ut (de ogillar komplexa förgreningar i koden och trivs bäst med strömlinjeformade, dataparellella uppgifter) [15].

NPU:er och TPU:er tar specialiseringen ännu längre. De är specialbyggda för just neurala nätverksarbetsbelastningar. Det innebär att deras arkitektur kan ta bort allt som inte behövs för AI-matematik och ägna mer kisel åt saker som matrismultiplicerande enheter, ackumuleringsaddare och inbyggt minne för att snabbt flytta data in och ut ur dessa matematiska enheter. En Google Cloud TPU är till exempel i princip ett gigantiskt 2D-nät av MAC (multiply-accumulate) enheter med en smart dataflödesarkitektur (den systoliska matrisen) som matar dem med operander i hög hastighet [16]. Den bryr sig inte om cacheminnen, spekulativ exekvering eller andra CPU-funktioner – den är optimerad för matrismatematik. NPU:er i mobilchip integrerar på liknande sätt dedikerade neuralmotor-kärnor vid sidan av CPU/GPU. Dessa kärnor använder ofta aritmetik med låg precision (t.ex. 8-bitars heltal som TPU:er) och kör mycket parallella “lager-för-lager”-beräkningar för saker som konvolutionella neurala nätverk. En NPU kan använda en “fuserad” arkitektur som kombinerar skalär-, vektor- och tensorenheter (Qualcomms Hexagon NPU gör detta) för att effektivt hantera olika neurala nätverksoperationer [17].

De viktigaste skillnaderna handlar om:

  • Instruktionsuppsättning och flexibilitet: CPU:er har en bred, allmän instruktionsuppsättning (kan göra många saker, men inte alla samtidigt). GPU:er har en mer begränsad men ändå flexibel instruktionsuppsättning optimerad för genomströmning av matematik. NPU:er/TPU:er har en mycket smal instruktionsuppsättning – i princip bara de operationer som behövs för neurala nätverk (matrismultiplikation, konvolution, aktiveringsfunktioner), ofta implementerade som fasta pipelines eller matriser [18]. Till exempel har Teslas självkörande NPU bara 8 instruktioner i sin ISA, fokuserade på DMA-läsningar/skrivningar och skalärprodukter [19].
  • Parallellism och kärnor: CPUs = några få kraftfulla kärnor; GPUs = tusentals enkla kärnor; NPUs/TPUs = i viss mening, tiotusentals mycket enkla ALUs (MAC-enheterna) strukturerade i en matris- eller neuronnätsliknande arkitektur. Ett enda NPU-chip kan utföra tiotals biljoner operationer per sekund – Teslas bil-NPU körs i 2 GHz med 9 216 MACs, och uppnår ~37 teraoperationer per sekund (TOPS) per kärna, och varje FSD-chip har två NPUs för ~74 TOPS [20], ts2.tech. Som jämförelse kan en avancerad CPU bara nå några hundra miljarder operationer/sekund vid AI-uppgifter, och en GPU kanske några TOPS om man inte använder speciella tensorkärnor.
  • Minnesarkitektur: NPUs/TPUs förlitar sig på snabb inbyggd minne och dataströmning. TPUs undviker den klassiska minnesflaskhalsen genom att använda systolisk dataflöde – varje liten enhet skickar data till nästa i takt, vilket minimerar läsningar/skrivningar till huvudminnet [21]. Många NPUs har en del SRAM på chipet för vikter/aktiveringar (t.ex. Teslas NPU-kärnor har 32 MB SRAM vardera för att lagra neuronnätsdata lokalt) [22]. Detta skiljer sig från GPUs/CPUs som använder extern DRAM i stor utsträckning.
  • Precision: CPUs/GPUs använder vanligtvis 32-bitars eller 64-bitars flyttal för beräkningar. AI-acceleratorer använder ofta 16-bitars eller 8-bitars heltal (och vissa utforskar nu 4-bitars eller till och med 2-bitars) eftersom neuronnät tolererar lägre precision. Googles TPU-designers påpekade uttryckligen att man inte behöver full flyttalsprecision för inferens, analogt med “du behöver inte veta exakt hur många regndroppar som faller för att veta att det regnar kraftigt” [23]. Detta gör att NPUs/TPUs kan utföra fler operationer parallellt och använda mindre energi per operation.
  • Användningsområden: GPUs används fortfarande i stor utsträckning för träning av stora modeller och för flexibel beräkning (och de är vanliga i datacenter och avancerade PC). TPUs (moln) är inriktade på storskalig träning och inferens i Googles ekosystem. NPUs finns oftare i edge-enheter – smartphones, kameror, hushållsapparater – som gör inferens på redan tränade modeller. De är särskilt bra på uppgifter som att tillämpa en visionsmodell på en kamerabild i realtid, eller köra röstassistentens väckningsord kontinuerligt med låg strömförbrukning. Som TechTarget noterade: “GPUs väljs för tillgänglighet och kostnadseffektivitet i många ML-projekt; TPUs är vanligtvis snabbare och mindre precisa, används av företag på Google Cloud; NPUs finns ofta i edge/mobila enheter för betydligt snabbare lokal bearbetning” [24].

Sammanfattningsvis, CPU:er = mångsidiga organisatörer, GPU:er = parallella arbetshästar, TPU:er/NPU:er = specialister på neurala nätverk. Alla kan samarbeta – faktiskt, i en modern AI-aktiverad enhet koordinerar CPU:n ofta uppgifter och avlastar de matematiskt tunga delarna till NPU/GPU vid behov [25]. Denna specialiseringstrend finns eftersom en lösning inte längre passar alla inom databehandling: som en redaktör skämtsamt sa, ”att lägga till miljoner fler transistorer för varje behov var inte bra för effektiviteten… designers omfamnade specialbyggda processorer” [26]. Specialbyggda NPU:er och TPU:er snabbar upp AI-beräkningar drastiskt samtidigt som de håller strömförbrukningen låg – en avgörande balans för både batteridrivna enheter och högdensitetsservrar.

Varför AI på enheten? (Edge vs. Cloud)

Varför bry sig om att köra AI på din telefon eller bil överhuvudtaget – varför inte bara skicka allt till molnet där gigantiska servrar (med GPU:er/TPU:er) kan göra det tunga arbetet? Det finns flera övertygande skäl som driver övergången till AI på enheten, och de handlar om hastighet, integritet, kostnad och tillförlitlighet [27]:

  • Omedelbar respons (låg latens): En NPU på enheten kan bearbeta data i realtid utan fördröjningen av att skicka data till en molnserver. Detta är avgörande för interaktiva eller säkerhetskritiska AI-uppgifter. Till exempel kan ett bilens autonoma körsystem med inbyggda NPU:er identifiera en fotgängare och bromsa omedelbart, inom millisekunder, istället för att vänta på beräkning i molnet. En smart kamera med en NPU kan upptäcka en inkräktare i samma ögonblick som de syns i bild. På din telefon innebär AI på enheten att din röstassistent kan svara snabbare och mer naturligt eftersom den inte ständigt ”ringer hem.” Minskad latens möjliggör verklig realtidsbeslutsfattande och en smidigare användarupplevelse [28].
  • Integritet och datasäkerhet: AI på enheten håller dina data lokala. Istället för att strömma din mikrofonljud eller kameraflöde till molnet för analys, sker bearbetningen inom enheten. Detta minskar exponeringen av känsliga data avsevärt. Till exempel utför moderna smartphones ansiktsigenkänning (Face ID, etc.) helt på enheten – din ansikts biometriska karta lämnar aldrig telefonens säkra område. På liknande sätt kan ett AI-hörapparat eller en hälsowearable analysera biometriska data utan att ladda upp dem till någon server, vilket bevarar integriteten. Med tanke på ökande användaroro och regleringar kring datasuveränitet är detta en stor fördel. Som en edge AI-blogg uttryckte det, innebär bearbetning på enheten att “användardata inte behöver överföras till molnet,” vilket ger en grundläggande integritetsfördel [29]. (Självklart är integritet inte automatiskt – utvecklare måste fortfarande hantera lagrade data noggrant – men det är lättare att lita på enheter som inte ständigt skickar ut din information.) Teknik-VD:ar betonar ofta denna aspekt. Qualcomms VD Cristiano Amon noterade att kombinationen av moln- och enhetsintelligens kan förbättra personalisering samtidigt som data hålls säkra på enheten – han kallar det en “hybridframtid” där AI på enheten samarbetar med moln-AI för det bästa av båda [30].
  • Tillgänglighet offline & tillförlitlighet: Enheter med NPU:er/TPU:er är inte beroende av uppkoppling. De kan fungera i en tunnelbana, på ett flygplan, i avlägsna landsbygdsområden eller under nätverksavbrott. Detta är avgörande för tillförlitligheten. En röstinmatningsfunktion på enheten fungerar fortfarande utan signal. En drönare med ombord vision-AI kan undvika hinder även utanför nätet. Denna självständighet är också avgörande för uppdragkritiska system: t.ex. katastrofåterhämtningsrobotar eller medicintekniska produkter som inte kan förutsätta en aktiv internetanslutning. “Offline-funktionalitet” är en kärnfördel med AI på enheten [31] – det säkerställer att AI-funktionen är tillgänglig när och var den än behövs.
  • Kostnadseffektivitet i stor skala: Att ständigt skicka rådata till molnet för AI-bearbetning kan vara mycket kostsamt (molnberäkning är inte gratis) och bandbreddskrävande. När AI-funktioner ökar skulle företag behöva betala enorma molnbearbetningskostnader om varje liten uppgift skickades till en server. Genom att göra mer på kanten minskar de belastningen på molnservrar och nätverksanvändning. Det är ofta mer effektivt att lägga några extra dollar på ett bättre chip i enheten än att betala för gigabyte av molnberäkning under enhetens livslängd. En branschanalys från Futurum noterade att bearbetning på enheten hjälper till att hantera generativ AI:s skalnings- och kostnadsproblem – det “sprider ut” belastningen så att datacenter inte överbelastas (och användare/utvecklare slipper betala skyhöga priser för moln-GPU-tid) [32].
  • Personalisering & Kontext: En framväxande anledning: AI på enheten kan lära sig av och anpassa sig till lokal kontext på ett sätt som moln-AI kanske inte kan. Din smartphone kan ha en liten lokal modell som lär sig din sms-stil för bättre autokorrigering, utan att dela den personliga språkmodellen till molnet. Enheter kan kombinera data från flera sensorer i realtid (något som är lättare att göra lokalt än att strömma en massa sensorflöden till molnet). Detta kan möjliggöra en mer personlig och kontextmedveten upplevelse. Vissa funktioner som federated learning gör det till och med möjligt för enheter att förbättra AI-modeller tillsammans utan att ladda upp rådata (skickar bara tillbaka små viktuppdateringar).
  • Reglering och datasuveränitet: Lagar som Europas GDPR och olika krav på datalokalisering kräver i allt högre grad att viss data (särskilt personlig eller känslig data) inte skickas utomlands eller till tredje part utan samtycke. AI på enheten erbjuder ett sätt att följa reglerna genom att bearbeta data vid källan. Till exempel kan AI-verktyg för medicinsk bildbehandling köras på sjukhusets hårdvara (edge-servrar med NPU:er) så att patientdata aldrig lämnar byggnaden, vilket uppfyller sekretessregler. NimbleEdge’s rapport för 2025 påpekar att regeringar driver på för mer lokal inferens av suveränitets- och regelefterlevnadsskäl [33].

Alla dessa faktorer driver på ett paradigmskifte: istället för att tänka “cloud-first” för AI, designar företag nu AI-funktioner “device-first” när det är möjligt. Som Qualcomms AI VP, Durga Malladi, sammanfattade: “För att effektivt skala generativ AI till mainstream, måste AI köras både i molnet och på enheter vid kanten… såsom smartphones, laptops, fordon och IoT-enheter” [34]. Vi går mot en hybrid AI-värld där tung träning och stora modeller kan finnas i molnet, men många inferensuppgifter och personliga AI-upplevelser körs lokalt på NPU:er/TPU:er i dina händer och hem. Faktum är att Amon kallar det en “vändpunkt för AI” – inferens på enheten utan latens, där “AI:s framtid är personlig” eftersom den körs precis där du är [35].

AI på enheten i praktiken: Från smartphones till självkörande bilar

Specialiserade AI-chip är redan inbyggda i en mängd olika enheter runt omkring dig, ofta osynligt och gör dem smartare. Här är några stora områden där NPU:er och edge-TPU:er används:

  • Smartphones & surfplattor: Nästan alla moderna flaggskeppstelefoner (och till och med många mellanklassmodeller) har nu en NPU eller dedikerad AI-motor. Apple startade trenden 2017 med Apple Neural Engine i iPhones A11-chip, vilket möjliggjorde Face ID och Animoji direkt på enheten genom att utföra upp till 600 miljarder operationer/sekund [36]. Idag har Apples A17 Pro-chip (2023) en 16-kärnig Neural Engine som klarar av 35 biljoner operationer per sekund [37]. Detta driver funktioner som avancerad scenigenkänning i kameran, fotostilar, Siri-röstkommandon som behandlas offline, autokorrigering, live-transkribering och till och med körning av transformer-modeller för översättning direkt på enheten. Googles Pixel-telefoner har också egenutvecklade kretsar (“Google Tensor”-SoC:er) med NPU:er; den senaste Tensor G3 i Pixel 8 var “specialdesignad för att köra Googles AI-modeller”, och uppgraderade varje del av chipet (CPU, GPU, ISP) för att bana väg för generativ AI på enheten [38]. Pixel 8 kan köra Googles mest avancerade text-till-tal- och översättningsmodeller lokalt, samma som tidigare bara fanns i datacenter [39]. Den utför också komplexa kamerafunktioner som “Best Take”-sammanfogning av gruppfoton och Audio Magic Eraser med hjälp av en uppsättning AI-modeller direkt på enheten [40]. Samsung och andra Android-tillverkare använder Qualcomms Snapdragon-chip, vars senaste NPU:er (Hexagon AI-motor) till och med kan köra stora språkmodeller på telefonen – Qualcomm demonstrerade att köra en språkmodell med 10 miljarder parametrar och även Stable Diffusion-bildgenerering på en telefon med Snapdragon 8 Gen 3 [41]. Denna chips AI-motor är 98 % snabbare än förra generationen och stöder INT4-precision för effektivitet [42]. Praktisk konsekvens: din telefon 2024 kan göra saker som att sammanfatta artiklar, svara på frågor eller redigera foton med AI utan att behöva molnet. Även tillgänglighetsfunktioner gynnas: t.ex. har Pixel-telefoner nu röstinmatning på enheten, live-textning och en kommande funktion för att beskriva bilder för blinda användare med en lokal modell.
  • Smarta kameror & säkerhetssystem: AI-aktiverade kameror använder inbyggda NPU:er för att omedelbart upptäcka personer, ansikten, djur eller misstänkt beteende. Till exempel har EnGenius senaste säkerhetskameror en inbyggd NPU som hanterar objektdetektering och konverterar video till metadata direkt i kameran, vilket eliminerar behovet av en separat videoinspelare och ökar säkerheten (eftersom videon kan analyseras och lagras lokalt) [43]. Det innebär att din säkerhetskamera kan avgöra ”person närvarande” eller ”paket levererat” och bara skicka den varningen, istället för att strömma timmar av videomaterial till en molntjänst. På liknande sätt hade konsumentenheter som Google Nest Cam IQ ett visionschip på enheten (Google Edge TPU) för att känna igen bekanta ansikten och skilja mellan människor och husdjur i sitt synfält. DSLR- och spegellösa kameror lägger också till AI-processorer för saker som motivspårning, ögonautofokus och scenoptimering i realtid. I drönare hjälper inbyggda AI-chip till med hinderundvikande och visuell navigering utan att kräva fjärrkontroll. Särskilt Googles Edge TPU (en liten ASIC-modul) har blivit ett populärt tillägg för DIY- och industriella IoT-kameror – den ger 4 TOPS av visionsprocessorkraft för uppgifter som att upptäcka personer eller läsa registreringsskyltar, samtidigt som den bara använder ~2 watt [44].
  • Smarta hem & IoT-enheter: Utöver telefoner har många smarta hem-prylar små NPU:er. Röstaktiverade högtalare (Amazon Echo, Google Nest Hub, etc.) har nu ofta lokala röstigenkänningschip. Amazon utvecklade AZ1 Neural Edge-processor för Echo-enheterna för att snabba upp Alexas väckningsordsdetektering och svar på enheten, vilket halverar fördröjningen [45]. AZ1 (byggd med MediaTek) kör ett neuralt nätverk som känner igen ”Alexa” och behandlar enkla kommandon utan att nå molnet [46]. Detta gör inte bara Alexa snabbare utan håller också mer röstdata privat. På samma sätt har många nya TV-apparater, hushållsapparater och till och med leksaker någon form av AI vid kanten – t.ex. kan en smart kylskåpskamera identifiera matvaror och utgångsdatum lokalt. Wearables förtjänar också att nämnas: Apple Watch S9-chip lade till en 4-kärnig Neural Engine för att bättre hantera hälso-AI-algoritmer och Siri-förfrågningar direkt på klockan [47]. Och på den industriella sidan kan IoT-sensorer med NPU:er utföra avvikelsedetektering på utrustningsdata direkt vid kanten, och bara flagga relevanta händelser uppströms (sparar bandbredd och svarar snabbare på problem).
  • Bilar (ADAS och autonomi): Bilar har blivit AI-nav på hjul. Avancerade förarassistanssystem (ADAS) och självkörande funktioner förlitar sig på en uppsättning inbyggda AI-acceleratorer för att tolka kameraflöden, LiDAR, radar och fatta körbeslut på en bråkdels sekund. Tesla har blivit känd för att ha designat sin egen FSD (Full Self-Driving) Computer med dubbla NPU-chip. Teslas FSD-chip (HW3, introducerat 2019) gav 144 TOPS (två NPU:er på 72 TOPS vardera); den nyare HW4 (2023) höjer det till ungefär 200–250 TOPS totalt (två 7nm NPU:er på runt 100+ TOPS vardera) ts2.tech. Detta gör det möjligt för bilen att bearbeta video i full upplösning från 8 kameror, sonar, etc., samtidigt via neurala nätverk för perception och till och med köra vissa språkmodeller för röstkommandon – allt lokalt i bilens modul. Konkurrerande plattformar som NVIDIA Drive och Qualcomm Snapdragon Ride integrerar också NPU:er. NVIDIAs senaste superdatorchip för bilar, Drive Thor, planerat för bilar 2025, skryter med upp till 1 000 TOPS på ett enda chip (och 2 000 TOPS när två kopplas ihop) för att stödja autonomi på nivå 4 ts2.tech. Det kombinerar en GPU, CPU och dedikerade deep learning accelerators så att det kan hantera allt från vägmärkeskänning till AI för förarövervakning på chipet ts2.tech. Dessa NPU:er är bokstavligen livräddande: en autonom bil kan inte vänta på molnservrar om ett barn springer ut på gatan. Inbyggd AI måste se och reagera inom tiotals millisekunder. Utanför personbilar hittar du också omfattande användning av edge-AI i autonoma drönare, leveransrobotar och industriella fordon som navigerar och fattar beslut med inbyggda NPU:er/TPU:er (till exempel använder Nuros leveransrobotar och många självkörande lastbilssystem NVIDIA- eller Huawei-AI-chip i enheten).
  • Edge Computing & Industri: I fabriker och företagsmiljöer tar AI på enheten ofta formen av edge-servrar eller gateways med AI-acceleratorer. Istället för att skicka kameraflöden eller sensordata till ett centralt moln installerar företag edge-boxar (ibland GPU-baserade, ibland NPU/FPGA-baserade) på plats. Dessa hanterar uppgifter som realtidsvideoanalys för kvalitetskontroll på en produktionslinje, och upptäcker defekter med AI-vision på mikrosekunder. Sjukvårdsutrustning är ett annat exempel: ett portabelt ultraljud eller MRI kan ha en NPU för att göra AI-bildanalys på enheten, så att läkare får omedelbar diagnostisk hjälp utan att behöva en internetanslutning (vilket också är bättre för patientdatas integritet). Detaljhandel och städer använder också AI vid kanten – t.ex. smarta trafik­kameror med NPU:er för att analysera trängsel och justera ljus, eller butikshyllkameror som spårar lager. Många av dessa använder specialiserade NPU:er som Intel Movidius Myriad-chip, Googles Edge TPU eller nya aktörer som Hailo-8 (en israelisk NPU som levererar 26 TOPS på några få watt för kameror). Den gemensamma nämnaren är att dessa acceleratorer möjliggör analys lokalt, vilket ger realtidsresultat och endast låter insikter på hög nivå (istället för rådata) skickas över nätverk.

Mångsidigheten hos NPU:er/TPU:er över olika enhetstyper är imponerande. Ena stunden möjliggör de att din telefon kan sudda bakgrunden i ett foto med AI och nästa stund styr de en drönare eller skannar medicinska bilder. Smartphonekameror använder nu NPU:er för funktioner som Night Mode (intelligent sammanslagning av flera bilder), porträttläge-bokeh, scenigenkänning (din telefon vet att du fotograferar en “solnedgång” och optimerar färger via AI), och även för roliga AR-effekter (Animoji som kartlägger ditt ansikte, eller Snapchat-filter som följer dina rörelser – allt tack vare neurala nätverk på enheten). Biometri använder NPU:er: fingeravtrycksläsare förbättrade med AI för liveness-detektion, ansiktsupplåsning med djupsensorer plus AI. Ljud använder dem också: brusreducering i hörlurar och telefoner drivs nu ofta av AI, där NPU:er separerar röst från bakgrundsljud i realtid.

Ett konkret exempel på innovation 2024: Oppo (smartphonetillverkaren), i samarbete med MediaTek, meddelade att de implementerat en Mixture-of-Experts (MoE) AI-modell direkt på enheten i slutet av 2024 – enligt uppgift de första att göra det i en telefon [48]. Denna avancerade neurala nätverksarkitektur (MoE) kan öka prestandan genom att endast aktivera relevanta “expert”-delnätverk per uppgift, och att göra detta på enheten innebär att Oppos telefoner kan uppnå snabbare AI-bearbetning och bättre energieffektivitet för komplexa uppgifter, utan att behöva molnhjälp [49]. Det understryker hur även banbrytande AI-forskning snabbt hittar in i våra handhållna enheter genom förbättrade NPU:er.

Inuti AI-chippen 2025: De senaste utvecklingarna från Apple, Google, Qualcomm och fler

Kapplöpningen om att bygga bättre AI-hårdvara på enheten har snabbt intensifierats. Här är en översikt över vad stora företag nyligen har lanserat (2024–2025) när det gäller NPU:er/TPU:er och AI-kisel:

  • Apple: Apples strategi med egenutvecklade chip har länge betonat maskininlärning direkt på enheten. Varje år har Apples Neural Engine blivit kraftfullare. I 2023 års iPhone 15 Pro nådde A17 Pro-chipets Neural Engine 35 TOPS (biljontals operationer per sekund) med sina 16 kärnor [50]. Detta var dubbelt så hög rå prestanda som A16:ans NPU, och Apple använde det för att möjliggöra saker som röstigenkänning för Siri direkt på enheten (äntligen bearbetas många Siri-förfrågningar utan internet) och nya kamerafunktioner (som att Porträttläge fångas automatiskt, och liveöversättning av text via kameran). Apples chip för 2024 fortsatte trenden: M3-familjen för Mac (sent 2023) fick en uppdaterad Neural Engine (intressant nog inställd på 18 TOPS för M3-baschipet, med fokus på effektivitet) [51]. År 2024 introducerade Apple M4-chipet (för avancerade iPads/Macs, mitten av 2024) som enligt uppgift höjde Neural Engine till 38 TOPS på en förfinad 3nm-process [52]. Utöver bara siffror har Apple använt den NPU:n: funktioner som Personlig röst (som skapar en klon av användarens röst efter 15 minuters träning) körs privat på Neural Engine i iPhones, och Live Voicemail-transkriberingar sker lokalt. Apple har också integrerat NPU:er i alla sina enhetsklasser – till och med AirPods Pro har ett litet neuralt chip för Adaptivt ljud. Apples chefer lyfter ofta fram integritetsaspekten: ”maskininlärning på din enhet” betyder att dina data stannar hos dig. Till 2025 förväntar vi oss att Apples Neural Engine kan komma att utökas ytterligare eller bli tillgänglig för tredjepartsappar på nya sätt (redan nu kan utvecklare använda den via Core ML, men Apple kan öppna för mer neural API-åtkomst). Det ryktas också att Apple designar en fristående AI-accelerator för framtida glasögon eller bilar, men nuvarande produkter visar att de föredrar integrerade NPU:er i sina A-serie- och M-serie-SoC:er.
  • Google: Google var inte bara pionjärer med moln-TPU:n utan satsade också stort på on-device AI för Pixel-telefoner och konsumentprodukter. Google Tensor SoC (först introducerad 2021 i Pixel 6) var unik eftersom Google, känt för molntjänster, tog fram ett telefonchip för att köra AI på själva enheten. Med Tensor G3 (i 2023 års Pixel 8) lyfte Google fram förbättringar som möjliggör generativ AI på enheten. Google sa uttryckligen att Pixel 8:s chip för med sig “Google AI research directly to our newest phones” [53]. Tensor G3:s nästa generations TPU (Google kallar fortfarande AI-kärnan för “TPU” internt) gör det möjligt för Pixel att köra avancerade modeller som Palm 2 eller Gemini Nano (nedbantade versioner av Googles stora språkmodeller) på enheten för funktioner som att sammanfatta webbsidor eller förbättra röstinmatning [54]. En huvudfunktion: Pixel 8 kan köra Googles bästa text-till-tal-modell (den som används i datacenter) lokalt, vilket gör att telefonen kan läsa upp webbsidor med naturliga röster och till och med översätta dem i realtid, helt offline [55]. Google använder också TPU:n i Pixel för fotografering (“HDR+” bildbehandling med flera ramar, Magic Eraser-objektborttagning med AI-inpainting [56]), för säkerhet (ansiktsupplåsning på enheten via AI som nu anses tillräckligt stark för betalningar [57]), och för tal (Assistenten som inte bryr sig om att du säger “eh”). Utöver telefoner erbjuder Google Coral Dev Board och USB-sticka för hobbyister och företag som vill lägga till Edge TPU:er i sina projekt, där varje innehåller Googles Edge TPU som ger 4 TOPS för synuppgifter med mycket låg strömförbrukning [58]. Den används i några av Googles egna produkter som Nest Hub Max för gestigenkänning. För Google är integrationen av TPU:er vid kanten en del av en bredare strategi: Sundar Pichai (Googles VD) har sagt att AI:s framtid handlar om att förstärka varje upplevelse, och det är tydligt att Google anser att “to bring the transformative power of AI to everyday life, you need to access it from the device you use every day” [59] – därav Tensor-chippen. Vi kan förvänta oss en Tensor G4 i Pixel-telefoner i slutet av 2024, möjligen byggd på Samsungs eller TSMC:s nyare process, vilket ytterligare förbättrar AI-prestanda och effektivitet, kanske till och med möjliggör multimodal AI på enheten (kombinerar syn+språkmodeller).
  • Qualcomm: Den ledande leverantören av mobilchip för Android-telefoner har aggressivt marknadsfört sin AI Engine i Snapdragon-serien. Snapdragon 8 Gen 2 (slutet av 2022) introducerade dedikerat INT4-stöd och visade upp realtidsbildgenerering med stable diffusion på en telefon. Snapdragon 8 Gen 3 (tillkännagavs i slutet av 2023, i 2024 års flaggskeppstelefoner) är ett stort steg framåt: Qualcomm säger att dess Hexagon NPU är 98 % snabbare än Gen 2:s och 40 % mer energieffektiv [60]. Detta chip kan köra stora språkmodeller med upp till 10 miljarder parametrar helt på enheten, och bearbeta cirka 20 token per sekund – tillräckligt för enkla konversationer med en AI-assistent utan molnet [61]. Det uppnådde också “världens snabbaste Stable Diffusion”-bildgenerering på en mobil enhet i demonstrationer [62]. Qualcomm har varit tydliga med att generativ AI på enheten är en viktig försäljningspunkt för nya telefoner. Till exempel samarbetade de med Meta för att optimera den öppna Llama 2 LLM för Snapdragon, med målet att låta dig köra en chatbot-AI på din telefon till 2024 [63]. (En Qualcomm-chef sa: “vi applåderar Metas öppna inställning… för att skala generativ AI måste den köras både i molnet och på kanten”, vilket förstärker edge-AI-filosofin [64].) Utöver telefoner sätter Qualcomm in NPU:er i laptop-chip (Snapdragon compute-plattformar för Windows på ARM) – och deras fordonsplattform Snapdragon Ride använder samma AI-kärnor för att erbjuda upp till 30 TOPS för ADAS, med en färdplan mot hundratals TOPS. År 2025 tillkännagav Qualcomm till och med en ny Snapdragon X Elite CPU för PC som inkluderar en kraftfull NPU, vilket signalerar en ambition att utmana Apple och Intel på AI-prestanda i persondatorer. Med ökningen av AI på enheten marknadsför Qualcomm faktiskt vissa telefoner som “AI-telefoner.” De förutspår att många appar (från fotografering till meddelanden till produktivitet) kommer att använda NPU:n. På mjukvarusidan släppte Qualcomm Qualcomm AI Stack för att ena stödet för populära ramverk (TensorFlow Lite, PyTorch, ONNX) på deras NPU:er [65] – i ett försök att göra det enklare för utvecklare att använda AI-hårdvaran utan djupgående chipkunskap.
  • MediaTek: Den näst största tillverkaren av mobilchip (känd för Dimensity-serien) har också uppgraderat sina NPU:er. MediaTek kallar sina AI-motorer för “APU” (AI Processing Unit). Till exempel har Dimensity 9200+ (2023) en sjätte generationens APU med betydande prestandaökning jämfört med föregående chip, vilket möjliggör funktioner som stabil diffusion på enheten och AI-brusreducering i videor. År 2024 tillkännagav MediaTek Dimensity 9400, och i ett samarbete med Oppo använde de dess avancerade NPU-arkitektur för att introducera nya AI-funktioner (som nämnts drivs Oppo Find X8:s AI-fotoförbättring med reflektionsborttagning och oskärpeborttagning av MediaTeks NPU) [66]. MediaTeks chefer har uttryckligen positionerat sig i framkant av AI på enheten. Som Will Chen från MediaTek uttryckte det, “framtiden för AI överskrider molnet; den drivs av edge computing direkt i din handflata.” Enligt dem måste AI på telefoner vara snabb, privat, säker och ständigt tillgänglig [67]. MediaTek har till och med bildat ett “APU-centrerat” samarbete med Meta för att stödja Llama-ramverk och med enhetstillverkare som Oppo och Xiaomi med fokus på AI-kamera och AI-röstfunktioner. Till 2025 planerar MediaTek att lansera dessa NPU:er inte bara i telefoner, utan även i smarta TV-apparater (för AI-uppskalning och bildförbättring), IoT-enheter, och till och med bilar (MediaTek har en AI-plattform för fordon och har samarbetat med Nvidia för att integrera Nvidia GPU IP för bilar, samtidigt som de förmodligen tillhandahåller sin egen NPU för sensor-AI).
  • Intel: 2024 markerade Intels inträde på AI-acceleratorer på vanliga datorer. Intels 14:e generationens Core (Meteor Lake, lanserad dec 2023 och omdöpt till Core Ultra 2024) är den första x86 PC-processorn med en inbyggd neural processor-enhet (NPU). Meteor Lakes NPU (ibland kallad VPU – Vision Processing Unit – baserad på Intels Movidius-teknik) levererar cirka 8–12 TOPS av AI-prestanda [68]. Detta används för att accelerera Windows 11:s AI-funktioner som bakgrundsoskärpa, ögonkontakt i videosamtal, och kan användas av appar för saker som lokal transkribering, brusreducering eller till och med små AI-assistenter. Microsoft och Intel har tillsammans drivit konceptet “AI PC.” Intel hävdar att dessa NPU:er kommer att levereras i tiotals miljoner bärbara datorer under 2024 [69]. Efter Meteor Lake nämner Intels färdplan Arrow Lake (för stationära datorer 2024) som också inkluderade en NPU (runt 13 TOPS, något förbättrad) [70]. Intressant nog blev Intels första försök med en stationär NPU faktiskt överträffat av AMD (se nedan), och Intel valde att använda en blygsam NPU-design för att undvika att offra GPU/CPU-ytan i entusiastchip [71]. Men i slutet av 2024 signalerade Intel att framtida Lunar Lake-chip kommer att ha en mycket kraftfullare NPU (~45 TOPS) för att möta Microsofts “Copilot”-krav [72]. Allt detta tyder på att Intel ser AI som ett måste för datorer framöver – inte för att träna enorma modeller, utan för att accelerera vardagliga AI-drivna upplevelser (från förbättringar i kontorsprogram till kreativa verktyg med lokal AI). Intel säljer också edge AI-acceleratorer som Intel Movidius Myriad-chip (används i vissa drönare, kameror) och Habana-acceleratorer för servrar, men Meteor Lakes integrerade NPU är en milstolpe som för AI till vanliga konsumentenheter.
  • AMD: AMD hoppade in på AI direkt på enheten ungefär samtidigt. Deras Ryzen 7040-serie laptop-processorer (Phoenix) som släpptes 2023 hade den första Ryzen AI Engine – i princip en integrerad XDNA NPU (teknik från AMD:s förvärv av Xilinx). Denna NPU levererade upp till 10 TOPS på mobilchippet [73]. AMD lyfte fram användningsområden som AI-förbättrade videosamtal, produktivitetsappar och liknande, likt Intels ambitioner. Sedan lanserade AMD kortvarigt en Ryzen 8000 desktop-serie (tidigt 2024) med en NPU som nådde 39 TOPS – ett mycket högt tal för en AI-enhet i en allmän CPU, till och med högre än Intels planer [74]. Dock ändrade AMD snabbt riktning och hoppade över en generation, och fokuserade på sin nästa arkitektur (den efterföljande Ryzen 9000 i slutet av 2024 tog bort NPU:n för att prioritera kärnuppgraderingar) [75]. Trots detta förväntas AMD återinföra NPUs i framtida PC-chip (det är troligen ett tillfälligt tillbakadragande medan de arbetar på att integrera en stark AI-motor utan att kompromissa med annan prestanda). På produktsidan kan AMD:s NPUs möjliggöra intressanta saker eftersom AMD också har starka GPU:er – en kombination som kan hantera AI-arbetsbelastningar tillsammans (vissa delar på NPU, vissa på GPU). AMD har även satt AI-kärnor i sina adaptiva (FPGA-baserade) SoC:er och bilchip. Sammanfattningsvis har alla x86 PC-chiptillverkare omfamnat NPUs till 2025, i linje med vad smartphones gjorde några år tidigare, vilket visar att AI-acceleration håller på att bli en standardfunktion överallt.
  • Andra: En mängd specialiserade chipföretag och andra teknikbolag förnyar också inom NPUs. NVIDIA, känt för sina GPU:er, inkluderar nu dedikerade Tensor Cores i sina GPU:er och erbjuder en öppen NVDLA (deep learning accelerator)-design för integration i System-on-Chip-produkter. I edge-enheter som NVIDIA Jetson-serien (används i robotar, drönare, inbyggda system) finns både GPU och fasta “DLA:er” – i princip NPUs – som avlastar viss neuronnätsinferens från GPU:n. NVIDIAs Orin-modul har till exempel 2 DLA:er utöver sin GPU, vilket bidrar till dess 254 TOPS AI-prestanda för bilar ts2.tech. Apple ryktas arbeta på ännu mer avancerade AI-coprocessorer eller större neurala motorer för sina AR-glasögon eller framtida projekt, även om detaljerna är hemliga. Huawei (trots geopolitiska utmaningar) fortsätter att designa Kirin-mobilchip med NPUs (deras “DaVinci”-NPU-arkitektur) och även serverklassade NPUs i sina Ascend AI-chip – deras Kirin 9000S-chip från 2023 sägs ha en stark NPU för bild- och språkuppgifter på deras telefoner. Vi ser också startups som Hailo, Mythic, Graphcore och andra erbjuda egna edge-AI-chip: t.ex. Hailo-8 som nämnts (26 TOPS i ett mini PCIe-kort för AI-kameror), Graphcores IPU för datacenter (inte exakt på enheten, men en ny arkitektur för neurala nätverk), Mythic som arbetar med analoga NPUs, etc. ARM, vars designer ligger till grund för de flesta mobilchip, erbjuder Ethos NPU-serien (såsom Ethos-U, Ethos-N78) som chipmakare kan integrera för att få en färdig AI-accelerator i IoT- eller mellanklass-SoC:er. Detta har gjort det möjligt även för relativt mindre aktörer att inkludera NPUs i sina chip genom att licensiera ARMs design.

Slutsatsen är att från stora teknikbolag till startups, investerar alla i AI-silikon för enheten. Som ett resultat ser vi snabba förbättringar: nya chip med högre TOPS, bättre effektivitet (TOPS per watt) och stöd för nya datatyper (som 4-bitars kvantisering för större modeller). Till exempel kan Qualcomms och MediaTeks senaste köra INT4-precision vilket är utmärkt för generativa AI-modeller där minnesbandbredd är en begränsning [76]. Dessa innovationer ger direkta användarfördelar – t.ex. AI-videoredigering i realtid på mobil (ta bort objekt från 4K-video i farten, som Snapdragon 8 Gen 3 kan göra med sin “Video Object Eraser”-AI-funktion [77]), eller AI-coprocessorer i bilar som möjliggör röstassistenter som fungerar utan nätverk och svarar lika snabbt som en mänsklig konversation.

Viktiga nyheter från 2024–2025: Lanseringar, Benchmark-tester och Partnerskap

För att illustrera hur snabbt utvecklingen går, här är några huvudhändelser inom NPUs/TPUs och AI på enheten från slutet av 2024 till 2025:

  • Apple M3 och M4-lanseringar (okt 2023 & maj 2024): Tog med nästa generations Neural Engines. M3:s Neural Engine klarar 18 TOPS (16-kärnig), och M4 hoppade till 38 TOPS (fortfarande 16-kärnig men med högre klockfrekvens/effektivitet) [78]. Apple demonstrerade dessa chip hantera krävande uppgifter som bildgenerering med stable diffusion direkt på enheten i macOS (med Core ML Stable Diffusion visade utvecklare ~15 sekunder för att generera en bild på en M2 – ännu snabbare på M3/M4).
  • Google Pixel 8-lansering (okt 2023): Betonade AI “överallt” i enheten. Googles event visade Pixel 8:s sammanfattning av webbsidor och liveöversättning av artiklar direkt på enheten med dess Tensor G3 NPU. Den introducerade också “Assistant with Bard” som så småningom kommer att köra vissa interaktioner på enheten. Google framhöll att Pixel 8 kan köra 2× så många modeller på enheten som Pixel 6 kunde, och modeller som är mycket mer avancerade [79]. Med andra ord, ett enormt kliv på bara två år av Tensor-chiputveckling.
  • Qualcomm–Meta-partnerskap (juli 2023): Qualcomm och Meta meddelade att de optimerar Metas Llama 2 stora språkmodell för att köras helt på Snapdragon NPU:er till 2024 [80]. Målet är att möjliggöra för utvecklare att distribuera chattbottar och generativa AI-appar på telefoner, VR-headset, datorer, etc., utan moln. Detta var ett betydande stöd för AI på enheten från en stor AI-modellägare (Meta) och en stor chiptillverkare. I slutet av 2024 följde de upp med planer för Llama 3-optimering också [81].
  • Microsoft Windows 11 “Copilot”-PC (2024): Microsoft satte en standard och kallade PC med >40 TOPS lokal AI-acceleration för “AI-PC” berättigade till förbättrade AI-funktioner (som Copilot digital assistent-integration). Detta pressade OEM-tillverkare – Lenovo, Dell, etc. – att använda chip med NPU:er (oavsett om det är Intel, AMD eller Qualcomm) för att möta kraven. Resultatet är en förväntad våg av AI-kapabla laptops under 2024, där Microsoft hävdar att dussintals modeller är på väg och förutspår över 40 miljoner AI-PC-leveranser under 2024 [82].
  • AMDs kortlivade Ryzen 8000 NPU (jan 2024): AMD tillkännagav en stationär CPU med hela 39 TOPS NPU (en överraskning eftersom stationära chip vanligtvis saknar sådana acceleratorer) [83]. Även om just den produkten snabbt ersattes visade den att även stationära CPU:er kan ha AI-kisel som matchar mobila chip i TOPS. Detta var också den första stationära x86-CPU:n med en NPU (precis före Intel Arrow Lake).
  • Tesla FSD Beta v12 (slutet av 2023) demo: Elon Musk visade upp end-to-end AI-körning (ingen radar, bara visionsnät) som körs på Teslas HW3/HW4 NPU:er. Anmärkningsvärt var att neurala nätverket styrde bilen med videoflöden som bearbetades helt på bilens dator i realtid. Observatörer noterade att FSD v12 utnyttjade de 2× 100 TOPS NPU:erna fullt ut för vision, och Tesla antydde att framtida uppgraderingar (HW5) med sikte på 2000 TOPS kan vara under utveckling för att hantera ännu större modeller (det ryktades att Teslas HW5 kan sikta på 2 petaFLOPS = 2000 TOPS) [84].
  • NVIDIA Drive Thor avslöjad (2024 GTC): NVIDIA presenterade detaljer om sitt nästa bilchip, Drive Thor, som har motsvarande 2× AI-prestandan jämfört med föregångaren Orin – upp till 2000 TOPS när två chip länkas ts2.tech. Betydelsefullt är att Thor är tänkt att hantera inte bara körning utan även AI i kupén (som röst- och passagerarövervakning) på en och samma plattform, vilket visar hur NPU:er och GPU:er tillsammans kan samla många AI-funktioner i bilar ts2.tech. Flera biltillverkare (Xpeng, BYD, Volvo) meddelade att de kommer använda Thor från 2025 ts2.tech.
  • Oppos on-device MoE AI (okt 2024): Som nämnts implementerade Oppo en Mixture-of-Experts-modell på Find X8-telefonen [85]. Detta är anmärkningsvärt eftersom MoE-modeller vanligtvis är stora och tidigare ansågs höra hemma på serversidan på grund av sin komplexitet. Att köra MoE på enheten tyder på nya tekniker för modellkomprimering och en mycket kapabel NPU (troligen MediaTek Dimensity 9400 i den enheten).
  • Metas Ray-Ban AI-glasögon (2025): (Förväntad) Meta visade upp prototyper av smarta glasögon som kan identifiera vad du ser och prata med dig om det – troligen med hjälp av en inbyggd specialaccelerator (Meta har prototyputvecklat egenutvecklad kisel för AR). Även om detaljerna är få, understryker det satsningen på att lägga AI i mycket begränsade enheter (glasögon, batteridrivna öronsnäckor) vilket skulle kräva ultraeffektiva NPU:er.
  • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons släppte resultat som visar de senaste smartphonens AI-kapacitet. Till exempel, i MLPerf Inference v3.0 (okt 2023), testades Apples A16, Google Tensor G2 och Qualcomm Gen 2 på uppgifter som bildklassificering och objektigenkänning. Siffrorna visade att Apple och Qualcomm turades om att vinna, men generellt att mobila NPU:er minskar avståndet till vissa laptop-/desktop-klassade acceleratorer för dessa uppgifter – och allt detta på batteridrift. Det framhävde också mjukvaruskillnader (t.ex. Qualcomms AI SDK vs. Apple Core ML). De fortsatta förbättringarna varje år (tvåsiffriga % ökningar) i dessa benchmark-tester visar på sund konkurrens och snabb utveckling inom AI på enheten.
  • Strategiska partnerskap: Många branschöverskridande partnerskap har bildats. T.ex. NVIDIA och MediaTek (maj 2023) tillkännagav ett samarbete för att lägga in Nvidias GPU-IP och mjukvaruekosystem i MediaTeks framtida smartphone- och bilchip, vilket i praktiken förenar Nvidias AI-styrkor med MediaTeks expertis inom mobila SoC:er. Dessutom samarbetar företag som Qualcomm med biltillverkare (Mercedes, BMW) för att lägga in Snapdragon Cockpit och Ride-plattformar (med NPU:er) i nya fordon för AI-funktioner. Arm har samarbetat med Fujitsu och andra för nya AI-chipdesigner (som Fugaku-superdatorns AI-partition, även om det är high-end). Till och med IBM och Samsung har visat upp nya chipteknologier (som neuromorf databehandling och AI-minne) som en dag kan revolutionera NPU:er – inte här än, men visar att forskningspipelines är fulla.

Sammanfattningsvis har det gångna året varit fullspäckat med utveckling, vilket understryker att AI på enheten är ett av de hetaste områdena inom teknik. Som en branschanalytiker noterade, “dessa funktioner på enheten öppnar helt nya horisonter… att köra LLM:er på mobilen hjälper till att hantera skala och kostnad, håller data privat och säkerställer att AI fungerar även med begränsad uppkoppling” [86]. Det sammanfattar ganska väl varför alla stora teknikföretag investerar här.

Expertinsikter: Vad teknikledare säger om AI på enheten

Drivet bakom NPU:er och TPU:er syns inte bara i produkter utan även i branschledares uttalanden. Här är några utvalda citat och perspektiv som belyser betydelsen av AI på enheten:

  • Cristiano Amon (VD för Qualcomm): “Om AI ska kunna skalas upp, kommer du att se det köras på enheter… Detta markerar en vändpunkt för AI: inga latensproblem – bara sömlös, säker, molnkompletterande inferens på enheten. AI:s framtid är personlig, och den börjar på din enhet.” (Bloomberg-intervju och X-inlägg, 2023) [87]. Amon föreställer sig en hybrid AI-värld där din telefon/dator hanterar mycket själv på sina egna NPU:er, och samarbetar med molnet vid behov. Han betonar att köra AI lokalt är nyckeln till att göra den allestädes närvarande (du kan inte låta allt vara beroende av moln-GPU:er – det finns inte tillräckligt många i världen för miljarder enheter).
  • Durga Malladi (SVP, Qualcomm): “Vi applåderar Metas tillvägagångssätt för öppen och ansvarsfull AI… För att effektivt skala generativ AI till mainstream, måste AI köras både i molnet och på enheter vid kanten.” [88] Malladi sa detta i samband med Meta-partnerskapet. Det belyser en vanlig syn: skala AI = moln + edge som samarbetar. Det finns nu en förståelse för att renodlad moln-AI inte kommer att räcka (av kostnads-, integritets- och latensskäl), så edge-AI måste dela på belastningen.
  • Will Chen (Vice VD, MediaTek): “AI:s framtid överskrider molnet; den drivs av edge computing direkt från din handflata… OPPO och MediaTek är pionjärer inom AI på enheten, och säkerställer att intelligenta funktioner är kraftfulla, snabba, privata, säkra och ständigt tillgängliga.” (MediaTek Exec Talk, 2025) [89]. Detta citat sammanfattar värdeerbjudandet med AI på enheten – du får prestanda och tillgänglighet plus integritet och säkerhet. Det visar också att även företag som traditionellt är mindre synliga i väst (som MediaTek) tänker i framkant när det gäller AI-implementering.
  • Dr. Norman Wang (AI-hårdvaruexpert, VD för ett chip-startup): “Inom AI-hårdvara gäller: ju närmare du kan placera beräkningen till datakällan, desto bättre. Det handlar om att minska datarörelser. En NPU bredvid din bildsensor innebär att du inte skickar megapixlar till molnet – du destillerar insikter direkt vid kanten. Det är en game changer för latens och strömförbrukning.” (Panel på HotChips 2024 – parafraserat). Denna tekniska insikt förklarar varför NPU:er ofta sitter på samma kisel som andra komponenter: t.ex. på en telefons SoC kan NPU:n direkt hämta kameradata från ISP:n. Att minimera datarörelser är en stor del av effektiv AI, och edge-AI uppnår detta genom att bearbeta vid källan till datan.
  • Xinzhou Wu (VP för Automotive, NVIDIA): “Accelererad datorkraft har lett till omvälvande genombrott, inklusive generativ AI, som omdefinierar autonomi och transportindustrin.” (GTC 2024 Keynote) ts2.tech. Han diskuterade hur kraftfulla omborddatorer (med NPU:er/GPU:er) gör det möjligt för bilar att inte bara köra, utan även potentiellt integrera avancerad AI som generativa modeller för saker som naturliga språkgränssnitt i bilen eller bättre situationsförståelse. Det understryker att även sektorer som fordonsindustrin ser AI på enheten som inte bara för kärnfunktionalitet utan också för att förbättra användarupplevelsen (t.ex. röstassistenter i bilar som kan föra samtal tack vare ombord-LLM:er).
  • Sundar Pichai (VD för Google): “AI:s framtid handlar om att göra den hjälpsam för alla. Det innebär att föra in AI i alla enheter vi använder – telefoner, hushållsapparater, bilar – så att den finns där när du behöver den. Vi vill möta användarna där de är, med AI som fungerar i realtid, på plats och bevarar integriteten.” (Parafraserat från flera intervjuer/keynotes). Pichai talar ofta om “ambient AI” – idén att AI kommer att finnas överallt omkring oss, inbyggd i saker. Googles satsning på Tensor-chips i Pixel-telefoner är en direkt tillämpning av den filosofin.
  • Branschstatistik: Analytiker har observerat trenden i siffror. En rapport från Grand View Research 2024 noterade: “Nya framsteg inom specialiserade AI-chips och NPU:er har gjort det möjligt att köra komplexa AI-algoritmer direkt på enheter, vilket avsevärt förbättrar prestanda och energieffektivitet… vi närmar oss en avgörande övergång mot AI på enheten.” [90]. Samma rapport förutspår att marknaden för AI på enheten kommer att explodera de kommande åren, där hårdvarusegmentet (NPU:er, etc.) står för över 60 % av intäkterna 2024 och växer i takt med att nästan varje ny IoT- eller mobila enhet får AI-funktioner [91]. En annan prognos från IDC och andra tyder på att i mitten av 2020-talet kommer nästan alla avancerade smartphones och majoriteten av mellanklassmodellerna att ha AI-acceleratorer, och att till 2030 kommer miljarder edge AI-chips att vara i bruk, från konsumentelektronik till smart infrastruktur.

Konsensus bland experter är att AI på enheten inte bara är trevligt att ha – det är avgörande för nästa teknologivåg. AI-pionjären Andrew Ng har ofta nämnt att “tiny AI” och edge AI kommer att göra det möjligt för intelligens att genomsyra varje objekt, på samma sätt som elektricitet eller internet gjorde i tidigare epoker. Genom att övervinna begränsningarna med molnbaserad AI möjliggör NPU:er och TPU:er denna genomträngning.

Utmaningen med många standarder (och försök att förenkla)

Medan hårdvaran har utvecklats snabbt, håller ekosystemet av mjukvara och standarder för AI på enheten fortfarande på att komma ikapp. Utvecklare möter en djungel av verktyg och SDK:er när de försöker utnyttja NPU:er över olika enheter [92]. Viktiga punkter:
  • Varje plattform har sitt eget API eller SDK: Apple har Core ML (med API:er för att rikta in sig på Neural Engine), Android har Neural Networks API (NNAPI) (även om Google har aviserat planer på att utveckla det bortom Android 14) [93], Qualcomm erbjuder SNPE (Snapdragon Neural Processing Engine) eller mer generellt Qualcomm AI Stack, NVIDIA har TensorRT och CUDA för sina enheter, och så vidare. Det finns också ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI och andra. Dessa olika SDK:er har ofta olika kapabiliteter och kräver modelljustering för att köras optimalt på varje målplattform. Som en AI-rapport om AI på enheten från 2025 noterade, “Flera, inkompatibla SDK:er (t.ex. Core ML, LiteRT, ONNX Runtime) med varierande operatörsstöd och prestanda” tvingar utvecklare att göra extra arbete [94].
  • Fragmenteringsproblem: En modell som körs perfekt på ett desktop-GPU kanske inte direkt fungerar på en telefons NPU – operatorer (de matematiska funktionerna) kanske inte stöds eller behöver kvantiseras annorlunda. Utvecklare måste ibland underhålla separata byggen eller manuellt optimera modeller för varje hårdvara. Detta är “det lågnivå, fragmenterade ekosystemet”-klagomålet [95]. Felsökningsverktyg är också få – att profilera en NPU för att se varför en modell är långsam kan vara svårt, särskilt jämfört med de avancerade verktygen för CPU:er/GPU:er [96].
  • Standardiseringsinsatser: För att hantera detta pågår det några saker. ONNX (Open Neural Network Exchange) har blivit ett gemensamt format så att du kan träna en modell i PyTorch eller TensorFlow och sedan exportera till ONNX för distribution. Många runtime-miljöer (inklusive sådana på enheten som Qualcomms och MediaTeks) stöder att ta in ONNX-modeller och försöker kompilera dem för hårdvaran. Detta hjälper till att undvika inlåsning till ett enda ramverk. Android NNAPI var ett försök från Google att tillhandahålla ett universellt gränssnitt – en app kan begära ”kör detta neurala nätverk” via NNAPI och operativsystemet använder vilken accelerator som finns (GPU, DSP eller NPU) för att köra det. NNAPI fick spridning i många Android-enheter, men hade begränsningar och inte alla leverantörer tillhandahöll robusta drivrutiner, vilket ledde till att Google indikerade en ny strategi (möjligen med fokus på WebNN eller direkta leverantörsintegreringar) efter 2024 [97]. På PC introducerade Microsoft DirectML och Windows ML API:er för att på liknande sätt abstrahera hårdvaruskillnader (så att en utvecklare kan använda samma API för NVIDIA, Intel, AMD NPU:er).
  • Enhetliga verktygskedjor: Företag bygger också verktygskedjor för att förenkla distributionen. Vi såg Qualcomms AI Stack som kombinerar deras kompilator (AI Model Efficiency Toolkit) och runtime-miljöer så att utvecklare enklare kan rikta in sig på deras Hexagon NPU [98]. NVIDIAs TensorRT och relaterade SDK:er gör något liknande för Jetson-enheter, och optimerar modeller för GPU+NVDLA. Intel OpenVINO är ett annat exempel – det låter dig ta en modell och optimera den för Intels CPU:er, iGPU:er och VPU:er (NPU:er) för edge-distribution. Dessa ramverk innehåller ofta modelloptimerare som konverterar modeller (beskärning, kvantisering) för att passa på mindre enheter.
  • Interoperabilitet: Det finns en rörelse mot att få olika NPU:er att fungera med gemensamma ramverk. Till exempel har Googles TensorFlow Lite hårdvarudelegater – en för NNAPI (täcker Android-enheter generellt), en för Core ML (iOS-enheter), en för Edge TPU, etc. Tanken är att du skriver din TFLite-modell och den kommer att köras med den bästa tillgängliga acceleratorn via delegaten. På liknande sätt har PyTorch lagt till stöd för mobila backends och även saker som Apples Metal Performance Shaders (för att använda GPU/NPU på iOS). ONNX Runtime kan också rikta in sig på olika acceleratorer via plugins (t.ex. kan man koppla in NVIDIAs TensorRT eller ARMs Compute Library eller andra under huven).
  • Framväxande standarder:Khronos Group (bakom OpenGL/Vulkan) arbetade på NNEF (Neural Network Exchange Format) och det finns WebNN API som diskuteras för att webbläsare ska kunna få tillgång till lokal AI-acceleration. Ingen av dessa har ännu blivit universellt antagen. Men en intressant utveckling: i slutet av 2024 bildade flera företag en allians för att driva på “AI Hardware Common Layer”-standarder – i princip att undersöka om ett gemensamt lågnivågränssnitt till NPU:er kan skapas (på liknande sätt som OpenCL gjorde för beräkningar på GPU:er). Det är dock tidigt än.
  • Utvecklarupplevelse: Det är ett erkänt glapp. Som NimbleEdge’s blogg sa, “att utveckla för AI på enheten kräver för närvarande att man navigerar ett fragmenterat och lågnivå-ekosystem… vilket tvingar utvecklare att anpassa implementationer för varje hårdvarumål” [99]. Branschen vet att detta måste förbättras för att AI på enheten verkligen ska bli mainstream. Vi kan komma att se en konsolidering – till exempel om Google, Apple och Qualcomm alla kunde enas om en kärnuppsättning av operationer och API:er (önsketänkande, kanske). Eller mer troligt, kommer ramverk som PyTorch och TensorFlow att dölja komplexiteten genom att integrera alla dessa leverantörsbibliotek och välja rätt vid körning.

I grund och botten, medan NPU:er/TPU:er står för musklerna, arbetar communityn på hjärnvänliga verktyg för att använda dessa muskler. Den goda nyheten är att jämfört med för fem år sedan finns det nu betydligt fler alternativ för att köra en modell på enheten utan att vara chip-expert. Men det finns utrymme för förbättring – särskilt inom felsökning, profilering och stöd för flera hårdvaror.

Marknadstrender och framtidsutsikter

Spridningen av NPU:er och TPU:er i enheter driver en större trend: AI överallt. Här är några övergripande trender och vad man kan förvänta sig framöver:

  • Tillväxt för Edge AI-marknaden: Marknadsundersökningar visar explosiv tillväxt för edge AI-hårdvara. Marknaden för AI på enheten (inklusive chip och mjukvara) förväntas växa med cirka 29 % CAGR under detta decennium [100]. En rapport värderade den till cirka 233 miljarder dollar 2024, på väg mot över 1,7 biljoner dollar till 2032 [101] – mycket av denna tillväxt drivs av edge-implementeringar. En annan analys från IDTechEx förutspådde att marknaden för AI-chip för edge-enheter kommer att nå 22 miljarder dollar till 2034, där konsumentelektronik, fordonsindustri och industri är de största segmenten [102]. Detta innebär hundratals miljoner enheter per år som levereras med NPU:er som standardkomponent.
  • Allestädes närvarande adoption: Precis som varje smartphone idag har en GPU (även om den är liten), når vi nu punkten där varje ny smartphone kommer att ha en AI-accelerator. Premiumtelefoner har dem redan; mellanklassmobiler står näst på tur. Faktum är att mellanklasschip från Qualcomm (t.ex. Snapdragon 7-serien) och MediaTek (Dimensity 700/800-serien) nu inkluderar nedskalade NPU:er så att funktioner som AI-kameraförbättringar och röstassistenter kan fungera även på billigare enheter. Utöver telefoner sprider sig NPU:er till PC-datorer (standard i nya Windows-laptops från flera tillverkare), bilar (nästan alla nya bilar med ADAS Level 2+ har någon form av AI-chip), och IoT. Till och med vitvaror som kylskåp och tvättmaskiner börjar marknadsföra “AI”-funktioner (vissa är molnbaserade, men vissa lokala, som adaptiva cykler baserade på sensorer). Trenden är tydlig: om en enhet har ett beräkningschip, kommer den att ha någon form av ML-acceleration på det chipet.
  • Prestandautveckling: AI-prestanda på enheten fördubblas ungefär var 1–2 år (en kombination av bättre arkitektur och övergång till avancerade halvledarnoder som 5nm, 4nm, 3nm). Apples Neural Engine gick från 600 miljarder operationer/sekund 2017 till 35 biljoner 2023 – nästan en 60× ökning på sex år [103]. Qualcomms flaggskepp hoppade på liknande sätt från några TOPS 2018 till över 27 TOPS 2023 (SD 8 Gen 3:s totala AI-beräkning, räknat på alla kärnor). Vi kan förvänta oss att mobila NPU:er levererar 100+ TOPS till 2025–2026, och PC-acceleratorer ännu mer, och dessa siffror kan bli mindre relevanta i takt med att fokus skiftar till användbar prestanda på specifika AI-uppgifter (till exempel, hur stort LLM kan du köra smidigt, eller kan du göra 4K AI-video i realtid). Gapet mellan moln och edge kommer sannolikt att minska för inferensuppgifter. Dock kommer edge fortfarande att ligga efter molnet för de absolut mest avancerade stora modellerna på grund av begränsningar i ström och minne.
  • Energieffektivitetsvinster: En underskattad aspekt är hur effektiva dessa NPU:er har blivit. Teslas bil-NPU uppnår ~4,9 TOPS/Watt [104] vilket var toppmodernt för ett par år sedan; nu hävdar vissa mobila NPU:er liknande eller bättre. Effektiva NPU:er innebär längre batteritid även när vi använder AI-funktioner mer. Det innebär också att det blir möjligt att sätta AI i små batteridrivna enheter (t.ex. AI-hörapparater, smarta sensorer som drivs av knappcellsbatterier och utför avvikelsedetektering). Konceptet TinyML – extremt småskalig maskininlärning på mikrokontroller – är en förlängning av detta, där förenklade “NPU:er” eller optimerade instruktioner på mikrokontroller används för att göra AI i sensorer. ARMs Ethos-U NPU är riktad mot det segmentet (t.ex. alltid påslagen nyckelordsigenkänning som körs på några milliwatt). Förvänta dig fler AI-specifika små chip som kan byggas in i sensorer, wearables och vardagsföremål (Smart tandborste? AI-driven brandvarnare? Det är på väg).
  • Hybridmoln-Edge-lösningar: Istället för att edge helt ersätter molnet, är framtiden samarbete. Enheter kommer att göra det de kan lokalt och bara kontakta molnet för det de inte klarar själva. Till exempel kan dina AR-glasögon köra lokal scenigenkänning för att veta vad du tittar på, men om du ställer en mycket komplex fråga (som en grundlig förklaring) kan de fråga en moln-AI för en kraftfullare analys och sedan presentera den. Detta hybrida tillvägagångssätt ger den bästa balansen mellan responsivitet och kapacitet. Företag designar aktivt upplevelser kring detta: Microsofts Copilot på Windows kan använda den lokala NPU:n för att snabbt omvandla tal till text och tolka kommandon, men sedan använda molnet för tyngre uppgifter (om du inte har en kraftfull PC-NPU som klarar det). Användaren ska helst inte veta eller bry sig om vilken som används, förutom att allt går snabbare och respekterar integriteten. Vi kommer också att se federated learning bli vanligare – modeller tränas i molnet men med hjälp av data som är krypterad eller bearbetad på enheter, och vice versa.
  • Framväxande användningsområden: När NPU:er blir kraftfullare öppnas nya applikationer. Generativ AI på enheten är en stor grej – tänk dig AI-bildskapande, AI-videoredigering och personliga chattbotar direkt på din telefon eller laptop. Till 2025 kan vi se tidiga versioner av offline-personliga assistenter som kan sammanfatta dina mejl eller skriva utkast till meddelanden utan molnet. Realtidsöversättning av språk i samtal (två personer som talar olika språk, med telefoner eller öronsnäckor som översätter nästan i realtid) kommer att förbättras avsevärt av bearbetning på enheten (ingen fördröjning och fungerar överallt). Hälso-AI kan finnas på wearables – din smartklocka som upptäcker förmaksflimmer eller analyserar sömnapné-mönster med hjälp av sin NPU. Säkerhet: enheter kan lokalt köra AI för att upptäcka skadlig kod eller nätfiske i realtid (t.ex. antivirus som använder en AI-modell på din enhet istället för molnskanningar). Och i fordon, förutom körning, kan AI personanpassa upplevelsen i bilen (justera klimatanläggningen baserat på ditt upplevda humör via förarövervakningskamera med AI, etc.). Många av dessa användningsområden kräver snabba iterationer och integritet, vilket passar på enheten.
  • Konkurrens och demokratisering: De stora aktörerna kommer att fortsätta konkurrera, vilket är bra för konsumenterna – förvänta dig marknadsföring om “vårt AI-chip gör X TOPS eller möjliggör Y-funktion som andra inte kan.” Men tekniken demokratiseras också – NPU:er finns inte bara i telefoner för 10 000 kr; de kommer till telefoner för 3 000 kr, IoT-kort för 500 kr (Coral, Arduino Portenta, etc.), och open source-gemenskaper skapar små AI-modeller som hobbyister kan köra på en Raspberry Pi eller mikrokontroller med en enkel accelerator. Denna breda tillgänglighet innebär att innovation kan komma varifrån som helst. En ensam utvecklare kan nu bygga en app som använder AI på enheten för att göra något smart utan att behöva en serverhall – vilket sänker tröskeln för AI-drivna program.
  • Framtidens teknik: Om vi blickar längre framåt, kan forskning inom neuromorf databehandling (hjärninspirerade chip som Intel Loihi) och analoga AI-chip en dag revolutionera NPU:er och erbjuda effektivitetsvinster i storleksordningar. Företag som IBM och BrainChip arbetar med detta. Om de lyckas kan ett neuromorft chip göra det möjligt för komplex AI att köras kontinuerligt på små batteridrivna enheter. Vi kan också få se 3D-stapling och ny minnesteknik integreras i NPU:er för att övervinna minnesflaskhalsar (vissa chip efter 2025 kan använda HBM-minne eller ny icke-flyktig minnesteknik på chipet för att mata AI-kärnor snabbare). Förvänta dig också mer specialisering inom AI-chip: t.ex. separata acceleratorer för bild, tal, rekommendationsmodeller osv., var och en optimerad för sitt område. Vissa SoC:er har redan dubbla NPU:er (en “stor” NPU för tunga uppgifter, en mikro-NPU i sensorhubben för alltid på-lätta uppgifter).

Sammanfattningsvis är riktningen tydlig: NPU:er och TPU:er blir lika standard och oumbärliga som CPU:er i modern databehandling. De gör enheter smartare, mer responsiva och mer hänsynsfulla till vår integritet. Som en rapport uttryckte det, “högpresterande processorenheter på enheter är i stor utsträckning ansvariga för att utföra komplexa AI-funktioner som bildigenkänning, NLP och realtidsbeslutsfattande”, och detta driver mer intelligent och responsiv teknik över sektorer [105].

Vi går in i en era där du helt enkelt kommer att förvänta dig att din enhet förstår och förutser dina behov – din telefon redigerar foton och skriver meddelanden i din stil, din bil undviker olyckor och underhåller dig med AI, dina hemprylar lär sig dina preferenser – allt möjligt tack vare de tysta neurala processorerna inuti dem. AI på enheten är inte science fiction; det är här nu och förbättras snabbt. Äktenskapet mellan NPU:er och TPU:er med våra vardagsprylar gör AI personlig, allestädes närvarande och privat – och för verkligen molnintelligensens kraft ner till jorden (eller åtminstone ner i din ficka).

Källor:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27 aug 2024 [106]. Beskriver roller och skillnader mellan CPU:er, GPU:er, TPU:er och NPU:er i AI-arbetsbelastningar.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 [107]. Förklaring av Googles TPU-design (systoliska matriser, låg precision) och NPU-användning i mobila enheter.
  • TechTarget WhatIs. ”Tensor processing unit (TPU).” whatis.techtarget.com, 2023 [108]. Noterar att TPU:er är specialiserade på matrisberäkningar och att NPU:er efterliknar hjärnans neurala nätverk för acceleration [109].
  • NimbleEdge Blog (Neeraj Poddar). ”The State of On-Device AI: What’s Missing in Today’s Landscape.” 26 juni 2025 [110]. Redogör för fördelar med AI på enheten (latens, offline, integritet, kostnad) och utmaningar som fragmenterade SDK:er.
  • Qualcomm (OnQ Blog). ”Bloomberg and Cristiano Amon talk on-device AI.” Juli 2023 [111]. VD för Qualcomm om vikten av inferens på enheten för framtida AI (tweet-citat om vändpunkt inom AI).
  • MediaTek Blog (Exec Talk av Will Chen). ”Shaping the future of AI mobile experiences.” 3 mars 2025 [112]. MediaTek och Oppos samarbete kring NPU:er; citat om edge computing i din hand och exempel på AI-fotoförbättring med hjälp av NPU.
  • I-Connect007 / Qualcomm Press. ”Qualcomm works with Meta to enable on-device AI (Llama 2).” 24 juli 2023 [113]. Pressmeddelande med citat från Qualcomms SVP Durga Malladi om att skala generativ AI via edge-enheter och moln.
  • PCWorld (Mark Hachman). ”Intel’s Core Ultra CPUs keep AI simple….” 24 okt. 2024 [114]. Diskuterar att Intel Arrow Lake använder Meteor Lakes NPU (13 TOPS) och nämner AMD:s Ryzen 8000 39 TOPS NPU samt Microsofts 40 TOPS ”Copilot”-krav.
  • Ts2 (Tech Empowerment). ”Självkörande superdator-jämförelse: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” sep. 2023 ts2.tech. Ger TOPS-uppskattningar: Tesla HW3 vs HW4 (72→100 TOPS per chip) ts2.tech, NVIDIA Thor ~1000 TOPS (eller 2000 med dubbla) ts2.tech och citerar NVIDIA:s VP om generativ AI i fordon ts2.tech.
  • Grand View Research. ”On-Device AI Market Report, 2030.” 2024 [115]. Noterar ökningen av specialiserade AI-chip (NPU:er) som möjliggör komplex AI på enheter, och att hårdvara stod för 60,4 % av on-device AI-marknaden 2024, drivet av smartphones, IoT, NPU:er etc.
  • Google Blog. ”Google Tensor G3: Pixel 8:s AI-första processor.” okt. 2023 [116]. Beskriver Tensor G3:s uppgraderingar för generativ AI på enheten, ny TPU-design och TTS-modell på enheten med datacenterkvalitet.
  • Techspot. ”Snapdragon 8 Gen 3 tar generativ AI till smartphones.” okt. 2023 [117]. Futurum Groups analys som beskriver SD8Gen3:s AI-motor: 10B param LLM på enheten, 98 % snabbare NPU, världens snabbaste Stable Diffusion på telefon, etc., samt fördelar med LLM:er på enheten för kostnad/integritet/offline [118].
  • Apple Wiki (Fandom). ”Neural Engine.” Uppdaterad 2025 [119]. Neural Engine-versionens historia med A17 Pro 35 TOPS år 2023, etc. Visar utvecklingen från 0,6 TOPS (A11) till 35 TOPS (A17) [120] och M4 på 38 TOPS [121].
  • EnGenius Tech. ”Cloud Edge Camera AI Surveillance.” 2023 [122]. Exempel på säkerhetskamera med inbyggd NPU som möjliggör AI-bearbetning direkt i kameran och lokal lagring (ingen NVR behövs).
  • EmbedL. ”Amazon släpper AZ1 Neural Edge Processor.” Okt. 2020 [123]. Diskuterar Amazons AZ1 edge NPU för Echo-enheter, byggd med MediaTek, designad för taligenkänning på enheten för att minska latens och beroende av molnet [124].
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

References

1. www.techtarget.com, 2. www.techtarget.com, 3. www.backblaze.com, 4. www.backblaze.com, 5. www.backblaze.com, 6. www.backblaze.com, 7. www.backblaze.com, 8. www.backblaze.com, 9. coral.ai, 10. www.backblaze.com, 11. www.techtarget.com, 12. www.backblaze.com, 13. www.techtarget.com, 14. www.techtarget.com, 15. www.techtarget.com, 16. www.backblaze.com, 17. futurumgroup.com, 18. fuse.wikichip.org, 19. fuse.wikichip.org, 20. fuse.wikichip.org, 21. www.backblaze.com, 22. semianalysis.com, 23. www.backblaze.com, 24. www.techtarget.com, 25. www.techtarget.com, 26. www.techtarget.com, 27. www.nimbleedge.com, 28. www.nimbleedge.com, 29. www.nimbleedge.com, 30. www.moomoo.com, 31. www.nimbleedge.com, 32. futurumgroup.com, 33. www.nimbleedge.com, 34. iconnect007.com, 35. x.com, 36. apple.fandom.com, 37. apple.fandom.com, 38. blog.google, 39. blog.google, 40. blog.google, 41. futurumgroup.com, 42. futurumgroup.com, 43. www.engeniustech.com, 44. coral.ai, 45. www.embedl.com, 46. www.embedl.com, 47. apple.fandom.com, 48. www.grandviewresearch.com, 49. www.grandviewresearch.com, 50. apple.fandom.com, 51. apple.fandom.com, 52. apple.fandom.com, 53. blog.google, 54. www.reddit.com, 55. blog.google, 56. blog.google, 57. blog.google, 58. coral.ai, 59. blog.google, 60. futurumgroup.com, 61. futurumgroup.com, 62. futurumgroup.com, 63. iconnect007.com, 64. iconnect007.com, 65. iconnect007.com, 66. www.mediatek.com, 67. www.mediatek.com, 68. www.pcworld.com, 69. www.pcworld.com, 70. www.pcworld.com, 71. www.pcworld.com, 72. www.pcworld.com, 73. en.wikipedia.org, 74. www.pcworld.com, 75. www.pcworld.com, 76. www.androidauthority.com, 77. futurumgroup.com, 78. apple.fandom.com, 79. blog.google, 80. iconnect007.com, 81. www.qualcomm.com, 82. www.pcworld.com, 83. www.pcworld.com, 84. www.notateslaapp.com, 85. www.grandviewresearch.com, 86. futurumgroup.com, 87. x.com, 88. iconnect007.com, 89. www.mediatek.com, 90. www.grandviewresearch.com, 91. www.grandviewresearch.com, 92. www.nimbleedge.com, 93. www.threads.com, 94. www.nimbleedge.com, 95. www.nimbleedge.com, 96. www.nimbleedge.com, 97. www.threads.com, 98. iconnect007.com, 99. www.nimbleedge.com, 100. www.nimbleedge.com, 101. www.nimbleedge.com, 102. www.idtechex.com, 103. apple.fandom.com, 104. fuse.wikichip.org, 105. www.grandviewresearch.com, 106. www.techtarget.com, 107. www.backblaze.com, 108. www.techtarget.com, 109. www.techtarget.com, 110. www.nimbleedge.com, 111. x.com, 112. www.mediatek.com, 113. iconnect007.com, 114. www.pcworld.com, 115. www.grandviewresearch.com, 116. blog.google, 117. futurumgroup.com, 118. futurumgroup.com, 119. apple.fandom.com, 120. apple.fandom.com, 121. apple.fandom.com, 122. www.engeniustech.com, 123. www.embedl.com, 124. www.embedl.com

Don't Miss

Predictive Manufacturing: The AI-Driven Revolution Saving Factories Millions

Prediktiv tillverkning: Den AI-drivna revolutionen som sparar fabriker miljoner

Prediktiv tillverkning använder data och AI för att förutsäga händelser
5G Surges, 2G Fades, 6G Looms: Global Mobile Network Highlights (Sept 23–24, 2025)

5G ökar, 2G försvinner, 6G närmar sig: Globala höjdpunkter för mobilnät (23–24 sept 2025)

Viktiga fakta 5G-tillväxten ökar kraftigt världen över, men skillnader i