NPU-ar vs. TPU-ar: Korleis kunstig intelligens på eininga gjer dingsane dine superraske i 2025

september 7, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple starta on-device AI i 2017 med iPhone A11 sin Neural Engine, som mogleggjer Face ID og Animoji med opptil 600 milliardar operasjonar per sekund.
  • I 2023 leverte iPhone A17 Pro sin 16-kjerners Neural Engine om lag 35 TOPS, og driv funksjonar for tale, foto og omsetjing på eininga.
  • Google Pixel 8 (2023) brukar Tensor G3 NPU for å køyre AI-modellar som Palm 2 for offline omsetjing og samandrag.
  • Google sin Edge TPU på Coral Dev Board leverer 4 TOPS med bilethandsaming på berre nokre få watt.
  • Tesla sitt Full Self-Driving-maskinvare har to NPU-ar: HW3 (2019) gav om lag 144 TOPS, og HW4 (2023) rundt 200–250 TOPS.
  • NVIDIA Drive Thor (avduka 2024) kan nå opptil 2000 TOPS når to brikker blir kopla saman for AI-oppgåver i bilar.
  • Qualcomm sin Snapdragon 8 Gen 3 (2023) Hexagon NPU er 98 % raskare enn Gen 2, kan køyre LLM-ar med opptil 10 milliardar parameter på eininga, og oppnådde verdas raskaste mobile Stable Diffusion i demonstrasjonar.
  • MediaTek sin Dimensity 9400 (2024) med sjette generasjon APU driv AI-fotoforbetring på Oppo Find X8, og markerer at NPU-ar vil spreie seg til TV-ar, IoT og bilar innan 2025.
  • Intel sin Meteor Lake, 14. generasjon Core (lansert 2023; omdøypt til Core Ultra i 2024), har ein integrert NPU som leverer om lag 8–12 TOPS, med Arrow Lake på ~13 TOPS og Lunar Lake ryktast rundt 45 TOPS.
  • AMD sin Ryzen 7040 Phoenix (2023) introduserte Ryzen AI Engine med opptil 10 TOPS, medan Ryzen 8000 desktop (tidleg 2024) gav 39 TOPS før AMD sette NPU-ar på pause i den generasjonen.

Kort fortalt: Smarttelefonen, kameraet og til og med bilen din får AI-hjerner innebygd – ingen sky nødvendig. Spesielle brikker kalla NPU-ar (Neural Processing Units) og TPU-ar (Tensor Processing Units) gjer kvardagslege einingar til intelligente assistentar som kan ansiktsgjenkjenning, stemmekommandoar, sanntidsomsetjing, autonome køyrefunksjonar og meir. Denne AI-revolusjonen på eininga lovar lynraske svar, betre personvern og nye funksjonar vi tidlegare trudde berre var mogleg med superdatamaskiner. I denne rapporten vil vi avmystifisere NPU-ar og TPU-ar, sjå korleis dei skil seg frå CPU-ar/GPU-ar, og utforske kvifor teknologigigantar som Apple, Google, Qualcomm og Intel kappløper om å putte desse “AI-hjernene” i alt frå telefonar til bilar. Vi vil òg trekke fram dei siste nyvinningane for 2024–2025, ekspertinnsikt, industristandardar og kva framtida bringer for AI på eininga.

Kva er NPU-ar og TPU-ar? (Møt AI-hjernen i eininga di)

Neurale prosesserings­einingar (NPU-ar) er spesialiserte prosessorar som er laga for å akselerere kunstige nevrale nettverk – algoritmane som driv moderne KI-oppgåver som biletgjenkjenning, talehandsaming og meir. I motsetnad til generelle CPU-ar, er NPU-ar application-specific integrated circuits (ASICs) tilpassa matriseutrekningar og dei tunge parallelle arbeidslasta til nevrale nettverk techtarget.com. Ein NPU «imiterer dei nevrale nettverka i ein menneskehjerne for å akselerere KI-oppgåver», og fungerer i praksis som ein silicon brain inne i eininga di techtarget.com. NPU-ar er spesielt gode til å køyre inferens (gjere prediksjonar) for KI-modellar effektivt på eininga, ofte ved å bruke lågare numerisk presisjon (t.d. 8-bits heiltal) for å spare straum, men likevel levere høg ytelse backblaze.com. Omgrepet «NPU» blir av og til brukt breitt om alle KI-akseleratorar, men viser oftast til dei som finst i mobile og edge-einingar backblaze.com. Til dømes er Apples «Neural Engine» i iPhone og Samsungs mobile KI-motor NPU-ar integrerte i deira system-på-brikke (SoC)-design.

Tensor Processing Units (TPU-ar), på den andre sida, vart utvikla av Google som spesialtilpassa brikker for å akselerere maskinlæring, særleg for TensorFlow-rammeverket. Ein TPU er ein type ASIC optimalisert for tensoroperasjonar (matrise-multiplikasjonar, osb.) som ligg i kjernen av trening og inferens av nevrale nettverk backblaze.com. Google tok først i bruk TPU-ar i datasentra sine i 2015 for å auke farten på utrekningar for nevrale nettverk, og gjorde dei seinare tilgjengelege via Google Cloud backblaze.com. TPU-ar brukar ein eigen arkitektur kalla systolisk matrise, som koplar saman mange små prosesserings-einingar i eit rutenett som pumpar data gjennom ei rekkje matrise-multipliserings-einingar backblaze.com. Denne utforminga gjev ekstrem gjennomstrøyming på oppgåver innan djup læring. Googles TPU-ar ofrar med vilje noko presisjon (brukar 8-bits eller 16-bits matematikk i staden for 32-bits flyttal) for å oppnå stor fart og effektivitet backblaze.com, sidan mange AI-oppgåver ikkje treng høg presisjon for å gje nøyaktige resultat. Sjølv om “TPU” teknisk sett viser til Googles brikker, vert omgrepet av og til brukt meir generelt om kva som helst “tensor”-akselerator. Merk at Google òg produserer Edge TPU-koprosessorar for AI på eininga i produkt som Coral Dev Board, som leverer 4 billionar operasjonar per sekund på berre nokre få watt coral.ai.

Kort oppsummert: NPU-ar og TPU-ar er begge silisiumakseleratorar for AI, men NPU-ar er vanlegvis bygde inn i mobile/edge-einingar for effektiv inference på eininga, medan TPU-ar (i streng forstand) har vore høgytelsesbrikker (og no moduler) primært frå Google, opphavleg for trening og inference i sky/datasenter. Begge skil seg frå tradisjonelle CPU-/GPU-design for å prioritere parallelle matematiske operasjonar for nevrale nettverk. Som ein teknologiredaktør sa det: “TPU-ar tek spesialiseringa endå lenger, med fokus på tensoroperasjonar for å oppnå høgare fart og energieffektivitet… NPU-ar er utbreidde i AI-aktiverte einingar som smarttelefonar og IoT-dingsar” backblaze.com.

Korleis skil NPU-ar og TPU-ar seg frå CPU-ar og GPU-ar?

Tradisjonelle CPU-ar (sentralprosessorar) er “hjernen” i generell databehandling – optimaliserte for fleksibilitet slik at dei kan handtere alle slags oppgåver, frå å køyre operativsystemet ditt til å surfe på nettet. Dei har nokre få kraftige kjerner som er svært gode på sekvensiell logikk og varierte instruksjonar, men dei er ikkje gode på den svært parallelle matematikken som trengst for djup læring techtarget.com. Når ein CPU blir beden om å prosessere eit stort nevralt nettverk, blir det ofte ein flaskehals, fordi den må utføre millionar av multiplikasjonar og addisjonar i rekkefølge eller i avgrensa parallelle grupper. Dette fører til høg ventetid og straumforbruk (den såkalla Von Neumann-flaskehalsen med å flytte mykje data mellom CPU og minne) backblaze.com. CPU-ar kan gjere noko AI-arbeid (særleg enklare eller mindre modellar, eller kontrollogikk for AI-program techtarget.com), men som hovudregel slit dei med å skalere effektivt til dei moderne AI-krava om massiv parallell lineær algebra.

GPU-ar (grafikkprosessorar) førte parallell databehandling til fronten. Dei vart opphavleg laga for å gjengi bilete ved å utføre mange enkle operasjonar parallelt på pikslar og vertiksar, men det viste seg at GPU-ar også passar godt til å trene nevrale nettverk, som òg inneber å bruke dei same matematiske operasjonane (skalarprodukt, osb.) på mykje data samtidig techtarget.com. Ein GPU inneheld hundrevis eller tusenvis av små kjerner som kan utføre matematikk parallelt. Dette gjer GPU-ar utmerka for storskala AI, og gjennom 2010-talet vart GPU-ar (særleg NVIDIA sine med CUDA-programvare) arbeidshesten i djup læring-forskinga. Likevel er GPU-ar framleis noko generelle – dei må handtere ulike grafikkoppgåver og vere fleksible, så dei er ikkje 100 % optimaliserte for nevrale nettverk. Dei brukar òg mykje straum og krev nøye programmering for å bli fullt utnytta (dei likar dårleg kompleks forgreina kode og trivst best med strømlinjeforma, dataparallelle oppgåver) techtarget.com.

NPU-ar og TPU-ar tek spesialiseringa endå lenger. Dei er spesialbygde for berre nevrale nettverks-arbeidslastar. Dette betyr at arkitekturen deira kan fjerne alt som ikkje trengst for AI-matematikk og bruke meir silisium på ting som matrise-multipliserings-einingar, akkumulerings-adderarar, og minne på brikka for å raskt flytte data inn og ut av desse matteiningane. Ein Google Cloud TPU, til dømes, er i hovudsak eit gigantisk 2D-array av MAC (multiply-accumulate)-einingar med ein smart dataflyt-arkitektur (det systoliske arrayet) som matar dei med operandar i høg fart backblaze.com. Han bryr seg ikkje om cache, spekulativ utføring eller andre CPU-funksjonar – han er strømlinjeforma for matrise-matematikk. NPU-ar i mobilbrikker integrerer på liknande vis dedikerte nevrale motor-kjerner ved sida av CPU/GPU. Desse kjernene brukar ofte aritmetikk med låg presisjon (t.d. 8-bits heiltal som TPU-ar) og køyrer svært parallelle “lag for lag”-utrekningar for ting som konvolusjonsnevrale nettverk. Ein NPU kan bruke ein “fusjonert” arkitektur som kombinerer skalar-, vektor- og tensor-einingar (Qualcomm sin Hexagon NPU gjer dette) for å handtere ulike nevrale nettverksoperasjonar effektivt futurumgroup.com.

Dei viktigaste skilnadene handlar om:

  • Instruksjonssett og fleksibilitet: CPU-ar har eit breitt, generelt instruksjonssett (kan gjere mange ting, men ikkje alt samstundes). GPU-ar har eit meir avgrensa, men framleis fleksibelt instruksjonssett optimalisert for gjennomstrøyming på matematikk. NPU-ar/TPU-ar har eit svært smalt instruksjonssett – i hovudsak berre operasjonane som trengst for nevrale nettverk (matrisemultiplikasjon, konvolusjon, aktiveringsfunksjonar), ofte implementert som faste røyr eller array fuse.wikichip.org. Til dømes har Tesla sin sjølvkøyrande NPU berre 8 instruksjonar i ISA-en sin, fokusert på DMA-lesing/skriving og prikkprodukt fuse.wikichip.org.
  • Parallellisme og kjerner: CPU-ar = nokre få kraftige kjerner; GPU-ar = tusenvis av enkle kjerner; NPU-ar/TPU-ar = på ein måte, titusenvis av svært enkle ALU-ar (MAC-einingane) strukturert i eit matrise- eller nevralt nettverk-mønster. Ein enkelt NPU-brikke kan utføre titals billionar operasjonar per sekund – Teslas bil-NPU køyrer på 2 GHz med 9 216 MAC-ar, og oppnår ~37 tera-operasjonar per sekund (TOPS) per kjerne, og kvar FSD-brikke har to NPU-ar for ~74 TOPS fuse.wikichip.org, ts2.tech. Til samanlikning kan ein høgenda CPU berre nå nokre hundre milliardar operasjonar/sek på AI-oppgåver, og ein GPU kanskje nokre få TOPS om ein ikkje brukar spesielle tensorkjerner.
  • Minnearkitektur: NPU-ar/TPU-ar er avhengige av raskt innebygd minne og strøyming av data. TPU-ar unngår den klassiske minneflaskehalsen ved å bruke systolisk dataflyt – kvar liten eining sender data vidare til neste i takt, og minimerer lesing/skriving til hovudminnet backblaze.com. Mange NPU-ar har ein del SRAM på brikka for vekter/aktiveringar (t.d. har Teslas NPU-kjerner 32 MB SRAM kvar for å halde nevrale nettverksdata lokalt) semianalysis.com. Dette står i kontrast til GPU-ar/CPU-ar som brukar eksternt DRAM i stor grad.
  • Presisjon: CPU-ar/GPU-ar brukar vanlegvis 32-bits eller 64-bits flyttal for utrekningar. AI-akseleratorar brukar ofte 16-bits eller 8-bits heiltal (og nokre utforskar no 4-bits eller til og med 2-bits) fordi nevrale nettverk toler lågare presisjon. Googles TPU-designarar påpeikte eksplisitt at du ikkje treng full flyttalspresisjon for inferens, analogt til “du treng ikkje vite nøyaktig kor mange regndropar som fell for å vite at det regnar kraftig” backblaze.com. Dette gjer at NPU-ar/TPU-ar kan gjere fleire operasjonar parallelt og bruke mindre energi per operasjon.
  • Bruksområde: GPU-ar er framleis mykje brukte til trening av store modellar og for fleksibel databehandling (og dei er vanlege i datasenter og høgenda PC-ar). TPU-ar (sky) er retta mot storskala trening og inferens i Googles økosystem. NPU-ar finst oftare i kantenheiter – smarttelefonar, kamera, kvitevarer – som gjer inferens på allereie trente modellar. Dei utmerkar seg i oppgåver som å bruke ein visjonsmodell på eit kamerabilde i sanntid, eller køyre stemmeassistentens vekkjerord-gjenkjenning kontinuerleg med låg straumbruk. Som TechTarget påpeikte: “GPU-ar blir valde for tilgjenge og kostnadseffektivitet i mange ML-prosjekt; TPU-ar er vanlegvis raskare og mindre presise, brukte av bedrifter på Google Cloud; NPU-ar finst ofte i kant-/mobileiningar for vesentleg raskare lokal prosessering” techtarget.com.

Oppsummert, CPUar = allsidige organisatørar, GPUar = parallelle arbeidshestar, TPUar/NPUar = spesialistar på nevrale nettverk. Alle kan samarbeide – faktisk, i ein moderne AI-aktivert eining koordinerer CPUen ofte oppgåver og sender dei mest matematikk-tunge delane vidare til NPU/GPU etter behov techtarget.com. Denne spesialiseringstrenden finst fordi éin løysing ikkje lenger passar for alt innan databehandling: som ein redaktør sa, «å leggje til millionar fleire transistorer for kvart behov var ikkje bra for effektiviteten… designarar omfamna spesialbygde prosessorar» techtarget.com. Spesialbygde NPUar og TPUar gjer AI-utrekningar mykje raskare, samstundes som dei held straumforbruket lågt – ein kritisk balanse for både batteridrevne einingar og tette serverar.

Kvifor AI på eininga? (Edge vs. Cloud)

Kvifor bry seg med å køyre AI på telefonen eller bilen din i det heile – kvifor ikkje berre sende alt til skyen der store serverar (med GPUar/TPUar) kan ta seg av det tunge arbeidet? Det finst fleire overtydande grunnar til at ein går over til AI på eininga, og dei handlar om fart, personvern, kostnad og pålitelegheit nimbleedge.com:

  • Umiddelbar respons (låg forseinking): Ein NPU på eininga kan handsame data i sanntid utan forsinkinga det er å sende data til ein skytjenar. Dette er avgjerande for interaktive eller tryggleikskritiske AI-oppgåver. Til dømes kan eit autonomt køyresystem i ein bil med innebygd NPU identifisere ein fotgjengar og bremse umiddelbart, på millisekund, i staden for å vente på utrekning i skyen. Eit smartkamera med NPU kan oppdage ein inntrengar i det same dei kjem inn i biletet. På telefonen din betyr AI på eininga at stemmeassistenten din kan svare raskare og meir naturleg fordi den ikkje heile tida «ringer heim». Redusert forseinking gjer det mogleg med sanntids avgjerdstaking og ein smidigare brukaroppleving nimbleedge.com.
  • Personvern og datasikkerheit: AI på eininga held dataene dine lokalt. I staden for å sende lyd frå mikrofonen eller kamerafeeden til skyen for analyse, skjer prosesseringa på sjølve eininga. Dette reduserer eksponeringa av sensitive data betrakteleg. Til dømes utfører moderne smarttelefonar ansiktsgjenkjenning (Face ID, osv.) heilt på eininga – det biometriske kartet av ansiktet ditt forlèt aldri telefonens sikre område. På same måte kan eit AI-høyreapparat eller ein helsebærbar analysere biometriske data utan å laste dei opp til ein server, noko som bevarer personvernet. Med aukande brukarbekymringar og reguleringar rundt datasuverenitet, er dette ein stor fordel. Som ein edge AI-blogg uttrykte det, betyr prosessering på eininga at “brukardata ikkje treng å sendast til skyen,” og gir ein grunnleggjande personvernfordel nimbleedge.com. (Sjølvsagt er personvern ikkje automatisk – utviklarar må framleis handtere lagra data forsiktig – men det er lettare å stole på einingar som ikkje stadig sender informasjonen din ut.) Teknologisjefar framhevar ofte dette poenget. Qualcomms CEO Cristiano Amon påpeikte at kombinasjonen av sky- og einingsintelligens kan forbetre personalisering samtidig som data blir halde sikre på eininga – han kallar det ei “hybrid framtid” der AI på eininga samarbeider med sky-AI for det beste frå begge moomoo.com.
  • Tilgjenge og pålitelegheit utan nett: Einingar med NPU/TPU er ikkje avhengige av tilkopling. Dei kan fungere i ein tunnel, på eit fly, i avsidesliggande område, eller under nettverksbrot. Dette er svært viktig for pålitelegheit. Ein tale-til-tekst-funksjon på eininga vil framleis fungere utan dekning. Ein drone med innebygd syns-AI kan unngå hinder sjølv utan nett. Denne uavhengigheita er også kritisk for kritiske system: til dømes redningsrobotar eller medisinsk utstyr som ikkje kan rekne med internett. “Offline-funksjonalitet” er ein kjernefordel med AI på eininga nimbleedge.com – det sikrar at AI-funksjonen er tilgjengeleg når og kvar det trengst.
  • Kostnadseffektivitet i stor skala: Å stadig sende rådata til skyen for AI-prosessering kan vere svært dyrt (skytjenester er ikkje gratis) og krev mykje bandbreidde. Etter kvart som AI-funksjonar blir vanlegare, måtte selskapa betale enorme skyrekningar om kvar minste oppgåve gjekk til ein server. Ved å gjere meir på kanten, reduserer dei belastninga på skyserverar og nettverk. Det er ofte meir effektivt å bruke nokre ekstra kroner på ein betre brikke i eininga enn å betale for gigabyte med skyprosessering gjennom levetida til eininga. Ein analyse frå Futurum peika på at prosessering på eininga hjelper med å løyse generativ AI sine skalerings- og kostnadsutfordringar – det “fordeler” belastninga slik at datasenter ikkje blir overbelasta (og brukarar/utviklarar slepp å betale dyre dommar for sky-GPU-tid) futurumgroup.com.
  • Personalisering & kontekst: Ein ny grunn som veks fram: AI på eininga kan lære av og tilpasse seg lokal kontekst på ein måte som skya-AI kanskje ikkje kan. Smarttelefonen din kan halde ved like ein liten lokal modell som lærer seg din skrivestil for betre autokorrektur, utan å dele den personlege språkmodellen til skya. Einingar kan kombinere data frå fleire sensorar i sanntid (noko som er lettare å gjere lokalt enn å strøyme mange sensorstraumar til skya). Dette kan gi ei meir personleg og kontekstbevisst oppleving. Nokre funksjonar som federert læring gjer det til og med mogleg for einingar å forbetre AI-modellar i fellesskap utan å laste opp rådata (berre sende små vektoppdateringar tilbake).
  • Regulering og datasuverenitet: Lover som GDPR i Europa og ulike krav til datalokalisering krev i aukande grad at visse data (særleg personlege eller sensitive data) ikkje blir sende utanlands eller til tredjepartar utan samtykke. AI på eininga gir ein måte å følgje desse reglane på ved å handsame data ved kjelda. Til dømes kan AI-verktøy for medisinsk bildediagnostikk køyre på sjukehusutstyr (edge-serverar med NPU-ar) slik at pasientdata aldri forlèt bygget, og ein møter personvernreguleringar. NimbleEdge sin rapport for 2025 peikar på at styresmakter pressar på for meir lokal inferens av omsyn til suverenitet og etterleving nimbleedge.com.

Alle desse faktorane driv fram eit paradigmeskifte: I staden for å tenkje “cloud-first” for AI, designar selskapa no AI-funksjonar “device-first” når det er mogleg. Som Qualcomms AI-visepresident, Durga Malladi, oppsummerte: “For å kunne skalere generativ AI til det breie laget, må AI køyre både i skya og på einingar i ytterkanten… som smarttelefonar, laptopar, køyretøy og IoT-einingar” iconnect007.com. Vi er på veg mot ei hybrid AI-verd der tung trening og store modellar kanskje ligg i skya, men mange inferensoppgåver og personlege AI-opplevingar køyrer lokalt på NPU-ar/TPU-ar i hendene og heimane dine. Faktisk kallar Amon det eit “vendepunkt for AI” – lokal inferens utan forseinking, der “framtida for AI er personleg” fordi det køyrer akkurat der du er x.com.

AI på eininga i praksis: Frå smarttelefonar til sjølvkøyrande bilar

Spesialiserte AI-brikker er allereie innebygde i eit breitt spekter av einingar rundt deg, ofte usynleg og gjer dei smartare. Her er nokre hovudarenaer der NPU-ar og edge-TPU-ar er tekne i bruk:

  • Smarttelefonar & nettbrett: Nesten alle moderne flaggskiptelefonar (og til og med mange i mellomklassen) har no ein NPU eller dedikert AI-motor. Apple starta trenden i 2017 med Apple Neural Engine i iPhone sin A11-brikke, som gjorde det mogleg med Face ID og Animoji på eininga ved å utføre opptil 600 milliardar operasjonar per sekund apple.fandom.com. I dag har Apple sin A17 Pro-brikke (2023) ein 16-kjerners Neural Engine som kan utføre 35 billionar operasjonar per sekund apple.fandom.com. Dette gir funksjonar som avansert scenedeteksjon for kamera, fotostilar, Siri-stemmekommandoar handsama lokalt, autokorrektur, direkteteksting og til og med å køyre transformermodellar for omsetjing på eininga. Google sine Pixel-telefonar har òg spesialtilpassa brikker (“Google Tensor” SoC-ar) med NPU-ar: den nyaste Tensor G3 i Pixel 8 vart “spesialdesigna for å køyre Google sine AI-modellar”, og oppgraderte alle delar av brikka (CPU, GPU, ISP) for å legge til rette for generativ AI på eininga blog.google. Pixel 8 kan køyre Google sine mest avanserte tekst-til-tale- og omsetjingsmodellar lokalt, dei same som tidlegare berre fanst i datasenter blog.google. Han gjer òg avanserte kameratriks som “Best Take” for samanslåing av gruppebilete og Audio Magic Eraser ved hjelp av fleire AI-modellar på eininga blog.google. Samsung og andre Android-produsentar brukar Qualcomm sine Snapdragon-brikkesett, der dei nyaste NPU-ane (Hexagon AI-motor) til og med kan køyre store språkmodellar på telefonen – Qualcomm har demonstrert å køyre ein LLM med 10 milliardar parameterar og til og med Stable Diffusion-biletegenerering på ein telefon med Snapdragon 8 Gen 3 futurumgroup.com. Denne brikka si AI-motor er 98 % raskare enn førre generasjon og støttar INT4-presisjon for effektivitet futurumgroup.com. Praktisk resultat: Telefonen din i 2024 kan gjere ting som å oppsummere artiklar, svare på spørsmål eller redigere bilete med AI utan å trenge skya. Til og med tilgjenge får fordelar: til dømes har Pixel-telefonar no stemmeskriving på eininga, direkteteksting og ein kommande funksjon som skal skildre bilete for blinde brukarar ved hjelp av ein lokal modell.
  • Småkamerar og tryggingssystem: AI-aktiverte kamera brukar innebygde NPU-ar til å oppdage folk, ansikt, dyr eller mistenkeleg åtferd umiddelbart. Til dømes har dei nyaste tryggleikskamera frå EnGenius ein innebygd NPU som handterer objektdeteksjon og konverterer video til metadata direkte på kameraet, noko som eliminerer behovet for ein separat videorecorder og aukar tryggleiken (sidan videoen kan analyserast og lagrast lokalt) engeniustech.com. Dette betyr at tryggleikskameraet ditt kan avgjere “person til stades” eller “pakke levert” og berre sende den varslinga, i staden for å streame timar med opptak til ei skyteteneste. På same måte hadde forbrukareiningar som Google Nest Cam IQ ein visjonsbrikke på eininga (Google Edge TPU) for å kjenne att kjende ansikt og skilje mellom menneske og kjæledyr i synsfeltet. DSLR- og speillause kamera legg òg til AI-prosessorar for ting som motivsporing, augeautofokus og sceneoptimalisering i sanntid. I dronar hjelper innebygde AI-brikker med hindringsunngåing og visuell navigasjon utan å krevje fjernkontroll. Merk at Google sin Edge TPU (ein liten ASIC-modul) har blitt eit populært tillegg for DIY- og industrielle IoT-kamera – den gir 4 TOPS med visjonsprosessering for oppgåver som å oppdage folk eller lese bilskilt, medan den berre brukar ~2 watt coral.ai.
  • Smarthus- og IoT-einingar: Utanom mobiltelefonar har mange smarthus-dingsar små NPU-ar. Talestyrte høgtalarar (Amazon Echo, Google Nest Hub, osv.) har no ofte lokale talegjenkjenningsbrikker. Amazon utvikla AZ1 Neural Edge-prosessoren for Echo-einingane for å gjere Alexa si vekkordgjenkjenning og responsar raskare på eininga, og halverte dermed forseinkinga embedl.com. AZ1 (bygd saman med MediaTek) køyrer eit nevralt nettverk som kjenner att “Alexa” og behandlar enkle kommandoar utan å gå til skyen embedl.com. Dette gjer ikkje berre Alexa raskare, men held òg meir taledata privat. Likeeins har mange nye TV-ar, kvitevarer og til og med leiker noko AI på kanten – til dømes kan eit smartkjøleskap sitt kamera identifisere matvarer og utløpsdatoar lokalt. Wearables fortener òg å nemnast: Apple Watch sin S9-brikke fekk ein 4-kjernes Neural Engine for betre å handtere helse-AI-algoritmar og Siri-forespurnader på klokka apple.fandom.com. Og på industrisida kan IoT-sensorar med NPU-ar utføre avvikdeteksjon på utstyrsdata direkte på kanten, og berre flagge relevante hendingar oppover (sparar bandbreidde og reagerer raskare på problem).
  • Bilar (ADAS og autonomi): Bilar har blitt AI-knutepunkt på hjul. Avanserte førarassistent-system (ADAS) og sjølvkøyrande funksjonar er avhengige av eit sett med innebygde AI-akseleratorar for å tolke kamerabilde, LiDAR, radar, og ta køyreavgjerder på brøkdelen av eit sekund. Tesla har vorte kjend for å designe sin eigen FSD (Full Self-Driving) Computer med to NPU-brikker. Teslas FSD-brikke (HW3, lansert i 2019) leverte 144 TOPS (to NPU-ar på 72 TOPS kvar); den nyare HW4 (2023) aukar dette til om lag 200–250 TOPS totalt (to 7nm NPU-ar på rundt 100+ TOPS kvar) ts2.tech. Dette gjer det mogleg for bilen å handsame video i full oppløysing frå 8 kamera, sonar, osv., samstundes gjennom nevrale nettverk for persepsjon og til og med køyre enkelte språkmodellar for stemmekommandoar – alt lokalt inne i bilmodulen. Konkurrerande plattformer som NVIDIA Drive og Qualcomm Snapdragon Ride integrerer òg NPU-ar. NVIDIAs nyaste superdatabrikke for bilar, Drive Thor, som kjem i 2025-bilar, kan skilte med opp til 1 000 TOPS på éi brikke (og 2 000 TOPS når to er para saman) for å støtte autonomi på nivå 4 ts2.tech. Den kombinerer GPU, CPU og dedikerte deep learning-akseleratorar slik at den kan handtere alt frå vegskiltgjenkjenning til førarovervaking med AI på brikka ts2.tech. Desse NPU-ane er bokstaveleg talt livreddande: ein autonom bil kan ikkje vente på nettskytenarar om eit barn spring ut i vegen. Innebygd AI må sjå og reagere innanfor titals millisekund. Utanom personbilar finn du òg stor bruk av edge-AI i autonome dronar, leveringsrobotar og industrikøyretøy som navigerer og tek avgjerder med innebygde NPU-ar/TPU-ar (til dømes brukar Nuro sine leveringsrobotar og mange sjølvkøyrande lastebilsystem NVIDIA- eller Huawei-AI-brikker om bord).
  • Edge Computing og industri: I fabrikkar og bedriftsmiljø vert AI på eininga ofte brukt som edge-serverar eller gatewayar med AI-akseleratorar. I staden for å sende kamerafeeder eller sensordata til ein sentral sky, installerer selskapa edge-boksar (av og til GPU-baserte, av og til NPU/FPGA-baserte) på staden. Desse handterer oppgåver som sanntids videoanalyse for kvalitetskontroll på produksjonslina, og oppdagar feil med AI-visjon på mikrosekund. Helseutstyr er eit anna døme: eit portabelt ultralydapparat eller MR-maskin kan ha ein NPU for å gjere AI-bileteanalyse på eininga, slik at legar får umiddelbar diagnostisk hjelp utan å trenge internett-tilkopling (noko som òg er betre for personvern for pasientdata). Handel og byar tek òg i bruk AI på kanten – t.d. smarte trafikkamera med NPU-ar for å analysere trafikk og justere lys, eller butikkhyllerkamera som sporar lagerbehaldning. Mange av desse brukar spesialiserte NPU-ar som Intel Movidius Myriad-brikker eller Google sin Edge TPU, eller nye aktørar som Hailo-8 (ein israelsk NPU som leverer 26 TOPS på nokre få watt for kamera). Felles for desse akseleratorane er at dei gjer det mogleg å analysere lokalt, slik at ein får sanntidsresultat og berre sender høgnivåinnsikt (i staden for rådata) over nettverket.

Allsidigheita til NPU-ar/TPU-ar på tvers av einingstypar er imponerande. Eitt augeblink gjer dei det mogleg for telefonen din å gjere bakgrunnen uskarp på eit bilete med AI, og det neste styrer dei ein drone eller skannar medisinske bilete. Smarttelefonkamera brukar no NPU-ar for funksjonar som nattmodus (intelligent samanstilling av fleire rammer), portrettmodus-bokeh, scenegjenkjenning (telefonen din veit du tek bilete av ein “solnedgang” og optimaliserer fargar via AI), og til og med for morosame AR-effektar (Animoji som kartlegg ansiktet ditt, eller Snapchat-filter som følgjer rørsler – alt takka vere nevrale nettverk på eininga). Biometri brukar NPU-ar: fingeravtrykkslesarar forbetra med AI for å oppdage levande finger, ansiktsopplåsing med djupsensorar pluss AI. Lyd brukar dei òg: støyreduksjon i øyreproppar og telefonar er no ofte AI-dreven, med NPU-ar som skil stemme frå bakgrunnsstøy i sanntid.

Eit konkret døme på innovasjon i 2024: Oppo (smarttelefonprodusenten), i samarbeid med MediaTek, kunngjorde at dei implementerte ein Mixture-of-Experts (MoE) AI-modell direkte på eininga seint i 2024 – visstnok dei første til å gjere dette i ein telefon grandviewresearch.com. Denne avanserte nevrale nettverksarkitekturen (MoE) kan auke ytelsen ved å berre aktivere relevante “ekspert”-delnettverk per oppgåve, og å gjere dette på eininga betyr at Oppo-telefonar kan oppnå raskare AI-handsaming og betre energieffektivitet for komplekse oppgåver, utan å trenge hjelp frå skyen grandviewresearch.com. Det understrekar korleis sjølv banebrytande AI-forsking raskt finn vegen inn i handhalde einingar gjennom forbetra NPU-ar.

Inni 2025 sine AI-brikker: Dei siste utviklingane frå Apple, Google, Qualcomm og fleire

Kappløpet om å bygge betre AI-maskinvare på eininga har raskt tilteke. Her er ein kikk på kva store selskap har lansert nyleg (2024–2025) når det gjeld NPU-ar/TPU-ar og AI-silikon:

  • Apple: Apples strategi med eigenutvikla silisium har lenge lagt vekt på maskinlæring på eininga. Kvart år har Apples Neural Engine vorte kraftigare. I 2023 iPhone 15 Pro nådde A17 Pro-brikka si Neural Engine 35 TOPS (billionar operasjonar per sekund) med sine 16 kjerner apple.fandom.com. Dette var dobbelt så høg rå gjennomstrøyming som A16 sin NPU, og Apple brukte det til å mogleggjere ting som talekjenning for Siri på eininga (endeleg handsamar mange Siri-forespurnader utan internett) og nye kamerafunksjonar (som portrettmodus automatisk fanga, og direkte omsetjing av tekst via kameraet). Apples brikker for 2024 heldt fram trenden: M3-familien for Macar (sein 2023) fekk ein oppdatert Neural Engine (interessant nok justert for 18 TOPS for M3-basebrikka, med fokus på effektivitet) apple.fandom.com. I 2024 introduserte Apple M4-brikka (for avanserte iPad/Mac, midten av 2024) som etter rapportane auka Neural Engine til 38 TOPS på ein forbetra 3nm-prosess apple.fandom.com. Ut over berre tal, har Apple brukt den NPU-en: funksjonar som Personleg stemme (som lagar ein klone av brukaren si stemme etter 15 minutt trening) køyrer privat på Neural Engine i iPhone, og Live Voicemail-transkripsjonar skjer lokalt. Apple har òg integrert NPU-ar i alle sine einingsklassar – til og med AirPods Pro har ein liten neural-brikke for Adaptive Audio. Apples leiarar framhevar ofte personvernaspektet: “maskinlæring på di eining” betyr at dataene dine blir verande hos deg. I 2025 ventar vi at Apples Neural Engine kanskje vil utvidast endå meir eller bli tilgjengeleg for tredjepartsappar på nye måtar (allereie no kan utviklarar bruke Core ML, men Apple kan opne for meir tilgang til neural-API). Det går òg rykte om at Apple designar ein frittståande AI-akselerator for framtidige briller eller bilar, men dagens produkt viser at dei føretrekk integrerte NPU-ar i sine A-serie og M-serie SoC-ar.
  • Google: Google var ikkje berre pioner innan cloud TPU, men satsa òg stort på on-device AI for Pixel-telefonar og forbrukareiningar. Google Tensor SoC (først introdusert i 2021 i Pixel 6) var unik fordi Google, kjend for skya, laga ein telefonbrikke for å køyre AI på sjølve eininga. Med Tensor G3 (i 2023 sin Pixel 8) framheva Google oppgraderingar som gjorde det mogleg med generativ AI på eininga. Google sa eksplisitt at brikka i Pixel 8 bringer “Google AI-forsking direkte til våre nyaste telefonar” blog.google. Tensor G3 sin neste generasjons TPU (Google kallar framleis AI-kjernen for “TPU” internt) gjer det mogleg for Pixel å køyre avanserte modellar som Palm 2 eller Gemini Nano (slanka versjonar av Google sine store språkmodellar) på sjølve eininga for funksjonar som nettsidesamandrag eller forbetring av stemmeskriving reddit.com. Eit hovudpunkt: Pixel 8 kan køyre Google si beste tekst-til-tale-modell (den som vert brukt i datasenter) lokalt, slik at telefonen kan lese opp nettsider med naturlege stemmer og til og med omsetje dei i sanntid, alt offline blog.google. Google brukar òg TPU-en i Pixel til fotografering (“HDR+” fleirbileteprosessering, Magic Eraser-objektfjerning med AI-inpainting blog.google), til tryggleik (ansiktsopplåsing på eininga via AI, no vurdert som sterk nok for betalingar blog.google), og til tale (Assistenten som ikkje bryr seg om du seier “øh”). Utanom telefonar tilbyr Google Coral Dev Board og USB-pinne for hobbyistar og verksemder som vil legge til Edge TPU-ar i prosjekta sine, kvar med Google sin Edge TPU som gir 4 TOPS for synsoppgåver med svært låg straumbruk coral.ai. Den vert brukt i nokre av Google sine eigne produkt, som Nest Hub Max for gjenkjenning av rørsler. For Google er integrering av TPU-ar på kanten del av ein større strategi: Sundar Pichai (Google-sjefen) har sagt at framtida for AI handlar om å forbetre alle opplevingar, og det er tydeleg at Google meiner “for å bringe den transformerande krafta til AI inn i kvardagen, må du få tilgang til ho frå eininga du brukar kvar dag” blog.google – difor Tensor-brikker. Vi kan vente oss ein Tensor G4 i Pixel-telefonar seint i 2024, kanskje bygd på Samsung eller TSMC sin nyare prosess, som ytterlegare forbetrar AI-ytelse og effektivitet, kanskje til og med gjer det mogleg med multimodal AI på eininga (kombinerer syn+språkmodellar).
  • Qualcomm: Den leiande leverandøren av mobilbrikker for Android-telefonar har aggressivt marknadsført sin AI Engine i Snapdragon-serien. Snapdragon 8 Gen 2 (sein 2022) introduserte dedikert INT4-støtte og demonstrerte sanntids biletegenerering med stable diffusion på ein telefon. Snapdragon 8 Gen 3 (annonsert seint i 2023, i 2024 sine flaggskiptelefonar) er eit stort sprang: Qualcomm seier at Hexagon NPU-en er 98 % raskare enn Gen 2 sin og 40 % meir energieffektiv futurumgroup.com. Denne brikka kan køyre store språkmodellar med opp til 10 milliardar parameterar heilt på eininga, og handsame om lag 20 token per sekund – nok til enkle samtalar med ein AI-assistent utan skya futurumgroup.com. Ho oppnådde òg “verdens raskaste Stable Diffusion”-biletegenerering på ein mobil i demonstrasjonar futurumgroup.com. Qualcomm har vore tydelege på at generativ AI på eininga er eit sentralt salsargument for nye telefonar. Til dømes samarbeidde dei med Meta for å optimalisere den opne Llama 2 LLM for Snapdragon, med mål om å la deg køyre ein chatbot-AI på telefonen din innan 2024 iconnect007.com. (Ein Qualcomm-leiar sa: “vi applauderer Metas opne tilnærming… for å skalere generativ AI, må det køyre både i sky og på kant”, og forsterkar edge-AI-filosofien iconnect007.com.) Ut over telefonar set Qualcomm NPUs i laptop-brikker (Snapdragon compute-plattformene for Windows på ARM) – og deira bilplattform Snapdragon Ride brukar dei same AI-kjernene for å tilby opp til 30 TOPS for ADAS, med ein veikart mot hundrevis av TOPS. I 2025 annonserte Qualcomm til og med ein ny Snapdragon X Elite CPU for PC-ar som inkluderer ein kraftig NPU, og signaliserer eit mål om å utfordre Apple og Intel på AI-ytelse i personlege datamaskiner. Med veksten av AI på eininga, marknadsfører Qualcomm faktisk nokre telefonar som “AI-telefonar.” Dei forventar at mange appar (frå foto til meldingar til produktivitet) vil nytte NPU-en. På programvaresida lanserte Qualcomm Qualcomm AI Stack for å samle støtte for populære rammeverk (TensorFlow Lite, PyTorch, ONNX) på sine NPUs iconnect007.com – for å gjere det enklare for utviklarar å bruke AI-maskinvara utan djup brikkekunnskap.
  • MediaTek: Den nest største mobilbrikkeprodusenten (kjend for Dimensity-serien) har òg oppgradert sine NPU-ar. MediaTek kallar sine AI-motorar for “APU” (AI Processing Unit). Til dømes har Dimensity 9200+ (2023) ein sjettegenerasjons APU med betydeleg betre yting enn førre brikke, som gjer det mogleg med funksjonar som lokal stable diffusion og AI-støyreduksjon i videoar. I 2024 annonserte MediaTek Dimensity 9400, og i samarbeid med Oppo nytta dei den avanserte NPU-arkitekturen for å introdusere nye AI-funksjonar (som nemnt, er AI-fotoforbetring med fjerning av refleksjonar og oppskarping på Oppo Find X8 driven av MediaTek si NPU) mediatek.com. MediaTek-leiarar har eksplisitt posisjonert seg sjølve i fronten av AI på eininga. Som Will Chen frå MediaTek sa det: “the future of AI transcends the cloud; it is driven by edge computing right from the palm of your hand.” Etter deira syn må AI på mobil vere rask, privat, trygg og alltid tilgjengeleg mediatek.com. MediaTek har til og med danna eit “APU-sentrert” samarbeid med Meta for å støtte Llama-rammeverk og med produsentar som Oppo og Xiaomi med fokus på AI-kamera og AI-stemmefunksjonar. Innan 2025 planlegg MediaTek å rulle ut desse NPU-ane ikkje berre i mobilar, men òg i smarte TV-ar (for AI-oppskalering og biletforbetring), IoT-einingar, og til og med bilar (MediaTek har ein AI-plattform for bil og har inngått samarbeid med Nvidia for å integrere Nvidia GPU-IP for bilar, medan dei truleg leverer sin eigen NPU for sensor-AI).
  • Intel: 2024 markerte Intels inntog i AI-akseleratorar på vanlege PC-ar. Intels 14. generasjon Core (Meteor Lake, lansert desember 2023 og omdøypt til Core Ultra i 2024) er den første x86 PC-prosessoren med innebygd nevrale prosessoreining (NPU). Meteor Lake sin NPU (av og til kalla VPU – Vision Processing Unit – basert på Intels Movidius-teknologi) leverer om lag 8–12 TOPS med AI-ytelse pcworld.com. Dette blir brukt til å akselerere AI-funksjonar i Windows 11, som bakgrunnsuskarpheit, augnekontakt i videosamtalar, og kan brukast av appar til ting som lokal transkribering, støydemping, eller til og med små AI-assistentar. Microsoft og Intel har saman pressa fram konseptet “AI-PC.” Intel hevdar desse NPU-ane vil bli levert i titals millionar bærbare i 2024 pcworld.com. Etter Meteor Lake nemner Intels veikart Arrow Lake (for stasjonære i 2024) som òg inkluderer ein NPU (om lag 13 TOPS, litt betre) pcworld.com. Interessant nok blei Intels første forsøk på ein stasjonær NPU faktisk overgått av AMD (sjå under), og Intel valde å gå for ein moderat NPU-design for å unngå å ofre GPU/CPU-areal i entusiastbrikker pcworld.com. Men mot slutten av 2024 signaliserte Intel at framtidige Lunar Lake-brikker vil ha ein mykje kraftigare NPU (~45 TOPS) for å møte Microsoft sine “Copilot”-krav pcworld.com. Alt dette tyder på at Intel ser på AI som eit must for PC-ar framover – ikkje for å trene enorme modellar, men for å akselerere kvardagslege AI-drevne opplevingar (frå kontorpakke-forbetringar til kreative verktøy med lokal AI). Intel sel òg edge AI-akseleratorar som Intel Movidius Myriad-brikker (brukte i nokre dronar, kamera) og Habana-akseleratorar for serverar, men Meteor Lake sin integrerte NPU er ein milepæl som bringer AI til vanlege forbrukareiningar.
  • AMD: AMD hoppa inn i på-eininga AI omtrent på same tid. Ryzen 7040-serien deira med laptop-prosessorar (Phoenix) lansert i 2023 hadde den første Ryzen AI Engine – i praksis ein integrert XDNA NPU (teknologi frå AMD sitt oppkjøp av Xilinx). Denne NPU-en leverte opp til 10 TOPS på mobilbrikka en.wikipedia.org. AMD framheva bruksområde som AI-forbetra videosamtalar, produktivitetsappar og liknande, på same måte som Intel sine mål. Så lanserte AMD kortvarig ein Ryzen 8000 desktop-serie (tidleg i 2024) med ein NPU som nådde 39 TOPS – eit svært høgt tal for ein generell CPU si AI-eining, til og med høgare enn Intel sine planar pcworld.com. Men AMD snudde raskt og hoppa over ein generasjon, og fokuserte på si neste arkitektur (den påfølgjande Ryzen 9000 mot slutten av 2024 fjerna NPU-en for å prioritere kjerneyting) pcworld.com. Likevel er det venta at AMD vil ta NPU-ar tilbake i framtidige PC-brikker (det er truleg eit mellombels tilbaketog medan dei jobbar med å integrere ein sterk AI-motor utan å kompromittere annan ytelse). På produktsida kan AMD sine NPU-ar mogleggjere interessante ting sidan AMD òg har sterke GPU-ar – ein kombinasjon kan handtere AI-arbeidsoppgåver saman (noko på NPU, noko på GPU). AMD har òg sett AI-kjerner inn i sine adaptive (FPGA-baserte) SoC-ar og bilbrikker. Oppsummert: innan 2025 har alle x86 PC-brikkeprodusentar teke i bruk NPU-ar, i tråd med det smarttelefonar gjorde for nokre år sidan, noko som tyder på at AI-akselerasjon er i ferd med å bli ein standardfunksjon over heile linja.
  • Andre: Ei rekkje spesialiserte brikkeselskap og andre teknologiføretak innovérer òg innan NPU-ar. NVIDIA, kjend for GPU-ar, inkluderer no dedikerte Tensor Cores i GPU-ane sine og tilbyr eit ope NVDLA (deep learning accelerator)-design for integrering i System-on-Chip-produkt. I edge-einingar som NVIDIA Jetson-serien (brukt i robotar, dronar, innebygde system), finst både GPU og faste “DLA-ar” – i praksis NPU-ar – som avlastar noko av nevralt nettverksinferens frå GPU-en. NVIDIA sin Orin-modul har til dømes 2 DLA-ar i tillegg til GPU-en, noko som bidreg til 254 TOPS AI-ytelse for bilar ts2.tech. Apple er det rykte om at jobbar med endå meir avanserte AI-koprosessorar eller større nevrale motorar for AR-brillene sine eller framtidige prosjekt, sjølv om detaljane er hemmelege. Huawei (trass i geopolitiske utfordringar) held fram med å designe Kirin-mobilbrikker med NPU-ar (deira “DaVinci”-NPU-arkitektur) og òg server-klasse NPU-ar i Ascend AI-brikkene sine – Kirin 9000S-brikka frå 2023 skal visstnok framleis ha ein sterk NPU for bilete- og språkoppgåver på mobilane deira. Vi ser òg oppstartselskap som Hailo, Mythic, Graphcore og andre tilby eigne edge AI-brikker: til dømes Hailo-8 som nemnt (26 TOPS i eit mini PCIe-kort for AI-kamera), Graphcore sin IPU for datasenter (ikkje heilt på-eining, men ein ny arkitektur for nevrale nettverk), Mythic som jobbar med analoge NPU-ar, osb. ARM, som står bak designa til dei fleste mobilbrikker, tilbyr Ethos NPU-serien (som Ethos-U, Ethos-N78) som brikkeprodusentar kan integrere for å få ein ferdig AI-akselerator i IoT- eller mellomklasse-SoC-ar. Dette har gjort det mogleg for sjølv relativt små aktørar å inkludere NPU-ar i brikkene sine ved å lisensiere ARM sitt design.

Konklusjonen er at frå store teknologiselskap til oppstartar, alle investerer i AI-silikon på eininga. Resultatet er raske framsteg: nye brikker med høgare TOPS, betre effektivitet (TOPS per watt), og støtte for nye datatypar (som 4-bits kvantisering for større modellar). Til dømes kan dei nyaste frå Qualcomm og MediaTek køyre INT4-presisjon, noko som er flott for generativ AI der minnebåndbreidde er ein flaskehals androidauthority.com. Desse innovasjonane gir direkte brukarfordelar – til dømes sanntids mobil AI-video-redigering (fjerning av objekt frå 4K-video i sanntid, slik Snapdragon 8 Gen 3 kan med “Video Object Eraser”-AI-funksjonen futurumgroup.com), eller AI-koprosessorar i bilar som gjer det mogleg med stemmeassistentar som fungerer utan nettverk og svarar like raskt som ein samtale mellom menneske.

Viktige nyheiter frå 2024–2025: Lanseringar, ytelsestestar og partnarskap

For å illustrere kor raskt utviklinga går, her er nokre hovudhendingar i verda av NPU-ar/TPU-ar og AI på eininga frå slutten av 2024 og inn i 2025:

  • Apple M3- og M4-avdukingar (okt 2023 & mai 2024): Kom med neste generasjons Neural Engines. M3 sin Neural Engine gjer 18 TOPS (16-kjerners), og M4 hoppa til 38 TOPS (framleis 16-kjerners, men høgare klokkefrekvens/effektivitet) apple.fandom.com. Apple demonstrerte desse brikkene som handterer krevjande oppgåver som lokal bildegenerering med stable diffusion i macOS (med Core ML Stable Diffusion, utviklarar viste ~15 sekund for å generere eit bilete på ein M2 – endå raskare på M3/M4).
  • Lansering av Google Pixel 8 (okt 2023): Vektla KI “overalt” i eininga. Google sitt arrangement demonstrerte Pixel 8 si lokale oppsummering av nettsider og direkte omsetjing av artiklar ved bruk av Tensor G3 NPU. Dei introduserte òg “Assistant with Bard” som etter kvart vil køyre nokre interaksjonar lokalt på eininga. Google framheva at Pixel 8 kan køyre 2× så mange modellar lokalt som Pixel 6 kunne, og modellar som er mykje meir avanserte blog.google. Med andre ord, eit stort sprang på berre to år med Tensor-brikkeutvikling.
  • Qualcomm–Meta-partnerskap (juli 2023): Qualcomm og Meta kunngjorde at dei optimaliserer Meta sin Llama 2 store språkmodell til å køyre fullt ut på Snapdragon NPU-ar innan 2024 iconnect007.com. Målet er å gjere det mogleg for utviklarar å distribuere chatbotar og generativ KI-appar på telefonar, VR-briller, PC-ar, osv., utan skytenester. Dette var ei viktig stadfesting av lokal KI frå ein stor KI-modelleigar (Meta) og ein stor brikkeprodusent. Seinare i 2024 følgde dei opp med planar om Llama 3-optimalisering òg qualcomm.com.
  • Microsoft Windows 11 “Copilot”-PC-ar (2024): Microsoft sette ein standard ved å kalle PC-ar med >40 TOPS lokal KI-akselerasjon for “KI-PC-ar” som er kvalifiserte for utvida KI-funksjonar (som Copilot digital assistent-integrasjon). Dette pressa OEM-ar – Lenovo, Dell, osv. – til å ta i bruk brikker med NPU-ar (enten Intel, AMD eller Qualcomm) for å møte krava. Resultatet er ein venta bølgje av KI-klare laptopar i 2024, der Microsoft hevder at dusinvis av modellar er på veg og spår over 40 millionar KI-PC-leveransar i 2024 pcworld.com.
  • AMD si korte Ryzen 8000 NPU (jan 2024): AMD annonserte ein stasjonær CPU med heile 39 TOPS NPU (overraskande sidan stasjonære brikker vanlegvis manglar slike akseleratorar) pcworld.com. Sjølv om akkurat det produktet raskt vart erstatta, viste det at også stasjonære CPU-ar kan ha AI-silikon som rivaliserer mobilbrikker i TOPS. Dette var òg den første stasjonære x86-CPU-en med NPU (akkurat før Intel Arrow Lake).
  • Tesla FSD Beta v12 (sein 2023) demoar: Elon Musk viste fram ende-til-ende AI-køyring (ingen radar, berre visjonsnettverk) som køyrer på Teslas HW3/HW4 NPU-ar. Merkverdig var at nevrale nettverket styrte bilen ved å bruke videostraumar som vart prosessert heilt og fullt på bilens datamaskin i sanntid. Observatørar merka at FSD v12 utnytta fullt ut dei 2× 100 TOPS NPU-ane for visjon, og Tesla antyda at framtidige oppgraderingar (HW5) med mål om 2000 TOPS kan vere under utvikling for å handtere endå større modellar (det gjekk rykte om at Teslas HW5 kunne sikte mot 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
  • NVIDIA Drive Thor avduka (2024 GTC): NVIDIA la fram detaljar om sin neste bilbrikke, Drive Thor, som har tilsvarande 2× AI-ytelsen til forgjengaren Orin – opp til 2000 TOPS når to brikker er kopla saman ts2.tech. Viktig er det at Thor er meint å handtere ikkje berre køyreoppgåver, men òg AI i kupeen (som stemme og overvaking av passasjerar) på éin plattform, og viser korleis NPU-ar og GPU-ar saman kan samle mange AI-funksjonar i bilar ts2.tech. Fleire bilprodusentar (Xpeng, BYD, Volvo) annonserte at dei vil bruke Thor frå 2025 ts2.tech.
  • Oppo si on-device MoE-AI (okt 2024): Som nemnt, implementerte Oppo ein Mixture-of-Experts-modell på Find X8-telefonen grandviewresearch.com. Dette er nyheitsverdig fordi MoE-modellar vanlegvis er store og har vore rekna som server-side på grunn av kompleksiteten. At MoE køyrer på eining tyder på nye teknikkar for modellkomprimering og ein svært kapabel NPU (truleg MediaTek Dimensity 9400 i den eininga).
  • Metas Ray-Ban AI-briller (2025): (Forventa) Meta viste fram prototypar av smarte briller som kan identifisere det du ser og snakke til deg om det – truleg ved å bruke ein innebygd spesialtilpassa akselerator (Meta har prototypa eigenutvikla silisium for AR). Sjølv om detaljane er få, understrekar det satsinga på å få AI inn i svært avgrensa einingar (briller, batteridrevne øyreproppar) som vil krevje ultraeffektive NPU-ar.
  • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons publiserte resultat som viser dei nyaste smarttelefonane si AI-ytelse. Til dømes, i MLPerf Inference v3.0 (okt 2023), vart Apple sin A16, Google Tensor G2 og Qualcomm Gen 2 alle testa på oppgåver som biletklassifisering og objektgjenkjenning. Tala viste at Apple og Qualcomm bytta på å vinne, men generelt at mobile NPU-ar tek innpå enkelte laptop-/stasjonær-klasse akseleratorar for desse oppgåvene – alt medan dei går på batteri. Det vart òg peika på programvareforskjellar (t.d. Qualcomm sin AI SDK vs. Apple Core ML). Dei stadige forbetringane kvart år (toseifra % auke) i desse benchmarkane viser sunn konkurranse og rask framgang innan AI på eininga.
  • Strategiske partnarskap: Mange bransjeovergripande partnarskap har blitt danna. Til dømes NVIDIA og MediaTek (mai 2023) annonserte eit samarbeid for å setje Nvidia GPU-IP og programvareøkosystem inn i MediaTek sine framtidige smarttelefon- og bilbrikker, og kombinerer slik Nvidia si AI-styrke med MediaTek si ekspertise på mobile SoC-ar. Selskap som Qualcomm samarbeider òg med bilprodusentar (Mercedes, BMW) for å få Snapdragon Cockpit og Ride-plattformer (med NPU-ar) inn i nye køyretøy for AI-funksjonar. Arm har samarbeidd med Fujitsu og andre om nye AI-brikkedesign (som AI-delen i Fugaku-superdatamaskina, sjølv om det er i høgendaren). Til og med IBM og Samsung har vist fram nye brikketeknologiar (som nevromorf databehandling og AI-minne) som ein dag kan revolusjonere NPU-ar – ikkje her enno, men det viser at forskingsløpa er fulle.

Alt i alt har det siste året vore fullt av utvikling, og understrekar at AI på eininga er eit av dei hetaste områda i teknologien. Som ein bransjeanalytikar sa: “desse på-eininga-funksjonane opnar heilt nye horisontar… å køyre LLM-ar på mobil hjelper med skalering og kostnad, held data private, og sikrar at AI fungerer sjølv med avgrensa tilkopling” futurumgroup.com. Det oppsummerer kvifor alle dei store teknologiselskapa investerer her.

Ekspertinnsikt: Kva teknologileiarar seier om AI på eininga

Framdrifta bak NPU-ar og TPU-ar er ikkje berre synleg i produkta, men òg i orda til bransjeleiarar. Her er nokre utvalde sitat og perspektiv som kastar lys over betydninga av AI på eininga:

  • Cristiano Amon (CEO i Qualcomm): «Om KI skal få skala, kjem du til å sjå det køyre på einingar… Dette markerer eit vendepunkt for KI: ingen forseinkingar – berre sømlaus, sikker, sky-komplementær lokal handsaming. Framtida for KI er personleg, og ho startar på di eiga eining.» (Bloomberg-intervju og X-innlegg, 2023) x.com. Amon ser for seg ein hybrid KI-verda der telefonen/PC-en din gjer mykje sjølv på sine eigne NPU-ar, og samarbeider med skyen når det trengst. Han understrekar at å køyre KI lokalt er nøkkelen til å gjere det allment (du kan ikkje la alt vere avhengig av sky-GPU-ar – det finst ikkje nok av dei i verda for milliardar av einingar).
  • Durga Malladi (SVP, Qualcomm): «Vi rosar Metas tilnærming til open og ansvarleg KI… For å skalere generativ KI effektivt til massane, må KI køyre både i skyen og på einingar i ytterkanten.» iconnect007.com Malladi sa dette i samband med Meta-samarbeidet. Det understrekar eit felles syn: skalering av KI = sky + edge som jobbar saman. No forstår ein at rein sky-KI ikkje vil vere nok (av omsyn til kostnad, personvern og forseinking), så edge-KI må ta sin del av jobben.
  • Will Chen (viseadm. dir., MediaTek): «Framtida for KI går utover skyen; ho blir driven av edge computing rett frå handflata di… OPPO og MediaTek er pionerar innan lokal KI, og sikrar at intelligente funksjonar er kraftige, raske, private, sikre og alltid tilgjengelege.» (MediaTek Exec Talk, 2025) mediatek.com. Dette sitatet oppsummerer verdien av lokal KI – du får ytelse og tilgjenge pluss personvern og tryggleik. Det viser òg at sjølv selskap som tradisjonelt er mindre synlege i Vesten (som MediaTek) tenkjer på det fremste innan KI-utrulling.
  • Dr. Norman Wang (KI-maskinvareekspert, CEO for eit chip-startup): «I KI-maskinvare gjeld det: jo nærare du kan plassere prosesseringa til datakjelda, jo betre. Det handlar om å redusere databevegelse. Ein NPU ved sida av bilet­sensoren din betyr at du ikkje sender megapikslar til skyen – du hentar innsikt rett på kanten. Det er ein game changer for forseinking og straumforbruk.» (Panel på HotChips 2024 – parafrasert). Dette tekniske poenget forklarar kvifor NPU-ar ofte sit på same brikke som andre komponentar: t.d. på ein telefon-SOC kan NPU-en hente kameradata direkte frå ISP-en. Å minimere databevegelse er ein stor del av effektiv KI, og edge-KI oppnår det ved å handsame data ved kjelda.
  • Xinzhou Wu (VP for bilindustri, NVIDIA): «Akselerert databehandling har ført til transformative gjennombrudd, inkludert generativ KI, som omdefinerer autonomi og transportindustrien.» (GTC 2024 Keynote) ts2.tech. Han diskuterte korleis kraftige ombord-datamaskiner (med NPU-ar/GPU-ar) gjer det mogleg for bilar ikkje berre å køyre, men potensielt å inkorporere avansert KI som generative modellar for ting som naturleg språkgrensesnitt i bilen eller betre forståing av situasjonar. Det understrekar at sjølv sektorar som bilindustrien ser på-eining-KI ikkje berre som kjernefunksjonalitet, men òg for å forbetre brukaropplevinga (t.d. stemmeassistentar i bilar som kan føre samtalar takka vere ombord-LLM-ar).
  • Sundar Pichai (CEO i Google): «Framtida for KI handlar om å gjere det nyttig for alle. Det betyr å bringe KI inn i alle einingane vi brukar – telefonar, kvitevarer, bilar – slik at det er der når du treng det. Vi vil møte brukarane der dei er, med KI som fungerer i sanntid, på staden, og bevarer personvernet.» (Parafrasert frå fleire intervju/keynotes). Pichai snakkar ofte om «ambient KI» – ideen om at KI vil vere rundt oss, innebygd i ting. Googles satsing på Tensor-brikker i Pixel-telefonar er ei direkte utføring av den filosofien.
  • Bransjetal: Analytikarar har observert trenden i tal. Ein rapport frå Grand View Research i 2024 noterte: «Nylege framsteg innan spesialiserte KI-brikker og NPU-ar har gjort det mogleg å køyre komplekse KI-algoritmar direkte på einingar, noko som betrar ytelse og energieffektivitet betydeleg… vi nærmar oss eit avgjerande skifte mot på-eining-KI.» grandviewresearch.com. Den same rapporten spår at på-eining-KI-marknaden vil eksplodere dei komande åra, med maskinvaresegmentet (NPU-ar, osv.) som utgjer over 60 % av inntektsdelen i 2024 og veks etter kvart som nesten alle nye IoT- eller mobileiningar får KI-funksjonar grandviewresearch.com. Ein annan prognose frå IDC og andre antydar at mot midten av 2020-talet vil nesten alle toppmodell-smarttelefonar og dei fleste mellomklassemodellar ha KI-akseleratorar, og at innan 2030 vil milliardar av edge-KI-brikker vere i bruk frå forbrukarelektronikk til smart infrastruktur.

Det er semje blant ekspertar om at på-eining-KI ikkje berre er kjekt å ha – det er essensielt for den neste teknologibølgja. KI-pioner Andrew Ng har ofte nemnt at «tiny AI» og edge-KI vil la intelligens trenge inn i alle objekt, på same måte som elektrisitet eller internett gjorde i tidlegare epokar. Ved å overvinne avgrensingane til skybasert KI, gjer NPU-ar og TPU-ar denne gjennomtrenginga mogleg.

Utfordringa med mange standardar (og forsøk på å forenkle)

While the hardware has advanced quickly, the ecosystem of programvare og standardar for AI på eininga er framleis i ferd med å ta igjen. Utviklarar møter ein jungel av verktøy og SDK-ar når dei prøver å utnytte NPU-ar på tvers av ulike einingar nimbleedge.com. Viktige punkt:
  • Kvar plattform har sin eigen API eller SDK: Apple har Core ML (med API-ar for å retta mot Neural Engine), Android har Neural Networks API (NNAPI) (sjølv om Google har annonsert planar om å vidareutvikle det utover Android 14) threads.com, Qualcomm tilbyr SNPE (Snapdragon Neural Processing Engine) eller meir generelt Qualcomm AI Stack, NVIDIA har TensorRT og CUDA for sine einingar, og så vidare. Det finst òg ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI, og andre. Desse ulike SDK-ane har ofte ulike moglegheiter og krev modelljustering for å køyre optimalt på kvar målplattform. Som ein rapport om AI på eininga frå 2025 påpeikte, “Fleire, inkompatible SDK-ar (t.d. Core ML, LiteRT, ONNX Runtime) med ulik operatørstøtte og yting” tvingar utviklarar til å gjere ekstra arbeid nimbleedge.com.
  • Fragmenteringsproblem: Ein modell som køyrer perfekt på ein stasjonær GPU, kan hende ikkje køyrer direkte på ein NPU i ein telefon – operatorar (dei matematiske funksjonane) kan mangle støtte eller må kvantiserast annleis. Utviklarar må av og til vedlikehalde separate bygg eller manuelt optimalisere modellar for kvar maskinvare. Dette er “det låg-nivå, fragmenterte økosystemet”-klagen nimbleedge.com. Feilsøkingsverktøy er òg få – å profilere ein NPU for å finne ut kvifor ein modell er treg, kan vere vanskeleg, spesielt samanlikna med dei rike verktøya for CPU/GPU nimbleedge.com.
  • Standardiseringsarbeid: For å takle dette, skjer det fleire ting. ONNX (Open Neural Network Exchange) har dukka opp som eit felles format slik at du kan trene ein modell i PyTorch eller TensorFlow og så eksportere til ONNX for utrulling. Mange kjøremiljø (inkludert dei på eininga, som Qualcomm og MediaTek) støttar å ta inn ONNX-modellar og vil prøve å kompilere dei for maskinvara. Dette hjelper å unngå innlåsing til eitt rammeverk. Android NNAPI var eit forsøk frå Google på å tilby eit universelt grensesnitt – ein app kan be om “køyr dette nevrale nettet” via NNAPI, og operativsystemet vil bruke kva akselerator som er tilgjengeleg (GPU, DSP eller NPU) for å køyre det. NNAPI vart teke i bruk på mange Android-einingar, men det hadde avgrensingar og ikkje alle leverandørar leverte solide drivarar, noko som førte til at Google signalisert ein ny strategi (kanskje med vekt på WebNN eller direkte leverandør-integrasjonar) etter 2024 threads.com. På PC-ar introduserte Microsoft DirectML og Windows ML API-ar for å abstrahere maskinvareforskjellar på liknande vis (slik at utviklarar kan bruke same API for NVIDIA, Intel, AMD NPU-ar).
  • Samla verktøykjeder: Selskap byggjer òg verktøykjeder for å forenkle utrulling. Vi såg Qualcomm sin AI Stack som kombinerer deira kompilator (AI Model Efficiency Toolkit) og kjøremiljø slik at utviklarar lettare kan sikte seg inn mot Hexagon NPU iconnect007.com. NVIDIA sin TensorRT og tilhøyrande SDK-ar gjer noko liknande for Jetson-einingar, og optimaliserer modellar for GPU+NVDLA. Intel OpenVINO er eit anna døme – det let deg ta ein modell og optimalisere han for Intel CPU-ar, iGPU-ar og VPU-ar (NPU-ar) for bruk på kanten. Desse rammeverka inkluderer ofte modelloptimaliserarar som konverterer modellar (beskjering, kvantisering) for å passe på mindre einingar.
  • Interoperabilitet: Det er rørsle mot å få ulike NPU-ar til å fungere med felles rammeverk. Til dømes har Google sin TensorFlow Lite maskinvare-delegatar – ein for NNAPI (dekker Android-einingar generelt), ein for Core ML (iOS-einingar), ein for Edge TPU, osv. Tanken er at du skriv TFLite-modellen din og han vil køyre på den beste akseleratoren som er tilgjengeleg via delegaten. På same måte har PyTorch lagt til støtte for mobile bakendar og til og med ting som Apple sin Metal Performance Shaders (for å bruke GPU/NPU på iOS). ONNX Runtime kan òg sikte seg inn mot ulike akseleratorar via plugin-modular (t.d. kan ein plugge inn NVIDIA sin TensorRT eller ARM sin Compute Library eller andre under panseret).
  • Framveksande standardar: Khronos Group (bak OpenGL/Vulkan) har jobba med NNEF (Neural Network Exchange Format) og det er WebNN API som blir diskutert for at nettlesarar skal få tilgang til lokal AI-akselerasjon. Ingen av desse er universelt tekne i bruk enno. Men ei interessant utvikling: seint i 2024 danna fleire selskap ein allianse for å fremje “AI Hardware Common Layer”-standardar – i praksis å utforske om ein kan lage eit felles låg-nivå grensesnitt til NPU-ar (tilsvarande det OpenCL gjorde for rekning på GPU-ar). Det er tidleg enno.
  • Utviklaroppleving: Dette er eit erkjent gap. Som NimbleEdge sin blogg sa, “å utvikle for AI på eining krev for tida å navigere eit fragmentert og låg-nivå økosystem… og tvingar utviklarar til å skreddarsy implementasjonar for kvar maskinvare” nimbleedge.com. Bransjen veit at dette må bli betre for at AI på eining verkeleg skal bli allemannseige. Vi kan få sjå konsolidering – til dømes om Google, Apple og Qualcomm kunne bli einige om eit kjerneutval av operasjonar og API (kanskje ønsketenking). Eller meir sannsynleg, rammeverk som PyTorch og TensorFlow vil skjule kompleksiteten ved å integrere alle desse leverandørbiblioteka og velje rett ved køyring.

I hovudsak, sjølv om NPU-ar/TPU-ar gir musklane, jobbar fellesskapet med hjernevenlege verktøy for å bruke desse musklane. Det positive er at samanlikna med for fem år sidan, finst det langt fleire moglegheiter for å distribuere ein modell på eining utan å vere brikkeekspert. Men det er framleis rom for vekst – særleg innan feilsøking, profilering og støtte for fleire maskinvaretypar.

Marknadstrendar og framtidsutsikter

Spreiinga av NPU-ar og TPU-ar i einingar driv ein større trend: AI overalt. Her er nokre overordna trendar og kva ein kan vente seg framover:

  • Vekst i Edge AI-marknaden: Marknadsanalyse viser eksplosiv vekst i maskinvare for edge AI. Marknaden for AI på eining (inkludert brikker og programvare) er venta å vekse med om lag 29 % årleg gjennom tiåret nimbleedge.com. Ein rapport verdsette han til om lag 233 milliardar dollar i 2024, og over 1,7 billionar dollar innan 2032 nimbleedge.com – mykje av denne veksten kjem frå edge-distribusjonar. Ei anna analyse frå IDTechEx spår at marknaden for AI-brikker til edge-einingar vil nå 22 milliardar dollar innan 2034, med forbrukarelektronikk, bilindustri og industri som dei største segmenta idtechex.com. Dette tyder på hundrevis av millionar einingar kvart år som blir levert med NPU-ar som standardkomponent.
  • Allmenn bruk: På same måte som alle smarttelefonar i dag har ein GPU (sjølv om liten), nærmar vi oss punktet der alle nye smarttelefonar vil ha ein AI-akselerator. Toppmodellane har det allereie; mellomklasse-telefonane er neste. Faktisk inkluderer mellomklasse-brikkene frå Qualcomm (t.d. Snapdragon 7-serien) og MediaTek (Dimensity 700/800-serien) no nedskalerte NPU-ar slik at funksjonar som AI-kameraforbetringar og stemmeassistentar òg kan fungere på rimelegare einingar. Ut over telefonar spreier NPU-ar seg til PC-ar (standard i nye Windows-laptoper frå fleire leverandørar), bilar (nesten alle nye bilar med ADAS nivå 2+ har ein eller annan form for AI-brikke), og IoT. Til og med kvitevarer som kjøleskap og vaskemaskiner byrjar å marknadsføre “AI”-funksjonar (nokre av desse er skybaserte, men nokre lokale, som tilpassa syklusar basert på sensorar). Trenden er klar: om eininga har ein databrikke, vil den ha ein eller annan form for ML-akselerasjon på den brikka.
  • Ytingsutvikling: AI-ytelse på eininga doblast omtrent kvart 1–2 år (ein kombinasjon av betre arkitektur og overgang til avanserte halvleiarprosessar som 5nm, 4nm, 3nm). Apple sin Neural Engine gjekk frå 600 milliardar operasjonar/sek i 2017 til 35 billionar i 2023 – nesten 60× auke på seks år apple.fandom.com. Qualcomm sine flaggskip hoppa tilsvarande frå nokre få TOPS i 2018 til over 27 TOPS i 2023 (SD 8 Gen 3 si totale AI-ytelse, medrekna alle kjerner). Vi kan vente oss at mobil-NPU-ar leverer 100+ TOPS innan 2025–2026, og PC-akseleratorar endå meir, og desse tala kan bli mindre relevante etter kvart som fokuset flyttar seg til brukbar ytelse på spesifikke AI-oppgåver (til dømes, kor stor LLM kan du køyre smidig, eller kan du gjere 4K AI-video i sanntid). Gapet mellom sky og kant vil truleg bli mindre for inferensoppgåver. Likevel vil kant framleis ligge bak sky for dei aller største modellane på grunn av straum- og minneavgrensingar.
  • Energivinstar: Ein undervurdert aspekt er kor effektive desse NPU-ane har blitt. Tesla sin bil-NPU oppnår ~4,9 TOPS/Watt fuse.wikichip.org som var det fremste for eit par år sidan; no påstår nokre mobil-NPU-ar liknande eller betre. Effektive NPU-ar betyr lengre batteritid sjølv om vi brukar AI-funksjonar meir. Det betyr òg at det blir mogleg å ha AI i små batteridrivne einingar (t.d. AI-høyreapparat, smarte sensorar på knappcellebatteri som gjer avviksdeteksjon). Konseptet TinyML – ekstremt småskala maskinlæring på mikrokontrollerar – er ei utviding av dette, der ein brukar forenkla “NPU-ar” eller optimaliserte instruksjonar på mikrokontrollerar for å gjere AI i sensorar. ARM sin Ethos-U NPU er retta mot det segmentet (t.d. alltid-på nøkkelordgjenkjenning som køyrer på nokre få milliwatt). Forvent fleire AI-spesifikke småbrikker som kan byggjast inn i sensorar, wearables og kvardagslege objekt (Smart tannbørste? AI-drevet røykvarslar? Det kjem).
  • Hybrid sky-kant-løysingar: I staden for at kant (edge) heilt erstattar skyen, er framtida samarbeid. Einingar vil gjere det dei kan lokalt og berre kontakte skyen for det dei ikkje klarer sjølve. Til dømes kan AR-brillene dine køyre lokal scenegjenkjenning for å vite kva du ser på, men om du spør om noko veldig komplekst (som ei grundig forklaring), kan dei spørje ein skybasert KI for ei kraftigare analyse og så presentere det for deg. Denne hybride tilnærminga gir den beste balansen mellom respons og kapasitet. Selskap designar aktivt opplevingar rundt dette: Microsoft Copilot på Windows kan bruke den lokale NPU-en til rask tale-til-tekst og kommandoanalyse, men bruke skyen til tunge oppgåver (med mindre du har ein kraftig PC-NPU som klarer det). Ideelt sett skal ikkje brukaren vite eller bry seg om kva som blir brukt, anna enn at ting går raskare og personvernet blir ivaretatt. Vi vil òg sjå at føderert læring blir vanlegare – modellar trenar i skyen, men med hjelp av data som er kryptert eller behandla på einingane, og omvendt.
  • Nye bruksområde: Etter kvart som NPU-ar blir kraftigare, opnar det seg nye applikasjonar. Generativ KI på eininga er eit stort område – tenk deg KI-biletskaping, KI-videoredigering og personlege chatbotar rett på telefonen eller laptopen din. I 2025 kan vi sjå tidlege versjonar av offline personlege assistentar som kan oppsummere e-postane dine eller skrive utkast til meldingar utan skytilgang. Sanntids språkomsetjing i samtale (to personar som snakkar ulike språk, med telefonar eller øyreproppar som omset nesten i sanntid) vil bli mykje betre med lokal prosessering (ingen forseinking og fungerer overalt). Helse-KI kan bu på wearables – smartklokka di kan oppdage atrieflimmer eller analysere søvnapné-mønster ved hjelp av NPU-en. Tryggleik: einingar kan lokalt køyre KI for å oppdage skadeleg programvare eller phishing i sanntid (t.d. antivirus som brukar ein KI-modell på eininga di i staden for sky-skanning). Og i køyretøy, i tillegg til sjølve køyringa, kan KI tilpasse opplevinga i bilen (justere klimaanlegg basert på humøret ditt via førarvendt kamera-KI, osb.). Mange av desse bruksområda krev rask iterasjon og personvern, noko som passar for lokal prosessering.
  • Konkurranse og demokratisering: Dei store aktørane vil halde fram med å konkurrere, noko som er bra for forbrukarane – vent deg marknadsføring som “vår KI-brikke gjer X TOPS eller mogleggjer Y-funksjon som andre ikkje kan.” Men teknologien blir òg demokratisert – NPU-ar finst ikkje berre i telefonar til 10 000 kroner; dei kjem til 3 000-kroners telefonar, 500-kroners IoT-kort (Coral, Arduino Portenta, osb.), og open source-miljø lagar små KI-modellar som hobbyistar kan køyre på ein Raspberry Pi eller mikrokontroller med ein enkel akselerator. Denne utbreidde tilgangen betyr at innovasjon kan kome frå kvar som helst. Ein einsleg utviklar kan no lage ein app som brukar lokal KI til å gjere noko smart utan å trenge ein serverpark – det senkar terskelen for KI-dreven programvare.
  • Framtidsteknologi: Ser vi endå lenger fram, kan forsking på neuromorf databehandling (hjerneinspirerte brikker som Intel Loihi) og analoge AI-brikker ein dag revolusjonere NPU-ar, og gi effektivitetssprang i fleire storleiksordnar. Selskap som IBM og BrainChip jobbar med dette. Om dei lukkast, kan ein neuromorf brikke gjere det mogleg å køyre avansert AI kontinuerleg på små batteridrevne einingar. Vi kan òg få sjå 3D-stabling og ny minneteknologi integrert i NPU-ar for å overvinne minneflaskehalsar (nokre brikker frå 2025 og utover kan bruke HBM-minne eller ny, ikkje-flyktig minne på brikka for å mate AI-kjernene raskare). Forvent òg meir spesialisering innan AI-brikker: t.d. eigne akseleratorar for syn, tale, anbefalingsmodellar osv., kvar tilpassa sitt domene. Nokre SoC-ar har allereie doble NPU-ar (ein “stor” NPU for tunge oppgåver, ein mikro-NPU i sensorhub for alltid-på lette oppgåver).

Oppsummert er retninga klar: NPU-ar og TPU-ar er i ferd med å bli like standard og uunnverlege som CPU-ar i moderne datateknologi. Dei gjer einingar smartare, meir responsive og meir omsynsfulle for personvernet vårt. Som ein rapport sa: “høgeffektive prosesserings-einingar på einingar er i stor grad ansvarlege for å utføre komplekse AI-funksjonar som biletegjenkjenning, NLP og sanntids avgjerdstaking”, og dette driv meir intelligent og responsiv teknologi på tvers av sektorar grandviewresearch.com.

Vi går inn i ei tid der du berre forventar at eininga di forstår og forutser behova dine – telefonen din redigerer bilete og skriv meldingar i din stil, bilen din unngår ulykker og underheld deg med AI, heimeeiningane dine lærer seg preferansane dine – alt mogleggjort av dei stille nevrale prosessorane inni dei. AI på eininga er ikkje science fiction; det er her no og blir raskt betre. Sambandet mellom NPU-ar og TPU-ar og kvardagsdingsane våre gjer AI personleg, allestadsnærverande og privat – og bringer verkeleg krafta frå skya ned på jorda (eller i det minste ned i lomma di).

Kjelder:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27. august 2024 techtarget.com. Skildrar rollene og skilnadene mellom CPU-ar, GPU-ar, TPU-ar og NPU-ar i AI-arbeidslaster.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Forklaring av Googles TPU-design (systoliske matriser, låg presisjon) og bruk av NPU i mobile einingar.
  • TechTarget WhatIs. “Tensorbehandlingsenhet (TPU).” whatis.techtarget.com, 2023 techtarget.com. Noterer at TPU-ar spesialiserer seg på matrise-matematiske oppgåver og at NPU-ar etterliknar hjernens nevrale nettverk for akselerasjon techtarget.com.
  • NimbleEdge Blog (Neeraj Poddar). “Statusen for AI på eininga: Kva manglar i dagens landskap.” 26. juni 2025 nimbleedge.com. Skildrar fordelar med AI på eininga (latens, offline, personvern, kostnad) og utfordringar som fragmenterte SDK-ar.
  • Qualcomm (OnQ Blog). “Bloomberg og Cristiano Amon snakkar om AI på eininga.” Juli 2023 x.com. CEO i Qualcomm om viktigheita av inferens på eininga for framtidas AI (tweet-sitat om vendepunkt i AI).
  • MediaTek Blog (Exec Talk av Will Chen). “Formar framtida for AI-opplevingar på mobil.” 3. mars 2025 mediatek.com. MediaTek og Oppo-samarbeid om NPU-ar; sitat om edge computing i handa di og døme på AI-fotoforbetring ved bruk av NPU.
  • I-Connect007 / Qualcomm Press. “Qualcomm samarbeider med Meta for å mogleggjere AI på eininga (Llama 2).” 24. juli 2023 iconnect007.com. Pressemelding med sitat frå Qualcomm SVP Durga Malladi om å skalere generativ AI via edge-einingar og sky.
  • PCWorld (Mark Hachman). “Intels Core Ultra CPU-ar held AI enkelt….” 24. oktober 2024 pcworld.com. Diskuterer Intel Arrow Lake som brukar Meteor Lake sin NPU (13 TOPS) og nemner AMD sin Ryzen 8000 39 TOPS NPU og Microsoft sitt 40 TOPS “Copilot”-krav.
  • Ts2 (Tech Empowerment). “Self-Driving Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Sep. 2023 ts2.tech. Gjev TOPS-anslag: Tesla HW3 vs HW4 (72→100 TOPS per chip) ts2.tech, NVIDIA Thor ~1000 TOPS (eller 2000 med dobbel) ts2.tech og siterer NVIDIA VP om generativ AI i køyretøy ts2.tech.
  • Grand View Research. “On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Nemner veksten av spesialiserte AI-brikker (NPU-ar) som gjer det mogleg med kompleks AI på einingar, og at maskinvare stod for 60,4 % av on-device AI-marknaden i 2024, driven av smarttelefonar, IoT, NPU-ar osv.
  • Google Blog. “Google Tensor G3: Pixel 8’s AI-first processor.” Okt. 2023 blog.google. Skildrar Tensor G3 sine oppgraderingar for generativ AI på eining, ny TPU-design, og on-device TTS-modell på nivå med datasenter-kvalitet.
  • Techspot. “Snapdragon 8 Gen 3 brings generative AI to smartphones.” Okt. 2023 futurumgroup.com. Futurum Group-analyse som detaljert forklarar SD8Gen3 si AI-motor: 10B parameter LLM på eining, 98 % raskare NPU, verdas raskaste Stable Diffusion på telefon, osv., pluss fordelar med on-device LLM for kostnad/personvern/offline futurumgroup.com.
  • Apple Wiki (Fandom). “Neural Engine.” Oppdatert 2025 apple.fandom.com. Historikk for Neural Engine-versjonar med A17 Pro 35 TOPS i 2023, osv. Viser utviklinga frå 0,6 TOPS (A11) til 35 TOPS (A17) apple.fandom.com og M4 på 38 TOPS apple.fandom.com.
  • EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Døme på tryggleikskamera med innebygd NPU som gjer det mogleg med AI-handsaming på kameraet og lokal lagring (ingen NVR nødvendig).
  • EmbedL. “Amazon releases AZ1 Neural Edge Processor.” Okt. 2020 embedl.com. Diskuterer Amazons AZ1 edge NPU for Echo-einingar, bygd saman med MediaTek, designa for talegjenkjenning på eininga for å redusere forseinking og avhengnad av skytenester embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Don't Miss