- Apple introduceerde on-device AI in 2017 met de Neural Engine van de iPhone A11, waarmee Face ID en Animoji mogelijk werden gemaakt tot 600 miljard bewerkingen per seconde.
- In 2023 leverde de 16-core Neural Engine van de iPhone A17 Pro ongeveer 35 TOPS, waarmee on-device spraak-, fotografie- en vertaalfuncties werden aangedreven.
- Google Pixel 8 (2023) gebruikt de Tensor G3 NPU om on-device AI-modellen zoals Palm 2 uit te voeren voor offline vertaling en samenvatting.
- Google’s Edge TPU op de Coral Dev Board levert 4 TOPS aan vision processing bij een paar watt.
- Tesla’s Full Self-Driving hardware heeft twee NPU’s: HW3 (2019) bood ongeveer 144 TOPS, en HW4 (2023) rond de 200–250 TOPS.
- NVIDIA Drive Thor (aangekondigd in 2024) kan tot 2000 TOPS bereiken wanneer twee chips worden gekoppeld voor automotive AI-workloads.
- Qualcomm’s Snapdragon 8 Gen 3 (2023) Hexagon NPU is 98% sneller dan Gen 2, kan LLM’s tot 10 miljard parameters on-device draaien, en behaalde ’s werelds snelste mobiele Stable Diffusion in demonstraties.
- MediaTek’s Dimensity 9400 (2024) met een zesde generatie APU drijft Oppo Find X8 AI-fotoremastering aan, wat aangeeft dat NPU’s zich tegen 2025 uitbreiden naar tv’s, IoT en auto’s.
- Intel’s Meteor Lake, de 14e generatie Core (gelanceerd in 2023; hernoemd tot Core Ultra in 2024), bevat een geïntegreerde NPU die ongeveer 8–12 TOPS levert, met Arrow Lake op ~13 TOPS en Lunar Lake naar verluidt rond de 45 TOPS.
- AMD’s Ryzen 7040 Phoenix (2023) introduceerde de Ryzen AI Engine met tot 10 TOPS, terwijl Ryzen 8000 desktop (begin 2024) 39 TOPS bood voordat AMD NPU’s in die generatie pauzeerde.
Kort samengevat: Je smartphone, camera en zelfs je auto krijgen AI-hersenen ingebouwd – geen cloud nodig. Speciale chips genaamd NPU’s (Neural Processing Units) en TPU’s (Tensor Processing Units) veranderen alledaagse apparaten in intelligente assistenten die gezichtsherkenning, spraakopdrachten, realtime vertaling, autonome rijfuncties en meer mogelijk maken. Deze on-device AI-revolutie belooft razendsnelle reacties, betere privacy en nieuwe functies waarvan we ooit dachten dat ze alleen mogelijk waren met supercomputers. In dit rapport ontrafelen we NPU’s en TPU’s, bekijken we hoe ze verschillen van CPU’s/GPU’s, en onderzoeken we waarom techgiganten als Apple, Google, Qualcomm en Intel racen om deze “AI-hersenen” in alles van telefoons tot auto’s te stoppen. We belichten ook de nieuwste doorbraken voor 2024–2025, inzichten van experts, industriestandaarden en wat de toekomst brengt voor on-device AI.
Wat zijn NPU’s en TPU’s? (Ontmoet het AI-brein van je apparaat)
Neurale Verwerkingsunits (NPU’s) zijn gespecialiseerde processors die ontworpen zijn om kunstmatige neurale netwerken te versnellen – de algoritmes die moderne AI-taken aandrijven zoals beeldherkenning, spraakverwerking en meer. In tegenstelling tot algemene CPU’s zijn NPU’s application-specific integrated circuits (ASICs) die zijn afgestemd op matrixberekeningen en de zware parallelle werklasten van neurale netwerken techtarget.com. Een NPU “bootst de neurale netwerken van een menselijk brein na om AI-taken te versnellen” en fungeert in feite als een silicon brain in je apparaat techtarget.com. NPU’s blinken uit in het efficiënt uitvoeren van inferentie (voorspellingen doen) voor AI-modellen op het apparaat zelf, vaak met een lagere numerieke precisie (bijv. 8-bits gehele getallen) om energie te besparen terwijl toch hoge prestaties worden geleverd backblaze.com. De term “NPU” wordt soms breed gebruikt voor elke AI-versneller, maar verwijst vaker naar die in mobiele en edge-apparaten backblaze.com. Zo is bijvoorbeeld de “Neural Engine” van Apple in iPhones en de mobiele AI-engine van Samsung een NPU die geïntegreerd is in hun system-on-chip (SoC) ontwerpen.
Tensor Processing Units (TPU’s), daarentegen, zijn ontwikkeld door Google als aangepaste chips voor het versnellen van machine learning, vooral voor het TensorFlow-framework. Een TPU is een type ASIC dat geoptimaliseerd is voor de tensorbewerkingen (matrixvermenigvuldigingen, enz.) die centraal staan bij het trainen en uitvoeren van neurale netwerken backblaze.com. Google zette TPU’s voor het eerst in in zijn datacenters in 2015 om berekeningen voor neurale netwerken te versnellen, en stelde ze later beschikbaar via Google Cloud backblaze.com. TPU’s gebruiken een aparte architectuur, genaamd een systolische array, die veel kleine verwerkingsunits in een raster verbindt dat data door een keten van matrixvermenigvuldigingsunits pompt backblaze.com. Dit ontwerp bereikt een extreem hoge verwerkingssnelheid bij deep learning-taken. Google’s TPU’s leveren bewust wat precisie in (ze gebruiken 8-bit of 16-bit berekeningen in plaats van 32-bit floats) voor enorme snelheids- en efficiëntiewinsten backblaze.com, omdat veel AI-taken geen hoge precisie vereisen om nauwkeurige resultaten te behalen. Hoewel “TPU” technisch gezien verwijst naar de chips van Google, wordt de term soms algemener gebruikt voor elke “tensor”-versneller. Opvallend is dat Google ook Edge TPU co-processors produceert voor AI op het apparaat zelf, in producten zoals de Coral Dev Board, die 4 biljoen bewerkingen per seconde leveren bij een paar watt coral.ai.
Kort samengevat: NPU’s en TPU’s zijn beide siliciumversnellers voor AI, maar NPU’s worden vaak ingebouwd in mobiele/edge-apparaten voor efficiënte on-device inference, terwijl TPU’s (in de strikte zin) krachtige chips (en nu modules) zijn, voornamelijk van Google, oorspronkelijk bedoeld voor cloud/datacenter training en inference taken. Beide wijken af van traditionele CPU/GPU-ontwerpen om parallelle wiskundige bewerkingen voor neurale netwerken te prioriteren. Zoals een techredacteur het verwoordde: “TPU’s gaan nog verder in specialisatie, met de focus op tensorbewerkingen om hogere snelheden en energie-efficiëntie te bereiken… NPU’s zijn wijdverspreid in AI-apparaten zoals smartphones en IoT-gadgets” backblaze.com.
Hoe verschillen NPU’s en TPU’s van CPU’s en GPU’s?
Traditionele CPU’s (central processing units) zijn de “hersenen” van algemene computers – geoptimaliseerd voor flexibiliteit om allerlei taken aan te kunnen, van het draaien van je besturingssysteem tot het surfen op het web. Ze hebben een paar krachtige cores die uitblinken in sequentiële logica en gevarieerde instructies, maar ze zijn niet goed in het sterk parallelle rekenwerk dat nodig is voor deep learning techtarget.com. Wanneer een CPU gevraagd wordt om een groot neuraal netwerk te verwerken, wordt het vaak een knelpunt, omdat het miljoenen vermenigvuldigingen en optellingen na elkaar of in beperkte parallelle batches moet uitvoeren. Dit leidt tot hoge latentie en stroomverbruik (de zogenaamde Von Neumann bottleneck van het heen en weer sturen van veel data tussen CPU en geheugen) backblaze.com. CPU’s kunnen enige AI-taken uitvoeren (vooral eenvoudigere of kleinere modellen, of besturingslogica voor AI-programma’s techtarget.com), maar over het algemeen hebben ze moeite om efficiënt op te schalen naar de eisen van moderne AI voor massale parallelle lineaire algebra.
GPU’s (graphics processing units) brachten parallel computing naar de voorgrond. Oorspronkelijk gemaakt voor het renderen van beelden door veel eenvoudige bewerkingen parallel uit te voeren op pixels en vertices, bleken GPU’s ook zeer geschikt voor het trainen van neurale netwerken, waarbij dezelfde wiskundige bewerkingen (dotproducten, enz.) gelijktijdig op veel data worden toegepast techtarget.com. Een GPU bevat honderden of duizenden kleine cores die wiskundige berekeningen parallel kunnen uitvoeren. Dit maakt GPU’s uitstekend voor grootschalige AI, en in de jaren 2010 werden GPU’s (vooral die van NVIDIA met CUDA-software) het werkpaard van deep learning-onderzoek. GPU’s zijn echter nog steeds enigszins algemeen – ze moeten verschillende grafische taken aankunnen en flexibel blijven, dus ze zijn niet 100% geoptimaliseerd voor neurale netwerken. Ze verbruiken ook veel stroom en vereisen zorgvuldige programmering om volledig te benutten (ze houden niet van complexe vertakkingscode en presteren het best bij gestroomlijnde, data-parallelle taken) techtarget.com.
NPU’s en TPU’s gaan nog een stap verder in specialisatie. Ze zijn speciaal gebouwd voor alleen de neurale netwerk-workload. Dit betekent dat hun architectuur alles kan weglaten wat niet nodig is voor AI-wiskunde en meer silicium kan toewijzen aan zaken als matrixvermenigvuldigingseenheden, accumulatie-adders, en on-chip geheugen om snel data in en uit die rekeneenheden te verplaatsen. Een Google Cloud TPU is bijvoorbeeld in wezen een gigantische 2D-array van MAC (multiply-accumulate) units met een slimme dataflow-architectuur (de systolische array) die ze op hoge snelheid van operanden voorziet backblaze.com. Het doet geen moeite met caches, speculatieve uitvoering of andere CPU-functies – het is gestroomlijnd voor matrixwiskunde. NPU’s in mobiele chips integreren op vergelijkbare wijze speciale neural engine cores naast de CPU/GPU. Deze cores gebruiken vaak rekenwerk met lage precisie (bijv. 8-bits gehele getallen zoals TPU’s) en voeren sterk parallelle “laag-voor-laag” berekeningen uit voor zaken als convolutionele neurale netwerken. Een NPU kan een “gefuseerde” architectuur gebruiken die scalaire, vector- en tensor-units combineert (Qualcomm’s Hexagon NPU doet dit) om verschillende neurale netwerkoperaties efficiënt af te handelen futurumgroup.com.
De belangrijkste verschillen komen neer op:
- Instructieset en flexibiliteit: CPU’s hebben een brede, algemene instructieset (kunnen veel dingen doen, maar niet allemaal tegelijk). GPU’s hebben een beperktere maar nog steeds flexibele instructieset, geoptimaliseerd voor doorvoer bij wiskunde. NPU’s/TPU’s hebben een zeer smalle instructieset – in wezen alleen de bewerkingen die nodig zijn voor neurale netwerken (matrixvermenigvuldiging, convolutie, activatiefuncties), vaak geïmplementeerd als vaste pipelines of arrays fuse.wikichip.org. Zo heeft Tesla’s zelfrijdende NPU slechts 8 instructies in zijn ISA, gericht op DMA-lezen/schrijven en dot-producten fuse.wikichip.org. Parallelisme en cores: CPUs = een paar krachtige cores; GPU’s = duizenden eenvoudige cores; NPU’s/TPU’s = in zekere zin, tien- tot twintigduizend zeer eenvoudige ALU’s (de MAC-units) gestructureerd in een matrix- of neuraalnetwerkstijl. Een enkele NPU-chip kan tientallen biljoenen bewerkingen per seconde uitvoeren – Tesla’s auto-NPU draait op 2 GHz met 9.216 MACs, goed voor ~37 tera-operaties per seconde (TOPS) per core, en elke FSD-chip heeft twee NPU’s voor ~74 TOPS fuse.wikichip.org, ts2.tech. Ter vergelijking: een high-end CPU haalt bij AI-taken slechts enkele honderden miljarden bewerkingen per seconde, en een GPU misschien een paar TOPS als er geen speciale tensor cores worden gebruikt.
- Geheugenarchitectuur: NPU’s/TPU’s vertrouwen op snel on-chip geheugen en het streamen van data. TPU’s vermijden de klassieke geheugenbottleneck door systolische dataflow te gebruiken – elke kleine eenheid geeft data in gelijke pas door aan de volgende, waardoor lezen/schrijven naar het hoofdgeheugen wordt geminimaliseerd backblaze.com. Veel NPU’s bevatten een stuk SRAM op de chip voor gewichten/activaties (bijv. Tesla’s NPU-cores hebben elk 32 MB SRAM om neurale netwerkdata lokaal op te slaan) semianalysis.com. Dit staat in contrast met GPU’s/CPU’s die zwaar gebruikmaken van extern DRAM.
- Precisie: CPU’s/GPU’s werken meestal met 32-bit of 64-bit floats voor berekeningen. AI-accelerators gebruiken vaak 16-bit of 8-bit integers (en sommigen verkennen nu zelfs 4-bit of 2-bit) omdat neurale netwerken lagere precisie verdragen. Google’s TPU-ontwerpers gaven expliciet aan dat je geen volledige float-precisie nodig hebt voor inferentie, vergelijkbaar met “je hoeft niet precies te weten hoeveel regendruppels er vallen om te weten dat het hard regent” backblaze.com. Hierdoor kunnen NPU’s/TPU’s meer bewerkingen parallel uitvoeren en minder energie per bewerking gebruiken.
- Toepassingen: GPU’s worden nog steeds veel gebruikt voor training van grote modellen en voor flexibele computing (en ze zijn gebruikelijk in datacenters en high-end pc’s). TPU’s (cloud) richten zich op grootschalige training en inferentie binnen Google’s ecosysteem. NPU’s worden vaker aangetroffen in edge-apparaten – smartphones, camera’s, apparaten – die inferentie uitvoeren op reeds getrainde modellen. Ze blinken uit in taken zoals het in realtime toepassen van een vision-model op een camerabeeld, of het continu uitvoeren van spraakassistent-wakeword-detectie bij laag stroomverbruik. Zoals TechTarget opmerkte: “GPU’s worden gekozen vanwege beschikbaarheid en kosteneffectiviteit in veel ML-projecten; TPU’s zijn meestal sneller en minder precies, gebruikt door bedrijven op Google Cloud; NPU’s zijn vaak te vinden in edge/mobiele apparaten voor aanzienlijk snellere lokale verwerking” techtarget.com.
Samengevat, CPU’s = veelzijdige organisatoren, GPU’s = parallelle werkpaarden, TPU’s/NPU’s = specialisten in neurale netwerken. Ze kunnen allemaal samenwerken – in feite coördineert de CPU in een modern AI-apparaat vaak de taken en besteedt de rekenintensieve onderdelen uit aan de NPU/GPU indien nodig techtarget.com. Deze trend van specialisatie bestaat omdat één oplossing niet langer voor alles werkt in de informatica: zoals een redacteur het verwoordde, “miljoenen extra transistors toevoegen voor elke behoefte was niet efficiënt… ontwerpers kozen voor speciaal gebouwde processors” techtarget.com. Speciaal gebouwde NPU’s en TPU’s versnellen AI-berekeningen drastisch terwijl het energieverbruik laag blijft – een cruciale balans voor zowel apparaten op batterijen als voor servers met hoge dichtheid.
Waarom On-Device AI? (Edge vs. Cloud)
Waarom zou je AI überhaupt op je telefoon of in je auto draaien – waarom niet gewoon alles naar de cloud sturen waar enorme servers (met GPU’s/TPU’s) het zware werk kunnen doen? Er zijn verschillende overtuigende redenen die de verschuiving naar on-device AI aandrijven, en die komen neer op snelheid, privacy, kosten en betrouwbaarheid nimbleedge.com:
- Directe respons (lage latentie): Een NPU op het apparaat kan gegevens in realtime verwerken zonder de vertraging van het heen en weer sturen van gegevens naar een cloudserver. Dit is cruciaal voor interactieve of veiligheid-kritische AI-taken. Bijvoorbeeld, het autonome rijsysteem van een auto dat gebruikmaakt van ingebouwde NPU’s kan een voetganger identificeren en onmiddellijk op de rem trappen, binnen milliseconden, in plaats van te wachten op cloudberekeningen. Een slimme camera met een NPU kan een indringer detecteren op het moment dat deze in beeld verschijnt. Op je telefoon betekent on-device AI dat je spraakassistent sneller en natuurlijker kan reageren omdat deze niet constant “thuis moet bellen.” Verminderde latentie maakt echte realtime besluitvorming en een soepelere gebruikerservaring mogelijk nimbleedge.com.
- Privacy en gegevensbeveiliging: On-device AI houdt je gegevens lokaal. In plaats van je microfoonaudio of camerafeed naar de cloud te streamen voor analyse, vindt de verwerking plaats op het apparaat zelf. Dit vermindert de blootstelling van gevoelige gegevens aanzienlijk. Moderne smartphones voeren bijvoorbeeld gezichtsherkenning (Face ID, enz.) volledig op het apparaat uit – de biometrische kaart van je gezicht verlaat nooit de beveiligde enclave van de telefoon. Op dezelfde manier kan een AI-gehoorapparaat of gezondheidswearable biometrische gegevens analyseren zonder deze naar een server te uploaden, waardoor privacy behouden blijft. Gezien de groeiende zorgen van gebruikers en regelgeving rond gegevenssoevereiniteit is dit een groot voordeel. Zoals een edge AI-blog het verwoordde, betekent on-device verwerking dat “gebruikersgegevens niet naar de cloud hoeven te worden verzonden,” wat een basisprivacyvoordeel biedt nimbleedge.com. (Natuurlijk is privacy niet automatisch – ontwikkelaars moeten nog steeds zorgvuldig omgaan met opgeslagen gegevens – maar het is makkelijker om apparaten te vertrouwen die je informatie niet constant versturen.) Tech-CEO’s benadrukken dit aspect vaak. De CEO van Qualcomm, Cristiano Amon, merkte op dat het combineren van cloud- en on-device-intelligentie personalisatie kan verbeteren terwijl gegevens veilig op het apparaat blijven – hij noemt het een “hybride toekomst” waarin on-device AI samenwerkt met cloud-AI voor het beste van beide werelden moomoo.com.
- Offline beschikbaarheid & betrouwbaarheid: Apparaten met NPU’s/TPU’s zijn niet afhankelijk van connectiviteit. Ze kunnen werken in een metrotunnel, in een vliegtuig, in afgelegen landelijke gebieden of tijdens netwerkstoringen. Dit is enorm voor de betrouwbaarheid. Een spraakdictatiefunctie op het apparaat werkt nog steeds zonder signaal. Een drone met on-board vision AI kan obstakels vermijden, zelfs buiten het netwerk. Deze onafhankelijkheid is ook cruciaal voor missiekritieke systemen: bijvoorbeeld rampenbestrijdingsrobots of medische apparaten die niet kunnen uitgaan van een live internetverbinding. “Offline functionaliteit” is een kernvoordeel van on-device AI nimbleedge.com – het zorgt ervoor dat de AI-functie altijd en overal beschikbaar is.
- Kostenefficiëntie op schaal: Voortdurend ruwe gegevens naar de cloud sturen voor AI-verwerking kan erg duur zijn (cloud computing is niet gratis) en veel bandbreedte vereisen. Naarmate AI-functies toenemen, zouden bedrijven enorme cloudverwerkingskosten moeten betalen als elke kleine taak een server raakt. Door meer aan de edge te doen, verminderen ze de belasting van cloudservers en het netwerkgebruik. Het is vaak efficiënter om een paar extra euro’s uit te geven aan een betere chip in het apparaat dan om te betalen voor gigabytes aan cloud computing gedurende de levensduur van het apparaat. Een Futurum-industrieanalyse merkte op dat on-device verwerking helpt om de schaal- en kostenproblemen van generatieve AI aan te pakken – het “spreidt” de belasting zodat datacenters niet overbelast raken (en gebruikers/ontwikkelaars niet de hoofdprijs betalen voor cloud-GPU-tijd) futurumgroup.com.
- Personalisatie & Context: Een opkomende reden: AI op het apparaat kan leren van en zich aanpassen aan de lokale context op een manier die cloud-AI mogelijk niet kan. Je smartphone kan een klein lokaal model bijhouden dat jouw sms-stijl leert voor betere autocorrectie, zonder dat dat persoonlijke taalmodel naar de cloud wordt gestuurd. Apparaten kunnen gegevens van meerdere sensoren in realtime combineren (iets wat lokaal makkelijker is dan het streamen van allerlei sensorgegevens naar de cloud). Dit kan zorgen voor een meer gepersonaliseerde en contextbewuste ervaring. Sommige functies zoals federated learning stellen apparaten zelfs in staat om AI-modellen samen te verbeteren zonder ruwe data te uploaden (alleen kleine gewichtsaanpassingen worden teruggestuurd).
- Regelgeving en Data-soevereiniteit: Wetten zoals de Europese GDPR en diverse vereisten voor datalocalisatie schrijven steeds vaker voor dat bepaalde gegevens (vooral persoonlijke of gevoelige data) niet zonder toestemming naar het buitenland of naar derden mogen worden gestuurd. AI op het apparaat biedt een manier om te voldoen door gegevens bij de bron te verwerken. Bijvoorbeeld: AI-tools voor medische beeldvorming kunnen draaien op hardware van het ziekenhuis (edge servers met NPU’s), zodat patiëntgegevens het pand nooit verlaten en privacyregels worden nageleefd. Het rapport van NimbleEdge uit 2025 wijst op overheden die om redenen van soevereiniteit en compliance aandringen op meer lokale inferentie nimbleedge.com.
Al deze factoren zorgen voor een paradigmaverschuiving: in plaats van “cloud-first” te denken voor AI, ontwerpen bedrijven nu AI-functies “device-first” waar mogelijk. Zoals Qualcomm’s AI VP, Durga Malladi, het samenvatte: “Om generatieve AI effectief op grote schaal te brengen, zal AI zowel in de cloud als op apparaten aan de rand moeten draaien… zoals smartphones, laptops, voertuigen en IoT-apparaten” iconnect007.com. We gaan naar een hybride AI-wereld waarin zware training en grote modellen misschien in de cloud blijven, maar veel inferentietaken en persoonlijke AI-ervaringen lokaal draaien op de NPU’s/TPU’s in je handen en huizen. Sterker nog, Amon noemt het een “kantelpunt in AI” – on-device inferentie zonder vertraging, waarbij “de toekomst van AI persoonlijk is” omdat het precies draait waar jij bent x.com.
AI op het apparaat in de praktijk: van smartphones tot zelfrijdende auto’s
Gespecialiseerde AI-chips zijn al ingebouwd in allerlei apparaten om je heen, vaak onzichtbaar, waardoor ze slimmer worden. Hier zijn enkele belangrijke gebieden waar NPU’s en edge TPU’s worden ingezet:
- Smartphones & Tablets: Vrijwel alle moderne topklasse telefoons (en zelfs veel middenklasse modellen) bevatten nu een NPU of speciale AI-engine. Apple startte de trend in 2017 met de Apple Neural Engine in de A11-chip van de iPhone, waarmee Face ID en Animoji op het apparaat mogelijk werden door tot 600 miljard bewerkingen per seconde uit te voeren apple.fandom.com. Tegenwoordig bevat Apple’s A17 Pro-chip (2023) een 16-core Neural Engine die 35 biljoen bewerkingen per seconde aankan apple.fandom.com. Dit maakt functies mogelijk zoals geavanceerde camerascène-detectie, fotostijlen, Siri-spraakopdrachten die offline worden verwerkt, autocorrectie, live transcriptie en zelfs het uitvoeren van transformer-modellen voor vertaling op het apparaat. Google’s Pixel-telefoons hebben eveneens eigen chips (“Google Tensor” SoC’s) met NPU’s: de nieuwste Tensor G3 in de Pixel 8 is “speciaal ontworpen om Google’s AI-modellen uit te voeren”, waarbij elk onderdeel van de chip (CPU, GPU, ISP) is verbeterd om de weg vrij te maken voor generatieve AI op het apparaat blog.google. Pixel 8 kan Google’s geavanceerde tekst-naar-spraak- en vertaalmodellen lokaal uitvoeren, dezelfde die voorheen alleen in datacenters draaiden blog.google. Ook voert het complexe camerafuncties uit zoals de “Best Take” groepsfoto-samenvoeging en Audio Magic Eraser met behulp van een reeks AI-modellen op het apparaat blog.google. Samsung en andere Android-fabrikanten gebruiken Qualcomm’s Snapdragon-chips, waarvan de nieuwste NPU’s (Hexagon AI-engine) zelfs grote taalmodellen op de telefoon kunnen draaien – Qualcomm demonstreerde het draaien van een LLM met 10 miljard parameters en zelfs Stable Diffusion beeldgeneratie op een telefoon met de Snapdragon 8 Gen 3 futurumgroup.com. De AI-engine van deze chip is 98% sneller dan de vorige generatie en ondersteunt INT4-precisie voor efficiëntie futurumgroup.com. Praktisch resultaat: je telefoon uit 2024 kan dingen doen zoals artikelen samenvatten, vragen beantwoorden of foto’s bewerken met AI zonder de cloud nodig te hebben. Zelfs toegankelijkheidsfuncties profiteren: zo hebben Pixel-telefoons nu spraaktypen op het apparaat, live ondertiteling en een aankomende functie om afbeeldingen te beschrijven aan blinde gebruikers met een lokaal model.
- Slimme camera’s & beveiligingssystemen: AI-gestuurde camera’s gebruiken ingebouwde NPU’s om mensen, gezichten, dieren of verdacht gedrag direct te detecteren. Zo bevatten de nieuwste beveiligingscamera’s van EnGenius een ingebouwde NPU die objectdetectie uitvoert en video direct op de camera omzet in metadata, waardoor een aparte videorecorder overbodig wordt en de beveiliging toeneemt (omdat video lokaal kan worden geanalyseerd en opgeslagen) engeniustech.com. Dit betekent dat je beveiligingscamera kan beslissen “persoon aanwezig” of “pakket afgeleverd” en alleen die melding verstuurt, in plaats van uren aan beeldmateriaal naar een clouddienst te streamen. Evenzo hadden consumententoestellen zoals de Google Nest Cam IQ een vision-chip aan boord (Google Edge TPU) om bekende gezichten te herkennen en mensen van huisdieren te onderscheiden binnen het gezichtsveld. DSLR- en systeemcamera’s krijgen ook AI-processors voor zaken als onderwerptracking, oog-autofocus en scène-optimalisatie in realtime. In drones helpen ingebouwde AI-chips bij obstakelvermijding en visuele navigatie zonder dat afstandsbediening nodig is. Opvallend is dat Google’s Edge TPU (een kleine ASIC-module) een populaire add-on is geworden voor doe-het-zelf- en industriële IoT-camera’s – het levert 4 TOPS aan vision-verwerkingskracht voor taken zoals het detecteren van mensen of het lezen van kentekenplaten, terwijl het slechts ~2 watt verbruikt coral.ai.
- Slimme thuis- & IoT-apparaten: Naast telefoons hebben veel slimme thuisapparaten mini-NPU’s. Spraakgestuurde speakers (Amazon Echo, Google Nest Hub, enz.) bevatten nu vaak lokale spraakherkenningschips. Amazon ontwikkelde de AZ1 Neural Edge processor voor de Echo-apparaten om Alexa’s weksignaalherkenning en reacties op het apparaat te versnellen, waardoor de vertraging wordt gehalveerd embedl.com. De AZ1 (gebouwd met MediaTek) draait een neuraal netwerk dat “Alexa” herkent en eenvoudige commando’s verwerkt zonder de cloud te benaderen embedl.com. Dit zorgt er niet alleen voor dat Alexa sneller aanvoelt, maar houdt ook meer spraakdata privé. Evenzo bevatten veel nieuwe tv’s, apparaten en zelfs speelgoed enige AI aan de edge – bijvoorbeeld, de camera van een slimme koelkast kan lokaal voedsel en houdbaarheidsdata herkennen. Wearables verdienen ook een vermelding: de S9-chip van de Apple Watch voegde een 4-core Neural Engine toe om gezondheids-AI-algoritmen en Siri-verzoeken beter op het horloge zelf te verwerken apple.fandom.com. En aan de industriële kant kunnen IoT-sensoren met NPU’s anomaliedetectie uitvoeren op apparatuurdata direct aan de edge, waarbij alleen relevante gebeurtenissen worden gemeld (wat bandbreedte bespaart en sneller op problemen reageert).
- Automobielen (ADAS en Autonomie): Auto’s zijn uitgegroeid tot AI-hubs op wielen. Geavanceerde rijhulpsystemen (ADAS) en zelfrijdende functies vertrouwen op een reeks ingebouwde AI-accelerators om camerabeelden, LiDAR, radar te interpreteren en rijbeslissingen in een fractie van een seconde te nemen. Tesla ontwierp bijvoorbeeld zijn eigen FSD (Full Self-Driving) Computer met dubbele NPU-chips. Tesla’s FSD-chip (HW3, geïntroduceerd in 2019) leverde 144 TOPS (twee NPU’s van elk 72 TOPS); de nieuwere HW4 (2023) verhoogt dat tot ongeveer 200–250 TOPS totaal (twee 7nm NPU’s van elk ruim 100+ TOPS) ts2.tech. Hierdoor kan de auto videobeelden in volledige resolutie van 8 camera’s, sonar, enz. gelijktijdig verwerken via neurale netwerken voor perceptie en zelfs enkele taalmodellen draaien voor spraakopdrachten – allemaal lokaal in de module van de auto. Concurrerende platforms zoals NVIDIA Drive en Qualcomm Snapdragon Ride integreren ook NPU’s. NVIDIA’s nieuwste supercomputerchip voor auto’s, Drive Thor, gepland voor auto’s in 2025, biedt tot 1.000 TOPS op één chip (en 2.000 TOPS wanneer er twee worden gekoppeld) om Level 4-autonomie te ondersteunen ts2.tech. Het combineert een GPU, CPU en speciale deep learning accelerators zodat het alles aankan van verkeersbordherkenning tot AI voor bestuurdersmonitoring op de chip ts2.tech. Deze NPU’s zijn letterlijk levensreddend: een autonome auto kan niet op cloudservers wachten als er een kind de straat op rent. De AI aan boord moet binnen tientallen milliseconden zien en reageren. Buiten personenauto’s vind je ook veelvuldig gebruik van edge-AI in autonome drones, bezorgrobots en industriële voertuigen die navigeren en beslissingen nemen met on-board NPU’s/TPU’s (bijvoorbeeld, de bezorgrobots van Nuro en veel zelfrijdende trucks gebruiken NVIDIA- of Huawei-AI-chips in het apparaat).
- Edge Computing & Industrie: In fabrieken en zakelijke omgevingen neemt on-device AI vaak de vorm aan van edge servers of gateways met AI-accelerators. In plaats van camerabeelden of sensorgegevens naar een centrale cloud te sturen, installeren bedrijven edge-boxen (soms GPU-gebaseerd, soms NPU/FPGA-gebaseerd) op locatie. Deze verwerken taken zoals real-time video-analyse voor kwaliteitscontrole op een productielijn, waarbij defecten in microseconden worden gedetecteerd met AI-vision. Medische apparaten zijn een ander voorbeeld: een draagbare echo- of MRI-scanner kan een NPU bevatten om AI-beeldanalyse direct op het apparaat uit te voeren, zodat artsen direct diagnostische hulp krijgen zonder internetverbinding (wat ook beter is voor de privacy van patiëntgegevens). Retail en steden zetten ook AI aan de edge in – bijvoorbeeld slimme verkeerscamera’s met NPU’s om files te analyseren en verkeerslichten aan te passen, of camerasystemen in winkelschappen die de voorraad bijhouden. Veel van deze systemen gebruiken gespecialiseerde NPU’s zoals de Intel Movidius Myriad chips, Google’s Edge TPU of nieuwkomers zoals Hailo-8 (een Israëlische NPU die 26 TOPS levert met slechts een paar watt voor camera’s). De rode draad is dat deze accelerators analyse lokaal mogelijk maken, waardoor real-time resultaten worden behaald en alleen inzichten op hoog niveau (in plaats van ruwe data) over netwerken worden verstuurd.
De veelzijdigheid van NPU’s/TPU’s over verschillende apparaattypes is indrukwekkend. Het ene moment zorgen ze ervoor dat je telefoon de achtergrond in een foto met AI kan vervagen, het volgende moment sturen ze een drone aan of scannen ze medische beelden. Smartphonecamera’s gebruiken nu NPU’s voor functies als Nachtmodus (meerdere frames slim samenvoegen), portretmodus-bokeh, scènedetectie (je telefoon herkent dat je een “zonsondergang” fotografeert en optimaliseert kleuren via AI), en zelfs voor leuke AR-effecten (Animoji die je gezicht volgen, of Snapchat-filters die je bewegingen tracken – allemaal dankzij on-device neurale netwerken). Biometrie gebruikt NPU’s: vingerafdrukscanners verbeterd met AI voor liveness-detectie, gezichtsontgrendeling met dieptesensoren plus AI. Audio gebruikt ze ook: ruisonderdrukking in oordopjes en telefoons is nu vaak AI-gestuurd, waarbij NPU’s stem en achtergrondgeluid in real-time scheiden.
Een concreet voorbeeld van innovatie in 2024: Oppo (de smartphonemaker) kondigde in samenwerking met MediaTek aan dat het eind 2024 een Mixture-of-Experts (MoE) AI-model direct op het apparaat heeft geïmplementeerd – naar verluidt de eerste die dit in een telefoon doet grandviewresearch.com. Deze geavanceerde neurale netwerkarchitectuur (MoE) kan de prestaties verhogen door alleen relevante “expert”-subnetwerken per taak te activeren, en dit on-device uitvoeren betekent dat Oppo-telefoons snellere AI-verwerking en een beter energieverbruik kunnen bereiken voor complexe taken, zonder cloudhulp grandviewresearch.com. Het onderstreept hoe zelfs de meest geavanceerde AI-onderzoeken snel hun weg vinden naar onze handheld apparaten via verbeterde NPU’s.
Binnenin de AI-chips van 2025: Laatste ontwikkelingen van Apple, Google, Qualcomm en meer
De race om betere on-device AI-hardware te bouwen is snel in een stroomversnelling geraakt. Hier volgt een overzicht van wat grote bedrijven recent (2024–2025) hebben uitgebracht op het gebied van NPU’s/TPU’s en AI-silicium:
- Apple: Apple’s strategie met eigen chips heeft altijd de nadruk gelegd op machine learning op het apparaat zelf. Elk jaar is Apple’s Neural Engine krachtiger geworden. In de iPhone 15 Pro van 2023 bereikte de A17 Pro-chip’s Neural Engine 35 TOPS (biljoen bewerkingen per seconde) met zijn 16 cores apple.fandom.com. Dit was het dubbele van de ruwe verwerkingssnelheid van de NPU van de A16, en Apple gebruikte dat om dingen mogelijk te maken zoals spraakherkenning op het apparaat voor Siri (eindelijk veel Siri-verzoeken verwerken zonder internet) en nieuwe camerafuncties (zoals automatisch vastleggen van Portretmodus, en live vertaling van tekst via de camera). Apple’s chips van 2024 zetten de trend voort: de M3-familie voor Macs (eind 2023) kreeg een geüpdatete Neural Engine (opvallend genoeg afgestemd op 18 TOPS voor de M3-basischip, met meer focus op efficiëntie) apple.fandom.com. In 2024 introduceerde Apple de M4-chip (voor high-end iPads/Macs, midden 2024) die naar verluidt de Neural Engine verhoogde naar 38 TOPS op een verfijnd 3nm-proces apple.fandom.com. Maar het gaat niet alleen om de cijfers, Apple gebruikt die NPU ook: functies zoals Personal Voice (die een kloon van de stem van een gebruiker maakt na 15 minuten trainen) draaien privé op de Neural Engine in iPhones, en Live Voicemail-transcripties gebeuren lokaal. Apple heeft ook NPUs geïntegreerd in al zijn apparaatklassen – zelfs AirPods Pro hebben een kleine neural chip voor Adaptieve Audio. De leidinggevenden van Apple benadrukken vaak het privacyaspect: “machine learning op je apparaat” betekent dat je gegevens bij jou blijven. Tegen 2025 verwachten we dat Apple’s Neural Engine mogelijk verder wordt uitgebreid of op nieuwe manieren beschikbaar wordt voor apps van derden (Core ML laat ontwikkelaars het al gebruiken, maar Apple zou meer neurale API-toegang kunnen openen). Er is ook een gerucht dat Apple een aparte AI-versneller ontwerpt voor toekomstige brillen of auto’s, maar de huidige producten laten zien dat ze de voorkeur geven aan geïntegreerde NPUs in hun A-serie en M-serie SoC’s.
- Google: Google was niet alleen een pionier op het gebied van de cloud TPU, maar zette ook extra in op on-device AI voor Pixel-telefoons en consumententoestellen. De Google Tensor SoC (voor het eerst geïntroduceerd in 2021 in de Pixel 6) was uniek omdat Google, bekend van de cloud, een telefoonchip maakte om AI op het toestel zelf te laten draaien. Met de Tensor G3 (in de Pixel 8 van 2023) benadrukte Google upgrades die generatieve AI on-device mogelijk maken. Google zei expliciet dat de chip van de Pixel 8 “Google AI-onderzoek direct naar onze nieuwste telefoons brengt” blog.google. De next-gen TPU van de Tensor G3 (Google noemt de AI-kern intern nog steeds een “TPU”) maakt het mogelijk dat de Pixel geavanceerde modellen zoals Palm 2 of Gemini Nano (afgeslankte versies van Google’s grote taalmodellen) op het toestel zelf draait, voor functies zoals het samenvatten van websites of verbeteringen in spraaktypen reddit.com. Een opvallende functie: de Pixel 8 kan Google’s beste tekst-naar-spraakmodel (hetzelfde als in het datacenter) lokaal draaien, waardoor de telefoon webpagina’s hardop kan voorlezen in natuurlijke stemmen en zelfs realtime kan vertalen, allemaal offline blog.google. Google gebruikt de TPU in de Pixel ook voor fotografie (“HDR+” multi-frame imaging, Magic Eraser objectverwijdering via AI-inpainting blog.google), voor beveiliging (on-device gezichtsontgrendeling via AI, nu sterk genoeg geacht voor betalingen blog.google), en voor spraak (de Assistent die het niet erg vindt als je “ehm” zegt). Buiten telefoons biedt Google het Coral Dev Board en een USB-stick aan voor hobbyisten en bedrijven om Edge TPU’s aan hun projecten toe te voegen, elk met Google’s Edge TPU die 4 TOPS levert voor vision-taken bij zeer laag stroomverbruik coral.ai. Het wordt gebruikt in sommige van Google’s eigen producten zoals de Nest Hub Max voor gebarenherkenning. Voor Google is het integreren van TPU’s aan de edge onderdeel van een bredere strategie: Sundar Pichai (CEO van Google) heeft gezegd dat de toekomst van AI draait om het verbeteren van elke ervaring, en duidelijk ziet Google dat “om de transformerende kracht van AI naar het dagelijks leven te brengen, je het moet kunnen gebruiken op het apparaat dat je elke dag gebruikt” blog.google – vandaar de Tensor-chips. We kunnen een Tensor G4 verwachten in de Pixel-telefoons van eind 2024, mogelijk gebouwd op het nieuwere proces van Samsung of TSMC, met verdere verbeteringen in AI-prestaties en efficiëntie, misschien zelfs met on-device multimodale AI (combinatie van vision+language modellen).
- Qualcomm: De toonaangevende leverancier van mobiele chips voor Android-telefoons heeft zijn AI Engine in de Snapdragon-serie agressief gepromoot. De Snapdragon 8 Gen 2 (eind 2022) introduceerde speciale INT4-ondersteuning en demonstreerde realtime stable diffusion beeldgeneratie op een telefoon. De Snapdragon 8 Gen 3 (aangekondigd eind 2023, in de vlaggenschiptelefoons van 2024) is een grote sprong: Qualcomm zegt dat zijn Hexagon NPU 98% sneller is dan die van Gen 2 en 40% energiezuiniger futurumgroup.com. Deze chip kan grote taalmodellen met tot 10 miljard parameters volledig op het apparaat draaien, en verwerkt ongeveer 20 tokens per seconde – genoeg voor eenvoudige gesprekken met een AI-assistent zonder de cloud futurumgroup.com. Het behaalde ook de “snelste Stable Diffusion ter wereld” beeldgeneratie op een mobiel apparaat in demo’s futurumgroup.com. Qualcomm is uitgesproken dat generatieve AI op het apparaat een belangrijk verkooppunt is voor nieuwe telefoons. Zo zijn ze bijvoorbeeld een samenwerking aangegaan met Meta om de open-source Llama 2 LLM te optimaliseren voor Snapdragon, met als doel dat je in 2024 een chatbot-AI op je telefoon kunt draaien iconnect007.com. (Een Qualcomm-directeur zei: “we applaud Meta’s open approach… to scale generative AI, it must run on both cloud and edge”, waarmee het edge AI-filosofie wordt onderstreept iconnect007.com.) Buiten telefoons plaatst Qualcomm NPUs in laptopchips (de Snapdragon compute-platforms voor Windows op ARM) – en hun automotive platform Snapdragon Ride gebruikt dezelfde AI-kernen om tot 30 TOPS te bieden voor ADAS, met een roadmap naar honderden TOPS. In 2025 kondigde Qualcomm zelfs een nieuwe Snapdragon X Elite CPU voor pc’s aan die een krachtige NPU bevat, waarmee ze Apple en Intel willen uitdagen op het gebied van AI-prestaties in personal computers. Met de opkomst van AI op het apparaat, brengt Qualcomm sommige telefoons zelfs op de markt als “AI-telefoons.” Ze verwachten dat veel apps (van fotografie tot berichten tot productiviteit) gebruik zullen maken van de NPU. Aan de softwarekant bracht Qualcomm de Qualcomm AI Stack uit om ondersteuning voor populaire frameworks (TensorFlow Lite, PyTorch, ONNX) op hun NPUs te verenigen iconnect007.com – om het voor ontwikkelaars makkelijker te maken de AI-hardware te gebruiken zonder diepgaande chipkennis. MediaTek: De #2 fabrikant van mobiele chips (bekend van de Dimensity-serie) heeft ook zijn NPU’s geüpgraded. MediaTek noemt zijn AI-engines “APU” (AI Processing Unit). Zo heeft de Dimensity 9200+ (2023) een zesde generatie APU met een aanzienlijke prestatieverbetering ten opzichte van de vorige chip, waardoor functies als on-device stable diffusion en AI-ruisonderdrukking in video’s mogelijk zijn. In 2024 kondigde MediaTek de Dimensity 9400 aan, en in samenwerking met Oppo maakten ze gebruik van de geavanceerde NPU-architectuur om nieuwe AI-functies te introduceren (zoals genoemd, de AI-foto-remastering van de Oppo Find X8 met reflectieverwijdering en onscherpte verwijderen wordt aangedreven door MediaTek’s NPU) mediatek.com. MediaTek-bestuurders hebben zichzelf expliciet gepositioneerd als koplopers op het gebied van on-device AI. Zoals Will Chen van MediaTek het verwoordde: “de toekomst van AI overstijgt de cloud; het wordt aangedreven door edge computing, direct vanuit de palm van je hand.” Volgens hen moet AI op telefoons snel, privé, veilig en altijd toegankelijk zijn mediatek.com. MediaTek is zelfs een “APU-centrische” samenwerking aangegaan met Meta om Llama-frameworks te ondersteunen en met apparaatmakers zoals Oppo en Xiaomi met focus op AI-camera- en AI-spraakfuncties. In 2025 is het de bedoeling dat MediaTek deze NPU’s niet alleen in telefoons uitrolt, maar ook in slimme tv’s (voor AI-upscaling en beeldverbetering), IoT-apparaten, en zelfs auto’s (MediaTek heeft een automotive AI-platform en is een samenwerking aangegaan met Nvidia om Nvidia GPU IP te integreren voor auto’s, terwijl het vermoedelijk zijn eigen NPU levert voor sensor-AI).
- Intel: 2024 markeerde de intrede van Intel in AI-accelerators op mainstream-pc’s. Intel’s 14e generatie Core (Meteor Lake, gelanceerd in december 2023 en in 2024 omgedoopt tot Core Ultra) is de eerste x86-pc-processor met een ingebouwde neurale processorunit (NPU). De NPU van Meteor Lake (soms de VPU genoemd – Vision Processing Unit – gebaseerd op Intel’s Movidius-technologie) levert ongeveer 8–12 TOPS aan AI-prestaties pcworld.com. Dit wordt gebruikt om de AI-functies van Windows 11 te versnellen, zoals achtergrondvervaging, oogcontact bij videogesprekken, en kan door apps worden gebruikt voor zaken als lokale transcriptie, ruisonderdrukking of zelfs kleine AI-assistenten. Microsoft en Intel hebben samen het concept van de “AI-pc” gepromoot. Intel beweert dat deze NPU’s in 2024 in tientallen miljoenen laptops zullen worden geleverd pcworld.com. Na Meteor Lake vermeldt Intel’s roadmap Arrow Lake (voor desktops in 2024), dat ook een NPU bevatte (ongeveer 13 TOPS, iets verbeterd) pcworld.com. Interessant genoeg werd Intel’s eerste poging tot een desktop-NPU eigenlijk overtroffen door AMD (zie hieronder), en koos Intel voor een bescheiden NPU-ontwerp om te voorkomen dat er GPU/CPU-ruimte werd opgeofferd in chips voor enthousiastelingen pcworld.com. Maar tegen het einde van 2024 gaf Intel aan dat toekomstige Lunar Lake-chips een veel krachtigere NPU zullen hebben (~45 TOPS) om te voldoen aan Microsoft’s “Copilot”-vereisten pcworld.com. Dit alles geeft aan dat Intel AI ziet als een onmisbare functie voor pc’s in de toekomst – niet voor het trainen van enorme modellen, maar voor het versnellen van alledaagse AI-ervaringen (van verbeteringen in kantoorsuites tot creatieve tools met lokale AI). Intel verkoopt ook edge AI-accelerators zoals de Intel Movidius Myriad-chips (gebruikt in sommige drones, camera’s) en de Habana-accelerators voor servers, maar de geïntegreerde NPU van Meteor Lake is een mijlpaal die AI naar het gemiddelde consumententoestel brengt.
- AMD: AMD stapte ongeveer tegelijkertijd in on-device AI. De Ryzen 7040-serie laptopprocessors (Phoenix), uitgebracht in 2023, bevatte de eerste Ryzen AI Engine – in feite een geïntegreerde XDNA NPU (technologie uit AMD’s overname van Xilinx). Deze NPU leverde tot 10 TOPS op de mobiele chip en.wikipedia.org. AMD promootte gebruikstoepassingen zoals AI-verbeterde videogesprekken, productiviteitsapps, enzovoort, vergelijkbaar met de doelen van Intel. Vervolgens bracht AMD kortstondig een Ryzen 8000 desktopserie uit (begin 2024) met een NPU die 39 TOPS haalde – een zeer hoog aantal voor de AI-eenheid van een algemene CPU, zelfs hoger dan de plannen van Intel pcworld.com. Echter, AMD veranderde snel van koers en sloeg een generatie over, met focus op de volgende architectuur (de daaropvolgende Ryzen 9000 eind 2024 liet de NPU vallen om prioriteit te geven aan kernupgrades) pcworld.com. Niettemin wordt verwacht dat AMD NPUs in toekomstige PC-chips zal terugbrengen (het is waarschijnlijk een tijdelijke terugtrekking terwijl ze werken aan het integreren van een sterke AI-engine zonder andere prestaties te compromitteren). Aan de productkant zouden AMD’s NPUs interessante mogelijkheden kunnen bieden, aangezien AMD ook sterke GPU’s heeft – een combinatie die AI-werkbelastingen samen kan verwerken (sommige delen op de NPU, andere op de GPU). AMD heeft ook AI-cores toegevoegd aan zijn adaptieve (FPGA-gebaseerde) SoC’s en automotive chips. Samengevat: in 2025 hebben alle x86 PC-chipmakers NPUs omarmd, in lijn met wat smartphones een paar jaar eerder deden, wat aangeeft dat AI-versnelling een standaardfunctie aan het worden is.
- Overigen: Ook een verscheidenheid aan gespecialiseerde chipbedrijven en andere technologiebedrijven innoveren op het gebied van NPU’s. NVIDIA, bekend van de GPU’s, bevat nu speciale Tensor Cores in hun GPU’s en biedt een open NVDLA (deep learning accelerator)-ontwerp aan voor integratie in System-on-Chip-producten. In edge-apparaten zoals de NVIDIA Jetson-serie (gebruikt in robots, drones, embedded systemen) zijn er zowel de GPU als vaste “DLA’s” – feitelijk NPU’s – die een deel van de neurale netwerk-inferentie van de GPU overnemen. Het Orin-module van NVIDIA heeft bijvoorbeeld 2 DLA’s naast de GPU, wat bijdraagt aan de 254 TOPS aan AI-prestaties voor auto’s ts2.tech. Apple zou naar verluidt werken aan nog geavanceerdere AI-coprocessors of grotere neural engines voor hun AR-brillen of toekomstige projecten, al zijn details geheim. Huawei (ondanks geopolitieke uitdagingen) blijft Kirin-mobiele chips ontwerpen met NPU’s (hun “DaVinci” NPU-architectuur) en ook server-klasse NPU’s in hun Ascend AI-chips – hun Kirin 9000S-chip uit 2023 zou een sterke NPU behouden voor beeld- en taalopdrachten op hun telefoons. We zien ook startups zoals Hailo, Mythic, Graphcore en anderen hun eigen edge AI-chips aanbieden: bijvoorbeeld Hailo-8 zoals genoemd (26 TOPS in een mini PCIe-kaart voor AI-camera’s), Graphcore’s IPU voor datacenters (niet precies on-device, maar een nieuwe architectuur voor neurale netwerken), Mythic werkt aan analoge NPU’s, enzovoort. ARM, wiens ontwerpen de basis vormen van de meeste mobiele chips, biedt de Ethos NPU-serie (zoals Ethos-U, Ethos-N78) die chipmakers kunnen integreren om een kant-en-klare AI-versneller in IoT- of mid-range SoC’s te krijgen. Dit heeft zelfs relatief kleinere spelers in staat gesteld om NPU’s in hun chips op te nemen door het ontwerp van ARM in licentie te nemen.
De bottom line is dat van grote tech tot startups, iedereen investeert in on-device AI-silicium. Daardoor zien we snelle verbeteringen: nieuwe chips met hogere TOPS, betere efficiëntie (TOPS per watt), en ondersteuning voor nieuwe datatypes (zoals 4-bit quantization voor grotere modellen). Zo kunnen de nieuwste van Qualcomm en MediaTek INT4-precisie draaien, wat geweldig is voor generatieve AI-modellen waarbij geheugenbandbreedte een beperkende factor is androidauthority.com. Deze innovaties vertalen zich direct naar gebruikersvoordelen – bijvoorbeeld real-time mobiele AI-video-editing (objecten verwijderen uit 4K-video’s in real-time, zoals de Snapdragon 8 Gen 3 kan met de “Video Object Eraser” AI-functie futurumgroup.com), of AI-coprocessors in auto’s die spraakassistenten mogelijk maken die zonder netwerk werken en net zo snel reageren als een menselijk gesprek.
Belangrijk nieuws uit 2024–2025: Lanceringen, benchmarks en samenwerkingen
Om te illustreren hoe snel het gaat, hier enkele kopgebeurtenissen in de wereld van NPU’s/TPU’s en on-device AI van eind 2024 tot in 2025:
- Apple M3- en M4-onthullingen (okt 2023 & mei 2024): Brachten next-gen Neural Engines. De Neural Engine van de M3 haalt 18 TOPS (16-core), en de M4 sprong naar 38 TOPS (nog steeds 16-core maar met hogere kloksnelheid/efficiëntie) apple.fandom.com. Apple demonstreerde dat deze chips intensieve taken aankunnen, zoals on-device stable diffusion beeldgeneratie in macOS (met Core ML Stable Diffusion, ontwikkelaars lieten zien dat het ~15 seconden duurt om een afbeelding te genereren op een M2 – nog sneller op M3/M4).
- Google Pixel 8 lancering (okt 2023): Benadrukte AI “overal” in het apparaat. Tijdens het Google-evenement werd getoond hoe de Pixel 8 webpagina’s samenvat en artikelen live vertaalt op het apparaat zelf, met behulp van de Tensor G3 NPU. Ook werd de “Assistant with Bard” geïntroduceerd, die uiteindelijk sommige interacties op het apparaat zal uitvoeren. Google benadrukte dat de Pixel 8 2× zoveel modellen op het apparaat kan draaien als de Pixel 6, en modellen die veel geavanceerder zijn blog.google. Met andere woorden, een enorme sprong in slechts twee jaar Tensor-chipontwikkeling.
- Qualcomm–Meta samenwerking (juli 2023): Qualcomm en Meta kondigden aan dat ze Meta’s Llama 2 large language model optimaliseren om volledig op Snapdragon NPU’s te draaien tegen 2024 iconnect007.com. Het doel is ontwikkelaars in staat te stellen chatbots en generatieve AI-apps op telefoons, VR-headsets, pc’s, enz. te laten draaien zonder cloud. Dit was een belangrijke steunbetuiging aan on-device AI door een grote AI-modelhouder (Meta) en een grote chipfabrikant. Eind 2024 volgden ze met plannen voor Llama 3 optimalisatie qualcomm.com.
- Microsoft Windows 11 “Copilot” pc’s (2024): Microsoft stelde een norm door pc’s met >40 TOPS aan lokale AI-versnelling “AI-pc’s” te noemen, die in aanmerking komen voor verbeterde AI-functies (zoals de integratie van de Copilot digitale assistent). Dit stimuleerde OEM’s – Lenovo, Dell, enz. – om chips met NPU’s te gebruiken (of het nu Intel, AMD of Qualcomm is) om aan de specificatie te voldoen. Het resultaat is een verwachte golf van AI-capabele laptops in 2024, waarbij Microsoft tientallen modellen aankondigt en voorspelt dat er in 2024 meer dan 40 miljoen AI-pc’s worden verscheept pcworld.com.
- AMD’s korte Ryzen 8000 NPU (jan 2024): AMD kondigde een desktop-CPU aan met een indrukwekkende 39 TOPS NPU (een verrassing, aangezien desktopchips meestal zulke accelerators missen) pcworld.com. Hoewel dat specifieke product snel werd opgevolgd, liet het zien dat zelfs desktop-CPU’s AI-silicium kunnen hebben dat qua TOPS kan wedijveren met mobiele chips. Dit was ook de eerste desktop x86 CPU met een NPU (en was net iets eerder dan Intel Arrow Lake).
- Tesla FSD Beta v12 (eind 2023) demo’s: Elon Musk demonstreerde end-to-end AI-besturing (geen radar, alleen vision nets) draaiend op Tesla’s HW3/HW4 NPU’s. Opvallend was dat het neurale netwerk de auto bestuurde met videobeelden die volledig in real time op de boordcomputer werden verwerkt. Waarnemers merkten op dat FSD v12 de 2× 100 TOPS NPU’s volledig gebruikte voor vision, en Tesla liet doorschemeren dat toekomstige upgrades (HW5) met 2000 TOPS in ontwikkeling zijn om nog grotere modellen aan te kunnen (er gingen geruchten dat Tesla’s HW5 zou mikken op 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor onthuld (2024 GTC): NVIDIA onthulde details van zijn volgende automotive-chip, Drive Thor, die het equivalent bevat van 2× de AI-rekenkracht van zijn voorganger Orin – tot 2000 TOPS wanneer twee chips gekoppeld zijn ts2.tech. Belangrijk is dat Thor niet alleen rijtaken aankan, maar ook in-cabin AI (zoals spraak- en inzittendenmonitoring) op één platform, waarmee wordt getoond hoe NPU’s en GPU’s samen veel AI-functies in auto’s kunnen consolideren ts2.tech. Verschillende autofabrikanten (Xpeng, BYD, Volvo) kondigden aan Thor vanaf 2025 te zullen gebruiken ts2.tech.
- Oppo’s on-device MoE AI (okt 2024): Zoals genoemd, implementeerde Oppo een Mixture-of-Experts-model op de Find X8 telefoon grandviewresearch.com. Dit is nieuwswaardig omdat MoE-modellen meestal groot zijn en vanwege hun complexiteit als server-side werden beschouwd. Het draaien van MoE on-device suggereert nieuwe technieken in modelcompressie en een zeer capabele NPU (waarschijnlijk de MediaTek Dimensity 9400 in dat apparaat).
- Meta’s Ray-Ban AI-bril (2025): (Verwacht) Meta toonde prototypes van slimme brillen die kunnen herkennen wat je ziet en daar met je over kunnen praten – waarschijnlijk met behulp van een ingebouwde, op maat gemaakte accelerator (Meta ontwikkelt al aangepaste chips voor AR). Hoewel details schaars zijn, onderstreept het de drang om AI in zeer beperkte apparaten te stoppen (brillen, draadloze oordopjes), wat ultra-efficiënte NPU’s vereist.
- MLPerf Mobile Inference Benchmarks (2023–24): MLCommons publiceerde resultaten die de AI-prestaties van de nieuwste smartphones laten zien. Zo werden in MLPerf Inference v3.0 (okt 2023) Apple’s A16, Google Tensor G2 en Qualcomm Gen 2 allemaal getest op taken als beeldclassificatie en objectdetectie. De cijfers lieten zien dat Apple en Qualcomm elkaar afwisselden als winnaar, maar in het algemeen dat mobiele NPU’s het gat met sommige laptop/desktop-klasse accelerators voor deze taken aan het dichten zijn – en dat allemaal op batterij. Ook werden softwareverschillen belicht (bijv. Qualcomm’s AI SDK vs. Apple Core ML). De voortdurende verbeteringen elk jaar (dubbele cijfers in procenten) in deze benchmarks tonen de gezonde concurrentie en snelle vooruitgang in on-device AI aan.
- Strategische samenwerkingen: Er zijn veel samenwerkingen tussen sectoren ontstaan. Bijvoorbeeld, NVIDIA en MediaTek (mei 2023) kondigden een samenwerking aan om Nvidia GPU IP en software-ecosysteem in toekomstige smartphone- en automotive-chips van MediaTek te integreren, waarmee Nvidia’s AI-sterktes worden gecombineerd met MediaTek’s expertise in mobiele SoC’s. Ook werken bedrijven als Qualcomm samen met autofabrikanten (Mercedes, BMW) om Snapdragon Cockpit- en Ride-platforms (met NPU’s) in nieuwe voertuigen te plaatsen voor AI-functies. Arm werkt samen met Fujitsu en anderen aan nieuwe AI-chipontwerpen (zoals de AI-partitie van de Fugaku-supercomputer, al is dat high-end). Zelfs IBM en Samsung lieten nieuwe chiptechnologieën zien (zoals neuromorfisch rekenen en AI-geheugen) die NPU’s in de toekomst kunnen revolutioneren – nog niet beschikbaar, maar het toont dat de onderzoekspijplijn vol zit.
Al met al was het afgelopen jaar boordevol ontwikkelingen, wat onderstreept dat on-device AI een van de heetste gebieden in technologie is. Zoals een industrie-analist opmerkte: “deze on-device mogelijkheden openen geheel nieuwe horizonten… LLM’s op mobiel draaien helpt schaal en kosten aan te pakken, houdt data privé en zorgt dat AI werkt zelfs bij beperkte connectiviteit” futurumgroup.com. Dat vat goed samen waarom elk groot technologiebedrijf hierin investeert.
Expertinzichten: Wat Techleiders zeggen over On-Device AI
De opmars van NPU’s en TPU’s is niet alleen zichtbaar in producten, maar ook in de woorden van industrie-leiders. Hier zijn enkele opvallende citaten en perspectieven die het belang van on-device AI belichten:
- Cristiano Amon (CEO van Qualcomm): “Als AI op grote schaal gebruikt gaat worden, zie je het draaien op apparaten… Dit markeert een keerpunt in AI: geen latencyproblemen — gewoon naadloze, veilige, cloud-aanvullende on-device inference. De toekomst van AI is persoonlijk, en die begint op jouw apparaat.” (Bloomberg-interview en X-post, 2023) x.com. Amon voorziet een hybride AI-wereld waarin je telefoon/pc veel zelf afhandelt op zijn eigen NPU’s, en samenwerkt met de cloud wanneer nodig. Hij benadrukt dat AI lokaal laten draaien essentieel is om het alomtegenwoordig te maken (je kunt niet alles laten draaien op cloud-GPU’s – er zijn er niet genoeg in de wereld voor miljarden apparaten).
- Durga Malladi (SVP, Qualcomm): “We prijzen Meta’s benadering van open en verantwoorde AI… Om generatieve AI effectief op te schalen naar het grote publiek, zal AI zowel in de cloud als op apparaten aan de rand moeten draaien.” iconnect007.com Malladi zei dit in de context van het Meta-partnerschap. Het benadrukt een gedeelde visie: AI opschalen = cloud + edge die samenwerken. Er is nu het besef dat puur cloud-AI niet voldoende zal zijn (omwille van kosten, privacy en latency), dus edge-AI moet de belasting delen.
- Will Chen (Deputy GM, MediaTek): “De toekomst van AI overstijgt de cloud; het wordt aangedreven door edge computing, direct vanuit de palm van je hand… OPPO en MediaTek zijn pioniers op het gebied van on-device AI, en zorgen ervoor dat intelligente mogelijkheden krachtig, snel, privé, veilig en altijd toegankelijk zijn.” (MediaTek Exec Talk, 2025) mediatek.com. Dit citaat vat de waardepropositie van on-device AI mooi samen – je krijgt prestaties en toegankelijkheid plus privacy en veiligheid. Het laat ook zien dat zelfs bedrijven die traditioneel minder zichtbaar zijn in het Westen (zoals MediaTek) vooroplopen in AI-implementatie.
- Dr. Norman Wang (AI-hardware-expert, CEO van een chip-startup): “Bij AI-hardware geldt: hoe dichter je de rekenkracht bij de databron kunt plaatsen, hoe beter. Het draait om het verminderen van databeweging. Een NPU naast je beeldsensor betekent dat je geen megapixels naar de cloud hoeft te sturen – je haalt inzichten direct aan de rand. Dat is een gamechanger voor latency en energieverbruik.” (Panel op HotChips 2024 – geparafraseerd). Dit technische inzicht verklaart waarom NPU’s vaak op dezelfde chip zitten als andere componenten: bijvoorbeeld, op een telefoon-SoC kan de NPU direct cameradata van de ISP pakken. Databeweging minimaliseren is een groot deel van efficiënte AI, en edge-AI bereikt dat door verwerking bij de bron van de data te doen.
- Xinzhou Wu (VP Automotive, NVIDIA): “Versnelde computing heeft geleid tot transformerende doorbraken, waaronder generatieve AI, die autonomie en de transportsector opnieuw definieert.” (GTC 2024 Keynote) ts2.tech. Hij besprak hoe krachtige on-board computers (met NPU’s/GPU’s) auto’s niet alleen laten rijden, maar mogelijk ook geavanceerde AI zoals generatieve modellen kunnen integreren voor zaken als natuurlijke taalinterfaces in de auto of een beter begrip van situaties. Het onderstreept dat zelfs sectoren als automotive on-device AI niet alleen zien als kernfunctionaliteit, maar ook als middel om de gebruikerservaring te verbeteren (bijv. spraakassistenten in auto’s die gesprekken kunnen voeren dankzij on-board LLM’s).
- Sundar Pichai (CEO van Google): “De toekomst van AI draait om het voor iedereen nuttig maken. Dat betekent AI brengen naar alle apparaten die we gebruiken – telefoons, apparaten, auto’s – zodat het er is wanneer je het nodig hebt. We willen gebruikers ontmoeten waar ze zijn, met AI die in real-time werkt, ter plaatse, en privacy waarborgt.” (Geparafraseerd uit meerdere interviews/keynotes). Pichai spreekt vaak over “ambient AI” – het idee dat AI overal om ons heen zal zijn, ingebed in dingen. Google’s inzet op Tensor-chips in Pixels is een directe uitvoering van die filosofie.
- Industrie Statistieken: Analisten hebben de trend in cijfers waargenomen. Een rapport van Grand View Research in 2024 merkte op: “Recente vooruitgang in gespecialiseerde AI-chips en NPU’s heeft het mogelijk gemaakt om complexe AI-algoritmen direct op apparaten uit te voeren, wat de prestaties en energie-efficiëntie aanzienlijk verbetert… we naderen een cruciale overgang naar on-device AI.” grandviewresearch.com. Hetzelfde rapport voorspelt dat de on-device AI-markt de komende jaren zal exploderen, waarbij het hardwaresegment (NPU’s, enz.) in 2024 meer dan 60% van de omzet zal uitmaken en zal groeien naarmate vrijwel elk nieuw IoT- of mobiel apparaat AI-mogelijkheden krijgt grandviewresearch.com. Een andere prognose van IDC en anderen suggereert dat halverwege de jaren 2020, vrijwel alle high-end smartphones en de meerderheid van de mid-range toestellen AI-accelerators zullen hebben, en dat tegen 2030, miljarden edge AI-chips in gebruik zullen zijn, van consumentenelektronica tot slimme infrastructuur.
De consensus onder experts is dat on-device AI niet zomaar een leuke extra is – het is essentieel voor de volgende technologische golf. AI-pionier Andrew Ng heeft vaak gezegd dat “tiny AI” en edge AI intelligentie in elk object zullen brengen, vergelijkbaar met hoe elektriciteit of het internet dat in eerdere tijdperken deden. Door de beperkingen van alleen cloud-AI te overwinnen, maken NPU’s en TPU’s deze doorbraak mogelijk.
De uitdaging van vele standaarden (en pogingen tot vereenvoudiging)
Terwijl de hardware zich snel heeft ontwikkeld, loopt het ecosysteem van software en standaarden voor on-device AI nog achter. Ontwikkelaars worden geconfronteerd met een oerwoud aan tools en SDK’s wanneer ze NPUs willen benutten op verschillende apparaten nimbleedge.com. Belangrijke punten:- Elke platform heeft zijn eigen API of SDK: Apple heeft Core ML (met API’s om de Neural Engine aan te sturen), Android heeft Neural Networks API (NNAPI) (hoewel Google plannen heeft aangekondigd om dit verder te ontwikkelen na Android 14) threads.com, Qualcomm biedt de SNPE (Snapdragon Neural Processing Engine) of breder de Qualcomm AI Stack, NVIDIA heeft TensorRT en CUDA voor zijn apparaten, enzovoort. Er is ook ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI, en anderen. Deze verschillende SDK’s hebben vaak uiteenlopende mogelijkheden en vereisen aanpassingen aan modellen om optimaal te draaien op elk doelplatform. Zoals een on-device AI-rapport uit 2025 opmerkte, “Meerdere, incompatibele SDK’s (zoals Core ML, LiteRT, ONNX Runtime) met verschillende operator-ondersteuning en prestaties” dwingen ontwikkelaars tot extra werk nimbleedge.com.
- Fragmentatieproblemen: Een model dat perfect draait op een desktop-GPU werkt mogelijk niet direct op de NPU van een telefoon – operators (de wiskundige functies) worden mogelijk niet ondersteund of moeten anders gequantiseerd worden. Ontwikkelaars moeten soms aparte builds onderhouden of modellen handmatig optimaliseren voor elke hardware. Dit is de “low-level, gefragmenteerde ecosysteem” klacht nimbleedge.com. Debuggingtools zijn ook schaars – het profileren van een NPU om te zien waarom een model traag is, kan lastig zijn, vooral vergeleken met de uitgebreide tools voor CPU’s/ GPU’s nimbleedge.com.
- Standaardisatie-inspanningen: Om dit aan te pakken, zijn er een paar dingen gaande. ONNX (Open Neural Network Exchange) is opgekomen als een gemeenschappelijk formaat, zodat je een model kunt trainen in PyTorch of TensorFlow en het vervolgens kunt exporteren naar ONNX voor implementatie. Veel runtimes (inclusief on-device varianten zoals die van Qualcomm en MediaTek) ondersteunen het inladen van ONNX-modellen en zullen proberen deze te compileren voor de hardware. Dit helpt om lock-in bij één framework te voorkomen. Android NNAPI was een poging van Google om een universele interface te bieden – een app kan via NNAPI verzoeken “voer dit neuraal netwerk uit” en het besturingssysteem gebruikt dan de aanwezige accelerator (GPU, DSP of NPU) om het uit te voeren. NNAPI werd op veel Android-apparaten gebruikt, maar had beperkingen en niet alle leveranciers leverden robuuste drivers, waardoor Google een nieuwe strategie aankondigde (mogelijk met nadruk op WebNN of directe integraties met leveranciers) na 2024 threads.com. Op pc’s introduceerde Microsoft DirectML en Windows ML API’s om hardwareverschillen op vergelijkbare wijze te abstraheren (waardoor een ontwikkelaar dezelfde API kan gebruiken voor NVIDIA-, Intel-, AMD-NPU’s).
- Geünificeerde toolchains: Bedrijven bouwen ook toolchains om implementatie te stroomlijnen. We zagen Qualcomm’s AI Stack, die hun compiler (AI Model Efficiency Toolkit) en runtimes combineert zodat ontwikkelaars eenvoudiger hun Hexagon NPU kunnen aansturen iconnect007.com. NVIDIA’s TensorRT en gerelateerde SDK’s doen iets soortgelijks voor Jetson-apparaten, waarbij modellen worden geoptimaliseerd voor GPU+NVDLA. Intel OpenVINO is een andere – hiermee kun je een model optimaliseren voor Intel CPU’s, iGPU’s en VPU’s (NPU’s) voor edge-implementaties. Deze frameworks bevatten vaak modeloptimizers die modellen omzetten (pruning, quantizing) zodat ze op kleinere apparaten passen.
- Interoperabiliteit: Er is beweging richting het laten samenwerken van verschillende NPU’s met gemeenschappelijke frameworks. Zo heeft Google’s TensorFlow Lite hardware-delegates – één voor NNAPI (dekt Android-apparaten algemeen), één voor Core ML (iOS-apparaten), één voor Edge TPU, enzovoort. Het idee is dat je je TFLite-model schrijft en het zal worden uitgevoerd met de beste beschikbare accelerator via de delegate. Evenzo voegt PyTorch ondersteuning toe voor mobiele backends en zelfs dingen als Apple’s Metal Performance Shaders (om GPU/NPU op iOS te gebruiken). ONNX Runtime kan ook verschillende accelerators aansturen via plugins (bijvoorbeeld, je kunt NVIDIA’s TensorRT of ARM’s Compute Library of andere onder de motorkap inpluggen).
- Opkomende standaarden: De Khronos Group (bekend van OpenGL/Vulkan) werkte aan NNEF (Neural Network Exchange Format) en er wordt gesproken over de WebNN API voor browsers om lokale AI-versnelling te benutten. Geen van deze is echter universeel geadopteerd. Maar een interessante ontwikkeling: eind 2024 vormden verschillende bedrijven een alliantie om te pleiten voor “AI Hardware Common Layer” standaarden – in feite wordt onderzocht of er een gemeenschappelijke low-level interface voor NPU’s kan worden gemaakt (vergelijkbaar met wat OpenCL deed voor compute op GPU’s). Het is echter nog vroeg.
- Ontwikkelaarservaring: Het is een erkende kloof. Zoals de blog van NimbleEdge zei, “ontwikkelen voor on-device AI vereist momenteel het navigeren door een gefragmenteerd en laag-niveau ecosysteem… waardoor ontwikkelaars implementaties moeten afstemmen op elk hardwaredoel” nimbleedge.com. De industrie weet dat dit moet verbeteren om on-device AI echt mainstream te maken. We zullen mogelijk consolidatie zien – bijvoorbeeld als Google, Apple en Qualcomm het eens kunnen worden over een kernset van operaties en API (misschien wensdenken). Of waarschijnlijker, zullen frameworks zoals PyTorch en TensorFlow de complexiteit verbergen door al die leveranciersbibliotheken te integreren en de juiste te kiezen tijdens runtime.
Kortom, terwijl NPU’s/TPU’s de spierkracht leveren, werkt de community aan hersenvriendelijke tools om die spierkracht te benutten. Het goede nieuws is dat er, vergeleken met bijvoorbeeld vijf jaar geleden, veel meer opties zijn om een model on-device te implementeren zonder chip-expert te zijn. Maar er is ruimte voor groei – vooral op het gebied van debuggen, profileren en multi-hardware ondersteuning.
Markttrends en Toekomstperspectief
De proliferatie van NPU’s en TPU’s in apparaten drijft een grotere trend aan: AI overal. Hier zijn enkele trends op hoog niveau en wat je kunt verwachten voor de toekomst:
- Groei van de Edge AI-markt: Marktonderzoek wijst op explosieve groei in edge AI-hardware. De on-device AI-markt (inclusief chips en software) zal naar verwachting groeien met ~29% CAGR dit decennium nimbleedge.com. Een rapport waardeerde het op ~$233 miljard in 2024, oplopend tot meer dan $1,7 biljoen in 2032 nimbleedge.com – veel van die groei komt door edge-implementaties. Een andere analyse van IDTechEx voorspelde dat de AI-chipmarkt voor edge-apparaten $22 miljard zal bereiken in 2034, waarbij consumentenelektronica, automotive en industrie de grootste segmenten zijn idtechex.com. Dit impliceert honderden miljoenen apparaten per jaar die met NPU’s als standaardcomponent worden geleverd.
- Alomtegenwoordige adoptie: Net zoals tegenwoordig elke smartphone een GPU heeft (al is het een kleine), bereiken we het punt waarop elke nieuwe smartphone een AI-accelerator zal hebben. High-end telefoons hebben ze nu al; middenklasse telefoons zijn de volgende. Inderdaad, mid-range chips van Qualcomm (bijv. Snapdragon 7-serie) en MediaTek (Dimensity 700/800-serie) bevatten nu afgeslankte NPU’s zodat functies als AI-cameraverbeteringen en spraakassistenten ook op goedkopere toestellen werken. Buiten telefoons verspreiden NPU’s zich naar pc’s (standaard in nieuwe Windows-laptops van meerdere fabrikanten), auto’s (bijna alle nieuwe auto’s met ADAS Level 2+ hebben een soort AI-chip), en IoT. Zelfs apparaten zoals koelkasten en wasmachines beginnen “AI”-functies aan te prijzen (sommige daarvan zijn cloud-gebaseerd, maar sommige lokaal, zoals adaptieve cycli op basis van sensoren). De trend is duidelijk: als een apparaat een rekenchip heeft, zal het enige ML-versnelling op die chip hebben.
- Prestatieontwikkeling: De AI-prestaties op het apparaat verdubbelen ongeveer elke 1–2 jaar (combinatie van betere architectuur en overstap naar geavanceerde halfgeleidernodes zoals 5nm, 4nm, 3nm). Apple’s Neural Engine ging van 600 miljard bewerkingen/seconde in 2017 naar 35 biljoen in 2023 – bijna een 60× toename in zes jaar apple.fandom.com. De vlaggenschepen van Qualcomm sprongen op vergelijkbare wijze van een paar TOPS in 2018 naar meer dan 27 TOPS in 2023 (SD 8 Gen 3’s totale AI-rekenkracht, alle cores meegerekend). We kunnen verwachten dat mobiele NPU’s in 2025–2026 meer dan 100 TOPS leveren, en pc-accelerators zelfs nog meer, en deze cijfers worden mogelijk minder relevant naarmate de focus verschuift naar bruikbare prestaties op specifieke AI-taken (bijvoorbeeld: hoe groot een LLM kun je soepel draaien, of kun je 4K AI-video in realtime verwerken). De kloof tussen cloud en edge zal waarschijnlijk kleiner worden voor inferentietaken. Edge zal echter nog steeds achterlopen op de cloud voor de allernieuwste grote modellen vanwege beperkingen in stroomverbruik en geheugen.
- Verbeteringen in energie-efficiëntie: Een onderschat aspect is hoe efficiënt deze NPU’s worden. Tesla’s auto-NPU behaalt ~4,9 TOPS/Watt fuse.wikichip.org wat een paar jaar geleden toonaangevend was; nu claimen sommige mobiele NPU’s vergelijkbare of betere waarden. Efficiënte NPU’s betekenen een langere batterijduur, zelfs als we meer AI-functies gebruiken. Het betekent ook dat AI in kleine batterijgevoede apparaten mogelijk wordt (bijv. AI-gehoorapparaten, slimme sensoren op knoopcelbatterijen die anomaliedetectie uitvoeren). Het concept van TinyML – extreem kleinschalige machine learning op microcontrollers – is hier een uitbreiding van, waarbij vereenvoudigde “NPU’s” of geoptimaliseerde instructies op microcontrollers worden gebruikt om AI in sensoren uit te voeren. ARM’s Ethos-U NPU is gericht op dat segment (bijv. altijd-aan keyword spotting op een paar milliwatt). Verwacht meer AI-specifieke kleine chips die kunnen worden ingebed in sensoren, wearables en alledaagse objecten (Slimme tandenborstel? AI-gestuurde rookmelder? Het komt eraan).
- Hybride Cloud-Edge Oplossingen: In plaats van dat edge de cloud volledig vervangt, ligt de toekomst in samenwerking. Apparaten zullen lokaal doen wat ze kunnen en alleen contact zoeken voor wat ze niet aankunnen. Je AR-bril kan bijvoorbeeld lokale scèneherkenning uitvoeren om te weten waar je naar kijkt, maar als je een heel complexe vraag stelt (zoals een grondige uitleg), kan hij een cloud-AI raadplegen voor een krachtigere analyse en deze vervolgens presenteren. Deze hybride aanpak biedt de beste balans tussen reactievermogen en mogelijkheden. Bedrijven ontwerpen hier actief ervaringen omheen: Microsofts Copilot op Windows kan de lokale NPU gebruiken voor snelle spraak-naar-tekst en commando-analyse, maar gebruikt de cloud voor zwaarder werk (tenzij je misschien een krachtige PC-NPU hebt die het aankan). Idealiter zou de gebruiker niet moeten weten of zich druk moeten maken over welke wordt gebruikt, behalve dat alles sneller en privacyvriendelijker is. We zullen ook zien dat federated learning steeds gebruikelijker wordt – modellen trainen in de cloud maar met hulp van gegevens die versleuteld of verwerkt zijn op apparaten, en andersom.
- Opkomende Toepassingen: Naarmate NPU’s krachtiger worden, ontstaan er nieuwe toepassingen. Generatieve AI op het apparaat is een grote – stel je AI-beeldcreatie, AI-video-editing en persoonlijke chatbots voor, allemaal op je telefoon of laptop. In 2025 zien we mogelijk de eerste versies van offline persoonlijke assistenten die je e-mails kunnen samenvatten of berichten opstellen zonder cloud. Realtime vertaling van gesprekken (twee mensen die verschillende talen spreken, met telefoons of oordopjes die bijna realtime vertalen) zal enorm verbeteren door verwerking op het apparaat (geen vertraging en werkt overal). Gezondheids-AI kan op wearables draaien – je smartwatch die boezemfibrilleren detecteert of slaapapneupatronen analyseert met zijn NPU. Beveiliging: apparaten kunnen lokaal AI draaien om malware of phishing in realtime te detecteren (bijvoorbeeld antivirus die een AI-model op je apparaat gebruikt in plaats van cloudscans). En in voertuigen kan AI, naast het rijden, de in-car ervaring personaliseren (klimaatregeling aanpassen op basis van je waargenomen stemming via bestuurder-gezichtsherkenning, enz.). Veel van deze toepassingen vereisen snelle iteratie en privacy, wat goed past bij on-device.
- Concurrentie en Democratisering: De grote spelers blijven concurreren, wat goed is voor consumenten – verwacht marketing als “onze AI-chip doet X TOPS of maakt Y functie mogelijk die anderen niet kunnen.” Maar ook, de technologie wordt gedemocratiseerd – NPU’s zitten niet alleen in telefoons van $1000; ze komen naar telefoons van $300, $50 IoT-boards (Coral, Arduino Portenta, enz.), en open-source gemeenschappen maken kleine AI-modellen die hobbyisten kunnen draaien op een Raspberry Pi of microcontroller met een eenvoudige accelerator. Deze brede beschikbaarheid betekent dat innovatie overal vandaan kan komen. Een enkele ontwikkelaar kan nu een app bouwen die on-device AI gebruikt om iets slims te doen zonder een serverpark nodig te hebben – de drempel voor AI-gedreven software wordt zo verlaagd.
- Toekomstige technologie: Als we verder vooruitkijken, zou onderzoek naar neuromorfe computing (door het brein geïnspireerde chips zoals Intel Loihi) en analoge AI-chips op een dag NPUs kunnen revolutioneren, met efficiëntiewinsten van een geheel nieuwe orde. Bedrijven zoals IBM en BrainChip werken hieraan. Als ze slagen, zou een neuromorfe chip het mogelijk kunnen maken om complexe AI continu te laten draaien op kleine batterijapparaten. We zouden ook 3D-stapeling en nieuwe geheugentechnologie in NPUs kunnen zien om geheugenknelpunten te overwinnen (sommige chips van 2025 en later gebruiken mogelijk HBM-geheugen of nieuw niet-vluchtig geheugen op de chip om AI-cores sneller te voeden). Verwacht ook meer specialisatie binnen AI-chips: bijvoorbeeld aparte accelerators voor visie, voor spraak, voor aanbevelingsmodellen, enzovoort, elk afgestemd op hun domein. Sommige SoC’s hebben al dubbele NPUs (één “grote” NPU voor zware taken, één micro-NPU in de sensorhub voor altijd-aan lichte taken).
Samenvattend is de koers duidelijk: NPUs en TPUs worden net zo standaard en onmisbaar als CPU’s in moderne computers. Ze stellen apparaten in staat slimmer, responsiever en zorgvuldiger met onze privacy om te gaan. Zoals één rapport stelde, “zijn krachtige verwerkingsunits op apparaten grotendeels verantwoordelijk voor het uitvoeren van complexe AI-functies zoals beeldherkenning, NLP en realtime besluitvorming”, en dit zorgt voor slimmere, responsievere technologie in alle sectoren grandviewresearch.com.
We betreden een tijdperk waarin je gewoon zult verwachten dat je apparaat je behoeften begrijpt en anticipeert – je telefoon bewerkt foto’s en schrijft berichten in jouw stijl, je auto voorkomt ongelukken en vermaakt je met AI, je huisapparaten leren je voorkeuren – allemaal mogelijk gemaakt door de stille neurale processors erin. AI op het apparaat is geen sciencefiction; het is er nu en verbetert snel. De combinatie van NPUs en TPUs met onze dagelijkse apparaten maakt AI persoonlijk, alomtegenwoordig en privé – en brengt de kracht van cloud-intelligentie naar de aarde (of in elk geval, naar je broekzak).
Bronnen:
- Bigelow, Stephen. “GPU’s vs. TPU’s vs. NPU’s: AI-hardwareopties vergeleken.” TechTarget, 27 aug. 2024 techtarget.com. Beschrijft de rollen en verschillen van CPU’s, GPU’s, TPU’s en NPU’s in AI-werkbelastingen.
- Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Uitleg over het TPU-ontwerp van Google (systolische arrays, lage precisie) en NPU-gebruik in mobiele apparaten.
- TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. Merkt op dat TPU’s gespecialiseerd zijn in matrixwiskunde en NPU’s hersenneurale netwerken nabootsen voor versnelling techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). “De stand van zaken van On-Device AI: Wat ontbreekt er in het huidige landschap.” 26 juni 2025 nimbleedge.com. Geeft de voordelen van on-device AI weer (latentie, offline, privacy, kosten) en uitdagingen zoals gefragmenteerde SDK’s.
- Qualcomm (OnQ Blog). “Bloomberg en Cristiano Amon praten over on-device AI.” Juli 2023 x.com. CEO van Qualcomm over het belang van on-device inferentie voor toekomstige AI (tweetquote over keerpunt in AI).
- MediaTek Blog (Exec Talk door Will Chen). “De toekomst van AI-mobiele ervaringen vormgeven.” 3 maart 2025 mediatek.com. MediaTek en Oppo samenwerking aan NPU’s; citaat over edge computing in je hand en voorbeeld van AI-fotoremasters met de NPU.
- I-Connect007 / Qualcomm Pers. “Qualcomm werkt samen met Meta om on-device AI mogelijk te maken (Llama 2).” 24 juli 2023 iconnect007.com. Persbericht met citaat van Qualcomm SVP Durga Malladi over het opschalen van generatieve AI via edge-apparaten en cloud.
- PCWorld (Mark Hachman). “Intel’s Core Ultra CPU’s houden AI simpel….” 24 oktober 2024 pcworld.com. Bespreekt Intel Arrow Lake met Meteor Lake’s NPU (13 TOPS) en noemt AMD’s Ryzen 8000 39 TOPS NPU en Microsoft’s 40 TOPS “Copilot”-vereiste.
- Ts2 (Tech Empowerment). “Zelfrijdende Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” sep. 2023 ts2.tech. Biedt TOPS-schattingen: Tesla HW3 vs HW4 (72→100 TOPS per chip) ts2.tech, NVIDIA Thor ~1000 TOPS (of 2000 met dual) ts2.tech en citeert NVIDIA VP over generatieve AI in voertuigen ts2.tech.
- Grand View Research. “On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Meldt de opkomst van gespecialiseerde AI-chips (NPU’s) die complexe AI op apparaten mogelijk maken, en dat hardware in 2024 goed was voor 60,4% van de on-device AI-markt, gedreven door smartphones, IoT, NPU’s, enz.
- Google Blog. “Google Tensor G3: Pixel 8’s AI-first processor.” okt. 2023 blog.google. Beschrijft de upgrades van Tensor G3 voor generatieve AI op het apparaat, nieuw TPU-ontwerp, en on-device TTS-model gelijk aan datacenterkwaliteit.
- Techspot. “Snapdragon 8 Gen 3 brengt generatieve AI naar smartphones.” okt. 2023 futurumgroup.com. Futurum Group-analyse met details over de AI-engine van SD8Gen3: 10B param LLM op het apparaat, 98% snellere NPU, ’s werelds snelste Stable Diffusion op telefoon, enz., plus voordelen van on-device LLM’s voor kosten/privacy/offline futurumgroup.com.
- Apple Wiki (Fandom). “Neural Engine.” Bijgewerkt 2025 apple.fandom.com. Neural Engine-versiegeschiedenis met A17 Pro 35 TOPS in 2023, enz. Toont evolutie van 0,6 TOPS (A11) naar 35 TOPS (A17) apple.fandom.com en M4 op 38 TOPS apple.fandom.com.
- EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Voorbeeld van beveiligingscamera met ingebouwde NPU die AI-verwerking op de camera en lokale opslag mogelijk maakt (geen NVR nodig).
- EmbedL. “Amazon brengt AZ1 Neural Edge Processor uit.” Okt. 2020 embedl.com. Bespreekt Amazons AZ1 edge NPU voor Echo-apparaten, gebouwd met MediaTek, ontworpen voor spraakherkenning op het apparaat om latentie en afhankelijkheid van de cloud te verminderen embedl.com.