NPUs vs. TPUs: Wie On-Device-KI deine Geräte 2025 auf ein neues Level hebt

September 6, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple startete 2017 mit der Neural Engine des iPhone A11 die On-Device-KI und ermöglichte Face ID und Animoji mit bis zu 600 Milliarden Operationen pro Sekunde.
  • 2023 lieferte die 16-Kern-Neural Engine des iPhone A17 Pro etwa 35 TOPS und ermöglichte KI-gestützte Sprach-, Foto- und Übersetzungsfunktionen direkt auf dem Gerät.
  • Google Pixel 8 (2023) nutzt die Tensor G3 NPU, um KI-Modelle wie Palm 2 für Offline-Übersetzung und Zusammenfassungen direkt auf dem Gerät auszuführen.
  • Googles Edge TPU auf dem Coral Dev Board liefert 4 TOPS Bildverarbeitung bei nur wenigen Watt.
  • Teslas Full Self-Driving-Hardware verfügt über zwei NPUs: HW3 (2019) bot etwa 144 TOPS, und HW4 (2023) etwa 200–250 TOPS.
  • NVIDIA Drive Thor (vorgestellt 2024) kann bis zu 2000 TOPS erreichen, wenn zwei Chips für KI-Anwendungen im Automobilbereich gekoppelt werden.
  • Qualcomms Snapdragon 8 Gen 3 (2023) Hexagon NPU ist 98 % schneller als Gen 2, kann LLMs mit bis zu 10 Milliarden Parametern direkt auf dem Gerät ausführen und erzielte in Demonstrationen die weltweit schnellste mobile Stable Diffusion.
  • MediaTeks Dimensity 9400 (2024) mit einer sechsten Generation APU treibt die KI-Fotorestauration im Oppo Find X8 an und signalisiert, dass NPUs bis 2025 auch in Fernseher, IoT und Autos Einzug halten.
  • Intels Meteor Lake, die 14. Core-Generation (veröffentlicht 2023; 2024 als Core Ultra umbenannt), enthält eine integrierte NPU mit etwa 8–12 TOPS, wobei Arrow Lake etwa 13 TOPS und Lunar Lake angeblich rund 45 TOPS erreicht.
  • AMDs Ryzen 7040 Phoenix (2023) führte die Ryzen AI Engine mit bis zu 10 TOPS ein, während Ryzen 8000 Desktop (Anfang 2024) 39 TOPS bot, bevor AMD die NPUs in dieser Generation pausierte.

Kurz gesagt: Dein Smartphone, deine Kamera und sogar dein Auto bekommen eingebaute KI-Gehirne – ganz ohne Cloud. Spezielle Chips namens NPUs (Neural Processing Units) und TPUs (Tensor Processing Units) verwandeln Alltagsgeräte in intelligente Assistenten, die Gesichtserkennung, Sprachbefehle, Echtzeitübersetzung, autonomes Fahren und mehr ermöglichen. Diese On-Device-KI-Revolution verspricht blitzschnelle Reaktionen, besseren Datenschutz und neue Funktionen, die früher nur mit Supercomputern denkbar waren. In diesem Bericht entmystifizieren wir NPUs und TPUs, zeigen die Unterschiede zu CPUs/GPUs und erklären, warum Tech-Giganten wie Apple, Google, Qualcomm und Intel darum wetteifern, diese „KI-Gehirne“ in alles von Handys bis Autos einzubauen. Außerdem beleuchten wir die neuesten Durchbrüche 2024–2025, Experteneinschätzungen, Industriestandards und die Zukunft der On-Device-KI.

Was sind NPUs und TPUs? (Lernen Sie das KI-Gehirn Ihres Geräts kennen)

Neuronale Verarbeitungseinheiten (NPUs) sind spezialisierte Prozessoren, die entwickelt wurden, um künstliche neuronale Netzwerke zu beschleunigen – die Algorithmen, die moderne KI-Aufgaben wie Bilderkennung, Sprachverarbeitung und mehr antreiben. Im Gegensatz zu universellen CPUs sind NPUs anwendungsspezifische integrierte Schaltkreise (ASICs), die für Matrixberechnungen und die hohen parallelen Arbeitslasten neuronaler Netzwerke optimiert sind techtarget.com. Eine NPU „ahmt die neuronalen Netzwerke eines menschlichen Gehirns nach, um KI-Aufgaben zu beschleunigen“ und fungiert im Wesentlichen als Silizium-Gehirn in Ihrem Gerät techtarget.com. NPUs sind besonders effizient beim Ausführen von Inferenz (Vorhersagen) für KI-Modelle direkt auf dem Gerät und verwenden dabei oft eine geringere numerische Genauigkeit (z. B. 8-Bit-Ganzzahlen), um Energie zu sparen und dennoch eine hohe Leistung zu liefern backblaze.com. Der Begriff „NPU“ wird manchmal allgemein für jeden KI-Beschleuniger verwendet, bezieht sich aber häufiger auf solche in mobilen und Edge-Geräten backblaze.com. Zum Beispiel ist Apples „Neural Engine“ in iPhones und Samsungs mobiler KI-Engine eine NPU, die in ihre System-on-Chip (SoC)-Designs integriert ist.

Tensor Processing Units (TPUs) hingegen wurden von Google entwickelt als spezielle Chips zur Beschleunigung des maschinellen Lernens, insbesondere für das TensorFlow-Framework. Eine TPU ist eine Art ASIC, die für die Tensoroperationen (Matrixmultiplikationen usw.), die im Zentrum des Trainings und der Inferenz von neuronalen Netzen stehen, optimiert ist backblaze.com. Google setzte TPUs erstmals 2015 in seinen Rechenzentren ein, um Berechnungen für neuronale Netze zu beschleunigen, und stellte sie später über Google Cloud zur Verfügung backblaze.com. TPUs verwenden eine spezielle Architektur namens systolisches Array, bei der viele kleine Verarbeitungseinheiten in einem Raster verbunden sind, das Daten durch eine Kette von Matrix-Multiplikationseinheiten pumpt backblaze.com. Dieses Design ermöglicht eine extrem hohe Durchsatzrate bei Deep-Learning-Aufgaben. Googles TPUs nehmen bewusst eine geringere Genauigkeit in Kauf (sie verwenden 8-Bit- oder 16-Bit-Mathematik statt 32-Bit-Floats), um enorme Geschwindigkeits- und Effizienzgewinne zu erzielen backblaze.com, da viele KI-Aufgaben keine hohe Präzision benötigen, um genaue Ergebnisse zu liefern. Während sich „TPU“ technisch gesehen auf Googles Chips bezieht, wird der Begriff manchmal auch allgemeiner für jeden „Tensor“-Beschleuniger verwendet. Bemerkenswert ist, dass Google auch Edge TPU-Coprocessoren für KI-Anwendungen direkt auf dem Gerät herstellt, wie zum Beispiel beim Coral Dev Board, das 4 Billionen Operationen pro Sekunde bei nur wenigen Watt liefert coral.ai.

Kurz gesagt: NPUs und TPUs sind beides Silizium-Beschleuniger für KI, aber NPUs sind üblicherweise in mobilen/Edge-Geräten für effiziente Inferenz direkt auf dem Gerät integriert, während TPUs (im engeren Sinne) Hochleistungs-Chips (und mittlerweile Module) hauptsächlich von Google sind, ursprünglich für Cloud-/Rechenzentrum-Training und Inferenz-Aufgaben. Beide weichen von traditionellen CPU-/GPU-Designs ab, um parallele mathematische Operationen für neuronale Netze zu priorisieren. Wie ein Technikredakteur es ausdrückte: „TPUs treiben die Spezialisierung weiter voran, indem sie sich auf Tensoroperationen konzentrieren, um höhere Geschwindigkeiten und Energieeffizienz zu erreichen… NPUs sind in KI-fähigen Geräten wie Smartphones und IoT-Gadgets weit verbreitet“ backblaze.com.

Worin unterscheiden sich NPUs und TPUs von CPUs und GPUs?

Traditionelle CPUs (Central Processing Units) sind das „Gehirn“ der allgemeinen Datenverarbeitung – sie sind auf Flexibilität optimiert, um alle möglichen Aufgaben zu bewältigen, vom Betriebssystem bis zum Surfen im Internet. Sie verfügen über einige leistungsstarke Kerne, die bei sequentieller Logik und unterschiedlichen Anweisungen glänzen, aber sie sind nicht besonders gut bei der hochgradig parallelen Mathematik, die für Deep Learning erforderlich ist techtarget.com. Wenn eine CPU ein großes neuronales Netzwerk verarbeiten soll, wird sie oft zum Engpass, da sie versucht, Millionen von Multiplikationen und Additionen nacheinander oder in begrenzten parallelen Chargen auszuführen. Dies führt zu hoher Latenz und Stromverbrauch (dem sogenannten Von-Neumann-Engpass, bei dem viele Daten zwischen CPU und Speicher hin- und hergeschoben werden) backblaze.com. CPUs können einige KI-Aufgaben übernehmen (insbesondere einfachere oder kleinere Modelle oder Steuerlogik für KI-Programme techtarget.com), aber in der Regel tun sie sich schwer, effizient auf die Anforderungen der modernen KI nach massiv paralleler Linearalgebra zu skalieren.

GPUs (Graphics Processing Units) brachten das parallele Rechnen in den Vordergrund. Ursprünglich wurden sie entwickelt, um Bilder zu rendern, indem viele einfache Operationen parallel auf Pixeln und Vertices ausgeführt werden. Es stellte sich heraus, dass GPUs auch sehr gut für das Training neuronaler Netzwerke geeignet sind, da auch hier dieselben mathematischen Operationen (Skalarprodukte usw.) gleichzeitig auf viele Daten angewendet werden techtarget.com. Eine GPU enthält Hunderte oder Tausende kleiner Kerne, die Mathematik parallel ausführen können. Das macht GPUs hervorragend für groß angelegte KI, und in den 2010er Jahren wurden GPUs (insbesondere die von NVIDIA mit CUDA-Software) zum Arbeitspferd der Deep-Learning-Forschung. Allerdings sind GPUs immer noch einigermaßen allgemein gehalten – sie müssen verschiedene Grafikaufgaben bewältigen und flexibel bleiben, sodass sie nicht zu 100 % für neuronale Netze optimiert sind. Sie verbrauchen außerdem viel Strom und erfordern eine sorgfältige Programmierung, um sie voll auszunutzen (sie mögen keinen komplexen, verzweigten Code und sind am besten bei klaren, datenparallelen Aufgaben) techtarget.com.

NPUs und TPUs treiben die Spezialisierung noch weiter voran. Sie sind speziell für nur die Arbeitslast neuronaler Netze entwickelt. Das bedeutet, dass ihre Architektur alles entfernen kann, was für KI-Mathematik nicht benötigt wird, und mehr Silizium für Dinge wie Matrix-Multiplikationseinheiten, Akkumulations-Addierer und On-Chip-Speicher zur schnellen Übertragung von Daten in und aus diesen Mathe-Einheiten bereitstellen kann. Eine Google Cloud TPU ist zum Beispiel im Wesentlichen ein riesiges 2D-Array von MAC- (Multiply-Accumulate-) Einheiten mit einer ausgeklügelten Datenflussarchitektur (dem systolischen Array), die sie mit Operanden mit hoher Geschwindigkeit versorgt backblaze.com. Sie verzichtet auf Caches, spekulative Ausführung oder andere CPU-Funktionen – sie ist für Matrixmathematik optimiert. NPUs in mobilen Chips integrieren ähnlich dedizierte neural engine cores neben der CPU/GPU. Diese Kerne verwenden oft Arithmetik mit niedriger Genauigkeit (z. B. 8-Bit-Ganzzahlen wie TPUs) und führen hochgradig parallele „Schicht-für-Schicht“-Berechnungen für Dinge wie Convolutional Neural Networks durch. Eine NPU kann eine „fusionierte“ Architektur verwenden, die Skalar-, Vektor- und Tensoreinheiten kombiniert (Qualcomms Hexagon NPU macht das), um verschiedene neuronale Netzwerkoperationen effizient zu verarbeiten futurumgroup.com.

Die wichtigsten Unterschiede lassen sich zusammenfassen als:

  • Befehlssatz und Flexibilität: CPUs haben einen breiten, allgemeinen Befehlssatz (können viele Dinge tun, aber nicht alles gleichzeitig). GPUs haben einen eingeschränkteren, aber immer noch flexiblen Befehlssatz, der auf Durchsatz bei mathematischen Operationen optimiert ist. NPUs/TPUs haben einen sehr engen Befehlssatz – im Wesentlichen nur die für neuronale Netze benötigten Operationen (Matrixmultiplikation, Faltung, Aktivierungsfunktionen), oft als feste Pipelines oder Arrays implementiert fuse.wikichip.org. Zum Beispiel hat die NPU für Teslas autonomes Fahren nur 8 Befehle in ihrer ISA, die sich auf DMA-Lese-/Schreibvorgänge und Skalarprodukte konzentrieren fuse.wikichip.org.
  • Parallelität und Kerne: CPUs = wenige leistungsstarke Kerne; GPUs = Tausende einfache Kerne; NPUs/TPUs = gewissermaßen Zehntausende sehr einfacher ALUs (die MAC-Einheiten), die in Matrix- oder neuronaler Netzwerkstruktur angeordnet sind. Ein einzelner NPU-Chip kann Zehntausende Billionen Operationen pro Sekunde ausführen – Teslas Auto-NPU läuft mit 2 GHz und 9.216 MACs und erreicht ~37 Tera-Operationen pro Sekunde (TOPS) pro Kern, und jeder FSD-Chip hat zwei NPUs für ~74 TOPS fuse.wikichip.org, ts2.tech. Im Vergleich dazu erreicht eine High-End-CPU bei KI-Aufgaben nur einige Hundert Milliarden Operationen/Sekunde, und eine GPU vielleicht einige TOPS, wenn keine speziellen Tensor-Kerne verwendet werden.
  • Speicherarchitektur: NPUs/TPUs setzen auf schnellen On-Chip-Speicher und Daten-Streaming. TPUs umgehen den klassischen Speicher-Engpass durch systolischen Datenfluss – jede kleine Einheit gibt Daten im Gleichschritt an die nächste weiter und minimiert so Lese-/Schreibzugriffe auf den Hauptspeicher backblaze.com. Viele NPUs enthalten einen Block SRAM auf dem Chip für Gewichte/Aktivierungen (z. B. haben Teslas NPU-Kerne jeweils 32 MB SRAM, um die Neuronendaten lokal zu halten) semianalysis.com. Das steht im Gegensatz zu GPUs/CPUs, die stark auf externes DRAM setzen.
  • Genauigkeit: CPUs/GPUs rechnen meist mit 32-Bit- oder 64-Bit-Floats. KI-Beschleuniger verwenden oft 16-Bit- oder 8-Bit-Integer (und einige erforschen inzwischen sogar 4-Bit oder 2-Bit), da neuronale Netze geringere Genauigkeit tolerieren. Googles TPU-Entwickler stellten ausdrücklich fest, dass man für Inferenz keine volle Float-Genauigkeit benötigt – vergleichbar mit „Man muss nicht wissen, wie viele Regentropfen genau fallen, um zu wissen, dass es stark regnet“ backblaze.com. Dadurch können NPUs/TPUs mehr Operationen parallel ausführen und benötigen weniger Energie pro Operation.
  • Anwendungsfälle: GPUs werden weiterhin häufig für das Training großer Modelle und für flexible Berechnungen eingesetzt (und sind in Rechenzentren und High-End-PCs verbreitet). TPUs (Cloud) zielen auf großskaliges Training und Inferenz im Google-Ökosystem ab. NPUs finden sich häufiger in Edge-Geräten – Smartphones, Kameras, Haushaltsgeräten – und führen Inferenz auf bereits trainierten Modellen aus. Sie glänzen bei Aufgaben wie der Anwendung eines Vision-Modells auf einen Kameraframe in Echtzeit oder dem kontinuierlichen, stromsparenden Ausführen einer Sprachassistenten-Weckwort-Erkennung. Wie TechTarget feststellte: „GPUs werden in vielen ML-Projekten wegen Verfügbarkeit und Kosteneffizienz gewählt; TPUs sind meist schneller und weniger präzise, werden von Unternehmen in der Google Cloud genutzt; NPUs sind häufig in Edge-/Mobilgeräten für deutlich schnellere lokale Verarbeitung zu finden“ techtarget.com.

Zusammengefasst: CPUs = vielseitige Organisatoren, GPUs = parallele Arbeitstiere, TPUs/NPUs = Spezialisten für neuronale Netze. Alle können zusammenarbeiten – tatsächlich koordiniert in einem modernen, KI-fähigen Gerät die CPU oft die Aufgaben und lagert die rechenintensiven Teile bei Bedarf an die NPU/GPU aus techtarget.com. Dieser Trend zur Spezialisierung existiert, weil eine Einheitslösung in der Computertechnik nicht mehr ausreicht: Wie ein Redakteur treffend bemerkte, „für jeden Bedarf Millionen weiterer Transistoren hinzuzufügen, war nicht effizient … Designer setzten auf speziell entwickelte Prozessoren“ techtarget.com. Speziell entwickelte NPUs und TPUs beschleunigen KI-Berechnungen drastisch und halten dabei den Stromverbrauch niedrig – ein entscheidendes Gleichgewicht sowohl für batteriebetriebene Geräte als auch für Hochleistungsserver.

Warum On-Device-KI? (Edge vs. Cloud)

Warum sollte man KI überhaupt auf dem eigenen Handy oder im Auto ausführen – warum nicht einfach alles in die Cloud schicken, wo riesige Server (mit GPUs/TPUs) die schwere Arbeit übernehmen? Es gibt mehrere überzeugende Gründe für den Wandel hin zu On-Device-KI, und sie lassen sich auf Geschwindigkeit, Datenschutz, Kosten und Zuverlässigkeit zusammenfassen nimbleedge.com:

  • Sofortige Reaktion (geringe Latenz): Eine NPU im Gerät kann Daten in Echtzeit verarbeiten, ohne die Verzögerung durch das Hin- und Herschicken der Daten an einen Cloud-Server. Das ist entscheidend für interaktive oder sicherheitskritische KI-Aufgaben. Zum Beispiel kann das autonome Fahrsystem eines Autos mit eingebauten NPUs einen Fußgänger erkennen und sofort bremsen, innerhalb von Millisekunden, statt auf eine Cloud-Berechnung zu warten. Eine smarte Kamera mit NPU kann einen Eindringling in dem Moment erkennen, in dem er ins Bild tritt. Auf deinem Handy bedeutet On-Device-KI, dass dein Sprachassistent schneller und natürlicher reagieren kann, weil er nicht ständig „nach Hause telefoniert“. Geringere Latenz ermöglicht echte Echtzeit-Entscheidungen und ein flüssigeres Nutzererlebnis nimbleedge.com.
  • Datenschutz und Datensicherheit: KI auf dem Gerät hält Ihre Daten lokal. Anstatt Ihr Mikrofon-Audio oder Kamerabild zur Analyse in die Cloud zu streamen, erfolgt die Verarbeitung direkt auf dem Gerät. Dadurch wird die Exposition sensibler Daten erheblich reduziert. Moderne Smartphones führen beispielsweise die Gesichtserkennung (Face ID usw.) vollständig auf dem Gerät durch – die biometrische Karte Ihres Gesichts verlässt niemals den sicheren Bereich des Telefons. Ebenso kann ein KI-Hörgerät oder ein Gesundheits-Wearable biometrische Daten analysieren, ohne sie auf einen Server hochzuladen, was die Privatsphäre schützt. Angesichts wachsender Nutzerbedenken und Vorschriften zur Datensouveränität ist dies ein großer Vorteil. Wie ein Edge-AI-Blog es ausdrückte, bedeutet die Verarbeitung auf dem Gerät, dass „Nutzerdaten nicht in die Cloud übertragen werden müssen“, was einen grundlegenden Datenschutzvorteil bietet nimbleedge.com. (Natürlich ist Datenschutz nicht automatisch – Entwickler müssen gespeicherte Daten weiterhin sorgfältig behandeln – aber es ist leichter, Geräten zu vertrauen, die Ihre Informationen nicht ständig nach außen senden.) Tech-CEOs betonen diesen Aspekt häufig. Qualcomms CEO Cristiano Amon bemerkte, dass die Kombination aus Cloud- und On-Device-Intelligenz die Personalisierung verbessern kann, während die Daten sicher auf dem Gerät bleiben – er nennt es eine „hybride Zukunft“, in der On-Device-KI mit Cloud-KI für das Beste aus beiden Welten zusammenarbeitet moomoo.com.
  • Offline-Verfügbarkeit & Zuverlässigkeit: Geräte mit NPUs/TPUs sind nicht auf Konnektivität angewiesen. Sie funktionieren in U-Bahn-Tunneln, im Flugzeug, in abgelegenen ländlichen Gebieten oder bei Netzausfällen. Das ist ein enormer Vorteil für die Zuverlässigkeit. Eine Sprach-Diktierfunktion auf dem Gerät funktioniert auch ohne Signal. Eine Drohne mit KI-gestützter Bordkamera kann Hindernissen auch außerhalb des Netzes ausweichen. Diese Unabhängigkeit ist auch für systemkritische Anwendungen entscheidend: z. B. bei Katastrophenhilferobotern oder medizinischen Geräten, die nicht von einer ständigen Internetverbindung ausgehen können. „Offline-Funktionalität“ ist ein zentraler Vorteil von On-Device-KI nimbleedge.com – sie stellt sicher, dass die KI-Funktion immer und überall verfügbar ist, wenn sie benötigt wird.
  • Kosteneffizienz im großen Maßstab: Das ständige Senden von Rohdaten in die Cloud zur KI-Verarbeitung kann sehr teuer (Cloud-Computing ist nicht kostenlos) und bandbreitenintensiv sein. Da KI-Funktionen immer mehr zunehmen, müssten Unternehmen enorme Cloud-Verarbeitungskosten tragen, wenn jede kleine Aufgabe einen Server beansprucht. Durch mehr Verarbeitung am Rand (Edge) werden Cloud-Server und Netzwerke entlastet. Es ist oft effizienter, ein paar Dollar mehr für einen besseren Chip im Gerät auszugeben, als über die Lebensdauer des Geräts Gigabytes an Cloud-Computing zu bezahlen. Eine Branchenanalyse von Futurum stellte fest, dass die Verarbeitung auf dem Gerät dazu beiträgt, die Skalierungs- und Kostenprobleme generativer KI zu lösen – sie „verteilt“ die Last, sodass Rechenzentren nicht überlastet werden (und Nutzer/Entwickler nicht Unsummen für Cloud-GPU-Zeit zahlen müssen) futurumgroup.com.
  • Personalisierung & Kontext: Ein neuer Grund: KI auf dem Gerät kann aus und mit dem lokalen Kontext lernen und sich anpassen, wie es Cloud-KI möglicherweise nicht kann. Ihr Smartphone kann ein kleines lokales Modell pflegen, das Ihren Schreibstil für eine bessere Autokorrektur lernt, ohne dieses persönliche Sprachmodell in die Cloud zu übertragen. Geräte können Daten aus mehreren Sensoren in Echtzeit zusammenführen (etwas, das lokal einfacher ist, als viele Sensor-Feeds in die Cloud zu streamen). Dies ermöglicht ein personalisierteres und kontextbewussteres Erlebnis. Einige Funktionen wie föderiertes Lernen erlauben es sogar, dass Geräte KI-Modelle gemeinsam verbessern, ohne Rohdaten hochzuladen (es werden nur kleine Gewichtsanpassungen zurückgesendet).
  • Regulatorik und Datensouveränität: Gesetze wie die europäische DSGVO und verschiedene Anforderungen an die Datenlokalisierung verlangen zunehmend, dass bestimmte Daten (insbesondere persönliche oder sensible Daten) nicht ohne Zustimmung ins Ausland oder an Dritte gesendet werden. KI auf dem Gerät bietet eine Möglichkeit, dies einzuhalten, indem die Daten direkt an der Quelle verarbeitet werden. Zum Beispiel können KI-Tools für medizinische Bildgebung auf Krankenhaus-Hardware (Edge-Server mit NPUs) laufen, sodass Patientendaten das Gebäude nie verlassen und Datenschutzvorgaben eingehalten werden. Der NimbleEdge-Bericht 2025 weist darauf hin, dass Regierungen aus Gründen der Souveränität und Compliance auf mehr lokale Inferenz drängen nimbleedge.com.

All diese Faktoren treiben einen Paradigmenwechsel voran: Statt „Cloud-first“ für KI zu denken, entwerfen Unternehmen KI-Funktionen jetzt, wann immer möglich, „Device-first“. Wie Qualcomms KI-Vizepräsident Durga Malladi zusammenfasste: „Um generative KI effektiv in den Mainstream zu bringen, muss KI sowohl in der Cloud als auch auf Geräten am Edge laufen… wie Smartphones, Laptops, Fahrzeuge und IoT-Geräte“ iconnect007.com. Wir bewegen uns auf eine hybride KI-Welt zu, in der schweres Training und große Modelle in der Cloud bleiben, aber viele Inferenzaufgaben und persönliche KI-Erlebnisse lokal auf den NPUs/TPUs in Ihren Händen und Haushalten laufen. Tatsächlich nennt Amon dies einen „Wendepunkt der KI“ – On-Device-Inferenz ohne Latenz, bei der „die Zukunft der KI persönlich ist“, weil sie genau dort läuft, wo Sie sind x.com.

On-Device-KI in Aktion: Von Smartphones bis zu selbstfahrenden Autos

Spezialisierte KI-Chips sind bereits in einer Vielzahl von Geräten um Sie herum eingebettet und machen diese oft unsichtbar intelligenter. Hier sind einige wichtige Bereiche, in denen NPUs und Edge-TPUs eingesetzt werden:

  • Smartphones & Tablets: Fast alle modernen Flaggschiff-Smartphones (und sogar viele Mittelklassegeräte) verfügen mittlerweile über eine NPU oder eine dedizierte KI-Engine. Apple startete den Trend 2017 mit der Apple Neural Engine im A11-Chip des iPhones, die Face ID und Animoji direkt auf dem Gerät ermöglichte, indem sie bis zu 600 Milliarden Operationen pro Sekunde durchführte apple.fandom.com. Heute verfügt Apples A17 Pro Chip (2023) über eine 16-Kern-Neural Engine, die 35 Billionen Operationen pro Sekunde leisten kann apple.fandom.com. Damit werden Funktionen wie fortschrittliche Szenenerkennung der Kamera, Fotostile, offline verarbeitete Siri-Sprachbefehle, Autokorrektur, Live-Transkription und sogar das Ausführen von Transformer-Modellen für Übersetzungen direkt auf dem Gerät ermöglicht. Auch Googles Pixel-Smartphones verfügen über eigene Chips („Google Tensor“-SoCs) mit NPUs: Der neueste Tensor G3 im Pixel 8 wurde „speziell entwickelt, um Googles KI-Modelle auszuführen“, wobei jeder Teil des Chips (CPU, GPU, ISP) aufgerüstet wurde, um den Weg für generative KI direkt auf dem Gerät zu ebnen blog.google. Das Pixel 8 kann Googles modernste Text-zu-Sprache- und Übersetzungsmodelle lokal ausführen, die zuvor nur in Rechenzentren verfügbar waren blog.google. Es führt auch komplexe Kamerafunktionen wie die „Best Take“-Gruppenfoto-Zusammenführung und den Audio Magic Eraser mit einer Reihe von KI-Modellen direkt auf dem Gerät aus blog.google. Samsung und andere Android-Hersteller verwenden Qualcomms Snapdragon-Chipsätze, deren neueste NPUs (Hexagon AI Engine) sogar große Sprachmodelle auf dem Smartphone ausführen können – Qualcomm demonstrierte das Ausführen eines 10-Milliarden-Parameter-LLM und sogar die Bildgenerierung mit Stable Diffusion auf einem Smartphone mit Snapdragon 8 Gen 3 futurumgroup.com. Die KI-Engine dieses Chips ist 98 % schneller als die der letzten Generation und unterstützt INT4-Präzision für mehr Effizienz futurumgroup.com. Das praktische Ergebnis: Dein Smartphone von 2024 kann Dinge wie das Zusammenfassen von Artikeln, das Beantworten von Fragen oder das Bearbeiten von Fotos mit KI ohne Cloud-Anbindung erledigen. Selbst Barrierefreiheits-Funktionen profitieren: Zum Beispiel verfügen Pixel-Smartphones jetzt über Sprachtypisierung, Live-Untertitel und eine kommende Funktion, die Bilder für blinde Nutzer mit einem lokalen Modell beschreibt – alles direkt auf dem Gerät.
  • Intelligente Kameras & Sicherheitssysteme: KI-fähige Kameras nutzen integrierte NPUs, um Menschen, Gesichter, Tiere oder verdächtiges Verhalten sofort zu erkennen. Zum Beispiel verfügen die neuesten Sicherheitskameras von EnGenius über eine eingebaute NPU, die Objekterkennung übernimmt und Video direkt in Metadaten auf der Kamera umwandelt, wodurch ein separater Videorekorder überflüssig wird und die Sicherheit erhöht wird (da das Video lokal analysiert und gespeichert werden kann) engeniustech.com. Das bedeutet, dass Ihre Sicherheitskamera selbst entscheiden kann, ob „Person anwesend“ oder „Paket geliefert“ wurde, und nur diese Benachrichtigung sendet, anstatt stundenlanges Filmmaterial an einen Cloud-Dienst zu streamen. Ähnlich hatten Verbrauchergeräte wie die Google Nest Cam IQ einen Vision-Chip im Gerät (Google Edge TPU), um bekannte Gesichter zu erkennen und Menschen von Tieren im Sichtfeld zu unterscheiden. Auch DSLR- und spiegellose Kameras erhalten KI-Prozessoren für Dinge wie Motivverfolgung, Augen-Autofokus und Szenenoptimierung in Echtzeit. In Drohnen helfen KI-Chips an Bord bei der Hindernisvermeidung und visuellen Navigation, ohne dass eine Fernsteuerung erforderlich ist. Besonders hervorzuheben ist, dass Googles Edge TPU (ein winziges ASIC-Modul) zu einem beliebten Zusatz für DIY- und industrielle IoT-Kameras geworden ist – es bietet 4 TOPS an Bildverarbeitungsleistung für Aufgaben wie Personenerkennung oder das Auslesen von Nummernschildern, und verbraucht dabei nur etwa 2 Watt coral.ai.
  • Smart Home & IoT-Geräte: Über Smartphones hinaus verfügen viele Smart-Home-Geräte über Mini-NPUs. Sprachaktivierte Lautsprecher (Amazon Echo, Google Nest Hub usw.) enthalten mittlerweile oft lokale Spracherkennungs-Chips. Amazon entwickelte den AZ1 Neural Edge-Prozessor für die Echo-Geräte, um Alexas Erkennung des Aktivierungsworts und Reaktionen auf dem Gerät zu beschleunigen und die Latenz zu halbieren embedl.com. Der AZ1 (entwickelt mit MediaTek) betreibt ein neuronales Netzwerk, das „Alexa“ erkennt und einfache Befehle verarbeitet, ohne die Cloud zu nutzen embedl.com. Das lässt Alexa nicht nur schneller wirken, sondern hält auch mehr Sprachdaten privat. Ebenso verfügen viele neue Fernseher, Haushaltsgeräte und sogar Spielzeuge über KI am Edge – z. B. kann die Kamera eines smarten Kühlschranks Lebensmittel und Haltbarkeitsdaten lokal erkennen. Wearables verdienen ebenfalls Erwähnung: Der S9-Chip der Apple Watch hat eine 4-Kern Neural Engine hinzugefügt, um Gesundheits-KI-Algorithmen und Siri-Anfragen direkt auf der Uhr besser zu verarbeiten apple.fandom.com. Und auf industrieller Seite können IoT-Sensoren mit NPUs Anomalieerkennung an Gerätedaten direkt am Edge durchführen und nur relevante Ereignisse weiterleiten (spart Bandbreite und reagiert schneller auf Probleme).
  • Automobile (ADAS und Autonomie): Autos sind zu KI-Zentralen auf Rädern geworden. Fortschrittliche Fahrerassistenzsysteme (ADAS) und autonome Fahrfunktionen basieren auf einer Reihe von integrierten KI-Beschleunigern, um Kamerabilder, LiDAR, Radar auszuwerten und Fahrentscheidungen in Sekundenbruchteilen zu treffen. Tesla hat bekanntlich seinen eigenen FSD (Full Self-Driving) Computer mit zwei NPU-Chips entwickelt. Teslas FSD-Chip (HW3, eingeführt 2019) lieferte 144 TOPS (zwei NPUs mit jeweils 72 TOPS); der neuere HW4 (2023) erhöht dies auf etwa 200–250 TOPS insgesamt (zwei 7nm NPUs mit jeweils über 100 TOPS) ts2.tech. Dadurch kann das Auto Video in voller Auflösung von 8 Kameras, Sonar usw. gleichzeitig durch neuronale Netze für die Wahrnehmung verarbeiten und sogar einige Sprachmodelle für Sprachbefehle ausführen – alles lokal im Modul des Autos. Konkurrenzplattformen wie NVIDIA Drive und Qualcomm Snapdragon Ride integrieren ebenfalls NPUs. Der neueste Supercomputer-Chip für Autos von NVIDIA, Drive Thor, der für Autos ab 2025 vorgesehen ist, bietet bis zu 1.000 TOPS auf einem einzigen Chip (und 2.000 TOPS, wenn zwei gekoppelt werden), um Autonomie der Stufe 4 zu unterstützen ts2.tech. Er kombiniert eine GPU, CPU und spezielle Deep-Learning-Beschleuniger, sodass er alles von der Verkehrsschilderkennung bis zur Fahrerüberwachung-KI auf dem Chip verarbeiten kann ts2.tech. Diese NPUs sind buchstäblich lebensrettend: Ein autonomes Auto kann nicht auf Cloud-Server warten, wenn ein Kind auf die Straße läuft. Die KI an Bord muss innerhalb von wenigen Millisekunden sehen und reagieren. Außerhalb von Personenkraftwagen findet man Edge-KI auch im großen Stil in autonomen Drohnen, Lieferrobotern und Industriefahrzeugen, die mit integrierten NPUs/TPUs navigieren und Entscheidungen treffen (zum Beispiel nutzen Nuros Lieferroboter und viele selbstfahrende Lkw-Systeme NVIDIA- oder Huawei-KI-Chips direkt im Gerät).
  • Edge Computing & Industrie: In Fabriken und Unternehmensumgebungen tritt KI auf dem Gerät oft in Form von Edge-Servern oder Gateways mit KI-Beschleunigern auf. Anstatt Kamera-Feeds oder Sensordaten an eine zentrale Cloud zu senden, installieren Unternehmen Edge-Boxen (manchmal GPU-basiert, manchmal NPU/FPGA-basiert) vor Ort. Diese übernehmen Aufgaben wie Echtzeit-Videoanalysen zur Qualitätskontrolle an einer Produktionslinie und erkennen Fehler mithilfe von KI-Vision in Mikrosekunden. Medizinische Geräte sind ein weiteres Beispiel: Ein tragbares Ultraschall- oder MRT-Gerät könnte eine NPU besitzen, um KI-Bildanalysen direkt auf dem Gerät durchzuführen, sodass Ärzte sofortige diagnostische Unterstützung erhalten, ohne eine Internetverbindung zu benötigen (was auch besser für den Datenschutz der Patienten ist). Einzelhandel und Städte setzen KI ebenfalls am Edge ein – z. B. intelligente Verkehrskameras mit NPUs zur Analyse von Staus und zur Anpassung der Ampeln oder Kameras in Einzelhandelsregalen, die den Lagerbestand verfolgen. Viele davon nutzen spezialisierte NPUs wie die Intel Movidius Myriad-Chips oder Googles Edge TPU oder neue Anbieter wie Hailo-8 (eine israelische NPU, die 26 TOPS bei wenigen Watt für Kameras liefert). Der gemeinsame Nenner ist, dass diese Beschleuniger die Analyse lokal ermöglichen, Echtzeitergebnisse liefern und nur hochrangige Erkenntnisse (statt Rohdaten) über Netzwerke übertragen.

Die Vielseitigkeit von NPUs/TPUs über verschiedene Gerätetypen hinweg ist beeindruckend. Im einen Moment ermöglichen sie es deinem Handy, den Hintergrund eines Fotos mit KI zu verwischen, im nächsten steuern sie eine Drohne oder analysieren medizinische Bilder. Smartphone-Kameras nutzen NPUs jetzt für Funktionen wie den Nachtmodus (intelligentes Zusammenführen mehrerer Aufnahmen), Portraitmodus-Bokeh, Szenenerkennung (dein Handy erkennt, dass du einen „Sonnenuntergang“ fotografierst und optimiert die Farben per KI) und sogar für unterhaltsame AR-Effekte (Animoji, die dein Gesicht abbilden, oder Snapchat-Filter, die deine Bewegungen verfolgen – alles dank neuronaler Netze auf dem Gerät). Biometrie nutzt NPUs: Fingerabdruckscanner mit KI-gestützter Lebenderkennung, Face Unlock mit Tiefensensoren plus KI. Audio profitiert ebenfalls: Geräuschunterdrückung in Ohrhörern und Handys wird nun oft KI-gesteuert, wobei NPUs Stimme und Hintergrundgeräusche in Echtzeit trennen.

Ein konkretes Beispiel für Innovation im Jahr 2024: Oppo (der Smartphone-Hersteller) hat in Zusammenarbeit mit MediaTek angekündigt, dass es ein Mixture-of-Experts (MoE) KI-Modell direkt auf dem Gerät Ende 2024 implementiert hat – angeblich das erste Mal in einem Telefon grandviewresearch.com. Diese fortschrittliche neuronale Netzwerkarchitektur (MoE) kann die Leistung steigern, indem sie pro Aufgabe nur die relevanten „Experten“-Subnetzwerke aktiviert. Die Ausführung auf dem Gerät bedeutet, dass Oppo-Telefone eine schnellere KI-Verarbeitung und bessere Energieeffizienz für komplexe Aufgaben erreichen können, ohne Cloud-Unterstützung zu benötigen grandviewresearch.com. Das unterstreicht, wie selbst modernste KI-Forschung dank verbesserter NPUs schnell in unsere Handgeräte Einzug hält.

Im Inneren der KI-Chips 2025: Neueste Entwicklungen von Apple, Google, Qualcomm und mehr

Das Rennen um bessere KI-Hardware auf dem Gerät hat sich rasant beschleunigt. Hier ein Überblick, was große Unternehmen in letzter Zeit (2024–2025) an NPUs/TPUs und KI-Silizium vorgestellt haben:

  • Apple: Apples Strategie für eigene Chips hat seit langem den Schwerpunkt auf maschinellem Lernen direkt auf dem Gerät gelegt. Jedes Jahr wurde Apples Neural Engine leistungsfähiger. Im iPhone 15 Pro von 2023 erreichte die A17 Pro-Chip Neural Engine 35 TOPS (Billionen Operationen pro Sekunde) mit ihren 16 Kernen apple.fandom.com. Das war die doppelte rohe Rechenleistung der NPU des A16, und Apple nutzte dies, um Dinge wie Spracherkennung für Siri direkt auf dem Gerät zu ermöglichen (endlich werden viele Siri-Anfragen ohne Internet verarbeitet) sowie neue Kamerafunktionen (wie automatisch aufgenommener Porträtmodus und Live-Übersetzung von Text über die Kamera). Apples Chips aus 2024 setzten den Trend fort: Die M3-Familie für Macs (Ende 2023) erhielt eine aktualisierte Neural Engine (interessanterweise auf 18 TOPS für den M3-Basischip abgestimmt, mit Fokus auf Effizienz) apple.fandom.com. Im Jahr 2024 stellte Apple den M4-Chip (für High-End-iPads/Macs, Mitte 2024) vor, der Berichten zufolge die Neural Engine auf 38 TOPS in einem verfeinerten 3nm-Prozess erhöhte apple.fandom.com. Über die reinen Zahlen hinaus nutzt Apple diese NPU auch: Funktionen wie Personal Voice (erstellt nach 15 Minuten Training einen Klon der Stimme des Nutzers) laufen privat auf der Neural Engine in iPhones, und Live-Voicemail-Transkriptionen erfolgen lokal. Apple hat NPUs auch in alle Gerätekategorien integriert – selbst AirPods Pro haben einen kleinen Neural-Chip für Adaptive Audio. Apples Führungskräfte betonen oft den Datenschutzaspekt: „Maschinelles Lernen auf deinem Gerät“ bedeutet, dass deine Daten bei dir bleiben. Bis 2025 erwarten wir, dass Apples Neural Engine sich möglicherweise weiter ausdehnt oder Drittanbieter-Apps auf neue Weise zur Verfügung steht (Core ML erlaubt Entwicklern bereits die Nutzung, aber Apple könnte noch mehr neuronale API-Zugänge öffnen). Es gibt auch Gerüchte, dass Apple einen eigenständigen KI-Beschleuniger für zukünftige Brillen oder Autos entwickelt, aber aktuelle Produkte zeigen, dass sie integrierte NPUs in ihren A- und M-SoCs bevorzugen.
  • Google: Google war nicht nur Vorreiter bei der Cloud-TPU, sondern setzte auch verstärkt auf On-Device-AI für Pixel-Smartphones und Consumer-Geräte. Das Google Tensor SoC (erstmals 2021 im Pixel 6 eingeführt) war insofern einzigartig, als Google, bekannt für Cloud, einen Handy-Chip entwickelte, um KI auf dem Gerät auszuführen. Mit dem Tensor G3 (im Pixel 8 von 2023) hob Google Upgrades hervor, die generative KI auf dem Gerät ermöglichen. Google sagte ausdrücklich, dass der Chip des Pixel 8 „Google KI-Forschung direkt auf unsere neuesten Telefone bringt“ blog.google. Die Next-Gen-TPU des Tensor G3 (Google nennt den KI-Kern intern immer noch „TPU“) ermöglicht es dem Pixel, fortschrittliche Modelle wie Palm 2 oder Gemini Nano (abgespeckte Versionen von Googles großen Sprachmodellen) direkt auf dem Gerät auszuführen, z. B. für Funktionen wie das Zusammenfassen von Webseiten oder Verbesserungen beim Voice-Typing reddit.com. Ein herausragendes Feature: Das Pixel 8 kann Googles bestes Text-to-Speech-Modell (das auch im Rechenzentrum verwendet wird) lokal ausführen, sodass das Telefon Webseiten mit natürlichen Stimmen vorlesen und sogar in Echtzeit übersetzen kann – alles offline blog.google. Google nutzt die TPU im Pixel auch für Fotografie („HDR+“-Mehrbildverarbeitung, Magic Eraser-Objektentfernung mittels KI-Inpainting blog.google), für Sicherheit (On-Device-Face-Unlock per KI, jetzt als sicher genug für Zahlungen eingestuft blog.google) und für Sprache (der Assistant, dem „ähm“ nichts ausmacht). Über Smartphones hinaus bietet Google das Coral Dev Board und einen USB-Stick für Bastler und Unternehmen an, um Edge-TPUs in ihre Projekte zu integrieren – jeweils mit Googles Edge TPU, die 4 TOPS für Vision-Aufgaben bei sehr geringem Stromverbrauch liefert coral.ai. Sie wird auch in einigen eigenen Google-Produkten wie dem Nest Hub Max für Gestenerkennung eingesetzt. Für Google ist die Integration von TPUs am Edge Teil einer umfassenderen Strategie: Sundar Pichai (Googles CEO) sagte, die Zukunft der KI bestehe darin, jede Erfahrung zu erweitern, und offensichtlich sieht Google, dass „um die transformative Kraft der KI ins tägliche Leben zu bringen, muss man sie auf dem Gerät nutzen, das man jeden Tag verwendet“ blog.google – daher Tensor-Chips. Wir können mit einem Tensor G4 in den Pixel-Smartphones Ende 2024 rechnen, möglicherweise gefertigt im neueren Prozess von Samsung oder TSMC, mit weiter verbesserter KI-Leistung und Effizienz – vielleicht sogar mit On-Device-Multimodal-KI (Kombination von Vision- und Sprachmodellen).
  • Qualcomm: Der führende Anbieter von Mobilchips für Android-Telefone hat seine AI Engine in der Snapdragon-Serie aggressiv vorangetrieben. Der Snapdragon 8 Gen 2 (Ende 2022) führte dedizierte INT4-Unterstützung ein und demonstrierte die Echtzeit-Bilderzeugung mit Stable Diffusion auf einem Telefon. Der Snapdragon 8 Gen 3 (angekündigt Ende 2023, in den Flaggschiff-Telefonen 2024) ist ein großer Sprung: Qualcomm sagt, dass seine Hexagon-NPU 98 % schneller ist als die der Gen 2 und 40 % energieeffizienter futurumgroup.com. Dieser Chip kann große Sprachmodelle mit bis zu 10 Milliarden Parametern vollständig auf dem Gerät ausführen und etwa 20 Token pro Sekunde verarbeiten – genug für einfache Gespräche mit einem KI-Assistenten ohne Cloud futurumgroup.com. In Demos wurde außerdem die „weltweit schnellste Stable Diffusion“-Bilderzeugung auf einem mobilen Gerät erreicht futurumgroup.com. Qualcomm betont, dass generative KI auf dem Gerät ein zentrales Verkaufsargument für neue Telefone ist. Zum Beispiel haben sie mit Meta zusammengearbeitet, um das Open-Source-Llama 2-LLM für Snapdragon zu optimieren, mit dem Ziel, dass Sie bis 2024 einen Chatbot-KI auf Ihrem Telefon ausführen können iconnect007.com. (Ein Qualcomm-Manager sagte: „Wir begrüßen Metas offenen Ansatz… Um generative KI zu skalieren, muss sie sowohl in der Cloud als auch am Edge laufen“, was die Edge-KI-Philosophie unterstreicht iconnect007.com.) Über Telefone hinaus verbaut Qualcomm NPUs in Laptop-Chips (die Snapdragon-Compute-Plattformen für Windows on ARM) – und ihre Automobilplattform Snapdragon Ride verwendet die gleichen KI-Kerne, um bis zu 30 TOPS für ADAS zu bieten, mit einer Roadmap in den Bereich von Hunderten TOPS. Im Jahr 2025 kündigte Qualcomm sogar eine neue Snapdragon X Elite-CPU für PCs an, die eine leistungsstarke NPU enthält, was darauf hindeutet, dass man Apple und Intel bei der KI-Leistung in Personal Computern herausfordern will. Mit dem Aufstieg der KI auf dem Gerät vermarktet Qualcomm tatsächlich einige Telefone als „KI-Telefone“. Sie gehen davon aus, dass viele Apps (von Fotografie über Messaging bis hin zu Produktivität) die NPU nutzen werden. Auf der Softwareseite veröffentlichte Qualcomm den Qualcomm AI Stack, um die Unterstützung für beliebte Frameworks (TensorFlow Lite, PyTorch, ONNX) auf ihren NPUs zu vereinheitlichen iconnect007.com – und versucht so, es Entwicklern zu erleichtern, die KI-Hardware zu nutzen, ohne tiefgehende Chip-Kenntnisse zu benötigen.
  • MediaTek: Der zweitgrößte Hersteller von Mobilchips (bekannt für die Dimensity-Serie) hat ebenfalls seine NPUs aufgerüstet. MediaTek nennt seine KI-Engines „APU“ (AI Processing Unit). Zum Beispiel verfügt das Dimensity 9200+ (2023) über eine sechste Generation der APU mit deutlichem Leistungszuwachs gegenüber dem Vorgänger-Chip, was Funktionen wie On-Device Stable Diffusion und KI-Rauschunterdrückung in Videos ermöglicht. Im Jahr 2024 kündigte MediaTek das Dimensity 9400 an und nutzte in einer Partnerschaft mit Oppo dessen fortschrittliche NPU-Architektur, um neue KI-Funktionen einzuführen (wie erwähnt, wird das KI-Foto-Remastering des Oppo Find X8 mit Reflexionsentfernung und Entschärfung von MediaTeks NPU angetrieben) mediatek.com. MediaTek-Führungskräfte positionieren sich ausdrücklich an der Spitze der On-Device-KI. Wie Will Chen von MediaTek sagte: „Die Zukunft der KI geht über die Cloud hinaus; sie wird durch Edge Computing direkt aus der Hand angetrieben.“ Ihrer Ansicht nach muss KI auf dem Smartphone schnell, privat, sicher und jederzeit zugänglich sein mediatek.com. MediaTek hat sogar eine „APU-zentrierte“ Zusammenarbeit mit Meta zur Unterstützung von Llama-Frameworks und mit Geräteherstellern wie Oppo und Xiaomi mit Fokus auf KI-Kamera- und KI-Sprachfunktionen gebildet. Bis 2025 plant MediaTek, diese NPUs nicht nur in Smartphones, sondern auch in Smart-TVs (für KI-Upscaling und Bildverbesserung), IoT-Geräten und sogar in Autos einzusetzen (MediaTek verfügt über eine Automotive-KI-Plattform und ist eine Partnerschaft mit Nvidia eingegangen, um Nvidia-GPU-IP für Autos zu integrieren, während vermutlich die eigene NPU für Sensor-KI bereitgestellt wird).
  • Intel: 2024 markierte Intels Einstieg in KI-Beschleuniger auf Mainstream-PCs. Intels 14. Generation Core (Meteor Lake, erschienen im Dez. 2023 und 2024 als Core Ultra umbenannt) ist der erste x86-PC-Prozessor mit einer integrierten Neural Processing Unit (NPU). Die NPU von Meteor Lake (manchmal auch VPU – Vision Processing Unit – genannt, basierend auf Intels Movidius-Technologie) liefert etwa 8–12 TOPS KI-Leistung pcworld.com. Diese wird genutzt, um KI-Funktionen von Windows 11 wie Hintergrundunschärfe, Blickkontakt bei Videoanrufen zu beschleunigen und könnte von Apps für Dinge wie lokale Transkription, Geräuschunterdrückung oder sogar kleine KI-Assistenten verwendet werden. Microsoft und Intel treiben gemeinsam das Konzept des „KI-PCs“ voran. Intel behauptet, dass diese NPUs 2024 in zig Millionen Laptops ausgeliefert werden pcworld.com. Nach Meteor Lake nennt Intels Roadmap Arrow Lake (für Desktops in 2024), das ebenfalls eine NPU enthält (etwa 13 TOPS, leicht verbessert) pcworld.com. Interessanterweise wurde Intels erster Versuch einer Desktop-NPU tatsächlich von AMD übertroffen (siehe unten), und Intel entschied sich für ein zurückhaltendes NPU-Design, um bei Enthusiasten-Chips keine GPU/CPU-Fläche zu opfern pcworld.com. Aber Ende 2024 signalisierte Intel, dass zukünftige Lunar Lake-Chips eine deutlich stärkere NPU (~45 TOPS) haben werden, um Microsofts „Copilot“-Anforderungen zu erfüllen pcworld.com. All dies zeigt, dass Intel KI als unverzichtbar für PCs der Zukunft sieht – nicht für das Training riesiger Modelle, sondern um alltägliche KI-gestützte Erlebnisse zu beschleunigen (von Office-Verbesserungen bis zu Kreativtools mit lokaler KI). Intel verkauft auch Edge-KI-Beschleuniger wie die Intel Movidius Myriad-Chips (in einigen Drohnen, Kameras verwendet) und die Habana-Beschleuniger für Server, aber die integrierte NPU von Meteor Lake ist ein Meilenstein, der KI auf das durchschnittliche Verbrauchergerät bringt.
  • AMD: AMD stieg etwa zur gleichen Zeit in das On-Device-AI-Geschäft ein. Die Ryzen 7040-Serie der Laptop-Prozessoren (Phoenix), die 2023 auf den Markt kam, verfügte über die erste Ryzen AI Engine – im Wesentlichen eine integrierte XDNA-NPU (Technologie aus AMDs Übernahme von Xilinx). Diese NPU lieferte bis zu 10 TOPS auf dem mobilen Chip en.wikipedia.org. AMD hob Anwendungsfälle wie KI-verbesserte Videotelefonie, Produktivitäts-Apps und Ähnliches hervor, ähnlich wie Intels Zielsetzungen. Dann brachte AMD kurzzeitig eine Ryzen 8000 Desktop-Serie (Anfang 2024) mit einer NPU auf den Markt, die 39 TOPS erreichte – eine sehr hohe Zahl für die KI-Einheit einer Allzweck-CPU, sogar höher als Intels Pläne pcworld.com. Allerdings änderte AMD schnell die Richtung und übersprang eine Generation, um sich auf die nächste Architektur zu konzentrieren (der nachfolgende Ryzen 9000 Ende 2024 verzichtete auf die NPU, um Kern-Upgrades zu priorisieren) pcworld.com. Nichtsdestotrotz wird erwartet, dass AMD NPUs in zukünftigen PC-Chips wieder einführt (es handelt sich wahrscheinlich um einen vorübergehenden Rückzug, während sie daran arbeiten, eine leistungsstarke KI-Engine zu integrieren, ohne andere Leistungen zu beeinträchtigen). Auf der Produktseite könnten AMDs NPUs interessante Möglichkeiten eröffnen, da AMD auch über starke GPUs verfügt – eine Kombination, die KI-Workloads gemeinsam bewältigen könnte (einige Teile auf der NPU, andere auf der GPU). AMD integriert zudem KI-Kerne in seine adaptiven (FPGA-basierten) SoCs und Automotive-Chips. Zusammengefasst haben bis 2025 alle x86-PC-Chiphersteller NPUs übernommen, was mit dem übereinstimmt, was Smartphones bereits einige Jahre zuvor getan haben, und darauf hinweist, dass KI-Beschleunigung zu einem Standardmerkmal in allen Bereichen wird.
  • Andere: Auch eine Vielzahl spezialisierter Chipunternehmen und anderer Tech-Firmen innovieren im Bereich NPUs. NVIDIA, bekannt für GPUs, integriert inzwischen spezielle Tensor Cores in ihre GPUs und bietet ein offenes NVDLA (Deep Learning Accelerator)-Design zur Integration in System-on-Chip-Produkte an. In Edge-Geräten wie der NVIDIA Jetson-Serie (verwendet in Robotern, Drohnen, eingebetteten Systemen) gibt es sowohl die GPU als auch festverdrahtete „DLAs“ – im Wesentlichen NPUs – die einen Teil der neuronalen Inferenz von der GPU auslagern. Das Orin-Modul von NVIDIA beispielsweise verfügt zusätzlich zur GPU über 2 DLAs, was zu einer KI-Leistung von 254 TOPS für Autos beiträgt ts2.tech. Apple soll Gerüchten zufolge an noch fortschrittlicheren KI-Coprozessoren oder größeren Neural Engines für ihre AR-Brillen oder zukünftige Projekte arbeiten, Details sind jedoch geheim. Huawei (trotz geopolitischer Herausforderungen) entwickelt weiterhin Kirin-Mobilchips mit NPUs (deren „DaVinci“-NPU-Architektur) sowie serverbasierte NPUs in ihren Ascend-AI-Chips – ihr Kirin 9000S-Chip von 2023 soll Berichten zufolge eine starke NPU für Bild- und Sprachaufgaben auf ihren Smartphones beibehalten. Wir sehen auch Start-ups wie Hailo, Mythic, Graphcore und andere, die eigene Edge-AI-Chips anbieten: z. B. Hailo-8 wie erwähnt (26 TOPS in einer Mini-PCIe-Karte für AI-Kameras), Graphcores IPU für Rechenzentren (nicht direkt on-device, aber eine neue Architektur für neuronale Netze), Mythic arbeitet an analogen NPUs usw. ARM, deren Designs den meisten Mobilchips zugrunde liegen, bietet die Ethos-NPU-Serie (wie Ethos-U, Ethos-N78) an, die Chip-Hersteller integrieren können, um einen fertigen KI-Beschleuniger in IoT- oder Mittelklasse-SoCs zu erhalten. Dadurch konnten selbst relativ kleinere Anbieter NPUs in ihre Chips aufnehmen, indem sie das ARM-Design lizenzierten.

Das Fazit ist: Von großen Tech-Konzernen bis zu Start-ups – alle investieren in On-Device-AI-Silizium. Dadurch sehen wir schnelle Fortschritte: neue Chips mit höheren TOPS, besserer Effizienz (TOPS pro Watt) und Unterstützung neuer Datentypen (wie 4-Bit-Quantisierung für größere Modelle). Zum Beispiel können die neuesten Chips von Qualcomm und MediaTek INT4-Präzision ausführen, was für generative KI-Modelle großartig ist, bei denen die Speicherbandbreite ein limitierender Faktor ist androidauthority.com. Diese Innovationen kommen direkt den Nutzern zugute – z. B. Echtzeit-Mobile-AI-Video-Editing (Entfernen von Objekten aus 4K-Videos in Echtzeit, wie es der Snapdragon 8 Gen 3 mit seiner „Video Object Eraser“-KI-Funktion kann futurumgroup.com), oder KI-Coprozessoren in Autos, die Sprachassistenten ermöglichen, die ohne Netzwerk funktionieren und so schnell wie ein menschliches Gespräch reagieren.

Wichtige Neuigkeiten 2024–2025: Launches, Benchmarks und Partnerschaften

Um zu zeigen, wie schnell sich alles entwickelt, hier einige Schlagzeilen aus der Welt der NPUs/TPUs und On-Device-AI von Ende 2024 bis 2025:

  • Apple M3 und M4 Enthüllungen (Okt. 2023 & Mai 2024): Brachten Next-Gen Neural Engines. Der Neural Engine des M3 erreicht 18 TOPS (16-Kern), und der M4 sprang auf 38 TOPS (immer noch 16-Kern, aber mit höherem Takt/Effizienz) apple.fandom.com. Apple demonstrierte, wie diese Chips anspruchsvolle Aufgaben wie die On-Device-Bilderzeugung mit Stable Diffusion in macOS bewältigen (mit Core ML Stable Diffusion zeigten Entwickler ~15 Sekunden zur Bildgenerierung auf einem M2 – auf M3/M4 noch schneller).
  • Google Pixel 8 Launch (Okt. 2023): Betonung von KI „überall“ im Gerät. Googles Event zeigte die On-Device-Zusammenfassung von Webseiten und die Live-Übersetzung von Artikeln auf dem Pixel 8 mithilfe des Tensor G3 NPU. Außerdem wurde der „Assistant with Bard“ vorgestellt, der künftig einige Interaktionen direkt auf dem Gerät ausführen wird. Google hob hervor, dass das Pixel 8 2× so viele Modelle on-device ausführen kann wie das Pixel 6, und Modelle, die deutlich fortschrittlicher sind blog.google. Mit anderen Worten: ein riesiger Sprung in nur zwei Jahren Tensor-Chip-Entwicklung.
  • Qualcomm–Meta Partnerschaft (Juli 2023): Qualcomm und Meta kündigten an, Metas Llama 2 Large Language Model für den vollständigen Betrieb auf Snapdragon NPUs bis 2024 zu optimieren iconnect007.com. Ziel ist es, Entwicklern zu ermöglichen, Chatbots und generative KI-Apps auf Handys, VR-Headsets, PCs usw. ohne Cloud einzusetzen. Dies war eine bedeutende Bestätigung für On-Device-KI durch einen großen KI-Modell-Besitzer (Meta) und einen großen Chiphersteller. Ende 2024 folgten Pläne zur Optimierung von Llama 3 qualcomm.com.
  • Microsoft Windows 11 „Copilot“-PCs (2024): Microsoft setzte einen Maßstab, indem PCs mit >40 TOPS lokaler KI-Beschleunigung als „AI PCs“ mit erweiterten KI-Funktionen (wie der Copilot-Digitalassistent-Integration) bezeichnet werden. Dies veranlasste OEMs – Lenovo, Dell usw. – dazu, Chips mit NPUs (egal ob Intel, AMD oder Qualcomm) zu verwenden, um die Spezifikation zu erfüllen. Das Ergebnis ist eine erwartete Welle von KI-fähigen Laptops im Jahr 2024, wobei Microsoft Dutzende von Modellen ankündigt und über 40 Millionen ausgelieferte AI-PCs für 2024 prognostiziert pcworld.com.
  • AMDs kurzer Ryzen 8000 NPU (Jan 2024): AMD kündigte eine Desktop-CPU mit beeindruckenden 39 TOPS NPU an (eine Überraschung, da Desktop-Chips normalerweise keine solchen Beschleuniger haben) pcworld.com. Obwohl dieses spezielle Produkt schnell abgelöst wurde, zeigte es, dass selbst Desktop-CPUs KI-Silizium mit TOPS-Werten wie bei mobilen Chips haben können. Dies war auch die erste Desktop-x86-CPU mit einer NPU (und kam damit Intel Arrow Lake zuvor).
  • Tesla FSD Beta v12 (Ende 2023) Demos: Elon Musk präsentierte End-to-End-KI-Fahren (kein Radar, nur Vision-Netze), das auf Teslas HW3/HW4 NPUs läuft. Bemerkenswert war, dass das neuronale Netz das Auto mit Videofeeds steuerte, die vollständig in Echtzeit auf dem Bordcomputer verarbeitet wurden. Beobachter stellten fest, dass FSD v12 die 2× 100 TOPS NPUs für Vision voll ausnutzte, und Tesla deutete an, dass zukünftige Upgrades (HW5) mit 2000 TOPS in Entwicklung sein könnten, um noch größere Modelle zu bewältigen (es gab Gerüchte, dass Teslas HW5 auf 2 PetaFLOPS = 2000 TOPS abzielen könnte) notateslaapp.com.
  • NVIDIA Drive Thor vorgestellt (2024 GTC): NVIDIA enthüllte Details zu seinem nächsten Automotive-Chip, Drive Thor, der das Äquivalent von 2× der KI-Rechenleistung seines Vorgängers Orin bietet – bis zu 2000 TOPS, wenn zwei Chips verbunden sind ts2.tech. Bemerkenswert ist, dass Thor nicht nur Fahrfunktionen, sondern auch In-Cabin-KI (wie Sprach- und Insassenüberwachung) auf einer Plattform abdecken soll, was zeigt, wie NPUs und GPUs gemeinsam viele KI-Funktionen im Auto konsolidieren können ts2.tech. Mehrere Autohersteller (Xpeng, BYD, Volvo) kündigten an, Thor ab 2025 einzusetzen ts2.tech.
  • Oppos On-Device MoE KI (Okt 2024): Wie erwähnt, implementierte Oppo ein Mixture-of-Experts-Modell auf dem Find X8 Smartphone grandviewresearch.com. Das ist bemerkenswert, weil MoE-Modelle normalerweise groß sind und wegen ihrer Komplexität als serverseitig galten. MoE on-device auszuführen, deutet auf neue Techniken bei der Modellkomprimierung und eine sehr leistungsfähige NPU hin (vermutlich der MediaTek Dimensity 9400 in diesem Gerät).
  • Metas Ray-Ban KI-Brille (2025): (Erwartet) Meta präsentierte Prototypen von Smart Glasses, die erkennen können, was Sie sehen, und mit Ihnen darüber sprechen – vermutlich unter Verwendung eines eigenen Onboard-Beschleunigers (Meta entwickelt seit einiger Zeit eigene Chips für AR). Auch wenn Details rar sind, unterstreicht dies den Vorstoß, KI in sehr stark begrenzte Geräte (Brillen, Akku-Ohrhörer) zu bringen, was ultra-effiziente NPUs erfordert.
  • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons veröffentlichte Ergebnisse, die die KI-Leistung aktueller Smartphones zeigen. Zum Beispiel wurden im MLPerf Inference v3.0 (Okt. 2023) Apples A16, Google Tensor G2 und Qualcomm Gen 2 bei Aufgaben wie Bildklassifikation und Objekterkennung getestet. Die Zahlen zeigten, dass Apple und Qualcomm sich gegenseitig übertrumpften, aber generell, dass mobile NPUs bei diesen Aufgaben zu einigen Laptop-/Desktop-Beschleunigern aufschließen – und das alles im Akkubetrieb. Es wurden auch Softwareunterschiede hervorgehoben (z. B. Qualcomms AI SDK vs. Apple Core ML). Die jährlichen Verbesserungen (zweistellige % Zuwächse) in diesen Benchmarks zeigen den gesunden Wettbewerb und den rasanten Fortschritt bei KI direkt auf dem Gerät.
  • Strategische Partnerschaften: Viele branchenübergreifende Partnerschaften wurden geschlossen. Z. B. NVIDIA und MediaTek (Mai 2023) kündigten eine Zusammenarbeit an, um Nvidia-GPU-IP und das Software-Ökosystem in zukünftige Smartphone- und Automotive-Chips von MediaTek zu integrieren – damit werden Nvidias KI-Stärken mit MediaTeks Mobile-SoC-Expertise vereint. Auch Unternehmen wie Qualcomm kooperieren mit Autoherstellern (Mercedes, BMW), um Snapdragon Cockpit- und Ride-Plattformen (mit NPUs) für KI-Funktionen in neue Fahrzeuge zu bringen. Arm arbeitet mit Fujitsu und anderen an neuen KI-Chip-Designs (wie der KI-Partition des Fugaku-Supercomputers, allerdings im High-End-Bereich). Sogar IBM und Samsung haben neue Chip-Technologien (wie neuromorphes Computing und KI-Speicher) vorgestellt, die eines Tages NPUs revolutionieren könnten – noch nicht marktreif, aber die Forschungspipelines sind gut gefüllt.

Alles in allem war das vergangene Jahr vollgepackt mit Entwicklungen, die unterstreichen, dass KI auf dem Gerät eines der heißesten Themen der Tech-Branche ist. Wie ein Branchenanalyst bemerkte: „Diese On-Device-Fähigkeiten eröffnen völlig neue Horizonte… LLMs auf Mobilgeräten zu betreiben, hilft bei Skalierung und Kosten, hält Daten privat und sorgt dafür, dass KI auch bei eingeschränkter Konnektivität funktioniert“ futurumgroup.com. Das fasst ziemlich gut zusammen, warum alle großen Tech-Firmen hier investieren.

Expertenmeinungen: Was Tech-Führungskräfte über On-Device-KI sagen

Der Aufschwung von NPUs und TPUs zeigt sich nicht nur in Produkten, sondern auch in den Aussagen von Branchenführern. Hier einige ausgewählte Zitate und Perspektiven, die die Bedeutung von KI auf dem Gerät verdeutlichen:

  • Cristiano Amon (CEO von Qualcomm): „Wenn KI skalieren soll, werden Sie sehen, dass sie auf Geräten läuft… Das markiert einen Wendepunkt in der KI: keine Latenzprobleme – einfach nahtlose, sichere, cloud-ergänzende On-Device-Inferenz. Die Zukunft der KI ist persönlich, und sie beginnt auf Ihrem Gerät.“ (Bloomberg-Interview und X-Post, 2023) x.com. Amon stellt sich eine hybride KI-Welt vor, in der Ihr Telefon/PC vieles auf eigenen NPUs erledigt und bei Bedarf mit der Cloud zusammenarbeitet. Er betont, dass das lokale Ausführen von KI der Schlüssel zur Allgegenwärtigkeit ist (man kann nicht alles von Cloud-GPUs abhängig machen – es gibt nicht genug davon auf der Welt für Milliarden von Geräten).
  • Durga Malladi (SVP, Qualcomm): „Wir begrüßen Metas Ansatz für offene und verantwortungsvolle KI… Um generative KI effektiv in den Mainstream zu bringen, muss KI sowohl in der Cloud als auch auf Geräten am Rand laufen.“ iconnect007.com Malladi sagte dies im Zusammenhang mit der Meta-Partnerschaft. Es unterstreicht eine gemeinsame Sichtweise: KI-Skalierung = Cloud + Edge arbeiten zusammen. Es besteht nun das Verständnis, dass reine Cloud-KI nicht ausreicht (aus Kosten-, Datenschutz- und Latenzgründen), daher muss Edge-KI die Last teilen.
  • Will Chen (stellvertretender Geschäftsführer, MediaTek): „Die Zukunft der KI geht über die Cloud hinaus; sie wird durch Edge-Computing direkt aus Ihrer Hand angetrieben… OPPO und MediaTek sind Vorreiter bei On-Device-KI und stellen sicher, dass intelligente Fähigkeiten leistungsstark, schnell, privat, sicher und stets zugänglich sind.“ (MediaTek Exec Talk, 2025) mediatek.com. Dieses Zitat fasst das Wertversprechen von On-Device-KI gut zusammen – man erhält Leistung und Zugänglichkeit plus Datenschutz und Sicherheit. Es zeigt auch, dass selbst Unternehmen, die im Westen traditionell weniger sichtbar sind (wie MediaTek), an der Spitze der KI-Entwicklung denken.
  • Dr. Norman Wang (KI-Hardware-Experte, CEO eines Chip-Startups): „Bei KI-Hardware gilt: Je näher Sie die Rechenleistung an die Datenquelle bringen, desto besser. Es geht darum, Datenbewegungen zu reduzieren. Eine NPU neben Ihrem Bildsensor bedeutet, dass Sie keine Megapixel in die Cloud schicken – Sie gewinnen Erkenntnisse direkt am Rand. Das ist ein Wendepunkt für Latenz und Energieverbrauch.“ (Panel bei HotChips 2024 – sinngemäß). Diese technische Einsicht erklärt, warum NPUs oft auf demselben Silizium wie andere Komponenten sitzen: z. B. kann auf dem SoC eines Telefons die NPU direkt Kameradaten vom ISP abgreifen. Die Minimierung von Datenbewegungen ist ein wesentlicher Bestandteil effizienter KI, und Edge-KI erreicht dies, indem sie die Verarbeitung an der Quelle der Daten durchführt.
  • Xinzhou Wu (VP Automotive, NVIDIA): „Beschleunigtes Computing hat zu transformativen Durchbrüchen geführt, darunter generative KI, die Autonomie und die Transportbranche neu definiert.“ (GTC 2024 Keynote) ts2.tech. Er sprach darüber, wie leistungsstarke Bordcomputer (mit NPUs/GPUs) es Autos ermöglichen, nicht nur zu fahren, sondern potenziell fortschrittliche KI wie generative Modelle für Dinge wie natürliche Sprachschnittstellen im Auto oder ein besseres Situationsverständnis zu integrieren. Es unterstreicht, dass selbst Branchen wie die Automobilindustrie KI auf dem Gerät nicht nur für die Kernfunktionalität sehen, sondern auch zur Verbesserung des Nutzererlebnisses (z. B. Sprachassistenten im Auto, die dank On-Board-LLMs Gespräche führen können).
  • Sundar Pichai (CEO von Google): „Die Zukunft der KI besteht darin, sie für alle hilfreich zu machen. Das bedeutet, KI in alle Geräte zu bringen, die wir nutzen – Telefone, Haushaltsgeräte, Autos – damit sie da ist, wenn man sie braucht. Wir wollen die Nutzer dort abholen, wo sie sind, mit KI, die in Echtzeit, vor Ort und datenschutzfreundlich arbeitet.“ (Sinngemäß aus mehreren Interviews/Keynotes). Pichai spricht oft von „ambienter KI“ – der Idee, dass KI überall um uns herum sein wird, eingebettet in Dinge. Googles Vorstoß mit Tensor-Chips in Pixel-Geräten ist eine direkte Umsetzung dieser Philosophie.
  • Branchendaten: Analysten haben den Trend in Zahlen beobachtet. Ein Bericht von Grand View Research aus dem Jahr 2024 stellte fest: „Jüngste Fortschritte bei spezialisierten KI-Chips und NPUs haben es ermöglicht, komplexe KI-Algorithmen direkt auf Geräten auszuführen, was die Leistung und Energieeffizienz erheblich verbessert… wir stehen kurz vor einem entscheidenden Übergang hin zu On-Device-KI.“ grandviewresearch.com. Derselbe Bericht prognostiziert, dass der On-Device-KI-Markt in den kommenden Jahren explodieren wird, wobei das Hardware-Segment (NPUs usw.) im Jahr 2024 über 60 % des Umsatzanteils ausmachen und weiter wachsen wird, da nahezu jedes neue IoT- oder Mobilgerät KI-Fähigkeiten übernimmt grandviewresearch.com. Eine weitere Prognose von IDC und anderen besagt, dass bis Mitte der 2020er Jahre fast alle High-End-Smartphones und die Mehrheit der Mittelklassegeräte über KI-Beschleuniger verfügen werden, und dass bis 2030 Milliarden von Edge-KI-Chips im Einsatz sein werden – von Unterhaltungselektronik bis hin zu intelligenter Infrastruktur.

Der Konsens unter Experten ist, dass On-Device-KI nicht nur ein „Nice-to-have“ ist – sie ist essenziell für die nächste Technologiewelle. KI-Pionier Andrew Ng hat oft erwähnt, dass „Tiny AI“ und Edge-KI es ermöglichen werden, Intelligenz in jedes Objekt zu bringen, analog dazu, wie es früher mit Elektrizität oder dem Internet war. Durch die Überwindung der Beschränkungen von reiner Cloud-KI ermöglichen NPUs und TPUs diese Durchdringung.

Die Herausforderung vieler Standards (und Bemühungen um Vereinfachung)

Während die Hardware sich schnell weiterentwickelt hat, holt das Ökosystem aus Software und Standards für On-Device-KI noch auf. Entwickler stehen vor einem Dschungel aus Tools und SDKs, wenn sie versuchen, NPUs auf verschiedenen Geräten zu nutzen nimbleedge.com. Wichtige Punkte:
  • Jede Plattform hat ihre eigene API oder SDK: Apple hat Core ML (mit APIs, um die Neural Engine anzusprechen), Android hat Neural Networks API (NNAPI) (obwohl Google Pläne angekündigt hat, diese über Android 14 hinaus weiterzuentwickeln) threads.com, Qualcomm bietet das SNPE (Snapdragon Neural Processing Engine) oder allgemeiner den Qualcomm AI Stack, NVIDIA hat TensorRT und CUDA für seine Geräte, und so weiter. Es gibt auch ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI und andere. Diese unterschiedlichen SDKs haben oft verschiedene Fähigkeiten und erfordern Modellanpassungen, um auf jedem Ziel optimal zu laufen. Wie ein Bericht zu On-Device-KI 2025 feststellte, „Mehrere, inkompatible SDKs (z. B. Core ML, LiteRT, ONNX Runtime) mit unterschiedlicher Operator-Unterstützung und Performance“ zwingen Entwickler zu zusätzlicher Arbeit nimbleedge.com.
  • Fragmentierungsprobleme: Ein Modell, das auf einer Desktop-GPU perfekt läuft, funktioniert möglicherweise nicht ohne Weiteres auf der NPU eines Smartphones – Operatoren (die mathematischen Funktionen) werden eventuell nicht unterstützt oder müssen anders quantisiert werden. Entwickler müssen manchmal separate Builds pflegen oder Modelle manuell für jede Hardware optimieren. Das ist die „Low-Level, fragmentierte Ökosystem“-Beschwerde nimbleedge.com. Auch Debugging-Tools sind rar – das Profilieren einer NPU, um herauszufinden, warum ein Modell langsam ist, kann schwierig sein, besonders im Vergleich zu den umfangreichen Tools für CPUs/GPUs nimbleedge.com.
  • Standardisierungsbemühungen: Um dieses Problem anzugehen, gibt es einige Entwicklungen. ONNX (Open Neural Network Exchange) hat sich als gemeinsames Format etabliert, sodass man ein Modell in PyTorch oder TensorFlow trainieren und dann für den Einsatz nach ONNX exportieren kann. Viele Laufzeitumgebungen (einschließlich solcher auf dem Gerät wie die von Qualcomm und MediaTek) unterstützen das Einlesen von ONNX-Modellen und versuchen, sie für die jeweilige Hardware zu kompilieren. Das hilft, eine Bindung an ein einzelnes Framework zu vermeiden. Android NNAPI war ein Versuch von Google, eine universelle Schnittstelle bereitzustellen – eine App kann über NNAPI anfordern: „Führe dieses neuronale Netz aus“, und das Betriebssystem nutzt den jeweils vorhandenen Beschleuniger (GPU, DSP oder NPU) zur Ausführung. NNAPI wurde auf vielen Android-Geräten übernommen, hatte aber Einschränkungen und nicht alle Anbieter stellten robuste Treiber bereit, sodass Google eine neue Strategie ankündigte (möglicherweise unter Einbeziehung von WebNN oder direkter Anbieter-Integrationen) über 2024 hinaus threads.com. Auf PCs führte Microsoft DirectML und Windows ML APIs ein, um Hardwareunterschiede ähnlich zu abstrahieren (sodass ein Entwickler dieselbe API für NVIDIA-, Intel-, AMD-NPUs nutzen kann).
  • Vereinheitlichte Toolchains: Unternehmen bauen ebenfalls Toolchains, um die Bereitstellung zu vereinfachen. Wir sahen Qualcomms AI Stack, der ihren Compiler (AI Model Efficiency Toolkit) und Laufzeitumgebungen kombiniert, sodass Entwickler gezielter ihre Hexagon-NPU ansprechen können iconnect007.com. NVIDIAs TensorRT und zugehörige SDKs machen Ähnliches für Jetson-Geräte, indem sie Modelle für GPU+NVDLA optimieren. Intel OpenVINO ist ein weiteres Beispiel – es ermöglicht, ein Modell zu nehmen und für Intel-CPUs, iGPUs und VPUs (NPUs) für Edge-Einsätze zu optimieren. Diese Frameworks enthalten oft Modelloptimierer, die Modelle (Pruning, Quantisierung) umwandeln, damit sie auf kleineren Geräten laufen.
  • Interoperabilität: Es gibt Bestrebungen, verschiedene NPUs mit gemeinsamen Frameworks kompatibel zu machen. Zum Beispiel hat Googles TensorFlow Lite Hardware-Delegates – einen für NNAPI (deckt Android-Geräte allgemein ab), einen für Core ML (iOS-Geräte), einen für Edge TPU usw. Die Idee ist, dass man sein TFLite-Modell schreibt und es mit dem besten verfügbaren Beschleuniger über den Delegate ausgeführt wird. Ähnlich fügt PyTorch Unterstützung für mobile Backends und sogar Dinge wie Apples Metal Performance Shaders hinzu (um GPU/NPU auf iOS zu nutzen). ONNX Runtime kann ebenfalls verschiedene Beschleuniger über Plugins ansteuern (z. B. kann man NVIDIAs TensorRT oder ARMs Compute Library oder andere im Hintergrund einbinden).
  • Entstehende Standards: Die Khronos Group (hinter OpenGL/Vulkan) arbeitete an NNEF (Neural Network Exchange Format) und es wird über die WebNN API diskutiert, damit Browser auf lokale KI-Beschleunigung zugreifen können. Keiner davon ist bisher universell übernommen. Aber eine interessante Entwicklung: Ende 2024 gründeten mehrere Unternehmen eine Allianz, um „AI Hardware Common Layer“-Standards voranzutreiben – im Grunde wird geprüft, ob eine gemeinsame Low-Level-Schnittstelle zu NPUs geschaffen werden kann (analog zu OpenCL für Compute auf GPUs). Es ist aber noch früh.
  • Entwicklererfahrung: Es ist eine anerkannte Lücke. Wie im Blog von NimbleEdge gesagt wurde, „die Entwicklung für On-Device-AI erfordert derzeit die Navigation durch ein fragmentiertes und Low-Level-Ökosystem… und zwingt Entwickler dazu, Implementierungen für jedes Hardware-Ziel anzupassen“ nimbleedge.com. Die Branche weiß, dass sich dies verbessern muss, damit On-Device-AI wirklich zum Mainstream wird. Wir könnten eine Konsolidierung sehen – zum Beispiel, wenn Google, Apple und Qualcomm sich auf einen gemeinsamen Satz von Operationen und APIs einigen könnten (vielleicht Wunschdenken). Wahrscheinlicher ist jedoch, dass Frameworks wie PyTorch und TensorFlow die Komplexität verbergen, indem sie all diese Anbieter-Bibliotheken integrieren und zur Laufzeit die richtige auswählen.

Im Wesentlichen liefern NPUs/TPUs zwar die Rechenleistung, aber die Community arbeitet an benutzerfreundlichen Tools, um diese Leistung zu nutzen. Die gute Nachricht ist, dass es im Vergleich zu vor fünf Jahren heute viel mehr Möglichkeiten gibt, ein Modell auf dem Gerät zu deployen, ohne Chipexperte zu sein. Aber es gibt noch Verbesserungsbedarf – insbesondere beim Debugging, Profiling und bei der Unterstützung mehrerer Hardwareplattformen.

Markttrends und Zukunftsausblick

Die Verbreitung von NPUs und TPUs in Geräten treibt einen größeren Trend voran: KI überall. Hier sind einige übergeordnete Trends und was in Zukunft zu erwarten ist:

  • Wachstum des Edge-AI-Marktes: Marktforschung zeigt ein explosives Wachstum bei Edge-AI-Hardware. Der On-Device-AI-Markt (einschließlich Chips und Software) soll bis zum Ende des Jahrzehnts mit einer jährlichen Wachstumsrate von etwa 29 % wachsen nimbleedge.com. Ein Bericht schätzte den Marktwert 2024 auf etwa 233 Milliarden US-Dollar, mit einem Anstieg auf über 1,7 Billionen US-Dollar bis 2032 nimbleedge.com – ein Großteil dieses Wachstums basiert auf Edge-Deployments. Eine weitere Analyse von IDTechEx prognostizierte, dass der KI-Chip-Markt für Edge-Geräte bis 2034 22 Milliarden US-Dollar erreichen wird, wobei Unterhaltungselektronik, Automobil und Industrie die größten Segmente sind idtechex.com. Das bedeutet, dass hunderte Millionen Geräte pro Jahr mit NPUs als Standardkomponente ausgeliefert werden.
  • Allgegenwärtige Verbreitung: Ähnlich wie heute jedes Smartphone eine GPU hat (wenn auch eine kleine), erreichen wir den Punkt, an dem jedes neue Smartphone einen KI-Beschleuniger haben wird. High-End-Telefone haben sie bereits; Mittelklasse-Telefone sind als Nächstes dran. Tatsächlich enthalten Mittelklasse-Chips von Qualcomm (z. B. Snapdragon 7-Serie) und MediaTek (Dimensity 700/800-Serie) jetzt abgespeckte NPUs, sodass Funktionen wie KI-Kamera-Verbesserungen und Sprachassistenten auch auf günstigeren Geräten funktionieren. Über Telefone hinaus verbreiten sich NPUs auf PCs (Standard in neuen Windows-Laptops mehrerer Hersteller), Autos (fast alle neuen Autos mit ADAS Level 2+ haben irgendeinen KI-Chip) und IoT. Sogar Haushaltsgeräte wie Kühlschränke und Waschmaschinen beginnen, „KI“-Funktionen zu bewerben (einige davon cloudbasiert, andere lokal wie adaptive Zyklen basierend auf Sensoren). Der Trend ist klar: Wenn ein Gerät einen Rechenchip hat, wird es irgendeine ML-Beschleunigung auf diesem Chip haben.
  • Leistungsentwicklung: Die KI-Leistung auf dem Gerät verdoppelt sich etwa alle 1–2 Jahre (Kombination aus besserer Architektur und Umstieg auf fortschrittliche Halbleitertechnologien wie 5nm, 4nm, 3nm). Apples Neural Engine stieg von 600 Milliarden Operationen/Sekunde im Jahr 2017 auf 35 Billionen im Jahr 2023 – fast eine 60-fache Steigerung in sechs Jahren apple.fandom.com. Auch Qualcomms Flaggschiffe sprangen von wenigen TOPS im Jahr 2018 auf über 27 TOPS im Jahr 2023 (SD 8 Gen 3’s gesamte KI-Rechenleistung, alle Kerne zusammengezählt). Wir können bis 2025–2026 mit mobilen NPUs rechnen, die 100+ TOPS liefern, und PC-Beschleuniger werden noch mehr erreichen. Diese Zahlen werden jedoch möglicherweise weniger relevant, da der Fokus auf nutzbare Leistung bei bestimmten KI-Aufgaben rückt (zum Beispiel: Wie groß kann ein LLM sein, das flüssig läuft, oder ist 4K-KI-Video in Echtzeit möglich?). Die Lücke zwischen Cloud und Edge wird sich für Inferenzaufgaben wahrscheinlich verringern. Allerdings wird Edge bei den absolut neuesten großen Modellen aufgrund von Strom- und Speicherbeschränkungen weiterhin hinter der Cloud zurückbleiben.
  • Energieeffizienz-Gewinne: Ein unterschätzter Aspekt ist, wie effizient diese NPUs werden. Teslas Auto-NPU erreicht ~4,9 TOPS/Watt fuse.wikichip.org, was vor ein paar Jahren Stand der Technik war; jetzt behaupten einige mobile NPUs, ähnlich oder besser zu sein. Effiziente NPUs bedeuten längere Akkulaufzeit, selbst wenn wir KI-Funktionen häufiger nutzen. Es bedeutet auch, dass KI in winzige batteriebetriebene Geräte eingebaut werden kann (z. B. KI-Hörgeräte, smarte Sensoren mit Knopfzellenbatterien, die Anomalieerkennung durchführen). Das Konzept von TinyML – extrem kleinmaßstäbliches maschinelles Lernen auf Mikrocontrollern – ist eine Erweiterung davon, wobei vereinfachte „NPUs“ oder optimierte Instruktionen auf Mikrocontrollern verwendet werden, um KI in Sensoren zu ermöglichen. ARMs Ethos-U NPU ist auf dieses Segment ausgerichtet (z. B. Always-on-Spracherkennung mit nur wenigen Milliwatt). Es ist mit mehr KI-spezifischen Mini-Chips zu rechnen, die in Sensoren, Wearables und Alltagsgegenstände eingebettet werden können (Smarte Zahnbürste? KI-gestützter Rauchmelder? Es kommt).
  • Hybride Cloud-Edge-Lösungen: Anstatt dass Edge die Cloud vollständig ersetzt, liegt die Zukunft in der Zusammenarbeit. Geräte erledigen lokal, was sie können, und greifen nur für das, was sie nicht können, auf externe Ressourcen zu. Zum Beispiel könnten deine AR-Brillen die lokale Szenenerkennung nutzen, um zu wissen, was du ansiehst, aber wenn du eine sehr komplexe Frage stellst (wie eine ausführliche Erklärung), könnte eine Cloud-KI für eine leistungsstärkere Analyse abgefragt und das Ergebnis dann präsentiert werden. Dieser hybride Ansatz bietet die beste Balance zwischen Reaktionsfähigkeit und Leistungsfähigkeit. Unternehmen gestalten aktiv Erlebnisse rund um dieses Prinzip: Microsofts Copilot unter Windows könnte das lokale NPU nutzen, um schnelle Sprach-zu-Text-Umwandlung und Befehlserkennung durchzuführen, aber für aufwendigere Aufgaben die Cloud verwenden (es sei denn, du hast vielleicht eine leistungsstarke PC-NPU, die das übernehmen kann). Im Idealfall sollte der Nutzer nicht wissen oder sich darum kümmern müssen, was verwendet wird – außer, dass alles schneller und datenschutzfreundlicher ist. Wir werden auch sehen, dass föderiertes Lernen häufiger wird – Modelle werden in der Cloud trainiert, aber mit Hilfe von verschlüsselten oder auf Geräten verarbeiteten Daten, und umgekehrt.
  • Neue Anwendungsfälle: Mit zunehmender Leistungsfähigkeit von NPUs eröffnen sich neue Anwendungen. Generative KI auf dem Gerät ist ein großes Thema – stell dir vor, KI-Bilderstellung, KI-Videobearbeitung und persönliche Chatbots laufen alle auf deinem Handy oder Laptop. Bis 2025 könnten wir erste Versionen von Offline-Assistenten sehen, die deine E-Mails zusammenfassen oder Nachrichtenentwürfe erstellen, ohne die Cloud zu nutzen. Echtzeit-Sprachübersetzung im Gespräch (zwei Personen sprechen verschiedene Sprachen, und Handy oder Ohrhörer übersetzen fast in Echtzeit) wird durch On-Device-Processing enorm verbessert (kein Zeitverzug und funktioniert überall). Gesundheits-KI könnte auf Wearables laufen – deine Smartwatch erkennt Vorhofflimmern oder analysiert Schlafapnoe-Muster mithilfe ihrer NPU. Sicherheit: Geräte könnten lokal KI einsetzen, um Malware oder Phishing in Echtzeit zu erkennen (z. B. Antivirus nutzt ein KI-Modell auf deinem Gerät statt Cloud-Scans). Und in Fahrzeugen könnte KI neben dem Fahren auch das In-Car-Erlebnis personalisieren (z. B. Klimaanlage anpassen, basierend auf deiner wahrgenommenen Stimmung durch eine Fahrer-Kamera-KI usw.). Viele dieser Anwendungsfälle erfordern schnelle Iteration und Datenschutz, was On-Device-Lösungen entgegenkommt.
  • Wettbewerb und Demokratisierung: Die großen Anbieter werden weiter konkurrieren, was für Verbraucher gut ist – erwarte Marketing wie „Unser KI-Chip schafft X TOPS oder ermöglicht Y Funktion, die andere nicht können.“ Aber auch die Technologie demokratisiert sich – NPUs sind nicht mehr nur in 1000-Dollar-Handys; sie kommen in 300-Dollar-Handys, 50-Dollar-IoT-Boards (Coral, Arduino Portenta usw.), und Open-Source-Communities entwickeln winzige KI-Modelle, die Bastler auf einem Raspberry Pi oder Mikrocontroller mit einfachem Beschleuniger laufen lassen können. Diese breite Verfügbarkeit bedeutet, dass Innovation von überall kommen kann. Ein einzelner Entwickler kann jetzt eine App bauen, die On-Device-KI clever nutzt, ohne eine Serverfarm zu benötigen – das senkt die Einstiegshürde für KI-getriebene Software.
  • Zukunftstechnologie: Mit Blick in die Zukunft könnte die Forschung an neuromorpher Datenverarbeitung (vom Gehirn inspirierte Chips wie Intel Loihi) und analogen KI-Chips eines Tages NPUs revolutionieren und Effizienzsteigerungen um Größenordnungen ermöglichen. Unternehmen wie IBM und BrainChip arbeiten daran. Gelingt der Durchbruch, könnte ein neuromorpher Chip komplexe KI dauerhaft auf winzigen batteriebetriebenen Geräten ermöglichen. Wir könnten auch 3D-Stacking und neue Speichertechnologien in NPUs sehen, um Speicherengpässe zu überwinden (einige Chips ab 2025 könnten HBM-Speicher oder neuen nichtflüchtigen On-Chip-Speicher nutzen, um KI-Kerne schneller zu versorgen). Außerdem ist mit mehr Spezialisierung innerhalb von KI-Chips zu rechnen: z. B. separate Beschleuniger für Bildverarbeitung, Sprache, Empfehlungsmodelle usw., jeweils auf ihren Bereich abgestimmt. Einige SoCs verfügen bereits über zwei NPUs (eine „große“ NPU für schwere Aufgaben, eine Mikro-NPU im Sensor-Hub für dauerhaft leichte Aufgaben).

Fazit: Der Trend ist eindeutig: NPUs und TPUs werden so selbstverständlich und unverzichtbar wie CPUs in der modernen Computertechnik. Sie ermöglichen es Geräten, intelligenter, reaktionsschneller und datenschutzfreundlicher zu werden. Wie ein Bericht feststellte, „leistungsstarke Verarbeitungseinheiten auf Geräten sind maßgeblich für die Ausführung komplexer KI-Funktionen wie Bilderkennung, NLP und Echtzeit-Entscheidungen verantwortlich“, und das treibt intelligentere, reaktionsfähigere Technik in allen Branchen voran grandviewresearch.com.

Wir treten in eine Ära ein, in der Sie einfach erwarten, dass Ihr Gerät Ihre Bedürfnisse versteht und vorausahnt – Ihr Handy bearbeitet Fotos und schreibt Nachrichten in Ihrem Stil, Ihr Auto verhindert Unfälle und unterhält Sie mit KI, Ihre Haushaltsgeräte lernen Ihre Vorlieben – all das wird durch die leisen neuronalen Prozessoren im Inneren möglich. KI auf dem Gerät ist keine Science-Fiction; sie ist bereits da und entwickelt sich rasant weiter. Die Verbindung von NPUs und TPUs mit unseren Alltagsgeräten macht KI persönlich, allgegenwärtig und privat – und bringt die Power der Cloud-Intelligenz auf die Erde (oder zumindest in Ihre Hosentasche).

Quellen:

  • Bigelow, Stephen. „GPUs vs. TPUs vs. NPUs: Vergleich von KI-Hardwareoptionen.“ TechTarget, 27. August 2024 techtarget.com. Beschreibt die Rollen und Unterschiede von CPUs, GPUs, TPUs und NPUs bei KI-Workloads.
  • Backblaze Blog. „AI 101: GPU vs. TPU vs. NPU.“ Backblaze, 2023 backblaze.com. Erklärung von Googles TPU-Design (systolische Arrays, geringe Präzision) und NPU-Einsatz in Mobilgeräten.
  • TechTarget WhatIs. „Tensor Processing Unit (TPU).“ whatis.techtarget.com, 2023 techtarget.com. Stellt fest, dass TPUs auf Matrix-Mathematik spezialisiert sind und NPUs neuronale Netzwerke des Gehirns zur Beschleunigung nachahmen techtarget.com.
  • NimbleEdge Blog (Neeraj Poddar). „Der Stand der On-Device-KI: Was fehlt in der heutigen Landschaft.“ 26. Juni 2025 nimbleedge.com. Umreißt Vorteile von On-Device-KI (Latenz, Offline, Datenschutz, Kosten) und Herausforderungen wie fragmentierte SDKs.
  • Qualcomm (OnQ Blog). „Bloomberg und Cristiano Amon sprechen über On-Device-KI.“ Juli 2023 x.com. CEO von Qualcomm über die Bedeutung von On-Device-Inferenz für die Zukunft der KI (Tweet-Zitat über Wendepunkt in der KI).
  • MediaTek Blog (Exec Talk von Will Chen). „Die Zukunft mobiler KI-Erlebnisse gestalten.“ 3. März 2025 mediatek.com. MediaTek- und Oppo-Zusammenarbeit an NPUs; Zitat über Edge Computing in Ihrer Hand und Beispiel für KI-Fotoremastering mit der NPU.
  • I-Connect007 / Qualcomm Press. „Qualcomm arbeitet mit Meta zusammen, um On-Device-KI (Llama 2) zu ermöglichen.“ 24. Juli 2023 iconnect007.com. Pressemitteilung mit Zitat von Qualcomm SVP Durga Malladi über die Skalierung generativer KI über Edge-Geräte und Cloud.
  • PCWorld (Mark Hachman). „Intels Core Ultra CPUs halten KI einfach….“ 24. Okt. 2024 pcworld.com. Bespricht Intel Arrow Lake mit Meteor Lake’s NPU (13 TOPS) und erwähnt AMDs Ryzen 8000 39 TOPS NPU sowie Microsofts 40 TOPS „Copilot“-Anforderung.
  • Ts2 (Tech Empowerment). „Self-Driving Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.“ Sep. 2023 ts2.tech. Liefert TOPS-Schätzungen: Tesla HW3 vs HW4 (72→100 TOPS pro Chip) ts2.tech, NVIDIA Thor ~1000 TOPS (oder 2000 mit Dual) ts2.tech und zitiert NVIDIA VP zu generativer KI in Fahrzeugen ts2.tech.
  • Grand View Research. „On-Device AI Market Report, 2030.“ 2024 grandviewresearch.com. Vermerkt den Aufstieg spezialisierter KI-Chips (NPUs), die komplexe KI auf Geräten ermöglichen, und dass Hardware 2024 60,4 % des On-Device-AI-Marktes ausmachte, getrieben durch Smartphones, IoT, NPUs usw.
  • Google Blog. „Google Tensor G3: Pixel 8’s AI-first processor.“ Okt. 2023 blog.google. Beschreibt die Verbesserungen des Tensor G3 für generative KI auf dem Gerät, neues TPU-Design und ein On-Device-TTS-Modell in Rechenzentrumsqualität.
  • Techspot. „Snapdragon 8 Gen 3 bringt generative KI auf Smartphones.“ Okt. 2023 futurumgroup.com. Futurum Group Analyse mit Details zur SD8Gen3 KI-Engine: 10B Parameter LLM on-device, 98 % schnellere NPU, weltweit schnellste Stable Diffusion auf dem Handy usw., sowie Vorteile von On-Device-LLMs für Kosten/Privatsphäre/Offline futurumgroup.com.
  • Apple Wiki (Fandom). „Neural Engine.“ Aktualisiert 2025 apple.fandom.com. Neural Engine Versionsgeschichte mit A17 Pro 35 TOPS im Jahr 2023 usw. Zeigt die Entwicklung von 0,6 TOPS (A11) zu 35 TOPS (A17) apple.fandom.com und M4 mit 38 TOPS apple.fandom.com.
  • EnGenius Tech. „Cloud Edge Camera AI Surveillance.“ 2023 engeniustech.com. Beispiel für eine Sicherheitskamera mit integriertem NPU, die KI-Verarbeitung auf der Kamera und lokalen Speicher ermöglicht (kein NVR erforderlich).
  • EmbedL. „Amazon veröffentlicht AZ1 Neural Edge Processor.“ Okt. 2020 embedl.com. Bespricht Amazons AZ1 Edge-NPU für Echo-Geräte, gebaut mit MediaTek, entwickelt für Sprachinferenz auf dem Gerät, um Latenz und Cloud-Abhängigkeit zu reduzieren embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Don't Miss

Mobile Network Shockwaves: Outages, 5G Power Plays & 6G on the Horizon (Aug 31–Sep 1, 2025)

Mobilfunk-Erschütterungen: Ausfälle, 5G-Machtspiele & 6G am Horizont (31. Aug.–1. Sep. 2025)

Wichtige Fakten Updates für Verbraucher & Mobilfunknutzer Verizons schwieriges Wochenende:
Fuel Cell Revolution: How Hydrogen Power is Transforming Transportation, Energy and Tech in 2025

Brennstoffzellen-Revolution: Wie Wasserstoffenergie 2025 Verkehr, Energie und Technologie verändert

Laut Dr. Sunita Satyapal wurden 2025 durch staatlich geförderte Forschung