- Apple a lancé l’IA embarquée en 2017 avec le Neural Engine de l’iPhone A11, permettant Face ID et Animoji à jusqu’à 600 milliards d’opérations/seconde.
- En 2023, le Neural Engine 16 cœurs de l’iPhone A17 Pro a atteint environ 35 TOPS, alimentant les fonctions de parole, photographie et traduction sur l’appareil.
- Le Google Pixel 8 (2023) utilise le NPU Tensor G3 pour exécuter des modèles d’IA embarqués comme Palm 2 pour la traduction et la synthèse hors ligne.
- Le Edge TPU de Google sur la Coral Dev Board délivre 4 TOPS de traitement de vision pour quelques watts.
- Le matériel Full Self-Driving de Tesla possède deux NPU : HW3 (2019) offrait environ 144 TOPS, et HW4 (2023) autour de 200–250 TOPS.
- NVIDIA Drive Thor (présenté en 2024) peut atteindre jusqu’à 2000 TOPS lorsque deux puces sont reliées pour les charges de travail IA automobile.
- Le Hexagon NPU du Snapdragon 8 Gen 3 (2023) de Qualcomm est 98 % plus rapide que la Gen 2, peut exécuter des LLM jusqu’à 10 milliards de paramètres sur l’appareil, et a réalisé la diffusion Stable la plus rapide au monde sur mobile lors de démonstrations.
- Le Dimensity 9400 (2024) de MediaTek avec une APU de sixième génération alimente le remastering photo IA de l’Oppo Find X8, signalant l’expansion des NPU vers les TV, l’IoT et l’automobile d’ici 2025.
- Meteor Lake d’Intel, la 14e génération Core (lancée en 2023 ; renommée Core Ultra en 2024), inclut un NPU intégré délivrant environ 8–12 TOPS, avec Arrow Lake à ~13 TOPS et Lunar Lake annoncé autour de 45 TOPS.
- Le Ryzen 7040 Phoenix (2023) d’AMD a introduit le Ryzen AI Engine avec jusqu’à 10 TOPS, tandis que le Ryzen 8000 desktop (début 2024) offrait 39 TOPS avant qu’AMD ne suspende les NPU dans cette génération.
En résumé : Votre smartphone, votre appareil photo, et même votre voiture reçoivent des cerveaux IA intégrés – plus besoin du cloud. Des puces spéciales appelées NPU (Neural Processing Units) et TPU (Tensor Processing Units) transforment les appareils du quotidien en assistants intelligents capables de reconnaissance faciale, commandes vocales, traduction en temps réel, fonctions de conduite autonome et plus encore. Cette révolution de l’IA embarquée promet des réponses ultra-rapides, une meilleure confidentialité, et de nouvelles fonctionnalités qu’on pensait autrefois réservées aux superordinateurs. Dans ce rapport, nous allons démystifier les NPU et TPU, voir en quoi ils diffèrent des CPU/GPU, et explorer pourquoi des géants comme Apple, Google, Qualcomm et Intel s’empressent d’intégrer ces “cerveaux IA” dans tout, des téléphones aux voitures. Nous mettrons aussi en avant les dernières avancées 2024–2025, des avis d’experts, les standards de l’industrie, et ce que l’avenir réserve à l’IA embarquée.
Que sont les NPU et TPU ? (Rencontrez le cerveau IA de votre appareil)
Les unités de traitement neuronal (NPUs) sont des processeurs spécialisés conçus pour accélérer les réseaux neuronaux artificiels – les algorithmes qui alimentent les tâches d’IA modernes comme la reconnaissance d’images, le traitement de la parole, et plus encore. Contrairement aux CPU à usage général, les NPUs sont des circuits intégrés spécifiques à une application (ASICs) optimisés pour les calculs matriciels et les charges de travail massivement parallèles des réseaux neuronaux techtarget.com. Une NPU « imite les réseaux neuronaux d’un cerveau humain pour accélérer les tâches d’IA », agissant essentiellement comme un cerveau en silicium à l’intérieur de votre appareil techtarget.com. Les NPUs excellent dans l’exécution de l’inférence (faire des prédictions) pour les modèles d’IA de manière efficace sur l’appareil, utilisant souvent une précision numérique plus faible (par exemple, des entiers 8 bits) pour économiser de l’énergie tout en offrant de hautes performances backblaze.com. Le terme « NPU » est parfois utilisé de manière large pour tout accélérateur d’IA, mais il fait plus couramment référence à ceux présents dans les appareils mobiles et en périphérie backblaze.com. Par exemple, le « Neural Engine » d’Apple dans les iPhones et le moteur d’IA mobile de Samsung sont des NPUs intégrés dans leurs conceptions de système sur puce (SoC).
Unités de traitement de tenseurs (TPUs), en revanche, ont été créées par Google comme des puces personnalisées pour accélérer l’apprentissage automatique, en particulier pour le framework TensorFlow. Un TPU est un type d’ASIC optimisé pour les opérations sur les tenseurs (multiplications de matrices, etc.) au cœur de l’entraînement et de l’inférence des réseaux neuronaux backblaze.com. Google a d’abord déployé les TPUs dans ses centres de données en 2015 pour accélérer les calculs de réseaux neuronaux, puis les a rendus disponibles via Google Cloud backblaze.com. Les TPUs utilisent une architecture distincte appelée réseau systolique, qui relie de nombreuses petites unités de traitement dans une grille qui fait circuler les données à travers une chaîne d’unités de multiplication de matrices backblaze.com. Cette conception permet d’atteindre un débit extrême sur les tâches d’apprentissage profond. Les TPUs de Google sacrifient volontairement une partie de la précision (en utilisant des calculs sur 8 ou 16 bits au lieu de flottants 32 bits) pour des gains massifs de vitesse et d’efficacité backblaze.com, car de nombreuses tâches d’IA n’ont pas besoin d’une grande précision pour obtenir des résultats précis. Bien que « TPU » désigne techniquement les puces de Google, le terme est parfois utilisé de façon plus générique pour tout accélérateur “tensor”. Notamment, Google produit également des coprocesseurs Edge TPU pour l’IA embarquée dans des produits comme la Coral Dev Board, offrant 4 000 milliards d’opérations par seconde pour quelques watts coral.ai.
En résumé : les NPU et les TPU sont tous deux des accélérateurs silicium pour l’IA, mais les NPU sont généralement intégrés dans les appareils mobiles/périphériques pour une inférence embarquée efficace, tandis que les TPU (au sens strict) sont des puces hautes performances (et désormais des modules) principalement de Google, à l’origine pour des tâches d’entraînement et d’inférence cloud/datacenter. Les deux s’éloignent des conceptions traditionnelles CPU/GPU pour privilégier les opérations mathématiques parallèles pour les réseaux neuronaux. Comme l’a dit un rédacteur technique, « Les TPU poussent la spécialisation plus loin, se concentrant sur les opérations de tenseur pour atteindre des vitesses et des efficacités énergétiques supérieures… Les NPU sont répandus dans les appareils dotés d’IA comme les smartphones et les objets connectés » backblaze.com.
En quoi les NPU et les TPU diffèrent-ils des CPU et des GPU ?
Les CPU (unités centrales de traitement) traditionnels sont le « cerveau » de l’informatique générale – optimisés pour la flexibilité afin de gérer toutes sortes de tâches, de l’exécution de votre système d’exploitation à la navigation sur le web. Ils possèdent quelques cœurs puissants qui excellent dans la logique séquentielle et les instructions variées, mais ils ne sont pas très performants pour les calculs mathématiques hautement parallèles nécessaires à l’apprentissage profond techtarget.com. Lorsqu’un CPU doit traiter un grand réseau de neurones, il devient souvent un goulot d’étranglement, essayant d’exécuter des millions de multiplications et d’additions en séquence ou en lots parallèles limités. Cela entraîne une latence élevée et une forte consommation d’énergie (le fameux goulot d’étranglement de Von Neumann lié au transfert massif de données entre le CPU et la mémoire) backblaze.com. Les CPU peuvent effectuer certaines tâches d’IA (notamment pour des modèles plus simples ou plus petits, ou la logique de contrôle des programmes d’IA techtarget.com), mais en règle générale, ils peinent à répondre efficacement aux exigences de l’IA moderne en matière de calcul linéaire massivement parallèle.
Les GPU (unités de traitement graphique) ont mis l’informatique parallèle au premier plan. Conçus à l’origine pour le rendu d’images en effectuant de nombreuses opérations simples en parallèle sur les pixels et les sommets, les GPU se sont révélés bien adaptés à l’entraînement des réseaux de neurones, qui consistent également à appliquer les mêmes opérations mathématiques (produits scalaires, etc.) sur de grandes quantités de données simultanément techtarget.com. Un GPU contient des centaines ou des milliers de petits cœurs capables d’effectuer des calculs en parallèle. Cela rend les GPU excellents pour l’IA à grande échelle, et tout au long des années 2010, les GPU (notamment ceux de NVIDIA avec le logiciel CUDA) sont devenus le pilier de la recherche en apprentissage profond. Cependant, les GPU restent relativement généralistes – ils doivent gérer diverses tâches graphiques et conserver une certaine flexibilité, ils ne sont donc pas 100 % optimisés pour les réseaux neuronaux. Ils consomment également beaucoup d’énergie et nécessitent une programmation soignée pour être pleinement exploités (ils n’aiment pas les codes à embranchements complexes et excellent dans les tâches rationalisées et massivement parallèles sur les données) techtarget.com.
Les NPU et les TPU poussent la spécialisation encore plus loin. Ils sont conçus spécifiquement pour uniquement la charge de travail des réseaux neuronaux. Cela signifie que leur architecture peut éliminer tout ce qui n’est pas nécessaire pour les calculs d’IA et consacrer plus de silicium à des éléments comme les unités de multiplication de matrices, les additionneurs d’accumulation, et la mémoire embarquée pour transférer rapidement les données vers et depuis ces unités de calcul. Un TPU Google Cloud, par exemple, est essentiellement un immense réseau 2D d’unités MAC (multiply-accumulate) avec une architecture de flux de données ingénieuse (le réseau systolique) qui les alimente en opérandes à grande vitesse backblaze.com. Il ne s’embarrasse pas de caches, d’exécution spéculative ou d’autres fonctionnalités de CPU – il est optimisé pour le calcul matriciel. Les NPU dans les puces mobiles intègrent de la même manière des cœurs de moteur neuronal dédiés aux côtés du CPU/GPU. Ces cœurs utilisent souvent de l’arithmétique en basse précision (par exemple, des entiers 8 bits comme les TPU) et effectuent des calculs hautement parallèles “couche par couche” pour des tâches comme les réseaux neuronaux convolutifs. Un NPU peut utiliser une architecture “fusionnée” combinant des unités scalaires, vectorielles et tensorielles (c’est le cas du NPU Hexagon de Qualcomm) pour gérer efficacement différentes opérations de réseaux neuronaux futurumgroup.com.
Les principales différences se résument à :
- Jeu d’instructions et flexibilité : Les CPU ont un jeu d’instructions large et généraliste (peuvent faire beaucoup de choses, mais pas toutes simultanément). Les GPU ont un jeu d’instructions plus limité mais encore flexible, optimisé pour le débit en calculs mathématiques. Les NPU/TPU ont un jeu d’instructions très restreint – essentiellement juste les opérations nécessaires pour les réseaux neuronaux (multiplication de matrices, convolution, fonctions d’activation), souvent implémentées comme des pipelines ou réseaux fixes fuse.wikichip.org. Par exemple, le NPU de conduite autonome de Tesla n’a que 8 instructions dans son ISA, axées sur les lectures/écritures DMA et les produits scalaires fuse.wikichip.org.
- Parallélisme et cœurs : Les CPU = quelques cœurs puissants ; les GPU = des milliers de cœurs simples ; les NPU/TPU = en un sens, des dizaines de milliers d’ALU très simples (les unités MAC) organisées en matrice ou en réseau de neurones. Une seule puce NPU peut effectuer des dizaines de milliers de milliards d’opérations par seconde – le NPU des voitures Tesla fonctionne à 2 GHz avec 9 216 MAC, atteignant environ 37 tera-opérations par seconde (TOPS) par cœur, et chaque puce FSD possède deux NPU pour environ 74 TOPS fuse.wikichip.org, ts2.tech. À titre de comparaison, un CPU haut de gamme n’atteint que quelques centaines de milliards d’opérations/seconde sur des tâches d’IA, et un GPU peut-être quelques TOPS s’il n’utilise pas de cœurs tensoriels spéciaux.
- Architecture mémoire : Les NPU/TPU s’appuient sur une mémoire embarquée rapide et sur le streaming de données. Les TPU évitent le goulot d’étranglement classique de la mémoire en utilisant un flux de données systolique – chaque petite unité transmet les données à la suivante en cadence, minimisant les lectures/écritures vers la mémoire principale backblaze.com. De nombreux NPU incluent un bloc de SRAM embarqué pour les poids/activations (par exemple, les cœurs NPU de Tesla disposent chacun de 32 Mo de SRAM pour stocker localement les données du réseau de neurones) semianalysis.com. Cela contraste avec les GPU/CPU qui utilisent massivement la DRAM externe.
- Précision : Les CPU/GPU effectuent généralement des calculs en virgule flottante 32 bits ou 64 bits. Les accélérateurs d’IA utilisent souvent des entiers 16 bits ou 8 bits (et certains explorent désormais le 4 bits voire le 2 bits) car les réseaux de neurones tolèrent une moindre précision. Les concepteurs du TPU de Google ont explicitement noté qu’il n’est pas nécessaire d’avoir une précision flottante complète pour l’inférence, analogue à « il n’est pas nécessaire de savoir exactement combien de gouttes de pluie tombent pour savoir qu’il pleut fort » backblaze.com. Cela permet aux NPU/TPU d’effectuer plus d’opérations en parallèle et de consommer moins d’énergie par opération.
- Cas d’utilisation : Les GPU sont encore largement utilisés pour l’entraînement de grands modèles et pour le calcul flexible (et ils sont courants dans les centres de données et les PC haut de gamme). Les TPU (cloud) visent l’entraînement et l’inférence à grande échelle dans l’écosystème Google. Les NPU se trouvent plus souvent dans les appareils edge – smartphones, caméras, appareils électroménagers – effectuant l’inférence sur des modèles déjà entraînés. Ils excellent dans des tâches comme l’application d’un modèle de vision à une image de caméra en temps réel, ou l’exécution continue à faible consommation d’énergie d’une détection de mot-clé pour assistant vocal. Comme l’a noté TechTarget : « Les GPU sont choisis pour leur disponibilité et leur rentabilité dans de nombreux projets ML ; les TPU sont généralement plus rapides et moins précis, utilisés par les entreprises sur Google Cloud ; les NPU se trouvent couramment dans les appareils edge/mobiles pour un traitement local nettement plus rapide » techtarget.com.
En résumé, CPUs = organisateurs polyvalents, GPUs = bêtes de somme du calcul parallèle, TPUs/NPUs = spécialistes des réseaux neuronaux. Tous peuvent coopérer – en fait, dans un appareil moderne doté d’IA, le CPU coordonne souvent les tâches et délègue les parties les plus lourdes en calcul à la NPU/GPU selon les besoins techtarget.com. Cette tendance à la spécialisation existe parce qu’une solution unique ne convient plus à tous les usages en informatique : comme l’a dit un éditeur, « ajouter des millions de transistors pour chaque besoin n’était pas efficace… les concepteurs ont adopté des processeurs dédiés » techtarget.com. Les NPUs et TPUs spécialisés accélèrent considérablement les calculs d’IA tout en maintenant une faible consommation d’énergie – un équilibre crucial pour les appareils sur batterie et les serveurs à haute densité.
Pourquoi l’IA embarquée ? (Edge vs. Cloud)
Pourquoi s’embêter à faire tourner l’IA sur votre téléphone ou votre voiture – pourquoi ne pas tout envoyer dans le cloud où d’énormes serveurs (avec GPU/TPU) peuvent faire le gros du travail ? Plusieurs raisons convaincantes expliquent le passage à on-device AI, et elles se résument à la vitesse, la confidentialité, le coût et la fiabilité nimbleedge.com :
- Réponse instantanée (faible latence) : Une NPU embarquée peut traiter les données en temps réel sans le délai d’aller-retour lié à l’envoi des données à un serveur cloud. C’est crucial pour les tâches d’IA interactives ou critiques pour la sécurité. Par exemple, le système de conduite autonome d’une voiture utilisant des NPUs embarquées peut identifier un piéton et freiner immédiatement, en quelques millisecondes, plutôt que d’attendre le calcul dans le cloud. Une caméra intelligente avec une NPU peut détecter un intrus dès qu’il apparaît dans le champ. Sur votre téléphone, l’IA embarquée permet à votre assistant vocal de répondre plus vite et plus naturellement car il ne “rappelle” pas sans cesse le cloud. La latence réduite permet une prise de décision véritablement en temps réel et une expérience utilisateur plus fluide nimbleedge.com.
- Confidentialité et sécurité des données : L’IA embarquée garde vos données locales. Au lieu de transmettre le son de votre micro ou le flux de votre caméra vers le cloud pour analyse, le traitement se fait à l’intérieur de l’appareil. Cela réduit considérablement l’exposition des données sensibles. Par exemple, les smartphones modernes effectuent la reconnaissance faciale (Face ID, etc.) entièrement sur l’appareil – la carte biométrique de votre visage ne quitte jamais l’enclave sécurisée du téléphone. De même, une aide auditive ou un dispositif de santé intelligent peut analyser les données biométriques sans les télécharger sur un serveur, préservant ainsi la confidentialité. Compte tenu des préoccupations croissantes des utilisateurs et des réglementations sur la souveraineté des données, c’est un avantage majeur. Comme l’a dit un blog sur l’edge AI, le traitement embarqué signifie que « les données utilisateur n’ont pas besoin d’être transmises au cloud », offrant un bénéfice de confidentialité de base nimbleedge.com. (Bien sûr, la confidentialité n’est pas automatique – les développeurs doivent toujours gérer les données stockées avec soin – mais il est plus facile de faire confiance à des appareils qui n’envoient pas constamment vos informations à l’extérieur.) Les PDG de la tech insistent souvent sur cet aspect. Le PDG de Qualcomm, Cristiano Amon, a noté que combiner l’intelligence du cloud et celle embarquée peut améliorer la personnalisation tout en gardant les données sécurisées sur l’appareil – il appelle cela un « futur hybride » où l’IA embarquée collabore avec l’IA cloud pour le meilleur des deux moomoo.com.
- Disponibilité hors ligne & fiabilité : Les appareils dotés de NPU/TPU ne dépendent pas de la connectivité. Ils peuvent fonctionner dans un tunnel de métro, dans un avion, dans des zones rurales isolées ou lors de pannes de réseau. C’est un atout majeur pour la fiabilité. Une fonction de dictée vocale embarquée continuera de fonctionner sans signal. Un drone doté d’une IA de vision embarquée peut éviter les obstacles même hors réseau. Cette indépendance est également cruciale pour les systèmes critiques : par exemple, des robots de secours en cas de catastrophe ou des dispositifs médicaux qui ne peuvent pas supposer une connexion Internet active. « La fonctionnalité hors ligne » est un avantage clé de l’IA embarquée nimbleedge.com – elle garantit que la fonction IA est disponible partout et à tout moment.
- Efficacité des coûts à grande échelle : Envoyer constamment des données brutes vers le cloud pour un traitement IA peut coûter très cher (le calcul dans le cloud n’est pas gratuit) et consommer beaucoup de bande passante. À mesure que les fonctionnalités IA se multiplient, les entreprises devraient payer des factures de cloud énormes si chaque petite tâche sollicitait un serveur. En faisant plus de traitements en périphérie, elles réduisent la charge sur les serveurs cloud et l’utilisation du réseau. Il est souvent plus efficace de dépenser quelques dollars de plus pour une meilleure puce dans l’appareil que de payer pour des gigaoctets de calcul cloud sur toute la durée de vie de l’appareil. Une analyse du secteur par Futurum a noté que le traitement embarqué aide à résoudre les problèmes d’échelle et de coût de l’IA générative – il « répartit » la charge pour que les centres de données ne soient pas saturés (et que les utilisateurs/développeurs ne paient pas des fortunes pour du temps GPU cloud) futurumgroup.com.
- Personnalisation & Contexte : Une raison émergente : l’IA embarquée peut apprendre du contexte local et s’y adapter d’une manière que l’IA cloud ne peut pas forcément. Votre smartphone peut maintenir un petit modèle local qui apprend votre style de texte pour améliorer l’autocorrection, sans partager ce modèle linguistique personnel avec le cloud. Les appareils peuvent fusionner les données de plusieurs capteurs en temps réel (ce qui est plus facile à faire localement que de diffuser de nombreux flux de capteurs vers le cloud). Cela permet une expérience plus personnalisée et sensible au contexte. Certaines fonctionnalités comme l’apprentissage fédéré permettent même aux appareils d’améliorer les modèles d’IA de façon collaborative sans envoyer de données brutes (seulement de petites mises à jour de poids).
- Réglementation et souveraineté des données : Des lois comme le RGPD européen et diverses exigences de localisation des données imposent de plus en plus que certaines données (notamment personnelles ou sensibles) ne soient pas envoyées à l’étranger ou à des tiers sans consentement. L’IA embarquée offre un moyen de se conformer en traitant les données à la source. Par exemple, des outils d’IA pour l’imagerie médicale peuvent fonctionner sur le matériel de l’hôpital (serveurs edge avec NPU) afin que les données des patients ne quittent jamais les lieux, répondant ainsi aux réglementations sur la vie privée. Le rapport 2025 de NimbleEdge souligne que les gouvernements poussent à plus d’inférences locales pour des raisons de souveraineté et de conformité nimbleedge.com.
Tous ces facteurs entraînent un changement de paradigme : au lieu de penser “cloud-first” pour l’IA, les entreprises conçoivent désormais les fonctionnalités d’IA “device-first” quand c’est possible. Comme l’a résumé Durga Malladi, VP IA de Qualcomm : « Pour généraliser l’IA générative, il faudra qu’elle fonctionne à la fois dans le cloud et sur les appareils en périphérie… comme les smartphones, ordinateurs portables, véhicules et objets connectés » iconnect007.com. Nous évoluons vers un monde hybride de l’IA où l’entraînement lourd et les grands modèles restent dans le cloud, mais de nombreuses tâches d’inférence et expériences d’IA personnelle s’exécutent localement sur les NPU/TPU dans vos mains et vos foyers. D’ailleurs, Amon parle d’un « tournant de l’IA » – une inférence embarquée sans latence, où « l’avenir de l’IA est personnel » car elle fonctionne là où vous êtes x.com.
L’IA embarquée en action : des smartphones aux voitures autonomes
Des puces d’IA spécialisées sont déjà intégrées dans une large gamme d’appareils autour de vous, les rendant souvent plus intelligents de façon invisible. Voici quelques grands domaines où les NPU et les TPU edge sont déployés :
- Smartphones & Tablettes : Presque tous les téléphones phares modernes (et même de nombreux modèles milieu de gamme) intègrent désormais une NPU ou un moteur IA dédié. Apple a lancé la tendance en 2017 avec le Apple Neural Engine dans la puce A11 de l’iPhone, permettant Face ID et Animoji sur l’appareil en effectuant jusqu’à 600 milliards d’opérations/seconde apple.fandom.com. Aujourd’hui, la puce A17 Pro d’Apple (2023) embarque un Neural Engine à 16 cœurs capable de 35 000 milliards d’opérations par seconde apple.fandom.com. Cela alimente des fonctionnalités comme la détection avancée de scènes photo, les styles photo, les commandes vocales Siri traitées hors ligne, la correction automatique, la transcription en direct, et même l’exécution de modèles transformers pour la traduction sur l’appareil. Les téléphones Pixel de Google disposent également de puces personnalisées (« Google Tensor » SoC) avec NPU : le dernier Tensor G3 du Pixel 8 a été « conçu sur mesure pour exécuter les modèles IA de Google », améliorant chaque partie de la puce (CPU, GPU, ISP) pour ouvrir la voie à l’IA générative sur l’appareil blog.google. Le Pixel 8 peut exécuter localement les modèles de pointe de Google pour la synthèse vocale et la traduction localement, les mêmes qui étaient auparavant confinés aux data centers blog.google. Il réalise aussi des prouesses photo complexes comme la fusion de photos de groupe « Best Take » et Audio Magic Eraser grâce à une suite de modèles IA sur l’appareil blog.google. Samsung et d’autres fabricants Android utilisent les chipsets Snapdragon de Qualcomm, dont les dernières NPU (Hexagon AI engine) peuvent même exécuter de grands modèles de langage sur le téléphone – Qualcomm a démontré l’exécution d’un LLM de 10 milliards de paramètres et même la génération d’images Stable Diffusion sur un téléphone équipé du Snapdragon 8 Gen 3 futurumgroup.com. Le moteur IA de cette puce est 98 % plus rapide que la génération précédente et prend en charge la précision INT4 pour plus d’efficacité futurumgroup.com. Conséquence pratique : votre téléphone de 2024 peut faire des choses comme résumer des articles, répondre à des questions ou éditer des photos avec l’IA sans avoir besoin du cloud. Même les fonctionnalités d’accessibilité en bénéficient : par exemple, les téléphones Pixel proposent désormais la saisie vocale sur l’appareil, les sous-titres en direct, et une future fonctionnalité pour décrire les images aux utilisateurs aveugles à l’aide d’un modèle local.
- Caméras intelligentes et systèmes de sécurité : Les caméras dotées d’IA utilisent des NPU intégrés pour détecter instantanément des personnes, des visages, des animaux ou des comportements suspects. Par exemple, les dernières caméras de sécurité d’EnGenius incluent un NPU intégré qui gère la détection d’objets et convertit la vidéo en métadonnées directement sur la caméra, éliminant le besoin d’un enregistreur vidéo séparé et renforçant la sécurité (puisque la vidéo peut être analysée et stockée localement) engeniustech.com. Cela signifie que votre caméra de sécurité peut décider « personne présente » ou « colis livré » et n’envoyer que cette alerte, au lieu de diffuser des heures de séquences vers un service cloud. De même, des appareils grand public comme la Google Nest Cam IQ disposaient d’une puce de vision embarquée (Google Edge TPU) pour reconnaître les visages familiers et différencier humains et animaux dans son champ de vision. Les appareils photo reflex et hybrides ajoutent également des processeurs IA pour le suivi de sujet, l’autofocus sur l’œil et l’optimisation de la scène en temps réel. Dans les drones, les puces IA embarquées aident à l’évitement d’obstacles et à la navigation visuelle sans nécessiter de contrôle à distance. Notamment, Edge TPU de Google (un minuscule module ASIC) est devenu un accessoire populaire pour les caméras DIY et industrielles IoT – il fournit 4 TOPS de puissance de traitement visuel pour des tâches comme la détection de personnes ou la lecture de plaques d’immatriculation, tout en ne consommant qu’environ 2 watts coral.ai.
- Maison intelligente et appareils IoT : Au-delà des téléphones, de nombreux gadgets pour la maison intelligente possèdent de mini NPU. Les enceintes à commande vocale (Amazon Echo, Google Nest Hub, etc.) incluent désormais souvent des puces de reconnaissance vocale locale. Amazon a développé le processeur AZ1 Neural Edge pour les appareils Echo afin d’accélérer la détection du mot d’activation d’Alexa et les réponses sur l’appareil, réduisant la latence de moitié embedl.com. L’AZ1 (conçu avec MediaTek) exécute un réseau neuronal qui reconnaît « Alexa » et traite les commandes simples sans passer par le cloud embedl.com. Cela rend Alexa non seulement plus réactive mais permet aussi de garder plus de données vocales privées. De même, de nombreux nouveaux téléviseurs, appareils électroménagers et même jouets intègrent de l’IA en périphérie – par exemple, la caméra d’un réfrigérateur intelligent peut identifier les aliments et les dates de péremption localement. Les objets connectés portables méritent aussi d’être mentionnés : la puce S9 de l’Apple Watch a ajouté un Neural Engine à 4 cœurs pour mieux gérer les algorithmes de santé IA et les requêtes Siri directement sur la montre apple.fandom.com. Et côté industriel, les capteurs IoT dotés de NPU peuvent effectuer une détection d’anomalies sur les données d’équipement directement en périphérie, ne signalant en amont que les événements pertinents (ce qui économise de la bande passante et permet de réagir plus rapidement aux problèmes).
- Automobiles (ADAS et autonomie) : Les voitures sont devenues des centres d’IA sur roues. Les systèmes avancés d’aide à la conduite (ADAS) et les fonctionnalités de conduite autonome reposent sur une suite d’accélérateurs IA embarqués pour interpréter les flux des caméras, le LiDAR, le radar, et prendre des décisions de conduite en une fraction de seconde. Tesla a notamment conçu son propre FSD (Full Self-Driving) Computer avec deux puces NPU. La puce FSD de Tesla (HW3, introduite en 2019) offrait 144 TOPS (deux NPU à 72 TOPS chacun) ; la nouvelle HW4 (2023) porte ce chiffre à environ 200–250 TOPS au total (deux NPU 7nm à plus de 100 TOPS chacun) ts2.tech. Cela permet à la voiture de traiter simultanément la vidéo en pleine résolution de 8 caméras, le sonar, etc., via des réseaux neuronaux pour la perception et même d’exécuter certains modèles de langage pour les commandes vocales – le tout localement dans le module de la voiture. Des plateformes concurrentes comme NVIDIA Drive et Qualcomm Snapdragon Ride intègrent également des NPU. La dernière puce supercalculateur automobile de NVIDIA, Drive Thor, prévue pour les voitures de 2025, affiche jusqu’à 1 000 TOPS sur une seule puce (et 2 000 TOPS lorsqu’elles sont appairées) pour supporter l’autonomie de niveau 4 ts2.tech. Elle combine un GPU, un CPU et des accélérateurs d’apprentissage profond dédiés afin de pouvoir tout gérer, de la reconnaissance des panneaux routiers à l’IA de surveillance du conducteur sur la puce ts2.tech. Ces NPU sont littéralement vitaux : une voiture autonome ne peut pas attendre les serveurs cloud si un enfant traverse la rue. L’IA embarquée doit voir et réagir en quelques dizaines de millisecondes. En dehors des voitures particulières, on trouve également un usage intensif de l’IA en périphérie dans les drones autonomes, robots de livraison et véhicules industriels qui naviguent et prennent des décisions grâce à des NPU/TPU embarqués (par exemple, les robots de livraison de Nuro et de nombreux systèmes de camions autonomes utilisent des puces IA NVIDIA ou Huawei sur l’appareil).
- Edge Computing & Industrie : Dans les usines et les environnements d’entreprise, l’IA embarquée prend souvent la forme de serveurs edge ou passerelles avec des accélérateurs IA. Au lieu d’envoyer les flux de caméras ou les données des capteurs vers un cloud central, les entreprises installent des boîtiers edge (parfois à base de GPU, parfois à base de NPU/FPGA) sur site. Ceux-ci gèrent des tâches comme l’analyse vidéo en temps réel pour le contrôle qualité sur une ligne de production, détectant les défauts grâce à la vision IA en quelques microsecondes. Les dispositifs médicaux sont un autre exemple : une échographie portable ou une IRM peut intégrer un NPU pour effectuer l’analyse d’images IA directement sur l’appareil, permettant aux médecins d’obtenir une aide diagnostique instantanée sans connexion internet (ce qui est aussi meilleur pour la confidentialité des données patients). Le commerce de détail et les villes déploient aussi l’IA en edge – par exemple, des caméras de circulation intelligentes avec NPU pour analyser la congestion et ajuster les feux, ou des caméras de rayons en magasin qui suivent les stocks. Beaucoup utilisent des NPU spécialisés comme les puces Intel Movidius Myriad, l’Edge TPU de Google ou de nouveaux acteurs comme Hailo-8 (un NPU israélien délivrant 26 TOPS en quelques watts pour les caméras). Le point commun est que ces accélérateurs permettent l’analyse localement, obtenant des résultats en temps réel et ne transmettant sur les réseaux que des informations de haut niveau (plutôt que des données brutes).
La polyvalence des NPU/TPU à travers les types d’appareils est impressionnante. Un instant, ils permettent à votre téléphone de flouter l’arrière-plan d’une photo avec l’IA, l’instant d’après ils guident un drone ou analysent des images médicales. Les appareils photo des smartphones utilisent désormais les NPU pour des fonctions comme le mode Nuit (agrégation intelligente de plusieurs images), le mode Portrait bokeh, la reconnaissance de scène (votre téléphone sait que vous photographiez un “coucher de soleil” et optimise les couleurs via l’IA), et même pour des effets AR ludiques (Animoji qui cartographie votre visage, ou filtres Snapchat qui suivent vos mouvements – tout cela grâce aux réseaux neuronaux embarqués). La biométrie utilise les NPU : lecteurs d’empreintes améliorés par l’IA pour la détection de vivacité, déverrouillage facial avec capteurs de profondeur et IA. L’audio les utilise aussi : la réduction de bruit dans les écouteurs et téléphones est désormais souvent pilotée par l’IA, les NPU séparant la voix du bruit ambiant en temps réel.
Un exemple concret d’innovation en 2024 : Oppo (le fabricant de smartphones), en partenariat avec MediaTek, a annoncé avoir implémenté un modèle IA Mixture-of-Experts (MoE) directement sur l’appareil fin 2024 – apparemment le premier à le faire sur un téléphone grandviewresearch.com. Cette architecture avancée de réseau neuronal (MoE) peut améliorer les performances en activant uniquement les sous-réseaux “experts” pertinents pour chaque tâche, et le faire sur l’appareil signifie que les téléphones Oppo peuvent obtenir un traitement IA plus rapide et une meilleure efficacité énergétique pour des tâches complexes, sans avoir besoin du cloud grandviewresearch.com. Cela montre à quel point la recherche IA de pointe arrive rapidement dans nos appareils portables grâce à l’amélioration des NPU.
À l’intérieur des puces IA 2025 : dernières avancées chez Apple, Google, Qualcomm et autres
La course à la création de meilleurs matériels IA embarqués s’est rapidement intensifiée. Voici un aperçu de ce que les grandes entreprises ont récemment lancé (2024–2025) en matière de NPU/TPU et de silicium IA :
- Apple : La stratégie de puces personnalisées d’Apple a depuis longtemps mis l’accent sur l’apprentissage automatique sur l’appareil. Chaque année, le Neural Engine d’Apple gagne en puissance. Dans l’iPhone 15 Pro de 2023, la puce A17 Pro a atteint 35 TOPS (mille milliards d’opérations par seconde) avec ses 16 cœurs apple.fandom.com. C’était le double du débit brut du NPU de l’A16, et Apple s’en est servi pour permettre, par exemple, la reconnaissance vocale sur l’appareil pour Siri (traitant enfin de nombreuses requêtes Siri sans internet) et de nouvelles capacités photo (comme le mode Portrait capturé automatiquement, et la traduction en direct de texte via l’appareil photo). Les puces Apple de 2024 ont poursuivi cette tendance : la famille M3 pour Mac (fin 2023) a reçu un Neural Engine mis à jour (curieusement réglé à 18 TOPS pour la puce M3 de base, avec un accent sur l’efficacité) apple.fandom.com. En 2024, Apple a introduit la puce M4 (pour iPad/Mac haut de gamme, mi-2024) qui aurait porté le Neural Engine à 38 TOPS sur un procédé 3nm affiné apple.fandom.com. Au-delà des chiffres, Apple utilise ce NPU : des fonctionnalités comme Personal Voice (qui crée un clone de la voix de l’utilisateur après 15 minutes d’entraînement) fonctionnent en privé sur le Neural Engine des iPhone, et les transcriptions de Live Voicemail se font localement. Apple a aussi intégré des NPU dans toutes ses catégories d’appareils – même les AirPods Pro possèdent une puce neuronale miniature pour l’Audio Adaptatif. Les dirigeants d’Apple mettent souvent en avant l’argument de la confidentialité : « l’apprentissage automatique sur votre appareil » signifie que vos données restent chez vous. D’ici 2025, on s’attend à ce que le Neural Engine d’Apple s’étende encore ou devienne accessible aux applications tierces de nouvelles façons (Core ML permet déjà aux développeurs de l’utiliser, mais Apple pourrait ouvrir davantage l’accès aux API neuronales). Il y a aussi des rumeurs selon lesquelles Apple concevrait un accélérateur IA autonome pour de futures lunettes ou voitures, mais les produits actuels montrent qu’ils préfèrent des NPU intégrés dans leurs SoC des séries A et M.
- Google : Google n’a pas seulement été pionnière avec le cloud TPU, mais a aussi misé sur l’IA embarquée pour les téléphones Pixel et les appareils grand public. Le Google Tensor SoC (introduit pour la première fois en 2021 dans le Pixel 6) était unique en son genre : Google, célèbre pour le cloud, a conçu une puce de téléphone pour exécuter l’IA directement sur l’appareil. Avec le Tensor G3 (dans le Pixel 8 de 2023), Google a mis en avant des améliorations permettant l’IA générative embarquée. Google a explicitement déclaré que la puce du Pixel 8 apporte « la recherche en IA de Google directement sur nos tout derniers téléphones » blog.google. Le TPU de nouvelle génération du Tensor G3 (Google appelle toujours le cœur IA un « TPU » en interne) permet au Pixel d’exécuter des modèles avancés comme Palm 2 ou Gemini Nano (versions allégées des grands modèles de langage de Google) sur l’appareil, pour des fonctionnalités telles que le résumé de sites web ou l’amélioration de la saisie vocale reddit.com. Une fonctionnalité phare : le Pixel 8 peut exécuter localement le meilleur modèle de synthèse vocale de Google (celui utilisé dans les data centers), ce qui permet au téléphone de lire des pages web à voix haute avec des voix naturelles et même de les traduire en temps réel, le tout hors ligne blog.google. Google utilise également le TPU du Pixel pour la photographie (imagerie multi-frames « HDR+ », suppression d’objets Magic Eraser grâce à l’inpainting IA blog.google), pour la sécurité (déverrouillage facial embarqué via IA désormais jugé suffisamment sûr pour les paiements blog.google), et pour la voix (l’Assistant qui ne se formalise pas si vous dites « euh »). Au-delà des téléphones, Google propose la Coral Dev Board et une clé USB pour que les amateurs et les entreprises ajoutent des Edge TPU à leurs projets, chacune contenant l’Edge TPU de Google qui fournit 4 TOPS pour les tâches de vision avec une très faible consommation coral.ai. Il est utilisé dans certains produits Google comme le Nest Hub Max pour la reconnaissance gestuelle. Pour Google, intégrer des TPU à la périphérie fait partie d’une stratégie plus large : Sundar Pichai (PDG de Google) a déclaré que l’avenir de l’IA consiste à augmenter chaque expérience, et il est clair que Google considère que « pour apporter la puissance transformatrice de l’IA à la vie quotidienne, il faut y accéder depuis l’appareil que vous utilisez chaque jour » blog.google – d’où les puces Tensor. On peut s’attendre à un Tensor G4 dans les téléphones Pixel de fin 2024, peut-être fabriqué sur le nouveau procédé de Samsung ou TSMC, améliorant encore les performances et l’efficacité de l’IA, et peut-être même permettant une IA multimodale embarquée (combinant modèles vision+langage).
- Qualcomm : Le principal fournisseur de puces mobiles pour téléphones Android a fortement mis en avant son AI Engine dans la série Snapdragon. Le Snapdragon 8 Gen 2 (fin 2022) a introduit la prise en charge dédiée de l’INT4 et a démontré la génération d’images stable diffusion en temps réel sur un téléphone. Le Snapdragon 8 Gen 3 (annoncé fin 2023, dans les téléphones phares de 2024) représente un saut majeur : Qualcomm affirme que son NPU Hexagon est 98 % plus rapide que celui de la Gen 2 et 40 % plus économe en énergie futurumgroup.com. Cette puce peut exécuter des modèles de langage de grande taille avec jusqu’à 10 milliards de paramètres entièrement sur l’appareil, traitant environ 20 tokens par seconde – suffisant pour des conversations simples avec un assistant IA sans passer par le cloud futurumgroup.com. Elle a également réalisé la “génération d’images Stable Diffusion la plus rapide au monde” sur un appareil mobile lors de démonstrations futurumgroup.com. Qualcomm affirme haut et fort que l’IA générative embarquée est un argument clé pour les nouveaux téléphones. Par exemple, ils se sont associés à Meta pour optimiser le LLM open source Llama 2 pour Snapdragon, dans le but de permettre l’exécution d’un chatbot IA sur votre téléphone d’ici 2024 iconnect007.com. (Un dirigeant de Qualcomm a déclaré : « nous saluons l’approche ouverte de Meta… pour faire évoluer l’IA générative, elle doit fonctionner à la fois sur le cloud et en périphérie », renforçant la philosophie de l’IA en périphérie iconnect007.com.) Au-delà des téléphones, Qualcomm intègre des NPU dans les puces pour ordinateurs portables (les plateformes Snapdragon compute pour Windows sur ARM) – et leur plateforme automobile Snapdragon Ride utilise les mêmes cœurs IA pour offrir jusqu’à 30 TOPS pour l’ADAS, avec une feuille de route allant vers des centaines de TOPS. En 2025, Qualcomm a même annoncé un nouveau CPU Snapdragon X Elite pour PC qui inclut un NPU puissant, signalant la volonté de concurrencer Apple et Intel sur les performances IA dans les ordinateurs personnels. Avec la montée de l’IA embarquée, Qualcomm va jusqu’à qualifier certains téléphones de “téléphones IA”. Ils prévoient que de nombreuses applications (de la photographie à la messagerie en passant par la productivité) exploiteront le NPU. Côté logiciel, Qualcomm a publié le Qualcomm AI Stack pour unifier la prise en charge des frameworks populaires (TensorFlow Lite, PyTorch, ONNX) sur leurs NPU iconnect007.com – essayant de faciliter l’utilisation du matériel IA par les développeurs sans connaissances approfondies des puces.
- MediaTek : Le deuxième fabricant de puces mobiles (connu pour la série Dimensity) a également amélioré ses NPU. MediaTek appelle ses moteurs d’IA « APU » (AI Processing Unit). Par exemple, le Dimensity 9200+ (2023) dispose d’une APU de sixième génération avec une amélioration significative des performances par rapport à la puce précédente, permettant des fonctionnalités comme la diffusion stable sur l’appareil et la réduction du bruit par IA dans les vidéos. En 2024, MediaTek a annoncé le Dimensity 9400, et en partenariat avec Oppo, ils ont utilisé son architecture NPU avancée pour introduire de nouvelles fonctionnalités IA (comme mentionné, le remastering photo IA du Oppo Find X8 avec suppression des reflets et défloutage est alimenté par le NPU de MediaTek) mediatek.com. Les dirigeants de MediaTek se sont explicitement positionnés à l’avant-garde de l’IA embarquée. Comme l’a dit Will Chen de MediaTek, « l’avenir de l’IA va au-delà du cloud ; il est porté par l’edge computing, directement dans la paume de votre main. » Selon eux, l’IA sur les téléphones doit être rapide, privée, sécurisée et constamment accessible mediatek.com. MediaTek a même formé une collaboration « centrée sur l’APU » avec Meta pour prendre en charge les frameworks Llama et avec des fabricants d’appareils comme Oppo et Xiaomi en se concentrant sur les fonctionnalités caméra IA et voix IA. D’ici 2025, MediaTek prévoit de déployer ces NPU non seulement dans les téléphones, mais aussi dans les smart TV (pour l’upscaling IA et l’amélioration d’image), les appareils IoT, et même les automobiles (MediaTek dispose d’une plateforme automobile IA et s’est associé à Nvidia pour intégrer l’IP GPU Nvidia pour les voitures, tout en fournissant vraisemblablement son propre NPU pour l’IA des capteurs).
- Intel : 2024 a marqué l’entrée d’Intel dans les accélérateurs d’IA sur les PC grand public. Le Core Intel de 14e génération (Meteor Lake, lancé en décembre 2023 et renommé Core Ultra en 2024) est le premier processeur PC x86 doté d’une unité de traitement neuronal (NPU) intégrée. Le NPU de Meteor Lake (parfois appelé VPU – Vision Processing Unit – basé sur la technologie Movidius d’Intel) offre environ 8–12 TOPS de performance IA pcworld.com. Cela sert à accélérer les fonctionnalités IA de Windows 11 comme le flou d’arrière-plan, le contact visuel lors des appels vidéo, et pourrait être utilisé par des applications pour des tâches telles que la transcription locale, la suppression de bruit, ou même de petits assistants IA. Microsoft et Intel ont ensemble promu le concept de “PC IA”. Intel affirme que ces NPU seront livrés dans des dizaines de millions d’ordinateurs portables en 2024 pcworld.com. Après Meteor Lake, la feuille de route d’Intel mentionne Arrow Lake (pour les ordinateurs de bureau en 2024) qui inclura également un NPU (environ 13 TOPS, légèrement amélioré) pcworld.com. Fait intéressant, la première tentative d’Intel pour un NPU de bureau a en réalité été surpassée par AMD (voir ci-dessous), et Intel a choisi une conception NPU modeste pour éviter de sacrifier la surface GPU/CPU sur les puces pour passionnés pcworld.com. Mais fin 2024, Intel a annoncé que les futures puces Lunar Lake disposeront d’un NPU bien plus puissant (~45 TOPS) pour répondre aux exigences “Copilot” de Microsoft pcworld.com. Tout cela indique qu’Intel considère l’IA comme indispensable pour les PC à l’avenir – non pas pour entraîner de grands modèles, mais pour accélérer les expériences quotidiennes alimentées par l’IA (des améliorations de la suite bureautique aux outils créatifs utilisant l’IA locale). Intel vend également des accélérateurs d’IA en périphérie comme les puces Intel Movidius Myriad (utilisées dans certains drones, caméras) et les accélérateurs Habana pour serveurs, mais le NPU intégré de Meteor Lake marque une étape importante pour amener l’IA sur les appareils grand public.
- AMD : AMD s’est lancée dans l’IA embarquée à peu près à la même période. Ses processeurs pour ordinateurs portables Ryzen 7040 (Phoenix), sortis en 2023, intégraient le premier Ryzen AI Engine – essentiellement un NPU XDNA intégré (technologie issue de l’acquisition de Xilinx par AMD). Ce NPU offrait jusqu’à 10 TOPS sur la puce mobile en.wikipedia.org. AMD a mis en avant des cas d’usage comme les appels vidéo améliorés par l’IA, les applications de productivité, etc., des objectifs similaires à ceux d’Intel. AMD a ensuite brièvement lancé une série Ryzen 8000 pour PC de bureau (début 2024) avec un NPU atteignant 39 TOPS – un chiffre très élevé pour l’unité IA d’un CPU généraliste, dépassant même les plans d’Intel pcworld.com. Cependant, AMD a rapidement changé de cap et sauté une génération, se concentrant sur sa prochaine architecture (le Ryzen 9000 suivant, fin 2024, a supprimé le NPU pour privilégier l’amélioration des cœurs) pcworld.com. Néanmoins, AMD devrait réintégrer les NPUs dans ses futures puces PC (il s’agit probablement d’un retrait temporaire, le temps de développer un moteur IA puissant sans compromettre les autres performances). Côté produit, les NPUs d’AMD pourraient permettre des usages intéressants puisque la marque dispose aussi de GPU performants – une combinaison qui pourrait traiter les charges IA de façon collaborative (certaines parties sur le NPU, d’autres sur le GPU). AMD intègre également des cœurs IA dans ses SoC adaptatifs (à base de FPGA) et ses puces automobiles. En résumé, d’ici 2025, tous les fabricants de puces x86 pour PC auront adopté les NPUs, suivant l’exemple des smartphones quelques années plus tôt, ce qui indique que l’accélération IA devient une fonctionnalité standard sur toute la gamme.
- Autres : Une variété d’entreprises spécialisées dans les puces et d’autres sociétés technologiques innovent également dans les NPU. NVIDIA, connue pour ses GPU, inclut désormais des Tensor Cores dédiés dans ses GPU et propose un NVDLA open source (accélérateur d’apprentissage profond) à intégrer dans des produits System-on-Chip. Dans les appareils edge comme la série NVIDIA Jetson (utilisée dans les robots, drones, systèmes embarqués), on trouve à la fois le GPU et des “DLA” à fonction fixe – essentiellement des NPU – qui déchargent une partie de l’inférence des réseaux neuronaux du GPU. Le module Orin de NVIDIA, par exemple, possède 2 DLA en plus de son GPU, contribuant à ses 254 TOPS de performance IA pour les voitures ts2.tech. Apple serait en train de travailler sur des coprocesseurs IA encore plus avancés ou des moteurs neuronaux plus grands pour ses lunettes AR ou de futurs projets, bien que les détails restent secrets. Huawei (malgré les défis géopolitiques) continue de concevoir des puces mobiles Kirin avec NPU (leur architecture NPU “DaVinci”) ainsi que des NPU de classe serveur dans leurs puces IA Ascend – leur puce Kirin 9000S de 2023 conserverait un NPU performant pour les tâches d’image et de langage sur leurs téléphones. On voit aussi des startups comme Hailo, Mythic, Graphcore et d’autres proposer leurs propres puces IA edge : par exemple, le Hailo-8 mentionné (26 TOPS dans une carte mini PCIe pour caméras IA), l’IPU de Graphcore pour les datacenters (pas exactement sur l’appareil, mais une nouvelle architecture pour les réseaux neuronaux), Mythic travaillant sur des NPU analogiques, etc. ARM, dont les conceptions sous-tendent la plupart des puces mobiles, propose la série Ethos NPU (comme Ethos-U, Ethos-N78) que les fabricants de puces peuvent intégrer pour obtenir un accélérateur IA prêt à l’emploi dans les SoC IoT ou de milieu de gamme. Cela a permis même à des acteurs relativement petits d’inclure des NPU dans leurs puces en licenciant la conception d’ARM.
En résumé, des grands groupes technologiques aux startups, tout le monde investit dans le silicium IA embarqué. En conséquence, on observe des progrès rapides : de nouvelles puces affichant plus de TOPS, une meilleure efficacité (TOPS par watt), et la prise en charge de nouveaux types de données (comme la quantification 4 bits pour des modèles plus grands). Par exemple, les dernières puces de Qualcomm et MediaTek peuvent exécuter la précision INT4, ce qui est idéal pour les modèles d’IA générative où la bande passante mémoire est un facteur limitant androidauthority.com. Ces innovations se traduisent directement par des avantages pour l’utilisateur – par exemple, le montage vidéo IA en temps réel sur mobile (suppression d’objets dans une vidéo 4K à la volée, comme le permet le Snapdragon 8 Gen 3 avec sa fonction IA “Video Object Eraser” futurumgroup.com), ou des coprocesseurs IA dans les voitures permettant des assistants vocaux qui fonctionnent sans réseau et répondent aussi vite qu’une conversation humaine.
Actualités clés 2024–2025 : Lancements, benchmarks et partenariats
Pour illustrer la rapidité des évolutions, voici quelques événements majeurs dans le monde des NPU/TPU et de l’IA embarquée de fin 2024 à 2025 :
- Présentations des Apple M3 et M4 (octobre 2023 & mai 2024) : Ont apporté des Neural Engines de nouvelle génération. Le Neural Engine du M3 atteint 18 TOPS (16 cœurs), et le M4 est passé à 38 TOPS (toujours 16 cœurs mais avec une fréquence/efficacité supérieure) apple.fandom.com. Apple a démontré que ces puces pouvaient gérer des tâches intensives comme la génération d’images stable diffusion en local sur macOS (avec Core ML Stable Diffusion, les développeurs ont montré ~15 secondes pour générer une image sur un M2 – encore plus rapide sur M3/M4).
- Lancement du Google Pixel 8 (octobre 2023) : Accent mis sur l’IA « partout » dans l’appareil. L’événement de Google a présenté la synthèse de pages web et la traduction d’articles en direct sur l’appareil grâce au NPU Tensor G3 du Pixel 8. Il a aussi introduit « Assistant with Bard » qui exécutera à terme certaines interactions en local. Google a souligné que le Pixel 8 peut exécuter 2× plus de modèles en local que le Pixel 6, et des modèles bien plus sophistiqués blog.google. En d’autres termes, un bond énorme en seulement deux ans de développement des puces Tensor.
- Partenariat Qualcomm–Meta (juillet 2023) : Qualcomm et Meta ont annoncé qu’ils optimisent le grand modèle de langage Llama 2 de Meta pour qu’il fonctionne entièrement sur les NPU Snapdragon d’ici 2024 iconnect007.com. L’objectif est de permettre aux développeurs de déployer des chatbots et des applications d’IA générative sur téléphones, casques VR, PC, etc., sans cloud. Il s’agissait d’un soutien majeur à l’IA embarquée de la part d’un grand propriétaire de modèle d’IA (Meta) et d’un grand fabricant de puces. Fin 2024, ils ont poursuivi avec des plans d’optimisation pour Llama 3 également qualcomm.com.
- PC Microsoft Windows 11 « Copilot » (2024) : Microsoft a fixé une référence en qualifiant de « PC IA » les ordinateurs dotés de plus de 40 TOPS d’accélération IA locale, éligibles à des fonctionnalités IA avancées (comme l’intégration de l’assistant numérique Copilot). Cela a poussé les OEM – Lenovo, Dell, etc. – à adopter des puces avec NPU (Intel, AMD ou Qualcomm) pour répondre à la spécification. Le résultat est une vague attendue de laptops compatibles IA en 2024, Microsoft annonçant des dizaines de modèles à venir et prévoyant plus de 40 millions de livraisons de PC IA en 2024 pcworld.com.
- Brève NPU Ryzen 8000 d’AMD (janv. 2024) : AMD a annoncé un processeur de bureau doté d’une NPU impressionnante de 39 TOPS (une surprise, car les puces de bureau manquent généralement de tels accélérateurs) pcworld.com. Bien que ce produit ait été rapidement supplanté, il a montré que même les CPU de bureau peuvent intégrer du silicium IA rivalisant avec les puces mobiles en termes de TOPS. Il s’agissait également du premier CPU x86 de bureau à embarquer une NPU (devançant de peu Intel Arrow Lake).
- Démos de Tesla FSD Beta v12 (fin 2023) : Elon Musk a présenté la conduite autonome de bout en bout par IA (sans radar, uniquement des réseaux de vision) fonctionnant sur les NPU HW3/HW4 de Tesla. Il était notable que le réseau neuronal pilotait la voiture à partir de flux vidéo traités entièrement en temps réel sur l’ordinateur de la voiture. Les observateurs ont noté que FSD v12 exploitait pleinement les 2× 100 TOPS de NPU pour la vision, et Tesla a laissé entendre que de futures mises à niveau (HW5) visant 2000 TOPS pourraient être en développement pour gérer des modèles encore plus grands (des rumeurs évoquaient que le HW5 de Tesla pourrait viser 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor dévoilé (GTC 2024) : NVIDIA a révélé les détails de sa prochaine puce automobile, Drive Thor, qui offre l’équivalent de 2× la puissance de calcul IA de son prédécesseur Orin – jusqu’à 2000 TOPS lorsque deux puces sont reliées ts2.tech. De façon significative, Thor est présenté comme capable de gérer non seulement les tâches de conduite mais aussi l’IA embarquée (comme la voix et la surveillance des occupants) sur une seule plateforme, montrant comment NPU et GPU peuvent regrouper de nombreuses fonctions IA dans les voitures ts2.tech. Plusieurs constructeurs (Xpeng, BYD, Volvo) ont annoncé qu’ils utiliseraient Thor à partir de 2025 ts2.tech.
- IA MoE embarquée d’Oppo (oct. 2024) : Comme mentionné, Oppo a implémenté un modèle Mixture-of-Experts sur le téléphone Find X8 grandviewresearch.com. C’est notable car les modèles MoE sont généralement volumineux et considérés comme réservés aux serveurs en raison de leur complexité. Faire tourner un MoE en local suggère de nouvelles techniques de compression de modèle et une NPU très performante (probablement la MediaTek Dimensity 9400 dans cet appareil).
- Lunettes Ray-Ban AI de Meta (2025) : (Attendu) Meta a présenté des prototypes de lunettes intelligentes capables d’identifier ce que vous voyez et de vous en parler – probablement grâce à un accélérateur personnalisé embarqué (Meta prototype des puces personnalisées pour la RA). Bien que les détails soient rares, cela souligne la volonté d’intégrer l’IA dans des appareils très contraints (lunettes, écouteurs sans fil) ce qui nécessiterait des NPU ultra-efficaces.
- Benchmarks MLPerf Mobile Inference (2023–24) : MLCommons a publié des résultats montrant la puissance de l’IA des derniers smartphones. Par exemple, dans MLPerf Inference v3.0 (octobre 2023), les Apple A16, Google Tensor G2 et Qualcomm Gen 2 ont tous été évalués sur des tâches comme la classification d’images et la détection d’objets. Les résultats ont montré qu’Apple et Qualcomm se disputaient la première place, mais de manière générale, les NPU mobiles rattrapent certains accélérateurs de classe ordinateur portable/bureau pour ces tâches – tout cela sur batterie. Cela a aussi mis en avant les différences logicielles (par exemple, le SDK IA de Qualcomm contre Apple Core ML). Les améliorations continues chaque année (gains à deux chiffres en %) dans ces benchmarks démontrent la forte concurrence et le progrès rapide de l’IA embarquée.
- Partenariats stratégiques : De nombreux partenariats intersectoriels se sont formés. Par exemple, NVIDIA et MediaTek (mai 2023) ont annoncé une collaboration pour intégrer la propriété intellectuelle GPU de Nvidia et son écosystème logiciel dans les futures puces smartphones et automobiles de MediaTek, mariant ainsi la force de Nvidia en IA à l’expertise de MediaTek en SoC mobiles. De plus, des entreprises comme Qualcomm s’associent avec des constructeurs automobiles (Mercedes, BMW) pour intégrer les plateformes Snapdragon Cockpit et Ride (avec NPU) dans de nouveaux véhicules pour des fonctionnalités IA. Arm collabore avec Fujitsu et d’autres pour de nouveaux designs de puces IA (comme la partition IA du supercalculateur Fugaku, bien que ce soit du haut de gamme). Même IBM et Samsung ont présenté de nouvelles technologies de puces (comme l’informatique neuromorphique et la mémoire IA) qui pourraient un jour révolutionner les NPU – ce n’est pas encore là, mais cela montre que la recherche est très active.
En résumé, l’année écoulée a été riche en développements, soulignant que l’IA embarquée est l’un des domaines les plus en vogue de la tech. Comme l’a noté un analyste du secteur, « ces capacités embarquées ouvrent de tout nouveaux horizons… faire tourner des LLM sur mobile aide à gérer l’échelle et le coût, garde les données privées, et garantit que l’IA fonctionne même avec une connectivité limitée » futurumgroup.com. Cela résume bien pourquoi tous les grands acteurs de la tech investissent dans ce domaine.
Avis d’experts : ce que disent les leaders technologiques sur l’IA embarquée
L’essor des NPU et TPU ne se voit pas seulement dans les produits mais aussi dans les propos des leaders du secteur. Voici quelques citations et points de vue qui éclairent l’importance de l’IA embarquée :
- Cristiano Amon (PDG de Qualcomm) : « Si l’IA doit passer à l’échelle, vous la verrez fonctionner sur les appareils… C’est un tournant pour l’IA : plus de problèmes de latence — juste une inférence fluide, sécurisée, complémentaire au cloud, directement sur l’appareil. L’avenir de l’IA est personnel, et il commence sur votre appareil. » (Interview Bloomberg et publication sur X, 2023) x.com. Amon imagine un monde hybride de l’IA où votre téléphone/PC gère beaucoup de choses grâce à ses propres NPU, en collaborant avec le cloud si nécessaire. Il souligne que faire tourner l’IA localement est essentiel pour la rendre omniprésente (on ne peut pas tout faire reposer sur les GPU du cloud – il n’y en a pas assez dans le monde pour des milliards d’appareils).
- Durga Malladi (SVP, Qualcomm) : « Nous saluons l’approche de Meta en matière d’IA ouverte et responsable… Pour faire passer l’IA générative à grande échelle dans le grand public, l’IA devra fonctionner à la fois dans le cloud et sur les appareils en périphérie. » iconnect007.com Malladi a dit cela dans le contexte du partenariat avec Meta. Cela met en avant une vision partagée : scaler l’IA = cloud + edge qui travaillent ensemble. On comprend désormais que l’IA purement cloud ne suffira pas (pour des raisons de coût, de confidentialité et de latence), donc l’IA en périphérie doit partager la charge.
- Will Chen (Directeur général adjoint, MediaTek) : « L’avenir de l’IA va au-delà du cloud ; il est porté par l’edge computing, directement dans la paume de votre main… OPPO et MediaTek sont à l’avant-garde de l’IA embarquée, garantissant que les capacités intelligentes sont puissantes, rapides, privées, sécurisées et toujours accessibles. » (MediaTek Exec Talk, 2025) mediatek.com. Cette citation résume parfaitement la proposition de valeur de l’IA embarquée – on obtient performance et accessibilité plus confidentialité et sécurité. Elle montre aussi que même des entreprises traditionnellement moins visibles en Occident (comme MediaTek) réfléchissent à la pointe du déploiement de l’IA.
- Dr Norman Wang (expert en matériel IA, PDG d’une startup de puces) : « En matériel IA, plus vous pouvez rapprocher le calcul de la source de données, mieux c’est. Il s’agit de réduire les déplacements de données. Un NPU à côté de votre capteur d’image signifie que vous n’envoyez pas des mégapixels vers le cloud – vous extrayez des informations directement à la périphérie. C’est un changement radical pour la latence et la consommation. » (Panel à HotChips 2024 – paraphrasé). Cette explication technique montre pourquoi les NPU sont souvent sur la même puce que d’autres composants : par exemple, sur le SoC d’un téléphone, le NPU peut accéder directement aux données de la caméra depuis l’ISP. Minimiser les déplacements de données est un aspect crucial de l’efficacité de l’IA, et l’IA en périphérie y parvient en traitant à la source des données.
- Xinzhou Wu (VP Automobile, NVIDIA) : « Le calcul accéléré a conduit à des avancées transformatrices, y compris l’IA générative, qui redéfinit l’autonomie et l’industrie du transport. » (GTC 2024 Keynote) ts2.tech. Il expliquait comment de puissants ordinateurs embarqués (avec NPU/GPU) permettent aux voitures non seulement de conduire, mais aussi d’intégrer potentiellement des IA avancées comme les modèles génératifs pour, par exemple, des interfaces en langage naturel dans la voiture ou une meilleure compréhension des situations. Cela souligne que même des secteurs comme l’automobile voient l’IA embarquée non seulement comme une fonctionnalité de base mais aussi comme un moyen d’améliorer l’expérience utilisateur (ex : assistants vocaux capables de tenir une conversation grâce à des LLM embarqués).
- Sundar Pichai (PDG de Google) : « L’avenir de l’IA consiste à la rendre utile pour tous. Cela signifie amener l’IA dans tous les appareils que nous utilisons – téléphones, appareils électroménagers, voitures – pour qu’elle soit là quand vous en avez besoin. Nous voulons rejoindre les utilisateurs là où ils sont, avec une IA qui fonctionne en temps réel, sur place, et qui préserve la vie privée. » (Paraphrasé de plusieurs interviews/keynotes). Pichai parle souvent d’« IA ambiante » – l’idée que l’IA sera partout autour de nous, intégrée dans les objets. L’effort de Google avec les puces Tensor dans les Pixel est une application directe de cette philosophie.
- Statistiques du secteur : Les analystes ont observé la tendance en chiffres. Un rapport de Grand View Research en 2024 note : « Les récents progrès dans les puces IA spécialisées et les NPU ont permis l’exécution d’algorithmes IA complexes directement sur les appareils, améliorant considérablement les performances et l’efficacité énergétique… nous approchons d’une transition majeure vers l’IA embarquée. » grandviewresearch.com. Le même rapport prévoit que le marché de l’IA embarquée va exploser dans les prochaines années, avec le segment matériel (NPU, etc.) représentant plus de 60 % des revenus en 2024 et en croissance, alors que presque tous les nouveaux appareils IoT ou mobiles adoptent des capacités IA grandviewresearch.com. Une autre prévision d’IDC et d’autres suggère qu’au milieu des années 2020, presque tous les smartphones haut de gamme et la majorité des modèles milieu de gamme seront équipés d’accélérateurs IA, et qu’en 2030, des milliards de puces IA edge seront utilisées, des produits électroniques grand public aux infrastructures intelligentes.
Le consensus parmi les experts est que l’IA embarquée n’est pas seulement un atout – c’est essentiel pour la prochaine vague technologique. Le pionnier de l’IA Andrew Ng a souvent mentionné que la « tiny AI » et l’IA edge permettront à l’intelligence de pénétrer chaque objet, à l’image de l’électricité ou d’Internet à d’autres époques. En dépassant les limites de l’IA uniquement cloud, les NPU et TPU rendent cette pénétration possible.
Le défi de la multiplicité des standards (et les efforts pour simplifier)
Alors que le matériel a rapidement progressé, l’écosystème de logiciels et de standards pour l’IA embarquée est encore en train de rattraper son retard. Les développeurs sont confrontés à une jungle d’outils et de SDK lorsqu’ils essaient d’exploiter les NPU sur différents appareils nimbleedge.com. Points clés :- Chaque plateforme possède sa propre API ou SDK : Apple propose Core ML (avec des API pour cibler le Neural Engine), Android dispose de Neural Networks API (NNAPI) (bien que Google ait annoncé son intention de la faire évoluer au-delà d’Android 14) threads.com, Qualcomm propose le SNPE (Snapdragon Neural Processing Engine) ou plus largement la Qualcomm AI Stack, NVIDIA propose TensorRT et CUDA pour ses appareils, etc. Il existe aussi ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI, et d’autres. Ces différents SDK offrent souvent des capacités différentes et nécessitent un ajustement des modèles pour fonctionner de manière optimale sur chaque cible. Comme l’a noté un rapport sur l’IA embarquée en 2025, « Plusieurs SDK incompatibles (par exemple, Core ML, LiteRT, ONNX Runtime) avec un support d’opérateurs et des performances variables » obligent les développeurs à fournir un travail supplémentaire nimbleedge.com.
- Problèmes de fragmentation : Un modèle qui fonctionne parfaitement sur un GPU de bureau peut ne pas fonctionner immédiatement sur le NPU d’un téléphone – certains opérateurs (les fonctions mathématiques) peuvent ne pas être pris en charge ou nécessiter une quantification différente. Les développeurs doivent parfois maintenir des versions séparées ou optimiser manuellement les modèles pour chaque matériel. C’est la plainte du « écosystème fragmenté et bas niveau » nimbleedge.com. Les outils de débogage sont également rares – profiler un NPU pour comprendre pourquoi un modèle est lent peut être difficile, surtout comparé à la richesse des outils pour CPU/GPU nimbleedge.com.
- Efforts de normalisation : Pour y remédier, plusieurs initiatives sont en cours. ONNX (Open Neural Network Exchange) est apparu comme un format commun permettant d’entraîner un modèle dans PyTorch ou TensorFlow puis de l’exporter vers ONNX pour le déploiement. De nombreux environnements d’exécution (y compris ceux embarqués comme ceux de Qualcomm et MediaTek) prennent en charge l’ingestion de modèles ONNX et tenteront de les compiler pour le matériel. Cela permet d’éviter l’enfermement dans un seul framework. Android NNAPI était une tentative de Google pour fournir une interface universelle – une application peut demander « exécute ce réseau de neurones » via NNAPI et l’OS utilisera l’accélérateur disponible (GPU, DSP ou NPU) pour l’exécuter. NNAPI a été adopté sur de nombreux appareils Android, mais il avait des limitations et tous les fournisseurs n’ont pas fourni de pilotes robustes, ce qui a conduit Google à indiquer une nouvelle stratégie (s’appuyant possiblement sur WebNN ou des intégrations directes avec les fournisseurs) au-delà de 2024 threads.com. Sur PC, Microsoft a introduit DirectML et les API Windows ML pour abstraire de la même manière les différences matérielles (permettant à un développeur d’utiliser la même API pour les NPU NVIDIA, Intel, AMD).
- Chaînes d’outils unifiées : Les entreprises construisent également des chaînes d’outils pour simplifier le déploiement. Nous avons vu la AI Stack de Qualcomm qui combine leur compilateur (AI Model Efficiency Toolkit) et les environnements d’exécution afin que les développeurs puissent cibler plus facilement leur NPU Hexagon iconnect007.com. TensorRT de NVIDIA et les SDK associés font quelque chose de similaire pour les appareils Jetson, en optimisant les modèles pour GPU+NVDLA. Intel OpenVINO en est un autre – il permet de prendre un modèle et de l’optimiser pour les CPU Intel, iGPU et VPU (NPU) pour les déploiements en périphérie. Ces frameworks incluent souvent des optimiseurs de modèles qui convertissent les modèles (élagage, quantification) pour les adapter à des appareils plus petits.
- Interopérabilité : Il y a une tendance à faire en sorte que différents NPU fonctionnent avec des frameworks communs. Par exemple, TensorFlow Lite de Google dispose de délégués matériels – un pour NNAPI (couvre les appareils Android en général), un pour Core ML (appareils iOS), un pour Edge TPU, etc. L’idée est que vous écrivez votre modèle TFLite et il s’exécutera en utilisant le meilleur accélérateur disponible via le délégué. De même, PyTorch a ajouté la prise en charge de backends mobiles et même de choses comme Apple Metal Performance Shaders (pour utiliser le GPU/NPU sur iOS). ONNX Runtime peut également cibler différents accélérateurs via des plugins (par exemple, on peut brancher TensorRT de NVIDIA ou Compute Library d’ARM ou d’autres en interne).
- Normes émergentes : Le Khronos Group (à l’origine d’OpenGL/Vulkan) a travaillé sur NNEF (Neural Network Exchange Format) et il y a l’API WebNN en discussion pour permettre aux navigateurs d’accéder à l’accélération IA locale. Aucune n’est encore universellement adoptée. Mais un développement intéressant : fin 2024, plusieurs entreprises ont formé une alliance pour promouvoir des standards “AI Hardware Common Layer” – en gros, explorer s’il est possible de créer une interface bas niveau commune pour les NPU (analogue à ce qu’OpenCL a fait pour le calcul sur GPU). C’est encore le début.
- Expérience développeur : C’est une lacune reconnue. Comme l’a dit le blog de NimbleEdge, « développer pour l’IA embarquée nécessite actuellement de naviguer dans un écosystème fragmenté et bas niveau… obligeant les développeurs à adapter les implémentations pour chaque cible matérielle » nimbleedge.com. L’industrie sait que cela doit s’améliorer pour que l’IA embarquée devienne vraiment grand public. Nous pourrions voir une consolidation – par exemple, si Google, Apple et Qualcomm pouvaient tous s’accorder sur un ensemble de bases d’opérations et d’API (c’est peut-être utopique). Ou plus probablement, des frameworks comme PyTorch et TensorFlow masqueront la complexité en intégrant toutes ces bibliothèques de fournisseurs et en choisissant la bonne à l’exécution.
En somme, alors que les NPU/TPU fournissent la puissance, la communauté travaille sur des outils adaptés aux humains pour exploiter cette puissance. La bonne nouvelle, c’est que comparé à il y a cinq ans, par exemple, il existe bien plus d’options pour déployer un modèle en local sans être expert en puces. Mais il reste des progrès à faire – notamment en matière de débogage, de profilage et de support multi-matériel.
Tendances du marché et perspectives d’avenir
La prolifération des NPU et TPU dans les appareils alimente une tendance plus large : l’IA partout. Voici quelques tendances générales et à quoi s’attendre pour l’avenir :
- Croissance du marché de l’Edge AI : Les études de marché indiquent une croissance explosive du matériel d’IA embarquée. Le marché de l’IA embarquée (y compris les puces et les logiciels) devrait croître à un TCAC d’environ 29 % sur la décennie nimbleedge.com. Un rapport l’évaluait à environ 233 milliards de dollars en 2024, pour dépasser 1 700 milliards de dollars d’ici 2032 nimbleedge.com – une grande partie de cette croissance reposant sur les déploiements en périphérie. Une autre analyse d’IDTechEx prévoit que le marché des puces IA pour les appareils edge atteindra 22 milliards de dollars d’ici 2034, avec l’électronique grand public, l’automobile et l’industrie comme principaux segments idtechex.com. Cela implique des centaines de millions d’appareils par an expédiés avec des NPU comme composant standard.
- Adoption ubiquitaire : Tout comme chaque smartphone aujourd’hui possède un GPU (même petit), nous atteignons le point où chaque nouveau smartphone aura un accélérateur IA. Les téléphones haut de gamme en sont déjà équipés ; les téléphones de milieu de gamme seront les prochains. En effet, les puces de milieu de gamme de Qualcomm (par exemple la série Snapdragon 7) et de MediaTek (séries Dimensity 700/800) incluent désormais des NPU allégés afin que des fonctionnalités comme les améliorations photo par IA et l’assistant vocal fonctionnent aussi sur des appareils moins chers. Au-delà des téléphones, les NPU se répandent sur les PC (standard dans les nouveaux ordinateurs portables Windows de plusieurs fabricants), voitures (presque toutes les nouvelles voitures avec ADAS niveau 2+ possèdent une puce IA), et l’IoT. Même les appareils électroménagers comme les réfrigérateurs et les machines à laver commencent à vanter des fonctionnalités “IA” (certaines basées sur le cloud, d’autres locales comme des cycles adaptatifs selon les capteurs). La tendance est claire : si un appareil possède une puce de calcul, il aura une certaine accélération ML sur cette puce.
- Trajectoire de performance : Les performances de l’IA embarquée doublent environ tous les 1 à 2 ans (grâce à de meilleures architectures et à la transition vers des nœuds semi-conducteurs avancés comme 5nm, 4nm, 3nm). Le Neural Engine d’Apple est passé de 600 milliards d’opérations/sec en 2017 à 35 000 milliards en 2023 – soit près de 60× d’augmentation en six ans apple.fandom.com. Les modèles phares de Qualcomm sont également passés de quelques TOPS en 2018 à plus de 27 TOPS en 2023 (puissance totale IA du SD 8 Gen 3, tous cœurs confondus). On peut s’attendre d’ici 2025–2026 à des NPU mobiles dépassant les 100 TOPS, et les accélérateurs PC encore plus, et ces chiffres deviendront peut-être moins pertinents à mesure que l’on se concentrera sur les performances utilisables sur des tâches IA spécifiques (par exemple, quelle taille de LLM peut-on faire tourner sans problème, ou peut-on faire de la vidéo IA 4K en temps réel). L’écart entre le cloud et l’edge devrait se réduire pour les tâches d’inférence. Cependant, l’edge restera en retard sur le cloud pour les modèles géants de pointe à cause des contraintes d’énergie et de mémoire.
- Gains d’efficacité énergétique : Un aspect sous-estimé est l’efficacité croissante de ces NPU. Le NPU automobile de Tesla atteint ~4,9 TOPS/Watt fuse.wikichip.org ce qui était à la pointe il y a quelques années ; aujourd’hui, certains NPU mobiles revendiquent des performances similaires ou meilleures. Des NPU efficaces signifient une meilleure autonomie même avec une utilisation accrue des fonctions IA. Cela rend aussi possible l’intégration de l’IA dans de tout petits appareils sur batterie (ex : aides auditives IA, capteurs intelligents alimentés par pile bouton effectuant de la détection d’anomalies). Le concept de TinyML – apprentissage automatique à très petite échelle sur microcontrôleurs – en est une extension, utilisant des “NPU” simplifiés ou des instructions optimisées sur microcontrôleurs pour faire de l’IA dans les capteurs. L’Ethos-U NPU d’ARM vise ce segment (ex : détection de mots-clés toujours active consommant quelques milliwatts). Attendez-vous à voir plus de puces miniatures dédiées à l’IA pouvant être intégrées dans des capteurs, des objets connectés et du quotidien (brosse à dents intelligente ? Détecteur de fumée IA ? Ça arrive).
- Solutions hybrides Cloud-Edge : Plutôt que l’edge ne remplace complètement le cloud, l’avenir est à la collaboration. Les appareils feront ce qu’ils peuvent localement et ne solliciteront le cloud que pour ce qu’ils ne peuvent pas faire. Par exemple, vos lunettes AR pourraient effectuer une reconnaissance de scène localement pour savoir ce que vous regardez, mais si vous posez une question très complexe (comme une explication approfondie), elles pourraient interroger une IA dans le cloud pour une analyse plus puissante, puis la présenter. Cette approche hybride offre le meilleur équilibre entre réactivité et capacité. Les entreprises conçoivent activement des expériences autour de cela : Copilot de Microsoft sur Windows peut utiliser le NPU local pour une conversion rapide de la voix en texte et l’analyse des commandes, mais utiliser le cloud pour les tâches lourdes (sauf si vous avez un NPU PC puissant qui peut tout gérer). L’utilisateur ne devrait idéalement ni savoir ni se soucier de la solution utilisée, à part constater une plus grande rapidité et un meilleur respect de la vie privée. Nous verrons aussi l’apprentissage fédéré devenir plus courant – les modèles s’entraînent dans le cloud mais avec l’aide de données chiffrées ou traitées sur les appareils, et inversement.
- Cas d’usage émergents : À mesure que les NPU deviennent plus puissants, de nouvelles applications s’ouvrent. L’IA générative sur l’appareil en est un exemple majeur – imaginez la création d’images par IA, le montage vidéo par IA, et des chatbots personnels, le tout sur votre téléphone ou ordinateur portable. D’ici 2025, nous pourrions voir les premières versions d’assistants personnels hors ligne capables de résumer vos e-mails ou de rédiger des messages sans passer par le cloud. La traduction de langue en temps réel lors de conversations (deux personnes parlant des langues différentes, avec des téléphones ou écouteurs traduisant quasi instantanément) sera grandement améliorée par le traitement sur l’appareil (pas de latence et fonctionne partout). L’IA santé pourrait vivre sur les objets connectés – votre montre connectée détectant la fibrillation auriculaire ou analysant les schémas d’apnée du sommeil grâce à son NPU. Sécurité : les appareils pourraient exécuter localement une IA pour détecter les malwares ou le phishing en temps réel (par exemple, un antivirus utilisant un modèle IA sur votre appareil plutôt que des analyses cloud). Et dans les véhicules, au-delà de la conduite, l’IA pourrait personnaliser l’expérience à bord (ajuster la climatisation selon votre humeur perçue via une IA de caméra orientée conducteur, etc.). Beaucoup de ces cas d’usage nécessitent une itération rapide et la confidentialité, ce qui convient au traitement sur l’appareil.
- Concurrence et démocratisation : Les grands acteurs continueront de se concurrencer, ce qui est bénéfique pour les consommateurs – attendez-vous à des campagnes vantant “notre puce IA fait X TOPS ou permet la fonctionnalité Y que les autres ne peuvent pas offrir.” Mais aussi, la technologie se démocratise – les NPU ne sont plus réservés aux téléphones à 1000 $ ; ils arrivent sur des téléphones à 300 $, des cartes IoT à 50 $ (Coral, Arduino Portenta, etc.), et les communautés open source créent de petits modèles IA que les amateurs peuvent faire tourner sur un Raspberry Pi ou un microcontrôleur avec un accélérateur basique. Cette disponibilité généralisée signifie que l’innovation peut venir de partout. Un développeur seul peut désormais créer une application utilisant l’IA embarquée pour faire quelque chose d’astucieux sans avoir besoin d’une ferme de serveurs – abaissant la barrière d’entrée pour les logiciels pilotés par l’IA.
- Technologies du futur : En regardant plus loin, la recherche sur l’informatique neuromorphique (puces inspirées du cerveau comme Intel Loihi) et les puces IA analogiques pourrait un jour révolutionner les NPU, offrant des gains d’efficacité de plusieurs ordres de grandeur. Des entreprises comme IBM et BrainChip travaillent sur ces technologies. Si elles réussissent, une puce neuromorphique pourrait permettre à une IA complexe de fonctionner en continu sur de minuscules appareils à batterie. Nous pourrions également voir l’empilement 3D et de nouvelles technologies de mémoire intégrés dans les NPU pour surmonter les goulets d’étranglement de la mémoire (certaines puces de 2025+ pourraient utiliser de la mémoire HBM ou une nouvelle mémoire non-volatile embarquée pour alimenter plus rapidement les cœurs IA). Attendez-vous aussi à plus de spécialisation au sein des puces IA : par exemple, des accélérateurs séparés pour la vision, la parole, les modèles de recommandation, etc., chacun optimisé pour son domaine. Certains SoC possèdent déjà deux NPU (un “gros” NPU pour les tâches lourdes, un micro NPU dans le hub de capteurs pour les tâches légères en permanence).
En conclusion, la trajectoire est claire : les NPU et TPU deviennent aussi standards et indispensables que les CPU dans l’informatique moderne. Ils permettent aux appareils d’être plus intelligents, plus réactifs et plus respectueux de notre vie privée. Comme l’indique un rapport, « les unités de traitement haute performance sur les appareils sont en grande partie responsables de l’exécution de fonctions IA complexes comme la reconnaissance d’images, le NLP et la prise de décision en temps réel », et cela stimule des technologies plus intelligentes et réactives dans tous les secteurs grandviewresearch.com.
Nous entrons dans une ère où vous allez simplement attendre de votre appareil qu’il comprenne et anticipe vos besoins – votre téléphone édite les photos et écrit des messages dans votre style, votre voiture évite les accidents et vous divertit grâce à l’IA, vos objets connectés apprennent vos préférences – tout cela rendu possible par les discrets processeurs neuronaux qu’ils contiennent. L’IA embarquée n’est pas de la science-fiction ; elle est déjà là et s’améliore rapidement. L’union des NPU et TPU avec nos gadgets quotidiens rend l’IA personnelle, omniprésente et privée – faisant vraiment descendre la puissance de l’intelligence du cloud sur terre (ou du moins, dans votre poche).
Sources :
- Bigelow, Stephen. « GPUs vs. TPUs vs. NPUs : Comparaison des options matérielles IA. » TechTarget, 27 août 2024 techtarget.com. Décrit les rôles et différences entre CPU, GPU, TPU et NPU dans les charges de travail IA.
- Backblaze Blog. « AI 101 : GPU vs. TPU vs. NPU. » Backblaze, 2023 backblaze.com. Explication de la conception du TPU de Google (réseaux systoliques, faible précision) et de l’utilisation des NPU dans les appareils mobiles.
- TechTarget WhatIs. « Unité de traitement tensoriel (TPU). » whatis.techtarget.com, 2023 techtarget.com. Indique que les TPU sont spécialisés dans les tâches de calcul matriciel et que les NPU imitent les réseaux neuronaux du cerveau pour l’accélération techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). « L’état de l’IA embarquée : ce qui manque dans le paysage actuel. » 26 juin 2025 nimbleedge.com. Présente les avantages de l’IA embarquée (latence, hors ligne, confidentialité, coût) et les défis comme la fragmentation des SDK.
- Qualcomm (OnQ Blog). « Bloomberg et Cristiano Amon parlent de l’IA embarquée. » Juillet 2023 x.com. Le PDG de Qualcomm sur l’importance de l’inférence embarquée pour l’avenir de l’IA (citation d’un tweet sur un tournant dans l’IA).
- MediaTek Blog (Exec Talk par Will Chen). « Façonner l’avenir des expériences mobiles IA. » 3 mars 2025 mediatek.com. Collaboration entre MediaTek et Oppo sur les NPU ; citation sur l’informatique en périphérie dans votre main et exemple de remasterisation photo par IA utilisant le NPU.
- I-Connect007 / Qualcomm Press. « Qualcomm collabore avec Meta pour permettre l’IA embarquée (Llama 2). » 24 juillet 2023 iconnect007.com. Communiqué de presse avec citation de Durga Malladi, SVP de Qualcomm, sur la mise à l’échelle de l’IA générative via les appareils en périphérie et le cloud.
- PCWorld (Mark Hachman). « Les processeurs Intel Core Ultra simplifient l’IA… » 24 oct. 2024 pcworld.com. Explique qu’Intel Arrow Lake utilise le NPU de Meteor Lake (13 TOPS) et mentionne le NPU Ryzen 8000 d’AMD à 39 TOPS et l’exigence « Copilot » de Microsoft à 40 TOPS.
- Ts2 (Tech Empowerment). « Duel de superordinateurs autonomes : NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride. » Sep. 2023 ts2.tech. Fournit des estimations TOPS : Tesla HW3 vs HW4 (72→100 TOPS par puce) ts2.tech, NVIDIA Thor ~1000 TOPS (ou 2000 avec double) ts2.tech et cite le vice-président de NVIDIA sur l’IA générative dans les véhicules ts2.tech.
- Grand View Research. « Rapport sur le marché de l’IA embarquée, 2030. » 2024 grandviewresearch.com. Note la montée des puces IA spécialisées (NPU) permettant une IA complexe sur les appareils, et que le matériel représentait 60,4 % du marché de l’IA embarquée en 2024, porté par les smartphones, l’IoT, les NPU, etc.
- Google Blog. « Google Tensor G3 : le processeur axé IA du Pixel 8. » Oct. 2023 blog.google. Décrit les améliorations du Tensor G3 pour l’IA générative embarquée, la nouvelle conception du TPU, et un modèle TTS embarqué équivalent à la qualité des centres de données.
- Techspot. « Le Snapdragon 8 Gen 3 apporte l’IA générative aux smartphones. » Oct. 2023 futurumgroup.com. Analyse de Futurum Group détaillant le moteur IA du SD8Gen3 : LLM de 10 milliards de paramètres embarqué, NPU 98 % plus rapide, diffusion stable la plus rapide au monde sur téléphone, etc., ainsi que les avantages des LLM embarqués pour le coût/la confidentialité/le mode hors ligne futurumgroup.com.
- Apple Wiki (Fandom). « Neural Engine. » Mis à jour en 2025 apple.fandom.com. Historique des versions du Neural Engine avec 35 TOPS pour l’A17 Pro en 2023, etc. Montre l’évolution de 0,6 TOPS (A11) à 35 TOPS (A17) apple.fandom.com et M4 à 38 TOPS apple.fandom.com.
- EnGenius Tech. « Cloud Edge Camera AI Surveillance. » 2023 engeniustech.com. Exemple de caméra de sécurité avec NPU intégré permettant le traitement IA sur la caméra et le stockage local (pas besoin de NVR).
- EmbedL. « Amazon releases AZ1 Neural Edge Processor. » Oct. 2020 embedl.com. Présente l’AZ1 edge NPU d’Amazon pour les appareils Echo, conçu avec MediaTek, destiné à l’inférence vocale sur l’appareil pour réduire la latence et la dépendance au cloud embedl.com.