- Apple inició la IA en el dispositivo en 2017 con el Neural Engine del iPhone A11, permitiendo Face ID y Animoji a hasta 600 mil millones de operaciones por segundo.
- En 2023, el Neural Engine de 16 núcleos del iPhone A17 Pro entregó alrededor de 35 TOPS, impulsando funciones de voz, fotografía y traducción en el dispositivo.
- Google Pixel 8 (2023) utiliza el NPU Tensor G3 para ejecutar modelos de IA en el dispositivo como Palm 2 para traducción y resumen sin conexión.
- El Edge TPU de Google en la Coral Dev Board ofrece 4 TOPS de procesamiento de visión con solo unos pocos vatios.
- El hardware de Full Self-Driving de Tesla tiene dos NPUs: HW3 (2019) ofrecía alrededor de 144 TOPS, y HW4 (2023) alrededor de 200–250 TOPS.
- NVIDIA Drive Thor (presentado en 2024) puede alcanzar hasta 2000 TOPS cuando se enlazan dos chips para cargas de trabajo de IA automotriz.
- El Hexagon NPU del Snapdragon 8 Gen 3 (2023) de Qualcomm es un 98% más rápido que el Gen 2, puede ejecutar LLMs de hasta 10 mil millones de parámetros en el dispositivo y logró la Stable Diffusion móvil más rápida del mundo en demostraciones.
- El Dimensity 9400 (2024) de MediaTek con una APU de sexta generación impulsa la remasterización de fotos con IA en el Oppo Find X8, señalando que los NPUs se expandirán a televisores, IoT y autos para 2025.
- Meteor Lake de Intel, la 14ª generación Core (lanzada en 2023; renombrada Core Ultra en 2024), incluye un NPU integrado que entrega alrededor de 8–12 TOPS, con Arrow Lake en ~13 TOPS y Lunar Lake con rumores de alrededor de 45 TOPS.
- Ryzen 7040 Phoenix (2023) de AMD introdujo el Ryzen AI Engine con hasta 10 TOPS, mientras que el Ryzen 8000 de escritorio (principios de 2024) ofreció 39 TOPS antes de que AMD pausara los NPUs en esa generación.
En resumen: Tu smartphone, cámara e incluso tu auto están recibiendo cerebros de IA integrados – sin necesidad de la nube. Chips especiales llamados NPUs (Unidades de Procesamiento Neural) y TPUs (Unidades de Procesamiento Tensorial) están transformando los dispositivos cotidianos en asistentes inteligentes capaces de reconocimiento facial, comandos de voz, traducción en tiempo real, funciones de conducción autónoma y más. Esta revolución de IA en el dispositivo promete respuestas ultrarrápidas, mejor privacidad y nuevas funciones que antes creíamos posibles solo con supercomputadoras. En este informe, desmitificaremos los NPUs y TPUs, veremos cómo se diferencian de los CPUs/GPUs y exploraremos por qué gigantes tecnológicos como Apple, Google, Qualcomm e Intel compiten por poner estos “cerebros de IA” en todo, desde teléfonos hasta autos. También destacaremos los últimos avances de 2024–2025, opiniones de expertos, estándares de la industria y lo que depara el futuro para la IA en el dispositivo.
¿Qué son los NPUs y TPUs? (Conoce el cerebro de IA de tu dispositivo)
Las Unidades de Procesamiento Neural (NPUs) son procesadores especializados diseñados para acelerar redes neuronales artificiales: los algoritmos que impulsan tareas modernas de IA como el reconocimiento de imágenes, el procesamiento de voz y más. A diferencia de las CPUs de propósito general, las NPUs son circuitos integrados de aplicación específica (ASICs) optimizados para matemáticas matriciales y las cargas de trabajo altamente paralelas de las redes neuronales techtarget.com. Una NPU “imita las redes neuronales de un cerebro humano para acelerar tareas de IA”, actuando esencialmente como un cerebro de silicio dentro de tu dispositivo techtarget.com. Las NPUs sobresalen ejecutando inferencias (haciendo predicciones) para modelos de IA de manera eficiente en el dispositivo, a menudo usando precisión numérica más baja (por ejemplo, enteros de 8 bits) para ahorrar energía mientras mantienen un alto rendimiento backblaze.com. El término “NPU” a veces se usa de manera amplia para cualquier acelerador de IA, pero más comúnmente se refiere a aquellos en dispositivos móviles y de borde backblaze.com. Por ejemplo, el “Neural Engine” de Apple en los iPhones y el motor de IA móvil de Samsung son NPUs integradas en sus diseños de sistema en chip (SoC).
Unidades de Procesamiento Tensorial (TPUs), por otro lado, fueron creadas por Google como chips personalizados para acelerar el aprendizaje automático, especialmente para el framework TensorFlow. Una TPU es un tipo de ASIC optimizado para las operaciones tensoriales (multiplicaciones de matrices, etc.) que están en el núcleo del entrenamiento e inferencia de redes neuronales backblaze.com. Google implementó por primera vez las TPUs en sus centros de datos en 2015 para acelerar los cálculos de redes neuronales, y luego las puso a disposición a través de Google Cloud backblaze.com. Las TPUs utilizan una arquitectura distinta llamada systolic array, que conecta muchas pequeñas unidades de procesamiento en una cuadrícula que bombea datos a través de una cadena de unidades de multiplicación de matrices backblaze.com. Este diseño logra un rendimiento extremo en tareas de aprendizaje profundo. Las TPUs de Google sacrifican deliberadamente algo de precisión (usando matemáticas de 8 o 16 bits en lugar de flotantes de 32 bits) para obtener enormes ganancias de velocidad y eficiencia backblaze.com, ya que muchas tareas de IA no requieren alta precisión para obtener resultados precisos. Aunque “TPU” se refiere técnicamente a los chips de Google, el término a veces se usa de manera más genérica para cualquier acelerador “tensorial”. Cabe destacar que Google también produce coprocesadores Edge TPU para IA en el dispositivo en productos como la Coral Dev Board, ofreciendo 4 billones de operaciones por segundo con solo unos pocos vatios coral.ai.
En resumen: Las NPUs y TPUs son ambos aceleradores de silicio para IA, pero las NPUs suelen estar integradas en dispositivos móviles/de borde para una eficiente inferencia en el dispositivo, mientras que las TPUs (en el sentido estricto) han sido chips de alto rendimiento (y ahora módulos) principalmente de Google, originalmente para tareas de entrenamiento e inferencia en la nube/centro de datos. Ambos se apartan de los diseños tradicionales de CPU/GPU para priorizar operaciones matemáticas paralelas para redes neuronales. Como dijo un editor tecnológico, “Las TPUs llevan la especialización más allá, enfocándose en operaciones tensoriales para lograr mayores velocidades y eficiencias energéticas… Las NPUs son comunes en dispositivos habilitados para IA como smartphones y gadgets IoT” backblaze.com.
¿En qué se diferencian las NPUs y TPUs de las CPUs y GPUs?
Las CPU tradicionales (unidades centrales de procesamiento) son el “cerebro” de la computación general: están optimizadas para la flexibilidad y pueden manejar todo tipo de tareas, desde ejecutar tu sistema operativo hasta navegar por la web. Tienen unos pocos núcleos potentes que sobresalen en lógica secuencial e instrucciones variadas, pero no son buenas para los cálculos matemáticos altamente paralelos que requiere el deep learning techtarget.com. Cuando se le pide a una CPU que procese una red neuronal grande, a menudo se convierte en un cuello de botella, intentando ejecutar millones de multiplicaciones y sumas en secuencia o en lotes paralelos limitados. Esto conduce a una alta latencia y consumo de energía (el llamado cuello de botella de Von Neumann al mover grandes cantidades de datos entre la CPU y la memoria) backblaze.com. Las CPU pueden hacer algo de trabajo de IA (especialmente modelos más simples o pequeños, o la lógica de control para programas de IA techtarget.com), pero por regla general, les cuesta escalar eficientemente a las demandas modernas de IA de álgebra lineal masivamente paralela.
Las GPU (unidades de procesamiento gráfico) llevaron la computación paralela al primer plano. Originalmente creadas para renderizar imágenes realizando muchas operaciones simples en paralelo sobre píxeles y vértices, las GPU resultaron ser muy adecuadas para entrenar redes neuronales, que también implican aplicar las mismas operaciones matemáticas (productos punto, etc.) sobre grandes cantidades de datos simultáneamente techtarget.com. Una GPU contiene cientos o miles de pequeños núcleos que pueden realizar cálculos en paralelo. Esto hace que las GPU sean excelentes para IA a gran escala, y durante la década de 2010 las GPU (especialmente las de NVIDIA con el software CUDA) se convirtieron en el caballo de batalla de la investigación en deep learning. Sin embargo, las GPU siguen siendo algo generales: deben manejar varias tareas gráficas y mantener flexibilidad, por lo que no están 100% optimizadas para redes neuronales. También consumen mucha energía y requieren una programación cuidadosa para aprovecharlas al máximo (no les gustan los códigos con muchas bifurcaciones complejas y funcionan mejor con tareas optimizadas y paralelas sobre datos) techtarget.com.
Las NPU y TPU llevan la especialización aún más lejos. Están diseñadas específicamente para únicamente la carga de trabajo de redes neuronales. Esto significa que su arquitectura puede eliminar todo lo que no sea necesario para las matemáticas de IA y dedicar más silicio a cosas como unidades de multiplicación de matrices, sumadores de acumulación y memoria en chip para transferir datos rápidamente dentro y fuera de esas unidades matemáticas. Una TPU de Google Cloud, por ejemplo, es esencialmente una enorme matriz 2D de unidades MAC (multiplicar-acumular) con una arquitectura de flujo de datos inteligente (la matriz sistólica) que las alimenta con operandos a alta velocidad backblaze.com. No se preocupa por cachés, ejecución especulativa u otras características de CPU: está optimizada para matemáticas de matrices. Las NPU en chips móviles integran de manera similar núcleos de motor neuronal dedicados junto con la CPU/GPU. Estos núcleos suelen usar aritmética de baja precisión (por ejemplo, enteros de 8 bits como las TPU) y ejecutan cálculos altamente paralelos “capa por capa” para cosas como redes neuronales convolucionales. Una NPU puede usar una arquitectura “fusionada” que combina unidades escalares, vectoriales y tensoriales (la NPU Hexagon de Qualcomm hace esto) para manejar diferentes operaciones de redes neuronales de manera eficiente futurumgroup.com.
Las diferencias clave se reducen a:
- Conjunto de instrucciones y flexibilidad: Las CPU tienen un conjunto de instrucciones amplio y general (pueden hacer muchas cosas, pero no todas simultáneamente). Las GPU tienen un conjunto de instrucciones más limitado pero aún flexible, optimizado para el rendimiento en matemáticas. Las NPU/TPU tienen un conjunto de instrucciones muy reducido: esencialmente solo las operaciones necesarias para redes neuronales (multiplicación de matrices, convolución, funciones de activación), a menudo implementadas como canalizaciones fijas o matrices fuse.wikichip.org. Por ejemplo, la NPU de autoconducción de Tesla tiene solo 8 instrucciones en su ISA, centradas en lecturas/escrituras DMA y productos punto fuse.wikichip.org.
- Paralelismo y núcleos: Las CPU = unos pocos núcleos potentes; las GPU = miles de núcleos simples; las NPU/TPU = en cierto sentido, decenas de miles de ALUs muy simples (las unidades MAC) estructuradas en forma de matriz o red neuronal. Un solo chip NPU puede realizar decenas de billones de operaciones por segundo – la NPU del coche de Tesla funciona a 2 GHz con 9,216 MACs, logrando ~37 tera-operaciones por segundo (TOPS) por núcleo, y cada chip FSD tiene dos NPUs para ~74 TOPS fuse.wikichip.org, ts2.tech. En contraste, una CPU de gama alta puede alcanzar solo unos pocos cientos de miles de millones de ops/seg en tareas de IA, y una GPU tal vez unos pocos TOPS si no utiliza núcleos tensoriales especiales.
- Arquitectura de memoria: Las NPU/TPU dependen de memoria rápida en el chip y del flujo continuo de datos. Las TPU evitan el clásico cuello de botella de la memoria usando flujo de datos sistólico: cada pequeña unidad pasa los datos a la siguiente en sincronía, minimizando las lecturas/escrituras a la memoria principal backblaze.com. Muchas NPU incluyen bloques de SRAM en el chip para pesos/activaciones (por ejemplo, los núcleos NPU de Tesla tienen 32 MB de SRAM cada uno para almacenar datos de redes neuronales localmente) semianalysis.com. Esto contrasta con las GPU/CPU, que usan DRAM externa en gran medida.
- Precisión: Las CPU/GPU suelen trabajar con flotantes de 32 o 64 bits para el cálculo. Los aceleradores de IA suelen usar enteros de 16 o 8 bits (y algunos ahora exploran 4 bits o incluso 2 bits) porque las redes neuronales toleran menor precisión. Los diseñadores de la TPU de Google señalaron explícitamente que no se necesita precisión flotante completa para la inferencia, análogo a “no necesitas saber exactamente cuántas gotas de lluvia caen para saber que está lloviendo mucho” backblaze.com. Esto permite que las NPU/TPU realicen más operaciones en paralelo y usen menos energía por operación.
- Casos de uso: Las GPU todavía se usan ampliamente para el entrenamiento de modelos grandes y para computación flexible (y son comunes en centros de datos y PCs de gama alta). Las TPU (en la nube) están orientadas al entrenamiento e inferencia a gran escala en el ecosistema de Google. Las NPU se encuentran más a menudo en dispositivos edge – teléfonos inteligentes, cámaras, electrodomésticos – realizando inferencia sobre modelos ya entrenados. Destacan en tareas como aplicar un modelo de visión a un fotograma de cámara en tiempo real, o ejecutar la detección continua de palabras clave de un asistente de voz con bajo consumo. Como señaló TechTarget: “Las GPU se eligen por disponibilidad y rentabilidad en muchos proyectos de ML; las TPU suelen ser más rápidas y menos precisas, usadas por empresas en Google Cloud; las NPU se encuentran comúnmente en dispositivos edge/móviles para procesamiento local significativamente más rápido” techtarget.com.
En resumen, CPUs = organizadores versátiles, GPUs = caballos de batalla paralelos, TPUs/NPUs = especialistas en redes neuronales. Todos pueden cooperar; de hecho, en un dispositivo moderno habilitado para IA, la CPU a menudo coordina tareas y delega las partes más intensivas en cálculos a la NPU/GPU según sea necesario techtarget.com. Esta tendencia hacia la especialización existe porque una sola solución ya no es suficiente en la computación: como bromeó un editor, “agregar millones de transistores más para cada necesidad no era bueno para la eficiencia… los diseñadores adoptaron procesadores diseñados para un propósito específico” techtarget.com. Las NPUs y TPUs diseñadas para un propósito específico aceleran drásticamente los cálculos de IA mientras mantienen bajo el consumo de energía, un equilibrio crítico tanto para dispositivos alimentados por batería como para servidores de alta densidad.
¿Por qué IA en el dispositivo? (Edge vs. Nube)
¿Por qué molestarse en ejecutar IA en tu teléfono o coche en absoluto? ¿Por qué no simplemente enviar todo a la nube donde servidores gigantes (con GPUs/TPUs) pueden hacer el trabajo pesado? Hay varias razones convincentes que impulsan el cambio hacia la IA en el dispositivo, y se reducen a velocidad, privacidad, costo y confiabilidad nimbleedge.com:
- Respuesta instantánea (baja latencia): Una NPU en el dispositivo puede procesar datos en tiempo real sin el retraso de ida y vuelta de enviar datos a un servidor en la nube. Esto es crucial para tareas de IA interactivas o críticas para la seguridad. Por ejemplo, el sistema de conducción autónoma de un coche que utiliza NPUs a bordo puede identificar a un peatón y frenar inmediatamente, en milisegundos, en lugar de esperar el cálculo en la nube. Una cámara inteligente con una NPU puede detectar a un intruso en el momento en que aparece en el encuadre. En tu teléfono, la IA en el dispositivo significa que tu asistente de voz puede responder más rápido y de manera más natural porque no está constantemente “llamando a casa”. La reducción de la latencia permite una verdadera toma de decisiones en tiempo real y una experiencia de usuario más fluida nimbleedge.com.
- Privacidad y seguridad de los datos: La IA en el dispositivo mantiene tus datos locales. En lugar de enviar el audio de tu micrófono o la señal de tu cámara a la nube para su análisis, el procesamiento ocurre dentro del dispositivo. Esto reduce enormemente la exposición de datos sensibles. Por ejemplo, los smartphones modernos realizan el reconocimiento facial (Face ID, etc.) completamente en el dispositivo: el mapa biométrico de tu rostro nunca sale del enclave seguro del teléfono. De manera similar, un audífono inteligente o un wearable de salud con IA puede analizar datos biométricos sin subirlos a ningún servidor, preservando la privacidad. Dadas las crecientes preocupaciones de los usuarios y regulaciones sobre la soberanía de los datos, esto es una gran ventaja. Como lo expresó un blog de edge AI, el procesamiento en el dispositivo significa que “los datos del usuario no necesitan ser transmitidos a la nube,” proporcionando un beneficio básico de privacidad nimbleedge.com. (Por supuesto, la privacidad no es automática: los desarrolladores aún deben manejar cuidadosamente los datos almacenados, pero es más fácil confiar en dispositivos que no están enviando constantemente tu información afuera). Los CEOs tecnológicos suelen enfatizar este aspecto. El CEO de Qualcomm, Cristiano Amon, señaló que combinar la inteligencia en la nube y en el dispositivo puede mejorar la personalización mientras mantiene los datos seguros en el dispositivo; él lo llama un “futuro híbrido” donde la IA en el dispositivo colabora con la IA en la nube para lo mejor de ambos moomoo.com.
- Disponibilidad y fiabilidad sin conexión: Los dispositivos con NPU/TPU no dependen de la conectividad. Pueden funcionar en un túnel del metro, en un avión, en zonas rurales remotas o durante cortes de red. Esto es fundamental para la fiabilidad. Una función de dictado por voz en el dispositivo seguirá funcionando sin señal. Un dron con visión por IA a bordo puede evitar obstáculos incluso fuera de la red. Esta independencia también es crítica para sistemas de misión crítica: por ejemplo, robots de recuperación en desastres o dispositivos médicos que no pueden asumir una conexión a internet activa. La “funcionalidad sin conexión” es una ventaja clave de la IA en el dispositivo nimbleedge.com: garantiza que la función de IA esté disponible cuando y donde se necesite.
- Eficiencia de costos a escala: Enviar constantemente datos sin procesar a la nube para el procesamiento de IA puede ser muy costoso (el cómputo en la nube no es gratis) y consumir mucho ancho de banda. A medida que proliferan las funciones de IA, las empresas tendrían que asumir enormes facturas de procesamiento en la nube si cada pequeña tarea llegara a un servidor. Al hacer más en el edge, se reduce la carga de los servidores en la nube y el uso de la red. A menudo es más eficiente gastar unos pocos dólares extra en un mejor chip en el dispositivo que pagar por gigabytes de computación en la nube durante la vida útil del dispositivo. Un análisis de la industria de Futurum señaló que el procesamiento en el dispositivo ayuda a abordar los problemas de escalabilidad y costo de la IA generativa: “distribuye” la carga para que los centros de datos no se vean sobrecargados (y los usuarios/desarrolladores no tengan que pagar sumas exorbitantes por tiempo de GPU en la nube) futurumgroup.com.
- Personalización y contexto: Una razón emergente: la IA en el dispositivo puede aprender y adaptarse al contexto local de una manera que la IA en la nube podría no lograr. Tu smartphone puede mantener un pequeño modelo local que aprende tu estilo de escritura para mejorar el autocorrector, sin compartir ese modelo de lenguaje personal con la nube. Los dispositivos pueden fusionar datos de múltiples sensores en tiempo real (algo más fácil de hacer localmente que transmitiendo un montón de flujos de sensores a la nube). Esto puede permitir una experiencia más personalizada y consciente del contexto. Algunas funciones como el aprendizaje federado incluso permiten que los dispositivos mejoren los modelos de IA de forma colaborativa sin subir datos sin procesar (solo enviando pequeñas actualizaciones de pesos).
- Regulación y soberanía de los datos: Leyes como el RGPD de Europa y varios requisitos de localización de datos exigen cada vez más que ciertos datos (especialmente los personales o sensibles) no se envíen al extranjero ni a terceros sin consentimiento. La IA en el dispositivo ofrece una forma de cumplir procesando los datos en el origen. Por ejemplo, las herramientas de IA para imágenes médicas pueden ejecutarse en el hardware del hospital (servidores edge con NPU) para que los datos de los pacientes nunca salgan de las instalaciones, cumpliendo con las regulaciones de privacidad. El informe de NimbleEdge de 2025 señala que los gobiernos están impulsando una mayor inferencia local por razones de soberanía y cumplimiento nimbleedge.com.
Todos estos factores están impulsando un cambio de paradigma: en lugar de pensar en la IA como “cloud-first”, las empresas ahora diseñan funciones de IA “device-first” cuando es posible. Como resumió el vicepresidente de IA de Qualcomm, Durga Malladi: “Para escalar efectivamente la IA generativa al público general, la IA tendrá que ejecutarse tanto en la nube como en los dispositivos en el edge… como smartphones, laptops, vehículos y dispositivos IoT” iconnect007.com. Nos estamos moviendo hacia un mundo de IA híbrida donde el entrenamiento pesado y los grandes modelos pueden estar en la nube, pero muchas tareas de inferencia y experiencias personales de IA se ejecutan localmente en las NPU/TPU en tus manos y hogares. De hecho, Amon lo llama un “punto de inflexión en la IA”: inferencia en el dispositivo sin latencia, donde “el futuro de la IA es personal” porque se ejecuta justo donde tú estás x.com.
IA en el dispositivo en acción: de los smartphones a los autos autónomos
Chips de IA especializados ya están integrados en una amplia gama de dispositivos a tu alrededor, a menudo haciéndolos más inteligentes de forma invisible. Aquí algunos de los principales ámbitos donde se despliegan NPU y edge TPU:
- Smartphones y tabletas: Casi todos los teléfonos insignia modernos (e incluso muchos de gama media) ahora incluyen una NPU o motor de IA dedicado. Apple inició la tendencia en 2017 con el Apple Neural Engine en el chip A11 del iPhone, permitiendo Face ID y Animoji en el dispositivo al realizar hasta 600 mil millones de operaciones por segundo apple.fandom.com. Hoy en día, el chip A17 Pro de Apple (2023) cuenta con un Neural Engine de 16 núcleos capaz de 35 billones de operaciones por segundo apple.fandom.com. Esto impulsa funciones como la detección avanzada de escenas en la cámara, estilos de fotos, comandos de voz de Siri procesados sin conexión, autocorrección, transcripción en vivo e incluso ejecutar modelos transformadores para traducción en el dispositivo. Los teléfonos Pixel de Google también tienen silicio personalizado (“Google Tensor” SoCs) con NPUs: el más reciente Tensor G3 en el Pixel 8 fue “diseñado a medida para ejecutar los modelos de IA de Google”, mejorando cada parte del chip (CPU, GPU, ISP) para allanar el camino hacia la IA generativa en el dispositivo blog.google. El Pixel 8 puede ejecutar los modelos de texto a voz y traducción más avanzados de Google localmente, los mismos que antes estaban confinados a los centros de datos blog.google. También realiza trucos complejos de cámara como la función “Best Take” para fusionar fotos grupales y Audio Magic Eraser usando un conjunto de modelos de IA en el dispositivo blog.google. Samsung y otros fabricantes de Android usan los chipsets Snapdragon de Qualcomm, cuyos NPUs más recientes (Hexagon AI engine) pueden incluso ejecutar modelos de lenguaje grandes en el teléfono; Qualcomm demostró la ejecución de un LLM de 10 mil millones de parámetros e incluso la generación de imágenes con Stable Diffusion en un teléfono con Snapdragon 8 Gen 3 futurumgroup.com. El motor de IA de este chip es un 98% más rápido que la generación anterior y admite precisión INT4 para mayor eficiencia futurumgroup.com. Resultado práctico: tu teléfono de 2024 puede hacer cosas como resumir artículos, responder preguntas o editar fotos con IA sin necesidad de la nube. Incluso las funciones de accesibilidad se benefician: por ejemplo, los teléfonos Pixel ahora tienen escritura por voz en el dispositivo, subtítulos en vivo y una próxima función para describir imágenes a usuarios ciegos usando un modelo local.
- Cámaras inteligentes y sistemas de seguridad: Las cámaras habilitadas con IA utilizan NPUs integradas para detectar personas, rostros, animales o comportamientos sospechosos al instante. Por ejemplo, las últimas cámaras de seguridad de EnGenius incluyen una NPU incorporada que maneja la detección de objetos y convierte el video en metadatos directamente en la cámara, eliminando la necesidad de un grabador de video separado y aumentando la seguridad (ya que el video puede analizarse y almacenarse localmente) engeniustech.com. Esto significa que tu cámara de seguridad puede decidir “persona presente” o “paquete entregado” y enviar solo esa alerta, en lugar de transmitir horas de grabación a un servicio en la nube. De manera similar, dispositivos de consumo como la Google Nest Cam IQ tenían un chip de visión en el dispositivo (Google Edge TPU) para reconocer rostros familiares y diferenciar humanos de mascotas en su campo de visión. Las cámaras DSLR y sin espejo también están agregando procesadores de IA para cosas como seguimiento de sujetos, autoenfoque al ojo y optimización de escenas en tiempo real. En drones, los chips de IA a bordo ayudan con la evasión de obstáculos y la navegación visual sin requerir control remoto. Notablemente, Edge TPU de Google (un pequeño módulo ASIC) se ha convertido en un complemento popular para cámaras DIY e industriales de IoT: proporciona 4 TOPS de potencia de procesamiento de visión para tareas como detectar personas o leer matrículas, usando solo ~2 vatios coral.ai.
- Dispositivos inteligentes para el hogar y el IoT: Más allá de los teléfonos, muchos dispositivos inteligentes para el hogar tienen mini NPUs. Los altavoces activados por voz (Amazon Echo, Google Nest Hub, etc.) ahora suelen incluir chips de reconocimiento de voz local. Amazon desarrolló el procesador AZ1 Neural Edge para los dispositivos Echo para acelerar la detección de la palabra de activación de Alexa y las respuestas en el dispositivo, reduciendo la latencia a la mitad embedl.com. El AZ1 (construido con MediaTek) ejecuta una red neuronal que reconoce “Alexa” y procesa comandos simples sin llegar a la nube embedl.com. Esto no solo hace que Alexa se sienta más rápida, sino que también mantiene más datos de voz en privado. Igualmente, muchos televisores, electrodomésticos e incluso juguetes nuevos tienen algo de IA en el edge – por ejemplo, la cámara de un refrigerador inteligente puede identificar alimentos y fechas de caducidad localmente. Wearables merecen mención también: el chip S9 del Apple Watch agregó un Neural Engine de 4 núcleos para manejar mejor los algoritmos de IA de salud y las solicitudes de Siri en el reloj apple.fandom.com. Y en el lado industrial, los sensores IoT con NPUs pueden realizar detección de anomalías en los datos de equipos directamente en el edge, solo señalando los eventos relevantes aguas arriba (ahorrando ancho de banda y respondiendo más rápido a los problemas).
- Automóviles (ADAS y autonomía): Los autos se han convertido en centros de IA sobre ruedas. Los sistemas avanzados de asistencia al conductor (ADAS) y las funciones de conducción autónoma dependen de un conjunto de aceleradores de IA a bordo para interpretar las señales de las cámaras, LiDAR, radar y tomar decisiones de conducción en una fracción de segundo. Tesla diseñó famosamente su propia FSD (Full Self-Driving) Computer con chips NPU duales. El chip FSD de Tesla (HW3, introducido en 2019) proporcionó 144 TOPS (dos NPUs de 72 TOPS cada una); el nuevo HW4 (2023) eleva eso a aproximadamente 200–250 TOPS en total (dos NPUs de 7nm de más de 100 TOPS cada una) ts2.tech. Esto permite que el auto procese video en resolución completa de 8 cámaras, sonar, etc., simultáneamente a través de redes neuronales para percepción e incluso ejecute algunos modelos de lenguaje para comandos de voz, todo localmente dentro del módulo del auto. Plataformas competidoras como NVIDIA Drive y Qualcomm Snapdragon Ride también integran NPUs. El último chip supercomputadora para autos de NVIDIA, Drive Thor, previsto para autos de 2025, presume hasta 1,000 TOPS en un solo chip (y 2,000 TOPS cuando se emparejan dos) para soportar autonomía de Nivel 4 ts2.tech. Combina una GPU, CPU y aceleradores de aprendizaje profundo dedicados, por lo que puede manejar todo, desde el reconocimiento de señales de tráfico hasta la IA de monitoreo del conductor en el chip ts2.tech. Estas NPUs son literalmente salvavidas: un auto autónomo no puede esperar a los servidores en la nube si un niño corre hacia la calle. La IA a bordo debe ver y reaccionar en decenas de milisegundos. Fuera de los autos de pasajeros, también se encuentra un uso intensivo de IA de borde en drones autónomos, robots de entrega y vehículos industriales que navegan y toman decisiones con NPUs/TPUs a bordo (por ejemplo, los robots de entrega de Nuro y muchos sistemas de camiones autónomos utilizan chips de IA de NVIDIA o Huawei en el dispositivo).
- Computación en el Borde e Industria: En fábricas y entornos empresariales, la IA en el dispositivo suele tomar la forma de servidores edge o gateways con aceleradores de IA. En lugar de enviar las transmisiones de cámaras o datos de sensores a una nube central, las empresas instalan cajas edge (a veces basadas en GPU, otras en NPU/FPGA) en las instalaciones. Estas se encargan de tareas como el análisis de video en tiempo real para el control de calidad en una línea de producción, detectando defectos mediante visión por IA en microsegundos. Los dispositivos de salud son otro ejemplo: un ultrasonido portátil o una resonancia magnética pueden tener una NPU para hacer análisis de imágenes por IA en el propio dispositivo, de modo que los médicos obtienen ayuda diagnóstica instantánea sin necesidad de conexión a internet (lo que también es mejor para la privacidad de los datos del paciente). El comercio minorista y las ciudades también despliegan IA en el borde – por ejemplo, cámaras de tráfico inteligentes con NPU para analizar la congestión y ajustar los semáforos, o cámaras en estanterías de tiendas que rastrean el inventario. Muchos de estos usan NPU especializadas como los chips Intel Movidius Myriad, el Edge TPU de Google o nuevos participantes como Hailo-8 (una NPU israelí que ofrece 26 TOPS en unos pocos vatios para cámaras). El hilo conductor es que estos aceleradores permiten que el análisis ocurra localmente, logrando resultados en tiempo real y manteniendo solo los conocimientos de alto nivel (en lugar de los datos en bruto) circulando por las redes.
La versatilidad de las NPU/TPU en diferentes tipos de dispositivos es impresionante. Un momento están permitiendo que tu teléfono desenfoque el fondo de una foto con IA y al siguiente están guiando un dron o escaneando imágenes médicas. Las cámaras de los smartphones ahora usan NPU para funciones como el Modo Noche (agregando múltiples fotogramas de manera inteligente), el efecto bokeh en modo Retrato, el reconocimiento de escenas (tu teléfono sabe que estás fotografiando un “atardecer” y optimiza los colores mediante IA), e incluso para efectos divertidos de AR (Animoji mapeando tu rostro, o filtros de Snapchat siguiendo tus movimientos – todo gracias a redes neuronales en el dispositivo). La biometría usa NPU: escáneres de huellas dactilares mejorados con IA para detección de vitalidad, desbloqueo facial con sensores de profundidad más IA. El audio también las utiliza: la cancelación de ruido en auriculares y teléfonos ahora suele estar impulsada por IA, con NPU separando la voz del ruido de fondo en tiempo real.
Un ejemplo concreto de innovación en 2024: Oppo (el fabricante de smartphones), en asociación con MediaTek, anunció que implementó un modelo de IA Mixture-of-Experts (MoE) directamente en el dispositivo a finales de 2024 – supuestamente el primero en hacerlo en un teléfono grandviewresearch.com. Esta avanzada arquitectura de red neuronal (MoE) puede mejorar el rendimiento activando solo las subredes “expertas” relevantes por tarea, y hacer esto en el dispositivo significa que los teléfonos Oppo pueden lograr un procesamiento de IA más rápido y una mejor eficiencia energética para tareas complejas, sin necesidad de asistencia en la nube grandviewresearch.com. Esto subraya cómo incluso la investigación de IA más avanzada está llegando rápidamente a nuestros dispositivos de mano gracias a las NPU mejoradas.
Dentro de los chips de IA de 2025: los últimos desarrollos de Apple, Google, Qualcomm y más
La carrera por construir mejor hardware de IA en el dispositivo se ha intensificado rápidamente. Aquí tienes un vistazo a lo que las principales empresas han lanzado recientemente (2024–2025) en cuanto a NPU/TPU y silicio de IA:
- Apple: La estrategia de silicio personalizado de Apple ha enfatizado durante mucho tiempo el aprendizaje automático en el dispositivo. Cada año, el Neural Engine de Apple ha aumentado su potencia. En el iPhone 15 Pro de 2023, el chip A17 Pro alcanzó 35 TOPS (billones de operaciones por segundo) con sus 16 núcleos apple.fandom.com. Esto duplicó el rendimiento bruto del NPU del A16, y Apple lo utilizó para habilitar cosas como reconocimiento de voz en el dispositivo para Siri (finalmente procesando muchas solicitudes de Siri sin internet) y nuevas capacidades de cámara (como el modo Retrato capturado automáticamente y traducción en vivo de texto a través de la cámara). Los chips de Apple de 2024 continuaron la tendencia: la familia M3 para Macs (finales de 2023) recibió un Neural Engine actualizado (aunque curiosamente ajustado a 18 TOPS para el chip base M3, enfocándose más en la eficiencia) apple.fandom.com. En 2024, Apple presentó el chip M4 (para iPads/Macs de gama alta, mediados de 2024) que, según se informa, elevó el Neural Engine a 38 TOPS en un proceso refinado de 3nm apple.fandom.com. Más allá de los números, Apple ha estado usando ese NPU: funciones como Personal Voice (que crea un clon de la voz del usuario tras 15 minutos de entrenamiento) se ejecutan de forma privada en el Neural Engine de los iPhones, y las transcripciones de Live Voicemail ocurren localmente. Apple también ha integrado NPUs en todas sus clases de dispositivos: incluso los AirPods Pro tienen un pequeño chip neural para Audio Adaptativo. Los ejecutivos de Apple suelen destacar el ángulo de la privacidad: “el aprendizaje automático en tu dispositivo” significa que tus datos permanecen contigo. Para 2025, esperamos que el Neural Engine de Apple posiblemente se expanda aún más o esté disponible para aplicaciones de terceros de nuevas formas (ya Core ML permite a los desarrolladores usarlo, pero Apple podría abrir más acceso a las API neurales). También hay rumores de que Apple está diseñando un acelerador de IA independiente para futuras gafas o autos, pero los productos actuales muestran que prefieren NPUs integrados en sus SoCs de las series A y M.
- Google: Google no solo fue pionera en la TPU en la nube, sino que también apostó fuertemente por la IA en el dispositivo para los teléfonos Pixel y dispositivos de consumo. El Google Tensor SoC (presentado por primera vez en 2021 en el Pixel 6) fue único porque Google, famosa por la nube, creó un chip para teléfonos capaz de ejecutar IA en el propio dispositivo. Para el Tensor G3 (en el Pixel 8 de 2023), Google destacó mejoras que permiten IA generativa en el dispositivo. Google dijo explícitamente que el chip del Pixel 8 lleva “la investigación de IA de Google directamente a nuestros teléfonos más nuevos” blog.google. La TPU de próxima generación del Tensor G3 (Google sigue llamando “TPU” al núcleo de IA internamente) permite que el Pixel ejecute modelos avanzados como Palm 2 o Gemini Nano (versiones reducidas de los grandes modelos de lenguaje de Google) en el propio dispositivo para funciones como resumir sitios web o mejorar el dictado por voz reddit.com. Una función destacada: el Pixel 8 puede ejecutar localmente el mejor modelo de texto a voz de Google (el que se usa en el centro de datos), lo que permite que el teléfono lea páginas web en voz alta con voces naturales e incluso las traduzca en tiempo real, todo sin conexión blog.google. Google también utiliza la TPU en el Pixel para fotografía (imágenes multifotograma “HDR+”, borrado mágico de objetos usando IA de inpainting blog.google), para seguridad (desbloqueo facial en el dispositivo mediante IA, ahora considerado lo suficientemente seguro para pagos blog.google), y para voz (el Asistente que no se molesta si dices “ehh”). Más allá de los teléfonos, Google ofrece la Coral Dev Board y un stick USB para que aficionados y empresas añadan Edge TPUs a sus proyectos, cada uno con la Edge TPU de Google que proporciona 4 TOPS para tareas de visión con muy bajo consumo coral.ai. Se utiliza en algunos productos propios de Google como el Nest Hub Max para el reconocimiento de gestos. Para Google, integrar TPUs en el edge es parte de una estrategia más amplia: Sundar Pichai (CEO de Google) ha dicho que el futuro de la IA consiste en aumentar cada experiencia, y claramente, Google considera que “para llevar el poder transformador de la IA a la vida cotidiana, necesitas acceder a ella desde el dispositivo que usas todos los días” blog.google – de ahí los chips Tensor. Podemos anticipar un Tensor G4 en los teléfonos Pixel de finales de 2024, posiblemente fabricado con el proceso más nuevo de Samsung o TSMC, mejorando aún más el rendimiento y la eficiencia de la IA, e incluso permitiendo IA multimodal en el dispositivo (combinando modelos de visión y lenguaje).
- Qualcomm: El principal proveedor de chips móviles para teléfonos Android ha impulsado agresivamente su AI Engine en la serie Snapdragon. El Snapdragon 8 Gen 2 (finales de 2022) introdujo soporte dedicado para INT4 y mostró generación de imágenes de difusión estable en tiempo real en un teléfono. El Snapdragon 8 Gen 3 (anunciado a finales de 2023, en los teléfonos insignia de 2024) es un salto importante: Qualcomm dice que su Hexagon NPU es 98% más rápida que la de la Gen 2 y 40% más eficiente energéticamente futurumgroup.com. Este chip puede ejecutar modelos de lenguaje grandes con hasta 10 mil millones de parámetros completamente en el dispositivo, procesando alrededor de 20 tokens por segundo – suficiente para conversaciones simples con un asistente de IA sin la nube futurumgroup.com. También logró la “generación de imágenes Stable Diffusion más rápida del mundo” en un dispositivo móvil en demostraciones futurumgroup.com. Qualcomm ha sido enfático en que la IA generativa en el dispositivo es un punto clave de venta para los nuevos teléfonos. Por ejemplo, se asociaron con Meta para optimizar el LLM de código abierto Llama 2 para Snapdragon, con el objetivo de permitirte ejecutar una IA chatbot en tu teléfono para 2024 iconnect007.com. (Un ejecutivo de Qualcomm dijo: “aplaudimos el enfoque abierto de Meta… para escalar la IA generativa, debe ejecutarse tanto en la nube como en el edge”, reforzando la filosofía de IA en el edge iconnect007.com.) Más allá de los teléfonos, Qualcomm está incorporando NPUs en chips para portátiles (las plataformas de cómputo Snapdragon para Windows en ARM) – y su plataforma automotriz Snapdragon Ride utiliza los mismos núcleos de IA para ofrecer hasta 30 TOPS para ADAS, con una hoja de ruta hacia cientos de TOPS. En 2025, Qualcomm incluso anunció un nuevo CPU Snapdragon X Elite para PC que incluye una potente NPU, señalando la intención de desafiar a Apple e Intel en rendimiento de IA en computadoras personales. Con el auge de la IA en el dispositivo, Qualcomm está incluso etiquetando algunos teléfonos como “teléfonos IA”. Proyectan que muchas aplicaciones (desde fotografía hasta mensajería y productividad) aprovecharán la NPU. En el lado del software, Qualcomm lanzó la Qualcomm AI Stack para unificar el soporte de frameworks populares (TensorFlow Lite, PyTorch, ONNX) en sus NPUs iconnect007.com – intentando facilitar a los desarrolladores el uso del hardware de IA sin un conocimiento profundo de los chips.
- MediaTek: El segundo mayor fabricante de chips móviles (conocido por la serie Dimensity) también ha mejorado sus NPU. MediaTek llama a sus motores de IA “APU” (Unidad de Procesamiento de IA). Por ejemplo, el Dimensity 9200+ (2023) tiene una APU de sexta generación con un aumento significativo de rendimiento respecto al chip anterior, lo que permite funciones como difusión estable en el dispositivo y reducción de ruido por IA en videos. En 2024, MediaTek anunció el Dimensity 9400, y en asociación con Oppo, utilizaron su avanzada arquitectura NPU para introducir nuevas funciones de IA (como se mencionó, la remasterización de fotos con IA del Oppo Find X8 con eliminación de reflejos y desenfoque está impulsada por la NPU de MediaTek) mediatek.com. Los ejecutivos de MediaTek se han posicionado explícitamente a la vanguardia de la IA en el dispositivo. Como dijo Will Chen de MediaTek, “el futuro de la IA trasciende la nube; está impulsado por la computación en el borde, directamente desde la palma de tu mano.” En su opinión, la IA en los teléfonos debe ser rápida, privada, segura y siempre accesible mediatek.com. MediaTek incluso formó una colaboración “centrada en la APU” con Meta para soportar los frameworks Llama y con fabricantes de dispositivos como Oppo y Xiaomi enfocándose en funciones de cámara IA y voz IA. Para 2025, MediaTek planea implementar estas NPU no solo en teléfonos, sino también en televisores inteligentes (para mejora de imagen y escalado por IA), dispositivos IoT, e incluso automóviles (MediaTek tiene una plataforma de IA automotriz y se ha asociado con Nvidia para integrar la IP de GPU de Nvidia en autos, mientras que presumiblemente proporciona su propia NPU para IA de sensores).
- Intel: 2024 marcó la entrada de Intel en los aceleradores de IA en PCs convencionales. El Core de 14ª generación de Intel (Meteor Lake, lanzado en diciembre de 2023 y renombrado como Core Ultra en 2024) es el primer procesador x86 para PC con una unidad de procesamiento neuronal (NPU) integrada. La NPU de Meteor Lake (a veces llamada VPU – Unidad de Procesamiento de Visión – basada en la tecnología Movidius de Intel) ofrece alrededor de 8–12 TOPS de rendimiento en IA pcworld.com. Esto se utiliza para acelerar las funciones de IA de Windows 11 como el desenfoque de fondo, el contacto visual en videollamadas, y podría ser utilizado por aplicaciones para cosas como transcripción local, supresión de ruido o incluso pequeños asistentes de IA. Microsoft e Intel han estado impulsando juntos el concepto de la “PC con IA”. Intel afirma que estas NPUs se enviarán en decenas de millones de portátiles en 2024 pcworld.com. Después de Meteor Lake, la hoja de ruta de Intel menciona Arrow Lake (para escritorios en 2024), que también incluye una NPU (alrededor de 13 TOPS, ligeramente mejorada) pcworld.com. Curiosamente, el primer intento de Intel de una NPU de escritorio fue superado en realidad por AMD (ver abajo), y Intel optó por un diseño de NPU modesto para evitar sacrificar el área de GPU/CPU en chips para entusiastas pcworld.com. Pero a finales de 2024, Intel señaló que los futuros chips Lunar Lake tendrán una NPU mucho más potente (~45 TOPS) para cumplir con los requisitos de “Copilot” de Microsoft pcworld.com. Todo esto indica que Intel ve la IA como algo imprescindible para las PCs en el futuro, no para entrenar modelos enormes, sino para acelerar experiencias cotidianas potenciadas por IA (desde mejoras en la suite de oficina hasta herramientas creativas usando IA local). Intel también vende aceleradores de IA de borde como los chips Intel Movidius Myriad (utilizados en algunos drones, cámaras) y los aceleradores Habana para servidores, pero la NPU integrada de Meteor Lake es un hito que lleva la IA al dispositivo de consumo promedio.
- AMD: AMD se incorporó a la IA en el dispositivo aproximadamente al mismo tiempo. Sus procesadores para portátiles Ryzen serie 7040 (Phoenix), lanzados en 2023, presentaron el primer Ryzen AI Engine – esencialmente un NPU XDNA integrado (tecnología de la adquisición de Xilinx por parte de AMD). Este NPU ofrecía hasta 10 TOPS en el chip móvil en.wikipedia.org. AMD promocionó casos de uso como videollamadas mejoradas por IA, aplicaciones de productividad, y similares, en línea con los objetivos de Intel. Luego, AMD lanzó brevemente una serie de escritorio Ryzen 8000 (principios de 2024) con un NPU que alcanzaba 39 TOPS – una cifra muy alta para la unidad de IA de una CPU de propósito general, incluso superando los planes de Intel pcworld.com. Sin embargo, AMD cambió rápidamente de rumbo y se saltó una generación, enfocándose en su próxima arquitectura (el posterior Ryzen 9000 a finales de 2024 eliminó el NPU para priorizar mejoras en los núcleos) pcworld.com. No obstante, se espera que AMD vuelva a incorporar NPUs en futuros chips para PC (probablemente sea una retirada temporal mientras trabajan en integrar un motor de IA potente sin comprometer el resto del rendimiento). En cuanto al producto, los NPUs de AMD podrían habilitar cosas interesantes ya que AMD también tiene GPUs potentes – una combinación que podría manejar cargas de trabajo de IA de forma colaborativa (algunas partes en el NPU, otras en la GPU). AMD también ha estado incorporando núcleos de IA en sus SoCs adaptativos (basados en FPGA) y chips automotrices. En resumen, para 2025 todos los fabricantes de chips x86 para PC han adoptado los NPUs, alineándose con lo que los smartphones hicieron unos años antes, lo que indica que la aceleración de IA se está convirtiendo en una característica estándar en todos los ámbitos.
- Otros: Una variedad de empresas especializadas en chips y otras firmas tecnológicas también están innovando en NPUs. NVIDIA, conocida por sus GPUs, ahora incluye Tensor Cores dedicados en sus GPUs y ofrece un diseño abierto NVDLA (acelerador de aprendizaje profundo) para integración en productos System-on-Chip. En dispositivos edge como la serie NVIDIA Jetson (usada en robots, drones, sistemas embebidos), hay tanto la GPU como “DLAs” de función fija – esencialmente NPUs – que descargan parte de la inferencia de redes neuronales de la GPU. El módulo Orin de NVIDIA, por ejemplo, tiene 2 DLAs además de su GPU, contribuyendo a sus 254 TOPS de rendimiento de IA para autos ts2.tech. Apple se rumorea que está trabajando en coprocesadores de IA aún más avanzados o motores neuronales más grandes para sus gafas de AR o proyectos futuros, aunque los detalles son secretos. Huawei (a pesar de los desafíos geopolíticos) continúa diseñando chips móviles Kirin con NPUs (su arquitectura NPU “DaVinci”) y también NPUs de clase servidor en sus chips Ascend AI – su chip Kirin 9000S de 2023 supuestamente mantiene una NPU potente para tareas de imagen y lenguaje en sus teléfonos. También vemos startups como Hailo, Mythic, Graphcore y otras ofreciendo sus propios chips de IA edge: por ejemplo, Hailo-8 como se mencionó (26 TOPS en una tarjeta mini PCIe para cámaras de IA), IPU de Graphcore para centros de datos (no exactamente en el dispositivo, pero una nueva arquitectura para redes neuronales), Mythic trabajando en NPUs analógicas, etc. ARM, cuyos diseños sustentan la mayoría de los chips móviles, ofrece la serie Ethos NPU (como Ethos-U, Ethos-N78) que los fabricantes de chips pueden integrar para obtener un acelerador de IA listo para usar en SoCs de IoT o gama media. Esto ha permitido que incluso jugadores relativamente pequeños incluyan NPUs en sus chips mediante la licencia del diseño de ARM.
La conclusión es que, desde las grandes tecnológicas hasta las startups, todos están invirtiendo en silicio de IA en el dispositivo. Como resultado, estamos viendo mejoras rápidas: nuevos chips que presumen mayor TOPS, mejor eficiencia (TOPS por vatio) y soporte para nuevos tipos de datos (como cuantización de 4 bits para modelos más grandes). Por ejemplo, los últimos de Qualcomm y MediaTek pueden ejecutar precisión INT4, lo cual es ideal para modelos de IA generativa donde el ancho de banda de memoria es un limitante androidauthority.com. Estas innovaciones se traducen directamente en beneficios para el usuario – por ejemplo, edición de video móvil con IA en tiempo real (eliminando objetos de video 4K al instante, como puede hacer el Snapdragon 8 Gen 3 con su función de IA “Video Object Eraser” futurumgroup.com), o coprocesadores de IA en autos que permiten asistentes de voz que funcionan sin red y responden tan rápido como una conversación humana.
Noticias clave de 2024–2025: Lanzamientos, benchmarks y asociaciones
Para ilustrar lo rápido que se está moviendo todo, aquí algunos eventos destacados en el mundo de las NPUs/TPUs y la IA en el dispositivo desde finales de 2024 hasta 2025:
- Presentaciones de Apple M3 y M4 (octubre 2023 y mayo 2024): Trajeron Neural Engines de próxima generación. El Neural Engine del M3 alcanza 18 TOPS (16 núcleos), y el M4 saltó a 38 TOPS (aún con 16 núcleos pero con mayor frecuencia/eficiencia) apple.fandom.com. Apple demostró que estos chips pueden manejar tareas intensivas como la generación de imágenes de difusión estable en el dispositivo en macOS (con Core ML Stable Diffusion, los desarrolladores mostraron ~15 segundos para generar una imagen en un M2 – aún más rápido en M3/M4).
- Lanzamiento de Google Pixel 8 (octubre 2023): Enfatizó la IA “en todas partes” en el dispositivo. El evento de Google mostró la capacidad del Pixel 8 para resumir páginas web y traducir artículos en vivo en el dispositivo usando su NPU Tensor G3. También presentó el “Assistant with Bard”, que eventualmente ejecutará algunas interacciones en el dispositivo. Google destacó que el Pixel 8 puede ejecutar el doble de modelos en el dispositivo que el Pixel 6, y modelos mucho más sofisticados blog.google. En otras palabras, un gran salto en solo dos años de desarrollo del chip Tensor.
- Alianza Qualcomm–Meta (julio 2023): Qualcomm y Meta anunciaron que están optimizando el modelo de lenguaje grande Llama 2 de Meta para ejecutarse completamente en NPUs Snapdragon para 2024 iconnect007.com. El objetivo es permitir a los desarrolladores implementar chatbots y aplicaciones de IA generativa en teléfonos, visores de realidad virtual, PCs, etc., sin la nube. Esto fue un respaldo significativo a la IA en el dispositivo por parte de un importante propietario de modelos de IA (Meta) y un importante fabricante de chips. A finales de 2024, continuaron con planes para la optimización de Llama 3 también qualcomm.com.
- PCs “Copilot” con Microsoft Windows 11 (2024): Microsoft estableció un estándar llamando “PCs con IA” a los ordenadores con más de 40 TOPS de aceleración de IA local, elegibles para funciones avanzadas de IA (como la integración del asistente digital Copilot). Esto impulsó a los fabricantes – Lenovo, Dell, etc. – a adoptar chips con NPUs (ya sea Intel, AMD o Qualcomm) para cumplir con la especificación. El resultado es una ola esperada de portátiles con capacidad de IA en 2024, con Microsoft afirmando que hay docenas de modelos en camino y pronosticando más de 40 millones de envíos de PCs con IA en 2024 pcworld.com.
- Breve NPU Ryzen 8000 de AMD (enero 2024): AMD anunció una CPU de escritorio con un impresionante NPU de 39 TOPS (una sorpresa ya que los chips de escritorio normalmente carecen de tales aceleradores) pcworld.com. Aunque ese producto en particular fue rápidamente reemplazado, demostró que incluso las CPUs de escritorio pueden tener silicio de IA que rivaliza con los chips móviles en TOPS. También fue la primera CPU x86 de escritorio en llevar un NPU (adelantándose por poco a Intel Arrow Lake).
- Demos de Tesla FSD Beta v12 (finales de 2023): Elon Musk mostró conducción autónoma de extremo a extremo (sin radar, solo redes de visión) ejecutándose en los NPUs HW3/HW4 de Tesla. Fue notable que la red neuronal condujera el coche usando flujos de video procesados completamente en tiempo real en la computadora del coche. Observadores notaron que FSD v12 utilizaba completamente los 2× 100 TOPS NPUs para visión, y Tesla insinuó que futuras actualizaciones (HW5) que apuntan a 2000 TOPS podrían estar en desarrollo para manejar modelos aún más grandes (hubo rumores de que el HW5 de Tesla podría apuntar a 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor revelado (GTC 2024): NVIDIA reveló detalles de su próximo chip automotriz, Drive Thor, que incluye el equivalente a 2× la computación de IA de su predecesor Orin – hasta 2000 TOPS cuando dos chips están enlazados ts2.tech. De manera significativa, Thor está diseñado para manejar no solo tareas de conducción sino también IA en cabina (como voz y monitoreo de ocupantes) en una sola plataforma, mostrando cómo los NPUs y GPUs juntos pueden consolidar muchas funciones de IA en los autos ts2.tech. Varios fabricantes de automóviles (Xpeng, BYD, Volvo) anunciaron que usarán Thor a partir de 2025 ts2.tech.
- IA MoE en dispositivo de Oppo (octubre 2024): Como se mencionó, Oppo implementó un modelo Mixture-of-Experts en el teléfono Find X8 grandviewresearch.com. Esto es relevante porque los modelos MoE suelen ser grandes y se consideraban del lado del servidor debido a su complejidad. Ejecutar MoE en el dispositivo sugiere nuevas técnicas de compresión de modelos y un NPU muy capaz (probablemente el MediaTek Dimensity 9400 en ese dispositivo).
- Gafas de IA Ray-Ban de Meta (2025): (Esperado) Meta mostró prototipos de gafas inteligentes que pueden identificar lo que ves y hablarte al respecto, probablemente usando un acelerador personalizado integrado (Meta ha estado prototipando silicio personalizado para AR). Aunque los detalles son escasos, esto subraya el impulso por poner IA en dispositivos muy limitados (gafas, auriculares con batería), lo que requeriría NPUs ultra eficientes.
- Benchmarks de Inferencia Móvil MLPerf (2023–24): MLCommons publicó resultados que muestran la destreza de IA de los últimos smartphones. Por ejemplo, en MLPerf Inference v3.0 (octubre 2023), el A16 de Apple, Google Tensor G2 y Qualcomm Gen 2 fueron evaluados en tareas como clasificación de imágenes y detección de objetos. Los resultados mostraron que Apple y Qualcomm se alternan victorias, pero en general las NPUs móviles están cerrando la brecha con algunos aceleradores de clase laptop/escritorio para esas tareas, todo funcionando con batería. También destacó diferencias de software (por ejemplo, el SDK de IA de Qualcomm vs. Apple Core ML). Las mejoras continuas cada año (aumentos de dos dígitos en porcentaje) en estos benchmarks demuestran la sana competencia y el rápido progreso en IA en el dispositivo.
- Alianzas estratégicas: Se formaron muchas alianzas interindustriales. Por ejemplo, NVIDIA y MediaTek (mayo 2023) anunciaron una colaboración para poner la propiedad intelectual de GPU de Nvidia y su ecosistema de software en los futuros chips para smartphones y automóviles de MediaTek, uniendo efectivamente la fortaleza de Nvidia en IA con la experiencia de MediaTek en SoC móviles. Además, empresas como Qualcomm están asociándose con fabricantes de automóviles (Mercedes, BMW) para poner las plataformas Snapdragon Cockpit y Ride (con NPUs) en nuevos vehículos para funciones de IA. Arm se ha asociado con Fujitsu y otros para nuevos diseños de chips de IA (como la partición de IA de la supercomputadora Fugaku, aunque eso es de gama alta). Incluso IBM y Samsung adelantaron nuevas tecnologías de chips (como computación neuromórfica y memoria de IA) que algún día podrían revolucionar las NPUs – aún no están aquí, pero muestran que las líneas de investigación están llenas.
En resumen, el año pasado ha estado repleto de desarrollos, subrayando que la IA en el dispositivo es una de las áreas más candentes en tecnología. Como señaló un analista de la industria, “estas capacidades en el dispositivo abren horizontes completamente nuevos… ejecutar LLMs en móviles ayuda a abordar la escala y el costo, mantiene los datos privados y asegura que la IA funcione incluso con conectividad limitada” futurumgroup.com. Eso resume bastante bien por qué todas las grandes empresas tecnológicas están invirtiendo aquí.
Perspectivas de expertos: Lo que dicen los líderes tecnológicos sobre la IA en el dispositivo
El impulso detrás de las NPUs y TPUs no solo es evidente en los productos, sino también en las palabras de los líderes de la industria. Aquí hay algunas citas y perspectivas seleccionadas que arrojan luz sobre la importancia de la IA en el dispositivo:
- Cristiano Amon (CEO de Qualcomm): “Si la IA va a escalar, la verás ejecutándose en los dispositivos… Esto marca un punto de inflexión en la IA: sin problemas de latencia, solo inferencia en el dispositivo fluida, segura y complementaria a la nube. El futuro de la IA es personal, y comienza en tu dispositivo.” (Entrevista con Bloomberg y publicación en X, 2023) x.com. Amon imagina un mundo híbrido de IA donde tu teléfono/PC maneja mucho por sí solo en sus NPU, trabajando con la nube cuando sea necesario. Él enfatiza que ejecutar IA localmente es clave para hacerla ubicua (no se puede depender de las GPU en la nube para todo: no hay suficientes en el mundo para miles de millones de dispositivos).
- Durga Malladi (SVP, Qualcomm): “Aplaudimos el enfoque de Meta hacia una IA abierta y responsable… Para escalar efectivamente la IA generativa hacia el público general, la IA tendrá que ejecutarse tanto en la nube como en los dispositivos en el borde.” iconnect007.com Malladi dijo esto en el contexto de la asociación con Meta. Resalta una visión común: escalar la IA = nube + borde trabajando juntos. Ahora se entiende que la IA puramente en la nube no será suficiente (por razones de costo, privacidad y latencia), así que la IA en el borde debe compartir la carga.
- Will Chen (Subdirector General, MediaTek): “El futuro de la IA trasciende la nube; está impulsado por la computación en el borde, directamente desde la palma de tu mano… OPPO y MediaTek están liderando la IA en el dispositivo, asegurando que las capacidades inteligentes sean potentes, rápidas, privadas, seguras y consistentemente accesibles.” (MediaTek Exec Talk, 2025) mediatek.com. Esta cita resume perfectamente la propuesta de valor de la IA en el dispositivo: obtienes rendimiento y accesibilidad además de privacidad y seguridad. También muestra que incluso empresas tradicionalmente menos visibles en Occidente (como MediaTek) están pensando en la vanguardia del despliegue de IA.
- Dr. Norman Wang (experto en hardware de IA, CEO de una startup de chips): “En hardware de IA, cuanto más cerca puedas poner el cómputo de la fuente de datos, mejor. Se trata de reducir el movimiento de datos. Una NPU junto a tu sensor de imagen significa que no estás enviando megapíxeles a la nube: estás extrayendo información directamente en el borde. Eso cambia las reglas del juego para la latencia y el consumo de energía.” (Panel en HotChips 2024 – parafraseado). Esta visión técnica explica por qué las NPU suelen estar en el mismo silicio que otros componentes: por ejemplo, en el SoC de un teléfono, la NPU puede tomar directamente los datos de la cámara desde el ISP. Minimizar el movimiento de datos es una parte fundamental de la IA eficiente, y la IA en el borde lo logra procesando en la fuente de los datos.
- Xinzhou Wu (VP de Automoción, NVIDIA): “La computación acelerada ha dado lugar a avances transformadores, incluida la IA generativa, que está redefiniendo la autonomía y la industria del transporte.” (GTC 2024 Keynote) ts2.tech. Estaba hablando sobre cómo las potentes computadoras a bordo (con NPU/GPU) permiten que los autos no solo conduzcan, sino que potencialmente incorporen IA avanzada como modelos generativos para cosas como interfaces de lenguaje natural en el auto o una mejor comprensión de situaciones. Esto subraya que incluso sectores como el automotriz ven la IA en el dispositivo no solo como funcionalidad principal, sino también para mejorar la experiencia del usuario (por ejemplo, asistentes de voz en autos que pueden mantener conversaciones gracias a LLMs a bordo).
- Sundar Pichai (CEO de Google): “El futuro de la IA consiste en hacerla útil para todos. Eso significa llevar la IA a todos los dispositivos que usamos: teléfonos, electrodomésticos, autos, para que esté ahí cuando la necesites. Queremos encontrar a los usuarios donde estén, con IA que funcione en tiempo real, en el lugar y que preserve la privacidad.” (Parafraseado de varias entrevistas/keynotes). Pichai suele hablar de la “IA ambiental”: la idea de que la IA estará a nuestro alrededor, incrustada en las cosas. El impulso de Google con los chips Tensor en los Pixel es una ejecución directa de esa filosofía.
- Estadísticas de la industria: Los analistas han observado la tendencia en cifras. Un informe de Grand View Research en 2024 señaló: “Los avances recientes en chips de IA especializados y NPUs han permitido que algoritmos complejos de IA se ejecuten directamente en los dispositivos, mejorando significativamente el rendimiento y la eficiencia energética… estamos cerca de una transición clave hacia la IA en el dispositivo.” grandviewresearch.com. El mismo informe proyecta que el mercado de IA en el dispositivo explotará en los próximos años, con el segmento de hardware (NPUs, etc.) representando más del 60% de los ingresos en 2024 y creciendo a medida que casi todos los nuevos dispositivos IoT o móviles adopten capacidades de IA grandviewresearch.com. Otro pronóstico de IDC y otros sugiere que para mediados de la década de 2020, casi todos los smartphones de gama alta y la mayoría de los de gama media tendrán aceleradores de IA, y que para 2030, miles de millones de chips de IA en el borde estarán en uso, desde electrónica de consumo hasta infraestructura inteligente.
El consenso entre los expertos es que la IA en el dispositivo no es solo algo deseable, sino esencial para la próxima ola tecnológica. El pionero de la IA Andrew Ng ha mencionado a menudo que la “IA diminuta” y la IA en el borde permitirán que la inteligencia penetre en cada objeto, de manera análoga a como lo hicieron la electricidad o Internet en épocas anteriores. Al superar las limitaciones de la IA solo en la nube, las NPUs y TPUs están permitiendo esta penetración.
El desafío de los muchos estándares (y los esfuerzos por simplificar)
Mientras el hardware ha avanzado rápidamente, el ecosistema de software y estándares para IA en el dispositivo aún está poniéndose al día. Los desarrolladores se enfrentan a una jungla de herramientas y SDKs al intentar aprovechar las NPUs en diferentes dispositivos nimbleedge.com. Puntos clave:- Cada plataforma tiene su propio API o SDK: Apple tiene Core ML (con APIs para dirigir el Neural Engine), Android tiene Neural Networks API (NNAPI) (aunque Google anunció planes para evolucionarlo más allá de Android 14) threads.com, Qualcomm ofrece el SNPE (Snapdragon Neural Processing Engine) o más ampliamente el Qualcomm AI Stack, NVIDIA tiene TensorRT y CUDA para sus dispositivos, y así sucesivamente. También existe ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI, y otros. Estos SDKs variados a menudo tienen diferentes capacidades y requieren ajustes en los modelos para funcionar de manera óptima en cada destino. Como señaló un informe sobre IA en el dispositivo de 2025, “Múltiples SDKs incompatibles (por ejemplo, Core ML, LiteRT, ONNX Runtime) con soporte y rendimiento de operadores variables” obligan a los desarrolladores a hacer trabajo extra nimbleedge.com.
- Problemas de fragmentación: Un modelo que funciona perfectamente en una GPU de escritorio podría no ejecutarse fácilmente en la NPU de un teléfono: los operadores (las funciones matemáticas) podrían no estar soportados o necesitar ser cuantizados de manera diferente. A veces los desarrolladores tienen que mantener compilaciones separadas u optimizar manualmente los modelos para cada hardware. Esta es la queja del “ecosistema fragmentado y de bajo nivel” nimbleedge.com. Las herramientas de depuración también son escasas: perfilar una NPU para ver por qué un modelo es lento puede ser difícil, especialmente en comparación con las herramientas avanzadas para CPUs/GPUs nimbleedge.com.
- Esfuerzos de estandarización: Para abordar esto, hay algunas iniciativas en marcha. ONNX (Open Neural Network Exchange) ha surgido como un formato común para que puedas entrenar un modelo en PyTorch o TensorFlow y luego exportarlo a ONNX para su despliegue. Muchos entornos de ejecución (incluidos los en dispositivo como los de Qualcomm y MediaTek) admiten la ingestión de modelos ONNX e intentarán compilarlos para el hardware. Esto ayuda a evitar el bloqueo en un solo framework. Android NNAPI fue un intento de Google de proporcionar una interfaz universal: una app puede solicitar “ejecuta esta red neuronal” a través de NNAPI y el sistema operativo usará el acelerador que esté presente (GPU, DSP o NPU) para ejecutarla. NNAPI fue adoptado en muchos dispositivos Android, pero tenía limitaciones y no todos los fabricantes ofrecieron drivers robustos, lo que llevó a Google a indicar una nueva estrategia (posiblemente apoyándose en WebNN o integraciones directas con fabricantes) más allá de 2024 threads.com. En PC, Microsoft introdujo DirectML y las APIs de Windows ML para abstraer de manera similar las diferencias de hardware (permitiendo que un desarrollador use la misma API para NPUs de NVIDIA, Intel, AMD).
- Cadenas de herramientas unificadas: Las empresas también están construyendo cadenas de herramientas para agilizar el despliegue. Vimos el AI Stack de Qualcomm, que combina su compilador (AI Model Efficiency Toolkit) y entornos de ejecución para que los desarrolladores puedan orientar su NPU Hexagon más fácilmente iconnect007.com. TensorRT de NVIDIA y SDKs relacionados hacen algo similar para dispositivos Jetson, optimizando modelos para GPU+NVDLA. Intel OpenVINO es otro ejemplo: te permite tomar un modelo y optimizarlo para CPUs Intel, iGPUs y VPUs (NPUs) para despliegues en el edge. Estos frameworks suelen incluir optimizadores de modelos que convierten modelos (poda, cuantización) para que quepan en dispositivos más pequeños.
- Interoperabilidad: Hay avances hacia lograr que diferentes NPUs funcionen con frameworks comunes. Por ejemplo, TensorFlow Lite de Google tiene delegados de hardware: uno para NNAPI (cubre dispositivos Android en general), uno para Core ML (dispositivos iOS), uno para Edge TPU, etc. La idea es que escribes tu modelo TFLite y se ejecutará usando el mejor acelerador disponible a través del delegado. De manera similar, PyTorch ha estado añadiendo soporte para backends móviles e incluso cosas como Metal Performance Shaders de Apple (para usar GPU/NPU en iOS). ONNX Runtime también puede orientar diferentes aceleradores mediante plugins (por ejemplo, se puede conectar TensorRT de NVIDIA o Compute Library de ARM u otros en segundo plano).
- Estándares emergentes: El Khronos Group (detrás de OpenGL/Vulkan) trabajó en NNEF (Neural Network Exchange Format) y se está discutiendo la WebNN API para que los navegadores accedan a la aceleración de IA local. Ninguno ha sido adoptado universalmente aún. Pero un desarrollo interesante: a finales de 2024, varias empresas formaron una alianza para impulsar estándares de “AI Hardware Common Layer” – básicamente, explorar si se puede crear una interfaz común de bajo nivel para NPUs (análogo a lo que hizo OpenCL para el cómputo en GPUs). Aunque es temprano todavía.
- Experiencia del desarrollador: Es una brecha reconocida. Como dijo el blog de NimbleEdge, “desarrollar para IA en el dispositivo actualmente requiere navegar un ecosistema fragmentado y de bajo nivel… obligando a los desarrolladores a adaptar implementaciones para cada hardware” nimbleedge.com. La industria sabe que esto debe mejorar para que la IA en el dispositivo realmente se vuelva masiva. Podríamos ver una consolidación – por ejemplo, si Google, Apple y Qualcomm pudieran ponerse de acuerdo en un conjunto básico de operaciones y API (quizás es mucho pedir). O, más probablemente, marcos como PyTorch y TensorFlow ocultarán la complejidad integrando todas esas bibliotecas de proveedores y eligiendo la correcta en tiempo de ejecución.
En esencia, mientras que las NPU/TPU proporcionan la fuerza, la comunidad está trabajando en herramientas amigables para el cerebro para usar esa fuerza. La buena noticia es que, comparado con hace cinco años, por ejemplo, hay muchas más opciones para desplegar un modelo en el dispositivo sin ser un experto en chips. Pero aún hay margen de mejora, especialmente en depuración, perfilado y soporte para múltiples hardware.
Tendencias del mercado y perspectivas futuras
La proliferación de NPU y TPU en los dispositivos está impulsando una tendencia mayor: IA en todas partes. Aquí algunas tendencias generales y qué esperar a futuro:
- Crecimiento del mercado de IA en el borde: La investigación de mercado indica un crecimiento explosivo en el hardware de IA en el borde. Se proyecta que el mercado de IA en el dispositivo (incluyendo chips y software) crecerá a una tasa compuesta anual de ~29% durante la década nimbleedge.com. Un informe lo valoró en ~$233 mil millones en 2024, yendo a más de $1.7 billones para 2032 nimbleedge.com – gran parte de ese crecimiento impulsado por implementaciones en el borde. Otro análisis de IDTechEx pronostica que el mercado de chips de IA para dispositivos edge alcanzará los $22 mil millones para 2034, siendo la electrónica de consumo, automotriz e industrial los segmentos más grandes idtechex.com. Esto implica que cientos de millones de dispositivos por año se enviarán con NPU como componente estándar.
- Adopción ubicua: Al igual que hoy en día todos los smartphones tienen una GPU (aunque sea pequeña), estamos llegando al punto en que cada nuevo smartphone tendrá un acelerador de IA. Los teléfonos de gama alta ya los tienen; los de gama media son los siguientes. De hecho, los chips de gama media de Qualcomm (por ejemplo, la serie Snapdragon 7) y MediaTek (series Dimensity 700/800) ahora incluyen NPUs reducidas para que funciones como mejoras de cámara por IA y asistentes de voz también funcionen en dispositivos más económicos. Más allá de los teléfonos, las NPUs se están extendiendo a PCs (estándar en las nuevas laptops con Windows de varios fabricantes), autos (casi todos los autos nuevos con ADAS Nivel 2+ tienen algún tipo de chip de IA), y IoT. Incluso electrodomésticos como refrigeradores y lavadoras están empezando a promocionar funciones “IA” (algunas basadas en la nube, pero otras locales como ciclos adaptativos basados en sensores). La tendencia es clara: si un dispositivo tiene un chip de cómputo, tendrá algún tipo de aceleración de ML en ese chip.
- Trayectoria de rendimiento: El rendimiento de la IA en el dispositivo se está duplicando aproximadamente cada 1–2 años (combinación de mejor arquitectura y el paso a nodos semiconductores avanzados como 5nm, 4nm, 3nm). El Neural Engine de Apple pasó de 600 mil millones de operaciones/seg en 2017 a 35 billones en 2023 – casi un aumento de 60× en seis años apple.fandom.com. Los modelos insignia de Qualcomm también saltaron de unos pocos TOPS en 2018 a más de 27 TOPS en 2023 (el total de cómputo de IA del SD 8 Gen 3, contando todos los núcleos). Podemos esperar que para 2025–2026 las NPUs móviles entreguen más de 100 TOPS, y los aceleradores de PC aún más, y estas cifras pueden volverse menos relevantes a medida que el enfoque cambie a rendimiento utilizable en tareas específicas de IA (por ejemplo, cuán grande puede ser un LLM que puedas ejecutar sin problemas, o si puedes hacer video 4K por IA en tiempo real). La brecha entre la nube y el edge probablemente se reducirá para tareas de inferencia. Sin embargo, el edge seguirá rezagado respecto a la nube para los modelos grandes más avanzados debido a limitaciones de energía y memoria.
- Ganancias en eficiencia energética: Un aspecto poco valorado es lo eficientes que se están volviendo estas NPUs. La NPU de los autos Tesla logra ~4.9 TOPS/vatio fuse.wikichip.org, que era lo más avanzado hace un par de años; ahora algunas NPUs móviles afirman igualar o superar eso. NPUs eficientes significan mayor duración de batería incluso usando más funciones de IA. También significa que poner IA en dispositivos pequeños alimentados por batería se vuelve viable (por ejemplo, audífonos con IA, sensores inteligentes que funcionan con baterías tipo moneda realizando detección de anomalías). El concepto de TinyML – aprendizaje automático a escala extremadamente pequeña en microcontroladores – es una extensión de esto, usando “NPUs” simplificadas o instrucciones optimizadas en microcontroladores para hacer IA en sensores. El Ethos-U NPU de ARM está dirigido a ese segmento (por ejemplo, detección de palabras clave siempre activa funcionando con unos pocos miliwatts). Espera más chips diminutos específicos para IA que puedan integrarse en sensores, wearables y objetos cotidianos (¿Cepillo de dientes inteligente? ¿Detector de humo con IA? Está por llegar).
- Soluciones híbridas Cloud-Edge: En lugar de que el edge reemplace completamente a la nube, el futuro es la colaboración. Los dispositivos harán lo que puedan localmente y solo recurrirán a la nube para lo que no puedan hacer. Por ejemplo, tus gafas de AR podrían ejecutar reconocimiento de escenas localmente para saber qué estás mirando, pero si haces una pregunta muy compleja (como una explicación detallada), podrían consultar una IA en la nube para un análisis más potente y luego presentártelo. Este enfoque híbrido ofrece el mejor equilibrio entre capacidad de respuesta y funcionalidad. Las empresas están diseñando activamente experiencias en torno a esto: Copilot de Microsoft en Windows podría usar la NPU local para convertir voz a texto rápidamente y analizar comandos, pero luego usar la nube para tareas más pesadas (a menos que tengas una NPU de PC potente que pueda manejarlo). Idealmente, el usuario no debería saber ni preocuparse por cuál se usa, salvo notar que todo es más rápido y respeta la privacidad. También veremos que el aprendizaje federado se vuelve más común: los modelos se entrenan en la nube pero con ayuda de datos cifrados o procesados en los dispositivos, y viceversa.
- Casos de uso emergentes: A medida que las NPUs se vuelvan más potentes, surgirán nuevas aplicaciones. IA generativa en el dispositivo es una de las grandes: imagina creación de imágenes por IA, edición de video por IA y chatbots personales, todo en tu teléfono o portátil. Para 2025, podríamos ver las primeras versiones de asistentes personales offline que pueden resumir tus correos o redactar mensajes sin la nube. Traducción de idiomas en tiempo real durante una conversación (dos personas hablando diferentes idiomas, con teléfonos o auriculares traduciendo casi en tiempo real) mejorará enormemente gracias al procesamiento en el dispositivo (sin retrasos y funciona en cualquier lugar). La IA para la salud podría vivir en wearables: tu smartwatch detectando fibrilación auricular o analizando patrones de apnea del sueño usando su NPU. Seguridad: los dispositivos podrían ejecutar IA localmente para detectar malware o phishing en tiempo real (por ejemplo, antivirus usando un modelo de IA en tu dispositivo en lugar de escaneos en la nube). Y en vehículos, además de la conducción, la IA podría personalizar la experiencia dentro del coche (ajustar el clima según tu estado de ánimo percibido mediante IA de cámara orientada al conductor, etc.). Muchos de estos casos de uso requieren iteración rápida y privacidad, lo que favorece el procesamiento en el dispositivo.
- Competencia y democratización: Los grandes actores seguirán compitiendo, lo cual es bueno para los consumidores: espera campañas de marketing del tipo “nuestro chip de IA hace X TOPS o permite Y función que otros no pueden”. Pero además, la tecnología se está democratizando: las NPUs no solo están en teléfonos de $1000; están llegando a teléfonos de $300, placas IoT de $50 (Coral, Arduino Portenta, etc.), y las comunidades de código abierto están creando modelos de IA diminutos que los aficionados pueden ejecutar en una Raspberry Pi o microcontrolador con un acelerador básico. Esta disponibilidad generalizada significa que la innovación puede venir de cualquier parte. Un desarrollador solitario ahora puede crear una app que use IA en el dispositivo para hacer algo ingenioso sin necesitar una granja de servidores, reduciendo la barrera de entrada para el software impulsado por IA.
- Tecnología del futuro: Mirando más allá, la investigación en computación neuromórfica (chips inspirados en el cerebro como Intel Loihi) y chips de IA analógicos podría algún día revolucionar las NPU, ofreciendo mejoras de eficiencia de varios órdenes de magnitud. Empresas como IBM y BrainChip están trabajando en esto. Si tienen éxito, un chip neuromórfico podría permitir que una IA compleja funcione continuamente en dispositivos con baterías diminutas. También podríamos ver apilamiento 3D y nuevas tecnologías de memoria integradas en las NPU para superar los cuellos de botella de memoria (algunos chips de 2025 en adelante podrían usar memoria HBM o nueva memoria no volátil en el chip para alimentar los núcleos de IA más rápido). Además, espera más especialización dentro de los chips de IA: por ejemplo, aceleradores separados para visión, para voz, para modelos de recomendación, etc., cada uno ajustado a su dominio. Algunos SoC ya tienen doble NPU (una NPU “grande” para tareas pesadas, una micro NPU en el sensor hub para tareas ligeras siempre activas).
En conclusión, la trayectoria es clara: las NPU y TPU se están volviendo tan estándar e indispensables como las CPU en la computación moderna. Permiten que los dispositivos sean más inteligentes, más receptivos y más respetuosos con nuestra privacidad. Como afirma un informe, “las unidades de procesamiento de alto rendimiento en los dispositivos son en gran parte responsables de ejecutar funciones complejas de IA como el reconocimiento de imágenes, PLN y la toma de decisiones en tiempo real”, y esto está impulsando una tecnología más inteligente y receptiva en todos los sectores grandviewresearch.com.
Estamos entrando en una era en la que simplemente esperarás que tu dispositivo entienda y anticipe tus necesidades: tu teléfono edita fotos y escribe mensajes con tu estilo, tu coche evita accidentes y te entretiene con IA, tus dispositivos del hogar aprenden tus preferencias, todo esto posible gracias a los silenciosos procesadores neuronales en su interior. La IA en el dispositivo no es ciencia ficción; ya está aquí y mejora rápidamente. La unión de NPU y TPU con nuestros dispositivos cotidianos está haciendo que la IA sea personal, ubicua y privada, realmente trayendo el poder de la inteligencia en la nube a la tierra (o al menos, a tu bolsillo).
Fuentes:
- Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparando opciones de hardware de IA.” TechTarget, 27 de agosto de 2024 techtarget.com. Describe los roles y diferencias de CPU, GPU, TPU y NPU en cargas de trabajo de IA.
- Backblaze Blog. “IA 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Explicación del diseño de la TPU de Google (matrices sistólicas, baja precisión) y el uso de NPU en dispositivos móviles.
- TechTarget WhatIs. “Unidad de procesamiento tensorial (TPU).” whatis.techtarget.com, 2023 techtarget.com. Señala que las TPUs se especializan en tareas de matemáticas matriciales y las NPUs imitan las redes neuronales cerebrales para la aceleración techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). “El estado de la IA en el dispositivo: lo que falta en el panorama actual.” 26 de junio de 2025 nimbleedge.com. Resume las ventajas de la IA en el dispositivo (latencia, sin conexión, privacidad, costo) y los desafíos como SDKs fragmentados.
- Qualcomm (OnQ Blog). “Bloomberg y Cristiano Amon hablan sobre IA en el dispositivo.” Julio de 2023 x.com. El CEO de Qualcomm sobre la importancia de la inferencia en el dispositivo para el futuro de la IA (cita de tweet sobre un punto de inflexión en la IA).
- MediaTek Blog (Exec Talk por Will Chen). “Dando forma al futuro de las experiencias móviles con IA.” 3 de marzo de 2025 mediatek.com. Colaboración de MediaTek y Oppo en NPUs; cita sobre computación en el borde en tu mano y ejemplo de remasterización de fotos con IA usando la NPU.
- I-Connect007 / Qualcomm Press. “Qualcomm trabaja con Meta para habilitar IA en el dispositivo (Llama 2).” 24 de julio de 2023 iconnect007.com. Comunicado de prensa con cita de Durga Malladi, vicepresidente sénior de Qualcomm, sobre la escalabilidad de la IA generativa a través de dispositivos de borde y la nube.
- PCWorld (Mark Hachman). “Los CPUs Core Ultra de Intel mantienen la IA simple….” 24 de octubre de 2024 pcworld.com. Analiza cómo Intel Arrow Lake utiliza la NPU de Meteor Lake (13 TOPS) y menciona la NPU de 39 TOPS de AMD Ryzen 8000 y el requisito de 40 TOPS de “Copilot” de Microsoft.
- Ts2 (Tech Empowerment). “Self-Driving Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Sep. 2023 ts2.tech. Proporciona estimaciones de TOPS: Tesla HW3 vs HW4 (72→100 TOPS por chip) ts2.tech, NVIDIA Thor ~1000 TOPS (o 2000 con dual) ts2.tech y cita al vicepresidente de NVIDIA sobre IA generativa en vehículos ts2.tech.
- Grand View Research. “On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Señala el auge de chips de IA especializados (NPU) que permiten IA compleja en dispositivos, y que el hardware representó el 60.4% del mercado de IA en dispositivos en 2024, impulsado por smartphones, IoT, NPU, etc.
- Google Blog. “Google Tensor G3: Pixel 8’s AI-first processor.” Oct. 2023 blog.google. Describe las mejoras del Tensor G3 para IA generativa en el dispositivo, nuevo diseño de TPU y modelo TTS en el dispositivo igual a la calidad de centro de datos.
- Techspot. “Snapdragon 8 Gen 3 brings generative AI to smartphones.” Oct. 2023 futurumgroup.com. Análisis de Futurum Group detallando el motor de IA de SD8Gen3: LLM de 10B parámetros en el dispositivo, NPU 98% más rápida, Stable Diffusion más rápido del mundo en teléfono, etc., además de los beneficios de los LLM en el dispositivo para costo/privacidad/sin conexión futurumgroup.com.
- Apple Wiki (Fandom). “Neural Engine.” Actualizado 2025 apple.fandom.com. Historial de versiones de Neural Engine con A17 Pro 35 TOPS en 2023, etc. Muestra la evolución de 0.6 TOPS (A11) a 35 TOPS (A17) apple.fandom.com y M4 a 38 TOPS apple.fandom.com.
- EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Ejemplo de cámara de seguridad con NPU incorporada que permite procesamiento de IA en la cámara y almacenamiento local (no se necesita NVR).
- EmbedL. “Amazon releases AZ1 Neural Edge Processor.” Oct. 2020 embedl.com. Analiza el NPU de borde AZ1 de Amazon para dispositivos Echo, construido con MediaTek, diseñado para inferencia de voz en el dispositivo para reducir la latencia y la dependencia de la nube embedl.com.