- A Apple iniciou a IA embarcada em 2017 com o Neural Engine do iPhone A11, possibilitando o Face ID e Animoji a até 600 bilhões de operações por segundo.
- Em 2023, o Neural Engine de 16 núcleos do iPhone A17 Pro entregou cerca de 35 TOPS, impulsionando recursos de fala, fotografia e tradução no próprio dispositivo.
- O Google Pixel 8 (2023) usa o Tensor G3 NPU para rodar modelos de IA embarcados como o Palm 2 para tradução e sumarização offline.
- O Edge TPU do Google na Coral Dev Board entrega 4 TOPS de processamento de visão consumindo poucos watts.
- O hardware Full Self-Driving da Tesla possui dois NPUs: o HW3 (2019) oferecia cerca de 144 TOPS, e o HW4 (2023) cerca de 200–250 TOPS.
- O NVIDIA Drive Thor (revelado em 2024) pode alcançar até 2000 TOPS quando dois chips são conectados para cargas de trabalho de IA automotiva.
- O Hexagon NPU do Snapdragon 8 Gen 3 (2023) da Qualcomm é 98% mais rápido que o Gen 2, pode rodar LLMs de até 10 bilhões de parâmetros no dispositivo e atingiu a Stable Diffusion móvel mais rápida do mundo em demonstrações.
- O Dimensity 9400 (2024) da MediaTek, com uma APU de sexta geração, alimenta o remasterizador de fotos com IA do Oppo Find X8, sinalizando a expansão dos NPUs para TVs, IoT e automóveis até 2025.
- O Meteor Lake da Intel, o Core de 14ª geração (lançado em 2023; rebatizado como Core Ultra em 2024), inclui um NPU integrado que entrega cerca de 8–12 TOPS, com Arrow Lake em ~13 TOPS e rumores de Lunar Lake em torno de 45 TOPS.
- O Ryzen 7040 Phoenix (2023) da AMD introduziu o Ryzen AI Engine com até 10 TOPS, enquanto o Ryzen 8000 desktop (início de 2024) ofereceu 39 TOPS antes da AMD pausar os NPUs nessa geração.
Resumindo: Seu smartphone, câmera e até seu carro estão ganhando cérebros de IA integrados – sem necessidade de nuvem. Chips especiais chamados NPUs (Unidades de Processamento Neural) e TPUs (Unidades de Processamento Tensorial) estão transformando dispositivos do dia a dia em assistentes inteligentes capazes de reconhecimento facial, comandos de voz, tradução em tempo real, recursos de direção autônoma e muito mais. Essa revolução da IA embarcada promete respostas ultrarrápidas, mais privacidade e novos recursos que antes achávamos possíveis apenas com supercomputadores. Neste relatório, vamos desmistificar NPUs e TPUs, ver como diferem de CPUs/GPUs e explorar por que gigantes da tecnologia como Apple, Google, Qualcomm e Intel estão correndo para colocar esses “cérebros de IA” em tudo, de celulares a carros. Também destacaremos as últimas inovações de 2024–2025, opiniões de especialistas, padrões da indústria e o que o futuro reserva para a IA embarcada.
O que são NPUs e TPUs? (Conheça o cérebro de IA do seu dispositivo)
Unidades de Processamento Neural (NPUs) são processadores especializados projetados para acelerar redes neurais artificiais – os algoritmos que impulsionam tarefas modernas de IA como reconhecimento de imagem, processamento de fala e mais. Diferente das CPUs de uso geral, as NPUs são circuitos integrados de aplicação específica (ASICs) otimizados para matemática matricial e as cargas de trabalho altamente paralelas das redes neurais techtarget.com. Uma NPU “imita as redes neurais de um cérebro humano para acelerar tarefas de IA”, atuando essencialmente como um cérebro de silício dentro do seu dispositivo techtarget.com. As NPUs se destacam ao executar inferência (fazer previsões) para modelos de IA de forma eficiente no próprio dispositivo, frequentemente usando precisão numérica mais baixa (por exemplo, inteiros de 8 bits) para economizar energia enquanto ainda oferecem alto desempenho backblaze.com. O termo “NPU” às vezes é usado de forma ampla para qualquer acelerador de IA, mas é mais comumente usado para aqueles em dispositivos móveis e de borda backblaze.com. Por exemplo, o “Neural Engine” da Apple nos iPhones e o mecanismo de IA móvel da Samsung são NPUs integradas em seus projetos de system-on-chip (SoC).
Unidades de Processamento de Tensores (TPUs), por outro lado, foram criadas pelo Google como chips personalizados para acelerar o aprendizado de máquina, especialmente para o framework TensorFlow. Uma TPU é um tipo de ASIC otimizado para as operações de tensores (multiplicações de matrizes, etc.) que estão no centro do treinamento e inferência de redes neurais backblaze.com. O Google implantou as TPUs em seus data centers pela primeira vez em 2015 para acelerar os cálculos de redes neurais, e depois as disponibilizou via Google Cloud backblaze.com. As TPUs usam uma arquitetura distinta chamada systolic array, que conecta várias pequenas unidades de processamento em uma grade que bombeia dados através de uma cadeia de unidades de multiplicação de matrizes backblaze.com. Esse design alcança uma taxa de transferência extrema em tarefas de deep learning. As TPUs do Google deliberadamente sacrificam um pouco de precisão (usando matemática de 8 ou 16 bits em vez de floats de 32 bits) para obter enormes ganhos de velocidade e eficiência backblaze.com, já que muitas tarefas de IA não exigem alta precisão para obter resultados precisos. Embora “TPU” tecnicamente se refira aos chips do Google, o termo às vezes é usado de forma mais genérica para qualquer acelerador de “tensor”. Notavelmente, o Google também produz co-processadores Edge TPU para IA embarcada em produtos como o Coral Dev Board, entregando 4 trilhões de operações por segundo consumindo apenas alguns watts coral.ai.
Resumindo: NPUs e TPUs são ambos aceleradores de silício para IA, mas NPUs são comumente integradas em dispositivos móveis/de borda para inferência embarcada eficiente, enquanto TPUs (no sentido estrito) têm sido chips de alto desempenho (e agora módulos) principalmente do Google, originalmente para tarefas de treinamento e inferência em nuvem/data center. Ambos se distanciam dos designs tradicionais de CPU/GPU para priorizar operações matemáticas paralelas para redes neurais. Como disse um editor de tecnologia, “As TPUs levam a especialização ainda mais longe, focando em operações de tensor para alcançar maiores velocidades e eficiências energéticas… As NPUs são prevalentes em dispositivos habilitados para IA, como smartphones e gadgets de IoT” backblaze.com.
Como NPUs e TPUs são diferentes de CPUs e GPUs?
CPUs tradicionais (unidades centrais de processamento) são o “cérebro” da computação geral – otimizados para flexibilidade, capazes de lidar com todos os tipos de tarefas, desde rodar seu sistema operacional até navegar na web. Eles possuem alguns núcleos poderosos que se destacam em lógica sequencial e instruções variadas, mas não são bons em cálculos matemáticos altamente paralelos necessários para deep learning techtarget.com. Quando uma CPU é solicitada a processar uma grande rede neural, ela frequentemente se torna um gargalo, tentando executar milhões de multiplicações e somas em sequência ou em lotes paralelos limitados. Isso leva a alta latência e consumo de energia (o chamado gargalo de Von Neumann de transferir grandes quantidades de dados entre CPU e memória) backblaze.com. CPUs podem realizar alguns trabalhos de IA (especialmente modelos mais simples ou menores, ou lógica de controle para programas de IA techtarget.com), mas, em geral, têm dificuldade para escalar de forma eficiente às demandas modernas de IA por álgebra linear massivamente paralela.
GPUs (unidades de processamento gráfico) trouxeram a computação paralela para o centro das atenções. Originalmente criadas para renderizar imagens realizando muitas operações simples em paralelo em pixels e vértices, as GPUs mostraram-se muito adequadas para treinar redes neurais, que também envolvem aplicar as mesmas operações matemáticas (produtos escalares, etc.) em muitos dados simultaneamente techtarget.com. Uma GPU contém centenas ou milhares de pequenos núcleos que podem realizar cálculos em paralelo. Isso torna as GPUs excelentes para IA em grande escala, e ao longo da década de 2010 as GPUs (especialmente as da NVIDIA com o software CUDA) tornaram-se o cavalo de batalha da pesquisa em deep learning. No entanto, as GPUs ainda são um tanto gerais – precisam lidar com várias tarefas gráficas e manter flexibilidade, então não são 100% otimizadas para redes neurais. Elas também consomem muita energia e exigem programação cuidadosa para serem totalmente aproveitadas (não lidam bem com código com muitos desvios e se destacam em tarefas otimizadas e paralelas de dados) techtarget.com.
NPUs e TPUs levam a especialização ainda mais longe. Elas são construídas especificamente para apenas a carga de trabalho de redes neurais. Isso significa que sua arquitetura pode eliminar tudo o que não é necessário para a matemática de IA e dedicar mais silício a coisas como unidades de multiplicação de matrizes, somadores de acumulação e memória on-chip para transferir rapidamente dados para dentro e fora dessas unidades matemáticas. Uma TPU do Google Cloud, por exemplo, é essencialmente uma grande matriz 2D de unidades MAC (multiplicação-acumulação) com uma arquitetura de fluxo de dados inteligente (a matriz sistólica) que as alimenta com operandos em alta velocidade backblaze.com. Ela não se preocupa com caches, execução especulativa ou outros recursos de CPU – é otimizada para matemática de matrizes. NPUs em chips móveis, de forma semelhante, integram núcleos de motor neural dedicados ao lado da CPU/GPU. Esses núcleos frequentemente usam aritmética de baixa precisão (por exemplo, inteiros de 8 bits como as TPUs) e executam cálculos altamente paralelos “camada por camada” para coisas como redes neurais convolucionais. Uma NPU pode usar uma arquitetura “fundida” combinando unidades escalares, vetoriais e tensoriais (a Hexagon NPU da Qualcomm faz isso) para lidar de forma eficiente com diferentes operações de redes neurais futurumgroup.com.
As principais diferenças se resumem a:
- Conjunto de instruções e flexibilidade: CPUs têm um conjunto de instruções amplo e geral (podem fazer muitas coisas, mas não todas simultaneamente). GPUs têm um conjunto de instruções mais limitado, mas ainda flexível, otimizado para rendimento em matemática. NPUs/TPUs têm um conjunto de instruções muito restrito – basicamente apenas as operações necessárias para redes neurais (multiplicação de matrizes, convolução, funções de ativação), muitas vezes implementadas como pipelines fixos ou matrizes fuse.wikichip.org. Por exemplo, a NPU de direção autônoma da Tesla tem apenas 8 instruções em seu ISA, focadas em leituras/gravações DMA e produtos escalares fuse.wikichip.org.
- Paralelismo e núcleos: CPUs = alguns poucos núcleos poderosos; GPUs = milhares de núcleos simples; NPUs/TPUs = de certo modo, dezenas de milhares de ALUs muito simples (as unidades MAC) estruturadas em forma de matriz ou rede neural. Um único chip NPU pode realizar dezenas de trilhões de operações por segundo – a NPU do carro da Tesla roda a 2 GHz com 9.216 MACs, atingindo cerca de 37 tera-operações por segundo (TOPS) por núcleo, e cada chip FSD tem duas NPUs para cerca de 74 TOPS fuse.wikichip.org, ts2.tech. Em contraste, uma CPU topo de linha pode alcançar apenas algumas centenas de bilhões de ops/seg em tarefas de IA, e uma GPU talvez alguns TOPS se não usar núcleos tensor especiais.
- Arquitetura de memória: NPUs/TPUs dependem de memória rápida no chip e streaming de dados. TPUs evitam o gargalo clássico de memória usando fluxo de dados sistólico – cada pequena unidade passa dados para a próxima em sincronia, minimizando leituras/gravações na memória principal backblaze.com. Muitas NPUs incluem blocos de SRAM no chip para pesos/ativações (por exemplo, os núcleos NPU da Tesla têm 32 MB de SRAM cada para armazenar dados de rede neural localmente) semianalysis.com. Isso contrasta com GPUs/CPUs, que usam muito DRAM externa.
- Precisão: CPUs/GPUs geralmente usam floats de 32 ou 64 bits para cálculo. Aceleradores de IA frequentemente usam inteiros de 16 ou 8 bits (e alguns agora exploram 4 ou até 2 bits) porque redes neurais toleram menor precisão. Os projetistas do TPU do Google notaram explicitamente que não é necessário precisão total de float para inferência, análogo a “você não precisa saber exatamente quantas gotas de chuva estão caindo para saber que está chovendo forte” backblaze.com. Isso permite que NPUs/TPUs façam mais operações em paralelo e usem menos energia por operação.
- Casos de uso: GPUs ainda são amplamente usadas para treinamento de grandes modelos e para computação flexível (e são comuns em data centers e PCs de alto desempenho). TPUs (em nuvem) visam treinamento e inferência em larga escala no ecossistema do Google. NPUs são mais frequentemente encontradas em dispositivos de borda – smartphones, câmeras, eletrodomésticos – realizando inferência em modelos já treinados. Elas se destacam em tarefas como aplicar um modelo de visão a um quadro de câmera em tempo real, ou rodar continuamente a detecção de palavra-chave de assistente de voz com baixo consumo de energia. Como observou a TechTarget: “GPUs são escolhidas pela disponibilidade e custo-benefício em muitos projetos de ML; TPUs geralmente são mais rápidas e menos precisas, usadas por empresas no Google Cloud; NPUs são comumente encontradas em dispositivos de borda/móveis para processamento local significativamente mais rápido” techtarget.com.
Em resumo, CPUs = organizadores versáteis, GPUs = potências de trabalho paralelas, TPUs/NPUs = especialistas em redes neurais. Todos podem cooperar – de fato, em um dispositivo moderno habilitado para IA, a CPU frequentemente coordena tarefas e delega as partes mais pesadas em cálculos para a NPU/GPU conforme necessário techtarget.com. Essa tendência de especialização existe porque uma solução única já não serve para tudo em computação: como comentou um editor, “adicionar milhões de transistores para cada necessidade não era bom para a eficiência… os projetistas adotaram processadores feitos sob medida” techtarget.com. NPUs e TPUs feitas sob medida aceleram drasticamente os cálculos de IA enquanto mantêm o consumo de energia baixo – um equilíbrio crítico tanto para dispositivos alimentados por bateria quanto para servidores de alta densidade.
Por que IA no Dispositivo? (Borda vs. Nuvem)
Por que se preocupar em rodar IA no seu telefone ou carro – por que não simplesmente enviar tudo para a nuvem, onde servidores gigantes (com GPUs/TPUs) podem fazer o trabalho pesado? Existem várias razões convincentes impulsionando a mudança para IA no dispositivo, e elas se resumem a velocidade, privacidade, custo e confiabilidade nimbleedge.com:
- Resposta instantânea (Baixa Latência): Uma NPU no dispositivo pode processar dados em tempo real sem o atraso de ida e volta de enviar dados para um servidor na nuvem. Isso é crucial para tarefas de IA interativas ou críticas para a segurança. Por exemplo, o sistema de direção autônoma de um carro usando NPUs embarcadas pode identificar um pedestre e frear imediatamente, em milissegundos, em vez de esperar pelo processamento na nuvem. Uma câmera inteligente com NPU pode detectar um intruso no exato momento em que ele aparece no quadro. No seu telefone, IA no dispositivo significa que seu assistente de voz pode responder mais rápido e de forma mais natural porque não está constantemente “ligando para casa”. A latência reduzida permite decisões verdadeiramente em tempo real e uma experiência de usuário mais fluida nimbleedge.com.
- Privacidade e Segurança de Dados: A IA no dispositivo mantém seus dados locais. Em vez de transmitir o áudio do seu microfone ou o feed da câmera para a nuvem para análise, o processamento acontece dentro do próprio dispositivo. Isso reduz significativamente a exposição de dados sensíveis. Por exemplo, smartphones modernos realizam o reconhecimento facial (Face ID, etc.) totalmente no dispositivo – o mapa biométrico do seu rosto nunca sai do enclave seguro do telefone. Da mesma forma, um aparelho auditivo com IA ou um wearable de saúde pode analisar dados biométricos sem enviá-los para nenhum servidor, preservando a privacidade. Diante das crescentes preocupações dos usuários e regulamentações sobre soberania de dados, isso é uma grande vantagem. Como colocou um blog de edge AI, o processamento no dispositivo significa que “os dados do usuário não precisam ser transmitidos para a nuvem”, proporcionando um benefício básico de privacidade nimbleedge.com. (Claro, privacidade não é automática – os desenvolvedores ainda precisam lidar cuidadosamente com os dados armazenados – mas é mais fácil confiar em dispositivos que não estão constantemente enviando suas informações para fora.) CEOs de tecnologia costumam enfatizar esse ponto. O CEO da Qualcomm, Cristiano Amon, observou que combinar inteligência na nuvem e no dispositivo pode aumentar a personalização enquanto mantém os dados seguros no dispositivo – ele chama isso de “futuro híbrido”, onde a IA no dispositivo colabora com a IA na nuvem para o melhor dos dois mundos moomoo.com.
- Disponibilidade Offline & Confiabilidade: Dispositivos com NPUs/TPUs não dependem de conectividade. Eles podem funcionar em túneis de metrô, em aviões, em áreas rurais remotas ou durante quedas de rede. Isso é fundamental para a confiabilidade. Um recurso de ditado por voz no dispositivo continuará funcionando sem sinal. Um drone com IA de visão embarcada pode evitar obstáculos mesmo fora da rede. Essa independência também é crítica para sistemas de missão crítica: por exemplo, robôs de resgate em desastres ou dispositivos médicos que não podem assumir uma conexão de internet ativa. “Funcionalidade offline” é uma vantagem central da IA no dispositivo nimbleedge.com – garante que o recurso de IA esteja disponível sempre e onde for necessário.
- Eficiência de Custos em Escala: Enviar constantemente dados brutos para a nuvem para processamento de IA pode ser muito caro (computação em nuvem não é gratuita) e consumir muita largura de banda. À medida que os recursos de IA se proliferam, as empresas teriam que arcar com enormes contas de processamento em nuvem se cada pequena tarefa fosse enviada para um servidor. Ao fazer mais na borda, reduzem a carga dos servidores em nuvem e o uso da rede. Muitas vezes, é mais eficiente gastar alguns dólares a mais em um chip melhor no dispositivo do que pagar por gigabytes de computação em nuvem ao longo da vida útil do dispositivo. Uma análise da indústria da Futurum observou que o processamento no dispositivo ajuda a resolver os problemas de escala e custo da IA generativa – ele “distribui” a carga para que os data centers não fiquem sobrecarregados (e usuários/desenvolvedores não paguem caro por tempo de GPU na nuvem) futurumgroup.com.
- Personalização e Contexto: Um motivo emergente: a IA no dispositivo pode aprender e se adaptar ao contexto local de uma forma que a IA em nuvem pode não conseguir. Seu smartphone pode manter um pequeno modelo local que aprende seu estilo de digitação para melhorar o corretor automático, sem compartilhar esse modelo de linguagem pessoal com a nuvem. Os dispositivos podem combinar dados de vários sensores em tempo real (algo mais fácil de fazer localmente do que transmitir vários fluxos de sensores para a nuvem). Isso pode possibilitar uma experiência mais personalizada e sensível ao contexto. Alguns recursos como aprendizado federado até permitem que dispositivos melhorem modelos de IA colaborativamente sem enviar dados brutos (apenas retornando pequenas atualizações de pesos).
- Regulamentação e Soberania de Dados: Leis como o GDPR da Europa e vários requisitos de localização de dados cada vez mais exigem que certos dados (especialmente dados pessoais ou sensíveis) não sejam enviados para o exterior ou para terceiros sem consentimento. A IA no dispositivo oferece uma forma de cumprir essas exigências processando os dados na origem. Por exemplo, ferramentas de IA para imagens médicas podem rodar em hardware do hospital (servidores de borda com NPUs), de modo que os dados dos pacientes nunca saem das instalações, atendendo às regulamentações de privacidade. O relatório da NimbleEdge de 2025 destaca governos pressionando por mais inferência local por motivos de soberania e conformidade nimbleedge.com.
Todos esses fatores estão impulsionando uma mudança de paradigma: em vez de pensar “cloud-first” para IA, as empresas agora projetam recursos de IA “device-first” sempre que possível. Como resumiu Durga Malladi, VP de IA da Qualcomm: “Para escalar efetivamente a IA generativa para o mainstream, a IA precisará rodar tanto na nuvem quanto nos dispositivos na borda… como smartphones, laptops, veículos e dispositivos IoT” iconnect007.com. Estamos caminhando para um mundo de IA híbrida onde o treinamento pesado e grandes modelos podem estar na nuvem, mas muitas tarefas de inferência e experiências pessoais de IA rodam localmente nas NPUs/TPUs em suas mãos e lares. Na verdade, Amon chama isso de “ponto de virada na IA” – inferência no dispositivo sem latência, onde “o futuro da IA é pessoal” porque ela roda exatamente onde você está x.com.
IA no Dispositivo em Ação: De Smartphones a Carros Autônomos
Chips de IA especializados já estão embutidos em uma ampla variedade de dispositivos ao seu redor, muitas vezes tornando-os mais inteligentes de forma invisível. Aqui estão alguns dos principais setores onde NPUs e TPUs de borda são implantados:
- Smartphones & Tablets: Praticamente todos os smartphones topo de linha modernos (e até muitos intermediários) agora incluem uma NPU ou motor de IA dedicado. A Apple iniciou a tendência em 2017 com o Apple Neural Engine no chip A11 do iPhone, permitindo Face ID e Animoji no dispositivo ao realizar até 600 bilhões de operações/segundo apple.fandom.com. Hoje, o chip A17 Pro da Apple (2023) possui um Neural Engine de 16 núcleos capaz de 35 trilhões de operações por segundo apple.fandom.com. Isso alimenta recursos como detecção avançada de cena da câmera, estilos de foto, comandos de voz da Siri processados offline, autocorreção, transcrição ao vivo e até execução de modelos transformadores para tradução no próprio dispositivo. Os celulares Pixel do Google também possuem silício personalizado (“Google Tensor” SoCs) com NPUs: o mais recente Tensor G3 no Pixel 8 foi “projetado sob medida para rodar os modelos de IA do Google”, atualizando todas as partes do chip (CPU, GPU, ISP) para abrir caminho para IA generativa no dispositivo blog.google. O Pixel 8 pode rodar os modelos de ponta de texto para fala e tradução do Google localmente, os mesmos que antes estavam restritos a data centers blog.google. Ele também realiza truques complexos de câmera como a fusão de fotos em grupo “Best Take” e Audio Magic Eraser usando uma suíte de modelos de IA no próprio dispositivo blog.google. A Samsung e outros fabricantes de Android usam chipsets Snapdragon da Qualcomm, cujas NPUs mais recentes (Hexagon AI engine) conseguem até rodar modelos de linguagem de grande porte no celular – a Qualcomm demonstrou rodar um LLM de 10 bilhões de parâmetros e até geração de imagens Stable Diffusion em um telefone com Snapdragon 8 Gen 3 futurumgroup.com. O motor de IA desse chip é 98% mais rápido que a geração anterior e suporta precisão INT4 para eficiência futurumgroup.com. Resultado prático: seu celular de 2024 pode fazer coisas como resumir artigos, responder perguntas ou editar fotos com IA sem precisar da nuvem. Até recursos de acessibilidade se beneficiam: por exemplo, os celulares Pixel agora têm digitação por voz no dispositivo, legendas ao vivo e um recurso futuro para descrever imagens a usuários cegos usando um modelo local.
- Câmeras Inteligentes & Sistemas de Segurança: Câmeras habilitadas por IA usam NPUs integradas para detectar pessoas, rostos, animais ou comportamentos suspeitos instantaneamente. Por exemplo, as câmeras de segurança mais recentes da EnGenius incluem uma NPU embutida que realiza a detecção de objetos e converte vídeo em metadados diretamente na câmera, eliminando a necessidade de um gravador de vídeo separado e aumentando a segurança (já que o vídeo pode ser analisado e armazenado localmente) engeniustech.com. Isso significa que sua câmera de segurança pode decidir “pessoa presente” ou “pacote entregue” e enviar apenas esse alerta, em vez de transmitir horas de filmagem para um serviço em nuvem. Da mesma forma, dispositivos de consumo como o Google Nest Cam IQ tinham um chip de visão no dispositivo (Google Edge TPU) para reconhecer rostos familiares e diferenciar humanos de animais de estimação em seu campo de visão. Câmeras DSLR e mirrorless também estão adicionando processadores de IA para coisas como rastreamento de sujeitos, autofoco no olho e otimização de cena em tempo real. Em drones, chips de IA embarcados ajudam na prevenção de obstáculos e navegação visual sem exigir controle remoto. Notavelmente, o Edge TPU do Google (um pequeno módulo ASIC) tornou-se um acessório popular para câmeras DIY e industriais de IoT – ele fornece 4 TOPS de poder de processamento de visão para tarefas como detecção de pessoas ou leitura de placas de veículos, consumindo apenas ~2 watts coral.ai.
- Casa Inteligente & Dispositivos IoT: Além dos celulares, muitos dispositivos domésticos inteligentes possuem mini NPUs. Alto-falantes ativados por voz (Amazon Echo, Google Nest Hub, etc.) agora frequentemente incluem chips de reconhecimento de fala local. A Amazon desenvolveu o processador AZ1 Neural Edge para os dispositivos Echo para acelerar a detecção da palavra de ativação da Alexa e respostas no próprio dispositivo, reduzindo a latência pela metade embedl.com. O AZ1 (construído com a MediaTek) executa uma rede neural que reconhece “Alexa” e processa comandos simples sem acessar a nuvem embedl.com. Isso não só faz a Alexa parecer mais rápida, mas também mantém mais dados de voz privados. Da mesma forma, muitas novas TVs, eletrodomésticos e até brinquedos possuem alguma IA na borda – por exemplo, a câmera de uma geladeira inteligente pode identificar alimentos e datas de validade localmente. Wearables também merecem destaque: o chip S9 do Apple Watch adicionou um Neural Engine de 4 núcleos para lidar melhor com algoritmos de saúde baseados em IA e solicitações da Siri no próprio relógio apple.fandom.com. E no lado industrial, sensores IoT com NPUs podem realizar detecção de anomalias em dados de equipamentos diretamente na borda, sinalizando apenas os eventos relevantes para cima (economizando banda e respondendo mais rápido a problemas).
- Automóveis (ADAS e Autonomia): Os carros tornaram-se centros de IA sobre rodas. Sistemas avançados de assistência ao condutor (ADAS) e recursos de direção autônoma dependem de um conjunto de aceleradores de IA embarcados para interpretar imagens de câmeras, LiDAR, radar e tomar decisões de direção em frações de segundo. A Tesla ficou famosa por projetar seu próprio FSD (Full Self-Driving) Computer com dois chips NPU. O chip FSD da Tesla (HW3, lançado em 2019) fornecia 144 TOPS (duas NPUs de 72 TOPS cada); o novo HW4 (2023) eleva isso para cerca de 200–250 TOPS no total (duas NPUs de 7nm com mais de 100 TOPS cada) ts2.tech. Isso permite que o carro processe vídeo em resolução total de 8 câmeras, sonar, etc., simultaneamente por meio de redes neurais para percepção e até execute alguns modelos de linguagem para comandos de voz – tudo localmente dentro do módulo do carro. Plataformas concorrentes como NVIDIA Drive e Qualcomm Snapdragon Ride também integram NPUs. O mais recente chip supercomputador automotivo da NVIDIA, Drive Thor, previsto para carros de 2025, ostenta até 1.000 TOPS em um único chip (e 2.000 TOPS quando dois são emparelhados) para suportar autonomia de Nível 4 ts2.tech. Ele combina uma GPU, CPU e aceleradores de deep learning dedicados, para que possa lidar com tudo, desde reconhecimento de placas de trânsito até IA de monitoramento do motorista no próprio chip ts2.tech. Essas NPUs são literalmente salva-vidas: um carro autônomo não pode esperar por servidores na nuvem se uma criança correr para a rua. A IA embarcada deve ver e reagir em dezenas de milissegundos. Fora dos carros de passeio, também há uso intenso de IA de borda em drones autônomos, robôs de entrega e veículos industriais, que navegam e tomam decisões com NPUs/TPUs embarcados (por exemplo, os robôs de entrega da Nuro e muitos sistemas de caminhões autônomos usam chips de IA da NVIDIA ou Huawei no dispositivo).
- Computação de Borda & Indústria: Em fábricas e ambientes empresariais, a IA embarcada geralmente assume a forma de servidores de borda ou gateways com aceleradores de IA. Em vez de enviar fluxos de câmeras ou dados de sensores para uma nuvem central, as empresas instalam caixas de borda (às vezes baseadas em GPU, às vezes em NPU/FPGA) no local. Estas lidam com tarefas como análise de vídeo em tempo real para controle de qualidade em uma linha de produção, detectando defeitos usando visão de IA em microssegundos. Dispositivos de saúde são outro exemplo: um ultrassom portátil ou ressonância magnética pode ter uma NPU para fazer análise de imagem por IA no próprio dispositivo, para que os médicos recebam ajuda diagnóstica instantânea sem precisar de conexão com a internet (o que também é melhor para a privacidade dos dados dos pacientes). Varejo e cidades também implantam IA na borda – por exemplo, câmeras de tráfego inteligentes com NPUs para analisar congestionamento e ajustar semáforos, ou câmeras de prateleira no varejo que monitoram o estoque. Muitos desses usam NPUs especializadas como os chips Intel Movidius Myriad, o Edge TPU do Google ou novos participantes como o Hailo-8 (uma NPU israelense que entrega 26 TOPS consumindo poucos watts para câmeras). O ponto comum é que esses aceleradores permitem que a análise aconteça localmente, alcançando resultados em tempo real e mantendo apenas insights de alto nível (em vez de dados brutos) trafegando pelas redes.
A versatilidade das NPUs/TPUs entre tipos de dispositivos é impressionante. Em um momento, elas permitem que seu celular desfoque o fundo de uma foto com IA e, no seguinte, estão guiando um drone ou analisando imagens médicas. Câmeras de smartphones agora usam NPUs para recursos como Modo Noturno (agregando múltiplos quadros de forma inteligente), modo Retrato com bokeh, reconhecimento de cena (seu celular sabe que você está fotografando um “pôr do sol” e otimiza as cores via IA), e até para efeitos de AR divertidos (Animoji mapeando seu rosto, ou filtros do Snapchat rastreando seus movimentos – tudo graças a redes neurais embarcadas). Biometria usa NPUs: leitores de digitais aprimorados com IA para detecção de vivacidade, desbloqueio facial com sensores de profundidade mais IA. Áudio também as utiliza: o cancelamento de ruído em fones de ouvido e celulares agora é frequentemente impulsionado por IA, com NPUs separando a voz do ruído de fundo em tempo real.
Um exemplo concreto de inovação em 2024: Oppo (a fabricante de smartphones), em parceria com a MediaTek, anunciou que implementou um modelo de IA Mixture-of-Experts (MoE) diretamente no dispositivo no final de 2024 – supostamente a primeira a fazer isso em um telefone grandviewresearch.com. Essa arquitetura avançada de rede neural (MoE) pode aumentar o desempenho ativando apenas as sub-redes “especialistas” relevantes por tarefa, e fazer isso no próprio dispositivo significa que os celulares Oppo podem alcançar processamento de IA mais rápido e melhor eficiência energética para tarefas complexas, sem precisar de assistência da nuvem grandviewresearch.com. Isso destaca como até mesmo pesquisas de IA de ponta estão rapidamente chegando aos nossos dispositivos de mão por meio de NPUs aprimoradas.
Dentro dos Chips de IA de 2025: Últimos Avanços de Apple, Google, Qualcomm e Mais
A corrida para construir hardware de IA embarcada melhor esquentou rapidamente. Veja o que as principais empresas lançaram recentemente (2024–2025) em termos de NPUs/TPUs e silício de IA:
- Apple: A estratégia de silício personalizado da Apple há muito enfatiza o aprendizado de máquina no dispositivo. A cada ano, o Neural Engine da Apple tem aumentado em potência. No iPhone 15 Pro de 2023, o chip A17 Pro atingiu 35 TOPS (trilhões de operações por segundo) com seus 16 núcleos apple.fandom.com. Isso foi o dobro da capacidade bruta do NPU do A16, e a Apple usou isso para viabilizar recursos como reconhecimento de fala no dispositivo para a Siri (finalmente processando muitos pedidos da Siri sem internet) e novas capacidades de câmera (como o modo Retrato capturado automaticamente e tradução ao vivo de texto via câmera). Os chips da Apple de 2024 continuaram a tendência: a família M3 para Macs (final de 2023) recebeu um Neural Engine atualizado (embora curiosamente ajustado para 18 TOPS no chip M3 base, focando mais em eficiência) apple.fandom.com. Em 2024, a Apple lançou o chip M4 (para iPads/Macs de alto desempenho, meados de 2024) que, segundo relatos, elevou o Neural Engine para 38 TOPS em um processo refinado de 3nm apple.fandom.com. Mais do que apenas números, a Apple tem usado esse NPU: recursos como Personal Voice (que cria um clone da voz do usuário após 15 minutos de treinamento) rodam de forma privada no Neural Engine dos iPhones, e as transcrições do Live Voicemail acontecem localmente. A Apple também integrou NPUs em todas as suas classes de dispositivos – até mesmo os AirPods Pro têm um pequeno chip neural para Áudio Adaptativo. Os executivos da Apple frequentemente destacam o aspecto da privacidade: “aprendizado de máquina no seu dispositivo” significa que seus dados permanecem com você. Até 2025, esperamos que o Neural Engine da Apple possa se expandir ainda mais ou se tornar disponível para aplicativos de terceiros de novas maneiras (o Core ML já permite que desenvolvedores o utilizem, mas a Apple pode abrir mais acesso à API neural). Também há rumores de que a Apple está projetando um acelerador de IA independente para futuros óculos ou carros, mas os produtos atuais mostram que eles preferem NPUs integrados em seus SoCs das séries A e M.
- Google: O Google não apenas foi pioneiro com a TPU em nuvem, mas também apostou fortemente em IA no dispositivo para os celulares Pixel e dispositivos de consumo. O Google Tensor SoC (introduzido pela primeira vez em 2021 no Pixel 6) foi único porque o Google, famoso pela nuvem, criou um chip de celular para rodar IA no próprio aparelho. Com o Tensor G3 (no Pixel 8 de 2023), o Google destacou melhorias que permitem IA generativa no dispositivo. O Google afirmou explicitamente que o chip do Pixel 8 traz “a pesquisa de IA do Google diretamente para nossos celulares mais novos” blog.google. A TPU de próxima geração do Tensor G3 (o Google ainda chama o núcleo de IA de “TPU” internamente) permite que o Pixel rode modelos avançados como Palm 2 ou Gemini Nano (versões reduzidas dos grandes modelos de linguagem do Google) no próprio aparelho para recursos como resumir sites ou melhorias na digitação por voz reddit.com. Um dos destaques: o Pixel 8 pode rodar localmente o melhor modelo de texto para fala do Google (o mesmo usado em data centers), permitindo que o celular leia páginas da web em voz alta com vozes naturais e até traduza em tempo real, tudo offline blog.google. O Google também usa a TPU do Pixel para fotografia (imagem multi-frame “HDR+”, remoção de objetos com Magic Eraser usando IA de inpainting blog.google), para segurança (desbloqueio facial no dispositivo via IA, agora considerado forte o suficiente para pagamentos blog.google), e para fala (o Assistente que não se importa se você disser “ééé”). Além dos celulares, o Google oferece a Coral Dev Board e um stick USB para entusiastas e empresas adicionarem Edge TPUs aos seus projetos, cada um contendo a Edge TPU do Google, que fornece 4 TOPS para tarefas de visão com consumo muito baixo de energia coral.ai. Ela é usada em alguns produtos do próprio Google, como o Nest Hub Max para reconhecimento de gestos. Para o Google, integrar TPUs na ponta faz parte de uma estratégia mais ampla: Sundar Pichai (CEO do Google) disse que o futuro da IA é sobre aumentar toda experiência, e claramente, o Google vê que “para trazer o poder transformador da IA para o dia a dia, é preciso acessá-la a partir do dispositivo que você usa todos os dias” blog.google – daí os chips Tensor. Podemos esperar um Tensor G4 nos celulares Pixel do final de 2024, possivelmente fabricado no processo mais novo da Samsung ou TSMC, melhorando ainda mais o desempenho e a eficiência da IA, talvez até permitindo IA multimodal no dispositivo (combinando modelos de visão+linguagem).
- Qualcomm: O principal fornecedor de chips móveis para celulares Android tem promovido agressivamente seu AI Engine na série Snapdragon. O Snapdragon 8 Gen 2 (final de 2022) introduziu suporte dedicado a INT4 e demonstrou geração de imagens por stable diffusion em tempo real em um celular. O Snapdragon 8 Gen 3 (anunciado no final de 2023, nos celulares topo de linha de 2024) é um grande salto: a Qualcomm afirma que seu Hexagon NPU é 98% mais rápido que o da Gen 2 e 40% mais eficiente em energia futurumgroup.com. Esse chip pode rodar grandes modelos de linguagem com até 10 bilhões de parâmetros totalmente no dispositivo, processando cerca de 20 tokens por segundo – suficiente para conversas simples com um assistente de IA sem a nuvem futurumgroup.com. Ele também alcançou a “geração de imagens Stable Diffusion mais rápida do mundo” em um dispositivo móvel em demonstrações futurumgroup.com. A Qualcomm tem sido enfática ao afirmar que a IA generativa no dispositivo é um ponto-chave de venda para novos celulares. Por exemplo, eles fizeram parceria com a Meta para otimizar o LLM de código aberto Llama 2 para Snapdragon, visando permitir que você rode um chatbot de IA no seu celular até 2024 iconnect007.com. (Um executivo da Qualcomm disse: “aplaudimos a abordagem aberta da Meta… para escalar a IA generativa, ela deve rodar tanto na nuvem quanto na borda”, reforçando a filosofia de IA na borda iconnect007.com.) Além dos celulares, a Qualcomm está colocando NPUs em chips para laptops (as plataformas de computação Snapdragon para Windows em ARM) – e sua plataforma automotiva Snapdragon Ride usa os mesmos núcleos de IA para oferecer até 30 TOPS para ADAS, com um roadmap para centenas de TOPS. Em 2025, a Qualcomm anunciou até um novo Snapdragon X Elite CPU para PCs que inclui uma NPU robusta, sinalizando o objetivo de desafiar Apple e Intel em desempenho de IA em computadores pessoais. Com a ascensão da IA no dispositivo, a Qualcomm está até mesmo rotulando alguns celulares como “AI phones”. Eles projetam que muitos aplicativos (de fotografia a mensagens e produtividade) vão aproveitar a NPU. No lado do software, a Qualcomm lançou o Qualcomm AI Stack para unificar o suporte aos frameworks populares (TensorFlow Lite, PyTorch, ONNX) em suas NPUs iconnect007.com – tentando facilitar para os desenvolvedores o uso do hardware de IA sem conhecimento profundo de chips.
- MediaTek: O segundo maior fabricante de chips móveis (conhecido pela série Dimensity) também atualizou suas NPUs. A MediaTek chama seus motores de IA de “APU” (Unidade de Processamento de IA). Por exemplo, o Dimensity 9200+ (2023) possui uma APU de sexta geração com um aumento significativo de desempenho em relação ao chip anterior, possibilitando recursos como difusão estável no dispositivo e redução de ruído por IA em vídeos. Em 2024, a MediaTek anunciou o Dimensity 9400, e em uma parceria com a Oppo, utilizou sua arquitetura avançada de NPU para introduzir novos recursos de IA (como mencionado, o remasterizador de fotos com IA do Oppo Find X8 com remoção de reflexos e desembaçamento é alimentado pela NPU da MediaTek) mediatek.com. Executivos da MediaTek se posicionaram explicitamente na vanguarda da IA embarcada. Como disse Will Chen, da MediaTek, “o futuro da IA transcende a nuvem; ele é impulsionado pela computação de borda, direto da palma da sua mão.” Em sua visão, a IA nos celulares deve ser rápida, privada, segura e consistentemente acessível mediatek.com. A MediaTek até formou uma colaboração “centrada em APU” com a Meta para suportar frameworks Llama e com fabricantes de dispositivos como Oppo e Xiaomi focando em recursos de câmera com IA e voz com IA. Até 2025, a MediaTek planeja lançar essas NPUs não apenas em celulares, mas também em smart TVs (para upscaling por IA e aprimoramento de imagem), dispositivos IoT e até automóveis (a MediaTek possui uma plataforma automotiva de IA e fez parceria com a Nvidia para integrar IP de GPU Nvidia para carros, enquanto presumivelmente fornece sua própria NPU para IA de sensores).
- Intel: 2024 marcou a entrada da Intel em aceleradores de IA em PCs convencionais. O Core de 14ª geração da Intel (Meteor Lake, lançado em dezembro de 2023 e renomeado para Core Ultra em 2024) é o primeiro processador x86 para PC com uma unidade de processamento neural (NPU) integrada. A NPU do Meteor Lake (às vezes chamada de VPU – Unidade de Processamento de Visão – baseada na tecnologia Movidius da Intel) oferece cerca de 8–12 TOPS de desempenho em IA pcworld.com. Isso é usado para acelerar recursos de IA do Windows 11, como desfoque de fundo, contato visual em chamadas de vídeo, e pode ser usado por aplicativos para coisas como transcrição local, supressão de ruído ou até mesmo pequenos assistentes de IA. A Microsoft e a Intel têm promovido juntas o conceito do “PC com IA”. A Intel afirma que essas NPUs serão enviadas em dezenas de milhões de laptops em 2024 pcworld.com. Após o Meteor Lake, o roteiro da Intel menciona o Arrow Lake (para desktops em 2024), que também inclui uma NPU (cerca de 13 TOPS, ligeiramente melhorada) pcworld.com. Curiosamente, a primeira tentativa da Intel de uma NPU para desktop foi na verdade superada pela AMD (veja abaixo), e a Intel optou por um design de NPU modesto para evitar sacrificar a área da GPU/CPU em chips para entusiastas pcworld.com. Mas no final de 2024, a Intel sinalizou que os futuros chips Lunar Lake terão uma NPU muito mais robusta (~45 TOPS) para atender aos requisitos do “Copilot” da Microsoft pcworld.com. Tudo isso indica que a Intel vê a IA como algo indispensável para os PCs daqui para frente – não para treinar grandes modelos, mas para acelerar experiências cotidianas impulsionadas por IA (desde melhorias em suítes de escritório até ferramentas criativas usando IA local). A Intel também vende aceleradores de IA de borda como os chips Intel Movidius Myriad (usados em alguns drones, câmeras) e os aceleradores Habana para servidores, mas a NPU integrada do Meteor Lake é um marco ao trazer IA para o dispositivo do consumidor comum.
- AMD: A AMD entrou na IA embarcada mais ou menos na mesma época. Seus processadores para notebook da série Ryzen 7040 (Phoenix), lançados em 2023, apresentaram o primeiro Ryzen AI Engine – essencialmente um NPU XDNA integrado (tecnologia da aquisição da Xilinx pela AMD). Esse NPU entregava até 10 TOPS no chip móvel en.wikipedia.org. A AMD destacou casos de uso como videochamadas aprimoradas por IA, aplicativos de produtividade e assim por diante, semelhante aos objetivos da Intel. Depois, a AMD lançou brevemente uma série desktop Ryzen 8000 (início de 2024) com um NPU atingindo 39 TOPS – um número muito alto para a unidade de IA de uma CPU de uso geral, superando até mesmo os planos da Intel pcworld.com. No entanto, a AMD rapidamente mudou de rumo e pulou uma geração, focando em sua próxima arquitetura (o subsequente Ryzen 9000 no final de 2024 removeu o NPU para priorizar upgrades de núcleo) pcworld.com. Ainda assim, espera-se que a AMD traga os NPUs de volta em futuros chips para PC (provavelmente é um recuo temporário enquanto trabalham para integrar um motor de IA forte sem comprometer outros desempenhos). No lado do produto, os NPUs da AMD podem viabilizar coisas interessantes, já que a AMD também tem GPUs potentes – uma combinação que pode lidar com cargas de trabalho de IA de forma colaborativa (algumas partes no NPU, outras na GPU). A AMD também vem colocando núcleos de IA em seus SoCs adaptativos (baseados em FPGA) e chips automotivos. Em resumo, até 2025 todos os fabricantes de chips x86 para PC adotaram NPUs, alinhando-se ao que os smartphones fizeram alguns anos antes, indicando que a aceleração de IA está se tornando um recurso padrão em todo o setor.
- Outros: Uma variedade de empresas especializadas em chips e outras empresas de tecnologia também estão inovando em NPUs. NVIDIA, conhecida por GPUs, agora inclui Tensor Cores dedicados em suas GPUs e oferece um NVDLA aberto (acelerador de deep learning) para integração em produtos System-on-Chip. Em dispositivos de borda como a série NVIDIA Jetson (usada em robôs, drones, sistemas embarcados), há tanto a GPU quanto “DLAs” de função fixa – essencialmente NPUs – que descarregam parte da inferência de redes neurais da GPU. O módulo Orin da NVIDIA, por exemplo, possui 2 DLAs além da GPU, contribuindo para seus 254 TOPS de desempenho em IA para carros ts2.tech. Apple está supostamente trabalhando em coprocessadores de IA ainda mais avançados ou motores neurais maiores para seus óculos de AR ou projetos futuros, embora os detalhes sejam secretos. Huawei (apesar dos desafios geopolíticos) continua a projetar chips móveis Kirin com NPUs (sua arquitetura NPU “DaVinci”) e também NPUs de classe servidor em seus chips Ascend AI – seu chip Kirin 9000S de 2023 supostamente mantém uma NPU forte para tarefas de imagem e linguagem em seus telefones. Também vemos startups como Hailo, Mythic, Graphcore e outras oferecendo seus próprios chips de IA de borda: por exemplo, Hailo-8 como mencionado (26 TOPS em um mini cartão PCIe para câmeras de IA), IPU da Graphcore para datacenters (não exatamente on-device, mas uma nova arquitetura para redes neurais), Mythic trabalhando em NPUs analógicas, etc. ARM, cujos projetos estão na base da maioria dos chips móveis, oferece a série Ethos NPU (como Ethos-U, Ethos-N78) que fabricantes de chips podem integrar para obter um acelerador de IA pronto em SoCs de IoT ou de médio porte. Isso permitiu que até mesmo players relativamente menores incluíssem NPUs em seus chips licenciando o design da ARM.
O ponto principal é que, de grandes empresas de tecnologia a startups, todos estão investindo em silício de IA on-device. Como resultado, estamos vendo melhorias rápidas: novos chips com mais TOPS, melhor eficiência (TOPS por watt) e suporte a novos tipos de dados (como quantização de 4 bits para modelos maiores). Por exemplo, os mais recentes da Qualcomm e MediaTek podem rodar precisão INT4, o que é ótimo para modelos de IA generativa onde a largura de banda de memória é um limitador androidauthority.com. Essas inovações se traduzem diretamente em benefícios para o usuário – por exemplo, edição de vídeo móvel com IA em tempo real (removendo objetos de vídeos 4K instantaneamente, como o Snapdragon 8 Gen 3 pode fazer com seu recurso de IA “Video Object Eraser” futurumgroup.com), ou coprocessadores de IA em carros permitindo assistentes de voz que funcionam sem rede e respondem tão rápido quanto uma conversa humana.
Principais notícias de 2024–2025: Lançamentos, benchmarks e parcerias
Para ilustrar a velocidade das mudanças, aqui estão alguns eventos de destaque no mundo das NPUs/TPUs e IA on-device do final de 2024 até 2025:
- Lançamentos do Apple M3 e M4 (out 2023 & maio 2024): Trouxeram Neural Engines de próxima geração. O Neural Engine do M3 faz 18 TOPS (16 núcleos), e o M4 saltou para 38 TOPS (ainda 16 núcleos, mas com clock/eficiência mais altos) apple.fandom.com. A Apple demonstrou esses chips lidando com tarefas intensivas como geração de imagens por stable diffusion no próprio dispositivo no macOS (com Core ML Stable Diffusion, desenvolvedores mostraram cerca de 15 segundos para gerar uma imagem em um M2 – ainda mais rápido no M3/M4).
- Lançamento do Google Pixel 8 (out 2023): Enfatizou IA “em todo lugar” no dispositivo. O evento do Google demonstrou a sumarização de páginas web e tradução ao vivo de artigos no próprio Pixel 8 usando seu NPU Tensor G3. Também introduziu o “Assistant with Bard”, que eventualmente rodará algumas interações no próprio dispositivo. O Google destacou que o Pixel 8 pode rodar 2× mais modelos no dispositivo do que o Pixel 6 podia, e modelos muito mais sofisticados blog.google. Em outras palavras, um salto enorme em apenas dois anos de desenvolvimento do chip Tensor.
- Parceria Qualcomm–Meta (jul 2023): Qualcomm e Meta anunciaram que estão otimizando o grande modelo de linguagem Llama 2 da Meta para rodar totalmente em NPUs Snapdragon até 2024 iconnect007.com. O objetivo é permitir que desenvolvedores implementem chatbots e apps de IA generativa em celulares, headsets de VR, PCs, etc., sem nuvem. Isso foi um endosso significativo de IA no dispositivo por um grande dono de modelo de IA (Meta) e um grande fabricante de chips. No final de 2024, eles deram sequência com planos para otimização do Llama 3 também qualcomm.com.
- Microsoft Windows 11 “Copilot” PCs (2024): A Microsoft estabeleceu um padrão chamando PCs com mais de 40 TOPS de aceleração de IA local de “AI PCs” elegíveis para recursos aprimorados de IA (como a integração do assistente digital Copilot). Isso pressionou OEMs – Lenovo, Dell, etc. – a adotar chips com NPUs (seja Intel, AMD ou Qualcomm) para atender à especificação. O resultado é uma esperada onda de laptops com IA em 2024, com a Microsoft afirmando que dezenas de modelos estão a caminho e prevendo mais de 40 milhões de remessas de AI PCs em 2024 pcworld.com.
- Breve NPU Ryzen 8000 da AMD (jan 2024): A AMD anunciou uma CPU desktop com impressionantes 39 TOPS de NPU (uma surpresa, já que chips desktop geralmente não possuem tais aceleradores) pcworld.com. Embora esse produto específico tenha sido rapidamente substituído, mostrou que até CPUs desktop podem ter silício de IA rivalizando com chips móveis em TOPS. Esta também foi a primeira CPU x86 desktop a trazer uma NPU (superando por pouco a Intel Arrow Lake).
- Demonstrações do Tesla FSD Beta v12 (final de 2023): Elon Musk apresentou direção autônoma ponta a ponta por IA (sem radar, apenas redes de visão) rodando nos NPUs HW3/HW4 da Tesla. Destacou-se a rede neural dirigindo o carro usando fluxos de vídeo processados inteiramente no computador do carro em tempo real. Observadores notaram que o FSD v12 utilizou totalmente os 2× 100 TOPS de NPU para visão, e a Tesla sugeriu que futuras atualizações (HW5) visando 2000 TOPS podem estar em desenvolvimento para lidar com modelos ainda maiores (houve rumores de que o HW5 da Tesla poderia atingir 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor revelado (GTC 2024): A NVIDIA revelou detalhes de seu próximo chip automotivo, o Drive Thor, que traz o equivalente a 2× o poder de computação de IA de seu antecessor Orin – até 2000 TOPS quando dois chips estão conectados ts2.tech. Significativamente, o Thor é apresentado como capaz de lidar não apenas com tarefas de direção, mas também com IA de cabine (como voz e monitoramento de ocupantes) em uma única plataforma, mostrando como NPUs e GPUs juntas podem consolidar muitas funções de IA nos carros ts2.tech. Várias montadoras (Xpeng, BYD, Volvo) anunciaram que usarão o Thor a partir de 2025 ts2.tech.
- MoE AI on-device da Oppo (out 2024): Como mencionado, a Oppo implementou um modelo Mixture-of-Experts no telefone Find X8 grandviewresearch.com. Isso é relevante porque modelos MoE geralmente são grandes e considerados para servidores devido à sua complexidade. Rodar MoE no dispositivo sugere novas técnicas de compressão de modelo e uma NPU muito capaz (provavelmente o MediaTek Dimensity 9400 nesse aparelho).
- Óculos de IA Ray-Ban da Meta (2025): (Previsto) A Meta apresentou protótipos de óculos inteligentes que podem identificar o que você vê e falar com você sobre isso – provavelmente usando um acelerador personalizado integrado (a Meta vem prototipando silício customizado para AR). Embora os detalhes sejam escassos, isso ressalta o esforço para colocar IA em dispositivos extremamente restritos (óculos, fones de ouvido com bateria), o que exigiria NPUs ultraeficientes.
- Benchmarks de Inferência Mobile MLPerf (2023–24): A MLCommons divulgou resultados mostrando o poder da IA nos smartphones mais recentes. Por exemplo, no MLPerf Inference v3.0 (out 2023), o A16 da Apple, o Google Tensor G2 e o Qualcomm Gen 2 foram todos avaliados em tarefas como classificação de imagens e detecção de objetos. Os números mostraram Apple e Qualcomm alternando vitórias, mas, em geral, que as NPUs móveis estão se aproximando de alguns aceleradores de classe laptop/desktop nessas tarefas – tudo isso funcionando com bateria. Também destacou diferenças de software (por exemplo, o SDK de IA da Qualcomm vs. Apple Core ML). As melhorias contínuas a cada ano (ganhos de dois dígitos em %) nesses benchmarks demonstram a competição saudável e o rápido progresso em IA embarcada.
- Parcerias estratégicas: Muitas parcerias intersetoriais foram formadas. Ex.: NVIDIA e MediaTek (maio de 2023) anunciaram uma colaboração para colocar IP de GPU da Nvidia e o ecossistema de software nos futuros chips de smartphone e automotivos da MediaTek, unindo efetivamente as forças da Nvidia em IA com a expertise da MediaTek em SoCs móveis. Além disso, empresas como a Qualcomm estão fazendo parcerias com montadoras (Mercedes, BMW) para colocar as plataformas Snapdragon Cockpit e Ride (com NPUs) em novos veículos para recursos de IA. A Arm tem feito parcerias com a Fujitsu e outros para novos projetos de chips de IA (como a partição de IA do supercomputador Fugaku, embora esse seja de alto desempenho). Até mesmo IBM e Samsung apresentaram novas tecnologias de chips (como computação neuromórfica e memória para IA) que um dia podem revolucionar as NPUs – ainda não chegaram, mas mostram que os pipelines de pesquisa estão cheios.
No geral, o último ano foi repleto de desenvolvimentos, ressaltando que IA embarcada é uma das áreas mais quentes da tecnologia. Como observou um analista do setor, “essas capacidades embarcadas desbloqueiam horizontes totalmente novos… rodar LLMs no celular ajuda a lidar com escala e custo, mantém os dados privados e garante que a IA funcione mesmo com conectividade limitada” futurumgroup.com. Isso basicamente resume por que todas as grandes empresas de tecnologia estão investindo nisso.
Visão dos Especialistas: O que Líderes de Tecnologia Dizem sobre IA Embarcada
O impulso por trás das NPUs e TPUs não é evidente apenas em produtos, mas também nas palavras dos líderes do setor. Aqui estão algumas citações e perspectivas que lançam luz sobre a importância da IA embarcada:
- Cristiano Amon (CEO da Qualcomm): “Se a IA vai ganhar escala, você vai vê-la rodando nos dispositivos… Isso marca um ponto de virada na IA: sem problemas de latência — apenas inferência no dispositivo, perfeita, segura e complementar à nuvem. O futuro da IA é pessoal, e começa no seu dispositivo.” (Entrevista à Bloomberg e postagem no X, 2023) x.com. Amon imagina um mundo híbrido de IA, onde seu telefone/PC faz muito sozinho em seus próprios NPUs, trabalhando com a nuvem quando necessário. Ele enfatiza que rodar IA localmente é fundamental para torná-la ubíqua (não dá para depender só de GPUs na nuvem – não existem GPUs suficientes no mundo para bilhões de dispositivos).
- Durga Malladi (SVP, Qualcomm): “Aplaudimos a abordagem da Meta para uma IA aberta e responsável… Para escalar efetivamente a IA generativa para o mainstream, a IA precisará rodar tanto na nuvem quanto nos dispositivos na ponta.” iconnect007.com Malladi disse isso no contexto da parceria com a Meta. Isso destaca uma visão comum: escalar IA = nuvem + ponta trabalhando juntas. Agora há o entendimento de que IA puramente na nuvem não será suficiente (por motivos de custo, privacidade e latência), então a IA na ponta precisa compartilhar a carga.
- Will Chen (Vice-GM, MediaTek): “O futuro da IA vai além da nuvem; ele é impulsionado pela computação de ponta, direto da palma da sua mão… OPPO e MediaTek estão na vanguarda da IA no dispositivo, garantindo que as capacidades inteligentes sejam poderosas, rápidas, privadas, seguras e consistentemente acessíveis.” (MediaTek Exec Talk, 2025) mediatek.com. Esta citação resume bem a proposta de valor da IA no dispositivo – você tem desempenho e acessibilidade além de privacidade e segurança. Também mostra que até empresas tradicionalmente menos visíveis no Ocidente (como a MediaTek) estão pensando na vanguarda da implantação de IA.
- Dr. Norman Wang (especialista em hardware de IA, CEO de uma startup de chips): “Em hardware de IA, quanto mais próximo você puder colocar o processamento da fonte de dados, melhor. Trata-se de reduzir o movimento de dados. Um NPU ao lado do seu sensor de imagem significa que você não está enviando megapixels para a nuvem – você está extraindo insights direto na ponta. Isso muda o jogo para latência e consumo de energia.” (Painel no HotChips 2024 – parafraseado). Esse insight técnico explica por que NPUs geralmente ficam no mesmo silício que outros componentes: por exemplo, no SoC de um telefone, o NPU pode pegar dados da câmera diretamente do ISP. Minimizar o movimento de dados é uma parte fundamental da IA eficiente, e a IA na ponta consegue isso ao processar na fonte dos dados.
- Xinzhou Wu (VP de Automotivo, NVIDIA): “A computação acelerada levou a avanços transformadores, incluindo a IA generativa, que está redefinindo a autonomia e a indústria de transporte.” (GTC 2024 Keynote) ts2.tech. Ele estava discutindo como computadores de bordo poderosos (com NPUs/GPUs) permitem que os carros não apenas dirijam, mas também possam incorporar IA avançada como modelos generativos para coisas como interfaces de linguagem natural no carro ou melhor compreensão de situações. Isso destaca que até setores como o automotivo veem a IA embarcada não apenas como funcionalidade central, mas também para melhorar a experiência do usuário (por exemplo, assistentes de voz em carros que podem manter conversas graças a LLMs embarcados).
- Sundar Pichai (CEO do Google): “O futuro da IA é torná-la útil para todos. Isso significa trazer IA para todos os dispositivos que usamos – telefones, eletrodomésticos, carros – para que ela esteja lá quando você precisar. Queremos encontrar os usuários onde eles estão, com IA que funcione em tempo real, localmente, e preserve a privacidade.” (Parafraseado de várias entrevistas/keynotes). Pichai frequentemente fala sobre “IA ambiente” – a ideia de que a IA estará ao nosso redor, embutida nas coisas. O investimento do Google em chips Tensor nos Pixels é uma execução direta dessa filosofia.
- Estatísticas do setor: Analistas observaram a tendência em números. Um relatório da Grand View Research em 2024 observou: “Avanços recentes em chips de IA especializados e NPUs permitiram que algoritmos complexos de IA rodem diretamente nos dispositivos, aumentando significativamente o desempenho e a eficiência energética… estamos nos aproximando de uma transição crucial para a IA embarcada.” grandviewresearch.com. O mesmo relatório projeta que o mercado de IA embarcada explodirá nos próximos anos, com o segmento de hardware (NPUs, etc.) representando mais de 60% da receita em 2024 e crescendo à medida que praticamente todo novo dispositivo IoT ou móvel adota capacidades de IA grandviewresearch.com. Outra previsão da IDC e de outros sugere que até meados da década de 2020, quase todos os smartphones topo de linha e a maioria dos intermediários terão aceleradores de IA, e que até 2030, bilhões de chips de IA de borda estarão em uso, desde eletrônicos de consumo até infraestrutura inteligente.
O consenso entre os especialistas é que IA embarcada não é apenas um diferencial – é essencial para a próxima onda de tecnologia. O pioneiro em IA Andrew Ng mencionou frequentemente que “tiny AI” e IA de borda permitirão que a inteligência penetre em todos os objetos, de forma análoga à eletricidade ou à internet em eras anteriores. Ao superar as limitações da IA baseada apenas em nuvem, NPUs e TPUs estão possibilitando essa penetração.
O desafio dos muitos padrões (e esforços para simplificar)
Enquanto o hardware avançou rapidamente, o ecossistema de software e padrões para IA no dispositivo ainda está se desenvolvendo. Os desenvolvedores enfrentam uma selva de ferramentas e SDKs ao tentar aproveitar NPUs em diferentes dispositivos nimbleedge.com. Pontos principais:- Cada plataforma tem sua própria API ou SDK: a Apple tem o Core ML (com APIs para direcionar o Neural Engine), o Android tem o Neural Networks API (NNAPI) (embora o Google tenha anunciado planos para evoluí-lo além do Android 14) threads.com, a Qualcomm oferece o SNPE (Snapdragon Neural Processing Engine) ou, de forma mais ampla, o Qualcomm AI Stack, a NVIDIA tem o TensorRT e CUDA para seus dispositivos, e assim por diante. Há também o ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI, entre outros. Esses diferentes SDKs geralmente têm capacidades distintas e exigem ajustes no modelo para rodar de forma ideal em cada destino. Como observado em um relatório de IA no dispositivo de 2025, “Múltiplos SDKs incompatíveis (por exemplo, Core ML, LiteRT, ONNX Runtime) com suporte e desempenho de operadores variados” forçam os desenvolvedores a fazer trabalho extra nimbleedge.com.
- Questões de fragmentação: Um modelo que roda perfeitamente em uma GPU de desktop pode não rodar facilmente em uma NPU de celular – operadores (as funções matemáticas) podem não ser suportados ou precisar ser quantizados de forma diferente. Os desenvolvedores às vezes precisam manter builds separadas ou otimizar manualmente os modelos para cada hardware. Essa é a reclamação do “ecossistema fragmentado e de baixo nível” nimbleedge.com. Ferramentas de depuração também são escassas – fazer o profiling de uma NPU para ver por que um modelo está lento pode ser difícil, especialmente em comparação com as ferramentas avançadas para CPUs/GPUs nimbleedge.com.
- Esforços de padronização: Para lidar com isso, há algumas iniciativas em andamento. ONNX (Open Neural Network Exchange) surgiu como um formato comum para que você possa treinar um modelo no PyTorch ou TensorFlow e depois exportar para ONNX para implantação. Muitos runtimes (incluindo alguns embarcados, como os da Qualcomm e MediaTek) suportam a ingestão de modelos ONNX e tentarão compilá-los para o hardware. Isso ajuda a evitar o aprisionamento em um único framework. Android NNAPI foi uma tentativa do Google de fornecer uma interface universal – um app pode solicitar “execute esta rede neural” via NNAPI e o sistema operacional usará qualquer acelerador presente (GPU, DSP ou NPU) para executá-la. O NNAPI foi adotado em muitos dispositivos Android, mas tinha limitações e nem todos os fornecedores forneceram drivers robustos, levando o Google a indicar uma nova estratégia (possivelmente apoiando-se em WebNN ou integrações diretas com fornecedores) além de 2024 threads.com. Em PCs, a Microsoft introduziu DirectML e as APIs Windows ML para abstrair de forma semelhante as diferenças de hardware (permitindo que um desenvolvedor use a mesma API para NPUs da NVIDIA, Intel e AMD).
- Toolchains unificados: As empresas também estão construindo toolchains para simplificar a implantação. Vimos o AI Stack da Qualcomm, que combina seu compilador (AI Model Efficiency Toolkit) e runtimes para que os desenvolvedores possam direcionar sua NPU Hexagon com mais facilidade iconnect007.com. O TensorRT da NVIDIA e SDKs relacionados fazem algo semelhante para dispositivos Jetson, otimizando modelos para GPU+NVDLA. Intel OpenVINO é outro exemplo – permite que você pegue um modelo e o otimize para CPUs Intel, iGPUs e VPUs (NPUs) para implantações na borda. Esses frameworks geralmente incluem otimizadores de modelos que convertem modelos (pruning, quantização) para caber em dispositivos menores.
- Interoperabilidade: Há um movimento para fazer diferentes NPUs funcionarem com frameworks comuns. Por exemplo, o TensorFlow Lite do Google possui delegados de hardware – um para NNAPI (cobre dispositivos Android genericamente), um para Core ML (dispositivos iOS), um para Edge TPU, etc. A ideia é que você escreva seu modelo TFLite e ele será executado usando o melhor acelerador disponível via o delegado. Da mesma forma, o PyTorch vem adicionando suporte para backends móveis e até mesmo para coisas como o Metal Performance Shaders da Apple (para usar GPU/NPU no iOS). ONNX Runtime também pode direcionar diferentes aceleradores via plugins (por exemplo, é possível conectar o TensorRT da NVIDIA ou o Compute Library da ARM ou outros por baixo dos panos).
- Padrões emergentes: O Khronos Group (por trás do OpenGL/Vulkan) trabalhou no NNEF (Neural Network Exchange Format) e há a WebNN API sendo discutida para que navegadores acessem aceleração de IA local. Nenhum foi universalmente adotado ainda. Mas um desenvolvimento interessante: no final de 2024, várias empresas formaram uma aliança para impulsionar padrões de “AI Hardware Common Layer” – basicamente, explorando se uma interface comum de baixo nível para NPUs poderia ser criada (de forma análoga ao que o OpenCL fez para computação em GPUs). Ainda está no início.
- Experiência do desenvolvedor: É uma lacuna reconhecida. Como disse o blog da NimbleEdge, “desenvolver para IA embarcada atualmente exige navegar por um ecossistema fragmentado e de baixo nível… forçando os desenvolvedores a adaptar implementações para cada hardware” nimbleedge.com. A indústria sabe que isso precisa melhorar para que a IA embarcada realmente se torne popular. Podemos ver uma consolidação – por exemplo, se Google, Apple e Qualcomm pudessem concordar com algum conjunto básico de operações e API (talvez um pensamento otimista). Ou, mais provavelmente, frameworks como PyTorch e TensorFlow vão esconder essa complexidade integrando todas essas bibliotecas de fornecedores e escolhendo a certa em tempo de execução.
Em essência, enquanto NPUs/TPUs fornecem a força, a comunidade está trabalhando em ferramentas amigáveis ao cérebro para usar essa força. A boa notícia é que, comparado a, digamos, cinco anos atrás, há muito mais opções para implantar um modelo embarcado sem ser um especialista em chips. Mas ainda há espaço para crescer – especialmente em depuração, profiling e suporte a múltiplos hardwares.
Tendências de Mercado e Perspectivas Futuras
A proliferação de NPUs e TPUs nos dispositivos está impulsionando uma tendência maior: IA em todo lugar. Aqui estão algumas tendências de alto nível e o que esperar para o futuro:
- Crescimento do Mercado de Edge AI: Pesquisas de mercado indicam um crescimento explosivo no hardware de IA embarcada. O mercado de IA embarcada (incluindo chips e software) deve crescer cerca de 29% ao ano nesta década nimbleedge.com. Um relatório avaliou o mercado em cerca de US$ 233 bilhões em 2024, chegando a mais de US$ 1,7 trilhão até 2032 nimbleedge.com – grande parte desse crescimento impulsionado por implantações embarcadas. Outra análise da IDTechEx prevê que o mercado de chips de IA para dispositivos embarcados chegará a US$ 22 bilhões até 2034, com eletrônicos de consumo, automotivo e industrial sendo os maiores segmentos idtechex.com. Isso implica centenas de milhões de dispositivos por ano sendo enviados com NPUs como componente padrão.
- Adoção Ubíqua: Assim como todo smartphone hoje tem uma GPU (mesmo que pequena), estamos chegando ao ponto em que todo novo smartphone terá um acelerador de IA. Os celulares topo de linha já possuem; os intermediários são os próximos. De fato, chips intermediários da Qualcomm (por exemplo, Snapdragon série 7) e MediaTek (Dimensity série 700/800) agora incluem NPUs reduzidas para que recursos como melhorias de câmera por IA e assistente de voz funcionem também em dispositivos mais baratos. Além dos celulares, as NPUs estão se espalhando para PCs (padrão em novos laptops Windows de vários fabricantes), carros (quase todos os novos carros com ADAS Nível 2+ têm algum tipo de chip de IA) e IoT. Até eletrodomésticos como geladeiras e máquinas de lavar estão começando a anunciar recursos “de IA” (alguns baseados em nuvem, mas outros locais, como ciclos adaptativos baseados em sensores). A tendência é clara: se um dispositivo tem um chip de processamento, ele terá alguma aceleração de ML nesse chip.
- Trajetória de Desempenho: O desempenho de IA embarcada está dobrando aproximadamente a cada 1–2 anos (combinação de melhor arquitetura e avanço para nós semicondutores como 5nm, 4nm, 3nm). O Neural Engine da Apple foi de 600 bilhões de operações/seg em 2017 para 35 trilhões em 2023 – quase um aumento de 60× em seis anos apple.fandom.com. Os flagships da Qualcomm também saltaram de alguns TOPS em 2018 para mais de 27 TOPS em 2023 (total de computação de IA do SD 8 Gen 3, contando todos os núcleos). Podemos esperar, até 2025–2026, NPUs móveis entregando mais de 100 TOPS, e aceleradores de PC ainda mais, e esses números podem se tornar menos relevantes à medida que o foco muda para desempenho utilizável em tarefas específicas de IA (por exemplo, qual o tamanho de um LLM que você pode rodar suavemente, ou se é possível fazer vídeo 4K com IA em tempo real). A diferença entre nuvem e edge provavelmente vai diminuir para tarefas de inferência. No entanto, o edge ainda ficará atrás da nuvem para os modelos grandes de ponta devido a restrições de energia e memória.
- Ganhos em Eficiência Energética: Um aspecto subestimado é o quanto essas NPUs estão ficando eficientes. A NPU automotiva da Tesla atinge cerca de 4,9 TOPS/Watt fuse.wikichip.org, que era o estado da arte há alguns anos; agora algumas NPUs móveis afirmam alcançar valores semelhantes ou melhores. NPUs eficientes significam maior duração de bateria mesmo com uso crescente de recursos de IA. Também significa que colocar IA em dispositivos minúsculos alimentados por bateria se torna viável (por exemplo, aparelhos auditivos com IA, sensores inteligentes alimentados por bateria de moeda realizando detecção de anomalias). O conceito de TinyML – aprendizado de máquina em escala extremamente pequena em microcontroladores – é uma extensão disso, usando “NPUs” simplificadas ou instruções otimizadas em microcontroladores para fazer IA em sensores. O Ethos-U NPU da ARM é voltado para esse segmento (por exemplo, detecção de palavra-chave sempre ativa rodando com poucos miliwatts). Espere mais chips minúsculos específicos para IA que podem ser embutidos em sensores, wearables e objetos do dia a dia (Escova de dentes inteligente? Detector de fumaça com IA? Está chegando).
- Soluções Híbridas Nuvem-Borda: Em vez de a borda substituir completamente a nuvem, o futuro é a colaboração. Os dispositivos farão o que puderem localmente e só recorrerão à nuvem para o que não conseguirem fazer. Por exemplo, seus óculos de AR podem executar reconhecimento de cena localmente para saber o que você está olhando, mas se você fizer uma pergunta muito complexa (como uma explicação detalhada), eles podem consultar uma IA na nuvem para uma análise mais poderosa e então apresentar o resultado. Essa abordagem híbrida oferece o melhor equilíbrio entre capacidade de resposta e desempenho. As empresas estão ativamente projetando experiências com base nisso: o Copilot da Microsoft no Windows pode usar a NPU local para fazer rapidamente transcrição de voz para texto e análise de comandos, mas usar a nuvem para tarefas mais pesadas (a menos que talvez você tenha uma NPU de PC robusta que possa lidar com isso). O ideal é que o usuário não saiba nem se importe com qual está sendo usada, além de perceber que tudo está mais rápido e respeitando a privacidade. Também veremos o aprendizado federado se tornar mais comum – modelos treinam na nuvem, mas com a ajuda de dados criptografados ou processados nos dispositivos, e vice-versa.
- Casos de Uso Emergentes: À medida que as NPUs se tornam mais poderosas, novas aplicações surgem. IA generativa no dispositivo é uma delas – imagine criação de imagens por IA, edição de vídeo por IA e chatbots pessoais, tudo no seu telefone ou laptop. Até 2025, podemos ver as primeiras versões de assistentes pessoais offline que podem resumir seus e-mails ou redigir mensagens sem nuvem. Tradução de idiomas em tempo real em conversas (duas pessoas falando línguas diferentes, com telefones ou fones de ouvido traduzindo quase em tempo real) será muito melhorada pelo processamento no dispositivo (sem atraso e funcionando em qualquer lugar). IA para saúde pode estar presente em wearables – seu smartwatch detectando fibrilação atrial ou analisando padrões de apneia do sono usando sua NPU. Segurança: dispositivos podem rodar IA localmente para detectar malware ou phishing em tempo real (por exemplo, antivírus usando um modelo de IA no seu dispositivo em vez de varreduras na nuvem). E nos veículos, além da condução, a IA pode personalizar a experiência dentro do carro (ajustar o ar-condicionado com base no seu humor percebido via IA de câmera voltada para o motorista, etc.). Muitos desses casos de uso exigem iteração rápida e privacidade, o que favorece o processamento no dispositivo.
- Competição e Democratização: Os grandes players continuarão competindo, o que é bom para os consumidores – espere ver marketing do tipo “nosso chip de IA faz X TOPS ou permite o recurso Y que outros não conseguem”. Mas também, a tecnologia está se democratizando – NPUs não estão apenas em celulares de $1000; estão chegando a celulares de $300, placas IoT de $50 (Coral, Arduino Portenta, etc.), e comunidades open-source estão criando modelos de IA minúsculos que entusiastas podem rodar em um Raspberry Pi ou microcontrolador com um acelerador básico. Essa disponibilidade ampla significa que a inovação pode vir de qualquer lugar. Um desenvolvedor sozinho agora pode criar um app que usa IA no dispositivo para fazer algo inteligente sem precisar de um data center – reduzindo a barreira de entrada para softwares movidos por IA.
- Tecnologia do Futuro: Olhando mais adiante, pesquisas em computação neuromórfica (chips inspirados no cérebro como o Intel Loihi) e chips de IA analógicos podem um dia revolucionar as NPUs, oferecendo ganhos de eficiência de ordens de magnitude. Empresas como IBM e BrainChip estão trabalhando nisso. Se forem bem-sucedidos, um chip neuromórfico pode permitir que IA complexa rode continuamente em dispositivos com baterias minúsculas. Também podemos ver empilhamento 3D e novas tecnologias de memória integradas às NPUs para superar gargalos de memória (alguns chips de 2025+ podem usar memória HBM ou nova memória não volátil on-chip para alimentar os núcleos de IA mais rapidamente). Além disso, espere mais especialização dentro dos chips de IA: por exemplo, aceleradores separados para visão, para fala, para modelos de recomendação, etc., cada um ajustado ao seu domínio. Alguns SoCs já possuem NPUs duplas (uma NPU “grande” para tarefas pesadas, uma micro NPU no sensor hub para tarefas leves sempre ativas).
Em conclusão, a trajetória é clara: NPUs e TPUs estão se tornando tão padrão e indispensáveis quanto CPUs na computação moderna. Elas permitem que os dispositivos sejam mais inteligentes, responsivos e mais atentos à nossa privacidade. Como afirmou um relatório, “as unidades de processamento de alto desempenho nos dispositivos são amplamente responsáveis por executar funções complexas de IA como reconhecimento de imagem, PLN e tomada de decisão em tempo real”, e isso está impulsionando uma tecnologia mais inteligente e responsiva em todos os setores grandviewresearch.com.
Estamos entrando em uma era em que você simplesmente espera que seu dispositivo entenda e antecipe suas necessidades – seu telefone edita fotos e escreve mensagens no seu estilo, seu carro evita acidentes e te diverte com IA, seus aparelhos domésticos aprendem suas preferências – tudo isso possibilitado pelos discretos processadores neurais dentro deles. IA no dispositivo não é ficção científica; já está aqui e melhorando rapidamente. A união de NPUs e TPUs com nossos gadgets do dia a dia está tornando a IA pessoal, onipresente e privada – realmente trazendo o poder da inteligência da nuvem para a terra (ou pelo menos, para o seu bolso).
Fontes:
- Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparando opções de hardware de IA.” TechTarget, 27 de agosto de 2024 techtarget.com. Descreve os papéis e diferenças entre CPUs, GPUs, TPUs e NPUs em cargas de trabalho de IA.
- Backblaze Blog. “IA 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Explicação do design da TPU do Google (arrays sistólicos, baixa precisão) e uso de NPU em dispositivos móveis.
- TechTarget WhatIs. “Unidade de processamento tensorial (TPU).” whatis.techtarget.com, 2023 techtarget.com. Observa que as TPUs se especializam em tarefas de matemática matricial e as NPUs imitam redes neurais do cérebro para aceleração techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). “O estado da IA no dispositivo: o que falta no cenário atual.” 26 de junho de 2025 nimbleedge.com. Apresenta as vantagens da IA no dispositivo (latência, offline, privacidade, custo) e desafios como SDKs fragmentados.
- Qualcomm (OnQ Blog). “Bloomberg e Cristiano Amon falam sobre IA no dispositivo.” Julho de 2023 x.com. CEO da Qualcomm sobre a importância da inferência no dispositivo para o futuro da IA (citação de tweet sobre ponto de virada na IA).
- MediaTek Blog (Exec Talk por Will Chen). “Moldando o futuro das experiências móveis com IA.” 3 de março de 2025 mediatek.com. Colaboração da MediaTek e Oppo em NPUs; citação sobre computação de borda na sua mão e exemplo de remasterização de fotos por IA usando a NPU.
- I-Connect007 / Qualcomm Press. “Qualcomm trabalha com a Meta para viabilizar IA no dispositivo (Llama 2).” 24 de julho de 2023 iconnect007.com. Comunicado de imprensa com citação do SVP da Qualcomm, Durga Malladi, sobre escalar IA generativa via dispositivos de borda e nuvem.
- PCWorld (Mark Hachman). “CPUs Intel Core Ultra mantêm a IA simples….” 24 de outubro de 2024 pcworld.com. Discute o Intel Arrow Lake usando a NPU do Meteor Lake (13 TOPS) e observa a NPU Ryzen 8000 da AMD com 39 TOPS e o requisito “Copilot” de 40 TOPS da Microsoft.
- Ts2 (Tech Empowerment). “Disputa de Supercomputadores Autônomos: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Set. 2023 ts2.tech. Fornece estimativas de TOPS: Tesla HW3 vs HW4 (72→100 TOPS por chip) ts2.tech, NVIDIA Thor ~1000 TOPS (ou 2000 com dual) ts2.tech e cita o VP da NVIDIA sobre IA generativa em veículos ts2.tech.
- Grand View Research. “Relatório do Mercado de IA em Dispositivos, 2030.” 2024 grandviewresearch.com. Observa o crescimento de chips de IA especializados (NPUs) permitindo IA complexa em dispositivos, e que o hardware representou 60,4% do mercado de IA em dispositivos em 2024, impulsionado por smartphones, IoT, NPUs etc.
- Google Blog. “Google Tensor G3: O processador AI-first do Pixel 8.” Out. 2023 blog.google. Descreve as melhorias do Tensor G3 para IA generativa no dispositivo, novo design de TPU e modelo TTS no dispositivo com qualidade igual à de data center.
- Techspot. “Snapdragon 8 Gen 3 traz IA generativa para smartphones.” Out. 2023 futurumgroup.com. Análise do Futurum Group detalhando o motor de IA do SD8Gen3: LLM de 10B parâmetros no dispositivo, NPU 98% mais rápida, Stable Diffusion mais rápido do mundo em celular, etc., além dos benefícios de LLMs no dispositivo para custo/privacidade/offline futurumgroup.com.
- Apple Wiki (Fandom). “Neural Engine.” Atualizado em 2025 apple.fandom.com. Histórico de versões do Neural Engine com A17 Pro 35 TOPS em 2023, etc. Mostra a evolução de 0,6 TOPS (A11) para 35 TOPS (A17) apple.fandom.com e M4 com 38 TOPS apple.fandom.com.
- EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Exemplo de câmera de segurança com NPU integrada permitindo processamento de IA na própria câmera e armazenamento local (sem necessidade de NVR).
- EmbedL. “Amazon lança o processador AZ1 Neural Edge.” Out. 2020 embedl.com. Discute o NPU de borda AZ1 da Amazon para dispositivos Echo, construído com a MediaTek, projetado para inferência de fala no dispositivo para reduzir latência e dependência da nuvem embedl.com.