NPU против TPU: как встроенный ИИ ускоряет ваши гаджеты в 2025 году

9 сентября, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple запустила встроенный ИИ в 2017 году с Neural Engine в iPhone A11, что позволило реализовать Face ID и Animoji на скорости до 600 миллиардов операций в секунду.
  • В 2023 году 16-ядерный Neural Engine iPhone A17 Pro обеспечил около 35 TOPS, поддерживая функции распознавания речи, фотографии и перевода на устройстве.
  • Google Pixel 8 (2023) использует Tensor G3 NPU для запуска ИИ-моделей на устройстве, таких как Palm 2, для офлайн-перевода и суммирования.
  • Edge TPU от Google на Coral Dev Board обеспечивает 4 TOPS обработки изображений при низком энергопотреблении.
  • Аппаратное обеспечение Tesla Full Self-Driving имеет два NPU: HW3 (2019) предлагал около 144 TOPS, а HW4 (2023) — примерно 200–250 TOPS.
  • NVIDIA Drive Thor (анонсирован в 2024) может достигать до 2000 TOPS при объединении двух чипов для автомобильных ИИ-задач.
  • Hexagon NPU в Qualcomm Snapdragon 8 Gen 3 (2023) на 98% быстрее, чем Gen 2, может запускать LLM до 10 миллиардов параметров на устройстве и показал самую быструю в мире мобильную Stable Diffusion на демонстрациях.
  • MediaTek Dimensity 9400 (2024) с шестым поколением APU обеспечивает ИИ-ремастеринг фото в Oppo Find X8, что свидетельствует о расширении NPU к ТВ, IoT и автомобилям к 2025 году.
  • Intel Meteor Lake, 14-е поколение Core (выпущено в 2023; переименовано в Core Ultra в 2024), включает интегрированный NPU с производительностью около 8–12 TOPS, Arrow Lake — ~13 TOPS, а Lunar Lake по слухам — около 45 TOPS.
  • AMD Ryzen 7040 Phoenix (2023) представил Ryzen AI Engine с производительностью до 10 TOPS, а Ryzen 8000 для настольных ПК (начало 2024) предложил 39 TOPS, прежде чем AMD приостановила внедрение NPU в этом поколении.

В двух словах: Ваш смартфон, камера и даже автомобиль получают встроенные ИИ-мозги — облако не требуется. Специальные чипы, называемые NPU (нейронные процессорные устройства) и TPU (тензорные процессорные устройства), превращают повседневные гаджеты в интеллектуальных помощников, способных к распознаванию лиц, голосовым командам, переводу в реальном времени, функциям автономного вождения и многому другому. Эта революция ИИ на устройстве обещает молниеносные отклики, лучшую приватность и новые возможности, которые раньше казались возможными только на суперкомпьютерах. В этом обзоре мы разберёмся, что такое NPU и TPU, чем они отличаются от CPU/GPU, и почему такие гиганты, как Apple, Google, Qualcomm и Intel, спешат встроить эти «ИИ-мозги» во всё — от телефонов до автомобилей. Мы также выделим последние прорывы 2024–2025 годов, экспертные мнения, отраслевые стандарты и расскажем, что ждёт встроенный ИИ в будущем.

Что такое NPU и TPU? (Познакомьтесь с ИИ-мозгом вашего устройства)

Нейронные процессоры (NPU) — это специализированные процессоры, разработанные для ускорения работы искусственных нейронных сетей — алгоритмов, которые лежат в основе современных задач ИИ, таких как распознавание изображений, обработка речи и многое другое. В отличие от универсальных CPU, NPU — это специализированные интегральные схемы (ASIC), оптимизированные для матричной математики и интенсивных параллельных вычислений нейронных сетей techtarget.com. NPU «имитирует нейронные сети человеческого мозга для ускорения задач ИИ», по сути выступая в роли кремниевого мозга внутри вашего устройства techtarget.com. NPU отлично справляются с выполнением инференса (предсказаний) для моделей ИИ непосредственно на устройстве, часто используя пониженную числовую точность (например, 8-битные целые числа) для экономии энергии при сохранении высокой производительности backblaze.com. Термин «NPU» иногда используется в широком смысле для любого ускорителя ИИ, но чаще всего относится к тем, что используются в мобильных и edge-устройствах backblaze.com. Например, «Neural Engine» от Apple в iPhone и мобильный AI-движок Samsung — это NPU, интегрированные в их системы-на-кристалле (SoC).

Тензорные процессорные устройства (TPU), с другой стороны, были разработаны Google как специализированные чипы для ускорения машинного обучения, особенно для фреймворка TensorFlow. TPU — это тип ASIC, оптимизированный для тензорных операций (умножение матриц и др.), лежащих в основе обучения и вывода нейронных сетей backblaze.com. Google впервые внедрила TPU в своих дата-центрах в 2015 году для ускорения вычислений нейронных сетей, а позже сделала их доступными через Google Cloud backblaze.com. TPU используют особую архитектуру, называемую систолическим массивом, которая объединяет множество небольших вычислительных блоков в сетку, прокачивающую данные через цепочку блоков умножения матриц backblaze.com. Такая конструкция обеспечивает экстремальную пропускную способность для задач глубокого обучения. TPU от Google сознательно жертвуют частью точности (используя 8- или 16-битную арифметику вместо 32-битных чисел с плавающей запятой) ради огромного прироста скорости и энергоэффективности backblaze.com, поскольку для многих задач ИИ высокая точность не обязательна для получения точных результатов. Хотя «TPU» технически относится к чипам Google, этот термин иногда используется шире — для любого «тензорного» ускорителя. Примечательно, что Google также выпускает Edge TPU — сопроцессоры для ИИ на устройствах, например, в Coral Dev Board, обеспечивающие 4 триллиона операций в секунду при потреблении всего нескольких ватт coral.ai.

Кратко: и NPU, и TPU — это кремниевые ускорители для ИИ, но NPU обычно встроены в мобильные/периферийные устройства для эффективного вывода на устройстве, тогда как TPU (в строгом смысле) — это высокопроизводительные чипы (а теперь и модули) в основном от Google, изначально предназначенные для обучения и вывода в облаке/дата-центре. Оба типа отходят от традиционных архитектур CPU/GPU, чтобы отдавать приоритет параллельным математическим операциям для нейросетей. Как выразился один технический редактор, «TPU идут дальше в специализации, фокусируясь на тензорных операциях для достижения большей скорости и энергоэффективности… NPU распространены в устройствах с поддержкой ИИ, таких как смартфоны и IoT-гаджеты» backblaze.com.

Чем NPU и TPU отличаются от CPU и GPU?

Традиционные ЦП (центральные процессоры) — это «мозг» общего вычисления, оптимизированный для гибкости и способный выполнять самые разные задачи: от работы операционной системы до просмотра веб-страниц. У них есть несколько мощных ядер, которые отлично справляются с последовательной логикой и разнообразными инструкциями, но они не подходят для высокопараллельных математических вычислений, необходимых для глубокого обучения techtarget.com. Когда ЦП просят обработать большую нейронную сеть, он часто становится узким местом, пытаясь выполнить миллионы умножений и сложений последовательно или в ограниченных параллельных пакетах. Это приводит к высокой задержке и энергопотреблению (так называемое узкое место фон Неймана, связанное с передачей большого объема данных между ЦП и памятью) backblaze.com. ЦП могут выполнять некоторую работу по ИИ (особенно с более простыми или небольшими моделями, либо управляющую логику для ИИ-программ techtarget.com), но, как правило, им сложно эффективно масштабироваться под современные требования ИИ к масштабной параллельной линейной алгебре.

ГПУ (графические процессоры) вывели параллельные вычисления на первый план. Изначально созданные для рендеринга изображений путем выполнения множества простых операций параллельно над пикселями и вершинами, ГПУ оказались хорошо подходящими для обучения нейронных сетей, что также связано с применением одних и тех же математических операций (скалярных произведений и т.д.) к большому объему данных одновременно techtarget.com. ГПУ содержит сотни или тысячи небольших ядер, способных выполнять вычисления параллельно. Это делает ГПУ отличным выбором для масштабного ИИ, и на протяжении 2010-х годов ГПУ (особенно NVIDIA с программным обеспечением CUDA) стали рабочей лошадкой исследований в области глубокого обучения. Однако ГПУ все же остаются в некоторой степени универсальными — им приходится выполнять различные графические задачи и сохранять гибкость, поэтому они не на 100% оптимизированы для нейросетей. Они также потребляют много энергии и требуют тщательного программирования для полной загрузки (им не нравятся сложные ветвящиеся коды, и они лучше всего работают с оптимизированными, параллельными по данным задачами) techtarget.com.

NPU и TPU идут ещё дальше в специализации. Они созданы специально для только нейросетевых вычислений. Это значит, что их архитектура может исключить всё, что не нужно для AI-математики, и выделить больше кремния для таких вещей, как блоки умножения матриц, сумматоры-аккумуляторы и встроенная память для быстрой передачи данных в эти вычислительные блоки и обратно. Например, Google Cloud TPU по сути представляет собой огромную двумерную матрицу MAC (умножение-накопление) с продуманной архитектурой потоков данных (систолическая матрица), которая подаёт им операнды на высокой скорости backblaze.com. Здесь нет кэшей, спекулятивного исполнения или других функций CPU — всё оптимизировано под матричную математику. NPU в мобильных чипах аналогично интегрируют выделенные ядра нейронного движка рядом с CPU/GPU. Эти ядра часто используют арифметику с низкой точностью (например, 8-битные целые числа, как у TPU) и выполняют высокопараллельные вычисления “слой за слоем” для сверточных нейронных сетей. NPU может использовать “гибридную” архитектуру, объединяющую скалярные, векторные и тензорные блоки (так реализовано в Hexagon NPU от Qualcomm) для эффективной обработки различных операций нейросетей futurumgroup.com.

Ключевые различия сводятся к следующему:

  • Набор инструкций и гибкость: CPU имеют широкий универсальный набор инструкций (могут делать многое, но не всё одновременно). GPU имеют более ограниченный, но всё ещё гибкий набор инструкций, оптимизированный для массовых математических вычислений. NPU/TPU имеют очень узкий набор инструкций — по сути, только те операции, что нужны для нейросетей (умножение матриц, свёртки, функции активации), часто реализованные как фиксированные конвейеры или массивы fuse.wikichip.org. Например, NPU для автопилота Tesla имеет всего 8 инструкций в своём ISA, сосредоточенных на DMA-чтении/записи и скалярных произведениях fuse.wikichip.org.
  • Параллелизм и ядра: ЦП — несколько мощных ядер; ГП — тысячи простых ядер; NPU/TPU — в некотором смысле, десятки тысяч очень простых АЛУ (MAC-устройств), структурированных в виде матрицы или нейросети. Один чип NPU может выполнять десятки триллионов операций в секунду — автомобильный NPU Tesla работает на частоте 2 ГГц с 9 216 MAC, достигая ~37 тера-операций в секунду (TOPS) на ядро, и каждый чип FSD имеет два NPU, что даёт ~74 TOPS fuse.wikichip.org, ts2.tech. Для сравнения, высокопроизводительный ЦП может достигать лишь нескольких сотен миллиардов оп/сек на AI-задачах, а ГП — возможно, нескольких TOPS, если не использовать специальные тензорные ядра.
  • Архитектура памяти: NPU/TPU используют быструю встроенную память и потоковую обработку данных. TPU избегают классического узкого места памяти, используя систолический поток данных — каждый маленький блок передаёт данные следующему синхронно, минимизируя обращения к основной памяти backblaze.com. Многие NPU включают блоки SRAM на кристалле для хранения весов/активаций (например, ядра NPU Tesla имеют по 32 МБ SRAM для локального хранения данных нейросети) semianalysis.com. Это отличается от ГП/ЦП, которые активно используют внешнюю DRAM.
  • Точность: ЦП/ГП обычно используют 32- или 64-битные числа с плавающей запятой для вычислений. AI-ускорители часто применяют 16- или 8-битные целые числа (а некоторые уже исследуют 4- или даже 2-битные), потому что нейросети допускают пониженную точность. Разработчики TPU Google прямо отмечали, что для инференса не нужна полная точность с плавающей запятой, аналогично тому, как “вам не нужно знать точное количество капель дождя, чтобы понять, что идёт сильный дождь” backblaze.com. Это позволяет NPU/TPU выполнять больше операций параллельно и тратить меньше энергии на каждую операцию.
  • Сценарии использования: ГП всё ещё широко применяются для обучения больших моделей и для гибких вычислений (и они распространены в дата-центрах и мощных ПК). TPU (облако) ориентированы на крупномасштабное обучение и инференс в экосистеме Google. NPU чаще встречаются в пограничных устройствах — смартфонах, камерах, бытовой технике — выполняя инференс на уже обученных моделях. Они особенно эффективны в задачах вроде применения модели компьютерного зрения к кадру с камеры в реальном времени или постоянного обнаружения ключевого слова голосового помощника при низком энергопотреблении. Как отмечает TechTarget: «ГП выбирают за доступность и экономичность во многих ML-проектах; TPU обычно быстрее и менее точны, используются компаниями в Google Cloud; NPU часто встречаются в edge/мобильных устройствах для значительно более быстрой локальной обработки» techtarget.com.

Вкратце, CPU = универсальные организаторы, GPU = параллельные рабочие лошадки, TPU/NPU = специалисты по нейросетям. Все могут работать вместе – на самом деле, в современном устройстве с поддержкой ИИ процессор часто координирует задачи и при необходимости передает ресурсоемкие вычисления на NPU/GPU techtarget.com. Такая тенденция к специализации существует потому, что универсальные решения больше не подходят для всех задач в вычислениях: как заметил один редактор, «добавлять миллионы транзисторов для каждой задачи оказалось неэффективно… дизайнеры перешли к специализированным процессорам» techtarget.com. Специализированные NPU и TPU значительно ускоряют вычисления ИИ при низком энергопотреблении – это критически важно как для устройств на батарейках, так и для серверов высокой плотности.

Зачем нужен ИИ на устройстве? (Edge vs. Cloud)

Зачем вообще запускать ИИ на телефоне или в автомобиле – почему бы не отправлять все в облако, где мощные серверы (с GPU/TPU) выполнят всю тяжелую работу? Есть несколько веских причин, по которым происходит переход к on-device AI, и все они сводятся к скорости, приватности, стоимости и надежности nimbleedge.com:

  • Мгновенный отклик (низкая задержка): NPU на устройстве может обрабатывать данные в реальном времени без задержки на отправку данных на облачный сервер и обратно. Это критично для интерактивных или связанных с безопасностью задач ИИ. Например, система автономного вождения автомобиля с бортовыми NPU может распознать пешехода и затормозить немедленно, за миллисекунды, а не ждать вычислений в облаке. Умная камера с NPU может обнаружить злоумышленника в тот момент, когда он появляется в кадре. На вашем телефоне ИИ на устройстве означает, что голосовой помощник реагирует быстрее и естественнее, потому что ему не нужно постоянно «звонить домой». Снижение задержки обеспечивает действительно мгновенное принятие решений и более плавный пользовательский опыт nimbleedge.com.
  • Конфиденциальность и безопасность данных: AI на устройстве хранит ваши данные локально. Вместо того чтобы отправлять аудио с микрофона или видеопоток с камеры в облако для анализа, обработка происходит прямо на устройстве. Это значительно снижает риск утечки конфиденциальных данных. Например, современные смартфоны выполняют распознавание лиц (Face ID и др.) полностью на устройстве — биометрическая карта вашего лица никогда не покидает защищённую область телефона. Аналогично, AI-слуховой аппарат или носимый медицинский гаджет могут анализировать биометрические данные без загрузки их на сервер, сохраняя приватность. С учётом растущих опасений пользователей и требований к суверенитету данных, это большое преимущество. Как отмечает один блог об edge AI, обработка на устройстве означает, что «пользовательские данные не нужно передавать в облако», что обеспечивает базовый уровень приватности nimbleedge.com. (Конечно, конфиденциальность не гарантируется автоматически — разработчикам всё равно нужно аккуратно обращаться с хранимыми данными — но доверять устройствам, которые не отправляют ваши данные наружу, проще.) Технические директора часто подчеркивают этот аспект. Генеральный директор Qualcomm Кристиано Амон отметил, что сочетание облачного и локального интеллекта может повысить персонализацию при сохранении безопасности данных на устройстве — он называет это «гибридным будущим», где AI на устройстве сотрудничает с облачным AI для достижения наилучших результатов moomoo.com.
  • Доступность и надёжность в офлайн-режиме: Устройства с NPU/TPU не зависят от подключения к сети. Они могут работать в метро, в самолёте, в отдалённых сельских районах или при сбоях сети. Это очень важно для надёжности. Функция голосового ввода на устройстве будет работать даже без сигнала. Дрон с бортовым AI для компьютерного зрения сможет избегать препятствий даже вне сети. Такая независимость критична и для систем с критически важными задачами: например, для роботов для ликвидации последствий катастроф или медицинских устройств, которые не могут рассчитывать на постоянное интернет-соединение. «Офлайн-функциональность» — ключевое преимущество AI на устройстве nimbleedge.com — это гарантирует, что функция AI будет доступна всегда и везде, где это необходимо.
  • Экономическая эффективность при масштабировании: Постоянная отправка необработанных данных в облако для AI-обработки может быть очень дорогой (облачные вычисления не бесплатны) и требовать большого объёма трафика. По мере распространения AI-функций компаниям пришлось бы платить огромные счета за облачные вычисления, если бы каждая мелкая задача отправлялась на сервер. Выполняя больше задач на устройстве, они снижают нагрузку на облачные серверы и уменьшают сетевой трафик. Часто выгоднее потратить немного больше на лучший чип в устройстве, чем платить за гигабайты облачных вычислений на протяжении всего срока службы устройства. Аналитика Futurum отмечает, что обработка на устройстве помогает решить проблемы масштабирования и стоимости генеративного AI — она «распределяет» нагрузку, чтобы дата-центры не были перегружены (и пользователи/разработчики не платили огромные суммы за облачное время GPU) futurumgroup.com.
  • Персонализация и контекст: Новая причина: встроенный ИИ может учиться и адаптироваться к локальному контексту так, как облачный ИИ не всегда может. Ваш смартфон может поддерживать небольшую локальную модель, которая изучает ваш стиль переписки для лучшей автокоррекции, не отправляя эту личную языковую модель в облако. Устройства могут объединять данные с нескольких датчиков в реальном времени (что проще делать локально, чем передавать множество потоков данных в облако). Это позволяет создать более персонализированный и контекстно-осведомленный опыт. Некоторые функции, такие как федеративное обучение, даже позволяют устройствам совместно улучшать ИИ-модели без загрузки необработанных данных (отправляя только небольшие обновления весов).
  • Регулирование и суверенитет данных: Законы, такие как европейский GDPR и различные требования к локализации данных, все чаще требуют, чтобы определенные данные (особенно персональные или чувствительные) не отправлялись за границу или третьим лицам без согласия. Встроенный ИИ позволяет соблюдать эти требования, обрабатывая данные на месте. Например, инструменты ИИ для медицинской визуализации могут работать на оборудовании больницы (edge-серверах с NPU), чтобы данные пациентов никогда не покидали учреждение, что соответствует требованиям конфиденциальности. В отчете NimbleEdge за 2025 год отмечается, что правительства настаивают на большем количестве локальных вычислений для обеспечения суверенитета и соблюдения норм nimbleedge.com.

Все эти факторы приводят к смене парадигмы: вместо подхода «cloud-first» для ИИ компании теперь разрабатывают ИИ-функции по принципу «device-first», когда это возможно. Как резюмировал вице-президент по ИИ Qualcomm Дурга Маллади: «Чтобы эффективно масштабировать генеративный ИИ для массового использования, ИИ должен работать как в облаке, так и на устройствах на периферии… таких как смартфоны, ноутбуки, автомобили и IoT-устройства» iconnect007.com. Мы переходим к гибридному миру ИИ, где тяжелое обучение и крупные модели остаются в облаке, но многие задачи вывода и персональные ИИ-опыты выполняются локально на NPU/TPU в ваших руках и домах. На самом деле, Амон называет это «переломным моментом в ИИ» — локальный вывод без задержек, где «будущее ИИ — персональное», потому что оно работает прямо там, где вы находитесь x.com.

Встроенный ИИ в действии: от смартфонов до беспилотных автомобилей

Специализированные ИИ-чипы уже встроены во множество устройств вокруг вас, зачастую незаметно делая их умнее. Вот основные области, где используются NPU и edge TPU:

  • Смартфоны и планшеты: Практически все современные флагманские телефоны (и даже многие устройства среднего класса) теперь оснащены NPU или выделенным ИИ-движком. Apple запустила эту тенденцию в 2017 году с Apple Neural Engine в чипе iPhone A11, что позволило реализовать Face ID и Animoji прямо на устройстве, выполняя до 600 миллиардов операций в секунду apple.fandom.com. Сегодня чип Apple A17 Pro (2023) оснащён 16-ядерным Neural Engine, способным выполнять 35 триллионов операций в секунду apple.fandom.com. Это обеспечивает работу таких функций, как продвинутое определение сцен камерой, стили фотографий, обработка голосовых команд Siri офлайн, автокоррекция, живые транскрипции и даже запуск трансформерных моделей для перевода прямо на устройстве. У смартфонов Google Pixel также есть собственные чипы (“Google Tensor” SoC) с NPU: последний Tensor G3 в Pixel 8 был «специально разработан для запуска ИИ-моделей Google», с обновлением всех частей чипа (CPU, GPU, ISP) для внедрения генеративного ИИ на устройстве blog.google. Pixel 8 может запускать новейшие модели Google для преобразования текста в речь и перевода локально, те же, что раньше работали только в дата-центрах blog.google. Он также выполняет сложные трюки с камерой, такие как «Best Take» для объединения групповых фото и Audio Magic Eraser, используя набор ИИ-моделей прямо на устройстве blog.google. Samsung и другие производители Android используют чипсеты Qualcomm Snapdragon, последние NPU которых (Hexagon AI engine) могут даже запускать большие языковые модели на телефоне – Qualcomm продемонстрировала запуск LLM с 10 миллиардами параметров и даже генерацию изображений Stable Diffusion на телефоне с Snapdragon 8 Gen 3 futurumgroup.com. ИИ-движок этого чипа на 98% быстрее предыдущего поколения и поддерживает точность INT4 для эффективности futurumgroup.com. Практический итог: ваш телефон 2024 года может делать такие вещи, как суммирование статей, ответы на вопросы или редактирование фото с помощью ИИ без необходимости подключения к облаку. Даже функции доступности выигрывают: например, на Pixel теперь есть голосовой ввод, живые субтитры и ожидается функция описания изображений для незрячих пользователей с помощью локальной модели.
  • Умные камеры и системы безопасности: Камеры с поддержкой ИИ используют встроенные NPU для мгновенного обнаружения людей, лиц, животных или подозрительного поведения. Например, новейшие камеры видеонаблюдения EnGenius оснащены встроенной NPU, которая выполняет обнаружение объектов и преобразует видео в метаданные прямо на камере, устраняя необходимость в отдельном видеорегистраторе и повышая уровень безопасности (так как видео можно анализировать и хранить локально) engeniustech.com. Это означает, что ваша камера безопасности может определить «человек присутствует» или «посылка доставлена» и отправить только это уведомление, вместо того чтобы передавать часы видеозаписей в облако. Аналогично, потребительские устройства, такие как Google Nest Cam IQ, имели встроенный чип для компьютерного зрения (Google Edge TPU) для распознавания знакомых лиц и различения людей и домашних животных в поле зрения. В зеркальных и беззеркальных камерах также появляются AI-процессоры для таких функций, как отслеживание объекта, автофокус по глазу и оптимизация сцены в реальном времени. В дронах встроенные AI-чипы помогают избегать препятствий и осуществлять визуальную навигацию без необходимости дистанционного управления. Особенно стоит отметить, что Google’s Edge TPU (миниатюрный ASIC-модуль) стал популярным дополнением для DIY и промышленных IoT-камер – он обеспечивает 4 TOPS вычислительной мощности для задач компьютерного зрения, таких как обнаружение людей или считывание номерных знаков, при этом потребляя всего ~2 ватта coral.ai.
  • Умный дом и IoT-устройства: Помимо телефонов, многие гаджеты для умного дома оснащаются мини-NPU. Голосовые колонки (Amazon Echo, Google Nest Hub и др.) теперь часто включают чипы для локального распознавания речи. Amazon разработала AZ1 Neural Edge processor для устройств Echo, чтобы ускорить обнаружение ключевого слова Alexa и ответы на самом устройстве, сократив задержку вдвое embedl.com. AZ1 (созданный совместно с MediaTek) запускает нейросеть, которая распознает «Alexa» и обрабатывает простые команды без обращения к облаку embedl.com. Это не только делает Alexa быстрее, но и обеспечивает большую приватность голосовых данных. Аналогично, многие новые телевизоры, бытовая техника и даже игрушки имеют некоторый ИИ на устройстве – например, камера умного холодильника может локально определять продукты и сроки их годности. Носимые устройства также заслуживают упоминания: чип S9 в Apple Watch добавил 4-ядерный Neural Engine для более эффективной работы алгоритмов здоровья и обработки запросов Siri прямо на часах apple.fandom.com. А в промышленности IoT-датчики с NPU могут выполнять обнаружение аномалий в данных оборудования прямо на месте, передавая только важные события (экономя трафик и быстрее реагируя на проблемы).
  • Автомобили (ADAS и автономность): Автомобили превратились в центры искусственного интеллекта на колесах. Передовые системы помощи водителю (ADAS) и функции автономного вождения полагаются на комплекс встроенных AI-ускорителей для интерпретации видеопотоков с камер, LiDAR, радара и принятия решений за доли секунды. Tesla прославилась тем, что разработала собственный FSD (Full Self-Driving) Computer с двумя NPU-чипами. Чип FSD от Tesla (HW3, представлен в 2019 году) обеспечивал 144 TOPS (два NPU по 72 TOPS каждый); более новая версия HW4 (2023) увеличила этот показатель примерно до 200–250 TOPS в сумме (два 7-нм NPU примерно по 100+ TOPS каждый) ts2.tech. Это позволяет автомобилю одновременно обрабатывать видео в полном разрешении с 8 камер, данные с сонара и т.д. через нейронные сети для восприятия, а также запускать некоторые языковые модели для голосовых команд — всё локально внутри модуля автомобиля. Конкурирующие платформы, такие как NVIDIA Drive и Qualcomm Snapdragon Ride, также интегрируют NPU. Последний автомобильный суперкомпьютерный чип NVIDIA, Drive Thor, который планируется для автомобилей 2025 года, может похвастаться до 1 000 TOPS на одном чипе (и 2 000 TOPS при парной работе двух чипов) для поддержки автономности 4 уровня ts2.tech. Он объединяет GPU, CPU и специализированные ускорители глубокого обучения, чтобы обрабатывать всё — от распознавания дорожных знаков до AI-мониторинга водителя прямо на чипе ts2.tech. Эти NPU буквально спасают жизни: автономный автомобиль не может ждать ответа от облачных серверов, если на дорогу выбежал ребёнок. Встроенный AI должен увидеть и среагировать за десятки миллисекунд. Помимо легковых автомобилей, edge AI активно используется и в автономных дронах, роботах-доставщиках и промышленных транспортных средствах, которые ориентируются и принимают решения с помощью встроенных NPU/TPU (например, роботы-доставщики Nuro и многие системы автономных грузовиков используют AI-чипы NVIDIA или Huawei прямо на устройстве).
  • Edge Computing и промышленность: На заводах и в корпоративных средах ИИ на устройствах часто реализуется в виде edge-серверов или шлюзов с AI-ускорителями. Вместо отправки видеопотоков с камер или данных с датчиков в облако, компании устанавливают edge-боксы (иногда на базе GPU, иногда на базе NPU/FPGA) на своей территории. Они обрабатывают задачи, такие как видеоналитика в реальном времени для контроля качества на производственной линии, обнаружение дефектов с помощью AI-визуализации за микросекунды. Еще один пример — медицинские устройства: портативный УЗИ-аппарат или МРТ может иметь NPU для анализа изображений на устройстве, чтобы врачи получали мгновенную диагностическую помощь без необходимости подключения к интернету (что также лучше для конфиденциальности данных пациентов). Ритейл и города тоже внедряют ИИ на периферии — например, умные дорожные камеры с NPU для анализа пробок и регулировки светофоров или камеры на полках магазинов для отслеживания запасов. Многие из них используют специализированные NPU, такие как Intel Movidius Myriad, Edge TPU от Google или новые решения, например Hailo-8 (израильский NPU, обеспечивающий 26 TOPS при нескольких ваттах для камер). Общая идея — эти ускорители позволяют проводить анализ локально, достигая результатов в реальном времени и передавая по сетям только итоговые инсайты (а не сырые данные).

Универсальность NPU/TPU на разных типах устройств впечатляет. В один момент они позволяют вашему телефону размывать фон на фото с помощью ИИ, а в следующий — управляют дроном или анализируют медицинские изображения. Камеры смартфонов теперь используют NPU для таких функций, как Ночной режим (интеллектуальное объединение нескольких кадров), портретный режим с эффектом боке, распознавание сцен (телефон понимает, что вы снимаете «закат», и оптимизирует цвета с помощью ИИ), а также для развлекательных AR-эффектов (Animoji, отслеживающие ваше лицо, или фильтры Snapchat, отслеживающие движения — всё благодаря нейросетям на устройстве). Биометрия использует NPU: сканеры отпечатков пальцев с ИИ для определения «живости», разблокировка по лицу с датчиками глубины и ИИ. Аудио тоже используют их: шумоподавление в наушниках и телефонах теперь часто реализовано на базе ИИ, где NPU в реальном времени отделяет голос от фонового шума.

Конкретный пример инноваций 2024 года: Oppo (производитель смартфонов) в партнерстве с MediaTek объявила о внедрении Mixture-of-Experts (MoE) AI-модели прямо на устройстве в конце 2024 года — по сообщениям, впервые в телефоне grandviewresearch.com. Эта продвинутая архитектура нейросети (MoE) может повысить производительность, активируя только релевантные «экспертные» подсети для каждой задачи, а выполнение этого на устройстве позволяет смартфонам Oppo быстрее обрабатывать ИИ-задачи и эффективнее расходовать энергию при сложных вычислениях без помощи облака grandviewresearch.com. Это подчеркивает, как даже передовые ИИ-исследования быстро внедряются в наши карманные устройства благодаря улучшенным NPU.

Внутри AI-чипов 2025 года: последние разработки от Apple, Google, Qualcomm и других

Гонка за создание лучшего аппаратного обеспечения для ИИ на устройствах резко ускорилась. Вот что крупные компании представили недавно (2024–2025) в области NPU/TPU и AI-микросхем:

  • Apple: Стратегия Apple по созданию собственных чипов давно делает акцент на машинном обучении непосредственно на устройстве. Каждый год Neural Engine от Apple становится мощнее. В iPhone 15 Pro 2023 года Neural Engine чипа A17 Pro достиг 35 TOPS (триллионов операций в секунду) с 16 ядрами apple.fandom.com. Это вдвое больше пропускной способности NPU в A16, и Apple использовала это для таких функций, как распознавание речи для Siri на устройстве (наконец-то многие запросы Siri обрабатываются без интернета) и новые возможности камеры (например, автоматический захват портретного режима и живой перевод текста через камеру). Чипы Apple 2024 года продолжили эту тенденцию: семейство M3 для Mac (конец 2023 года) получило обновленный Neural Engine (интересно, что он настроен на 18 TOPS для базового чипа M3, с акцентом на эффективность) apple.fandom.com. В 2024 году Apple представила чип M4 (для топовых iPad/Mac, середина 2024 года), который, по сообщениям, увеличил Neural Engine до 38 TOPS на усовершенствованном 3-нм техпроцессе apple.fandom.com. Но дело не только в цифрах — Apple активно использует этот NPU: такие функции, как Personal Voice (создает клон голоса пользователя после 15 минут обучения), работают приватно на Neural Engine в iPhone, а Live Voicemail — расшифровка голосовой почты происходит локально. Apple также интегрировала NPU во все классы устройств — даже в AirPods Pro есть миниатюрный нейрочип для Adaptive Audio. Руководители Apple часто подчеркивают аспект приватности: «машинное обучение на вашем устройстве» означает, что ваши данные остаются у вас. К 2025 году ожидается, что Neural Engine от Apple может еще расшириться или стать доступным для сторонних приложений новыми способами (уже сейчас Core ML позволяет разработчикам его использовать, но Apple может открыть больше нейронных API). Также ходят слухи, что Apple разрабатывает отдельный AI-ускоритель для будущих очков или автомобилей, но текущие продукты показывают, что компания предпочитает интегрированные NPU в своих SoC серий A и M.
  • Google: Google не только стала пионером облачных TPU, но и сделала ставку на on-device AI для телефонов Pixel и потребительских устройств. Google Tensor SoC (впервые представлен в 2021 году в Pixel 6) был уникален тем, что Google, известная облачными решениями, создала чип для телефона, чтобы запускать ИИ на самом устройстве. К Tensor G3 (в Pixel 8 2023 года) Google подчеркнула улучшения, позволяющие запускать генеративный ИИ на устройстве. Google прямо заявила, что чип Pixel 8 приносит «исследования Google AI напрямую в наши новейшие телефоны» blog.google. Новое поколение TPU в Tensor G3 (Google до сих пор называет ядро ИИ «TPU» внутри компании) позволяет Pixel запускать продвинутые модели, такие как Palm 2 или Gemini Nano (облегчённые версии крупных языковых моделей Google) прямо на устройстве для таких функций, как суммирование веб-сайтов или улучшение голосового ввода reddit.com. Одна из главных функций: Pixel 8 может локально запускать лучшую модель преобразования текста в речь от Google (ту же, что используется в дата-центре), что позволяет телефону читать веб-страницы вслух естественными голосами и даже переводить их в реальном времени, полностью офлайн blog.google. Google также использует TPU в Pixel для фотографии («HDR+» многокадровая съёмка, Magic Eraser — удаление объектов с помощью AI-inpainting blog.google), для безопасности (разблокировка по лицу на устройстве с помощью ИИ теперь считается достаточно надёжной для платежей blog.google), и для речи (Ассистент, который не обращает внимания на ваши «эээ»). Помимо телефонов, Google предлагает Coral Dev Board и USB-стик для энтузиастов и предприятий, чтобы добавить Edge TPU в свои проекты, каждый из которых содержит Edge TPU от Google, обеспечивающий 4 TOPS для задач компьютерного зрения при очень низком энергопотреблении coral.ai. Он используется и в некоторых продуктах Google, например, в Nest Hub Max для распознавания жестов. Для Google интеграция TPU на периферии — часть более широкой стратегии: Сундар Пичаи (гендиректор Google) говорил, что будущее ИИ — это расширение каждого опыта, и очевидно, что Google считает: «чтобы принести преобразующую силу ИИ в повседневную жизнь, нужно иметь к нему доступ с устройства, которым вы пользуетесь каждый день» blog.google — отсюда и чипы Tensor. Можно ожидать Tensor G4 в телефонах Pixel конца 2024 года, возможно, на новом техпроцессе Samsung или TSMC, с ещё более высокой производительностью и эффективностью ИИ, возможно, даже с поддержкой мультимодального ИИ на устройстве (объединение моделей зрения и языка).
  • Qualcomm: Ведущий поставщик мобильных чипов для Android-смартфонов активно продвигает свой AI Engine в серии Snapdragon. Snapdragon 8 Gen 2 (конец 2022 года) представил выделенную поддержку INT4 и продемонстрировал генерацию изображений со стабильной диффузией в реальном времени на телефоне. Snapdragon 8 Gen 3 (анонсирован в конце 2023 года, в флагманских телефонах 2024 года) — это значительный скачок: Qualcomm заявляет, что их Hexagon NPU на 98% быстрее, чем у Gen 2, и на 40% энергоэффективнее futurumgroup.com. Этот чип может запускать большие языковые модели с числом параметров до 10 миллиардов полностью на устройстве, обрабатывая примерно 20 токенов в секунду — этого достаточно для простых разговоров с AI-ассистентом без облака futurumgroup.com. Также на демонстрациях был достигнут “самый быстрый в мире Stable Diffusion” для генерации изображений на мобильном устройстве futurumgroup.com. Qualcomm открыто заявляет, что генеративный AI на устройстве — ключевое преимущество новых телефонов. Например, они сотрудничали с Meta для оптимизации открытого Llama 2 LLM для Snapdragon, чтобы к 2024 году вы могли запускать чат-бот AI прямо на своем телефоне iconnect007.com. (Один из руководителей Qualcomm сказал: «мы приветствуем открытый подход Meta… чтобы масштабировать генеративный AI, он должен работать и в облаке, и на периферии», что подчеркивает философию edge AI iconnect007.com.) Помимо телефонов, Qualcomm внедряет NPU в чипы для ноутбуков (платформы Snapdragon для Windows на ARM), а их автомобильная платформа Snapdragon Ride использует те же AI-ядра, обеспечивая до 30 TOPS для ADAS, с дорожной картой до сотен TOPS. В 2025 году Qualcomm даже анонсировала новый Snapdragon X Elite CPU для ПК с мощным NPU, что свидетельствует о намерении конкурировать с Apple и Intel по AI-производительности в персональных компьютерах. С ростом AI на устройстве Qualcomm даже начинает называть некоторые телефоны “AI-телефонами”. Компания прогнозирует, что многие приложения (от фотографии до мессенджеров и продуктивности) будут использовать NPU. На стороне ПО Qualcomm выпустила Qualcomm AI Stack для унификации поддержки популярных фреймворков (TensorFlow Lite, PyTorch, ONNX) на своих NPU iconnect007.com — чтобы упростить разработчикам использование AI-аппаратуры без глубоких знаний о чипах.
  • MediaTek: Второй по величине производитель мобильных чипов (известный серией Dimensity) также обновил свои NPU. MediaTek называет свои AI-движки «APU» (AI Processing Unit — блок обработки искусственного интеллекта). Например, Dimensity 9200+ (2023) оснащён APU шестого поколения с заметным приростом производительности по сравнению с предыдущим чипом, что позволяет реализовать такие функции, как стабильная диффузия на устройстве и AI-шумоподавление в видео. В 2024 году MediaTek анонсировала Dimensity 9400, и в партнёрстве с Oppo они использовали свою продвинутую архитектуру NPU для внедрения новых AI-функций (как уже упоминалось, AI-ремастеринг фото с удалением отражений и размытия в Oppo Find X8 работает на базе NPU MediaTek) mediatek.com. Руководители MediaTek открыто позиционируют себя в авангарде AI на устройствах. Как выразился Уилл Чен из MediaTek, «будущее искусственного интеллекта выходит за пределы облака; оно движимо edge-вычислениями прямо у вас в ладони». По их мнению, AI на телефонах должен быть быстрым, приватным, безопасным и всегда доступным mediatek.com. MediaTek даже создала «APU-центричное» сотрудничество с Meta для поддержки Llama-фреймворков, а также с производителями устройств, такими как Oppo и Xiaomi, с акцентом на AI-камеру и AI-голосовые функции. К 2025 году MediaTek планирует внедрять эти NPU не только в телефоны, но и в умные телевизоры (для AI-апскейлинга и улучшения изображения), IoT-устройства, и даже автомобили (у MediaTek есть автомобильная AI-платформа, и компания сотрудничает с Nvidia для интеграции Nvidia GPU IP в автомобили, предположительно предоставляя при этом собственный NPU для сенсорного AI).
  • Intel: 2024 год ознаменовал вход Intel в сферу AI-ускорителей на массовых ПК. 14-е поколение процессоров Intel Core (Meteor Lake, выпущенное в декабре 2023 года и переименованное в Core Ultra в 2024 году) стало первым x86-процессором для ПК со встроенным нейропроцессорным модулем (NPU). NPU Meteor Lake (иногда называемый VPU – Vision Processing Unit – на базе технологии Intel Movidius) обеспечивает примерно 8–12 TOPS AI-производительности pcworld.com. Это используется для ускорения AI-функций Windows 11, таких как размытие фона, зрительный контакт во время видеозвонков, а также может использоваться приложениями для локальной транскрипции, подавления шума или даже небольших AI-ассистентов. Microsoft и Intel совместно продвигают концепцию “AI ПК”. Intel утверждает, что эти NPU будут установлены в десятках миллионов ноутбуков в 2024 году pcworld.com. После Meteor Lake в дорожной карте Intel упоминается Arrow Lake (для настольных ПК в 2024 году), который также включает NPU (около 13 TOPS, немного улучшенный) pcworld.com. Интересно, что первая попытка Intel создать настольный NPU была фактически превзойдена AMD (см. ниже), и Intel решила использовать скромный дизайн NPU, чтобы не жертвовать площадью GPU/CPU в чипах для энтузиастов pcworld.com. Но к концу 2024 года Intel дала понять, что будущие чипы Lunar Lake будут иметь гораздо более мощный NPU (~45 TOPS), чтобы соответствовать требованиям Microsoft “Copilot” pcworld.com. Всё это указывает на то, что Intel рассматривает AI как обязательную функцию для ПК в будущем – не для обучения огромных моделей, а для ускорения повседневных AI-опытов (от улучшений офисных пакетов до креативных инструментов с использованием локального AI). Intel также продаёт edge AI-ускорители, такие как Intel Movidius Myriad (используются в некоторых дронах, камерах) и Habana ускорители для серверов, но интегрированный NPU Meteor Lake – это важный этап, приближающий AI к массовым потребительским устройствам.
  • AMD: AMD начала внедрять AI на устройствах примерно в то же время. Её процессоры для ноутбуков серии Ryzen 7040 (Phoenix), выпущенные в 2023 году, были оснащены первым Ryzen AI Engine – по сути, интегрированным XDNA NPU (технология, полученная после приобретения Xilinx компанией AMD). Этот NPU обеспечивал до 10 TOPS на мобильном чипе en.wikipedia.org. AMD рекламировала такие сценарии использования, как видеозвонки с поддержкой AI, приложения для повышения производительности и так далее, аналогично целям Intel. Затем AMD ненадолго выпустила настольную серию Ryzen 8000 (начало 2024 года) с NPU, достигающим 39 TOPS – очень высокий показатель для AI-блока универсального процессора, даже превосходящий планы Intel pcworld.com. Однако AMD быстро изменила курс и пропустила одно поколение, сосредоточившись на следующей архитектуре (в последующем Ryzen 9000, выпущенном в конце 2024 года, NPU был убран в пользу улучшения ядер) pcworld.com. Тем не менее, ожидается, что AMD вернёт NPU в будущих чипах для ПК (скорее всего, это временный шаг назад, пока они работают над интеграцией мощного AI-движка без ущерба для других характеристик). Со стороны продуктов, NPU от AMD могут открыть интересные возможности, поскольку у AMD также сильные GPU – их комбинация может совместно обрабатывать AI-нагрузки (часть на NPU, часть на GPU). AMD также внедряет AI-ядра в свои адаптивные (на базе FPGA) SoC и автомобильные чипы. В итоге, к 2025 году все производители x86-чипов для ПК приняли NPU, что соответствует тому, что сделали смартфоны несколькими годами ранее, и указывает на то, что ускорение AI становится стандартной функцией во всех сегментах.
  • Другие: Ряд специализированных чиповых компаний и других технологических фирм также внедряют инновации в области NPU. NVIDIA, известная своими GPU, теперь включает выделенные Tensor Cores в свои GPU и предлагает открытый дизайн NVDLA (ускоритель глубокого обучения) для интеграции в продукты System-on-Chip. В edge-устройствах, таких как серия NVIDIA Jetson (используется в роботах, дронах, встраиваемых системах), есть как GPU, так и специализированные “DLA” — по сути, NPU — которые разгружают часть инференса нейросетей с GPU. Например, модуль NVIDIA Orin имеет 2 DLA в дополнение к своему GPU, что обеспечивает 254 TOPS AI-производительности для автомобилей ts2.tech. Apple, по слухам, работает над еще более продвинутыми AI-сопроцессорами или большими нейронными движками для своих AR-очков или будущих проектов, хотя детали держатся в секрете. Huawei (несмотря на геополитические трудности) продолжает разрабатывать мобильные чипы Kirin с NPU (их архитектура “DaVinci” NPU), а также серверные NPU в своих чипах Ascend AI — по сообщениям, их чип Kirin 9000S 2023 года сохраняет мощный NPU для задач обработки изображений и языка на их телефонах. Мы также видим стартапы, такие как Hailo, Mythic, Graphcore и другие, предлагающие собственные edge AI-чипы: например, Hailo-8, как уже упоминалось (26 TOPS в mini PCIe-карте для AI-камер), IPU от Graphcore для дата-центров (не совсем on-device, но новая архитектура для нейросетей), Mythic работает над аналоговыми NPU и т.д. ARM, чьи разработки лежат в основе большинства мобильных чипов, предлагает серию Ethos NPU (например, Ethos-U, Ethos-N78), которую производители чипов могут интегрировать для получения готового AI-ускорителя в IoT или среднеуровневых SoC. Это позволило даже относительно небольшим игрокам включать NPU в свои чипы, лицензируя разработки ARM.

Суть в том, что от крупных технологических компаний до стартапов, все инвестируют в AI-силикон для работы на устройстве. В результате мы наблюдаем быстрый прогресс: новые чипы с более высокой производительностью (TOPS), лучшей энергоэффективностью (TOPS на ватт) и поддержкой новых типов данных (например, 4-битная квантизация для более крупных моделей). Например, последние чипы Qualcomm и MediaTek могут работать с точностью INT4, что отлично подходит для генеративных AI-моделей, где пропускная способность памяти является ограничивающим фактором androidauthority.com. Эти инновации напрямую приносят пользу пользователям — например, мобильное AI-редактирование видео в реальном времени (удаление объектов из 4K-видео на лету, как это может делать Snapdragon 8 Gen 3 с функцией “Video Object Eraser” futurumgroup.com), или AI-сопроцессоры в автомобилях, обеспечивающие голосовых ассистентов, которые работают без сети и отвечают так же быстро, как человек.

Ключевые новости 2024–2025: релизы, бенчмарки и партнерства

Чтобы показать, насколько быстро развиваются события, вот некоторые главные события в мире NPU/TPU и on-device AI с конца 2024 по 2025 год:

  • Презентации Apple M3 и M4 (октябрь 2023 и май 2024): Представили нейронные движки следующего поколения. Нейронный движок M3 выполняет 18 TOPS (16 ядер), а M4 поднялся до 38 TOPS (все еще 16 ядер, но выше тактовая частота/эффективность) apple.fandom.com. Apple продемонстрировала, как эти чипы справляются с ресурсоемкими задачами, такими как генерация изображений стабильной диффузией прямо на macOS (с Core ML Stable Diffusion разработчики показали ~15 секунд на генерацию изображения на M2 — еще быстрее на M3/M4).
  • Запуск Google Pixel 8 (октябрь 2023): Акцент на ИИ «везде» в устройстве. На мероприятии Google продемонстрировала, как Pixel 8 выполняет на устройстве суммирование веб-страниц и живой перевод статей с помощью своего NPU Tensor G3. Также был представлен “Assistant with Bard”, который со временем будет выполнять часть взаимодействий на устройстве. Google подчеркнула, что Pixel 8 может запускать в 2 раза больше моделей на устройстве, чем Pixel 6, и модели, которые гораздо более сложные blog.google. Другими словами, огромный скачок всего за два года развития чипов Tensor.
  • Партнерство Qualcomm–Meta (июль 2023): Qualcomm и Meta объявили, что оптимизируют большую языковую модель Llama 2 от Meta для работы полностью на NPU Snapdragon к 2024 году iconnect007.com. Цель — дать разработчикам возможность запускать чат-ботов и генеративные ИИ-приложения на телефонах, VR-гарнитурах, ПК и т.д. без облака. Это стало значимым признанием ИИ на устройстве со стороны крупного владельца ИИ-модели (Meta) и крупного производителя чипов. В конце 2024 года они продолжили с планами по оптимизации Llama 3 также qualcomm.com.
  • Microsoft Windows 11 “Copilot” ПК (2024): Microsoft установила стандарт, назвав ПК с >40 TOPS локального ускорения ИИ «ИИ-ПК», которые могут получить расширенные ИИ-функции (например, интеграция цифрового помощника Copilot). Это подтолкнуло производителей — Lenovo, Dell и др. — использовать чипы с NPU (будь то Intel, AMD или Qualcomm), чтобы соответствовать требованиям. В результате ожидается волна ноутбуков с поддержкой ИИ в 2024 году, при этом Microsoft заявляет о десятках моделей в пути и прогнозирует более 40 миллионов поставок ИИ-ПК в 2024 году pcworld.com.
  • Кратко о Ryzen 8000 NPU от AMD (январь 2024): AMD анонсировала настольный процессор с впечатляющим NPU на 39 TOPS (что стало сюрпризом, так как обычно в настольных чипах такие ускорители отсутствуют) pcworld.com. Хотя этот продукт быстро был заменён, он показал, что даже настольные процессоры могут иметь AI-ускорители, сопоставимые с мобильными чипами по TOPS. Это также был первый настольный x86-процессор с NPU (буквально опередивший Intel Arrow Lake).
  • Демонстрации Tesla FSD Beta v12 (конец 2023): Илон Маск продемонстрировал полностью AI-управляемое вождение (без радара, только нейросети для обработки видео) на NPUs Tesla HW3/HW4. Примечательно, что нейросеть управляла автомобилем, используя видеопотоки, полностью обрабатываемые на компьютере автомобиля в реальном времени. Наблюдатели отметили, что FSD v12 полностью использует 2× 100 TOPS NPU для обработки видео, а Tesla намекнула, что будущие обновления (HW5) с целью достижения 2000 TOPS могут быть в разработке для поддержки ещё более крупных моделей (ходили слухи, что HW5 Tesla может нацелиться на 2 петаFLOPS = 2000 TOPS) notateslaapp.com.
  • NVIDIA Drive Thor представлен (GTC 2024): NVIDIA раскрыла детали своего следующего автомобильного чипа Drive Thor, который обеспечивает в 2 раза больше AI-вычислений, чем его предшественник Orin – до 2000 TOPS при связке двух чипов ts2.tech. Важно, что Thor позиционируется не только для задач вождения, но и для бортового AI (например, голосовые ассистенты и мониторинг пассажиров) на одной платформе, показывая, как NPU и GPU вместе могут объединять множество AI-функций в автомобилях ts2.tech. Несколько автопроизводителей (Xpeng, BYD, Volvo) объявили, что будут использовать Thor с 2025 года ts2.tech.
  • On-device MoE AI от Oppo (октябрь 2024): Как уже упоминалось, Oppo реализовала модель Mixture-of-Experts на смартфоне Find X8 grandviewresearch.com. Это примечательно, потому что MoE-модели обычно очень большие и считались серверными из-за своей сложности. Запуск MoE на устройстве говорит о новых методах сжатия моделей и очень мощном NPU (скорее всего, MediaTek Dimensity 9400 в этом устройстве).
  • AI-очки Meta Ray-Ban (2025): (Ожидается) Meta продемонстрировала прототипы умных очков, которые могут определять, что вы видите, и говорить с вами об этом — вероятно, с использованием встроенного пользовательского ускорителя (Meta разрабатывает собственные чипы для AR). Хотя подробностей мало, это подчеркивает стремление внедрять ИИ в очень ограниченные устройства (очки, наушники с батареей), что требует сверхэффективных NPU.
  • Бенчмарки MLPerf Mobile Inference (2023–24): MLCommons опубликовала результаты, показывающие возможности ИИ последних смартфонов. Например, в MLPerf Inference v3.0 (октябрь 2023) были протестированы Apple A16, Google Tensor G2 и Qualcomm Gen 2 на задачах, таких как классификация изображений и обнаружение объектов. Результаты показали, что Apple и Qualcomm поочередно выигрывают, но в целом мобильные NPU сокращают отставание от некоторых ускорителей уровня ноутбуков/десктопов для этих задач — и всё это на батарее. Также были отмечены различия в программном обеспечении (например, AI SDK от Qualcomm против Apple Core ML). Постоянные улучшения каждый год (двузначный % прирост) в этих бенчмарках демонстрируют здоровую конкуренцию и быстрый прогресс в области ИИ на устройствах.
  • Стратегические партнерства: Было заключено много межотраслевых партнерств. Например, NVIDIA и MediaTek (май 2023) объявили о сотрудничестве по интеграции GPU-технологий и программной экосистемы Nvidia в будущие чипы для смартфонов и автомобилей от MediaTek, фактически объединяя сильные стороны Nvidia в ИИ с опытом MediaTek в мобильных SoC. Также такие компании, как Qualcomm, сотрудничают с автопроизводителями (Mercedes, BMW), чтобы внедрять платформы Snapdragon Cockpit и Ride (с NPU) в новые автомобили для ИИ-функций. Arm сотрудничает с Fujitsu и другими для создания новых ИИ-чипов (например, ИИ-раздел суперкомпьютера Fugaku, хотя это топовый сегмент). Даже IBM и Samsung анонсировали новые чиповые технологии (например, нейроморфные вычисления и ИИ-память), которые однажды могут революционизировать NPU — пока не реализовано, но исследовательские проекты активно ведутся.

В целом, прошедший год был насыщен событиями, что подчеркивает: ИИ на устройствах — одна из самых горячих областей в технологиях. Как отметил один из отраслевых аналитиков, «эти возможности на устройствах открывают совершенно новые горизонты… запуск LLM на мобильных устройствах помогает решать вопросы масштабирования и стоимости, сохраняет приватность данных и обеспечивает работу ИИ даже при ограниченном подключении» futurumgroup.com. Это, пожалуй, и объясняет, почему все крупные технологические компании инвестируют в эту область.

Экспертные мнения: что говорят технологические лидеры об ИИ на устройствах

Динамика развития NPU и TPU заметна не только в продуктах, но и в высказываниях лидеров отрасли. Вот несколько цитат и взглядов, которые проливают свет на значимость ИИ на устройствах:

  • Криштиану Амон (генеральный директор Qualcomm): «Если ИИ должен масштабироваться, вы увидите, как он работает на устройствах… Это поворотный момент для ИИ: никаких проблем с задержкой — только бесшовный, безопасный, дополняющий облако вывод на устройстве. Будущее ИИ — персональное, и оно начинается на вашем устройстве». (интервью Bloomberg и пост в X, 2023) x.com. Амон видит гибридный мир ИИ, где ваш телефон/ПК обрабатывает многое на собственных NPU, взаимодействуя с облаком по мере необходимости. Он подчеркивает, что локальный запуск ИИ — ключ к его повсеместности (нельзя, чтобы всё зависело от облачных GPU — их в мире недостаточно для миллиардов устройств).
  • Дурга Маллади (старший вице-президент, Qualcomm): «Мы приветствуем подход Meta к открытому и ответственному ИИ… Чтобы эффективно масштабировать генеративный ИИ для массового использования, ИИ должен работать как в облаке, так и на устройствах на периферии». iconnect007.com Маллади сказал это в контексте партнерства с Meta. Это подчеркивает общую точку зрения: масштабирование ИИ = совместная работа облака и периферии. Сейчас стало понятно, что только облачный ИИ не будет достаточным (по причинам стоимости, приватности и задержки), поэтому периферийный ИИ должен разделять нагрузку.
  • Уилл Чен (заместитель генерального директора, MediaTek): «Будущее ИИ выходит за пределы облака; оно движимо периферийными вычислениями прямо у вас в руке… OPPO и MediaTek прокладывают путь ИИ на устройствах, обеспечивая мощные, быстрые, приватные, безопасные и всегда доступные интеллектуальные возможности». (MediaTek Exec Talk, 2025) mediatek.com. Эта цитата четко отражает ценностное предложение ИИ на устройствах — вы получаете производительность и доступность плюс приватность и безопасность. Она также показывает, что даже компании, традиционно менее заметные на Западе (как MediaTek), мыслят на передовой внедрения ИИ.
  • Доктор Норман Ванг (эксперт по аппаратному обеспечению ИИ, генеральный директор стартапа по чипам): «В аппаратном обеспечении ИИ, чем ближе вы размещаете вычисления к источнику данных, тем лучше. Речь идет о сокращении перемещения данных. NPU рядом с вашим сенсором изображения означает, что вы не отправляете мегапиксели в облако — вы извлекаете инсайты прямо на периферии. Это меняет правила игры для задержки и энергопотребления». (панель на HotChips 2024 — пересказано). Эта техническая мысль объясняет, почему NPU часто размещаются на одном кристалле с другими компонентами: например, в SoC телефона NPU может напрямую получать данные с камеры от ISP. Минимизация перемещения данных — огромная часть эффективного ИИ, и периферийный ИИ достигает этого, обрабатывая данные у источника.
  • Синчжоу Ву (вице-президент по автомобильному направлению, NVIDIA): «Ускоренные вычисления привели к трансформационным прорывам, включая генеративный ИИ, который переопределяет автономию и автомобильную индустрию». (Основной доклад GTC 2024) ts2.tech. Он обсуждал, как мощные бортовые компьютеры (с NPU/GPU) позволяют автомобилям не только ездить, но и потенциально внедрять продвинутый ИИ, например, генеративные модели для таких задач, как интерфейсы на естественном языке в автомобиле или лучшее понимание ситуаций. Это подчеркивает, что даже такие отрасли, как автомобильная, рассматривают ИИ на устройстве не только как инструмент для основной функциональности, но и для улучшения пользовательского опыта (например, голосовые ассистенты в автомобилях, которые могут поддерживать беседу благодаря встроенным LLM).
  • Сундар Пичаи (генеральный директор Google): «Будущее ИИ — сделать его полезным для всех. Это значит внедрять ИИ во все устройства, которыми мы пользуемся — телефоны, бытовую технику, автомобили — чтобы он был рядом, когда это нужно. Мы хотим встречать пользователей там, где они есть, с ИИ, который работает в реальном времени, на месте и сохраняет конфиденциальность». (Перефразировано по материалам нескольких интервью/докладов). Пичаи часто говорит о «амбидентном ИИ» — идее, что ИИ будет повсюду, встроен во всё. Стратегия Google с чипами Tensor в Pixel — прямое воплощение этой философии.
  • Статистика отрасли: Аналитики отмечают тенденцию в цифрах. В отчёте Grand View Research за 2024 год отмечается: «Последние достижения в специализированных ИИ-чипах и NPU позволили запускать сложные алгоритмы ИИ прямо на устройствах, значительно повышая производительность и энергоэффективность… мы приближаемся к переломному моменту перехода к ИИ на устройствах». grandviewresearch.com. В том же отчёте прогнозируется, что рынок ИИ на устройствах в ближайшие годы взорвётся, а сегмент аппаратного обеспечения (NPU и др.) составит более 60% выручки в 2024 году и будет расти по мере того, как почти каждое новое IoT- или мобильное устройство получит ИИ-возможности grandviewresearch.com. Другой прогноз IDC и других компаний предполагает, что к середине 2020-х почти все флагманские смартфоны и большинство устройств среднего класса будут оснащены ИИ-ускорителями, а к 2030 году миллиарды edge-ИИ-чипов будут использоваться от потребительской электроники до умной инфраструктуры.

Консенсус среди экспертов таков: ИИ на устройстве — это не просто приятная опция, а необходимость для следующей волны технологий. Пионер ИИ Эндрю Ын часто отмечал, что «tiny AI» и edge AI позволят интеллекту проникнуть в каждый объект, подобно тому, как это сделали электричество или интернет в прошлые эпохи. Преодолевая ограничения облачного ИИ, NPU и TPU обеспечивают это проникновение.

Проблема множества стандартов (и попытки упростить ситуацию)

Пока аппаратное обеспечение быстро развивается, экосистема программного обеспечения и стандартов для AI на устройстве всё ещё догоняет. Разработчики сталкиваются с джунглями инструментов и SDK, пытаясь использовать NPU на разных устройствах nimbleedge.com. Основные моменты:
  • У каждой платформы свой API или SDK: у Apple — Core ML (с API для работы с Neural Engine), у Android — Neural Networks API (NNAPI) (хотя Google объявила о планах развивать его после Android 14) threads.com, Qualcomm предлагает SNPE (Snapdragon Neural Processing Engine) или более широкий Qualcomm AI Stack, NVIDIA использует TensorRT и CUDA для своих устройств и так далее. Также есть ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI и другие. Эти различные SDK часто имеют разные возможности и требуют доработки моделей для оптимальной работы на каждой платформе. Как отмечается в отчёте по AI на устройствах за 2025 год, «Множество несовместимых SDK (например, Core ML, LiteRT, ONNX Runtime) с разной поддержкой операторов и производительностью» вынуждают разработчиков выполнять дополнительную работу nimbleedge.com.
  • Проблемы фрагментации: Модель, которая отлично работает на настольном GPU, может не запуститься на NPU смартфона — операторы (математические функции) могут не поддерживаться или требуют другой квантизации. Разработчикам иногда приходится поддерживать отдельные сборки или вручную оптимизировать модели для каждого железа. Это и есть «низкоуровневая, фрагментированная экосистема» — жалоба nimbleedge.com. Инструменты для отладки также редки: профилировать NPU, чтобы понять, почему модель работает медленно, бывает сложно, особенно по сравнению с богатыми инструментами для CPU/GPU nimbleedge.com.
  • Усилия по стандартизации: Для решения этой проблемы предпринимаются некоторые шаги. ONNX (Open Neural Network Exchange) стал общим форматом, позволяющим обучать модель в PyTorch или TensorFlow, а затем экспортировать её в ONNX для развертывания. Многие среды выполнения (включая встроенные, такие как у Qualcomm и MediaTek) поддерживают загрузку моделей ONNX и попытаются скомпилировать их под конкретное оборудование. Это помогает избежать привязки к одной платформе. Android NNAPI был попыткой Google предоставить универсальный интерфейс — приложение может запросить «запустить эту нейросеть» через NNAPI, и ОС использует любой доступный ускоритель (GPU, DSP или NPU) для её выполнения. NNAPI был внедрён во многих Android-устройствах, но имел ограничения, и не все производители предоставили надёжные драйверы, из-за чего Google обозначила новую стратегию (возможно, с опорой на WebNN или прямые интеграции с вендорами) после 2024 года threads.com. На ПК Microsoft представила DirectML и Windows ML API для аналогичного абстрагирования различий в оборудовании (позволяя разработчику использовать один и тот же API для NVIDIA, Intel, AMD NPU).
  • Унифицированные инструментарии: Компании также создают инструментарии для упрощения развертывания. Мы видели AI Stack от Qualcomm, который объединяет их компилятор (AI Model Efficiency Toolkit) и среды выполнения, чтобы разработчикам было проще нацеливаться на их Hexagon NPU iconnect007.com. TensorRT и связанные SDK от NVIDIA делают нечто подобное для устройств Jetson, оптимизируя модели для GPU+NVDLA. Intel OpenVINO — ещё один пример: он позволяет взять модель и оптимизировать её для процессоров Intel, встроенных GPU и VPU (NPU) для edge-развертываний. Эти фреймворки часто включают оптимизаторы моделей, которые преобразуют модели (обрезка, квантизация), чтобы они подходили для более компактных устройств.
  • Взаимодействие: Идёт движение к тому, чтобы разные NPU работали с общими фреймворками. Например, TensorFlow Lite от Google имеет аппаратные делегаты — один для NNAPI (охватывает Android-устройства в целом), один для Core ML (устройства iOS), один для Edge TPU и т.д. Идея в том, что вы пишете свою TFLite-модель, и она будет выполняться с помощью лучшего доступного ускорителя через делегат. Аналогично, PyTorch добавляет поддержку мобильных бэкендов и даже таких вещей, как Metal Performance Shaders от Apple (для использования GPU/NPU на iOS). ONNX Runtime также может нацеливаться на разные ускорители через плагины (например, можно подключить TensorRT от NVIDIA или Compute Library от ARM и другие).
  • Появляющиеся стандарты: Khronos Group (создатели OpenGL/Vulkan) работала над NNEF (Neural Network Exchange Format), а также обсуждается WebNN API для доступа браузеров к локальному AI-ускорению. Пока ни один из них не получил всеобщего признания. Но интересное развитие: в конце 2024 года несколько компаний создали альянс для продвижения стандартов «AI Hardware Common Layer» — по сути, исследуется возможность создания общего низкоуровневого интерфейса к NPU (аналогично тому, как OpenCL сделал для вычислений на GPU). Пока это только начало.
  • Опыт разработчика: Это признанный пробел. Как говорится в блоге NimbleEdge, «разработка для on-device AI в настоящее время требует навигации по фрагментированной и низкоуровневой экосистеме… заставляя разработчиков адаптировать реализации под каждую аппаратную платформу» nimbleedge.com. Индустрия понимает, что это необходимо улучшить, чтобы on-device AI стал по-настоящему массовым. Мы можем увидеть консолидацию — например, если бы Google, Apple и Qualcomm смогли договориться о каком-то базовом наборе операций и API (хотя это, возможно, и мечты). Или, что более вероятно, такие фреймворки, как PyTorch и TensorFlow, будут скрывать всю эту сложность, интегрируя библиотеки разных производителей и выбирая нужную во время выполнения.

По сути, пока NPU/TPU обеспечивают «мускулы», сообщество работает над инструментами, удобными для мозга, чтобы использовать эти «мускулы». Хорошая новость в том, что по сравнению, скажем, с пятилетней давностью, сейчас гораздо больше возможностей развернуть модель на устройстве, не будучи экспертом по чипам. Но есть куда расти — особенно в отладке, профилировании и поддержке разных аппаратных платформ.

Рыночные тренды и перспективы

Распространение NPU и TPU в устройствах подталкивает более крупный тренд: ИИ везде. Вот несколько общих тенденций и чего ожидать в будущем:

  • Рост рынка Edge AI: Рыночные исследования показывают взрывной рост аппаратного обеспечения для edge AI. Ожидается, что рынок on-device AI (включая чипы и ПО) будет расти примерно на 29% в год в течение этого десятилетия nimbleedge.com. В одном из отчетов его оценили примерно в $233 млрд в 2024 году, с прогнозом более $1,7 трлн к 2032 году nimbleedge.com — большая часть этого роста приходится на edge-решения. Другое исследование от IDTechEx прогнозирует, что рынок AI-чипов для edge-устройств достигнет $22 млрд к 2034 году, а крупнейшими сегментами станут потребительская электроника, автомобили и промышленность idtechex.com. Это означает, что ежегодно будут поставляться сотни миллионов устройств с NPU в качестве стандартного компонента.
  • Повсеместное внедрение: Подобно тому, как сегодня в каждом смартфоне есть GPU (пусть и небольшой), мы приближаемся к моменту, когда в каждом новом смартфоне будет AI-ускоритель. Сейчас они есть в флагманских телефонах; следующими будут устройства среднего класса. Действительно, чипы среднего уровня от Qualcomm (например, серия Snapdragon 7) и MediaTek (Dimensity 700/800) теперь включают урезанные NPU, чтобы такие функции, как улучшение камеры с помощью ИИ и голосовой помощник, работали и на более дешевых устройствах. Помимо телефонов, NPU распространяются на ПК (стандарт в новых ноутбуках Windows от разных производителей), автомобили (почти все новые автомобили с ADAS уровня 2+ имеют какой-либо AI-чип) и IoT. Даже бытовая техника, такая как холодильники и стиральные машины, начинает рекламировать “AI”-функции (некоторые из них облачные, но некоторые локальные, например, адаптивные циклы на основе датчиков). Тенденция очевидна: если в устройстве есть вычислительный чип, на нем будет какое-то ускорение ML.
  • Траектория производительности: Производительность AI на устройстве удваивается примерно каждые 1–2 года (сочетание лучшей архитектуры и перехода на передовые полупроводниковые техпроцессы, такие как 5нм, 4нм, 3нм). Neural Engine от Apple вырос с 600 миллиардов операций/сек в 2017 году до 35 триллионов в 2023 – почти 60-кратный рост за шесть лет apple.fandom.com. Флагманы Qualcomm аналогично прыгнули с нескольких TOPS в 2018 до более 27 TOPS в 2023 (общая AI-производительность SD 8 Gen 3, включая все ядра). Можно ожидать, что к 2025–2026 мобильные NPU будут выдавать 100+ TOPS, а ускорители для ПК – еще больше, и эти цифры могут стать менее значимыми, поскольку акцент сместится на практическую производительность в конкретных AI-задачах (например, какой размер LLM можно запускать плавно, или можно ли делать 4K AI-видео в реальном времени). Разрыв между облаком и краем, вероятно, сократится для задач инференса. Однако край все равно будет отставать от облака для самых передовых больших моделей из-за ограничений по питанию и памяти.
  • Рост энергоэффективности: Один из недооцененных аспектов — насколько эффективными становятся эти NPU. Автомобильный NPU Tesla достигает ~4,9 TOPS/Вт fuse.wikichip.org, что было передовым уровнем пару лет назад; теперь некоторые мобильные NPU заявляют о схожих или лучших показателях. Эффективные NPU означают более долгую работу от батареи, даже если мы чаще используем AI-функции. Это также делает возможным внедрение AI в крошечные устройства на батарейках (например, AI-слуховые аппараты, умные датчики на батарейках-таблетках, выполняющие обнаружение аномалий). Концепция TinyML — крайне маломасштабное машинное обучение на микроконтроллерах — является продолжением этой идеи, используя упрощенные “NPU” или оптимизированные инструкции на микроконтроллерах для выполнения AI в датчиках. NPU ARM Ethos-U нацелен на этот сегмент (например, всегда включенное распознавание ключевых слов, работающее на нескольких милливаттах). Ожидайте больше специализированных AI-микросхем, которые можно будет встраивать в датчики, носимые устройства и повседневные предметы (умная зубная щетка? AI-детектор дыма? Это скоро появится).
  • Гибридные облачно-периферийные решения: Вместо того чтобы периферия полностью заменила облако, будущее — за сотрудничеством. Устройства будут выполнять то, что могут, локально и обращаться к облаку только за тем, что не могут сделать сами. Например, ваши AR-очки могут выполнять локальное распознавание сцены, чтобы понять, на что вы смотрите, но если вы зададите очень сложный вопрос (например, попросите подробное объяснение), они могут обратиться к облачному ИИ для более мощного анализа и затем представить результат. Такой гибридный подход обеспечивает наилучший баланс между отзывчивостью и возможностями. Компании активно разрабатывают пользовательские сценарии вокруг этого: Copilot от Microsoft в Windows может использовать локальный NPU для быстрого преобразования речи в текст и разбора команд, а затем использовать облако для более сложных задач (если только у вас не мощный NPU в ПК, который справится сам). В идеале пользователь не должен знать или заботиться о том, что используется — главное, чтобы всё работало быстрее и с уважением к приватности. Мы также увидим, как федеративное обучение станет более распространённым — модели обучаются в облаке, но с помощью данных, зашифрованных или обработанных на устройствах, и наоборот.
  • Новые сценарии использования: По мере того как NPU становятся мощнее, открываются новые приложения. Генеративный ИИ на устройстве — один из главных примеров: представьте создание изображений ИИ, видеомонтаж ИИ и персональных чат-ботов прямо на вашем телефоне или ноутбуке. К 2025 году мы можем увидеть первые версии офлайн-помощников, которые смогут суммировать ваши письма или составлять сообщения без облака. Перевод речи в реальном времени в разговоре (два человека говорят на разных языках, а телефоны или наушники переводят почти мгновенно) будет значительно улучшен благодаря обработке на устройстве (без задержек и работает везде). Медицинский ИИ может работать на носимых устройствах — ваши смарт-часы будут определять фибрилляцию предсердий или анализировать паттерны апноэ сна с помощью своего NPU. Безопасность: устройства могут локально запускать ИИ для обнаружения вредоносных программ или фишинга в реальном времени (например, антивирус использует ИИ-модель на вашем устройстве, а не облачные сканы). А в автомобилях, помимо вождения, ИИ сможет персонализировать опыт в салоне (например, регулировать климат-контроль в зависимости от вашего настроения, определяемого камерой, направленной на водителя, и т.д.). Многие из этих сценариев требуют быстрой итерации и приватности, что идеально подходит для обработки на устройстве.
  • Конкуренция и демократизация: Крупные игроки продолжат конкурировать, что хорошо для потребителей — ожидайте маркетинга в стиле «наш ИИ-чип делает X TOPS или поддерживает Y-функцию, которую другие не могут». Но также технология демократизируется — NPU появляются не только в телефонах за $1000, но и в телефонах за $300, IoT-платах за $50 (Coral, Arduino Portenta и др.), а сообщества с открытым исходным кодом создают крошечные ИИ-модели, которые энтузиасты могут запускать на Raspberry Pi или микроконтроллере с простым ускорителем. Такая широкая доступность означает, что инновации могут появиться где угодно. Теперь один разработчик может создать приложение, использующее ИИ на устройстве для чего-то интересного, не нуждаясь в серверной ферме — это снижает барьер для входа в мир программного обеспечения на базе ИИ.
  • Технологии будущего: Если заглянуть дальше, исследования в области нейроморфных вычислений (чипы, вдохновленные мозгом, такие как Intel Loihi) и аналоговых AI-чипов однажды могут революционизировать NPU, обеспечив прирост эффективности на порядки. Компании, такие как IBM и BrainChip, работают над этим. Если им удастся, нейроморфный чип может позволить сложному ИИ работать на крошечных устройствах с батарейным питанием непрерывно. Мы также можем увидеть 3D-укладку и новые технологии памяти, интегрированные в NPU для преодоления узких мест по памяти (некоторые чипы 2025+ могут использовать HBM-память или новую энергонезависимую память на кристалле для более быстрой подачи данных в AI-ядра). Также ожидайте больше специализации внутри AI-чипов: например, отдельные ускорители для обработки изображений, речи, рекомендательных моделей и т.д., каждый оптимизирован под свою задачу. Некоторые SoC уже имеют двойные NPU (один «большой» NPU для тяжелых задач, один микро-NPU в сенсорном хабе для постоянных легких задач).

В заключение, траектория очевидна: NPU и TPU становятся такими же стандартными и незаменимыми, как CPU в современном вычислении. Они делают устройства умнее, отзывчивее и более заботливыми о нашей приватности. Как говорится в одном отчете, «высокопроизводительные вычислительные блоки на устройствах в значительной степени отвечают за выполнение сложных AI-функций, таких как распознавание изображений, NLP и принятие решений в реальном времени», и это приводит к появлению более интеллектуальных и отзывчивых технологий во всех отраслях grandviewresearch.com.

Мы вступаем в эпоху, когда вы просто будете ожидать, что ваше устройство понимает и предугадывает ваши потребности — ваш телефон редактирует фото и пишет сообщения в вашем стиле, ваша машина избегает аварий и развлекает вас с помощью ИИ, ваши домашние гаджеты учатся вашим предпочтениям — и все это становится возможным благодаря тихим нейронным процессорам внутри них. AI на устройстве — это не научная фантастика; он уже здесь и быстро совершенствуется. Союз NPU и TPU с нашими повседневными гаджетами делает ИИ персональным, повсеместным и приватным — действительно принося мощь облачного интеллекта на землю (или, по крайней мере, к вам в карман).

Источники:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27 августа 2024 techtarget.com. Описывает роли и различия CPU, GPU, TPU и NPU в AI-нагрузках.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Объяснение дизайна TPU от Google (систолические массивы, низкая точность) и использования NPU в мобильных устройствах.
  • TechTarget WhatIs. «Тензорный процессорный модуль (TPU)». whatis.techtarget.com, 2023 techtarget.com. Отмечается, что TPU специализируются на задачах матричной математики, а NPU имитируют нейронные сети мозга для ускорения techtarget.com.
  • NimbleEdge Blog (Нирадж Поддар). «Состояние AI на устройстве: чего не хватает в сегодняшнем ландшафте». 26 июня 2025 nimbleedge.com. Описывает преимущества AI на устройстве (задержка, офлайн, приватность, стоимость) и такие проблемы, как фрагментированные SDK.
  • Qualcomm (OnQ Blog). «Bloomberg и Кристиано Амон обсуждают AI на устройстве». Июль 2023 x.com. Генеральный директор Qualcomm о важности инференса на устройстве для будущего AI (цитата из твита о переломном моменте в AI).
  • MediaTek Blog (Exec Talk, Уилл Чен). «Формируя будущее мобильных AI-решений». 3 марта 2025 mediatek.com. Сотрудничество MediaTek и Oppo по NPU; цитата о вычислениях на границе (edge computing) у вас в руке и пример AI-ремастеринга фото с помощью NPU.
  • I-Connect007 / Qualcomm Press. «Qualcomm работает с Meta для внедрения AI на устройстве (Llama 2)». 24 июля 2023 iconnect007.com. Пресс-релиз с цитатой старшего вице-президента Qualcomm Дурги Маллади о масштабировании генеративного AI через edge-устройства и облако.
  • PCWorld (Марк Хачман). «Процессоры Intel Core Ultra делают AI простым…». 24 октября 2024 pcworld.com. Обсуждается использование Intel Arrow Lake NPU Meteor Lake (13 TOPS) и отмечается NPU AMD Ryzen 8000 на 39 TOPS и требование Microsoft «Copilot» на 40 TOPS.
  • Ts2 (Технологическое расширение возможностей). «Суперкомпьютерное противостояние для автопилота: NVIDIA Thor против Tesla HW4 против Qualcomm Ride». Сентябрь 2023 ts2.tech. Приводит оценки TOPS: Tesla HW3 против HW4 (72→100 TOPS на чип) ts2.tech, NVIDIA Thor ~1000 TOPS (или 2000 с двумя чипами) ts2.tech и цитирует вице-президента NVIDIA о генеративном ИИ в автомобилях ts2.tech.
  • Grand View Research. «Отчет о рынке AI на устройствах, 2030». 2024 grandviewresearch.com. Отмечает рост специализированных AI-чипов (NPU), позволяющих выполнять сложный ИИ на устройствах, и что на оборудование пришлось 60,4% рынка AI на устройствах в 2024 году, чему способствовали смартфоны, IoT, NPU и др.
  • Google Blog. «Google Tensor G3: AI-процессор Pixel 8». Октябрь 2023 blog.google. Описывает улучшения Tensor G3 для генеративного ИИ на устройстве, новый дизайн TPU и модель TTS на устройстве, равную по качеству дата-центру.
  • Techspot. «Snapdragon 8 Gen 3 приносит генеративный ИИ на смартфоны». Октябрь 2023 futurumgroup.com. Анализ Futurum Group с подробностями о AI-движке SD8Gen3: 10B параметров LLM на устройстве, NPU быстрее на 98%, самая быстрая в мире Stable Diffusion на телефоне и др., а также преимущества LLM на устройстве для стоимости/конфиденциальности/офлайн futurumgroup.com.
  • Apple Wiki (Fandom). «Neural Engine». Обновлено 2025 apple.fandom.com. История версий Neural Engine с A17 Pro 35 TOPS в 2023 году и др. Показывает эволюцию от 0,6 TOPS (A11) до 35 TOPS (A17) apple.fandom.com и M4 с 38 TOPS apple.fandom.com.
  • EnGenius Tech. «Cloud Edge Camera AI Surveillance». 2023 engeniustech.com. Пример камеры видеонаблюдения с встроенным NPU, обеспечивающим AI-обработку на самой камере и локальное хранение (NVR не требуется).
  • EmbedL. «Amazon выпускает AZ1 Neural Edge Processor». Окт. 2020 embedl.com. Обсуждается пограничный NPU AZ1 от Amazon для устройств Echo, созданный совместно с MediaTek, предназначенный для локального распознавания речи с целью снижения задержки и зависимости от облака embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Latest Posts

Don't Miss

Foldable Phone Showdown: Galaxy Z Fold 6 vs OnePlus Open 2 vs Xiaomi Mix Fold 4

Битва складных смартфонов: Galaxy Z Fold 6 против OnePlus Open 2 и Xiaomi Mix Fold 4

Введение Складные смартфоны превратились из футуристических гаджетов в полноценную конкурентную
AI Stocks Frenzy: Big Tech Earnings, Billion-Dollar Deals & New AI Launches (Aug 3-4, 2025)

Безумие акций ИИ: отчёты Big Tech, сделки на миллиарды и новые запуски ИИ (3–4 августа 2025)

Microsoft выросла на 4% за прошлую неделю и ненадолго превысила