NPU проти TPU: Як вбудований ШІ прискорює ваші гаджети у 2025 році

1 Жовтня, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple розпочала впровадження AI на пристрої у 2017 році з Neural Engine в iPhone A11, що дозволило Face ID та Animoji працювати на швидкості до 600 мільярдів операцій/сек.
  • У 2023 році 16-ядерний Neural Engine iPhone A17 Pro забезпечив близько 35 TOPS, підтримуючи функції розпізнавання мови, фотографії та перекладу на пристрої.
  • Google Pixel 8 (2023) використовує Tensor G3 NPU для запуску AI-моделей на пристрої, таких як Palm 2 для офлайн-перекладу та підсумовування.
  • Edge TPU від Google на Coral Dev Board забезпечує 4 TOPS обробки зору при споживанні всього кількох ват.
  • Апаратне забезпечення Tesla Full Self-Driving має два NPU: HW3 (2019) забезпечував близько 144 TOPS, а HW4 (2023) — близько 200–250 TOPS.
  • NVIDIA Drive Thor (представлений у 2024) може досягати до 2000 TOPS при з’єднанні двох чипів для автомобільних AI-навантажень.
  • Hexagon NPU Qualcomm Snapdragon 8 Gen 3 (2023) на 98% швидший за Gen 2, може запускати LLM до 10 мільярдів параметрів на пристрої та продемонстрував найшвидший у світі мобільний Stable Diffusion.
  • MediaTek Dimensity 9400 (2024) із шостим поколінням APU забезпечує AI-ремастеринг фото в Oppo Find X8, що свідчить про розширення NPU до телевізорів, IoT та авто до 2025 року.
  • Intel Meteor Lake, 14-те покоління Core (запущене у 2023; перейменоване на Core Ultra у 2024), має інтегрований NPU з продуктивністю близько 8–12 TOPS, Arrow Lake — ~13 TOPS, а Lunar Lake за чутками — близько 45 TOPS.
  • AMD Ryzen 7040 Phoenix (2023) представив Ryzen AI Engine з продуктивністю до 10 TOPS, а Ryzen 8000 desktop (початок 2024) забезпечив 39 TOPS перед тим, як AMD призупинила NPU у цьому поколінні.

Коротко: Ваш смартфон, камера і навіть автомобіль отримують вбудовані AI-мозки – хмара не потрібна. Спеціальні чипи під назвою NPU (Neural Processing Units) та TPU (Tensor Processing Units) перетворюють повсякденні пристрої на інтелектуальних помічників, здатних до розпізнавання облич, голосових команд, перекладу в реальному часі, автономного водіння тощо. Ця революція AI на пристрої обіцяє блискавичну швидкість, кращу приватність і нові функції, які раніше здавалися можливими лише для суперкомп’ютерів. У цьому звіті ми пояснимо, що таке NPU та TPU, чим вони відрізняються від CPU/GPU, і чому такі гіганти, як Apple, Google, Qualcomm та Intel, змагаються, щоб вбудувати ці “AI-мозки” у все – від телефонів до авто. Також ми висвітлимо останні прориви 2024–2025 років, експертні думки, галузеві стандарти та майбутнє AI на пристрої.

Що таке NPU та TPU? (Знайомтесь: AI-мозок вашого пристрою)

Нейронні процесори (NPU) — це спеціалізовані процесори, розроблені для прискорення роботи штучних нейронних мереж — алгоритмів, які забезпечують сучасні завдання ШІ, такі як розпізнавання зображень, обробка мовлення тощо. На відміну від універсальних CPU, NPU є спеціалізованими інтегральними схемами (ASIC), оптимізованими для матричної математики та великих паралельних навантажень нейронних мереж [1]. NPU «імітує нейронні мережі людського мозку для прискорення завдань ШІ», фактично виступаючи як кремнієвий мозок всередині вашого пристрою [2]. NPU відмінно справляються з виконанням інференсу (здійсненням прогнозів) для моделей ШІ ефективно на пристрої, часто використовуючи нижчу числову точність (наприклад, 8-бітні цілі числа) для економії енергії при збереженні високої продуктивності [3]. Термін «NPU» іноді використовується широко для будь-якого прискорювача ШІ, але частіше стосується тих, що використовуються у мобільних і edge-пристроях [4]. Наприклад, «Neural Engine» від Apple в iPhone та мобільний AI-двигун Samsung — це NPU, інтегровані у їхні системи-на-чипі (SoC).

Tensor Processing Units (TPUs), з іншого боку, були розроблені Google як спеціалізовані чипи для прискорення машинного навчання, особливо для фреймворку TensorFlow. TPU — це тип ASIC, оптимізований для тензорних операцій (множення матриць тощо), які лежать в основі навчання та інференсу нейронних мереж [5]. Google вперше впровадила TPU у свої дата-центри у 2015 році для прискорення обчислень нейронних мереж, а згодом зробила їх доступними через Google Cloud [6]. TPU використовують особливу архітектуру під назвою систолічна матриця, яка з’єднує багато малих обчислювальних блоків у сітку, що прокачує дані через ланцюжок блоків множення матриць [7]. Така конструкція забезпечує надзвичайно високу пропускну здатність для завдань глибокого навчання. TPU від Google свідомо жертвують частиною точності (використовуючи 8- або 16-бітну арифметику замість 32-бітних чисел з плаваючою комою) заради величезного приросту швидкості та ефективності [8], оскільки для багатьох AI-завдань висока точність не є обов’язковою для отримання точних результатів. Хоча “TPU” технічно стосується чипів Google, цей термін іноді використовується ширше для будь-яких “тензорних” прискорювачів. Варто зазначити, що Google також випускає Edge TPU співпроцесори для AI на пристроях, наприклад, у продуктах Coral Dev Board, які забезпечують 4 трильйони операцій на секунду при споживанні всього кількох ватів [9].

Коротко: NPU та TPU — це обидва кремнієві прискорювачі для AI, але NPU зазвичай вбудовані у мобільні/edge-пристрої для ефективного інференсу на пристрої, тоді як TPU (у вузькому сенсі) — це високопродуктивні чипи (а зараз і модулі) переважно від Google, спочатку для хмарних/дата-центрівських завдань навчання та інференсу. Обидва відходять від традиційних архітектур CPU/GPU, щоб віддати пріоритет паралельним математичним операціям для нейронних мереж. Як зазначив один технічний редактор, “TPU йдуть ще далі у спеціалізації, зосереджуючись на тензорних операціях для досягнення вищої швидкості та енергоефективності… NPU поширені у пристроях з підтримкою AI, таких як смартфони та IoT-гаджети” [10].

Чим NPU та TPU відрізняються від CPU та GPU?

Традиційні ЦП (центральні процесори) — це «мозок» загальних обчислень — оптимізовані для гнучкості, щоб виконувати всілякі завдання: від запуску операційної системи до перегляду веб-сторінок. Вони мають кілька потужних ядер, які відмінно справляються з послідовною логікою та різноманітними інструкціями, але вони не надто підходять для надзвичайно паралельних математичних обчислень, необхідних для глибокого навчання [11]. Коли ЦП просять обробити велику нейронну мережу, він часто стає вузьким місцем, намагаючись виконати мільйони множень і додавань послідовно або обмеженими паралельними пакетами. Це призводить до високої затримки та споживання енергії (так званий вузьке місце фон Неймана через переміщення великої кількості даних між ЦП і пам’яттю) [12]. ЦП можуть виконувати деяку роботу з ШІ (особливо простіші або менші моделі, або керуючу логіку для програм ШІ [13]), але, як правило, їм важко ефективно масштабуватися до сучасних вимог ШІ щодо масово паралельної лінійної алгебри.

ГПУ (графічні процесори) вивели паралельні обчислення на передній план. Спочатку створені для рендерингу зображень шляхом виконання багатьох простих операцій паралельно над пікселями та вершинами, ГПУ виявилися дуже придатними для навчання нейронних мереж, що також передбачає застосування одних і тих самих математичних операцій (скалярних добутків тощо) до великої кількості даних одночасно [14]. ГПУ містить сотні або тисячі малих ядер, які можуть виконувати обчислення паралельно. Це робить ГПУ відмінними для масштабного ШІ, і протягом 2010-х років ГПУ (особливо NVIDIA з програмним забезпеченням CUDA) стали основною робочою силою досліджень у сфері глибокого навчання. Однак ГПУ все ще досить універсальні — вони мають виконувати різні графічні завдання та зберігати гнучкість, тому вони не на 100% оптимізовані для нейронних мереж. Вони також споживають багато енергії та вимагають ретельного програмування для повного використання (вони не люблять складний розгалужений код і найкраще працюють із оптимізованими, паралельними по даних завданнями) [15].

NPU та TPU йдуть ще далі у спеціалізації. Вони створені спеціально для лише нейронних мереж. Це означає, що їхня архітектура може позбутися всього, що не потрібне для AI-математики, і присвятити більше кремнію таким речам, як блоки множення матриць, накопичувальні суматори та вбудована пам’ять для швидкої передачі даних у ці математичні блоки та з них. Наприклад, Google Cloud TPU — це по суті величезна 2D-матриця MAC (множення-накопичення) блоків із розумною архітектурою потоків даних (систолічна матриця), яка подає їм операнди на високій швидкості [16]. Вона не використовує кеші, спекулятивне виконання чи інші функції CPU — все оптимізовано під матричну математику. NPU у мобільних чіпах так само інтегрують спеціалізовані ядра нейронного рушія поряд із CPU/GPU. Ці ядра часто використовують арифметику з низькою точністю (наприклад, 8-бітні цілі числа, як у TPU) і виконують високопаралельні обчислення “шар за шаром” для таких речей, як згорткові нейронні мережі. NPU може використовувати “злиту” архітектуру, що поєднує скалярні, векторні та тензорні блоки (так робить Hexagon NPU від Qualcomm), щоб ефективно виконувати різні операції нейромережі [17].

Ключові відмінності зводяться до:

  • Набір інструкцій і гнучкість: CPU мають широкий, універсальний набір інструкцій (можуть робити багато різного, але не все одночасно). GPU мають більш обмежений, але все ще гнучкий набір інструкцій, оптимізований для пропускної здатності у математиці. NPU/TPU мають дуже вузький набір інструкцій — по суті лише ті операції, що потрібні для нейромереж (множення матриць, згортки, активаційні функції), часто реалізовані як фіксовані конвеєри або масиви [18]. Наприклад, NPU для автопілоту Tesla має лише 8 інструкцій у своєму ISA, зосереджених на DMA-читанні/записі та скалярних добутках [19].
  • Паралелізм і ядра: CPU = кілька потужних ядер; GPU = тисячі простих ядер; NPU/TPU = в певному сенсі, десятки тисяч дуже простих ALU (MAC-одиниці), структурованих у вигляді матриці або нейронної мережі. Один чип NPU може виконувати десятки трильйонів операцій за секунду – автомобільний NPU Tesla працює на частоті 2 ГГц з 9 216 MAC, досягаючи ~37 тераоперацій за секунду (TOPS) на ядро, і кожен чип FSD має два NPU для ~74 TOPS [20], [21]. Для порівняння, потужний CPU може досягати лише кількох сотень мільярдів оп/сек на AI-задачах, а GPU – можливо кілька TOPS, якщо не використовувати спеціальні тензорні ядра.
  • Архітектура пам’яті: NPU/TPU покладаються на швидку вбудовану пам’ять і потокову обробку даних. TPU уникають класичного вузького місця пам’яті, використовуючи систолічний потік даних – кожен малий блок передає дані наступному синхронно, мінімізуючи читання/запис у основну пам’ять [22]. Багато NPU мають шматок SRAM на чипі для ваг/активацій (наприклад, ядра NPU Tesla мають по 32 МБ SRAM для локального зберігання даних нейромережі) [23]. Це відрізняється від GPU/CPU, які активно використовують зовнішню DRAM.
  • Точність: CPU/GPU зазвичай виконують обчислення з 32- або 64-бітними числами з плаваючою комою. AI-акселератори часто використовують 16- або 8-бітні цілі числа (а деякі вже досліджують 4- або навіть 2-бітні), оскільки нейромережі допускають нижчу точність. Розробники TPU Google прямо зазначили, що для інференсу не потрібна повна точність з плаваючою комою, аналогічно до “вам не потрібно знати точну кількість крапель дощу, щоб зрозуміти, що йде сильний дощ” [24]. Це дозволяє NPU/TPU виконувати більше операцій паралельно і споживати менше енергії на операцію.
  • Сфери застосування: GPU досі широко використовуються для навчання великих моделей і для гнучких обчислень (і вони поширені в дата-центрах та потужних ПК). TPU (хмара) орієнтовані на масштабне навчання та інференс в екосистемі Google. NPU частіше зустрічаються в edge-пристроях – смартфонах, камерах, побутовій техніці – для інференсу на вже навчених моделях. Вони особливо ефективні для завдань на кшталт застосування візуальної моделі до кадру з камери в реальному часі або постійного розпізнавання ключового слова голосового асистента з низьким енергоспоживанням. Як зазначає TechTarget: “GPU обирають за доступність і економічність у багатьох ML-проєктах; TPU зазвичай швидші й менш точні, використовуються бізнесом у Google Cloud; NPU зазвичай є в edge/мобільних пристроях для значно швидшої локальної обробки” [25].

Підсумовуючи, CPU = універсальні організатори, GPU = паралельні робочі коні, TPU/NPU = спеціалісти з нейронних мереж. Всі вони можуть співпрацювати – насправді, у сучасному пристрої з підтримкою ШІ, CPU часто координує завдання та передає обчислювально-інтенсивні частини NPU/GPU за потреби [26]. Така тенденція до спеціалізації існує, тому що універсальні рішення більше не підходять для всіх обчислень: як зауважив один редактор, «додавати мільйони транзисторів для кожної потреби було неефективно… дизайнери перейшли до спеціалізованих процесорів» [27]. Спеціалізовані NPU та TPU значно прискорюють обчислення ШІ, зберігаючи низьке енергоспоживання – це критично важливо як для пристроїв на батареї, так і для серверів високої щільності.

Чому ШІ на пристрої? (Edge vs. Cloud)

Навіщо взагалі запускати ШІ на вашому телефоні чи автомобілі – чому б не відправити все у хмару, де потужні сервери (з GPU/TPU) можуть виконати всю важку роботу? Є кілька вагомих причин, які стимулюють перехід до on-device AI, і вони зводяться до швидкості, приватності, вартості та надійності [28]:

  • Миттєва відповідь (низька затримка): NPU на пристрої може обробляти дані в реальному часі без затримки на відправку даних до хмарного сервера. Це критично важливо для інтерактивних або життєво важливих завдань ШІ. Наприклад, система автономного водіння автомобіля з вбудованими NPU може розпізнати пішохода і натиснути на гальма негайно, за мілісекунди, а не чекати обчислень у хмарі. Розумна камера з NPU може виявити зловмисника в момент його появи в кадрі. На вашому телефоні ШІ на пристрої означає, що голосовий помічник реагує швидше і природніше, оскільки йому не потрібно постійно «дзвонити додому». Зменшення затримки забезпечує справжнє прийняття рішень у реальному часі та плавніший користувацький досвід [29].
  • Конфіденційність і безпека даних: AI на пристрої зберігає ваші дані локально. Замість того, щоб передавати аудіо з мікрофона чи відео з камери в хмару для аналізу, обробка відбувається всередині пристрою. Це значно зменшує ризик витоку чутливих даних. Наприклад, сучасні смартфони виконують розпізнавання обличчя (Face ID тощо) повністю на пристрої – біометрична карта вашого обличчя ніколи не залишає захищеного середовища телефону. Аналогічно, AI слуховий апарат або медичний носимий пристрій може аналізувати біометричні дані без завантаження їх на будь-який сервер, зберігаючи конфіденційність. З огляду на зростаючі побоювання користувачів і регулювання щодо суверенітету даних, це є великою перевагою. Як зазначено в одному блозі про edge AI, обробка на пристрої означає, що «дані користувача не потрібно передавати в хмару», що забезпечує базову перевагу конфіденційності [30]. (Звісно, конфіденційність не є автоматичною – розробники все одно повинні обережно поводитися з даними, що зберігаються, – але довіряти пристроям, які не надсилають вашу інформацію постійно, легше.) Технічні директори часто підкреслюють цей аспект. Генеральний директор Qualcomm Крістіано Амон зазначив, що поєднання хмарного й локального інтелекту може підвищити персоналізацію зберігаючи дані захищеними на пристрої – він називає це «гібридним майбутнім», де AI на пристрої співпрацює з хмарним AI для досягнення найкращого з обох світів [31].
  • Доступність офлайн і надійність: Пристрої з NPU/TPU не залежать від підключення до мережі. Вони можуть працювати в метро, літаку, віддалених сільських районах або під час перебоїв у мережі. Це дуже важливо для надійності. Функція голосового введення на пристрої працюватиме навіть без сигналу. Дрон із вбудованим AI для комп’ютерного зору зможе уникати перешкод навіть поза мережею. Така незалежність також критична для систем із критичним значенням: наприклад, роботи для ліквідації наслідків катастроф або медичні пристрої, які не можуть розраховувати на постійне підключення до інтернету. «Офлайн-функціональність» – це ключова перевага AI на пристрої [32] – вона гарантує, що функція AI буде доступна завжди й всюди, коли це потрібно.
  • Ефективність витрат у масштабі: Постійна відправка сирих даних у хмару для обробки AI може бути дуже дорогою (хмарні обчислення не безкоштовні) і вимагати великої пропускної здатності. У міру поширення AI-функцій компаніям довелося б платити величезні рахунки за хмарну обробку, якби кожне завдання виконувалося на сервері. Виконуючи більше обробки на пристрої, вони зменшують навантаження на хмарні сервери та використання мережі. Часто ефективніше витратити кілька додаткових доларів на кращий чип у пристрої, ніж платити за гігабайти хмарних обчислень протягом усього терміну служби пристрою. Аналітика Futurum зазначає, що обробка на пристрої допомагає вирішити проблеми масштабування й вартості генеративного AI – вона «розподіляє» навантаження, щоб дата-центри не були перевантажені (і користувачі/розробники не платили шалені гроші за час роботи хмарних GPU) [33].
  • Персоналізація та контекст: Нова причина: AI на пристрої може навчатися та адаптуватися до локального контексту так, як хмарний AI не завжди може. Ваш смартфон може підтримувати невелику локальну модель, яка вивчає ваш стиль написання для кращого автокоректу, не передаючи цю персональну мовну модель у хмару. Пристрої можуть об’єднувати дані з кількох сенсорів у реальному часі (це легше робити локально, ніж передавати потоки даних сенсорів у хмару). Це дозволяє створити більш персоналізований і контекстно-обізнаний досвід. Деякі функції, як-от федеративне навчання, навіть дозволяють пристроям покращувати AI-моделі спільно, не завантажуючи сирі дані (надсилаючи лише невеликі оновлення ваг).
  • Регулювання та суверенітет даних: Закони, як-от GDPR у Європі, та різні вимоги до локалізації даних дедалі частіше вимагають, щоб певні дані (особливо персональні або чутливі) не передавалися за кордон чи третім сторонам без згоди. AI на пристрої дає змогу дотримуватися цих вимог, обробляючи дані на місці. Наприклад, інструменти AI для медичної візуалізації можуть працювати на обладнанні лікарні (edge-сервери з NPU), тож дані пацієнтів ніколи не залишають приміщення, що відповідає вимогам конфіденційності. У звіті NimbleEdge за 2025 рік зазначається, що уряди просувають більше локального інференсу з міркувань суверенітету та відповідності [34].

Усі ці фактори спричиняють зміну парадигми: замість підходу “cloud-first” для AI, компанії тепер проєктують AI-функції “device-first”, коли це можливо. Як підсумував віце-президент з AI компанії Qualcomm Дурга Малладі: “Щоб ефективно масштабувати генеративний AI для масового використання, AI має працювати як у хмарі, так і на пристроях на периферії… таких як смартфони, ноутбуки, транспортні засоби та IoT-пристрої” iconnect007.com [35]гібридного AI-світу, де важке навчання та великі моделі можуть залишатися у хмарі, але багато завдань інференсу та персональних AI-досвідів виконуються локально на NPU/TPU у ваших руках і домівках. Насправді, Амон називає це “переломним моментом в AI” – інференс на пристрої без затримок, де “майбутнє AI – персональне”, бо воно працює саме там, де ви є x.com [36]

AI на пристрої в дії: від смартфонів до самокерованих авто

Спеціалізовані AI-чіпи вже вбудовані у широкий спектр пристроїв навколо вас, часто непомітно роблячи їх розумнішими. Ось основні сфери, де використовуються NPU та edge TPU:

  • Смартфони та планшети: Майже всі сучасні флагманські телефони (і навіть багато середньобюджетних) зараз мають NPU або спеціальний AI-движок. Apple започаткувала цю тенденцію у 2017 році з Apple Neural Engine у чипі iPhone A11, що дозволило виконувати Face ID та Animoji на пристрої, здійснюючи до 600 мільярдів операцій/сек [37]. Сьогодні чип Apple A17 Pro (2023) має 16-ядерний Neural Engine, здатний виконувати 35 трильйонів операцій на секунду [38]. Це забезпечує такі функції, як розширене розпізнавання сцен камерою, стилі фотографій, обробку голосових команд Siri офлайн, автокорекцію, живу транскрипцію та навіть запуск трансформерних моделей для перекладу прямо на пристрої. Телефони Google Pixel також мають власні чипи (“Google Tensor” SoC) з NPU: останній Tensor G3 у Pixel 8 був “спеціально розроблений для запуску AI-моделей Google”, з оновленням усіх частин чипа (CPU, GPU, ISP) для впровадження генеративного AI на пристрої [39]. Pixel 8 може запускати найсучасніші моделі Google для перетворення тексту в мову та перекладу локально, ті самі, що раніше працювали лише в дата-центрах [40]. Він також виконує складні трюки з камерою, як-от “Best Take” для об’єднання групових фото та Audio Magic Eraser за допомогою набору AI-моделей на пристрої [41]. Samsung та інші виробники Android використовують чипи Qualcomm Snapdragon, чиї новітні NPU (Hexagon AI engine) можуть навіть запускати великі мовні моделі на телефоні – Qualcomm продемонструвала запуск LLM на 10 мільярдів параметрів і навіть генерацію зображень Stable Diffusion на телефоні з Snapdragon 8 Gen 3 [42]. AI-движок цього чипа на 98% швидший за попереднє покоління та підтримує точність INT4 для ефективності [43]. Практичний результат: ваш телефон 2024 року може робити такі речі, як підсумовування статей, відповідати на запитання чи редагувати фото за допомогою AI без потреби у хмарі. Навіть функції доступності отримують переваги: наприклад, у Pixel тепер є голосовий набір на пристрої, живі субтитри та майбутня функція опису зображень для незрячих користувачів за допомогою локальної моделі.
  • Розумні камери та системи безпеки: Камери з підтримкою ШІ використовують вбудовані NPU для миттєвого виявлення людей, облич, тварин або підозрілої поведінки. Наприклад, новітні камери безпеки EnGenius мають вбудований NPU, який виконує виявлення об’єктів і перетворює відео на метадані прямо на камері, усуваючи потребу в окремому відеореєстраторі та підвищуючи безпеку (оскільки відео можна аналізувати й зберігати локально) [44]. Це означає, що ваша камера безпеки може визначити “присутня людина” або “доставлено посилку” і надіслати лише це сповіщення, замість потокової передачі годин відео в хмарний сервіс. Аналогічно, споживчі пристрої, такі як Google Nest Cam IQ, мали вбудований чип для комп’ютерного зору (Google Edge TPU) для розпізнавання знайомих облич і розрізнення людей та домашніх тварин у полі зору. Дзеркальні та бездзеркальні камери також додають AI-процесори для таких функцій, як відстеження об’єкта, автофокусування на очах і оптимізація сцени в реальному часі. У дронах вбудовані AI-чипи допомагають уникати перешкод і здійснювати візуальну навігацію без необхідності дистанційного керування. Зокрема, Google’s Edge TPU (маленький ASIC-модуль) став популярним додатком для DIY та промислових IoT-камер – він забезпечує 4 TOPS обчислювальної потужності для завдань комп’ютерного зору, таких як виявлення людей або зчитування номерних знаків, споживаючи лише ~2 вати [45].
  • Розумний дім та IoT-пристрої: Окрім телефонів, багато розумних домашніх пристроїв мають міні-NPU. Голосові колонки (Amazon Echo, Google Nest Hub тощо) тепер часто містять чипи для локального розпізнавання мовлення. Amazon розробила AZ1 Neural Edge processor для пристроїв Echo, щоб пришвидшити виявлення ключового слова Alexa та відповіді на пристрої, скоротивши затримку вдвічі [46]. AZ1 (створений разом із MediaTek) виконує нейронну мережу, яка розпізнає “Alexa” і обробляє прості команди без звернення до хмари [47]. Це не лише робить Alexa швидшою, а й зберігає більше голосових даних приватними. Так само багато нових телевізорів, побутової техніки й навіть іграшок мають певний ШІ на пристрої – наприклад, камера розумного холодильника може локально визначати продукти та терміни придатності. Носимі пристрої також заслуговують на увагу: чип S9 у Apple Watch додав 4-ядерний Neural Engine для кращої обробки алгоритмів здоров’я та запитів Siri прямо на годиннику [48]. А в промисловості IoT-датчики з NPU можуть виконувати виявлення аномалій у даних обладнання прямо на пристрої, передаючи лише релевантні події далі (економлячи пропускну здатність і швидше реагуючи на проблеми).
  • Автомобілі (ADAS та автономія): Автомобілі стали центрами ШІ на колесах. Системи розширеної допомоги водієві (ADAS) та функції автономного водіння покладаються на комплекс вбудованих AI-акселераторів для інтерпретації відеопотоків з камер, LiDAR, радарів і прийняття рішень щодо водіння за частки секунди. Tesla відома тим, що розробила власний FSD (Full Self-Driving) Computer з двома NPU-чіпами. Чіп FSD від Tesla (HW3, представлений у 2019 році) забезпечував 144 TOPS (два NPU по 72 TOPS кожен); новіший HW4 (2023) підвищує це приблизно до 200–250 TOPS загалом (два 7-нм NPU приблизно по 100+ TOPS кожен) [49]. Це дозволяє автомобілю одночасно обробляти відео у повній роздільній здатності з 8 камер, сонару тощо через нейронні мережі для сприйняття, а також запускати деякі мовні моделі для голосових команд – усе локально всередині модуля автомобіля. Конкуруючі платформи, такі як NVIDIA Drive та Qualcomm Snapdragon Ride, також інтегрують NPU. Останній автомобільний суперкомп’ютерний чіп NVIDIA, Drive Thor, який планується для автомобілів 2025 року, може похвалитися до 1 000 TOPS на одному чіпі (і 2 000 TOPS при парному використанні двох чіпів) для підтримки автономії четвертого рівня [50]. Він поєднує GPU, CPU та спеціалізовані акселератори глибокого навчання, тому може обробляти все – від розпізнавання дорожніх знаків до AI-моніторингу водія – прямо на чіпі [51]. Ці NPU буквально рятують життя: автономний автомобіль не може чекати відповіді від хмарних серверів, якщо на дорогу вибігає дитина. Вбудований ШІ має побачити та зреагувати за десятки мілісекунд. Окрім легкових автомобілів, edge AI широко використовується й у автономних дронах, роботах-доставщиках та промислових транспортних засобах, які орієнтуються та приймають рішення за допомогою вбудованих NPU/TPU (наприклад, роботи-доставщики Nuro та багато систем автономних вантажівок використовують AI-чіпи NVIDIA або Huawei безпосередньо на пристрої).
  • Edge Computing і промисловість: У фабриках та корпоративних середовищах AI на пристрої часто реалізується у вигляді edge-серверів або шлюзів з AI-акселераторами. Замість надсилання відеопотоків з камер чи даних із сенсорів у центральну хмару, компанії встановлюють edge-бокси (іноді на базі GPU, іноді на NPU/FPGA) на місці. Вони виконують завдання на кшталт аналітики відео в реальному часі для контролю якості на виробничій лінії, виявляючи дефекти за допомогою AI-зору за мікросекунди. Медичні пристрої — ще один приклад: портативний УЗД або МРТ може мати NPU для AI-аналізу зображень прямо на пристрої, тож лікарі отримують миттєву діагностичну допомогу без потреби в інтернеті (що також краще для приватності даних пацієнта). Ритейл і міста також впроваджують AI на edge — наприклад, розумні дорожні камери з NPU для аналізу заторів і регулювання світлофорів, або камери на полицях магазинів, що відстежують запаси. Багато з них використовують спеціалізовані NPU, такі як Intel Movidius Myriad, Google Edge TPU або новачки на кшталт Hailo-8 (ізраїльський NPU, що забезпечує 26 TOPS при кількох ватах для камер). Спільна риса — ці акселератори дозволяють проводити аналіз локально, досягаючи результатів у реальному часі й передаючи мережею лише високорівневі інсайти (а не сирі дані).

Універсальність NPU/TPU на різних типах пристроїв вражає. В одну мить вони дозволяють вашому телефону розмивати фон на фото за допомогою AI, а в наступну — керують дроном чи сканують медичні знімки. Камери смартфонів тепер використовують NPU для таких функцій, як Нічний режим (інтелектуальне об’єднання кількох кадрів), портретний режим з боке, розпізнавання сцен (телефон розуміє, що ви знімаєте “захід сонця” і оптимізує кольори через AI), а також для розважальних AR-ефектів (Animoji, що відображає ваше обличчя, або фільтри Snapchat, які відстежують ваші рухи — все завдяки нейромережам на пристрої). Біометрія використовує NPU: сканери відбитків пальців з AI для визначення “живості”, розблокування по обличчю з глибинними сенсорами та AI. Аудіо також використовує їх: шумозаглушення у навушниках і телефонах тепер часто працює на AI, з NPU, які в реальному часі відокремлюють голос від фонових шумів.

Конкретний приклад інновації 2024 року: Oppo (виробник смартфонів) у партнерстві з MediaTek оголосила, що впровадила Mixture-of-Experts (MoE) AI-модель безпосередньо на пристрої наприкінці 2024 року — ймовірно, першою у телефоні [52]. Ця передова архітектура нейромереж (MoE) може підвищити продуктивність, активуючи лише релевантні “експертні” підмережі для кожного завдання, а виконання цього на пристрої означає, що телефони Oppo можуть досягати швидшої AI-обробки та кращої енергоефективності для складних завдань без допомоги хмари [53]. Це підкреслює, як навіть найсучасніші AI-дослідження швидко потрапляють у наші кишенькові пристрої завдяки вдосконаленим NPU.

Всередині AI-чипів 2025 року: останні розробки від Apple, Google, Qualcomm та інших

Гонка за створення кращого AI-обладнання на пристрої стрімко загострилася. Ось що великі компанії представили нещодавно (2024–2025) у сфері NPU/TPU та AI-силікону:

  • Apple: Стратегія Apple щодо власних чипів давно робить акцент на машинному навчанні безпосередньо на пристрої. Щороку Neural Engine від Apple стає потужнішим. У iPhone 15 Pro 2023 року Neural Engine чипа A17 Pro досяг 35 TOPS (трильйонів операцій за секунду) з 16 ядрами [54]. Це вдвічі більше сирої пропускної здатності, ніж у NPU A16, і Apple використала це для впровадження таких функцій, як розпізнавання мовлення для Siri на пристрої (нарешті обробка багатьох запитів Siri без інтернету) та нові можливості камери (наприклад, автоматичне захоплення портретного режиму та живий переклад тексту через камеру). Чипи Apple 2024 року продовжили цю тенденцію: сімейство M3 для Mac (кінець 2023 року) отримало оновлений Neural Engine (цікаво, що налаштований на 18 TOPS для базового чипа M3, з акцентом на ефективність) [55]. У 2024 році Apple представила чип M4 (для топових iPad/Mac, середина 2024 року), який, за повідомленнями, підняв Neural Engine до 38 TOPS на вдосконаленому 3нм процесі [56]. Окрім цифр, Apple активно використовує цей NPU: такі функції, як Personal Voice (яка створює клон голосу користувача після 15 хвилин тренування), працюють приватно на Neural Engine в iPhone, а транскрипції Live Voicemail виконуються локально. Apple також інтегрувала NPU у всі класи своїх пристроїв – навіть AirPods Pro мають крихітний нейронний чип для Adaptive Audio. Керівники Apple часто підкреслюють аспект приватності: “машинне навчання на вашому пристрої” означає, що ваші дані залишаються у вас. До 2025 року очікується, що Neural Engine Apple може ще більше розширитися або стати доступним для сторонніх додатків новими способами (вже зараз Core ML дозволяє розробникам його використовувати, але Apple може відкрити більше доступу до нейронних API). Також ходять чутки, що Apple розробляє окремий AI-акселератор для майбутніх окулярів чи автомобілів, але поточні продукти показують, що компанія віддає перевагу інтегрованим NPU у своїх SoC серій A та M.
  • Google: Google не лише стала піонером у створенні хмарного TPU, але й зробила ставку на AI на пристрої для телефонів Pixel та споживчих пристроїв. Google Tensor SoC (вперше представлений у 2021 році в Pixel 6) був унікальним тим, що Google, відома своїми хмарними рішеннями, створила чип для телефону, щоб запускати AI безпосередньо на пристрої. До Tensor G3 (у Pixel 8 2023 року) Google підкреслювала оновлення, які дозволяють запускати генеративний AI на пристрої. Google прямо заявила, що чип Pixel 8 приносить “дослідження Google AI безпосередньо в наші новітні телефони” [57]. Нове покоління TPU у Tensor G3 (Google досі називає AI-ядро “TPU” внутрішньо) дозволяє Pixel запускати передові моделі, такі як Palm 2 або Gemini Nano (полегшені версії великих мовних моделей Google) на пристрої для таких функцій, як підсумовування вебсайтів або покращення голосового введення [58]. Одна з головних функцій: Pixel 8 може локально запускати найкращу модель Google для перетворення тексту в мовлення (ту, що використовується в дата-центрі), що дозволяє телефону читати вебсторінки вголос природними голосами та навіть перекладати їх у реальному часі, все офлайн [59]. Google також використовує TPU у Pixel для фотографії (“HDR+” багатокадрова зйомка, Magic Eraser для видалення об’єктів за допомогою AI-inpainting [60]), для безпеки (розблокування по обличчю на пристрої через AI, що тепер вважається достатньо надійним для платежів [61]), і для мовлення (Асистент, якому не заважає, якщо ви кажете “еее”). Окрім телефонів, Google пропонує Coral Dev Board та USB-стик для ентузіастів і підприємств, щоб додати Edge TPU до своїх проєктів, кожен з яких містить Edge TPU від Google, що забезпечує 4 TOPS для задач комп’ютерного зору при дуже низькому енергоспоживанні [62]. Він використовується і в деяких власних продуктах Google, наприклад, у Nest Hub Max для розпізнавання жестів. Для Google інтеграція TPU на периферії — частина ширшої стратегії: Сундар Пічаї (CEO Google) заявив, що майбутнє AI — це доповнення кожного досвіду, і очевидно, що Google вважає, “щоб принести трансформаційну силу AI у повсякденне життя, потрібно мати доступ до нього з пристрою, яким ви користуєтеся щодня” [63] – звідси й чипи Tensor. Можна очікувати Tensor G4 у телефонах Pixel наприкінці 2024 року, можливо, на новішому техпроцесі Samsung або TSMC, з подальшим покращенням AI-продуктивності та ефективності, а можливо, й із запуском мультимодального AI на пристрої (поєднання моделей зору та мови).
  • Qualcomm: Провідний постачальник мобільних чипів для Android-смартфонів активно просуває свій AI Engine у серії Snapdragon. Snapdragon 8 Gen 2 (кінець 2022 року) представив спеціалізовану підтримку INT4 і продемонстрував генерацію зображень зі стабільною дифузією в реальному часі на телефоні. Snapdragon 8 Gen 3 (анонсований наприкінці 2023 року, у флагманських телефонах 2024 року) — це значний стрибок: Qualcomm заявляє, що їхній Hexagon NPU на 98% швидший, ніж у Gen 2, і на 40% енергоефективніший [64]. Цей чип може запускати великі мовні моделі з до 10 мільярдів параметрів повністю на пристрої, обробляючи близько 20 токенів за секунду — цього достатньо для простих розмов із AI-асистентом без хмари [65]. Також на демонстраціях було досягнуто “найшвидшої у світі генерації зображень Stable Diffusion” на мобільному пристрої [66]. Qualcomm відкрито заявляє, що генеративний AI на пристрої — ключова перевага нових телефонів. Наприклад, вони співпрацюють із Meta для оптимізації відкритої Llama 2 LLM під Snapdragon, щоб дати змогу запускати чат-бот AI на телефоні вже у 2024 році [67]. (Один із керівників Qualcomm сказав: “ми вітаємо відкритий підхід Meta… щоб масштабувати генеративний AI, він має працювати і в хмарі, і на пристрої”, підкреслюючи філософію edge AI [68].) Окрім телефонів, Qualcomm встановлює NPU і в чипи для ноутбуків (платформи Snapdragon для Windows on ARM), а їхня автомобільна платформа Snapdragon Ride використовує ті ж AI-ядра, забезпечуючи до 30 TOPS для ADAS, із дорожньою картою до сотень TOPS. У 2025 році Qualcomm навіть анонсувала новий Snapdragon X Elite CPU для ПК із потужним NPU, що сигналізує про намір кинути виклик Apple та Intel у продуктивності AI на персональних комп’ютерах. Зі зростанням AI на пристрої Qualcomm навіть почала маркувати деякі телефони як “AI phones”. Вони прогнозують, що багато додатків (від фотографії до месенджерів і продуктивності) використовуватимуть NPU. На програмному рівні Qualcomm випустила Qualcomm AI Stack для уніфікації підтримки популярних фреймворків (TensorFlow Lite, PyTorch, ONNX) на своїх NPU [69] — намагаючись спростити розробникам використання AI-апаратного забезпечення без глибоких знань про чипи.
  • MediaTek: Другий за величиною виробник мобільних чипів (відомий серією Dimensity) також оновив свої NPU. MediaTek називає свої AI-двигуни “APU” (AI Processing Unit). Наприклад, Dimensity 9200+ (2023) має APU шостого покоління з суттєвим приростом продуктивності порівняно з попереднім чипом, що дозволяє реалізувати такі функції, як генерація stable diffusion на пристрої та AI-шумозаглушення у відео. У 2024 році MediaTek анонсувала Dimensity 9400, і у партнерстві з Oppo використала його передову архітектуру NPU для впровадження нових AI-функцій (як згадувалося, AI-ремастеринг фото з видаленням віддзеркалень та усуненням розмиття у Oppo Find X8 працює на NPU MediaTek) [70]. Керівники MediaTek відкрито позиціонують себе на передовій вбудованого AI. Як сказав Вілл Чен з MediaTek, “майбутнє AI виходить за межі хмари; воно керується edge-обчисленнями прямо з вашої долоні.” На їхню думку, AI у телефонах має бути швидким, приватним, безпечним і завжди доступним [71]. MediaTek навіть створила “APU-центричну” співпрацю з Meta для підтримки фреймворків Llama, а також з виробниками пристроїв, такими як Oppo та Xiaomi, зосереджуючись на AI-камері та AI-голосових функціях. До 2025 року MediaTek планує впровадити ці NPU не лише у телефонах, а й у смарт-телевізорах (для AI-апскейлу та покращення зображення), IoT-пристроях, і навіть в автомобілях (MediaTek має автомобільну AI-платформу і співпрацює з Nvidia для інтеграції Nvidia GPU IP у авто, ймовірно, надаючи власний NPU для сенсорного AI).
  • Intel: 2024 рік ознаменував вхід Intel у сферу AI-акселераторів на масових ПК. Процесори Intel 14-го покоління Core (Meteor Lake, випущені у грудні 2023 року та перейменовані на Core Ultra у 2024 році) стали першими x86-процесорами для ПК з вбудованим нейронним процесорним модулем (NPU). NPU Meteor Lake (іноді називається VPU – Vision Processing Unit – на основі технології Movidius від Intel) забезпечує близько 8–12 TOPS AI-продуктивності [72]. Це використовується для прискорення AI-функцій Windows 11, таких як розмиття фону, зоровий контакт під час відеодзвінків, а також може використовуватися додатками для локальної транскрипції, шумозаглушення чи навіть невеликих AI-асистентів. Microsoft та Intel разом просувають концепцію “AI ПК”. Intel стверджує, що ці NPU будуть встановлені у десятках мільйонів ноутбуків у 2024 році [73]. Після Meteor Lake у дорожній карті Intel згадується Arrow Lake (для настільних ПК у 2024 році), який також містить NPU (близько 13 TOPS, трохи покращений) [74]. Цікаво, що перша спроба Intel створити настільний NPU фактично була перевершена AMD (див. нижче), і Intel вирішила використати помірний дизайн NPU, щоб не жертвувати площею GPU/CPU в ентузіастських чіпах [75]. Але наприкінці 2024 року Intel заявила, що майбутні чіпи Lunar Lake матимуть значно потужніший NPU (~45 TOPS), щоб відповідати вимогам Microsoft “Copilot” [76]. Все це свідчить про те, що Intel вважає AI обов’язковим для ПК у майбутньому – не для навчання великих моделей, а для прискорення повсякденних AI-функцій (від покращень офісних пакетів до креативних інструментів із використанням локального AI). Intel також продає edge AI-акселератори, такі як Intel Movidius Myriad (використовуються у деяких дронах, камерах) та Habana акселератори для серверів, але інтегрований NPU у Meteor Lake є важливою віхою, що приносить AI у пристрої для пересічних користувачів.
  • AMD: AMD увійшла в сферу AI на пристрої приблизно в той самий час. Її процесори для ноутбуків серії Ryzen 7040 (Phoenix), випущені у 2023 році, мали перший Ryzen AI Engine – по суті, інтегрований XDNA NPU (технологія з придбання Xilinx компанією AMD). Цей NPU забезпечував до 10 TOPS на мобільному чипі [77]. AMD рекламувала такі сценарії використання, як відеодзвінки з AI-покращенням, продуктивні додатки тощо, подібно до цілей Intel. Потім AMD короткочасно випустила настільну серію Ryzen 8000 (початок 2024 року) з NPU, що досягав 39 TOPS – дуже високий показник для AI-блоку універсального процесора, навіть перевищуючи плани Intel [78]. Однак AMD швидко змінила курс і пропустила одне покоління, зосередившись на наступній архітектурі (наступний Ryzen 9000 наприкінці 2024 року відмовився від NPU на користь оновлення ядер) [79]. Тим не менш, очікується, що AMD поверне NPU у майбутніх чипах для ПК (ймовірно, це тимчасовий відступ, поки вони працюють над інтеграцією потужного AI-двигуна без шкоди для іншої продуктивності). З боку продукту, NPU від AMD можуть відкрити цікаві можливості, оскільки AMD також має потужні GPU – така комбінація може спільно обробляти AI-навантаження (частина на NPU, частина на GPU). AMD також впроваджує AI-ядра у свої адаптивні (на базі FPGA) SoC та автомобільні чипи. Підсумовуючи, до 2025 року всі виробники x86-чипів для ПК впровадили NPU, що відповідає тому, що зробили смартфони кілька років тому, і свідчить про те, що AI-прискорення стає стандартною функцією для всіх.
  • Інші: Різноманітні спеціалізовані компанії з виробництва чипів та інші технологічні фірми також впроваджують інновації в сфері NPU. NVIDIA, відома своїми GPU, тепер включає спеціалізовані Tensor Cores у свої GPU та пропонує відкритий дизайн NVDLA (deep learning accelerator) для інтеграції у продукти типу System-on-Chip. В edge-пристроях, таких як серія NVIDIA Jetson (використовується в роботах, дронах, вбудованих системах), є як GPU, так і фіксовані “DLA” – по суті NPU – які розвантажують частину інференсу нейронних мереж з GPU. Наприклад, модуль NVIDIA Orin має 2 DLA на додаток до GPU, що забезпечує 254 TOPS AI-продуктивності для автомобілів [80]. Apple, за чутками, працює над ще більш просунутими AI-співпроцесорами або більшими нейронними рушіями для своїх AR-окулярів чи майбутніх проектів, хоча деталі залишаються в таємниці. Huawei (незважаючи на геополітичні виклики) продовжує розробляти мобільні чипи Kirin з NPU (їхня архітектура “DaVinci” NPU), а також серверні NPU у своїх AI-чипах Ascend – їхній чип Kirin 9000S 2023 року, за повідомленнями, зберігає потужний NPU для обробки зображень і мовних завдань на телефонах. Також ми бачимо стартапи, такі як Hailo, Mythic, Graphcore та інші, які пропонують власні edge AI-чипи: наприклад, Hailo-8, як згадувалося (26 TOPS у mini PCIe-картці для AI-камер), IPU Graphcore для дата-центрів (не зовсім on-device, але нова архітектура для нейромереж), Mythic працює над аналоговими NPU тощо. ARM, чиї розробки лежать в основі більшості мобільних чипів, пропонує серію Ethos NPU (наприклад, Ethos-U, Ethos-N78), яку виробники чипів можуть інтегрувати для отримання готового AI-акселератора в IoT або середньорівневих SoC. Це дозволило навіть відносно невеликим гравцям включати NPU у свої чипи, ліцензуючи розробки ARM.

Суть у тому, що від великих технологічних компаній до стартапів, усі інвестують у AI-силікон для пристроїв. Як результат, ми спостерігаємо стрімкий прогрес: нові чипи з вищими TOPS, кращою енергоефективністю (TOPS на ват) і підтримкою нових типів даних (наприклад, 4-бітна квантизація для більших моделей). Наприклад, останні чипи Qualcomm і MediaTek можуть працювати з точністю INT4, що чудово підходить для генеративних AI-моделей, де пропускна здатність пам’яті є обмеженням [81]. Ці інновації безпосередньо приносять користь користувачам – наприклад, редагування відео на мобільному в реальному часі за допомогою AI (видалення об’єктів з 4K-відео на льоту, як це може робити Snapdragon 8 Gen 3 зі своєю функцією “Video Object Eraser” [82]), або AI-співпроцесори в автомобілях, які дозволяють голосовим асистентам працювати без мережі та відповідати так швидко, як у людській розмові.

Ключові новини 2024–2025: Запуски, бенчмарки та партнерства

Щоб показати, наскільки швидко все розвивається, ось деякі головні події у світі NPU/TPU та AI на пристроях з кінця 2024 до 2025 року:

  • Презентації Apple M3 та M4 (жовтень 2023 і травень 2024): Принесли нейронні рушії наступного покоління. Neural Engine у M3 виконує 18 TOPS (16-ядерний), а у M4 цей показник зріс до 38 TOPS (також 16 ядер, але з вищою тактовою частотою/ефективністю) [83]. Apple продемонструвала, як ці чипи справляються з інтенсивними завданнями, такими як генерація зображень stable diffusion на пристрої в macOS (з Core ML Stable Diffusion розробники показали ~15 секунд на створення зображення на M2 – ще швидше на M3/M4).
  • Запуск Google Pixel 8 (жовтень 2023): Акцент на ШІ «скрізь» у пристрої. На заході Google продемонструвала підсумовування веб-сторінок і живий переклад статей на пристрої за допомогою Tensor G3 NPU. Також було представлено “Assistant with Bard”, який згодом виконуватиме частину взаємодій на пристрої. Google підкреслила, що Pixel 8 може запускати у 2 рази більше моделей на пристрої, ніж Pixel 6, і моделі, які значно складніші [84]. Іншими словами, величезний стрибок лише за два роки розвитку чипів Tensor.
  • Партнерство Qualcomm–Meta (липень 2023): Qualcomm і Meta оголосили, що оптимізують велику мовну модель Meta Llama 2 для запуску повністю на Snapdragon NPU до 2024 року [85]. Мета – дати змогу розробникам розгортати чат-ботів і генеративні ШІ-додатки на телефонах, VR-гарнітурах, ПК тощо без хмари. Це стало суттєвим визнанням ШІ на пристрої з боку великого власника ШІ-моделі (Meta) та великого виробника чипів. Наприкінці 2024 року вони оголосили про плани оптимізації Llama 3 також [86].
  • Microsoft Windows 11 “Copilot” ПК (2024): Microsoft встановила стандарт, назвавши ПК із >40 TOPS локального прискорення ШІ “AI ПК”, які мають право на розширені функції ШІ (наприклад, інтеграція цифрового помічника Copilot). Це підштовхнуло OEM-виробників – Lenovo, Dell тощо – до впровадження чипів із NPU (Intel, AMD або Qualcomm), щоб відповідати специфікації. Результат – очікувана хвиля ноутбуків із підтримкою ШІ у 2024 році, причому Microsoft заявляє про десятки моделей у дорозі та прогнозує понад 40 мільйонів поставок AI ПК у 2024 році [87].
  • Короткий анонс NPU Ryzen 8000 від AMD (січень 2024): AMD анонсувала настільний процесор із вражаючим NPU на 39 TOPS (це стало несподіванкою, оскільки зазвичай у настільних чіпах такі прискорювачі відсутні) [88]. Хоча цей продукт швидко був замінений новішим, він продемонстрував, що навіть настільні процесори можуть мати AI-силікон із TOPS, які конкурують із мобільними чіпами. Це також був перший настільний x86-процесор із вбудованим NPU (буквально випередивши Intel Arrow Lake).
  • Демонстрації Tesla FSD Beta v12 (кінець 2023): Ілон Маск продемонстрував повністю AI-керування (без радара, лише візуальні нейромережі), що працює на NPU Tesla HW3/HW4. Примітно, що нейромережа керувала автомобілем, використовуючи відеопотоки, які повністю оброблялися на комп’ютері авто в реальному часі. Спостерігачі відзначили, що FSD v12 повністю використовує 2× 100 TOPS NPU для обробки зору, а Tesla натякнула, що майбутні оновлення (HW5) з ціллю 2000 TOPS можуть бути в розробці для підтримки ще більших моделей (ходили чутки, що Tesla HW5 може орієнтуватися на 2 петаFLOPS = 2000 TOPS) [89].
  • NVIDIA Drive Thor представлено (GTC 2024): NVIDIA розкрила деталі свого наступного автомобільного чіпа Drive Thor, який має еквівалент 2× AI-обчислень свого попередника Orin – до 2000 TOPS при з’єднанні двох чіпів [90]. Важливо, що Thor позиціонується як рішення не лише для задач водіння, а й для внутрішньосалонного AI (наприклад, голосове керування та моніторинг пасажирів) на одній платформі, демонструючи, як NPU та GPU разом можуть об’єднувати багато AI-функцій в автомобілях [91]. Декілька автовиробників (Xpeng, BYD, Volvo) оголосили, що використовуватимуть Thor з 2025 року [92].
  • On-device MoE AI від Oppo (жовтень 2024): Як вже згадувалося, Oppo реалізувала модель Mixture-of-Experts на телефоні Find X8 [93]. Це важливо, оскільки MoE-моделі зазвичай великі й вважалися серверними через свою складність. Запуск MoE на пристрої свідчить про нові методи стиснення моделей і дуже потужний NPU (ймовірно, MediaTek Dimensity 9400 у цьому пристрої).
  • Meta Ray-Ban AI окуляри (2025): (Очікується) Meta продемонструвала прототипи розумних окулярів, які можуть розпізнавати те, що ви бачите, і розмовляти з вами про це – ймовірно, використовуючи вбудований спеціалізований прискорювач (Meta вже створює власні чипи для AR). Хоча подробиць мало, це підкреслює прагнення впроваджувати AI у дуже обмежені пристрої (окуляри, бездротові навушники), що вимагає надзвичайно ефективних NPU.
  • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons опублікувала результати, які демонструють AI-можливості новітніх смартфонів. Наприклад, у MLPerf Inference v3.0 (жовтень 2023) Apple A16, Google Tensor G2 та Qualcomm Gen 2 були протестовані на завданнях, таких як класифікація зображень і виявлення об’єктів. Результати показали, що Apple і Qualcomm по черзі здобували перемоги, але загалом мобільні NPU скорочують відставання від деяких прискорювачів класу ноутбуків/десктопів для цих завдань – і все це на батареї. Також було підкреслено відмінності у програмному забезпеченні (наприклад, AI SDK від Qualcomm проти Apple Core ML). Постійні щорічні покращення (двозначні % приросту) у цих тестах демонструють здорову конкуренцію та стрімкий прогрес в AI на пристроях.
  • Стратегічні партнерства: Було укладено багато міжгалузевих партнерств. Наприклад, NVIDIA та MediaTek (травень 2023) оголосили про співпрацю, щоб інтегрувати GPU-технології та програмну екосистему Nvidia у майбутні смартфонні та автомобільні чипи MediaTek, фактично поєднуючи AI-потужності Nvidia з експертизою MediaTek у мобільних SoC. Також компанії, такі як Qualcomm співпрацюють з автовиробниками (Mercedes, BMW), щоб впроваджувати платформи Snapdragon Cockpit і Ride (з NPU) у нові автомобілі для AI-функцій. Arm співпрацює з Fujitsu та іншими для створення нових AI-чипів (наприклад, AI-секція суперкомп’ютера Fugaku, хоча це високий клас). Навіть IBM і Samsung анонсували нові чипові технології (наприклад, нейроморфні обчислення та AI-пам’ять), які одного дня можуть революціонізувати NPU – поки що їх немає, але це свідчить про активні дослідження.

Загалом, минулий рік був насиченим подіями, що підкреслює: AI на пристроях – одна з найгарячіших тем у технологіях. Як зазначив один з аналітиків галузі, «ці можливості на пристроях відкривають абсолютно нові горизонти… запуск LLM на мобільних пристроях допомагає вирішити питання масштабування та вартості, зберігає приватність даних і забезпечує роботу AI навіть при обмеженому підключенні» [94]. Це добре пояснює, чому всі великі технологічні компанії інвестують у цю сферу.

Експертні думки: що кажуть лідери галузі про AI на пристроях

Потужний розвиток NPU та TPU помітний не лише у продуктах, а й у висловлюваннях лідерів галузі. Ось кілька цитат і поглядів, які висвітлюють значення AI на пристроях:

  • Крістіано Амон (CEO Qualcomm): «Якщо ШІ має стати масовим, ви побачите його роботу на пристроях… Це є поворотним моментом для ШІ: жодних проблем із затримкою — лише безшовний, безпечний, доповнюючий хмару inference на пристрої. Майбутнє ШІ — персональне, і воно починається з вашого пристрою». (інтерв’ю Bloomberg та пост у X, 2023) [95]. Амон уявляє гібридний світ ШІ, де ваш телефон/ПК виконує багато завдань на власних NPU, співпрацюючи з хмарою за потреби. Він підкреслює, що локальний запуск ШІ — ключ до його повсюдності (не можна покладатися лише на хмарні GPU — їх недостатньо у світі для мільярдів пристроїв).
  • Дурга Малладі (SVP, Qualcomm): «Ми вітаємо підхід Meta до відкритого та відповідального ШІ… Щоб ефективно масштабувати генеративний ШІ для масового використання, ШІ має працювати як у хмарі, так і на пристроях на периферії». [96] Малладі сказав це в контексті партнерства з Meta. Це підкреслює спільну думку: масштабування ШІ = хмара + периферія разом. Тепер зрозуміло, що лише хмарний ШІ не буде достатнім (через вартість, приватність і затримки), тому edge AI має розділяти навантаження.
  • Вілл Чен (заступник генерального директора, MediaTek): «Майбутнє ШІ виходить за межі хмари; воно керується edge computing прямо з вашої долоні… OPPO та MediaTek є піонерами ШІ на пристрої, забезпечуючи потужні, швидкі, приватні, безпечні та постійно доступні інтелектуальні можливості». (MediaTek Exec Talk, 2025) [97]. Ця цитата чітко підсумовує цінність ШІ на пристрої — ви отримуєте продуктивність і доступність плюс приватність і безпеку. Вона також показує, що навіть компанії, які традиційно менш помітні на Заході (як-от MediaTek), мислять на передовій впровадження ШІ.
  • Д-р Норман Ван (експерт з апаратного ШІ, CEO стартапу з виробництва чипів): «В апаратному забезпеченні ШІ, чим ближче ви розміщуєте обчислення до джерела даних, тим краще. Йдеться про зменшення переміщення даних. NPU поруч із сенсором зображення означає, що вам не потрібно передавати мегапікселі в хмару — ви отримуєте інсайти прямо на периферії. Це змінює правила гри для затримки та енергоспоживання». (панель на HotChips 2024 — перефразовано). Цей технічний інсайт пояснює, чому NPU часто розташовані на тому ж кристалі, що й інші компоненти: наприклад, у SoC телефону NPU може безпосередньо отримувати дані з камери від ISP. Мінімізація переміщення даних — ключова частина ефективного ШІ, і edge AI досягає цього, виконуючи обробку на джерелі даних.
  • Сінчжоу Ву (віце-президент з автомобільного напряму, NVIDIA): «Прискорені обчислення призвели до трансформаційних проривів, зокрема генеративного ШІ, який переосмислює автономію та транспортну індустрію». (GTC 2024 Keynote) [98]. Він обговорював, як потужні бортові комп’ютери (з NPU/GPU) дозволяють автомобілям не лише їздити, а й потенційно впроваджувати передові ШІ, такі як генеративні моделі для, наприклад, інтерфейсів природної мови в автомобілі чи кращого розуміння ситуацій. Це підкреслює, що навіть такі галузі, як автомобільна, розглядають ШІ на пристрої не лише як основну функціональність, а й як спосіб покращення користувацького досвіду (наприклад, голосові асистенти в авто, які можуть вести розмови завдяки вбудованим LLM).
  • Сундар Пічаї (CEO Google): «Майбутнє ШІ — зробити його корисним для всіх. Це означає впровадження ШІ у всі пристрої, якими ми користуємося — телефони, побутову техніку, автомобілі — щоб він був поруч, коли це потрібно. Ми хочемо зустрічати користувачів там, де вони є, із ШІ, який працює в реальному часі, на місці та зберігає приватність». (Парафраз із кількох інтерв’ю/ключових виступів). Пічаї часто говорить про «амбітний ШІ» — ідею, що ШІ буде всюди навколо нас, вбудований у речі. Просування Google із чіпами Tensor у Pixel — це пряме втілення цієї філософії.
  • Статистика галузі: Аналітики відзначають цю тенденцію у цифрах. У звіті Grand View Research за 2024 рік зазначено: «Останні досягнення у спеціалізованих чіпах ШІ та NPU дозволили складним алгоритмам ШІ працювати безпосередньо на пристроях, значно підвищуючи продуктивність та енергоефективність… ми наближаємося до переломного моменту переходу до ШІ на пристрої». [99]. У тому ж звіті прогнозується, що ринок ШІ на пристрої вибухово зростатиме у найближчі роки, а сегмент апаратного забезпечення (NPU тощо) становитиме понад 60% доходу у 2024 році та зростатиме, оскільки майже кожен новий IoT чи мобільний пристрій отримує можливості ШІ [100]. Інший прогноз від IDC та інших свідчить, що до середини 2020-х майже всі флагманські смартфони та більшість середнього сегменту матимуть ШІ-акселератори, а до 2030 року мільярди edge-чіпів ШІ будуть використовуватися від споживчої електроніки до розумної інфраструктури.

Згода серед експертів полягає в тому, що ШІ на пристрої — це не просто «приємний бонус», а необхідність для наступної хвилі технологій. Піонер ШІ Ендрю Нг часто зазначає, що «tiny AI» та edge AI дозволять інтелекту проникнути в кожен об’єкт, подібно до того, як це зробили електрика чи інтернет у попередні епохи. Долаючи обмеження лише хмарного ШІ, NPU та TPU забезпечують це проникнення.

Проблема багатьох стандартів (і спроби спростити)

Поки апаратне забезпечення швидко розвивається, екосистема програмного забезпечення та стандартів для AI на пристрої все ще наздоганяє. Розробники стикаються з хаосом інструментів і SDK, коли намагаються використовувати NPU на різних пристроях [101]. Основні моменти:
  • Кожна платформа має свій власний API або SDK: Apple має Core ML (з API для роботи з Neural Engine), Android має Neural Networks API (NNAPI) (хоча Google оголосила про плани розвивати його далі за межі Android 14) [102], Qualcomm пропонує SNPE (Snapdragon Neural Processing Engine) або ширше Qualcomm AI Stack, NVIDIA має TensorRT і CUDA для своїх пристроїв тощо. Також існують ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI та інші. Ці різні SDK часто мають різні можливості й вимагають налаштування моделей для оптимальної роботи на кожній цільовій платформі. Як зазначено у звіті про AI на пристрої за 2025 рік, “Кілька несумісних SDK (наприклад, Core ML, LiteRT, ONNX Runtime) з різною підтримкою операторів і продуктивністю” змушують розробників виконувати додаткову роботу [103].
  • Проблеми фрагментації: Модель, яка ідеально працює на настільному GPU, може не запуститися на NPU телефону – оператори (математичні функції) можуть не підтримуватися або потребувати іншої квантизації. Розробникам іноді доводиться підтримувати окремі збірки або вручну оптимізувати моделі для кожного обладнання. Це і є “низькорівнева, фрагментована екосистема” скарга [104]. Інструментів для налагодження також мало – профілювати NPU, щоб зрозуміти, чому модель працює повільно, може бути складно, особливо у порівнянні з багатими інструментами для CPU/GPU [105].
  • Зусилля зі стандартизації: Щоб вирішити цю проблему, відбувається кілька речей. ONNX (Open Neural Network Exchange) став загальним форматом, тож ви можете навчити модель у PyTorch або TensorFlow, а потім експортувати її в ONNX для розгортання. Багато середовищ виконання (включаючи пристрої, такі як Qualcomm і MediaTek) підтримують імпорт моделей ONNX і намагаються скомпілювати їх для апаратного забезпечення. Це допомагає уникнути прив’язки до одного фреймворку. Android NNAPI був спробою Google надати універсальний інтерфейс – додаток може запитати “запусти цю нейромережу” через NNAPI, і ОС використає будь-який наявний прискорювач (GPU, DSP або NPU) для її виконання. NNAPI був впроваджений на багатьох Android-пристроях, але мав обмеження, і не всі виробники надали надійні драйвери, через що Google оголосила про нову стратегію (можливо, з опорою на WebNN або прямі інтеграції з виробниками) після 2024 року [106]. На ПК Microsoft представила DirectML і Windows ML API для подібної абстракції апаратних відмінностей (дозволяючи розробнику використовувати один і той самий API для NVIDIA, Intel, AMD NPU).
  • Уніфіковані інструментарії: Компанії також створюють інструментарії для спрощення розгортання. Ми бачили AI Stack від Qualcomm, який поєднує їхній компілятор (AI Model Efficiency Toolkit) і середовища виконання, щоб розробники могли легше орієнтуватися на їхній Hexagon NPU [107]. TensorRT та пов’язані SDK від NVIDIA роблять щось подібне для пристроїв Jetson, оптимізуючи моделі для GPU+NVDLA. Intel OpenVINO – ще один приклад: він дозволяє взяти модель і оптимізувати її для Intel CPU, iGPU та VPU (NPU) для розгортання на периферії. Ці фреймворки часто містять оптимізатори моделей, які конвертують моделі (обрізання, квантування), щоб вони підходили для менших пристроїв.
  • Взаємодія: Відбувається рух у напрямку забезпечення роботи різних NPU з загальними фреймворками. Наприклад, TensorFlow Lite від Google має апаратні делегати – один для NNAPI (покриває Android-пристрої загалом), один для Core ML (iOS-пристрої), один для Edge TPU тощо. Ідея в тому, що ви пишете свою TFLite-модель, і вона буде виконуватися з використанням найкращого доступного прискорювача через делегат. Аналогічно, PyTorch додає підтримку мобільних бекендів і навіть таких речей, як Metal Performance Shaders від Apple (для використання GPU/NPU на iOS). ONNX Runtime також може орієнтуватися на різні прискорювачі через плагіни (наприклад, можна підключити TensorRT від NVIDIA або Compute Library від ARM чи інші рішення).
  • Нові стандарти:Khronos Group (розробники OpenGL/Vulkan) працювали над NNEF (Neural Network Exchange Format), а також обговорюється WebNN API для надання браузерам доступу до локального AI-прискорення. Жоден із них ще не став універсальним. Але цікава новина: наприкінці 2024 року кілька компаній створили альянс для просування стандартів “AI Hardware Common Layer” – по суті, досліджується можливість створення спільного низькорівневого інтерфейсу до NPU (аналогічно до того, як OpenCL зробив для обчислень на GPU). Але це ще на ранній стадії.
  • Досвід розробника: Це визнана проблема. Як зазначено в блозі NimbleEdge, «розробка для AI на пристрої наразі вимагає орієнтації у фрагментованій та низькорівневій екосистемі… змушуючи розробників адаптувати реалізації під кожну апаратну платформу» [108]. Індустрія розуміє, що це потрібно покращити, щоб AI на пристрої став по-справжньому масовим. Можливо, ми побачимо консолідацію – наприклад, якщо Google, Apple і Qualcomm зможуть домовитися про якийсь базовий набір операцій та API (хоча це, можливо, лише мрії). Або, що більш ймовірно, такі фреймворки, як PyTorch і TensorFlow, приховають цю складність, інтегруючи всі ці бібліотеки від виробників і обираючи потрібну під час виконання.

По суті, хоча NPU/TPU забезпечують «м’язи», спільнота працює над інструментами, дружніми до розробника, щоб використовувати ці «м’язи». Хороша новина в тому, що порівняно, скажімо, з п’ятьма роками тому, зараз є набагато більше можливостей розгорнути модель на пристрої без глибоких знань про чипи. Але є куди рости – особливо у відлагодженні, профілюванні та підтримці різного обладнання.

Тенденції ринку та майбутній прогноз

Поширення NPU та TPU в пристроях стимулює ширшу тенденцію: AI всюди. Ось кілька загальних тенденцій і чого очікувати в майбутньому:

  • Зростання ринку Edge AI: Дослідження ринку вказують на вибухове зростання апаратного забезпечення для Edge AI. Ринок AI на пристрої (включаючи чипи та програмне забезпечення) прогнозується зростати приблизно на 29% CAGR протягом десятиліття [109]. Один зі звітів оцінив його у ~$233 мільярди у 2024 році, з прогнозом понад $1,7 трильйона до 2032 року [110] – значна частина цього зростання припадає на edge-рішення. Інший аналіз від IDTechEx прогнозує, що ринок AI-чипів для edge-пристроїв досягне $22 мільярдів до 2034 року, а найбільшими сегментами будуть споживча електроніка, автомобільна галузь та промисловість [111]. Це означає, що щороку постачатимуться сотні мільйонів пристроїв з NPU як стандартним компонентом.
  • Повсюдна адаптація: Подібно до того, як сьогодні кожен смартфон має GPU (навіть якщо невеликий), ми наближаємося до моменту, коли кожен новий смартфон матиме AI-акселератор. Зараз вони є у флагманських телефонах; далі — середній ціновий сегмент. Дійсно, чипи середнього класу від Qualcomm (наприклад, серія Snapdragon 7) і MediaTek (серія Dimensity 700/800) тепер містять спрощені NPU, щоб такі функції, як AI-покращення камери та голосовий асистент, працювали і на дешевших пристроях. Окрім телефонів, NPU поширюються на ПК (стандарт у нових ноутбуках Windows від різних виробників), автомобілі (майже всі нові авто з ADAS Level 2+ мають якийсь AI-чип) та IoT. Навіть побутова техніка, як-от холодильники та пральні машини, починає рекламувати “AI”-функції (деякі з них хмарні, але деякі локальні, наприклад, адаптивні цикли на основі сенсорів). Тенденція очевидна: якщо пристрій має обчислювальний чип, він матиме якусь ML-акселерацію на цьому чипі.
  • Траєкторія продуктивності: Продуктивність AI на пристрої подвоюється приблизно кожні 1–2 роки (завдяки кращій архітектурі та переходу на передові напівпровідникові вузли, як-от 5нм, 4нм, 3нм). Neural Engine від Apple виріс з 600 мільярдів операцій/сек у 2017 до 35 трильйонів у 2023 — майже 60× зростання за шість років [112]. Флагмани Qualcomm аналогічно піднялися з кількох TOPS у 2018 до понад 27 TOPS у 2023 (загальна AI-продуктивність SD 8 Gen 3, враховуючи всі ядра). Можна очікувати, що до 2025–2026 мобільні NPU забезпечуватимуть 100+ TOPS, а ПК-акселератори ще більше, і ці цифри можуть стати менш релевантними, оскільки фокус зміщується на корисну продуктивність у конкретних AI-завданнях (наприклад, яку LLM можна плавно запускати, чи можливо робити 4K AI-відео в реальному часі). Розрив між хмарою та edge, ймовірно, скоротиться для завдань інференсу. Однак edge все ще відставатиме від хмари для абсолютно передових великих моделей через обмеження потужності та пам’яті.
  • Зростання енергоефективності: Один із недооцінених аспектів — наскільки ефективними стають ці NPU. Автомобільний NPU Tesla досягає ~4,9 TOPS/Вт [113], що було передовим рівнем кілька років тому; зараз деякі мобільні NPU заявляють про подібні або кращі показники. Ефективні NPU означають довший час роботи від батареї, навіть якщо ми більше використовуємо AI-функції. Це також означає, що впровадження AI у крихітні пристрої на батарейках стає можливим (наприклад, AI-слухові апарати, смарт-сенсори на батарейках-«таблетках», які виконують виявлення аномалій). Концепція TinyML — надзвичайно маломасштабне машинне навчання на мікроконтролерах — є продовженням цього, використовуючи спрощені “NPU” або оптимізовані інструкції на мікроконтролерах для виконання AI у сенсорах. Ethos-U NPU від ARM орієнтований саме на цей сегмент (наприклад, постійне розпізнавання ключових слів на кількох міліватах). Очікуйте більше спеціалізованих маленьких AI-чипів, які можна буде вбудовувати у сенсори, носимі пристрої та повсякденні об’єкти (Розумна зубна щітка? AI-детектор диму? Це вже на підході).
  • Гібридні хмарно-периферійні рішення: Замість того, щоб периферія повністю замінила хмару, майбутнє — у співпраці. Пристрої виконуватимуть усе можливе локально й звертатимуться до хмари лише за тим, чого не можуть зробити самостійно. Наприклад, ваші AR-окуляри можуть виконувати локальне розпізнавання сцени, щоб знати, на що ви дивитеся, але якщо ви поставите дуже складне питання (наприклад, попросите детальне пояснення), вони можуть звернутися до хмарного ШІ для потужнішого аналізу й потім показати результат. Такий гібридний підхід забезпечує найкращий баланс між швидкістю реакції та можливостями. Компанії активно розробляють досвід навколо цього: Copilot від Microsoft у Windows може використовувати локальний NPU для швидкого перетворення голосу в текст і розбору команд, а для складних завдань — хмару (якщо тільки у вас не потужний ПК із NPU, який може впоратися самостійно). Ідеально, щоб користувач навіть не знав і не замислювався, що саме використовується, окрім того, що все працює швидше й із повагою до приватності. Ми також побачимо, як федеративне навчання стане більш поширеним — моделі навчаються у хмарі, але з використанням даних, зашифрованих або оброблених на пристроях, і навпаки.
  • Нові сценарії використання: Зі зростанням потужності NPU відкриваються нові застосування. Генеративний ШІ на пристрої — один із головних напрямків: уявіть створення зображень ШІ, редагування відео ШІ та персональних чат-ботів прямо на вашому телефоні чи ноутбуці. До 2025 року ми можемо побачити перші версії офлайн-помічників, які зможуть підсумовувати ваші листи чи складати повідомлення без хмари. Переклад мов у реальному часі під час розмови (дві людини говорять різними мовами, а телефони чи навушники перекладають майже миттєво) значно покращиться завдяки обробці на пристрої (без затримок і працює будь-де). Медичний ШІ може працювати на носимих пристроях — ваш смарт-годинник виявляє фібриляцію передсердь або аналізує патерни апное сну за допомогою свого NPU. Безпека: пристрої можуть локально запускати ШІ для виявлення шкідливого ПЗ чи фішингу в реальному часі (наприклад, антивірус використовує ШІ-модель на вашому пристрої, а не хмарні сканування). А в автомобілях, окрім водіння, ШІ може персоналізувати досвід у салоні (регулювати клімат-контроль залежно від вашого настрою, визначеного камерою, спрямованою на водія, тощо). Багато з цих сценаріїв вимагають швидких ітерацій і приватності, що ідеально підходить для обробки на пристрої.
  • Конкуренція та демократизація: Великі гравці продовжуватимуть змагатися, що добре для споживачів — очікуйте маркетингу на кшталт «наш AI-чип виконує X TOPS або забезпечує Y-функцію, якої немає в інших». Але також технологія демократизується — NPU з’являються не лише у телефонах за $1000, а й у телефонах за $300, IoT-платах за $50 (Coral, Arduino Portenta тощо), а спільноти з відкритим кодом створюють крихітні AI-моделі, які ентузіасти можуть запускати на Raspberry Pi чи мікроконтролері з базовим прискорювачем. Така широка доступність означає, що інновації можуть з’явитися будь-де. Тепер навіть один розробник може створити застосунок, який використовує ШІ на пристрої для чогось цікавого, не потребуючи серверної ферми — це знижує бар’єр входу для програмного забезпечення на основі ШІ.
  • Технології майбутнього: Дивлячись у майбутнє, дослідження в галузі нейроморфних обчислень (чіпи, натхненні мозком, як Intel Loihi) та аналогових AI-чіпів можуть одного дня революціонізувати NPU, забезпечивши приріст ефективності на порядки. Такі компанії, як IBM і BrainChip, працюють над цим. Якщо це вдасться, нейроморфний чіп може дозволити складному AI працювати на крихітних пристроях з батареєю безперервно. Ми також можемо побачити 3D-стекування та нові технології пам’яті, інтегровані в NPU для подолання вузьких місць пам’яті (деякі чіпи 2025+ можуть використовувати HBM-пам’ять або нову енергонезалежну пам’ять на чіпі для швидшого живлення AI-ядер). Також очікуйте більше спеціалізації всередині AI-чіпів: наприклад, окремі прискорювачі для зору, для мовлення, для моделей рекомендацій тощо, кожен оптимізований для своєї сфери. Деякі SoC вже мають подвійні NPU (один “великий” NPU для важких завдань, один мікро-NPU у сенсорному хабі для постійних легких завдань).

Підсумовуючи, траєкторія очевидна: NPU та TPU стають такими ж стандартними й незамінними, як і CPU в сучасних обчисленнях. Вони надають пристроям можливість бути розумнішими, більш чуйними та дбайливішими до нашої приватності. Як зазначено в одному звіті, “високопродуктивні обчислювальні блоки на пристроях здебільшого відповідають за виконання складних AI-функцій, таких як розпізнавання зображень, NLP та прийняття рішень у реальному часі”, і це стимулює появу більш інтелектуальних, чуйних технологій у різних секторах [114].

Ми входимо в епоху, коли ви просто будете очікувати, що ваш пристрій розуміє й передбачає ваші потреби – ваш телефон редагує фото й пише повідомлення у вашому стилі, ваша машина уникає аварій і розважає вас за допомогою AI, ваші домашні гаджети вивчають ваші вподобання – і все це стало можливим завдяки непомітним нейронним процесорам усередині них. AI на пристрої – це не наукова фантастика; це вже тут і швидко вдосконалюється. Поєднання NPU та TPU з нашими повсякденними гаджетами робить AI персональним, всюдисущим і приватним – дійсно наближаючи потужність хмарного інтелекту на землю (або принаймні, до вашої кишені).

Джерела:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27 серпня 2024 [115]. Описує ролі та відмінності CPU, GPU, TPU та NPU в AI-навантаженнях.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 [116]. Пояснення дизайну TPU від Google (систолічні масиви, низька точність) і використання NPU в мобільних пристроях.
  • TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 [117]. Зазначає, що TPU спеціалізуються на завданнях матричної математики, а NPU імітують нейронні мережі мозку для прискорення [118].
  • NimbleEdge Blog (Neeraj Poddar). “The State of On-Device AI: What’s Missing in Today’s Landscape.” 26 червня 2025 [119]. Описує переваги on-device AI (затримка, офлайн, конфіденційність, вартість) і виклики, такі як фрагментовані SDK.
  • Qualcomm (OnQ Blog). “Bloomberg and Cristiano Amon talk on-device AI.” Липень 2023 [120]. CEO Qualcomm про важливість on-device inference для майбутнього AI (цитата з твіту про переломний момент в AI).
  • MediaTek Blog (Exec Talk by Will Chen). “Shaping the future of AI mobile experiences.” 3 березня 2025 [121]. Співпраця MediaTek та Oppo щодо NPU; цитата про edge computing у вашій руці та приклад AI ремастерингу фото за допомогою NPU.
  • I-Connect007 / Qualcomm Press. “Qualcomm works with Meta to enable on-device AI (Llama 2).” 24 липня 2023 [122]. Пресреліз із цитатою від SVP Qualcomm Дурги Малладі про масштабування генеративного AI через edge-пристрої та хмару.
  • PCWorld (Mark Hachman). “Intel’s Core Ultra CPUs keep AI simple….” 24 жовтня 2024 [123]. Описується використання Intel Arrow Lake NPU Meteor Lake (13 TOPS) і зазначається NPU AMD Ryzen 8000 на 39 TOPS та вимога Microsoft “Copilot” у 40 TOPS.
  • Ts2 (Tech Empowerment). “Поєдинок суперкомп’ютерів для автопілоту: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Вересень 2023 [124]. Надає оцінки TOPS: Tesla HW3 vs HW4 (72→100 TOPS на чип) [125], NVIDIA Thor ~1000 TOPS (або 2000 з двома чипами) [126] і цитує віце-президента NVIDIA щодо генеративного ШІ у транспорті [127].
  • Grand View Research. “Звіт про ринок AI на пристроях, 2030.” 2024 [128]. Відзначає зростання спеціалізованих AI-чипів (NPU), які дозволяють виконувати складний ШІ на пристроях, а також те, що на обладнання припадало 60,4% ринку AI на пристроях у 2024 році, завдяки смартфонам, IoT, NPU тощо.
  • Google Blog. “Google Tensor G3: AI-процесор Pixel 8 з пріоритетом на ШІ.” Жовтень 2023 [129]. Описує оновлення Tensor G3 для генеративного ШІ на пристрої, новий дизайн TPU та модель TTS на пристрої, яка дорівнює якості дата-центру.
  • Techspot. “Snapdragon 8 Gen 3 приносить генеративний ШІ на смартфони.” Жовтень 2023 [130]. Аналіз Futurum Group з деталями про AI-двигун SD8Gen3: 10-мільярдний LLM на пристрої, NPU на 98% швидше, найшвидший у світі Stable Diffusion на телефоні тощо, а також переваги LLM на пристрої для вартості/конфіденційності/офлайн [131].
  • Apple Wiki (Fandom). “Neural Engine.” Оновлено 2025 [132]. Історія версій Neural Engine з A17 Pro 35 TOPS у 2023 році тощо. Показує еволюцію від 0,6 TOPS (A11) до 35 TOPS (A17) [133] і M4 на 38 TOPS [134].
  • EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023 [135]. Приклад камери відеоспостереження з вбудованим NPU, що забезпечує AI-обробку безпосередньо на камері та локальне зберігання (NVR не потрібен).
  • EmbedL. “Amazon releases AZ1 Neural Edge Processor.” Жовт. 2020 [136]. Описується крайовий NPU Amazon AZ1 для пристроїв Echo, створений разом із MediaTek, призначений для інференсу мовлення на пристрої для зменшення затримки та залежності від хмари [137].
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

References

1. www.techtarget.com, 2. www.techtarget.com, 3. www.backblaze.com, 4. www.backblaze.com, 5. www.backblaze.com, 6. www.backblaze.com, 7. www.backblaze.com, 8. www.backblaze.com, 9. coral.ai, 10. www.backblaze.com, 11. www.techtarget.com, 12. www.backblaze.com, 13. www.techtarget.com, 14. www.techtarget.com, 15. www.techtarget.com, 16. www.backblaze.com, 17. futurumgroup.com, 18. fuse.wikichip.org, 19. fuse.wikichip.org, 20. fuse.wikichip.org, 21. ts2.tech, 22. www.backblaze.com, 23. semianalysis.com, 24. www.backblaze.com, 25. www.techtarget.com, 26. www.techtarget.com, 27. www.techtarget.com, 28. www.nimbleedge.com, 29. www.nimbleedge.com, 30. www.nimbleedge.com, 31. www.moomoo.com, 32. www.nimbleedge.com, 33. futurumgroup.com, 34. www.nimbleedge.com, 35. iconnect007.com, 36. x.com, 37. apple.fandom.com, 38. apple.fandom.com, 39. blog.google, 40. blog.google, 41. blog.google, 42. futurumgroup.com, 43. futurumgroup.com, 44. www.engeniustech.com, 45. coral.ai, 46. www.embedl.com, 47. www.embedl.com, 48. apple.fandom.com, 49. ts2.tech, 50. ts2.tech, 51. ts2.tech, 52. www.grandviewresearch.com, 53. www.grandviewresearch.com, 54. apple.fandom.com, 55. apple.fandom.com, 56. apple.fandom.com, 57. blog.google, 58. www.reddit.com, 59. blog.google, 60. blog.google, 61. blog.google, 62. coral.ai, 63. blog.google, 64. futurumgroup.com, 65. futurumgroup.com, 66. futurumgroup.com, 67. iconnect007.com, 68. iconnect007.com, 69. iconnect007.com, 70. www.mediatek.com, 71. www.mediatek.com, 72. www.pcworld.com, 73. www.pcworld.com, 74. www.pcworld.com, 75. www.pcworld.com, 76. www.pcworld.com, 77. en.wikipedia.org, 78. www.pcworld.com, 79. www.pcworld.com, 80. ts2.tech, 81. www.androidauthority.com, 82. futurumgroup.com, 83. apple.fandom.com, 84. blog.google, 85. iconnect007.com, 86. www.qualcomm.com, 87. www.pcworld.com, 88. www.pcworld.com, 89. www.notateslaapp.com, 90. ts2.tech, 91. ts2.tech, 92. ts2.tech, 93. www.grandviewresearch.com, 94. futurumgroup.com, 95. x.com, 96. iconnect007.com, 97. www.mediatek.com, 98. ts2.tech, 99. www.grandviewresearch.com, 100. www.grandviewresearch.com, 101. www.nimbleedge.com, 102. www.threads.com, 103. www.nimbleedge.com, 104. www.nimbleedge.com, 105. www.nimbleedge.com, 106. www.threads.com, 107. iconnect007.com, 108. www.nimbleedge.com, 109. www.nimbleedge.com, 110. www.nimbleedge.com, 111. www.idtechex.com, 112. apple.fandom.com, 113. fuse.wikichip.org, 114. www.grandviewresearch.com, 115. www.techtarget.com, 116. www.backblaze.com, 117. www.techtarget.com, 118. www.techtarget.com, 119. www.nimbleedge.com, 120. x.com, 121. www.mediatek.com, 122. iconnect007.com, 123. www.pcworld.com, 124. ts2.tech, 125. ts2.tech, 126. ts2.tech, 127. ts2.tech, 128. www.grandviewresearch.com, 129. blog.google, 130. futurumgroup.com, 131. futurumgroup.com, 132. apple.fandom.com, 133. apple.fandom.com, 134. apple.fandom.com, 135. www.engeniustech.com, 136. www.embedl.com, 137. www.embedl.com

Technology News

  • Nvidia CEO Jensen Huang Signals AI Rebound as Palantir Investors Bet on AI Infrastructure
    November 23, 2025, 1:08 AM EST. Nvidia just posted record results that reinforce that the AI revolution is alive and well. For its fiscal Q3, Nvidia reported $57 billion in revenue, up 62% YoY, with EPS of $1.30 and a 73.4% gross margin. The data-center segment led the way, driven by AI-focused GPUs and Blackwell chips, with sales off the charts and GPUs sold out. Management guided to about $65 billion in Q4 revenue and a gross margin near 74.8%, signaling further acceleration. Palantir Technologies remains a beneficiary of the AI wave, leveraging its Artificial Intelligence Platform (AIP) to enable real-time data-driven decisions for government and enterprise. The takeaway: demand for AI hardware and data-center software is robust, Nvidia's momentum continues, and Palantir's growth story hinges on the AI infrastructure buildout.
  • Microsoft Unleashes Full Screen Experience to All Windows 11 Gaming Handhelds
    November 23, 2025, 1:06 AM EST. Microsoft has expanded the Full Screen Experience (FSE) from the Asus ROG Xbox Ally X to all current Windows 11 gaming handhelds, including the Lenovo Legion Go, MSI Claw 8 AI+, and AYANEO devices. The feature, which streamlines Windows for gaming by booting into a consolidated interface that gathers titles from stores like Windows Store, Steam, Epic Games, and Battle.net, can be tested via the Xbox/Windows Insider program. Early users can expect a streamlined UI, faster access to games, and reduced reliance on the Start menu. While some enthusiasts previously forced enablement via registry tweaks on version 25H2, the official expansion marks a broader adoption. The move mirrors concepts like Big Picture Mode and may pave the way for broader form-factor testing beyond handhelds, including home theater PCs.
  • Could Windows 11 Phone Shell Be Next? Xbox XFSE, Widgets, and ARM Windows
    November 23, 2025, 1:04 AM EST. Is the dream of a Windows 11 Phone Full Screen Experience really crazy? The article revisits the Xbox Full Screen Experience (XFSE) and nostalgia for Windows Media Center, and asks whether Windows 11 could become a sofa-friendly, TV-like UI controlled by an Xbox controller or remote. It notes that XFSE sits atop Windows, with limited apps today, but hints at future quick access to Netflix and web apps within the Xbox shell. The piece imagines a Start Menu Full Screen Experience, an expanded Windows 11 Widgets surface, and a more open mobile launcher concept. It also ties this to Windows on Arm, Copilot+ on PC, and the Snapdragon X Elite era, arguing that ARM-native Windows could power a new generation of Windows-powered devices. Not crazy, just plausible.
  • Ceva Stock Slumps on Dilution Fears After $19.50 Secondary Offering
    November 23, 2025, 1:00 AM EST. Shares of Ceva fell as the company priced a secondary offering, raising concerns about dilution. After hours, Ceva announced plans to float 3 million new Ceva shares at $19.50 each, with underwriters including JPMorgan Chase and UBS holding an option for up to 450,000 more. The purpose cited is to increase financial flexibility, raise capital, and lift the public float, with potential for acquisitions or share repurchases. The move triggered a sharp weekly drop, with the stock down more than 22% week-to-date. The article notes the risk of dilution to the existing float of about 27 million shares. The writer sees some AI market potential but urges caution until proceeds are deployed.
  • IRS Deploys AI Agents Across Tax Divisions via Salesforce Agentforce
    November 23, 2025, 12:56 AM EST. Months after cuts to its workforce, the IRS is deploying AI agents for the first time across several divisions, powered by Salesforce's Agentforce platform. The new bots will assist the Office of Chief Counsel, Taxpayer Advocate Services, and the Office of Appeals by tasks such as generating case summaries and searching documents. Salesforce stresses the work will augment-not replace-human staff, noting that a human reviewer remains involved. The move signals a broader push to use automation in tax administration, even as critics question reliance on AI for sensitive taxpayer work. The article notes the IRS has faced significant staffing reductions and stresses that the policy and budget context could influence how extensively AI is adopted, including impacts on traditional filing programs.