NPU kontra TPU: Jak sztuczna inteligencja na urządzeniach napędza Twoje gadżety w 2025 roku

6 września, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple rozpoczęło erę AI na urządzeniach w 2017 roku dzięki Neural Engine w iPhonie A11, umożliwiając Face ID i Animoji z wydajnością do 600 miliardów operacji na sekundę.
  • W 2023 roku 16-rdzeniowy Neural Engine w iPhonie A17 Pro osiągnął około 35 TOPS, obsługując funkcje rozpoznawania mowy, fotografii i tłumaczenia na urządzeniu.
  • Google Pixel 8 (2023) wykorzystuje Tensor G3 NPU do uruchamiania modeli AI na urządzeniu, takich jak Palm 2 do tłumaczenia offline i podsumowywania.
  • Edge TPU firmy Google na Coral Dev Board zapewnia 4 TOPS przetwarzania obrazu przy kilku watach.
  • Sprzęt Tesla Full Self-Driving posiada dwa NPU: HW3 (2019) oferował około 144 TOPS, a HW4 (2023) około 200–250 TOPS.
  • NVIDIA Drive Thor (zaprezentowany w 2024) może osiągnąć do 2000 TOPS, gdy dwa układy są połączone do zadań AI w motoryzacji.
  • Hexagon NPU w Snapdragonie 8 Gen 3 (2023) firmy Qualcomm jest o 98% szybszy niż Gen 2, potrafi uruchamiać LLM-y do 10 miliardów parametrów na urządzeniu i osiągnął najszybszy na świecie mobilny Stable Diffusion w demonstracjach.
  • Dimensity 9400 firmy MediaTek (2024) z szóstą generacją APU napędza AI do remasteringu zdjęć w Oppo Find X8, sygnalizując ekspansję NPU do telewizorów, IoT i motoryzacji do 2025 roku.
  • Meteor Lake Intela, 14. generacja Core (wprowadzona w 2023; przemianowana na Core Ultra w 2024), zawiera zintegrowany NPU o wydajności około 8–12 TOPS, Arrow Lake ~13 TOPS, a Lunar Lake według plotek około 45 TOPS.
  • Ryzen 7040 Phoenix firmy AMD (2023) wprowadził Ryzen AI Engine z wydajnością do 10 TOPS, podczas gdy Ryzen 8000 desktop (początek 2024) oferował 39 TOPS, zanim AMD wstrzymało NPU w tej generacji.

W skrócie: Twój smartfon, aparat, a nawet samochód zyskują wbudowane mózgi AI – bez potrzeby chmury. Specjalne układy zwane NPU (Neural Processing Units) i TPU (Tensor Processing Units) zmieniają codzienne urządzenia w inteligentnych asystentów zdolnych do rozpoznawania twarzy, obsługi poleceń głosowych, tłumaczenia w czasie rzeczywistym, funkcji autonomicznej jazdy i wielu innych. Ta rewolucja AI na urządzeniach obiecuje błyskawiczne reakcje, lepszą prywatność i nowe funkcje, które kiedyś wydawały się możliwe tylko na superkomputerach. W tym raporcie wyjaśnimy, czym są NPU i TPU, zobaczymy, czym różnią się od CPU/GPU, i sprawdzimy, dlaczego giganci technologiczni tacy jak Apple, Google, Qualcomm i Intel ścigają się, by umieścić te „mózgi AI” we wszystkim – od telefonów po samochody. Przedstawimy też najnowsze przełomy na lata 2024–2025, opinie ekspertów, standardy branżowe i to, co czeka AI na urządzeniach w przyszłości.

Czym są NPU i TPU? (Poznaj AI-mózg swojego urządzenia)

Neural Processing Units (NPUs) to wyspecjalizowane procesory zaprojektowane do przyspieszania sztucznych sieci neuronowych – algorytmów, które napędzają nowoczesne zadania AI, takie jak rozpoznawanie obrazów, przetwarzanie mowy i inne. W przeciwieństwie do uniwersalnych procesorów CPU, NPU to application-specific integrated circuits (ASICs) dostrojone do obliczeń macierzowych i dużych, równoległych obciążeń sieci neuronowych techtarget.com. NPU „naśladuje sieci neuronowe ludzkiego mózgu, aby przyspieszyć zadania AI”, zasadniczo działając jako silicon brain wewnątrz Twojego urządzenia techtarget.com. NPUs doskonale radzą sobie z wykonywaniem inferencji (dokonywaniem przewidywań) dla modeli AI wydajnie na urządzeniu, często używając niższej precyzji numerycznej (np. 8-bitowych liczb całkowitych), aby oszczędzać energię przy zachowaniu wysokiej wydajności backblaze.com. Termin „NPU” jest czasami używany szeroko dla każdego akceleratora AI, ale częściej odnosi się do tych w urządzeniach mobilnych i brzegowych backblaze.com. Na przykład „Neural Engine” firmy Apple w iPhone’ach oraz mobilny silnik AI Samsunga to NPUs zintegrowane z ich projektami system-on-chip (SoC).

Jednostki przetwarzania tensorów (TPU) z kolei zostały stworzony przez Google jako niestandardowe układy scalone do przyspieszania uczenia maszynowego, szczególnie dla frameworka TensorFlow. TPU to rodzaj ASIC zoptymalizowanego pod kątem operacji tensorowych (mnożenia macierzy itp.), które są kluczowe dla trenowania i wnioskowania sieci neuronowych backblaze.com. Google po raz pierwszy wdrożyło TPU w swoich centrach danych w 2015 roku, aby przyspieszyć obliczenia sieci neuronowych, a później udostępniło je przez Google Cloud backblaze.com. TPU wykorzystują odmienną architekturę zwaną systolic array, która łączy wiele małych jednostek przetwarzających w siatkę, przez którą dane są przepompowywane przez łańcuch jednostek mnożących macierze backblaze.com. Ta konstrukcja pozwala osiągnąć ekstremalną przepustowość w zadaniach głębokiego uczenia. TPU Google celowo poświęcają część precyzji (używając matematyki 8-bitowej lub 16-bitowej zamiast 32-bitowych liczb zmiennoprzecinkowych) na rzecz ogromnych zysków w szybkości i wydajności backblaze.com, ponieważ wiele zadań AI nie wymaga wysokiej precyzji, aby uzyskać dokładne wyniki. Chociaż „TPU” technicznie odnosi się do układów Google, termin ten bywa czasem używany bardziej ogólnie dla każdego akceleratora „tensorowego”. Warto zauważyć, że Google produkuje także Edge TPU jako koprocesory do AI na urządzeniach, np. w produktach takich jak Coral Dev Board, osiągając 4 biliony operacji na sekundę przy kilku watach coral.ai.

W skrócie: NPU i TPU to oba krzemowe akceleratory AI, ale NPU są powszechnie wbudowywane w urządzenia mobilne/brzegowe dla wydajnego wnioskowania na urządzeniu, podczas gdy TPU (w ścisłym znaczeniu) to wysokowydajne układy (a obecnie moduły) głównie od Google, pierwotnie przeznaczone do zadań treningu i wnioskowania w chmurze/centrach danych. Oba odchodzą od tradycyjnych konstrukcji CPU/GPU, aby priorytetowo traktować równoległe operacje matematyczne dla sieci neuronowych. Jak ujął to jeden z redaktorów technologicznych, „TPU idą o krok dalej w specjalizacji, skupiając się na operacjach tensorowych, by osiągnąć wyższe prędkości i efektywność energetyczną… NPU są powszechne w urządzeniach z AI, takich jak smartfony i gadżety IoT” backblaze.com.

Czym różnią się NPU i TPU od CPU i GPU?

Tradycyjne CPU (centralne jednostki przetwarzające) są „mózgami” ogólnego przetwarzania – zoptymalizowane pod kątem elastyczności, aby obsługiwać wszelkiego rodzaju zadania, od uruchamiania systemu operacyjnego po przeglądanie internetu. Mają kilka wydajnych rdzeni, które doskonale radzą sobie z logiką sekwencyjną i różnorodnymi instrukcjami, ale nie sprawdzają się w wysoce zrównoleglonych obliczeniach matematycznych wymaganych do uczenia głębokiego techtarget.com. Gdy CPU zostaje poproszony o przetworzenie dużej sieci neuronowej, często staje się wąskim gardłem, próbując wykonać miliony mnożeń i dodawań w sekwencji lub ograniczonych równoległych partiach. Prowadzi to do wysokich opóźnień i dużego zużycia energii (tzw. wąskie gardło von Neumanna polegające na przesyłaniu dużych ilości danych między CPU a pamięcią) backblaze.com. CPU mogą wykonywać pewną pracę AI (szczególnie prostsze lub mniejsze modele, albo logikę sterującą dla programów AI techtarget.com), ale z reguły mają trudności z efektywnym skalowaniem do wymagań współczesnej AI dotyczących masowo zrównoleglonej algebry liniowej.

GPU (procesory graficzne) wprowadziły przetwarzanie równoległe na pierwszy plan. Początkowo stworzone do renderowania obrazów poprzez wykonywanie wielu prostych operacji równolegle na pikselach i wierzchołkach, GPU okazały się również bardzo dobrze przystosowane do trenowania sieci neuronowych, które także polegają na stosowaniu tych samych operacji matematycznych (iloczyny skalarne itp.) na dużych ilościach danych jednocześnie techtarget.com. GPU zawiera setki lub tysiące małych rdzeni, które mogą wykonywać obliczenia równolegle. Dzięki temu GPU są doskonałe do AI na dużą skalę, a w latach 2010. GPU (szczególnie NVIDIA z oprogramowaniem CUDA) stały się podstawowym narzędziem badań nad uczeniem głębokim. Jednak GPU są nadal dość uniwersalne – muszą obsługiwać różne zadania graficzne i zachować elastyczność, więc nie są w 100% zoptymalizowane pod kątem sieci neuronowych. Zużywają też dużo energii i wymagają starannego programowania, aby w pełni je wykorzystać (nie lubią złożonego kodu z rozgałęzieniami i najlepiej sprawdzają się w uproszczonych, zrównoleglonych zadaniach na danych) techtarget.com.

NPU i TPU idą jeszcze dalej w specjalizacji. Są one zaprojektowane specjalnie do tylko obciążeń związanych z sieciami neuronowymi. Oznacza to, że ich architektura może wyeliminować wszystko, co nie jest potrzebne do obliczeń AI, i przeznaczyć więcej krzemu na takie elementy jak jednostki mnożenia macierzy, sumatory akumulujące oraz pamięć na chipie do szybkiego przesyłania danych do i z tych jednostek matematycznych. Na przykład Google Cloud TPU to w zasadzie ogromna dwuwymiarowa macierz jednostek MAC (mnożenie-akumulacja) z inteligentną architekturą przepływu danych (systolic array), która dostarcza im operandy z dużą prędkością backblaze.com. Nie korzysta z pamięci podręcznych, wykonania spekulatywnego ani innych funkcji CPU – jest zoptymalizowany pod kątem obliczeń macierzowych. NPU w układach mobilnych podobnie integrują dedykowane rdzenie silnika neuronowego obok CPU/GPU. Te rdzenie często używają arytmetyki niskiej precyzji (np. 8-bitowe liczby całkowite jak w TPU) i wykonują wysoce równoległe obliczenia „warstwa po warstwie” dla takich zadań jak konwolucyjne sieci neuronowe. NPU może wykorzystywać „fuzjowaną” architekturę łączącą jednostki skalarne, wektorowe i tensorowe (tak robi to Hexagon NPU firmy Qualcomm), aby efektywnie obsługiwać różne operacje sieci neuronowych futurumgroup.com.

Kluczowe różnice sprowadzają się do:

  • Zestaw instrukcji i elastyczność: CPU mają szeroki, ogólny zestaw instrukcji (mogą robić wiele rzeczy, ale nie wszystkie jednocześnie). GPU mają bardziej ograniczony, ale wciąż elastyczny zestaw instrukcji zoptymalizowany pod kątem przepustowości obliczeń matematycznych. NPU/TPU mają bardzo wąski zestaw instrukcji – w zasadzie tylko operacje potrzebne do sieci neuronowych (mnożenie macierzy, konwolucje, funkcje aktywacji), często zaimplementowane jako stałe potoki lub macierze fuse.wikichip.org. Na przykład NPU Tesli do autonomicznej jazdy ma tylko 8 instrukcji w swoim ISA, skupionych na odczytach/zapisach DMA i iloczynach skalarnych fuse.wikichip.org.
  • Równoległość i rdzenie: CPU = kilka wydajnych rdzeni; GPU = tysiące prostych rdzeni; NPU/TPU = w pewnym sensie, dziesiątki tysięcy bardzo prostych ALU (jednostki MAC) ułożonych w macierz lub sieć neuronową. Jeden układ NPU może wykonywać dziesiątki bilionów operacji na sekundę – NPU w samochodzie Tesli działa z częstotliwością 2 GHz i posiada 9 216 MAC, osiągając ~37 teraoperacji na sekundę (TOPS) na rdzeń, a każdy chip FSD ma dwa NPU, co daje ~74 TOPS fuse.wikichip.org, ts2.tech. Dla porównania, wysokiej klasy CPU może osiągnąć tylko kilkaset miliardów operacji na sekundę w zadaniach AI, a GPU może osiągnąć kilka TOPS, jeśli nie używa specjalnych rdzeni tensorowych.
  • Architektura pamięci: NPU/TPU polegają na szybkiej pamięci wbudowanej i strumieniowym przesyłaniu danych. TPU omijają klasyczne wąskie gardło pamięci, stosując przepływ danych systoliczny – każda mała jednostka przekazuje dane do następnej w tym samym czasie, minimalizując odczyty/zapisy do głównej pamięci backblaze.com. Wiele NPU zawiera fragment pamięci SRAM na chipie na potrzeby wag/aktywacji (np. rdzenie NPU Tesli mają po 32 MB SRAM na lokalne przechowywanie danych sieci neuronowej) semianalysis.com. To kontrastuje z GPU/CPU, które w dużym stopniu korzystają z zewnętrznej pamięci DRAM.
  • Precyzja: CPU/GPU zazwyczaj wykonują obliczenia na liczbach zmiennoprzecinkowych 32- lub 64-bitowych. Akceleratory AI często używają 16- lub 8-bitowych liczb całkowitych (a niektóre obecnie testują 4-bitowe, a nawet 2-bitowe), ponieważ sieci neuronowe tolerują niższą precyzję. Projektanci TPU Google’a wyraźnie zauważyli, że do wnioskowania nie jest potrzebna pełna precyzja zmiennoprzecinkowa, analogicznie do „nie musisz wiedzieć dokładnie, ile kropel deszczu spada, żeby wiedzieć, że mocno pada” backblaze.com. Pozwala to NPU/TPU wykonywać więcej operacji równolegle i zużywać mniej energii na operację.
  • Zastosowania: GPU są nadal szeroko stosowane do treningu dużych modeli i do elastycznych obliczeń (i są powszechne w centrach danych oraz wydajnych komputerach PC). TPU (chmura) są przeznaczone do treningu i wnioskowania na dużą skalę w ekosystemie Google. NPU częściej spotyka się w urządzeniach brzegowych – smartfonach, kamerach, sprzęcie AGD – wykonujących wnioskowanie na już wytrenowanych modelach. Sprawdzają się w zadaniach takich jak stosowanie modelu wizji do klatki z kamery w czasie rzeczywistym lub ciągłe wykrywanie słowa-klucza asystenta głosowego przy niskim poborze mocy. Jak zauważył TechTarget: „GPU są wybierane ze względu na dostępność i opłacalność w wielu projektach ML; TPU są zwykle szybsze i mniej precyzyjne, używane przez firmy w Google Cloud; NPU są powszechnie spotykane w urządzeniach brzegowych/mobilnych do znacznie szybszego lokalnego przetwarzania” techtarget.com.

Podsumowując, CPU = wszechstronni organizatorzy, GPU = równoległe konie robocze, TPU/NPU = specjaliści od sieci neuronowych. Wszystkie mogą współpracować – w rzeczywistości, we współczesnym urządzeniu z obsługą AI, CPU często koordynuje zadania i przekazuje najbardziej wymagające obliczeniowo części do NPU/GPU w razie potrzeby techtarget.com. Ten trend specjalizacji istnieje, ponieważ jedno rozwiązanie nie jest już odpowiednie dla wszystkich w informatyce: jak zażartował jeden z redaktorów, „dodawanie milionów kolejnych tranzystorów do każdego zadania nie było dobre dla wydajności… projektanci postawili na procesory wyspecjalizowane” techtarget.com. Wyspecjalizowane NPU i TPU drastycznie przyspieszają obliczenia AI, jednocześnie utrzymując niskie zużycie energii – to kluczowa równowaga zarówno dla urządzeń zasilanych baterią, jak i serwerów o dużej gęstości.

Dlaczego AI na urządzeniu? (Edge vs. Cloud)

Po co w ogóle uruchamiać AI na swoim telefonie lub w samochodzie – dlaczego nie wysłać wszystkiego do chmury, gdzie potężne serwery (z GPU/TPU) mogą wykonać całą ciężką pracę? Istnieje kilka przekonujących powodów napędzających przejście na AI na urządzeniu, a sprowadzają się one do szybkości, prywatności, kosztów i niezawodności nimbleedge.com:

  • Natychmiastowa reakcja (niska latencja): NPU na urządzeniu może przetwarzać dane w czasie rzeczywistym, bez opóźnienia związanego z wysyłaniem danych do serwera w chmurze. Jest to kluczowe dla interaktywnych lub krytycznych z punktu widzenia bezpieczeństwa zadań AI. Na przykład system autonomicznej jazdy samochodu wykorzystujący pokładowe NPU może zidentyfikować pieszego i zahamować natychmiast, w ciągu milisekund, zamiast czekać na obliczenia w chmurze. Inteligentna kamera z NPU może wykryć intruza w momencie, gdy pojawi się w kadrze. Na Twoim telefonie AI na urządzeniu oznacza, że Twój asystent głosowy może odpowiadać szybciej i bardziej naturalnie, ponieważ nie musi ciągle „dzwonić do domu”. Zmniejszona latencja umożliwia prawdziwe podejmowanie decyzji w czasie rzeczywistym i płynniejsze doświadczenie użytkownika nimbleedge.com.
  • Prywatność i bezpieczeństwo danych: Sztuczna inteligencja działająca na urządzeniu utrzymuje Twoje dane lokalnie. Zamiast przesyłać dźwięk z mikrofonu lub obraz z kamery do chmury w celu analizy, przetwarzanie odbywa się w obrębie urządzenia. Znacząco ogranicza to narażenie wrażliwych danych. Na przykład nowoczesne smartfony wykonują rozpoznawanie twarzy (Face ID itp.) całkowicie na urządzeniu – mapa biometryczna Twojej twarzy nigdy nie opuszcza bezpiecznego obszaru telefonu. Podobnie, inteligentny aparat słuchowy lub urządzenie medyczne może analizować dane biometryczne bez przesyłania ich na jakikolwiek serwer, zachowując prywatność. Biorąc pod uwagę rosnące obawy użytkowników i regulacje dotyczące suwerenności danych, jest to ogromna zaleta. Jak ujęto to na jednym z blogów o edge AI, przetwarzanie na urządzeniu oznacza, że „dane użytkownika nie muszą być przesyłane do chmury”, zapewniając podstawową korzyść w zakresie prywatności nimbleedge.com. (Oczywiście, prywatność nie jest automatyczna – deweloperzy nadal muszą ostrożnie obchodzić się z przechowywanymi danymi – ale łatwiej zaufać urządzeniom, które nie wysyłają stale Twoich informacji na zewnątrz.) Szefowie firm technologicznych często podkreślają ten aspekt. Dyrektor generalny Qualcomma, Cristiano Amon, zauważył, że połączenie inteligencji chmurowej i tej na urządzeniu może zwiększyć personalizację przy jednoczesnym zachowaniu bezpieczeństwa danych na urządzeniu – nazywa to „hybrydową przyszłością”, w której AI na urządzeniu współpracuje z AI w chmurze, aby uzyskać to, co najlepsze z obu światów moomoo.com.
  • Dostępność offline i niezawodność: Urządzenia z NPU/TPU nie są zależne od łączności. Mogą działać w tunelu metra, w samolocie, na odludziu lub podczas awarii sieci. To ogromna zaleta pod względem niezawodności. Funkcja dyktowania głosowego na urządzeniu będzie działać nawet bez sygnału. Dron z pokładową AI do rozpoznawania obrazu może unikać przeszkód nawet poza zasięgiem sieci. Ta niezależność jest również kluczowa dla systemów o znaczeniu krytycznym: np. robotów ratunkowych lub urządzeń medycznych, które nie mogą zakładać stałego połączenia z internetem. „Funkcjonalność offline” to podstawowa zaleta AI na urządzeniu nimbleedge.com – zapewnia, że funkcja AI jest dostępna zawsze i wszędzie, gdy jest potrzebna.
  • Efektywność kosztowa na dużą skalę: Ciągłe przesyłanie surowych danych do chmury w celu przetwarzania przez AI może być bardzo kosztowne (obliczenia w chmurze nie są darmowe) i wymaga dużej przepustowości. Wraz z rozprzestrzenianiem się funkcji AI, firmy musiałyby ponosić ogromne rachunki za przetwarzanie w chmurze, jeśli każde drobne zadanie trafiałoby na serwer. Przenosząc więcej zadań na urządzenie, zmniejszają obciążenie serwerów chmurowych i zużycie sieci. Często bardziej opłaca się wydać kilka dolarów więcej na lepszy chip w urządzeniu niż płacić za gigabajty przetwarzania w chmurze przez cały okres użytkowania urządzenia. Analiza branżowa Futurum zauważyła, że przetwarzanie na urządzeniu pomaga rozwiązać problemy ze skalowaniem i kosztami generatywnej AI – „rozprasza” obciążenie, dzięki czemu centra danych nie są przeciążone (a użytkownicy/deweloperzy nie płacą fortuny za czas GPU w chmurze) futurumgroup.com.
  • Personalizacja i kontekst: Nowy powód: AI na urządzeniu może uczyć się i dostosowywać do lokalnego kontekstu w sposób, w jaki AI w chmurze może nie być w stanie. Twój smartfon może utrzymywać niewielki lokalny model, który uczy się twojego stylu pisania SMS-ów, aby lepiej działała autokorekta, bez udostępniania tego osobistego modelu językowego do chmury. Urządzenia mogą łączyć dane z wielu czujników w czasie rzeczywistym (co jest łatwiejsze lokalnie niż przesyłanie wielu strumieni danych do chmury). To może umożliwić bardziej spersonalizowane i świadome kontekstu doświadczenie. Niektóre funkcje, takie jak uczenie federacyjne, pozwalają nawet urządzeniom wspólnie ulepszać modele AI bez przesyłania surowych danych (wysyłając jedynie niewielkie aktualizacje wag).
  • Regulacje i suwerenność danych: Przepisy takie jak europejskie RODO oraz różne wymogi lokalizacji danych coraz częściej nakazują, aby określone dane (zwłaszcza dane osobowe lub wrażliwe) nie były przesyłane za granicę ani do stron trzecich bez zgody. AI na urządzeniu oferuje sposób na zgodność z przepisami poprzez przetwarzanie danych u źródła. Na przykład narzędzia AI do analizy obrazów medycznych mogą działać na sprzęcie szpitalnym (serwery brzegowe z NPU), dzięki czemu dane pacjentów nigdy nie opuszczają placówki, co odpowiada wymogom prywatności. Raport NimbleEdge z 2025 roku wskazuje na naciski rządów na bardziej lokalne wnioskowanie ze względów suwerenności i zgodności nimbleedge.com.

Wszystkie te czynniki napędzają zmianę paradygmatu: zamiast myśleć o AI w modelu „cloud-first”, firmy projektują teraz funkcje AI w modelu „device-first”, gdy to możliwe. Jak podsumował wiceprezes ds. AI w Qualcomm, Durga Malladi: „Aby skutecznie skalować generatywną AI do głównego nurtu, AI będzie musiała działać zarówno w chmurze, jak i na urządzeniach brzegowych… takich jak smartfony, laptopy, pojazdy i urządzenia IoT” iconnect007.com. Zmierzamy w stronę hybrydowego świata AI, gdzie ciężkie trenowanie i duże modele mogą być w chmurze, ale wiele zadań wnioskowania i osobistych doświadczeń AI działa lokalnie na NPU/TPU w twoich rękach i domach. W rzeczywistości Amon nazywa to „punktem zwrotnym w AI” – wnioskowanie na urządzeniu bez opóźnień, gdzie „przyszłość AI jest osobista”, bo działa dokładnie tam, gdzie jesteś x.com.

AI na urządzeniu w praktyce: od smartfonów po samochody autonomiczne

Specjalistyczne układy AI są już wbudowane w szeroką gamę urządzeń wokół ciebie, często niewidocznie czyniąc je inteligentniejszymi. Oto kilka głównych obszarów, w których wdrażane są NPU i edge TPU:

  • Smartfony i tablety: Prawie wszystkie nowoczesne flagowe telefony (a nawet wiele modeli ze średniej półki) mają dziś NPU lub dedykowany silnik AI. Apple zapoczątkowało ten trend w 2017 roku, wprowadzając Apple Neural Engine w chipie A11 w iPhonie, umożliwiając obsługę Face ID i Animoji na urządzeniu dzięki wydajności do 600 miliardów operacji na sekundę apple.fandom.com. Dziś chip Apple A17 Pro (2023) ma 16-rdzeniowy Neural Engine zdolny do 35 bilionów operacji na sekundę apple.fandom.com. Zasila to takie funkcje jak zaawansowane wykrywanie sceny aparatem, style zdjęć, polecenia głosowe Siri przetwarzane offline, autokorektę, transkrypcję na żywo, a nawet uruchamianie modeli transformerów do tłumaczenia na urządzeniu. Telefony Pixel od Google również mają własne układy scalone („Google Tensor” SoC) z NPU: najnowszy Tensor G3 w Pixel 8 został „zaprojektowany specjalnie do uruchamiania modeli AI Google”, ulepszając każdą część układu (CPU, GPU, ISP), by umożliwić generatywną AI na urządzeniu blog.google. Pixel 8 potrafi uruchamiać najnowocześniejsze modele zamiany tekstu na mowę i tłumaczenia lokalnie, te same, które wcześniej działały tylko w centrach danych blog.google. Wykonuje też złożone sztuczki aparatem, takie jak „Best Take” do łączenia zdjęć grupowych oraz Audio Magic Eraser przy użyciu zestawu modeli AI na urządzeniu blog.google. Samsung i inni producenci Androida korzystają z chipsetów Snapdragon firmy Qualcomm, których najnowsze NPU (Hexagon AI engine) potrafią nawet uruchamiać duże modele językowe na telefonie – Qualcomm zademonstrował uruchamianie LLM o 10 miliardach parametrów, a nawet generowanie obrazów Stable Diffusion na telefonie ze Snapdragonem 8 Gen 3 futurumgroup.com. Silnik AI tego chipa jest o 98% szybszy od poprzedniej generacji i obsługuje precyzję INT4 dla większej wydajności futurumgroup.com. Praktyczny efekt: Twój telefon z 2024 roku potrafi podsumowywać artykuły, odpowiadać na pytania czy edytować zdjęcia za pomocą AI bez potrzeby korzystania z chmury. Nawet funkcje dostępności zyskują: np. telefony Pixel mają teraz pisanie głosowe na urządzeniu, napisy na żywo i nadchodzącą funkcję opisywania obrazów dla niewidomych użytkowników przy użyciu lokalnego modelu.
  • Inteligentne kamery i systemy bezpieczeństwa: Kamery z obsługą AI wykorzystują wbudowane NPU do natychmiastowego wykrywania ludzi, twarzy, zwierząt lub podejrzanych zachowań. Na przykład najnowsze kamery bezpieczeństwa EnGenius mają wbudowane NPU, które obsługuje wykrywanie obiektów i konwertuje wideo na metadane bezpośrednio w kamerze, eliminując potrzebę stosowania oddzielnego rejestratora wideo i zwiększając bezpieczeństwo (ponieważ wideo może być analizowane i przechowywane lokalnie) engeniustech.com. Oznacza to, że Twoja kamera bezpieczeństwa może zdecydować „osoba obecna” lub „dostarczono paczkę” i wysłać tylko takie powiadomienie, zamiast przesyłać godziny nagrań do usługi w chmurze. Podobnie urządzenia konsumenckie, takie jak Google Nest Cam IQ, miały układ wizyjny na urządzeniu (Google Edge TPU), aby rozpoznawać znajome twarze i odróżniać ludzi od zwierząt w swoim polu widzenia. Aparaty DSLR i bezlusterkowe również dodają procesory AI do takich funkcji jak śledzenie obiektu, autofokus na oku i optymalizacja sceny w czasie rzeczywistym. W dronach, pokładowe układy AI pomagają w omijaniu przeszkód i nawigacji wizualnej bez konieczności zdalnego sterowania. Warto zauważyć, że Google’s Edge TPU (mały moduł ASIC) stał się popularnym dodatkiem do kamer DIY i przemysłowych IoT – zapewnia 4 TOPS mocy przetwarzania obrazu do zadań takich jak wykrywanie ludzi czy odczytywanie tablic rejestracyjnych, zużywając jedynie ~2 waty coral.ai.
  • Inteligentny dom i urządzenia IoT: Poza telefonami, wiele gadżetów do inteligentnego domu ma mini NPU. Głośniki aktywowane głosem (Amazon Echo, Google Nest Hub itd.) często mają teraz lokalne układy rozpoznawania mowy. Amazon opracował procesor AZ1 Neural Edge dla urządzeń Echo, aby przyspieszyć wykrywanie słowa wybudzającego Alexa i odpowiedzi na urządzeniu, skracając opóźnienie o połowę embedl.com. AZ1 (stworzony z MediaTek) uruchamia sieć neuronową, która rozpoznaje „Alexa” i przetwarza proste polecenia bez łączenia się z chmurą embedl.com. Dzięki temu Alexa działa szybciej i więcej danych głosowych pozostaje prywatnych. Podobnie wiele nowych telewizorów, urządzeń AGD, a nawet zabawek ma jakąś AI na brzegu sieci – np. kamera w inteligentnej lodówce może lokalnie rozpoznawać produkty i daty ważności. Urządzenia noszone również zasługują na uwagę: chip S9 w Apple Watch dodał 4-rdzeniowy Neural Engine, aby lepiej obsługiwać algorytmy zdrowotne AI i zapytania Siri bezpośrednio na zegarku apple.fandom.com. W przemyśle z kolei czujniki IoT z NPU mogą wykrywać anomalie w danych urządzeń bezpośrednio na brzegu sieci, zgłaszając tylko istotne zdarzenia dalej (oszczędzając przepustowość i szybciej reagując na problemy).
  • Samochody (ADAS i autonomia): Samochody stały się mobilnymi centrami AI. Zaawansowane systemy wspomagania kierowcy (ADAS) i funkcje autonomicznej jazdy opierają się na zestawie pokładowych akceleratorów AI, które interpretują obrazy z kamer, dane z LiDAR-u, radaru i podejmują decyzje dotyczące jazdy w ułamku sekundy. Tesla słynie z zaprojektowania własnego komputera FSD (Full Self-Driving) z dwoma układami NPU. Chip FSD Tesli (HW3, wprowadzony w 2019 r.) zapewniał 144 TOPS (dwa NPU po 72 TOPS każdy); nowszy HW4 (2023) zwiększa to do około 200–250 TOPS łącznie (dwa 7nm NPU po ponad 100 TOPS każdy) ts2.tech. Pozwala to samochodowi na jednoczesne przetwarzanie wideo w pełnej rozdzielczości z 8 kamer, sonaru itp. przez sieci neuronowe do percepcji, a nawet uruchamianie niektórych modeli językowych do obsługi poleceń głosowych – wszystko lokalnie, wewnątrz modułu samochodu. Konkurencyjne platformy, takie jak NVIDIA Drive i Qualcomm Snapdragon Ride, również integrują NPU. Najnowszy chip superkomputera samochodowego NVIDIA, Drive Thor, przewidziany do samochodów w 2025 roku, oferuje do 1 000 TOPS na jednym chipie (i 2 000 TOPS przy połączeniu dwóch) dla wsparcia autonomii poziomu 4 ts2.tech. Łączy GPU, CPU i dedykowane akceleratory uczenia głębokiego, dzięki czemu może obsługiwać wszystko – od rozpoznawania znaków drogowych po AI monitorujące kierowcę – bezpośrednio na chipie ts2.tech. Te NPU dosłownie ratują życie: autonomiczny samochód nie może czekać na serwery w chmurze, jeśli dziecko wybiegnie na ulicę. Pokładowa AI musi zobaczyć i zareagować w ciągu kilkudziesięciu milisekund. Poza samochodami osobowymi, szeroko stosuje się edge AI także w autonomicznych dronach, robotach dostawczych i pojazdach przemysłowych, które nawigują i podejmują decyzje dzięki pokładowym NPU/TPU (na przykład roboty dostawcze Nuro i wiele systemów autonomicznych ciężarówek korzysta z chipów AI NVIDIA lub Huawei na urządzeniu).
  • Edge Computing i przemysł: W fabrykach i środowiskach korporacyjnych AI na urządzeniu często przyjmuje formę serwerów brzegowych lub bram z akceleratorami AI. Zamiast przesyłać obrazy z kamer lub dane z czujników do centralnej chmury, firmy instalują na miejscu edge boxy (czasem oparte na GPU, czasem na NPU/FPGA). Obsługują one zadania takie jak analiza wideo w czasie rzeczywistym do kontroli jakości na linii produkcyjnej, wykrywając defekty za pomocą AI wizyjnej w mikrosekundach. Urządzenia medyczne to kolejny przykład: przenośny ultrasonograf lub MRI może mieć NPU do analizy obrazów AI na urządzeniu, dzięki czemu lekarze otrzymują natychmiastową pomoc diagnostyczną bez potrzeby połączenia z internetem (co jest też lepsze dla prywatności danych pacjenta). Handel detaliczny i miasta również wdrażają AI na brzegu – np. inteligentne kamery drogowe z NPU do analizy korków i regulacji świateł, czy kamery sklepowe monitorujące stany magazynowe. Wiele z nich korzysta ze specjalizowanych NPU, takich jak Intel Movidius Myriad, Google Edge TPU czy nowi gracze jak Hailo-8 (izraelski NPU oferujący 26 TOPS przy kilku watach dla kamer). Wspólnym mianownikiem jest to, że te akceleratory umożliwiają analizę lokalnie, osiągając wyniki w czasie rzeczywistym i przesyłając przez sieci tylko kluczowe wnioski (zamiast surowych danych).

Wszechstronność NPU/TPU w różnych typach urządzeń jest imponująca. W jednej chwili umożliwiają one Twojemu telefonowi rozmycie tła na zdjęciu za pomocą AI, a w następnej prowadzą drona lub analizują obrazy medyczne. Aparaty w smartfonach wykorzystują dziś NPU do funkcji takich jak tryb nocny (inteligentne łączenie wielu klatek), tryb portretowy z efektem bokeh, rozpoznawanie scen (telefon wie, że robisz zdjęcie „zachodu słońca” i optymalizuje kolory przez AI), a nawet do zabawnych efektów AR (Animoji odwzorowujące Twoją twarz czy filtry Snapchata śledzące ruchy – wszystko dzięki sieciom neuronowym na urządzeniu). Biometria korzysta z NPU: czytniki linii papilarnych ulepszone AI do wykrywania żywotności, odblokowywanie twarzą z czujnikami głębi i AI. Audio także je wykorzystuje: redukcja szumów w słuchawkach i telefonach jest dziś często oparta na AI, gdzie NPU w czasie rzeczywistym oddzielają głos od tła.

Konkretny przykład innowacji z 2024 roku: Oppo (producent smartfonów), we współpracy z MediaTek, ogłosił wdrożenie modelu AI Mixture-of-Experts (MoE) bezpośrednio na urządzeniu pod koniec 2024 roku – podobno jako pierwszy w telefonie grandviewresearch.com. Ta zaawansowana architektura sieci neuronowej (MoE) może zwiększyć wydajność, aktywując tylko odpowiednie „eksperckie” podsieci dla danego zadania, a realizacja tego na urządzeniu oznacza, że telefony Oppo mogą osiągać szybsze przetwarzanie AI i lepszą efektywność energetyczną przy złożonych zadaniach, bez potrzeby wsparcia chmury grandviewresearch.com. Pokazuje to, jak nawet najnowsze badania nad AI szybko trafiają do naszych urządzeń mobilnych dzięki ulepszonym NPU.

Wnętrze chipów AI 2025: najnowsze osiągnięcia Apple, Google, Qualcomm i innych

Wyścig o budowę lepszego sprzętu AI na urządzeniu gwałtownie przyspieszył. Oto przegląd tego, co główne firmy wprowadziły ostatnio (2024–2025) w zakresie NPU/TPU i układów AI:

  • Apple: Strategia Apple dotycząca własnych układów scalonych od dawna kładzie nacisk na uczenie maszynowe na urządzeniu. Każdego roku Neural Engine Apple zyskuje na mocy. W iPhonie 15 Pro z 2023 roku, chip A17 Pro miał Neural Engine osiągający 35 TOPS (bilionów operacji na sekundę) z 16 rdzeniami apple.fandom.com. To było dwukrotnie większe surowe przetwarzanie niż NPU w A16, a Apple wykorzystało to do wprowadzenia takich funkcji jak rozpoznawanie mowy na urządzeniu dla Siri (w końcu przetwarzając wiele żądań Siri bez internetu) oraz nowe możliwości aparatu (jak automatyczne przechwytywanie trybu portretowego i tłumaczenie tekstu na żywo przez aparat). Chipy Apple z 2024 roku kontynuowały ten trend: rodzina M3 dla Maców (koniec 2023) otrzymała zaktualizowany Neural Engine (co ciekawe, dostrojony do 18 TOPS w podstawowym chipie M3, z naciskiem na wydajność) apple.fandom.com. W 2024 roku Apple wprowadziło chip M4 (dla iPadów/Maców z wyższej półki, połowa 2024), który podobno podniósł Neural Engine do 38 TOPS w udoskonalonym procesie 3nm apple.fandom.com. Poza samymi liczbami, Apple faktycznie wykorzystuje ten NPU: funkcje takie jak Personal Voice (tworząca klon głosu użytkownika po 15 minutach treningu) działają prywatnie na Neural Engine w iPhone’ach, a transkrypcje Live Voicemail odbywają się lokalnie. Apple zintegrowało także NPU we wszystkich klasach swoich urządzeń – nawet AirPods Pro mają miniaturowy chip neuralny do Adaptive Audio. Przedstawiciele Apple często podkreślają aspekt prywatności: „uczenie maszynowe na twoim urządzeniu” oznacza, że twoje dane zostają u ciebie. Do 2025 roku spodziewamy się, że Neural Engine Apple może się jeszcze bardziej rozwinąć lub stać się dostępny dla aplikacji firm trzecich w nowy sposób (już teraz Core ML pozwala deweloperom z niego korzystać, ale Apple może otworzyć szerszy dostęp do neural API). Krążą też plotki, że Apple projektuje osobny akcelerator AI dla przyszłych okularów lub samochodów, ale obecne produkty pokazują, że wolą zintegrowane NPU w swoich SoC z serii A i M.
  • Google: Google nie tylko była pionierem w dziedzinie chmurowych TPU, ale także postawiła na AI na urządzeniu dla telefonów Pixel i urządzeń konsumenckich. Google Tensor SoC (po raz pierwszy wprowadzony w 2021 roku w Pixel 6) był wyjątkowy, ponieważ Google, znane z chmury, stworzyło układ do telefonu, aby uruchamiać AI na urządzeniu. W przypadku Tensor G3 (w Pixel 8 z 2023 roku) Google podkreślało ulepszenia umożliwiające generatywną AI na urządzeniu. Google wyraźnie stwierdziło, że chip w Pixel 8 przynosi „badania Google AI bezpośrednio do naszych najnowszych telefonów” blog.google. Nowej generacji TPU w Tensor G3 (Google nadal wewnętrznie nazywa rdzeń AI „TPU”) pozwala Pixelowi uruchamiać zaawansowane modele, takie jak Palm 2 czy Gemini Nano (odchudzone wersje dużych modeli językowych Google) na urządzeniu, dla funkcji takich jak podsumowywanie stron internetowych czy ulepszone pisanie głosowe reddit.com. Jedna z głównych funkcji: Pixel 8 może lokalnie uruchamiać najlepszy model zamiany tekstu na mowę Google (ten używany w centrum danych), co pozwala telefonowi czytać strony internetowe na głos naturalnymi głosami, a nawet tłumaczyć je w czasie rzeczywistym, wszystko offline blog.google. Google wykorzystuje też TPU w Pixelu do fotografii („HDR+” obrazowanie wieloklatkowe, Magic Eraser do usuwania obiektów za pomocą AI inpainting blog.google), do bezpieczeństwa (odblokowywanie twarzą na urządzeniu przez AI, obecnie uznane za wystarczająco silne do płatności blog.google) oraz do mowy (Asystent, któremu nie przeszkadza, gdy mówisz „yyy”). Poza telefonami Google oferuje Coral Dev Board i stick USB dla hobbystów i firm, aby dodać Edge TPU do swoich projektów, każdy zawierający Edge TPU Google, który zapewnia 4 TOPS dla zadań wizji przy bardzo niskim poborze mocy coral.ai. Jest używany w niektórych produktach Google, takich jak Nest Hub Max do rozpoznawania gestów. Dla Google integracja TPU na brzegu jest częścią szerszej strategii: Sundar Pichai (CEO Google) powiedział, że przyszłość AI polega na wzmacnianiu każdego doświadczenia i wyraźnie Google uważa, że „aby przynieść transformacyjną moc AI do codziennego życia, musisz mieć do niej dostęp z urządzenia, którego używasz na co dzień” blog.google – stąd chipy Tensor. Możemy spodziewać się Tensor G4 w telefonach Pixel pod koniec 2024 roku, być może zbudowanego w nowszym procesie Samsunga lub TSMC, co jeszcze bardziej poprawi wydajność i efektywność AI, a może nawet umożliwi AI multimodalną na urządzeniu (łączącą modele wizji i języka).
  • Qualcomm: Wiodący dostawca układów mobilnych dla telefonów z Androidem agresywnie promuje swój AI Engine w serii Snapdragon. Snapdragon 8 Gen 2 (koniec 2022) wprowadził dedykowane wsparcie INT4 i zaprezentował generowanie obrazów stable diffusion w czasie rzeczywistym na telefonie. Snapdragon 8 Gen 3 (zapowiedziany pod koniec 2023, w flagowych telefonach 2024) to duży skok: Qualcomm twierdzi, że jego Hexagon NPU jest 98% szybszy niż w Gen 2 i o 40% bardziej energooszczędny futurumgroup.com. Ten układ może uruchamiać duże modele językowe z nawet 10 miliardami parametrów całkowicie na urządzeniu, przetwarzając około 20 tokenów na sekundę – wystarczająco do prostych rozmów z asystentem AI bez chmury futurumgroup.com. W demonstracjach osiągnął także „najszybsze na świecie generowanie obrazów Stable Diffusion” na urządzeniu mobilnym futurumgroup.com. Qualcomm otwarcie podkreśla, że generatywna AI na urządzeniu to kluczowy atut nowych telefonów. Na przykład nawiązali współpracę z Meta, aby zoptymalizować otwartoźródłowy Llama 2 LLM dla Snapdragona, dążąc do umożliwienia uruchamiania chatbota AI na telefonie do 2024 roku iconnect007.com. (Jeden z dyrektorów Qualcomma powiedział: „doceniamy otwarte podejście firmy Meta… aby generatywna AI mogła się rozwijać, musi działać zarówno w chmurze, jak i na brzegu sieci”, wzmacniając filozofię edge AI iconnect007.com.) Poza telefonami, Qualcomm umieszcza NPU w układach do laptopów (platformy obliczeniowe Snapdragon dla Windows na ARM) – a ich platforma motoryzacyjna Snapdragon Ride wykorzystuje te same rdzenie AI, oferując do 30 TOPS dla ADAS, z planami rozwoju do setek TOPS. W 2025 roku Qualcomm ogłosił nawet nowy Snapdragon X Elite CPU dla komputerów PC, który zawiera mocne NPU, sygnalizując chęć rywalizacji z Apple i Intelem w zakresie wydajności AI w komputerach osobistych. Wraz ze wzrostem znaczenia AI na urządzeniu, Qualcomm faktycznie oznacza niektóre telefony jako „AI phones”. Przewidują, że wiele aplikacji (od fotografii, przez komunikację, po produktywność) będzie wykorzystywać NPU. Po stronie oprogramowania Qualcomm wypuścił Qualcomm AI Stack, aby ujednolicić wsparcie dla popularnych frameworków (TensorFlow Lite, PyTorch, ONNX) na swoich NPU iconnect007.com – próbując ułatwić deweloperom korzystanie ze sprzętu AI bez głębokiej wiedzy o układach scalonych.
  • MediaTek: Drugi największy producent układów mobilnych (znany z serii Dimensity) również zmodernizował swoje NPU. MediaTek nazywa swoje silniki AI „APU” (AI Processing Unit). Na przykład Dimensity 9200+ (2023) posiada szóstej generacji APU z znacznym wzrostem wydajności w porównaniu do poprzedniego układu, umożliwiając funkcje takie jak stabilna dyfuzja na urządzeniu oraz redukcja szumów AI w wideo. W 2024 roku MediaTek ogłosił Dimensity 9400, a we współpracy z Oppo wykorzystali zaawansowaną architekturę NPU do wprowadzenia nowych funkcji AI (jak wspomniano, AI photo remastering w Oppo Find X8 z usuwaniem odbić i wyostrzaniem jest napędzane przez NPU MediaTeka) mediatek.com. Przedstawiciele MediaTek wyraźnie pozycjonują się na czele rozwoju AI na urządzeniach. Jak ujął to Will Chen z MediaTek: „przyszłość AI wykracza poza chmurę; napędza ją edge computing prosto z twojej dłoni.” Według nich AI w telefonach musi być szybka, prywatna, bezpieczna i stale dostępna mediatek.com. MediaTek nawiązał nawet „APU-centryczną” współpracę z Meta, aby wspierać frameworki Llama oraz z producentami urządzeń, takimi jak Oppo i Xiaomi, koncentrując się na funkcjach AI aparatu i AI głosowych. Do 2025 roku MediaTek planuje wdrożyć te NPU nie tylko w telefonach, ale także w smart TV (do AI upscalingu i poprawy obrazu), urządzeniach IoT, a nawet w samochodach (MediaTek posiada platformę AI dla motoryzacji i współpracuje z Nvidią w celu integracji Nvidia GPU IP do aut, przy jednoczesnym dostarczaniu własnego NPU do AI sensorów).
  • Intel: Rok 2024 oznaczał wejście Intela na rynek akceleratorów AI w komputerach PC dla masowego odbiorcy. 14. generacja procesorów Intel Core (Meteor Lake, wprowadzona na rynek w grudniu 2023 i przemianowana na Core Ultra w 2024) to pierwszy procesor PC x86 z wbudowaną jednostką przetwarzania neuronowego (NPU). NPU w Meteor Lake (czasami nazywane VPU – Vision Processing Unit – oparte na technologii Movidius Intela) oferuje około 8–12 TOPS wydajności AI pcworld.com. Jest to wykorzystywane do przyspieszania funkcji AI w Windows 11, takich jak rozmycie tła, kontakt wzrokowy podczas rozmów wideo, a także może być używane przez aplikacje do takich zadań jak lokalna transkrypcja, tłumienie szumów czy nawet małe asystenty AI. Microsoft i Intel wspólnie promują koncepcję „AI PC”. Intel twierdzi, że te NPU trafią do dziesiątek milionów laptopów w 2024 roku pcworld.com. Po Meteor Lake, w planach Intela znajduje się Arrow Lake (dla komputerów stacjonarnych w 2024), który również będzie wyposażony w NPU (około 13 TOPS, nieco ulepszony) pcworld.com. Co ciekawe, pierwsza próba Intela z NPU dla komputerów stacjonarnych została faktycznie prześcignięta przez AMD (patrz poniżej), a Intel zdecydował się na umiarkowany projekt NPU, aby nie poświęcać powierzchni GPU/CPU w układach dla entuzjastów pcworld.com. Jednak pod koniec 2024 roku Intel zapowiedział, że przyszłe układy Lunar Lake będą wyposażone w znacznie mocniejsze NPU (~45 TOPS), aby sprostać wymaganiom Microsoftu dotyczącym „Copilota” pcworld.com. Wszystko to wskazuje, że Intel postrzega AI jako niezbędny element komputerów PC w przyszłości – nie do trenowania ogromnych modeli, lecz do przyspieszania codziennych doświadczeń opartych na AI (od ulepszeń pakietów biurowych po narzędzia kreatywne wykorzystujące lokalną AI). Intel sprzedaje także akceleratory AI dla edge, takie jak Intel Movidius Myriad (wykorzystywane w niektórych dronach, kamerach) oraz akceleratory Habana dla serwerów, ale zintegrowane NPU w Meteor Lake to kamień milowy wprowadzający AI do przeciętnego urządzenia konsumenckiego.
  • AMD: AMD wkroczyło w obszar AI na urządzeniach mniej więcej w tym samym czasie. Procesory laptopowe Ryzen serii 7040 (Phoenix) wydane w 2023 roku posiadały pierwszy Ryzen AI Engine – w zasadzie zintegrowany XDNA NPU (technologia z przejęcia Xilinx przez AMD). Ten NPU osiągał do 10 TOPS na układzie mobilnym en.wikipedia.org. AMD promowało zastosowania takie jak wideorozmowy wspomagane AI, aplikacje produktywnościowe i podobne, zbliżone do celów Intela. Następnie AMD na krótko wprowadziło na rynek serię desktopową Ryzen 8000 (początek 2024) z NPU osiągającym 39 TOPS – bardzo wysoki wynik jak na jednostkę AI w uniwersalnym CPU, nawet przewyższający plany Intela pcworld.com. Jednak AMD szybko zmieniło kierunek i pominęło jedną generację, skupiając się na kolejnej architekturze (następny Ryzen 9000 pod koniec 2024 roku zrezygnował z NPU na rzecz ulepszenia rdzeni) pcworld.com. Niemniej jednak, oczekuje się, że AMD przywróci NPU w przyszłych układach PC (prawdopodobnie jest to tymczasowe wycofanie, podczas gdy pracują nad integracją mocnego silnika AI bez kompromisów w innych aspektach wydajności). Po stronie produktowej, NPU AMD mogą umożliwić ciekawe rozwiązania, ponieważ AMD ma także mocne GPU – taka kombinacja może wspólnie obsługiwać zadania AI (część na NPU, część na GPU). AMD umieszcza także rdzenie AI w swoich adaptacyjnych (opartych na FPGA) SoC i układach motoryzacyjnych. Podsumowując, do 2025 roku wszyscy producenci układów x86 do komputerów PC wdrożyli NPU, podążając śladem smartfonów sprzed kilku lat, co wskazuje, że akceleracja AI staje się standardową funkcją we wszystkich segmentach.
  • Inni: Różne wyspecjalizowane firmy produkujące układy scalone oraz inne firmy technologiczne również wprowadzają innowacje w dziedzinie NPU. NVIDIA, znana z GPU, obecnie zawiera dedykowane Tensor Cores w swoich GPU i oferuje otwarty projekt NVDLA (akcelerator uczenia głębokiego) do integracji z produktami typu System-on-Chip. W urządzeniach brzegowych, takich jak seria NVIDIA Jetson (używana w robotach, dronach, systemach wbudowanych), znajdują się zarówno GPU, jak i stałofunkcyjne „DLA” – w zasadzie NPU – które odciążają GPU w zakresie wnioskowania sieci neuronowych. Moduł Orin od NVIDIA, na przykład, ma 2 DLA oprócz GPU, co przyczynia się do 254 TOPS wydajności AI dla samochodów ts2.tech. Apple według plotek pracuje nad jeszcze bardziej zaawansowanymi koprocesorami AI lub większymi silnikami neuronowymi do swoich okularów AR lub przyszłych projektów, choć szczegóły są tajne. Huawei (pomimo wyzwań geopolitycznych) nadal projektuje mobilne układy Kirin z NPU (ich architektura NPU „DaVinci”) oraz serwerowe NPU w swoich chipach Ascend AI – ich układ Kirin 9000S z 2023 roku podobno zachowuje mocne NPU do zadań obrazowych i językowych w telefonach. Widzimy także startup’y takie jak Hailo, Mythic, Graphcore i inne, oferujące własne układy AI na brzegu: np. Hailo-8 jak wspomniano (26 TOPS w mini karcie PCIe do kamer AI), IPU Graphcore’a do centrów danych (nie do końca na urządzeniu, ale nowa architektura dla sieci neuronowych), Mythic pracujący nad analogowymi NPU itd. ARM, którego projekty leżą u podstaw większości układów mobilnych, oferuje serię Ethos NPU (takie jak Ethos-U, Ethos-N78), które producenci chipów mogą zintegrować, aby uzyskać gotowy akcelerator AI w IoT lub SoC średniej klasy. Pozwoliło to nawet stosunkowo mniejszym graczom na włączenie NPU do swoich układów poprzez licencjonowanie projektu ARM.

Podsumowując: od wielkich firm technologicznych po startupy, wszyscy inwestują w układy AI na urządzeniu. W rezultacie obserwujemy szybkie postępy: nowe układy oferujące wyższe TOPS, lepszą wydajność (TOPS na wat) i obsługę nowych typów danych (np. 4-bitowa kwantyzacja dla większych modeli). Na przykład najnowsze układy Qualcomm i MediaTek obsługują precyzję INT4, co jest świetne dla modeli generatywnych AI, gdzie przepustowość pamięci jest ograniczeniem androidauthority.com. Te innowacje przekładają się bezpośrednio na korzyści dla użytkowników – np. mobilna edycja wideo AI w czasie rzeczywistym (usuwanie obiektów z wideo 4K na bieżąco, jak potrafi Snapdragon 8 Gen 3 dzięki funkcji AI „Video Object Eraser” futurumgroup.com), czy koprocesory AI w samochodach umożliwiające asystentów głosowych działających bez sieci i reagujących tak szybko jak rozmowa z człowiekiem.

Najważniejsze wiadomości z lat 2024–2025: premiery, benchmarki i partnerstwa

Aby zobrazować, jak szybko postępuje rozwój, oto kilka najważniejszych wydarzeń w świecie NPU/TPU i AI na urządzeniu od końca 2024 do 2025 roku:

  • Prezentacje Apple M3 i M4 (październik 2023 i maj 2024): Wprowadziły silniki neuronowe nowej generacji. Neural Engine w M3 osiąga 18 TOPS (16-rdzeniowy), a w M4 wzrósł do 38 TOPS (nadal 16-rdzeniowy, ale z wyższym taktowaniem/efektywnością) apple.fandom.com. Apple zaprezentowało te układy podczas obsługi wymagających zadań, takich jak generowanie obrazów stable diffusion na urządzeniu w macOS (z Core ML Stable Diffusion, deweloperzy pokazali ~15 sekund na wygenerowanie obrazu na M2 – jeszcze szybciej na M3/M4).
  • Premiera Google Pixel 8 (październik 2023): Podkreślono obecność AI „wszędzie” w urządzeniu. Podczas wydarzenia Google zaprezentowało podsumowywanie stron internetowych i tłumaczenie artykułów na żywo na urządzeniu przez Pixel 8, wykorzystując NPU Tensor G3. Wprowadzono także „Assistant with Bard”, który docelowo będzie obsługiwał część interakcji na urządzeniu. Google podkreśliło, że Pixel 8 może uruchamiać 2× więcej modeli na urządzeniu niż Pixel 6, a same modele są znacznie bardziej zaawansowane blog.google. Innymi słowy, ogromny postęp w zaledwie dwa lata rozwoju chipów Tensor.
  • Partnerstwo Qualcomm–Meta (lipiec 2023): Qualcomm i Meta ogłosiły, że optymalizują duży model językowy Llama 2 od Meta do uruchamiania w pełni na NPU Snapdragon do 2024 roku iconnect007.com. Celem jest umożliwienie deweloperom wdrażania chatbotów i aplikacji generatywnej AI na telefonach, goglach VR, komputerach itp., bez użycia chmury. Było to istotne poparcie dla AI na urządzeniu przez dużego właściciela modeli AI (Meta) i dużego producenta chipów. Pod koniec 2024 roku ogłoszono także plany optymalizacji Llama 3 qualcomm.com.
  • Komputery Microsoft Windows 11 „Copilot” (2024): Microsoft ustalił standard, nazywając komputery z ponad 40 TOPS lokalnej akceleracji AI „AI PC” uprawnionymi do rozszerzonych funkcji AI (jak integracja cyfrowego asystenta Copilot). To zmotywowało producentów OEM – Lenovo, Dell itd. – do stosowania układów z NPU (Intel, AMD lub Qualcomm), by spełnić wymagania. Efektem ma być przewidywana fala laptopów z AI w 2024 roku, a Microsoft zapowiada dziesiątki modeli w drodze i prognozuje ponad 40 milionów dostaw AI PC w 2024 roku pcworld.com.
  • Krótka prezentacja NPU Ryzen 8000 od AMD (styczeń 2024): AMD ogłosiło procesor desktopowy z imponującym NPU o mocy 39 TOPS (co było zaskoczeniem, ponieważ układy desktopowe zwykle nie mają takich akceleratorów) pcworld.com. Chociaż ten konkretny produkt został szybko zastąpiony, pokazał, że nawet procesory desktopowe mogą mieć układy AI dorównujące mobilnym pod względem TOPS. Był to także pierwszy desktopowy procesor x86 z NPU (minimalnie wyprzedzając Intel Arrow Lake).
  • Pokazy Tesla FSD Beta v12 (koniec 2023): Elon Musk zaprezentował end-to-end AI do jazdy (bez radaru, tylko sieci wizyjne) działające na NPU HW3/HW4 Tesli. Wyróżniała się sieć neuronowa prowadząca samochód na podstawie obrazu wideo przetwarzanego w całości na komputerze pokładowym w czasie rzeczywistym. Obserwatorzy zauważyli, że FSD v12 w pełni wykorzystywał 2× 100 TOPS NPU do przetwarzania obrazu, a Tesla zasugerowała, że przyszłe ulepszenia (HW5) celujące w 2000 TOPS mogą być w fazie rozwoju, by obsłużyć jeszcze większe modele (pojawiły się plotki, że HW5 Tesli może celować w 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
  • NVIDIA Drive Thor ujawniony (GTC 2024): NVIDIA ujawniła szczegóły swojego kolejnego układu motoryzacyjnego, Drive Thor, który oferuje równowartość 2× mocy obliczeniowej AI swojego poprzednika Orin – do 2000 TOPS przy połączeniu dwóch układów ts2.tech. Co istotne, Thor ma obsługiwać nie tylko zadania związane z prowadzeniem pojazdu, ale także AI w kabinie (np. rozpoznawanie głosu i monitorowanie pasażerów) na jednej platformie, pokazując, jak NPU i GPU mogą razem konsolidować wiele funkcji AI w samochodach ts2.tech. Kilku producentów samochodów (Xpeng, BYD, Volvo) ogłosiło, że od 2025 roku będzie korzystać z Thor ts2.tech.
  • On-device MoE AI od Oppo (październik 2024): Jak wspomniano, Oppo zaimplementowało model Mixture-of-Experts na telefonie Find X8 grandviewresearch.com. Jest to warte odnotowania, ponieważ modele MoE są zwykle duże i uznawane za domenę serwerową ze względu na złożoność. Uruchomienie MoE na urządzeniu sugeruje nowe techniki kompresji modeli i bardzo wydajny NPU (prawdopodobnie MediaTek Dimensity 9400 w tym urządzeniu).
  • Okulary AI Ray-Ban od Meta (2025): (Oczekiwane) Meta zaprezentowała prototypy inteligentnych okularów, które potrafią rozpoznawać to, co widzisz, i rozmawiać z tobą na ten temat – prawdopodobnie wykorzystując pokładowy, dedykowany akcelerator (Meta prototypuje własne układy scalone do AR). Choć szczegóły są skąpe, podkreśla to dążenie do umieszczania AI w bardzo ograniczonych urządzeniach (okulary, słuchawki na baterię), co wymagałoby ultra-wydajnych NPU.
  • Benchmarki MLPerf Mobile Inference (2023–24): MLCommons opublikowało wyniki pokazujące możliwości AI najnowszych smartfonów. Na przykład w MLPerf Inference v3.0 (październik 2023) testowano Apple A16, Google Tensor G2 i Qualcomm Gen 2 w zadaniach takich jak klasyfikacja obrazów i detekcja obiektów. Wyniki pokazały, że Apple i Qualcomm wymieniają się zwycięstwami, ale ogólnie mobilne NPU doganiają niektóre akceleratory klasy laptop/desktop w tych zadaniach – wszystko to na baterii. Podkreślono także różnice w oprogramowaniu (np. AI SDK Qualcomma vs. Apple Core ML). Ciągłe ulepszenia każdego roku (wzrosty o kilkanaście procent) w tych benchmarkach pokazują zdrową konkurencję i szybki postęp AI na urządzeniach.
  • Partnerstwa strategiczne: Powstało wiele międzybranżowych partnerstw. Np. NVIDIA i MediaTek (maj 2023) ogłosiły współpracę, aby wprowadzić IP GPU Nvidii i jej ekosystem oprogramowania do przyszłych chipów smartfonowych i motoryzacyjnych MediaTek, łącząc w ten sposób siłę AI Nvidii z doświadczeniem MediaTek w mobilnych SoC. Firmy takie jak Qualcomm współpracują z producentami samochodów (Mercedes, BMW), aby wprowadzić platformy Snapdragon Cockpit i Ride (z NPU) do nowych pojazdów z funkcjami AI. Arm współpracuje z Fujitsu i innymi nad nowymi projektami chipów AI (jak partycja AI w superkomputerze Fugaku, choć to segment high-end). Nawet IBM i Samsung zaprezentowały nowe technologie chipów (jak obliczenia neuromorficzne i pamięć AI), które pewnego dnia mogą zrewolucjonizować NPU – jeszcze ich nie ma, ale pokazuje to, że pipeline badawczy jest pełen.

Podsumowując, ostatni rok był nasycony nowościami, podkreślając, że AI na urządzeniach to jeden z najgorętszych obszarów technologii. Jak zauważył jeden z analityków branżowych, „te możliwości na urządzeniach otwierają zupełnie nowe horyzonty… uruchamianie LLM na urządzeniach mobilnych pomaga rozwiązać kwestie skali i kosztów, zapewnia prywatność danych i sprawia, że AI działa nawet przy ograniczonym połączeniu” futurumgroup.com. To właściwie podsumowuje, dlaczego każda duża firma technologiczna inwestuje w ten obszar.

Opinie ekspertów: Co liderzy technologii mówią o AI na urządzeniach

Dynamika rozwoju NPU i TPU jest widoczna nie tylko w produktach, ale także w wypowiedziach liderów branży. Oto kilka wybranych cytatów i perspektyw, które rzucają światło na znaczenie AI na urządzeniach:

  • Cristiano Amon (CEO Qualcomm): „Jeśli AI ma się skalować, zobaczysz je działające na urządzeniach… To punkt zwrotny w AI: brak opóźnień — po prostu płynne, bezpieczne, uzupełniające chmurę wnioskowanie na urządzeniu. Przyszłość AI jest osobista i zaczyna się na twoim urządzeniu.” (wywiad dla Bloomberga i post na X, 2023) x.com. Amon wyobraża sobie hybrydowy świat AI, w którym twój telefon/PC wykonuje wiele zadań na własnych NPU, współpracując z chmurą w razie potrzeby. Podkreśla, że uruchamianie AI lokalnie jest kluczowe dla jej powszechności (nie można polegać wyłącznie na chmurowych GPU – nie ma ich wystarczająco dużo na świecie dla miliardów urządzeń).
  • Durga Malladi (SVP, Qualcomm): „Doceniamy podejście Meta do otwartej i odpowiedzialnej AI… Aby skutecznie skalować generatywną AI do głównego nurtu, AI będzie musiała działać zarówno w chmurze, jak i na urządzeniach brzegowych.” iconnect007.com Malladi powiedział to w kontekście partnerstwa z Meta. Podkreśla to powszechny pogląd: skalowanie AI = współpraca chmury i edge. Obecnie panuje przekonanie, że wyłącznie chmurowa AI nie wystarczy (ze względu na koszty, prywatność i opóźnienia), więc edge AI musi przejąć część obciążenia.
  • Will Chen (Zastępca Dyrektora Generalnego, MediaTek): „Przyszłość AI wykracza poza chmurę; napędza ją edge computing prosto z twojej dłoni… OPPO i MediaTek są pionierami AI na urządzeniu, zapewniając, że inteligentne możliwości są wydajne, szybkie, prywatne, bezpieczne i stale dostępne.” (MediaTek Exec Talk, 2025) mediatek.com. Ten cytat zwięźle podsumowuje wartość AI na urządzeniu – otrzymujesz wydajność i dostępność plus prywatność i bezpieczeństwo. Pokazuje też, że nawet firmy tradycyjnie mniej widoczne na Zachodzie (jak MediaTek) myślą o wdrażaniu AI na najwyższym poziomie.
  • Dr Norman Wang (ekspert AI hardware, CEO startupu chipowego): „W sprzęcie AI im bliżej możesz umieścić obliczenia względem źródła danych, tym lepiej. Chodzi o ograniczenie przesyłania danych. NPU obok twojego sensora obrazu oznacza, że nie wysyłasz megapikseli do chmury – wyciągasz wnioski bezpośrednio na brzegu. To zmienia zasady gry pod względem opóźnień i zużycia energii.” (Panel na HotChips 2024 – parafraza). Ta techniczna uwaga wyjaśnia, dlaczego NPU często znajdują się na tym samym układzie scalonym co inne komponenty: np. w SoC telefonu NPU może bezpośrednio pobierać dane z kamery z ISP. Minimalizacja ruchu danych to ogromna część efektywnego AI, a edge AI osiąga to, przetwarzając dane u źródła.
  • Xinzhou Wu (VP ds. motoryzacji, NVIDIA): „Przyspieszone obliczenia doprowadziły do przełomowych odkryć, w tym generatywnej sztucznej inteligencji, która na nowo definiuje autonomię i branżę transportową.” (GTC 2024 Keynote) ts2.tech. Omawiał, jak potężne komputery pokładowe (z NPU/GPU) umożliwiają samochodom nie tylko jazdę, ale także potencjalne wdrożenie zaawansowanej AI, takiej jak modele generatywne do obsługi interfejsów języka naturalnego w aucie czy lepszego rozumienia sytuacji. Podkreśla to, że nawet sektory takie jak motoryzacja postrzegają AI na urządzeniu nie tylko jako kluczową funkcjonalność, ale także jako sposób na poprawę doświadczenia użytkownika (np. asystenci głosowi w samochodach, którzy mogą prowadzić rozmowy dzięki pokładowym LLM).
  • Sundar Pichai (CEO Google): „Przyszłość AI polega na tym, by była pomocna dla każdego. Oznacza to wprowadzenie AI do wszystkich urządzeń, z których korzystamy – telefonów, sprzętów domowych, samochodów – tak, by była dostępna wtedy, gdy jej potrzebujesz. Chcemy spotkać użytkowników tam, gdzie są, z AI działającą w czasie rzeczywistym, na miejscu i dbającą o prywatność.” (Parafraza z wielu wywiadów/wystąpień). Pichai często mówi o „ambient AI” – idei, że AI będzie wszędzie wokół nas, wbudowana w różne rzeczy. Działania Google z chipami Tensor w Pixelach to bezpośrednia realizacja tej filozofii.
  • Statystyki branżowe: Analitycy zauważyli ten trend w liczbach. Raport Grand View Research z 2024 roku odnotował: „Najnowsze osiągnięcia w dziedzinie wyspecjalizowanych chipów AI i NPU umożliwiły uruchamianie złożonych algorytmów AI bezpośrednio na urządzeniach, znacząco zwiększając wydajność i efektywność energetyczną… zbliżamy się do przełomowego momentu przejścia na AI na urządzeniu.” grandviewresearch.com. Ten sam raport prognozuje, że rynek AI na urządzeniu eksploduje w nadchodzących latach, a segment sprzętowy (NPU itd.) będzie stanowił ponad 60% udziału w przychodach w 2024 roku i będzie rósł, gdy niemal każde nowe urządzenie IoT lub mobilne zyska możliwości AI grandviewresearch.com. Inna prognoza IDC i innych sugeruje, że w połowie lat 20. XXI wieku prawie wszystkie smartfony z wyższej półki i większość ze średniej będą miały akceleratory AI, a do 2030 roku miliardy chipów edge AI będą wykorzystywane od elektroniki konsumenckiej po inteligentną infrastrukturę.

Konsensus wśród ekspertów jest taki, że AI na urządzeniu to nie tylko miły dodatek – to konieczność dla kolejnej fali technologii. Pionier AI Andrew Ng wielokrotnie wspominał, że „tiny AI” i edge AI pozwolą inteligencji przeniknąć do każdego obiektu, analogicznie jak wcześniej zrobiły to elektryczność czy internet. Pokonując ograniczenia AI działającej wyłącznie w chmurze, NPU i TPU umożliwiają tę penetrację.

Wyzwanie wielu standardów (i próby uproszczenia)

Podczas gdy sprzęt rozwija się szybko, ekosystem oprogramowania i standardów dla AI na urządzeniu wciąż nadrabia zaległości. Programiści napotykają dżunglę narzędzi i SDK, próbując wykorzystać NPU na różnych urządzeniach nimbleedge.com. Kluczowe punkty:
  • Każda platforma ma własne API lub SDK: Apple ma Core ML (z API umożliwiającymi korzystanie z Neural Engine), Android posiada Neural Networks API (NNAPI) (choć Google ogłosiło plany rozwoju poza Android 14) threads.com, Qualcomm oferuje SNPE (Snapdragon Neural Processing Engine) lub szerzej Qualcomm AI Stack, NVIDIA ma TensorRT i CUDA dla swoich urządzeń, itd. Jest też ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI i inne. Te różne SDK często mają odmienne możliwości i wymagają dostosowania modeli, by działały optymalnie na każdym sprzęcie. Jak zauważono w raporcie o AI na urządzeniu z 2025 roku, „Wiele niekompatybilnych SDK (np. Core ML, LiteRT, ONNX Runtime) z różnym wsparciem operatorów i wydajnością” zmusza programistów do dodatkowej pracy nimbleedge.com.
  • Problemy z fragmentacją: Model, który działa idealnie na desktopowym GPU, może nie działać od razu na NPU telefonu – operatory (funkcje matematyczne) mogą nie być obsługiwane lub wymagać innej kwantyzacji. Programiści czasem muszą utrzymywać osobne buildy lub ręcznie optymalizować modele pod każde urządzenie. To właśnie „niskopoziomowy, pofragmentowany ekosystem” jest powodem skarg nimbleedge.com. Narzędzi do debugowania także brakuje – profilowanie NPU, by sprawdzić, dlaczego model działa wolno, może być trudne, zwłaszcza w porównaniu do rozbudowanych narzędzi dla CPU/GPU nimbleedge.com.
  • Wysiłki standaryzacyjne: Aby rozwiązać ten problem, dzieje się kilka rzeczy. ONNX (Open Neural Network Exchange) pojawił się jako wspólny format, dzięki któremu można wytrenować model w PyTorch lub TensorFlow, a następnie wyeksportować do ONNX do wdrożenia. Wiele środowisk uruchomieniowych (w tym tych na urządzeniach, jak Qualcomm czy MediaTek) obsługuje modele ONNX i próbuje je kompilować pod dane urządzenie. Pomaga to uniknąć uzależnienia od jednego frameworka. Android NNAPI był próbą Google, by zapewnić uniwersalny interfejs – aplikacja może poprosić „uruchom tę sieć neuronową” przez NNAPI, a system operacyjny użyje dostępnego akceleratora (GPU, DSP lub NPU), by ją wykonać. NNAPI zostało zaadaptowane w wielu urządzeniach z Androidem, ale miało ograniczenia i nie wszyscy producenci dostarczyli solidne sterowniki, przez co Google zapowiedziało nową strategię (prawdopodobnie opartą o WebNN lub bezpośrednie integracje z producentami) po 2024 roku threads.com. Na komputerach PC Microsoft wprowadził DirectML i Windows ML API, by podobnie abstrahować różnice sprzętowe (pozwalając deweloperowi używać tego samego API dla NVIDII, Intela, AMD NPUs).
  • Zunifikowane narzędzia: Firmy budują także narzędzia upraszczające wdrażanie. Widzieliśmy AI Stack Qualcomma, który łączy ich kompilator (AI Model Efficiency Toolkit) i środowiska uruchomieniowe, by deweloperzy mogli łatwiej celować w Hexagon NPU iconnect007.com. TensorRT NVIDII i powiązane SDK robią coś podobnego dla urządzeń Jetson, optymalizując modele pod GPU+NVDLA. Intel OpenVINO to kolejny przykład – pozwala wziąć model i zoptymalizować go pod CPU Intela, iGPU oraz VPU (NPU) do wdrożeń brzegowych. Te frameworki często zawierają optymalizatory modeli, które konwertują modele (przycinanie, kwantyzacja), by zmieściły się na mniejszych urządzeniach.
  • Interoperacyjność: Trwają prace nad tym, by różne NPU współpracowały ze wspólnymi frameworkami. Na przykład TensorFlow Lite Google’a ma delegaty sprzętowe – jeden dla NNAPI (obejmuje urządzenia z Androidem ogólnie), jeden dla Core ML (urządzenia iOS), jeden dla Edge TPU itd. Chodzi o to, że piszesz model TFLite i zostanie on wykonany na najlepszym dostępnym akceleratorze przez delegata. Podobnie PyTorch dodaje wsparcie dla backendów mobilnych, a nawet takich rzeczy jak Apple Metal Performance Shaders (by używać GPU/NPU na iOS). ONNX Runtime także może celować w różne akceleratory przez wtyczki (np. można podpiąć TensorRT NVIDII, ARM Compute Library lub inne pod spodem).
  • Nowe standardy: Khronos Group (twórcy OpenGL/Vulkan) pracowali nad NNEF (Neural Network Exchange Format), a także dyskutowany jest WebNN API, by przeglądarki mogły korzystać z lokalnych akceleratorów AI. Żaden z nich nie został jeszcze powszechnie przyjęty. Ale ciekawa nowość: pod koniec 2024 roku kilka firm utworzyło sojusz, by promować standardy “AI Hardware Common Layer” – czyli sprawdzić, czy można stworzyć wspólny niskopoziomowy interfejs do NPU (analogicznie jak OpenCL dla obliczeń na GPU). To jednak dopiero początek.
  • Doświadczenie dewelopera: To jest uznana luka. Jak napisał blog NimbleEdge, „tworzenie rozwiązań dla AI na urządzeniu obecnie wymaga poruszania się po rozdrobnionym i niskopoziomowym ekosystemie… zmuszając deweloperów do dostosowywania implementacji do każdego sprzętu osobno” nimbleedge.com. Branża wie, że to musi się poprawić, aby AI na urządzeniu mogła naprawdę wejść do głównego nurtu. Możemy zobaczyć konsolidację – na przykład, gdyby Google, Apple i Qualcomm mogły się zgodzić co do jakiegoś podstawowego zestawu operacji i API (to raczej życzeniowe myślenie). Bardziej prawdopodobne jest jednak, że frameworki takie jak PyTorch i TensorFlow ukryją tę złożoność, integrując wszystkie te biblioteki producentów i wybierając odpowiednią w czasie działania.

W istocie, podczas gdy NPU/TPU zapewniają „siłę”, społeczność pracuje nad narzędziami przyjaznymi dla mózgu, by tę siłę wykorzystać. Dobrą wiadomością jest to, że w porównaniu do sytuacji sprzed pięciu lat, jest znacznie więcej opcji wdrożenia modelu na urządzeniu bez bycia ekspertem od układów scalonych. Ale jest jeszcze pole do rozwoju – zwłaszcza w zakresie debugowania, profilowania i wsparcia dla wielu rodzajów sprzętu.

Trendy rynkowe i prognozy na przyszłość

Rozprzestrzenianie się NPU i TPU w urządzeniach napędza większy trend: AI wszędzie. Oto kilka ogólnych trendów i czego można się spodziewać w przyszłości:

  • Wzrost rynku Edge AI: Badania rynkowe wskazują na gwałtowny wzrost sprzętu edge AI. Rynek AI na urządzeniu (w tym układy i oprogramowanie) ma rosnąć w tempie ok. 29% CAGR w tej dekadzie nimbleedge.com. Jeden z raportów wycenił go na ok. 233 miliardy dolarów w 2024 roku, a do 2032 roku ma przekroczyć 1,7 biliona dolarów nimbleedge.com – duża część tego wzrostu opiera się na wdrożeniach edge. Inna analiza IDTechEx prognozuje, że rynek chipów AI dla urządzeń edge osiągnie 22 miliardy dolarów do 2034 roku, a największymi segmentami będą elektronika konsumencka, motoryzacja i przemysł idtechex.com. To oznacza, że setki milionów urządzeń rocznie będą dostarczane z NPU jako standardowym komponentem.
  • Powszechna adopcja: Podobnie jak każdy smartfon ma dziś GPU (nawet jeśli niewielkie), zbliżamy się do momentu, w którym każdy nowy smartfon będzie miał akcelerator AI. Obecnie mają je telefony z wyższej półki; kolejne będą modele ze średniej półki. Rzeczywiście, układy ze średniej półki od Qualcomma (np. seria Snapdragon 7) i MediaTeka (seria Dimensity 700/800) zawierają już uproszczone NPU, dzięki czemu funkcje takie jak ulepszenia aparatu oparte na AI czy asystent głosowy mogą działać także na tańszych urządzeniach. Poza telefonami, NPU pojawiają się w komputerach PC (standard w nowych laptopach z Windows od wielu producentów), samochodach (prawie wszystkie nowe auta z ADAS poziomu 2+ mają jakiś układ AI) oraz IoT. Nawet urządzenia AGD, takie jak lodówki czy pralki, zaczynają reklamować „funkcje AI” (niektóre z nich są oparte na chmurze, ale część działa lokalnie, np. adaptacyjne cykle na podstawie czujników). Trend jest jasny: jeśli urządzenie ma układ obliczeniowy, będzie miało jakąś akcelerację ML na tym układzie.
  • Trajektoria wydajności: Wydajność AI na urządzeniu podwaja się mniej więcej co 1–2 lata (połączenie lepszej architektury i przechodzenia na zaawansowane procesy technologiczne, takie jak 5 nm, 4 nm, 3 nm). Neural Engine Apple’a wzrósł z 600 miliardów operacji/sek w 2017 do 35 bilionów w 2023 – prawie 60× wzrost w sześć lat apple.fandom.com. Flagowe układy Qualcomma podobnie przeskoczyły z kilku TOPS w 2018 do ponad 27 TOPS w 2023 (całkowita moc AI SD 8 Gen 3, licząc wszystkie rdzenie). Można się spodziewać, że w latach 2025–2026 mobilne NPU będą osiągać ponad 100 TOPS, a akceleratory PC jeszcze więcej, a te liczby mogą stać się mniej istotne, gdy uwaga przesunie się na użyteczną wydajność w konkretnych zadaniach AI (na przykład: jak duży LLM można uruchomić płynnie, albo czy można robić 4K AI video w czasie rzeczywistym). Różnica między chmurą a urządzeniami brzegowymi prawdopodobnie się zmniejszy w przypadku zadań inferencyjnych. Jednak urządzenia brzegowe nadal będą odstawać od chmury w przypadku najbardziej zaawansowanych dużych modeli ze względu na ograniczenia mocy i pamięci.
  • Zyski w efektywności energetycznej: Niedocenianym aspektem jest to, jak bardzo wydajne energetycznie stają się te NPU. Samochodowe NPU Tesli osiąga ~4,9 TOPS/Watt fuse.wikichip.org, co było stanem sztuki kilka lat temu; obecnie niektóre mobilne NPU deklarują podobne lub lepsze wyniki. Wydajne NPU oznaczają dłuższy czas pracy na baterii, nawet gdy częściej korzystamy z funkcji AI. Oznacza to także, że możliwe staje się umieszczanie AI w bardzo małych, zasilanych bateryjnie urządzeniach (np. aparaty słuchowe z AI, inteligentne czujniki na baterii guzikowej wykonujące detekcję anomalii). Koncepcja TinyML – ekstremalnie małoskalowe uczenie maszynowe na mikrokontrolerach – jest tego rozszerzeniem, wykorzystując uproszczone „NPU” lub zoptymalizowane instrukcje na mikrokontrolerach do realizacji AI w czujnikach. ARM Ethos-U NPU jest skierowany do tego segmentu (np. ciągłe rozpoznawanie słów kluczowych przy zużyciu kilku miliwatów). Spodziewaj się więcej miniaturowych układów AI, które można wbudować w czujniki, wearables i codzienne przedmioty (inteligentna szczoteczka do zębów? Czujnik dymu z AI? To nadchodzi).
  • Rozwiązania hybrydowe chmura-edge: Zamiast całkowitego zastąpienia chmury przez edge, przyszłość to współpraca. Urządzenia będą wykonywać to, co mogą lokalnie, a sięgać po pomoc tylko wtedy, gdy nie dadzą rady. Na przykład Twoje okulary AR mogą lokalnie rozpoznawać scenę, by wiedzieć, na co patrzysz, ale jeśli zadasz bardzo złożone pytanie (np. poprosisz o szczegółowe wyjaśnienie), mogą zapytać chmurową AI o bardziej zaawansowaną analizę i ją przedstawić. Takie hybrydowe podejście daje najlepszy balans między szybkością reakcji a możliwościami. Firmy aktywnie projektują doświadczenia wokół tego: Copilot Microsoftu w Windows może używać lokalnego NPU do szybkiego rozpoznawania mowy i analizy poleceń, ale do cięższych zadań korzystać z chmury (chyba że masz bardzo wydajne NPU w PC, które sobie z tym poradzi). Użytkownik idealnie nie powinien wiedzieć ani się przejmować, które rozwiązanie jest używane, poza tym, że wszystko działa szybciej i z poszanowaniem prywatności. Zobaczymy też, jak federacyjne uczenie się stanie się bardziej powszechne – modele trenują w chmurze, ale z pomocą danych zaszyfrowanych lub przetwarzanych na urządzeniach i odwrotnie.
  • Nowe zastosowania: Wraz ze wzrostem mocy NPU pojawiają się nowe aplikacje. Generatywna AI na urządzeniu to duży przełom – wyobraź sobie tworzenie obrazów przez AI, edycję wideo przez AI i osobiste chatboty, wszystko na Twoim telefonie lub laptopie. Do 2025 roku możemy zobaczyć pierwsze wersje offline’owych asystentów osobistych, którzy podsumują Twoje maile lub napiszą wiadomości bez użycia chmury. Tłumaczenie języka w czasie rzeczywistym podczas rozmowy (dwie osoby mówiące w różnych językach, a telefon lub słuchawki tłumaczą niemal natychmiast) będzie znacznie ulepszone dzięki przetwarzaniu na urządzeniu (brak opóźnień i działa wszędzie). AI w zdrowiu może działać na urządzeniach noszonych – Twój smartwatch wykryje migotanie przedsionków lub przeanalizuje wzorce bezdechu sennego dzięki NPU. Bezpieczeństwo: urządzenia mogą lokalnie uruchamiać AI do wykrywania złośliwego oprogramowania lub phishingu w czasie rzeczywistym (np. antywirus korzystający z modelu AI na urządzeniu zamiast skanów w chmurze). W pojazdach, poza prowadzeniem, AI może personalizować doświadczenie w aucie (np. dostosowywać klimatyzację na podstawie nastroju kierowcy rozpoznanego przez AI z kamery). Wiele z tych zastosowań wymaga szybkich iteracji i prywatności, co sprzyja przetwarzaniu na urządzeniu.
  • Konkurencja i demokratyzacja: Najwięksi gracze będą dalej rywalizować, co jest korzystne dla konsumentów – spodziewaj się marketingu w stylu „nasz chip AI robi X TOPS lub umożliwia Y funkcję, której inni nie mają”. Ale technologia także się demokratyzuje – NPU nie są już tylko w telefonach za 1000 dolarów; trafiają do telefonów za 300 dolarów, płytek IoT za 50 dolarów (Coral, Arduino Portenta itd.), a społeczności open-source tworzą miniaturowe modele AI, które hobbyści mogą uruchomić na Raspberry Pi lub mikrokontrolerze z prostym akceleratorem. Ta powszechna dostępność oznacza, że innowacje mogą pochodzić z dowolnego miejsca. Samodzielny deweloper może teraz stworzyć aplikację wykorzystującą AI na urządzeniu do czegoś sprytnego bez potrzeby farmy serwerów – to obniża barierę wejścia dla oprogramowania napędzanego AI.
  • Technologie przyszłości: Patrząc dalej w przyszłość, badania nad obliczeniami neuromorficznymi (układy inspirowane mózgiem, takie jak Intel Loihi) oraz analogowymi układami AI mogą pewnego dnia zrewolucjonizować NPU, oferując wielokrotnie większą wydajność. Firmy takie jak IBM i BrainChip pracują nad tymi rozwiązaniami. Jeśli się to powiedzie, układ neuromorficzny może umożliwić ciągłe działanie złożonej AI na niewielkich urządzeniach zasilanych baterią. Możemy także zobaczyć 3D stacking i nowe technologie pamięci zintegrowane z NPU, aby przezwyciężyć wąskie gardła pamięci (niektóre układy po 2025 roku mogą używać pamięci HBM lub nowej nieulotnej pamięci na chipie, by szybciej zasilać rdzenie AI). Spodziewaj się także większej specjalizacji w obrębie układów AI: np. osobne akceleratory do wizji, mowy, modeli rekomendacyjnych itd., każdy dostrojony do swojej dziedziny. Niektóre SoC już mają podwójne NPU (jedno „duże” NPU do ciężkich zadań, jedno mikro NPU w sensor hubie do lekkich zadań działających zawsze).

Podsumowując, kierunek jest jasny: NPU i TPU stają się tak samo standardowe i niezbędne jak CPU we współczesnej informatyce. Umożliwiają urządzeniom bycie inteligentniejszymi, bardziej responsywnymi i bardziej dbającymi o naszą prywatność. Jak stwierdzono w jednym z raportów, „wysokowydajne jednostki przetwarzające na urządzeniach są w dużej mierze odpowiedzialne za wykonywanie złożonych funkcji AI, takich jak rozpoznawanie obrazów, NLP i podejmowanie decyzji w czasie rzeczywistym”, co napędza rozwój inteligentniejszych, bardziej responsywnych technologii w różnych sektorach grandviewresearch.com.

Wchodzimy w erę, w której po prostu będziesz oczekiwać, że Twoje urządzenie zrozumie i przewidzi Twoje potrzeby – Twój telefon edytuje zdjęcia i pisze wiadomości w Twoim stylu, Twój samochód unika wypadków i zabawia Cię dzięki AI, domowe gadżety uczą się Twoich preferencji – a wszystko to możliwe dzięki cichym procesorom neuronowym w ich wnętrzu. AI na urządzeniu to nie science fiction; to już rzeczywistość i szybko się rozwija. Połączenie NPU i TPU z naszymi codziennymi gadżetami sprawia, że AI staje się osobista, wszechobecna i prywatna – naprawdę sprowadzając moc inteligencji chmurowej na ziemię (a przynajmniej do Twojej kieszeni).

Źródła:

  • Bigelow, Stephen. „GPUs vs. TPUs vs. NPUs: Porównanie sprzętu AI.” TechTarget, 27 sierpnia 2024 techtarget.com. Opisuje role i różnice CPU, GPU, TPU i NPU w zadaniach AI.
  • Backblaze Blog. „AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Wyjaśnienie projektu TPU Google (macierze systoliczne, niska precyzja) i wykorzystania NPU w urządzeniach mobilnych.
  • TechTarget WhatIs. „Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. Zaznacza, że TPU specjalizują się w zadaniach matematyki macierzowej, a NPU naśladują sieci neuronowe mózgu w celu przyspieszenia techtarget.com.
  • NimbleEdge Blog (Neeraj Poddar). „The State of On-Device AI: What’s Missing in Today’s Landscape.” 26 czerwca 2025 nimbleedge.com. Przedstawia zalety AI na urządzeniu (opóźnienia, offline, prywatność, koszt) oraz wyzwania, takie jak rozfragmentowane SDK.
  • Qualcomm (OnQ Blog). „Bloomberg and Cristiano Amon talk on-device AI.” lipiec 2023 x.com. CEO Qualcomma o znaczeniu inferencji na urządzeniu dla przyszłości AI (cytat z tweeta o punkcie zwrotnym w AI).
  • MediaTek Blog (Exec Talk by Will Chen). „Shaping the future of AI mobile experiences.” 3 marca 2025 mediatek.com. Współpraca MediaTek i Oppo nad NPU; cytat o edge computingu w twojej dłoni i przykład remasteringu zdjęć AI z użyciem NPU.
  • I-Connect007 / Qualcomm Press. „Qualcomm works with Meta to enable on-device AI (Llama 2).” 24 lipca 2023 iconnect007.com. Informacja prasowa z cytatem SVP Qualcomma Durga Malladi o skalowaniu generatywnej AI przez urządzenia brzegowe i chmurę.
  • PCWorld (Mark Hachman). „Intel’s Core Ultra CPUs keep AI simple….” 24 października 2024 pcworld.com. Omawia Intel Arrow Lake wykorzystujący NPU Meteor Lake (13 TOPS) i wspomina o NPU AMD Ryzen 8000 39 TOPS oraz wymaganiu Microsoftu „Copilot” 40 TOPS.
  • Ts2 (Tech Empowerment). „Pojedynek superkomputerów autonomicznych: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” wrz. 2023 ts2.tech. Podaje szacunkowe wartości TOPS: Tesla HW3 vs HW4 (72→100 TOPS na chip) ts2.tech, NVIDIA Thor ~1000 TOPS (lub 2000 w konfiguracji podwójnej) ts2.tech oraz cytuje wiceprezesa NVIDIA na temat generatywnej AI w pojazdach ts2.tech.
  • Grand View Research. „On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Wskazuje na wzrost znaczenia wyspecjalizowanych chipów AI (NPU), umożliwiających złożoną AI na urządzeniach, oraz że sprzęt stanowił 60,4% rynku AI na urządzeniach w 2024 roku, napędzany przez smartfony, IoT, NPU itd.
  • Google Blog. „Google Tensor G3: procesor AI-first w Pixel 8.” paź. 2023 blog.google. Opisuje ulepszenia Tensor G3 dla generatywnej AI na urządzeniu, nowy projekt TPU oraz model TTS na urządzeniu dorównujący jakością centrom danych.
  • Techspot. „Snapdragon 8 Gen 3 wprowadza generatywną AI do smartfonów.” paź. 2023 futurumgroup.com. Analiza Futurum Group opisująca silnik AI SD8Gen3: 10-miliardowy LLM na urządzeniu, NPU szybsze o 98%, najszybszy na świecie Stable Diffusion na telefonie itd., a także korzyści z LLM na urządzeniu dla kosztów/prywatności/offline futurumgroup.com.
  • Apple Wiki (Fandom). „Neural Engine.” Zaktualizowano 2025 apple.fandom.com. Historia wersji Neural Engine z A17 Pro 35 TOPS w 2023 itd. Pokazuje ewolucję od 0,6 TOPS (A11) do 35 TOPS (A17) apple.fandom.com oraz M4 z 38 TOPS apple.fandom.com.
  • EnGenius Tech. „Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Przykład kamery bezpieczeństwa z wbudowanym NPU umożliwiającym przetwarzanie AI na kamerze i lokalne przechowywanie (bez potrzeby NVR).
  • EmbedL. „Amazon wypuszcza procesor AZ1 Neural Edge.” Paź. 2020 embedl.com. Omawia brzegowy NPU AZ1 Amazona dla urządzeń Echo, zbudowany z MediaTek, zaprojektowany do inferencji mowy na urządzeniu w celu skrócenia opóźnień i ograniczenia zależności od chmury embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Don't Miss

Silencing the Shake: How Dynamic Adaptive Vibration Isolators Are Revolutionizing Vibration Control

Wyciszenie drgań: Jak dynamiczne adaptacyjne izolatory wibracji rewolucjonizują kontrolę drgań

Dynamiczne adaptacyjne izolatory drgań to systemy nowej generacji wykrywające i

There is no blog-post title provided to translate. Please provide the title you want translated.

Ponad 100 000 pacjentów w USA znajduje się na listach