- Apple a lansat AI-ul pe dispozitiv în 2017 cu Neural Engine-ul iPhone A11, permițând Face ID și Animoji la până la 600 de miliarde de operațiuni/sec.
- În 2023, Neural Engine-ul cu 16 nuclee al iPhone A17 Pro a oferit aproximativ 35 TOPS, alimentând funcții de vorbire, fotografie și traducere pe dispozitiv.
- Google Pixel 8 (2023) folosește NPU-ul Tensor G3 pentru a rula modele AI pe dispozitiv precum Palm 2 pentru traducere și rezumare offline.
- Edge TPU de la Google pe Coral Dev Board oferă 4 TOPS de procesare vizuală la câțiva wați.
- Hardware-ul Tesla Full Self-Driving are două NPU-uri: HW3 (2019) a oferit aproximativ 144 TOPS, iar HW4 (2023) în jur de 200–250 TOPS.
- NVIDIA Drive Thor (prezentat în 2024) poate atinge până la 2000 TOPS când două cipuri sunt conectate pentru sarcini AI auto.
- Hexagon NPU din Snapdragon 8 Gen 3 (2023) de la Qualcomm este cu 98% mai rapid decât Gen 2, poate rula LLM-uri de până la 10 miliarde de parametri pe dispozitiv și a atins cea mai rapidă demonstrație de Stable Diffusion mobilă din lume.
- Dimensity 9400 (2024) de la MediaTek, cu o APU de generația a șasea, alimentează remasterizarea foto AI pe Oppo Find X8, semnalând extinderea NPU-urilor către televizoare, IoT și auto până în 2025.
- Meteor Lake de la Intel, Core de generația a 14-a (lansat în 2023; rebranduit Core Ultra în 2024), include un NPU integrat ce oferă aproximativ 8–12 TOPS, cu Arrow Lake la ~13 TOPS și Lunar Lake zvonit la aproximativ 45 TOPS.
- Ryzen 7040 Phoenix (2023) de la AMD a introdus Ryzen AI Engine cu până la 10 TOPS, în timp ce Ryzen 8000 desktop (începutul lui 2024) a oferit 39 TOPS înainte ca AMD să suspende NPU-urile în acea generație.
Pe scurt: Smartphone-ul, camera și chiar mașina ta primesc creiere AI integrate – fără a fi nevoie de cloud. Cipuri speciale numite NPU-uri (Unități de Procesare Neurală) și TPU-uri (Unități de Procesare Tensorială) transformă dispozitivele de zi cu zi în asistenți inteligenți capabili de recunoaștere facială, comenzi vocale, traducere în timp real, funcții de conducere autonomă și multe altele. Această revoluție AI pe dispozitiv promite răspunsuri fulgerătoare, intimitate sporită și funcții noi pe care le credeam posibile doar cu supercomputere. În acest raport, vom demistifica NPU-urile și TPU-urile, vom vedea cum diferă de CPU/GPU și vom explora de ce giganți tech precum Apple, Google, Qualcomm și Intel se grăbesc să pună aceste „creiere AI” în tot, de la telefoane la mașini. Vom evidenția, de asemenea, cele mai noi inovații din 2024–2025, perspectivele experților, standardele din industrie și ce rezervă viitorul pentru AI-ul pe dispozitiv.
Ce sunt NPU-urile și TPU-urile? (Cunoaște creierul AI al dispozitivului tău)
Unități de procesare neurală (NPUs) sunt procesoare specializate concepute pentru a accelera rețelele neuronale artificiale – algoritmii care alimentează sarcinile moderne de inteligență artificială, precum recunoașterea imaginilor, procesarea vorbirii și altele. Spre deosebire de CPU-urile cu scop general, NPUs sunt circuite integrate specifice aplicației (ASICs) optimizate pentru calcule pe matrici și pentru sarcinile paralele intense ale rețelelor neuronale techtarget.com. O NPU „imita rețelele neuronale ale creierului uman pentru a accelera sarcinile AI”, acționând practic ca un creier de siliciu în interiorul dispozitivului tău techtarget.com. NPUs excelează la rularea inferenței (realizarea de predicții) pentru modelele AI eficient, direct pe dispozitiv, folosind adesea o precizie numerică mai mică (de exemplu, întregi pe 8 biți) pentru a economisi energie, oferind totodată performanțe ridicate backblaze.com. Termenul „NPU” este uneori folosit în sens larg pentru orice accelerator AI, dar se referă mai frecvent la cele din dispozitivele mobile și edge backblaze.com. De exemplu, „Neural Engine” de la Apple din iPhone-uri și motorul AI mobil de la Samsung sunt NPUs integrate în design-urile lor system-on-chip (SoC).Unități de Procesare Tensorială (TPU), pe de altă parte, au fost create de Google ca cipuri personalizate pentru accelerarea învățării automate, în special pentru cadrul TensorFlow. O TPU este un tip de ASIC optimizat pentru operațiuni tensoriale (înmulțiri de matrici etc.) aflate în centrul antrenării și inferenței rețelelor neuronale backblaze.com. Google a implementat pentru prima dată TPUs în centrele sale de date în 2015 pentru a accelera calculele rețelelor neuronale, iar ulterior le-a pus la dispoziție prin Google Cloud backblaze.com. TPUs folosesc o arhitectură distinctă numită systolic array, care leagă multe unități mici de procesare într-o rețea ce pompează datele printr-un lanț de unități de înmulțire a matricilor backblaze.com. Acest design atinge un throughput extrem pentru sarcinile de învățare profundă. TPUs de la Google sacrifică în mod deliberat o parte din precizie (folosind calcule pe 8 biți sau 16 biți în loc de float-uri pe 32 de biți) pentru câștiguri masive de viteză și eficiență backblaze.com, deoarece multe sarcini AI nu necesită o precizie ridicată pentru a obține rezultate exacte. Deși „TPU” se referă tehnic la cipurile Google, termenul este uneori folosit mai generic pentru orice accelerator „tensorial”. Notabil, Google produce și coprocesoare Edge TPU pentru AI pe dispozitiv în produse precum Coral Dev Board, oferind 4 trilioane de operațiuni pe secundă cu doar câțiva wați coral.ai.
Pe scurt: NPU-urile și TPU-urile sunt ambele acceleratoare de siliciu pentru AI, dar NPU-urile sunt de obicei integrate în dispozitive mobile/edge pentru inferență pe dispozitiv eficientă, în timp ce TPU-urile (în sens strict) au fost cipuri de înaltă performanță (și acum module) provenite în principal de la Google, inițial pentru sarcini de antrenare și inferență în cloud/datacenter. Ambele se îndepărtează de designul tradițional CPU/GPU pentru a prioritiza operațiunile matematice paralele pentru rețelele neuronale. După cum a spus un editor tech, „TPU-urile duc specializarea mai departe, concentrându-se pe operațiuni tensoriale pentru a atinge viteze și eficiențe energetice mai mari… NPU-urile sunt răspândite în dispozitive AI precum smartphone-uri și gadgeturi IoT” backblaze.com.
Cu ce diferă NPU-urile și TPU-urile de CPU-uri și GPU-uri?
Procesoarele tradiționale CPU (unități centrale de procesare) sunt „creierul” calculatoarelor generale – optimizate pentru flexibilitate, pentru a gestiona tot felul de sarcini, de la rularea sistemului de operare până la navigarea pe internet. Ele au câteva nuclee puternice care excelează la logică secvențială și instrucțiuni variate, dar nu sunt grozave la calculele matematice extrem de paralele necesare pentru deep learning techtarget.com. Când unui CPU i se cere să proceseze o rețea neuronală mare, acesta devine adesea un blocaj, încercând să execute milioane de înmulțiri și adunări în secvență sau în loturi paralele limitate. Acest lucru duce la latență ridicată și consum mare de energie (așa-numitul blocaj Von Neumann cauzat de transferul masiv de date între CPU și memorie) backblaze.com. CPU-urile pot face o parte din munca AI (mai ales modele mai simple sau mai mici, sau logica de control pentru programe AI techtarget.com), dar, de regulă, se chinuie să se scaleze eficient la cerințele moderne ale AI de algebră liniară masiv paralelă.
GPU-urile (unități de procesare grafică) au adus calculul paralel în prim-plan. Inițial create pentru randarea imaginilor prin efectuarea multor operații simple în paralel pe pixeli și vertecși, GPU-urile s-au dovedit potrivite pentru antrenarea rețelelor neuronale, care implică de asemenea aplicarea acelorași operații matematice (produse scalare etc.) pe cantități mari de date simultan techtarget.com. Un GPU conține sute sau mii de nuclee mici care pot efectua calcule în paralel. Acest lucru face ca GPU-urile să fie excelente pentru AI la scară mare, iar de-a lungul anilor 2010 GPU-urile (în special cele de la NVIDIA cu software-ul CUDA) au devenit coloana vertebrală a cercetării în deep learning. Totuși, GPU-urile sunt încă oarecum generale – trebuie să gestioneze diverse sarcini grafice și să mențină flexibilitatea, deci nu sunt 100% optimizate pentru rețele neuronale. De asemenea, consumă multă energie și necesită programare atentă pentru a fi utilizate la maximum (nu le plac codurile cu ramificații complexe și excelează la sarcini simple, paralele pe date) techtarget.com.
NPU-urile și TPU-urile duc specializarea și mai departe. Acestea sunt construite special pentru doar sarcinile de rețea neuronală. Asta înseamnă că arhitectura lor poate elimina orice nu este necesar pentru calculele AI și poate dedica mai mult siliciu unor elemente precum unități de înmulțire matricială, adunătoare de acumulare și memorie on-chip pentru transfer rapid de date către și dinspre aceste unități de calcul. Un TPU Google Cloud, de exemplu, este practic o matrice 2D uriașă de unități MAC (multiply-accumulate) cu o arhitectură inteligentă de flux de date (systolic array) care le alimentează cu operanzi la viteză mare backblaze.com. Nu se complică cu cache-uri, execuție speculativă sau alte funcții de CPU – este optimizat pentru calcule matriciale. NPU-urile din cipurile mobile integrează în mod similar nuclee de motor neural dedicate, alături de CPU/GPU. Aceste nuclee folosesc adesea aritmetică de precizie redusă (de exemplu, întregi pe 8 biți ca TPU-urile) și rulează calcule “strat cu strat” extrem de paralele pentru rețele neuronale convoluționale. Un NPU poate folosi o arhitectură “fuzionată” care combină unități scalare, vectoriale și tensoriale (Hexagon NPU de la Qualcomm face asta) pentru a gestiona eficient diferite operații de rețea neurală futurumgroup.com.
Principalele diferențe se rezumă la:
- Setul de instrucțiuni și flexibilitatea: CPU-urile au un set de instrucțiuni larg și general (pot face multe lucruri, dar nu toate simultan). GPU-urile au un set de instrucțiuni mai limitat, dar totuși flexibil, optimizat pentru throughput la calcule matematice. NPU-urile/TPU-urile au un set de instrucțiuni foarte restrâns – practic doar operațiile necesare pentru rețele neuronale (înmulțire matricială, convoluție, funcții de activare), adesea implementate ca pipeline-uri fixe sau matrici fuse.wikichip.org. De exemplu, NPU-ul pentru condus autonom de la Tesla are doar 8 instrucțiuni în ISA-ul său, axate pe citiri/scrieri DMA și produse scalare fuse.wikichip.org.
- Paralelism și nuclee: CPU-urile = câteva nuclee puternice; GPU-urile = mii de nuclee simple; NPU/TPU = într-un anumit sens, zeci de mii de ALU-uri foarte simple (unitățile MAC) structurate sub formă de matrice sau rețea neuronală. Un singur cip NPU poate efectua zeci de trilioane de operații pe secundă – NPU-ul auto de la Tesla rulează la 2 GHz cu 9.216 MAC-uri, atingând ~37 tera-operații pe secundă (TOPS) per nucleu, iar fiecare cip FSD are două NPU-uri pentru ~74 TOPS fuse.wikichip.org, ts2.tech. Prin contrast, un CPU de top poate atinge doar câteva sute de miliarde de operații/secundă la sarcini AI, iar un GPU poate ajunge la câteva TOPS dacă nu folosește nuclee tensor speciale.
- Arhitectura memoriei: NPU/TPU se bazează pe memorie rapidă on-chip și pe fluxul de date. TPU-urile evită blocajul clasic de memorie folosind fluxul de date sistolic – fiecare unitate mică transmite datele următoarei în sincron, minimizând citirile/scrierile în memoria principală backblaze.com. Multe NPU-uri includ bucăți de SRAM on-chip pentru greutăți/activări (de exemplu, nucleele NPU de la Tesla au fiecare 32 MB SRAM pentru a stoca local datele rețelei neuronale) semianalysis.com. Acest lucru contrastează cu GPU/CPU care folosesc intens DRAM extern.
- Precizie: CPU/GPU folosesc de obicei numere float pe 32 sau 64 de biți pentru calcule. Acceleratoarele AI folosesc adesea întregi pe 16 sau 8 biți (iar unele explorează acum 4 biți sau chiar 2 biți) deoarece rețelele neuronale tolerează precizie mai scăzută. Proiectanții TPU de la Google au menționat explicit că nu ai nevoie de precizie float completă pentru inferență, analog cu „nu trebuie să știi exact câte picături de ploaie cad ca să știi că plouă tare” backblaze.com. Acest lucru permite NPU/TPU să efectueze mai multe operații în paralel și să folosească mai puțină energie per operație.
- Cazuri de utilizare: GPU-urile sunt încă folosite pe scară largă pentru antrenarea modelelor mari și pentru calcul flexibil (și sunt comune în centrele de date și PC-urile high-end). TPU-urile (cloud) vizează antrenarea și inferența la scară largă în ecosistemul Google. NPU-urile se găsesc mai des în dispozitive edge – smartphone-uri, camere, electrocasnice – realizând inferință pe modele deja antrenate. Ele excelează în sarcini precum aplicarea unui model de viziune pe un cadru de cameră în timp real sau rularea continuă a detectării cuvântului de trezire pentru asistentul vocal la consum redus de energie. După cum a notat TechTarget: „GPU-urile sunt alese pentru disponibilitate și eficiență a costurilor în multe proiecte ML; TPU-urile sunt de obicei mai rapide și mai puțin precise, folosite de companii pe Google Cloud; NPU-urile se găsesc frecvent în dispozitive edge/mobile pentru procesare locală semnificativ mai rapidă” techtarget.com.
Pe scurt, CPU-urile = organizatori versatili, GPU-urile = „cai de povară” pentru procesare paralelă, TPU-urile/NPU-urile = specialiști în rețele neuronale. Toate pot coopera – de fapt, într-un dispozitiv modern cu AI, CPU-ul coordonează adesea sarcinile și transferă părțile cu calcule intense către NPU/GPU după nevoie techtarget.com. Această tendință de specializare există deoarece „one size fits all” nu mai funcționează în informatică: după cum a remarcat un editor, „adăugarea a milioane de tranzistori pentru orice nevoie nu era eficientă… proiectanții au adoptat procesoare specializate” techtarget.com. NPU-urile și TPU-urile specializate accelerează drastic calculele AI menținând consumul de energie scăzut – un echilibru esențial atât pentru dispozitivele pe baterie, cât și pentru serverele de înaltă densitate.
De ce AI pe dispozitiv? (Edge vs. Cloud)
De ce să rulezi AI pe telefon sau în mașină – de ce să nu trimiți totul în cloud, unde servere uriașe (cu GPU-uri/TPU-uri) pot face toată munca grea? Există mai multe motive convingătoare care determină trecerea la AI pe dispozitiv, iar acestea se rezumă la viteză, confidențialitate, cost și fiabilitate nimbleedge.com:
- Răspuns instantaneu (latență scăzută): O NPU pe dispozitiv poate procesa datele în timp real, fără întârzierea cauzată de trimiterea datelor către un server cloud. Acest lucru este crucial pentru sarcinile AI interactive sau critice pentru siguranță. De exemplu, un sistem de conducere autonomă al unei mașini, folosind NPU-uri la bord, poate identifica un pieton și frâna imediat, în câteva milisecunde, în loc să aștepte calculul în cloud. O cameră inteligentă cu NPU poate detecta un intrus în momentul în care acesta apare în cadru. Pe telefon, AI-ul pe dispozitiv înseamnă că asistentul vocal răspunde mai rapid și mai natural, pentru că nu „sună acasă” constant. Latența redusă permite luarea deciziilor în timp real și o experiență de utilizare mai fluidă nimbleedge.com.
- Confidențialitate și securitatea datelor: AI-ul pe dispozitiv păstrează datele local. În loc să trimită fluxul audio de la microfon sau imaginea camerei în cloud pentru analiză, procesarea are loc în interiorul dispozitivului. Acest lucru reduce semnificativ expunerea datelor sensibile. De exemplu, smartphone-urile moderne realizează recunoașterea facială (Face ID etc.) complet pe dispozitiv – harta biometrică a feței tale nu părăsește niciodată enclavele securizate ale telefonului. În mod similar, un aparat auditiv AI sau un dispozitiv portabil de sănătate poate analiza datele biometrice fără a le încărca pe vreun server, păstrând confidențialitatea. Având în vedere preocupările tot mai mari ale utilizatorilor și reglementările privind suveranitatea datelor, acesta este un avantaj major. După cum a spus un blog de edge AI, procesarea pe dispozitiv înseamnă că „datele utilizatorului nu trebuie transmise în cloud,” oferind un beneficiu de confidențialitate de bază nimbleedge.com. (Desigur, confidențialitatea nu este automată – dezvoltatorii trebuie totuși să gestioneze cu atenție datele stocate – dar este mai ușor să ai încredere în dispozitivele care nu trimit constant informațiile tale în afară.) Directorii executivi din tehnologie subliniază adesea acest aspect. CEO-ul Qualcomm, Cristiano Amon, a menționat că îmbinarea inteligenței din cloud cu cea de pe dispozitiv poate îmbunătăți personalizarea păstrând în același timp datele în siguranță pe dispozitiv – el o numește un „viitor hibrid” în care AI-ul pe dispozitiv colaborează cu AI-ul din cloud pentru cele mai bune rezultate din ambele lumi moomoo.com.
- Disponibilitate offline & fiabilitate: Dispozitivele cu NPU/TPU nu depind de conectivitate. Ele pot funcționa într-un tunel de metrou, într-un avion, în zone rurale izolate sau în timpul întreruperilor de rețea. Acest lucru este esențial pentru fiabilitate. O funcție de dictare vocală pe dispozitiv va funcționa chiar și fără semnal. O dronă cu AI de viziune la bord poate evita obstacolele chiar și în afara rețelei. Această independență este, de asemenea, critică pentru sisteme critice pentru misiune: de exemplu, roboți de recuperare în caz de dezastru sau dispozitive medicale care nu pot presupune o conexiune la internet activă. „Funcționalitatea offline” este un avantaj de bază al AI-ului pe dispozitiv nimbleedge.com – asigură că funcția AI este disponibilă oricând și oriunde este nevoie.
- Eficiență a costurilor la scară: Trimiterea constantă a datelor brute în cloud pentru procesare AI poate fi foarte costisitoare (procesarea în cloud nu este gratuită) și consumatoare de lățime de bandă. Pe măsură ce funcțiile AI se înmulțesc, companiile ar trebui să suporte facturi uriașe pentru procesarea în cloud dacă fiecare mică sarcină ar ajunge la un server. Făcând mai mult la margine, se reduc încărcările pe serverele cloud și utilizarea rețelei. De multe ori este mai eficient să cheltui câțiva dolari în plus pe un cip mai bun în dispozitiv decât să plătești pentru gigabytes de procesare în cloud pe durata de viață a dispozitivului. O analiză de industrie Futurum a menționat că procesarea pe dispozitiv ajută la rezolvarea problemelor de scalare și cost ale AI-ului generativ – „distribuie” încărcarea astfel încât centrele de date să nu fie suprasolicitate (iar utilizatorii/dezvoltatorii să nu plătească sume uriașe pentru timpul GPU din cloud) futurumgroup.com.
- Personalizare & Context: Un motiv emergent: AI-ul pe dispozitiv poate învăța din și se poate adapta la contextul local într-un mod în care AI-ul din cloud s-ar putea să nu poată. Smartphone-ul tău poate menține un mic model local care învață stilul tău de tastare pentru o autocorectare mai bună, fără a partaja acel model lingvistic personal în cloud. Dispozitivele pot fuziona date din mai mulți senzori în timp real (ceva mai ușor de făcut local decât să trimiți o mulțime de fluxuri de senzori în cloud). Acest lucru poate permite o experiență mai personalizată și conștientă de context. Unele funcții precum învățarea federată permit chiar dispozitivelor să îmbunătățească modelele AI colaborativ fără a încărca date brute (trimițând înapoi doar mici actualizări de greutate).
- Reglementare și Souveranitate a Datelor: Legi precum GDPR-ul european și diverse cerințe de localizare a datelor impun din ce în ce mai mult ca anumite date (în special cele personale sau sensibile) să nu fie trimise în afara țării sau către terți fără consimțământ. AI-ul pe dispozitiv oferă o modalitate de a respecta aceste cerințe prin procesarea datelor la sursă. De exemplu, instrumentele AI pentru imagistică medicală pot rula pe hardware-ul spitalului (servere edge cu NPU-uri) astfel încât datele pacienților să nu părăsească niciodată incinta, respectând reglementările de confidențialitate. Raportul NimbleEdge din 2025 subliniază că guvernele promovează tot mai mult inferența locală din motive de suveranitate și conformitate nimbleedge.com.
Toți acești factori determină o schimbare de paradigmă: în loc să se gândească „cloud-first” pentru AI, companiile proiectează acum funcții AI „device-first” atunci când este posibil. După cum a rezumat Durga Malladi, VP AI la Qualcomm: „Pentru a scala eficient AI-ul generativ către mainstream, AI-ul va trebui să ruleze atât în cloud cât și pe dispozitive la margine… precum smartphone-uri, laptopuri, vehicule și dispozitive IoT” iconnect007.com. Ne îndreptăm spre o lume AI hibridă unde antrenarea grea și modelele mari pot rămâne în cloud, dar multe sarcini de inferență și experiențe AI personale rulează local pe NPU/TPU-urile din mâinile și casele tale. De fapt, Amon o numește „un punct de cotitură în AI” – inferență pe dispozitiv fără latență, unde „viitorul AI este personal” pentru că rulează exact acolo unde ești tu x.com.
AI pe dispozitiv în acțiune: de la smartphone-uri la mașini autonome
Cipurile AI specializate sunt deja integrate într-o gamă largă de dispozitive din jurul tău, adesea făcându-le mai inteligente în mod invizibil. Iată câteva domenii majore unde NPU-urile și edge TPU-urile sunt implementate:
- Smartphone-uri & Tablete: Aproape toate telefoanele flagship moderne (și chiar multe din gama medie) includ acum un NPU sau un motor AI dedicat. Apple a dat startul acestui trend în 2017 cu Apple Neural Engine în cipul A11 al iPhone-ului, permițând Face ID și Animoji direct pe dispozitiv prin realizarea a până la 600 de miliarde de operațiuni/secundă apple.fandom.com. Astăzi, cipul A17 Pro de la Apple (2023) are un Neural Engine cu 16 nuclee capabil de 35 de trilioane de operațiuni pe secundă apple.fandom.com. Acesta alimentează funcții precum detectarea avansată a scenelor foto, stiluri foto, comenzi vocale Siri procesate offline, autocorect, transcriere live și chiar rularea de modele transformer pentru traducere direct pe dispozitiv. Telefoanele Pixel de la Google au, de asemenea, siliciu personalizat (“Google Tensor” SoC-uri) cu NPU-uri: cel mai recent Tensor G3 din Pixel 8 a fost “proiectat special pentru a rula modelele AI ale Google”, îmbunătățind fiecare parte a cipului (CPU, GPU, ISP) pentru a deschide calea către AI generativ pe dispozitiv blog.google. Pixel 8 poate rula modelele Google de ultimă generație pentru text-to-speech și traducere local, aceleași care anterior erau limitate la centrele de date blog.google. De asemenea, realizează trucuri complexe cu camera, precum “Best Take” pentru combinarea fotografiilor de grup și Audio Magic Eraser folosind o suită de modele AI direct pe dispozitiv blog.google. Samsung și alți producători Android folosesc chipseturi Snapdragon de la Qualcomm, ale căror cele mai noi NPU-uri (Hexagon AI engine) pot rula chiar și modele lingvistice mari pe telefon – Qualcomm a demonstrat rularea unui LLM cu 10 miliarde de parametri și chiar generarea de imagini cu Stable Diffusion pe un telefon cu Snapdragon 8 Gen 3 futurumgroup.com. Motorul AI al acestui cip este cu 98% mai rapid decât generația anterioară și suportă precizia INT4 pentru eficiență futurumgroup.com. Consecința practică: telefonul tău din 2024 poate face lucruri precum rezumarea articolelor, răspuns la întrebări sau editarea fotografiilor cu AI fără a avea nevoie de cloud. Chiar și funcțiile de accesibilitate beneficiază: de exemplu, telefoanele Pixel au acum dictare vocală pe dispozitiv, subtitrări live și o funcție viitoare care va descrie imagini pentru utilizatorii nevăzători folosind un model local.
- Camere inteligente & sisteme de securitate: Camerele cu AI folosesc NPU-uri integrate pentru a detecta instantaneu persoane, fețe, animale sau comportamente suspecte. De exemplu, cele mai noi camere de securitate EnGenius includ un NPU integrat care se ocupă de detectarea obiectelor și convertește video în metadate direct pe cameră, eliminând necesitatea unui recorder video separat și sporind securitatea (deoarece videoclipul poate fi analizat și stocat local) engeniustech.com. Asta înseamnă că camera ta de securitate poate decide „persoană prezentă” sau „pachet livrat” și trimite doar acea alertă, în loc să transmită ore întregi de filmări către un serviciu cloud. În mod similar, dispozitivele pentru consumatori precum Google Nest Cam IQ aveau un cip de viziune pe dispozitiv (Google Edge TPU) pentru a recunoaște fețe familiare și a diferenția oamenii de animale de companie în câmpul său vizual. Camerele DSLR și mirrorless adaugă, de asemenea, procesoare AI pentru lucruri precum urmărirea subiectului, autofocus pe ochi și optimizarea scenei în timp real. La drone, cipurile AI la bord ajută la evitarea obstacolelor și navigația vizuală fără a necesita control de la distanță. Notabil, Edge TPU de la Google (un mic modul ASIC) a devenit un accesoriu popular pentru camerele DIY și IoT industriale – oferă 4 TOPS de putere de procesare vizuală pentru sarcini precum detectarea persoanelor sau citirea numerelor de înmatriculare, folosind doar ~2 wați coral.ai.
- Dispozitive Smart Home & IoT: Dincolo de telefoane, multe gadgeturi smart home au mini NPU-uri. Boxele activate vocal (Amazon Echo, Google Nest Hub etc.) includ acum adesea cipuri de recunoaștere vocală locală. Amazon a dezvoltat procesorul AZ1 Neural Edge pentru dispozitivele Echo pentru a accelera detectarea cuvântului de trezire Alexa și răspunsurile pe dispozitiv, reducând latența la jumătate embedl.com. AZ1 (realizat cu MediaTek) rulează o rețea neuronală care recunoaște „Alexa” și procesează comenzi simple fără a ajunge în cloud embedl.com. Acest lucru nu doar că face Alexa să pară mai rapidă, dar păstrează și mai multe date vocale private. De asemenea, multe televizoare noi, electrocasnice și chiar jucării au ceva AI la margine – de exemplu, camera unui frigider inteligent poate identifica alimentele și datele de expirare local. Wearables merită menționate și ele: cipul S9 al Apple Watch a adăugat un Neural Engine cu 4 nuclee pentru a gestiona mai bine algoritmii AI de sănătate și cererile Siri direct pe ceas apple.fandom.com. Iar pe partea industrială, senzorii IoT cu NPU-uri pot efectua detectarea anomaliilor pe datele echipamentelor direct la margine, semnalând doar evenimentele relevante în amonte (economisind lățime de bandă și răspunzând mai rapid la probleme).
- Automobile (ADAS și autonomie): Mașinile au devenit hub-uri AI pe roți. Sistemele avansate de asistență a șoferului (ADAS) și funcțiile de conducere autonomă se bazează pe o suită de acceleratoare AI la bord pentru a interpreta fluxurile de la camere, LiDAR, radar și pentru a lua decizii de condus în fracțiuni de secundă. Tesla a proiectat faimos propriul său FSD (Full Self-Driving) Computer cu două cipuri NPU. Cipul FSD al Tesla (HW3, introdus în 2019) oferea 144 TOPS (două NPU-uri la 72 TOPS fiecare); noul HW4 (2023) crește această valoare la aproximativ 200–250 TOPS total (două NPU-uri pe 7nm la peste 100 TOPS fiecare) ts2.tech. Acest lucru permite mașinii să proceseze simultan video la rezoluție completă de la 8 camere, sonar etc., prin rețele neuronale pentru percepție și chiar să ruleze unele modele de limbaj pentru comenzi vocale – totul local, în modulul mașinii. Platforme concurente precum NVIDIA Drive și Qualcomm Snapdragon Ride integrează, de asemenea, NPU-uri. Cel mai nou cip supercomputer auto de la NVIDIA, Drive Thor, programat pentru mașinile din 2025, promite până la 1.000 TOPS pe un singur cip (și 2.000 TOPS când sunt două în pereche) pentru a susține autonomia de Nivel 4 ts2.tech. Acesta combină un GPU, CPU și acceleratoare dedicate pentru deep learning astfel încât poate gestiona totul, de la recunoașterea semnelor de circulație până la AI pentru monitorizarea șoferului, direct pe cip ts2.tech. Aceste NPU-uri sunt literalmente salvatoare de vieți: o mașină autonomă nu poate aștepta serverele din cloud dacă un copil aleargă pe stradă. AI-ul de la bord trebuie să vadă și să reacționeze în zeci de milisecunde. În afara autoturismelor, găsim utilizare intensă a edge AI și în drone autonome, roboți de livrare și vehicule industriale care navighează și iau decizii cu NPU-uri/TPU-uri la bord (de exemplu, roboții de livrare Nuro și multe sisteme de camioane autonome folosesc cipuri AI NVIDIA sau Huawei direct pe dispozitiv).
- Edge Computing & Industrie: În fabrici și în mediile de afaceri, AI-ul pe dispozitiv ia adesea forma serverelor edge sau a gateway-urilor cu acceleratoare AI. În loc să trimită fluxuri video sau date de la senzori către un cloud central, companiile instalează cutii edge (uneori bazate pe GPU, alteori pe NPU/FPGA) la fața locului. Acestea gestionează sarcini precum analiza video în timp real pentru controlul calității pe o linie de producție, detectând defecte folosind viziunea AI în microsecunde. Dispozitivele medicale sunt un alt exemplu: un ecograf portabil sau un RMN poate avea un NPU pentru a face analiza imaginilor AI pe dispozitiv, astfel încât medicii să primească ajutor diagnostic instantaneu fără a avea nevoie de conexiune la internet (ceea ce este, de asemenea, mai bine pentru confidențialitatea datelor pacienților). Retailul și orașele implementează și ele AI la edge – de exemplu, camere de trafic inteligente cu NPU-uri pentru a analiza congestia și a ajusta semafoarele, sau camere de rafturi din retail care urmăresc inventarul. Multe dintre acestea folosesc NPU-uri specializate precum Intel Movidius Myriad, Edge TPU de la Google sau noi jucători precum Hailo-8 (un NPU israelian care oferă 26 TOPS cu doar câțiva wați pentru camere). Elementul comun este că aceste acceleratoare permit analiza să aibă loc local, obținând rezultate în timp real și păstrând doar informațiile de nivel înalt (nu date brute) care circulă prin rețele.
Versatilitatea NPU-urilor/TPU-urilor pe diferite tipuri de dispozitive este impresionantă. Într-un moment îți permit să estompezi fundalul unei fotografii cu AI, iar în următorul ghidează o dronă sau scanează imagini medicale. Camerele smartphone-urilor folosesc acum NPU-uri pentru funcții precum Night Mode (agregarea inteligentă a mai multor cadre), efectul bokeh în modul Portret, recunoașterea scenelor (telefonul știe că fotografiezi un „apus” și optimizează culorile prin AI) și chiar pentru efecte AR distractive (Animoji care îți mapează fața sau filtre Snapchat care urmăresc mișcările – toate datorită rețelelor neurale pe dispozitiv). Biometria folosește NPU-uri: scanere de amprentă îmbunătățite cu AI pentru detectarea vitalității, deblocare facială cu senzori de adâncime plus AI. Audio le folosește și el: anularea zgomotului în căști și telefoane este acum adesea condusă de AI, cu NPU-uri care separă vocea de zgomotul de fundal în timp real.
Un exemplu concret de inovație în 2024: Oppo (producătorul de smartphone-uri), în parteneriat cu MediaTek, a anunțat că a implementat un model AI Mixture-of-Experts (MoE) direct pe dispozitiv la sfârșitul lui 2024 – se pare că este primul care face acest lucru pe un telefon grandviewresearch.com. Această arhitectură avansată de rețea neurală (MoE) poate crește performanța activând doar subrețelele „experte” relevante pentru fiecare sarcină, iar realizarea acestui lucru pe dispozitiv înseamnă că telefoanele Oppo pot obține procesare AI mai rapidă și eficiență energetică mai bună pentru sarcini complexe, fără a avea nevoie de asistență din cloud grandviewresearch.com. Acest lucru subliniază cum chiar și cercetarea AI de ultimă oră ajunge rapid în dispozitivele noastre de buzunar prin NPU-uri îmbunătățite.
În interiorul cipurilor AI din 2025: cele mai noi dezvoltări de la Apple, Google, Qualcomm și alții
Cursa pentru a construi hardware AI mai bun pe dispozitiv s-a intensificat rapid. Iată o privire asupra a ceea ce au lansat recent (2024–2025) companiile mari în materie de NPU/TPU și siliciu AI:
- Apple: Strategia Apple privind siliciul personalizat a pus de mult accentul pe învățarea automată pe dispozitiv. În fiecare an, Neural Engine-ul Apple a crescut în putere. În iPhone 15 Pro din 2023, Neural Engine-ul cipului A17 Pro a atins 35 TOPS (trilioane de operațiuni pe secundă) cu cele 16 nuclee ale sale apple.fandom.com. Aceasta a fost dublul debitului brut al NPU-ului din A16, iar Apple a folosit acest lucru pentru a permite funcții precum recunoașterea vocală pe dispozitiv pentru Siri (procesând în sfârșit multe cereri Siri fără internet) și noi capabilități ale camerei (cum ar fi modul Portret capturat automat și traducerea live a textului prin cameră). Cipurile Apple din 2024 au continuat această tendință: familia M3 pentru Mac-uri (sfârșitul lui 2023) a primit un Neural Engine actualizat (interesant, reglat pentru 18 TOPS pentru cipul M3 de bază, concentrându-se mai mult pe eficiență) apple.fandom.com. În 2024, Apple a introdus cipul M4 (pentru iPad-uri/Mac-uri de top, mijlocul lui 2024) care, conform rapoartelor, a ridicat Neural Engine-ul la 38 TOPS pe un proces rafinat de 3nm apple.fandom.com. Dincolo de cifre, Apple a folosit acel NPU: funcții precum Personal Voice (care creează o clonă a vocii utilizatorului după 15 minute de antrenament) rulează privat pe Neural Engine în iPhone-uri, iar transcrierile Live Voicemail au loc local. Apple a integrat, de asemenea, NPU-uri în toate clasele sale de dispozitive – chiar și AirPods Pro au un mic cip neural pentru Adaptive Audio. Directorii Apple subliniază adesea aspectul de confidențialitate: „învățarea automată pe dispozitivul tău” înseamnă că datele tale rămân la tine. Până în 2025, ne așteptăm ca Neural Engine-ul Apple să se extindă și mai mult sau să devină disponibil pentru aplicații terțe în moduri noi (deja Core ML permite dezvoltatorilor să-l folosească, dar Apple ar putea deschide mai mult acces la API-urile neurale). Există și zvonuri că Apple proiectează un accelerator AI de sine stătător pentru viitoare ochelari sau mașini, dar produsele actuale arată că preferă NPU-uri integrate în SoC-urile din seriile A și M.
- Google: Google nu doar că a fost pionierul cloud TPU, ci a și investit masiv în AI pe dispozitiv pentru telefoanele Pixel și dispozitivele de consum. Google Tensor SoC (introdus pentru prima dată în 2021 pe Pixel 6) a fost unic prin faptul că Google, faimos pentru cloud, a creat un cip de telefon pentru a rula AI direct pe dispozitiv. Până la Tensor G3 (în Pixel 8 din 2023), Google a evidențiat îmbunătățiri care permit AI generativ pe dispozitiv. Google a spus explicit că cipul Pixel 8 aduce „cercetarea Google AI direct pe cele mai noi telefoane ale noastre” blog.google. TPU-ul de generație următoare al Tensor G3 (Google numește în continuare nucleul AI „TPU” intern) permite Pixel să ruleze modele avansate precum Palm 2 sau Gemini Nano (versiuni reduse ale modelelor lingvistice mari ale Google) pe dispozitiv pentru funcții precum rezumarea site-urilor web sau îmbunătățiri ale tastării vocale reddit.com. O funcție principală: Pixel 8 poate rula local cel mai bun model text-to-speech al Google (cel folosit în centrele de date), ceea ce permite telefonului să citească pagini web cu voci naturale și chiar să le traducă în timp real, totul offline blog.google. Google folosește de asemenea TPU-ul din Pixel pentru fotografie („HDR+” imagini multi-cadru, Magic Eraser pentru eliminarea obiectelor folosind AI inpainting blog.google), pentru securitate (deblocare facială pe dispozitiv prin AI, acum considerată suficient de sigură pentru plăți blog.google), și pentru vorbire (Asistentul care nu se supără dacă spui „ăăă”). Dincolo de telefoane, Google oferă Coral Dev Board și stick USB pentru pasionați și companii pentru a adăuga Edge TPU-uri proiectelor lor, fiecare conținând Edge TPU de la Google care oferă 4 TOPS pentru sarcini de viziune la consum foarte redus de energie coral.ai. Este folosit în unele dintre produsele proprii Google, precum Nest Hub Max pentru recunoașterea gesturilor. Pentru Google, integrarea TPU-urilor la margine face parte dintr-o strategie mai largă: Sundar Pichai (CEO-ul Google) a spus că viitorul AI înseamnă augmentarea fiecărei experiențe, iar Google vede clar că „pentru a aduce puterea transformatoare a AI în viața de zi cu zi, trebuie să o accesezi de pe dispozitivul pe care îl folosești zilnic” blog.google – de aici cipurile Tensor. Ne-am putea aștepta la un Tensor G4 în telefoanele Pixel de la sfârșitul lui 2024, posibil construit pe procesul mai nou al Samsung sau TSMC, îmbunătățind și mai mult performanța și eficiența AI, poate chiar permițând AI multimodal pe dispozitiv (combinând modele de viziune+limbaj).
- Qualcomm: Principalul furnizor de cipuri mobile pentru telefoane Android a promovat agresiv AI Engine din seria Snapdragon. Snapdragon 8 Gen 2 (sfârșitul lui 2022) a introdus suport dedicat pentru INT4 și a demonstrat generarea de imagini stable diffusion în timp real pe un telefon. Snapdragon 8 Gen 3 (anunțat la sfârșitul lui 2023, în telefoanele flagship din 2024) reprezintă un salt major: Qualcomm spune că NPU-ul Hexagon este cu 98% mai rapid decât cel din Gen 2 și cu 40% mai eficient energetic futurumgroup.com. Acest cip poate rula modele lingvistice mari cu până la 10 miliarde de parametri complet pe dispozitiv, procesând aproximativ 20 de tokeni pe secundă – suficient pentru conversații simple cu un asistent AI fără cloud futurumgroup.com. De asemenea, a atins „cea mai rapidă generare de imagini Stable Diffusion din lume” pe un dispozitiv mobil în demonstrații futurumgroup.com. Qualcomm a subliniat că AI-ul generativ on-device este un punct cheie de vânzare pentru noile telefoane. De exemplu, au colaborat cu Meta pentru a optimiza Llama 2 LLM open-source pentru Snapdragon, cu scopul de a permite rularea unui chatbot AI pe telefon până în 2024 iconnect007.com. (Un executiv Qualcomm a declarat: „aplaudăm abordarea deschisă a Meta… pentru a scala AI-ul generativ, acesta trebuie să ruleze atât în cloud, cât și la margine”, întărind filosofia edge AI iconnect007.com.) Dincolo de telefoane, Qualcomm integrează NPU-uri în cipuri pentru laptopuri (platformele Snapdragon compute pentru Windows pe ARM) – iar platforma lor auto Snapdragon Ride folosește aceleași nuclee AI pentru a oferi până la 30 TOPS pentru ADAS, cu o foaie de parcurs spre sute de TOPS. În 2025, Qualcomm a anunțat chiar și un nou CPU Snapdragon X Elite pentru PC-uri, care include un NPU puternic, semnalând intenția de a concura cu Apple și Intel la performanța AI pe computere personale. Odată cu creșterea AI-ului on-device, Qualcomm chiar etichetează unele telefoane drept „telefoane AI.” Ei estimează că multe aplicații (de la fotografie la mesagerie și productivitate) vor folosi NPU-ul. Pe partea de software, Qualcomm a lansat Qualcomm AI Stack pentru a unifica suportul pentru framework-uri populare (TensorFlow Lite, PyTorch, ONNX) pe NPU-urile lor iconnect007.com – încercând să faciliteze dezvoltatorilor utilizarea hardware-ului AI fără cunoștințe avansate despre cipuri.
- MediaTek: Al doilea cel mai mare producător de cipuri mobile (cunoscut pentru seria Dimensity) și-a îmbunătățit, de asemenea, NPU-urile. MediaTek își numește motoarele AI „APU” (Unitate de Procesare AI). De exemplu, Dimensity 9200+ (2023) are o APU de generația a șasea cu o creștere semnificativă a performanței față de cipul anterior, permițând funcții precum difuzia stabilă pe dispozitiv și reducerea zgomotului AI în videoclipuri. În 2024, MediaTek a anunțat Dimensity 9400, iar într-un parteneriat cu Oppo, au utilizat arhitectura sa avansată de NPU pentru a introduce noi funcții AI (după cum s-a menționat, remasterizarea foto AI a Oppo Find X8 cu eliminarea reflexiilor și clarificarea imaginilor neclare este alimentată de NPU-ul MediaTek) mediatek.com. Directorii MediaTek s-au poziționat explicit în fruntea AI-ului pe dispozitiv. După cum a spus Will Chen de la MediaTek, „viitorul AI-ului transcende cloud-ul; este condus de edge computing chiar din palma mâinii tale.” În viziunea lor, AI-ul pe telefoane trebuie să fie rapid, privat, sigur și accesibil în mod constant mediatek.com. MediaTek a format chiar și o colaborare „centrată pe APU” cu Meta pentru a susține framework-urile Llama și cu producători de dispozitive precum Oppo și Xiaomi concentrându-se pe funcții AI pentru cameră și voce. Până în 2025, MediaTek plănuiește să lanseze aceste NPU-uri nu doar în telefoane, ci și în televizoare inteligente (pentru upscaling AI și îmbunătățirea imaginii), dispozitive IoT și chiar automobile (MediaTek are o platformă AI pentru automobile și a încheiat un parteneriat cu Nvidia pentru a integra IP-ul GPU Nvidia pentru mașini, oferind probabil propriul NPU pentru AI-ul senzorilor).
- Intel: 2024 a marcat intrarea Intel pe piața acceleratoarelor AI pe PC-urile mainstream. Intel Core din a 14-a generație (Meteor Lake, lansat în decembrie 2023 și rebranduit ca Core Ultra în 2024) este primul procesor PC x86 cu o unitate de procesare neurală (NPU) integrată. NPU-ul Meteor Lake (numit uneori VPU – Vision Processing Unit – bazat pe tehnologia Movidius de la Intel) oferă aproximativ 8–12 TOPS de performanță AI pcworld.com. Aceasta este folosită pentru a accelera funcțiile AI din Windows 11, precum estomparea fundalului, contactul vizual în apelurile video și ar putea fi folosită de aplicații pentru transcriere locală, suprimarea zgomotului sau chiar asistenți AI de mici dimensiuni. Microsoft și Intel au promovat împreună conceptul de „PC AI”. Intel susține că aceste NPU-uri vor fi livrate în zeci de milioane de laptopuri în 2024 pcworld.com. După Meteor Lake, foaia de parcurs Intel menționează Arrow Lake (pentru desktop-uri în 2024), care include de asemenea un NPU (aproximativ 13 TOPS, ușor îmbunătățit) pcworld.com. Interesant este că prima încercare a Intel de a introduce un NPU pe desktop a fost de fapt depășită de AMD (vezi mai jos), iar Intel a ales să folosească un design NPU modest pentru a nu sacrifica suprafața GPU/CPU la cipurile pentru entuziaști pcworld.com. Dar spre sfârșitul lui 2024, Intel a semnalat că viitoarele cipuri Lunar Lake vor avea un NPU mult mai puternic (~45 TOPS) pentru a îndeplini cerințele „Copilot” ale Microsoft pcworld.com. Toate acestea indică faptul că Intel vede AI ca fiind esențial pentru PC-urile viitorului – nu pentru antrenarea unor modele uriașe, ci pentru accelerarea experiențelor cotidiene bazate pe AI (de la îmbunătățiri pentru suita office la instrumente creative care folosesc AI local). Intel vinde, de asemenea, acceleratoare AI de edge precum cipurile Intel Movidius Myriad (folosite în unele drone, camere) și acceleratoarele Habana pentru servere, dar NPU-ul integrat din Meteor Lake este o piatră de hotar care aduce AI pe dispozitivele de consum obișnuite.
- AMD: AMD a intrat pe piața AI-ului on-device cam în același timp. Procesoarele sale pentru laptopuri din seria Ryzen 7040 (Phoenix), lansate în 2023, au prezentat primul Ryzen AI Engine – practic un NPU XDNA integrat (tehnologie provenită din achiziția Xilinx de către AMD). Acest NPU oferea până la 10 TOPS pe cipul mobil en.wikipedia.org. AMD a promovat cazuri de utilizare precum apeluri video îmbunătățite cu AI, aplicații de productivitate și altele, similar cu obiectivele Intel. Apoi, AMD a lansat pentru scurt timp o serie desktop Ryzen 8000 (începutul lui 2024) cu un NPU care ajungea la 39 TOPS – un număr foarte mare pentru unitatea AI a unui CPU de uz general, depășind chiar planurile Intel pcworld.com. Totuși, AMD a schimbat rapid direcția și a sărit o generație, concentrându-se pe următoarea arhitectură (următorul Ryzen 9000, la sfârșitul lui 2024, a renunțat la NPU pentru a prioritiza îmbunătățirile de bază) pcworld.com. Cu toate acestea, se așteaptă ca AMD să readucă NPUs în viitoarele cipuri PC (probabil este o retragere temporară, deoarece lucrează la integrarea unui motor AI puternic fără a compromite alte performanțe). Pe partea de produs, NPU-urile AMD ar putea permite lucruri interesante, deoarece AMD are și GPU-uri puternice – o combinație care ar putea gestiona colaborativ sarcinile AI (unele părți pe NPU, altele pe GPU). AMD a integrat, de asemenea, nuclee AI în SoC-urile sale adaptive (bazate pe FPGA) și în cipurile auto. În concluzie, până în 2025 toți producătorii de cipuri x86 pentru PC au adoptat NPUs, aliniindu-se cu ceea ce au făcut smartphone-urile cu câțiva ani înainte, indicând că accelerarea AI devine o caracteristică standard peste tot.
- Alții: O varietate de companii specializate pe cipuri și alte firme tech inovează și ele în domeniul NPU-urilor. NVIDIA, cunoscută pentru GPU-uri, include acum Tensor Cores dedicate în GPU-urile lor și oferă un design open NVDLA (deep learning accelerator) pentru integrare în produse System-on-Chip. În dispozitive edge precum seria NVIDIA Jetson (folosită în roboți, drone, sisteme embedded), există atât GPU-ul cât și “DLA-uri” cu funcție fixă – practic NPUs – care preiau o parte din inferența rețelelor neurale de la GPU. Modulul Orin de la NVIDIA, de exemplu, are 2 DLA-uri pe lângă GPU, contribuind la cele 254 TOPS de performanță AI pentru mașini ts2.tech. Apple se zvonește că lucrează la coprocesoare AI și mai avansate sau la motoare neurale mai mari pentru ochelarii lor AR sau proiecte viitoare, deși detaliile sunt secrete. Huawei (în ciuda provocărilor geopolitice) continuă să proiecteze cipuri mobile Kirin cu NPU-uri (arhitectura lor “DaVinci” NPU) și, de asemenea, NPU-uri de clasă server în cipurile lor Ascend AI – cipul Kirin 9000S din 2023 păstrează, se pare, un NPU puternic pentru sarcini de imagine și limbaj pe telefoanele lor. Vedem și startup-uri precum Hailo, Mythic, Graphcore și altele care oferă propriile cipuri AI edge: de exemplu, Hailo-8 menționat (26 TOPS într-un card mini PCIe pentru camere AI), IPU-ul Graphcore pentru centre de date (nu chiar on-device, dar o nouă arhitectură pentru rețele neurale), Mythic lucrând la NPU-uri analogice, etc. ARM, ale cărei designuri stau la baza majorității cipurilor mobile, oferă seria Ethos NPU (precum Ethos-U, Ethos-N78) pe care producătorii de cipuri o pot integra pentru a obține un accelerator AI gata de folosit în SoC-uri IoT sau mid-range. Acest lucru a permis chiar și unor jucători relativ mici să includă NPU-uri în cipurile lor prin licențierea designului ARM.
Concluzia este că, de la marile companii tech la startup-uri, toată lumea investește în siliciu AI on-device. Drept urmare, vedem îmbunătățiri rapide: cipuri noi cu TOPS mai mari, eficiență mai bună (TOPS per watt) și suport pentru noi tipuri de date (precum cuantificare pe 4 biți pentru modele mai mari). De exemplu, cele mai noi de la Qualcomm și MediaTek pot rula precizie INT4, ceea ce este excelent pentru modelele AI generative unde lățimea de bandă a memoriei este un factor limitator androidauthority.com. Aceste inovații se traduc direct în beneficii pentru utilizatori – de exemplu, editare video AI mobilă în timp real (eliminarea obiectelor din video 4K pe loc, așa cum poate face Snapdragon 8 Gen 3 cu funcția AI “Video Object Eraser” futurumgroup.com), sau coprocesoare AI în mașini care permit asistenți vocali ce funcționează fără rețea și răspund la fel de rapid ca o conversație umană.
Știri cheie din 2024–2025: Lansări, Benchmarks și Parteneriate
Pentru a ilustra cât de rapid evoluează lucrurile, iată câteva evenimente de top din lumea NPU/TPU și AI on-device de la finalul lui 2024 până în 2025:
- Lansările Apple M3 și M4 (octombrie 2023 & mai 2024): Au adus Neural Engines de nouă generație. Neural Engine-ul M3 realizează 18 TOPS (16 nuclee), iar M4 a sărit la 38 TOPS (tot 16 nuclee, dar cu frecvență/eficiență mai mare) apple.fandom.com. Apple a demonstrat că aceste cipuri pot gestiona sarcini intensive precum generarea de imagini stable diffusion direct pe macOS (cu Core ML Stable Diffusion, dezvoltatorii au arătat ~15 secunde pentru a genera o imagine pe un M2 – și mai rapid pe M3/M4).
- Lansarea Google Pixel 8 (octombrie 2023): A pus accentul pe AI „peste tot” în dispozitiv. Evenimentul Google a prezentat sumarizarea pe dispozitiv a paginilor web și traducerea live a articolelor folosind NPU-ul Tensor G3 al Pixel 8. A introdus și „Assistant with Bard”, care va rula în viitor unele interacțiuni direct pe dispozitiv. Google a subliniat că Pixel 8 poate rula de 2× mai multe modele pe dispozitiv decât Pixel 6, și modele mult mai sofisticate blog.google. Cu alte cuvinte, un salt uriaș în doar doi ani de dezvoltare a cipului Tensor.
- Parteneriatul Qualcomm–Meta (iulie 2023): Qualcomm și Meta au anunțat că optimizează modelul lingvistic mare Llama 2 al Meta pentru a rula complet pe NPU-urile Snapdragon până în 2024 iconnect007.com. Scopul este să permită dezvoltatorilor să implementeze chatboți și aplicații AI generative pe telefoane, căști VR, PC-uri etc., fără cloud. Aceasta a fost o susținere semnificativă a AI-ului pe dispozitiv de către un mare deținător de modele AI (Meta) și un mare producător de cipuri. La sfârșitul lui 2024, au revenit cu planuri pentru optimizarea Llama 3 de asemenea qualcomm.com.
- PC-uri Microsoft Windows 11 „Copilot” (2024): Microsoft a stabilit un reper, numind PC-urile cu >40 TOPS de accelerare AI locală „AI PCs” eligibile pentru funcții AI avansate (precum integrarea asistentului digital Copilot). Acest lucru a determinat producătorii – Lenovo, Dell, etc. – să adopte cipuri cu NPU-uri (fie Intel, AMD sau Qualcomm) pentru a îndeplini specificațiile. Rezultatul este un val de laptopuri capabile AI așteptat în 2024, Microsoft susținând că zeci de modele sunt pe drum și prognozând peste 40 de milioane de livrări de AI PC-uri în 2024 pcworld.com.
- NPU-ul scurt al AMD Ryzen 8000 (ianuarie 2024): AMD a anunțat un procesor desktop cu un impresionant NPU de 39 TOPS (o surpriză, deoarece procesoarele desktop de obicei nu au astfel de acceleratoare) pcworld.com. Deși acel produs a fost rapid înlocuit, a arătat că și procesoarele desktop pot avea siliciu AI care rivalizează cu cipurile mobile la capitolul TOPS. Acesta a fost, de asemenea, primul procesor desktop x86 care a integrat un NPU (devansând la limită Intel Arrow Lake).
- Demonstrații Tesla FSD Beta v12 (sfârșit de 2023): Elon Musk a prezentat condusul autonom end-to-end bazat pe AI (fără radar, doar rețele de viziune) care rulează pe NPU-urile HW3/HW4 de la Tesla. Notabil a fost faptul că rețeaua neuronală conducea mașina folosind fluxuri video procesate integral pe computerul mașinii, în timp real. Observatorii au remarcat că FSD v12 folosea la maximum cele 2× 100 TOPS NPU pentru viziune, iar Tesla a sugerat că viitoarele upgrade-uri (HW5) care vizează 2000 TOPS ar putea fi în dezvoltare pentru a gestiona modele și mai mari (au existat zvonuri că HW5 de la Tesla ar putea ținti 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor dezvăluit (GTC 2024): NVIDIA a prezentat detalii despre următorul său cip auto, Drive Thor, care oferă echivalentul a de 2× puterea de calcul AI față de predecesorul său Orin – până la 2000 TOPS când două cipuri sunt conectate ts2.tech. Semnificativ, Thor este promovat ca fiind capabil să gestioneze nu doar sarcini de condus, ci și AI pentru interiorul mașinii (precum voce și monitorizarea ocupanților) pe o singură platformă, arătând cum NPU-urile și GPU-urile pot consolida multe funcții AI în mașini ts2.tech. Mai mulți producători auto (Xpeng, BYD, Volvo) au anunțat că vor folosi Thor din 2025 ts2.tech.
- AI MoE on-device de la Oppo (octombrie 2024): După cum s-a menționat, Oppo a implementat un model Mixture-of-Experts pe telefonul Find X8 grandviewresearch.com. Acest lucru este demn de știre deoarece modelele MoE sunt de obicei mari și considerate a fi rulate pe servere din cauza complexității lor. Rularea MoE pe dispozitiv sugerează noi tehnici de comprimare a modelelor și un NPU foarte capabil (probabil MediaTek Dimensity 9400 pe acel dispozitiv).
- Ochelarii Meta Ray-Ban AI (2025): (Așteptați) Meta a prezentat prototipuri de ochelari inteligenți care pot identifica ceea ce vezi și îți pot vorbi despre asta – probabil folosind un accelerator personalizat la bord (Meta a prototipat siliciu personalizat pentru AR). Deși detaliile sunt puține, acest lucru subliniază efortul de a integra AI în dispozitive foarte restrânse (ochelari, căști cu baterie), ceea ce ar necesita NPU-uri ultra-eficiente.
- Benchmark-uri MLPerf Mobile Inference (2023–24): MLCommons a publicat rezultate care arată performanța AI a celor mai noi smartphone-uri. De exemplu, în MLPerf Inference v3.0 (octombrie 2023), Apple A16, Google Tensor G2 și Qualcomm Gen 2 au fost toate testate pe sarcini precum clasificarea imaginilor și detectarea obiectelor. Rezultatele au arătat că Apple și Qualcomm își împart victoriile, dar, în general, NPU-urile mobile reduc diferența față de unele acceleratoare de clasă laptop/desktop pentru aceste sarcini – totul pe baterie. S-au evidențiat și diferențele software (de exemplu, AI SDK de la Qualcomm vs. Apple Core ML). Îmbunătățirile continue în fiecare an (creșteri procentuale de două cifre) în aceste benchmark-uri demonstrează competiția sănătoasă și progresul rapid al AI-ului pe dispozitive.
- Parteneriate strategice: S-au format multe parteneriate între industrii. De exemplu, NVIDIA și MediaTek (mai 2023) au anunțat o colaborare pentru a integra IP-ul GPU Nvidia și ecosistemul software în viitoarele cipuri pentru smartphone-uri și automobile MediaTek, practic combinând punctele forte AI ale Nvidia cu expertiza MediaTek în SoC-uri mobile. De asemenea, companii precum Qualcomm colaborează cu producători auto (Mercedes, BMW) pentru a integra platformele Snapdragon Cockpit și Ride (cu NPU-uri) în noile vehicule pentru funcții AI. Arm colaborează cu Fujitsu și alții pentru noi designuri de cipuri AI (precum partajarea AI a supercomputerului Fugaku, deși acesta este high-end). Chiar și IBM și Samsung au prezentat noi tehnologii de cipuri (precum computing neuromorfic și memorie AI) care ar putea revoluționa într-o zi NPU-urile – nu sunt încă aici, dar arată că pipeline-urile de cercetare sunt pline.
Per total, anul trecut a fost plin de dezvoltări, subliniind că AI-ul pe dispozitiv este unul dintre cele mai fierbinți domenii din tehnologie. După cum a remarcat un analist din industrie, „aceste capabilități pe dispozitiv deschid orizonturi complet noi… rularea LLM-urilor pe mobil ajută la rezolvarea problemelor de scală și cost, păstrează datele private și asigură funcționarea AI chiar și cu conectivitate limitată” futurumgroup.com. Asta rezumă de ce fiecare mare companie tech investește aici.
Perspective de la experți: Ce spun liderii din tehnologie despre AI-ul pe dispozitiv
Impulsul din spatele NPU-urilor și TPU-urilor nu este evident doar în produse, ci și în cuvintele liderilor din industrie. Iată câteva citate și perspective relevante care evidențiază importanța AI-ului pe dispozitiv:
- Cristiano Amon (CEO al Qualcomm): „Dacă AI-ul va ajunge la scară largă, îl vei vedea rulând pe dispozitive… Acesta marchează un punct de cotitură în AI: fără probleme de latență — doar inferență pe dispozitiv, fluidă, sigură, complementară cloud-ului. Viitorul AI-ului este personal și începe pe dispozitivul tău.” (Interviu Bloomberg și postare pe X, 2023) x.com. Amon își imaginează o lume AI hibridă în care telefonul/PC-ul tău gestionează multe sarcini pe propriile NPU-uri, colaborând cu cloud-ul când este nevoie. El subliniază că rularea AI-ului local este cheia pentru a-l face omniprezent (nu poți avea totul bazat pe GPU-uri din cloud – nu există suficiente pentru miliarde de dispozitive în lume).
- Durga Malladi (SVP, Qualcomm): „Apreciem abordarea Meta privind AI-ul deschis și responsabil… Pentru a scala eficient AI-ul generativ către mainstream, AI-ul va trebui să ruleze atât în cloud, cât și pe dispozitive la margine.” iconnect007.com Malladi a spus acest lucru în contextul parteneriatului cu Meta. Acesta evidențiază o viziune comună: scalarea AI = cloud + edge care lucrează împreună. Există acum înțelegerea că AI-ul pur cloud nu va fi suficient (din motive de cost, confidențialitate și latență), așa că AI-ul edge trebuie să preia o parte din sarcină.
- Will Chen (Director General Adjunct, MediaTek): „Viitorul AI-ului transcende cloud-ul; este condus de edge computing chiar din palma mâinii tale… OPPO și MediaTek sunt pionieri în AI pe dispozitiv, asigurând că abilitățile inteligente sunt puternice, rapide, private, sigure și constant accesibile.” (MediaTek Exec Talk, 2025) mediatek.com. Acest citat rezumă clar valoarea AI-ului pe dispozitiv – obții performanță și accesibilitate plus confidențialitate și securitate. De asemenea, arată că și companii tradițional mai puțin vizibile în Vest (precum MediaTek) gândesc la cel mai înalt nivel în ceea ce privește implementarea AI-ului.
- Dr. Norman Wang (expert hardware AI, CEO al unui startup de cipuri): „În hardware-ul AI, cu cât poți aduce mai aproape procesarea de sursa datelor, cu atât mai bine. Totul ține de reducerea mișcării datelor. Un NPU lângă senzorul tău de imagine înseamnă că nu mai trimiți megapixeli în cloud – extragi informații chiar la margine. Asta schimbă jocul pentru latență și consum de energie.” (Panel la HotChips 2024 – parafrazat). Această perspectivă tehnică explică de ce NPU-urile sunt adesea pe același siliciu cu alte componente: de exemplu, pe SoC-ul unui telefon, NPU-ul poate prelua direct datele camerei de la ISP. Minimizarea mișcării datelor este o parte esențială a AI-ului eficient, iar AI-ul edge realizează acest lucru procesând la sursa datelor.
- Xinzhou Wu (VP Automotive, NVIDIA): „Calculul accelerat a condus la descoperiri transformative, inclusiv AI generativă, care redefinește autonomia și industria transporturilor.” (GTC 2024 Keynote) ts2.tech. El discuta despre modul în care computerele de bord puternice (cu NPU/GPU) permit mașinilor nu doar să conducă, ci și să încorporeze potențial AI avansată, precum modele generative pentru lucruri precum interfețe de limbaj natural în mașină sau o mai bună înțelegere a situațiilor. Acest lucru subliniază că chiar și sectoare precum cel auto văd AI-ul pe dispozitiv nu doar ca funcționalitate de bază, ci și pentru îmbunătățirea experienței utilizatorului (de exemplu, asistenți vocali în mașini care pot purta conversații datorită LLM-urilor de bord).
- Sundar Pichai (CEO Google): „Viitorul AI-ului înseamnă să-l facem util pentru toată lumea. Asta înseamnă să aducem AI-ul în toate dispozitivele pe care le folosim – telefoane, electrocasnice, mașini – astfel încât să fie acolo când ai nevoie. Ne dorim să ajungem la utilizatori acolo unde sunt, cu AI care funcționează în timp real, local și care păstrează confidențialitatea.” (Parafrazat din mai multe interviuri/keynote-uri). Pichai vorbește adesea despre „AI ambientală” – ideea că AI-ul va fi peste tot în jurul nostru, integrat în lucruri. Inițiativa Google cu cipurile Tensor din Pixel este o execuție directă a acestei filozofii.
- Statistici din industrie: Analiștii au observat tendința în cifre. Un raport Grand View Research din 2024 a menționat: „Progresele recente în cipuri AI specializate și NPU-uri au permis rularea algoritmilor AI complecși direct pe dispozitive, îmbunătățind semnificativ performanța și eficiența energetică… ne apropiem de o tranziție esențială către AI pe dispozitiv.” grandviewresearch.com. Același raport preconizează că piața AI pe dispozitiv va exploda în următorii ani, segmentul hardware (NPU-uri etc.) reprezentând peste 60% din veniturile din 2024 și crescând pe măsură ce aproape fiecare nou dispozitiv IoT sau mobil adoptă capabilități AI grandviewresearch.com. O altă prognoză de la IDC și alții sugerează că până la mijlocul anilor 2020, aproape toate smartphone-urile high-end și majoritatea celor mid-range vor avea acceleratoare AI, iar până în 2030, miliarde de cipuri AI de edge vor fi folosite, de la electronice de consum la infrastructură inteligentă.
Consensul printre experți este că AI-ul pe dispozitiv nu este doar un „nice-to-have” – este esențial pentru următorul val tehnologic. Pionierul AI Andrew Ng a menționat adesea că „tiny AI” și edge AI vor permite inteligenței să pătrundă în orice obiect, analog cu modul în care electricitatea sau internetul au făcut-o în epoci anterioare. Depășind limitările AI-ului doar în cloud, NPU-urile și TPU-urile permit această penetrare.
Provocarea numeroaselor standarde (și eforturi de simplificare)
În timp ce hardware-ul a avansat rapid, ecosistemul de software și standarde pentru AI on-device încă recuperează teren. Dezvoltatorii se confruntă cu o junglă de unelte și SDK-uri atunci când încearcă să utilizeze NPU-uri pe diferite dispozitive nimbleedge.com. Puncte cheie:- Fiecare platformă are propriul său API sau SDK: Apple are Core ML (cu API-uri pentru a viza Neural Engine), Android are Neural Networks API (NNAPI) (deși Google a anunțat planuri de a-l dezvolta dincolo de Android 14) threads.com, Qualcomm oferă SNPE (Snapdragon Neural Processing Engine) sau, mai larg, Qualcomm AI Stack, NVIDIA are TensorRT și CUDA pentru dispozitivele sale, și așa mai departe. Există, de asemenea, ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI și altele. Aceste SDK-uri diferite au adesea capabilități diferite și necesită ajustarea modelelor pentru a rula optim pe fiecare țintă. După cum a menționat un raport despre AI on-device din 2025, „Multiple SDK-uri incompatibile (de exemplu, Core ML, LiteRT, ONNX Runtime) cu suport și performanță variabilă pentru operatori” îi obligă pe dezvoltatori să depună muncă suplimentară nimbleedge.com.
- Probleme de fragmentare: Un model care rulează perfect pe un GPU desktop s-ar putea să nu ruleze imediat pe NPU-ul unui telefon – operatorii (funcțiile matematice) s-ar putea să nu fie suportați sau să fie nevoie de cuantificare diferită. Dezvoltatorii trebuie uneori să mențină build-uri separate sau să optimizeze manual modelele pentru fiecare hardware. Aceasta este plângerea legată de „ecosistemul fragmentat, de nivel jos” nimbleedge.com. Uneltele de depanare sunt, de asemenea, rare – profilarea unui NPU pentru a vedea de ce un model este lent poate fi dificilă, mai ales comparativ cu uneltele bogate pentru CPU/GPU nimbleedge.com.
- Eforturi de standardizare: Pentru a aborda această problemă, există câteva inițiative în desfășurare. ONNX (Open Neural Network Exchange) a apărut ca un format comun, astfel încât poți antrena un model în PyTorch sau TensorFlow și apoi să-l exporți în ONNX pentru implementare. Multe runtime-uri (inclusiv unele on-device precum cele de la Qualcomm și MediaTek) acceptă modele ONNX și vor încerca să le compileze pentru hardware-ul respectiv. Acest lucru ajută la evitarea blocării într-un singur framework. Android NNAPI a fost o încercare a Google de a oferi o interfață universală – o aplicație poate solicita „rulează această rețea neurală” prin NNAPI, iar sistemul de operare va folosi orice accelerator este prezent (GPU, DSP sau NPU) pentru a o executa. NNAPI a fost adoptat pe multe dispozitive Android, dar a avut limitări și nu toți producătorii au oferit drivere robuste, ceea ce a determinat Google să indice o nouă strategie (posibil bazată pe WebNN sau integrări directe cu producătorii) după 2024 threads.com. Pe PC-uri, Microsoft a introdus DirectML și API-urile Windows ML pentru a abstractiza în mod similar diferențele hardware (permițând unui dezvoltator să folosească aceeași API pentru NPU-urile NVIDIA, Intel, AMD).
- Toolchain-uri unificate: Companiile construiesc, de asemenea, toolchain-uri pentru a simplifica implementarea. Am văzut AI Stack de la Qualcomm, care combină compilatorul lor (AI Model Efficiency Toolkit) și runtime-urile, astfel încât dezvoltatorii să poată viza mai ușor NPU-ul Hexagon iconnect007.com. TensorRT și SDK-urile aferente de la NVIDIA fac ceva similar pentru dispozitivele Jetson, optimizând modelele pentru GPU+NVDLA. Intel OpenVINO este un alt exemplu – îți permite să iei un model și să-l optimizezi pentru CPU-urile Intel, iGPU-uri și VPU-uri (NPU-uri) pentru implementări edge. Aceste framework-uri includ adesea optimizatoare de modele care convertesc modelele (pruning, cuantizare) pentru a se potrivi pe dispozitive mai mici.
- Interoperabilitate: Există o tendință de a face ca diferite NPU-uri să funcționeze cu framework-uri comune. De exemplu, TensorFlow Lite de la Google are hardware delegates – unul pentru NNAPI (acoperă generic dispozitivele Android), unul pentru Core ML (dispozitive iOS), unul pentru Edge TPU etc. Ideea este că scrii modelul TFLite și acesta va fi executat folosind cel mai bun accelerator disponibil prin delegate. În mod similar, PyTorch a adăugat suport pentru backend-uri mobile și chiar pentru lucruri precum Metal Performance Shaders de la Apple (pentru a folosi GPU/NPU pe iOS). ONNX Runtime poate, de asemenea, să vizeze diferiți acceleratori prin plugin-uri (de exemplu, se poate integra TensorRT de la NVIDIA sau Compute Library de la ARM sau altele).
- Standarde emergente: Khronos Group (cei din spatele OpenGL/Vulkan) a lucrat la NNEF (Neural Network Exchange Format) și există WebNN API în discuție pentru ca browserele să poată accesa accelerarea AI locală. Niciunul nu este adoptat universal încă. Dar o evoluție interesantă: la sfârșitul lui 2024, mai multe companii au format o alianță pentru a promova standarde “AI Hardware Common Layer” – practic, se explorează dacă se poate crea o interfață comună de nivel jos pentru NPU-uri (analog cu ceea ce a făcut OpenCL pentru compute pe GPU-uri). Este încă devreme.
- Experiența dezvoltatorului: Este o lacună recunoscută. După cum a spus blogul NimbleEdge, „dezvoltarea pentru AI on-device necesită în prezent navigarea într-un ecosistem fragmentat și de nivel scăzut… forțând dezvoltatorii să adapteze implementările pentru fiecare tip de hardware” nimbleedge.com. Industria știe că acest aspect trebuie îmbunătățit pentru ca AI on-device să devină cu adevărat mainstream. Este posibil să vedem o consolidare – de exemplu, dacă Google, Apple și Qualcomm ar putea fi de acord asupra unui set de operațiuni și API de bază (poate un gând prea optimist). Sau, mai probabil, framework-uri precum PyTorch și TensorFlow vor ascunde complexitatea prin integrarea tuturor acelor biblioteci ale producătorilor și alegerea celei potrivite la rulare.
În esență, deși NPU-urile/TPU-urile oferă forța brută, comunitatea lucrează la instrumente prietenoase cu creierul pentru a folosi această forță. Vestea bună este că, comparativ cu acum cinci ani, există mult mai multe opțiuni pentru a implementa un model on-device fără a fi expert în cipuri. Dar există loc de îmbunătățire – mai ales la nivel de depanare, profilare și suport multi-hardware.
Tendințe de piață și perspective de viitor
Proliferarea NPU-urilor și TPU-urilor în dispozitive determină o tendință mai largă: AI peste tot. Iată câteva tendințe generale și la ce să ne așteptăm pe viitor:
- Creșterea pieței Edge AI: Cercetările de piață indică o creștere explozivă a hardware-ului edge AI. Piața AI on-device (inclusiv cipuri și software) este estimată să crească cu ~29% CAGR pe parcursul deceniului nimbleedge.com. Un raport a evaluat-o la ~233 miliarde de dolari în 2024, urmând să depășească 1,7 trilioane de dolari până în 2032 nimbleedge.com – mare parte din această creștere fiind susținută de implementările edge. O altă analiză realizată de IDTechEx a prognozat că piața cipurilor AI pentru dispozitive edge va ajunge la 22 miliarde de dolari până în 2034, cu electronicele de consum, industria auto și cea industrială ca fiind cele mai mari segmente idtechex.com. Acest lucru implică sute de milioane de dispozitive pe an livrate cu NPU-uri ca componentă standard.
- Adoptare Ubiquitară: La fel cum fiecare smartphone de astăzi are un GPU (chiar dacă mic), ajungem la punctul în care fiecare nou smartphone va avea un accelerator AI. Telefoanele de top le au deja; urmează telefoanele din gama medie. De fapt, cipurile de nivel mediu de la Qualcomm (de exemplu, seria Snapdragon 7) și MediaTek (seria Dimensity 700/800) includ acum NPU-uri reduse ca dimensiune, astfel încât funcții precum îmbunătățirile AI ale camerei și asistentul vocal să poată funcționa și pe dispozitive mai ieftine. Dincolo de telefoane, NPU-urile se răspândesc către PC-uri (standard în noile laptopuri Windows de la mai mulți producători), mașini (aproape toate mașinile noi cu ADAS Nivel 2+ au un fel de cip AI) și IoT. Chiar și electrocasnice precum frigiderele și mașinile de spălat încep să promoveze funcții “AI” (unele bazate pe cloud, dar unele locale, precum cicluri adaptive bazate pe senzori). Tendința este clară: dacă un dispozitiv are un cip de procesare, va avea un anumit tip de accelerare ML pe acel cip.
- Traiectoria Performanței: Performanța AI on-device se dublează aproximativ la fiecare 1–2 ani (combinație între o arhitectură mai bună și trecerea la noduri semiconductoare avansate precum 5nm, 4nm, 3nm). Neural Engine-ul Apple a trecut de la 600 miliarde operațiuni/sec în 2017 la 35 trilioane în 2023 – aproape o creștere de 60× în șase ani apple.fandom.com. Flagship-urile Qualcomm au sărit similar de la câteva TOPS în 2018 la peste 27 TOPS în 2023 (AI compute total al SD 8 Gen 3, incluzând toate nucleele). Ne putem aștepta ca până în 2025–2026 NPU-urile mobile să ofere peste 100 TOPS, iar acceleratoarele pentru PC și mai mult, iar aceste cifre ar putea deveni mai puțin relevante pe măsură ce accentul se mută pe performanța utilizabilă pentru sarcini AI specifice (de exemplu, cât de mare poate fi un LLM pe care îl poți rula fluent sau dacă poți face video AI 4K în timp real). Diferența dintre cloud și edge se va reduce probabil pentru sarcinile de inferență. Totuși, edge-ul va rămâne în urmă față de cloud pentru modelele mari de ultimă generație din cauza limitărilor de putere și memorie.
- Câștiguri de Eficiență Energetică: Un aspect subestimat este cât de eficiente devin aceste NPU-uri. NPU-ul auto al Tesla atinge ~4,9 TOPS/Watt fuse.wikichip.org ceea ce era de ultimă oră acum câțiva ani; acum unele NPU-uri mobile pretind valori similare sau mai bune. NPU-urile eficiente înseamnă o durată de viață mai mare a bateriei chiar dacă folosim mai multe funcții AI. De asemenea, înseamnă că integrarea AI în dispozitive mici alimentate cu baterii devine fezabilă (de exemplu, aparate auditive AI, senzori inteligenți care funcționează pe baterii tip monedă și fac detecție de anomalii). Conceptul de TinyML – machine learning la scară extrem de mică pe microcontrolere – este o extensie a acestui lucru, folosind “NPU-uri” simplificate sau instrucțiuni optimizate pe microcontrolere pentru a face AI în senzori. ARM Ethos-U NPU este destinat acestui segment (de exemplu, detectarea cuvintelor cheie mereu activă, care funcționează cu câțiva miliwați). Așteptați-vă la mai multe cipuri mici dedicate AI care pot fi integrate în senzori, wearables și obiecte de zi cu zi (Periuță de dinți inteligentă? Detector de fum cu AI? Urmează să apară).
- Soluții hibride Cloud-Edge: În loc ca edge să înlocuiască complet cloud-ul, viitorul este colaborarea. Dispozitivele vor face local ceea ce pot și vor apela la cloud doar pentru ceea ce nu pot face. De exemplu, ochelarii tăi AR ar putea rula recunoașterea scenei local pentru a ști la ce te uiți, dar dacă pui o întrebare foarte complexă (cum ar fi o explicație detaliată), ar putea interoga un AI din cloud pentru o analiză mai puternică și apoi să o prezinte. Această abordare hibridă oferă cel mai bun echilibru între rapiditate și capabilitate. Companiile proiectează activ experiențe în jurul acestui concept: Copilot de la Microsoft pe Windows ar putea folosi NPU-ul local pentru transcriere rapidă voce-text și interpretarea comenzilor, dar apoi să folosească cloud-ul pentru sarcini grele (cu excepția cazului în care ai un NPU de PC suficient de puternic care poate gestiona totul). Ideal, utilizatorul nu ar trebui să știe sau să-i pese ce este folosit, în afară de faptul că totul este mai rapid și respectă intimitatea. Vom vedea, de asemenea, învățarea federată devenind mai comună – modelele se antrenează în cloud, dar cu ajutorul datelor criptate sau procesate pe dispozitive, și invers.
- Cazuri de utilizare emergente: Pe măsură ce NPU-urile devin mai puternice, apar noi aplicații. Generative AI pe dispozitiv este una importantă – imaginează-ți creare de imagini AI, editare video AI și chatboți personali, toate pe telefonul sau laptopul tău. Până în 2025, am putea vedea primele versiuni de asistenți personali offline care pot rezuma emailuri sau redacta mesaje fără cloud. Traducere în timp real a limbajului în conversație (două persoane vorbind limbi diferite, cu telefoane sau căști care traduc aproape în timp real) va fi mult îmbunătățită de procesarea pe dispozitiv (fără întârziere și funcționează oriunde). AI pentru sănătate ar putea exista pe dispozitive purtabile – ceasul tău inteligent detectând fibrilația atrială sau analizând tiparele de apnee în somn folosind NPU-ul său. Securitate: dispozitivele ar putea rula local AI pentru a detecta malware sau phishing în timp real (de exemplu, antivirusul folosind un model AI pe dispozitiv, nu scanări în cloud). Iar în vehicule, pe lângă condus, AI ar putea personaliza experiența din mașină (ajustarea climatizării în funcție de starea ta de spirit percepută prin AI-ul camerei orientate spre șofer etc.). Multe dintre aceste cazuri de utilizare necesită iterație rapidă și intimitate, ceea ce se potrivește procesării pe dispozitiv.
- Competiție și democratizare: Marile companii vor continua să concureze, ceea ce este bine pentru consumatori – așteaptă-te la marketing de tipul „cipul nostru AI face X TOPS sau permite funcția Y pe care alții nu o pot”. Dar, de asemenea, tehnologia se democratizează – NPU-urile nu mai sunt doar în telefoane de 1000 de dolari; ele ajung pe telefoane de 300 de dolari, plăci IoT de 50 de dolari (Coral, Arduino Portenta etc.), iar comunitățile open-source creează modele AI mici pe care pasionații le pot rula pe un Raspberry Pi sau microcontroler cu un accelerator de bază. Această disponibilitate largă înseamnă că inovația poate veni de oriunde. Un singur dezvoltator poate acum construi o aplicație care folosește AI pe dispozitiv pentru a face ceva ingenios fără a avea nevoie de un server farm – reducând bariera de intrare pentru software-ul bazat pe AI.
- Tehnologia viitorului: Privind mai departe, cercetarea în calcul neuromorfic (cipuri inspirate de creier, precum Intel Loihi) și cipuri AI analogice ar putea într-o zi să revoluționeze NPU-urile, oferind câștiguri de eficiență de ordinul magnitudinii. Companii precum IBM și BrainChip lucrează la acestea. Dacă vor avea succes, un cip neuromorfic ar putea permite rularea continuă a AI complexe pe dispozitive cu baterie mică. Am putea vedea, de asemenea, stivuire 3D și tehnologii noi de memorie integrate în NPU-uri pentru a depăși blocajele de memorie (unele cipuri din 2025+ ar putea folosi memorie HBM sau memorie non-volatilă nouă pe cip pentru a alimenta mai rapid nucleele AI). De asemenea, așteptați-vă la mai multă specializare în cadrul cipurilor AI: de exemplu, acceleratoare separate pentru viziune, pentru vorbire, pentru modele de recomandare etc., fiecare optimizat pentru domeniul său. Unele SoC-uri au deja NPU-uri duale (un NPU „mare” pentru sarcini grele, un micro NPU în hub-ul de senzori pentru sarcini ușoare, mereu active).
În concluzie, traiectoria este clară: NPU-urile și TPU-urile devin la fel de standard și indispensabile ca și CPU-urile în informatica modernă. Ele permit dispozitivelor să fie mai inteligente, mai receptive și mai atente la confidențialitatea noastră. După cum a afirmat un raport, „unitățile de procesare de înaltă performanță de pe dispozitive sunt în mare parte responsabile pentru executarea funcțiilor AI complexe precum recunoașterea imaginilor, NLP și luarea deciziilor în timp real”, iar acest lucru determină apariția unei tehnologii mai inteligente și mai receptive în toate sectoarele grandviewresearch.com.
Intrăm într-o eră în care pur și simplu vei aștepta ca dispozitivul tău să te înțeleagă și să îți anticipeze nevoile – telefonul îți editează fotografiile și scrie mesaje în stilul tău, mașina ta evită accidentele și te distrează cu AI, gadgeturile din casă îți învață preferințele – toate făcute posibile de procesoarele neurale silențioase din interiorul lor. AI-ul pe dispozitiv nu este science fiction; este aici acum și se îmbunătățește rapid. Căsătoria dintre NPU-uri și TPU-uri cu gadgeturile noastre de zi cu zi face ca AI-ul să fie personal, omniprezent și privat – aducând cu adevărat puterea inteligenței din cloud pe pământ (sau cel puțin, în buzunarul tău).
Surse:
- Bigelow, Stephen. „GPU vs. TPU vs. NPU: Compararea opțiunilor hardware AI.” TechTarget, 27 aug. 2024 techtarget.com. Descrie rolurile și diferențele dintre CPU, GPU, TPU și NPU în sarcinile AI.
- Backblaze Blog. „AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Explicație a designului TPU de la Google (matrici sistolice, precizie redusă) și utilizarea NPU-urilor în dispozitivele mobile.
- TechTarget WhatIs. „Unitate de procesare tensorială (TPU).” whatis.techtarget.com, 2023 techtarget.com. Menționează că TPU-urile sunt specializate în sarcini de matematică matricială, iar NPU-urile imită rețelele neuronale ale creierului pentru accelerare techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). „Starea AI-ului pe dispozitiv: Ce lipsește în peisajul actual.” 26 iunie 2025 nimbleedge.com. Prezintă avantajele AI-ului pe dispozitiv (latență, offline, confidențialitate, cost) și provocări precum SDK-urile fragmentate.
- Qualcomm (OnQ Blog). „Bloomberg și Cristiano Amon discută despre AI pe dispozitiv.” Iulie 2023 x.com. CEO-ul Qualcomm despre importanța inferenței pe dispozitiv pentru viitorul AI (citat tweet despre momentul de cotitură în AI).
- MediaTek Blog (Exec Talk de Will Chen). „Modelarea viitorului experiențelor mobile AI.” 3 martie 2025 mediatek.com. Colaborarea MediaTek și Oppo pe NPUs; citat despre edge computing în palma ta și exemplu de remasterizare foto AI folosind NPU.
- I-Connect007 / Qualcomm Press. „Qualcomm colaborează cu Meta pentru a permite AI pe dispozitiv (Llama 2).” 24 iulie 2023 iconnect007.com. Comunicat de presă cu citat de la SVP Qualcomm Durga Malladi despre scalarea AI generativ prin dispozitive edge și cloud.
- PCWorld (Mark Hachman). „Procesoarele Intel Core Ultra păstrează AI-ul simplu….” 24 octombrie 2024 pcworld.com. Discută despre Intel Arrow Lake folosind NPU-ul Meteor Lake (13 TOPS) și menționează NPU-ul AMD Ryzen 8000 de 39 TOPS și cerința Microsoft de 40 TOPS pentru „Copilot”.
- Ts2 (Tech Empowerment). „Self-Driving Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Sep. 2023 ts2.tech. Oferă estimări TOPS: Tesla HW3 vs HW4 (72→100 TOPS per cip) ts2.tech, NVIDIA Thor ~1000 TOPS (sau 2000 cu dual) ts2.tech și citează VP-ul NVIDIA despre AI generativ în vehicule ts2.tech.
- Grand View Research. „On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Menționează creșterea cipurilor AI specializate (NPU) care permit AI complex pe dispozitive și că hardware-ul a reprezentat 60,4% din piața AI on-device în 2024, impulsionată de smartphone-uri, IoT, NPU etc.
- Google Blog. „Google Tensor G3: Pixel 8’s AI-first processor.” Oct. 2023 blog.google. Descrie îmbunătățirile Tensor G3 pentru AI generativ on-device, noul design TPU și modelul TTS on-device egal cu calitatea centrelor de date.
- Techspot. „Snapdragon 8 Gen 3 aduce AI generativ pe smartphone-uri.” Oct. 2023 futurumgroup.com. Analiză Futurum Group detaliind motorul AI al SD8Gen3: LLM de 10B parametri on-device, NPU cu 98% mai rapid, cel mai rapid Stable Diffusion din lume pe telefon etc., plus beneficiile LLM-urilor on-device pentru cost/confidențialitate/offline futurumgroup.com.
- Apple Wiki (Fandom). „Neural Engine.” Actualizat 2025 apple.fandom.com. Istoricul versiunilor Neural Engine cu A17 Pro 35 TOPS în 2023, etc. Arată evoluția de la 0,6 TOPS (A11) la 35 TOPS (A17) apple.fandom.com și M4 la 38 TOPS apple.fandom.com.
- EnGenius Tech. „Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Exemplu de cameră de securitate cu NPU integrat care permite procesare AI pe cameră și stocare locală (nu este necesar NVR).
- EmbedL. „Amazon lansează procesorul AZ1 Neural Edge.” Oct. 2020 embedl.com. Discută despre NPU-ul edge AZ1 al Amazon pentru dispozitivele Echo, construit cu MediaTek, proiectat pentru inferență vocală pe dispozitiv pentru a reduce latența și dependența de cloud embedl.com.