- Az Apple 2017-ben indította el az eszközön futó MI-t az iPhone A11 Neural Engine-jével, amely lehetővé tette a Face ID-t és az Animojit akár 600 milliárd művelet/másodperc sebességgel.
- 2023-ban az iPhone A17 Pro 16-magos Neural Engine-je körülbelül 35 TOPS teljesítményt nyújtott, támogatva az eszközön futó beszédfelismerést, fotózást és fordítási funkciókat.
- A Google Pixel 8 (2023) a Tensor G3 NPU-t használja olyan eszközön futó MI-modellekhez, mint a Palm 2, offline fordításhoz és összegzéshez.
- A Google Edge TPU a Coral Dev Boardon 4 TOPS látásfeldolgozást biztosít néhány watt fogyasztás mellett.
- A Tesla Full Self-Driving hardverének két NPU-ja van: a HW3 (2019) körülbelül 144 TOPS-ot, a HW4 (2023) pedig 200–250 TOPS-ot kínált.
- Az NVIDIA Drive Thor (2024-ben mutatták be) akár 2000 TOPS-ot is elérhet, ha két chipet összekapcsolnak autóipari MI-feladatokra.
- A Qualcomm Snapdragon 8 Gen 3 (2023) Hexagon NPU-ja 98%-kal gyorsabb, mint a Gen 2, akár 10 milliárd paraméteres LLM-eket is képes eszközön futtatni, és a világ leggyorsabb mobil Stable Diffusion-jét mutatta be demonstrációkban.
- A MediaTek Dimensity 9400 (2024) hatodik generációs APU-val hajtja az Oppo Find X8 AI fotó-újramaszterelését, jelezve, hogy az NPU-k 2025-re a tévékbe, IoT eszközökbe és autókba is eljutnak.
- Az Intel Meteor Lake, a 14. generációs Core (2023-ban jelent meg; 2024-ben Core Ultra néven újrabrandelték), integrált NPU-t tartalmaz, amely körülbelül 8–12 TOPS-ot nyújt, az Arrow Lake ~13 TOPS, a Lunar Lake pedig pletykák szerint 45 TOPS körül lesz.
- Az AMD Ryzen 7040 Phoenix (2023) bemutatta a Ryzen AI Engine-t akár 10 TOPS teljesítménnyel, míg a Ryzen 8000 desktop (2024 eleje) 39 TOPS-ot kínált, mielőtt az AMD szüneteltette volna az NPU-kat ebben a generációban.
Röviden: Az okostelefonod, kamerád, sőt még az autód is beépített MI-agyat kap – felhő nélkül. Speciális chipek, úgynevezett NPU-k (Neural Processing Unit) és TPU-k (Tensor Processing Unit) alakítják át a mindennapi eszközöket intelligens asszisztensekké, amelyek képesek arcfelismerésre, hangutasításokra, valós idejű fordításra, önvezető funkciókra és még sok másra. Ez az eszközön futó MI-forradalom villámgyors reakciókat, jobb adatvédelmet és olyan új funkciókat ígér, amelyeket korábban csak szuperszámítógépektől vártunk. Ebben a jelentésben eloszlatjuk az NPU-k és TPU-k körüli ködöt, megmutatjuk, miben különböznek a CPU/GPU-któl, és feltárjuk, miért versenyeznek a technológiai óriások – mint az Apple, Google, Qualcomm és Intel – hogy ezeket az „MI-agyakat” mindenbe beépítsék a telefonoktól az autókig. Kiemeljük a legújabb 2024–2025-ös áttöréseket, szakértői véleményeket, iparági szabványokat, és azt is, mit tartogat a jövő az eszközön futó MI számára.
Mik azok az NPU-k és TPU-k? (Ismerd meg az eszközöd MI-agyát)
A neurális feldolgozó egységek (NPU-k) speciális processzorok, amelyeket mesterséges neurális hálózatok gyorsítására terveztek – ezek az algoritmusok működtetik a modern MI-feladatokat, mint például a képfelismerés, a beszédfeldolgozás és még sok más. A hagyományos, általános célú CPU-kkal ellentétben az NPU-k alkalmazásspecifikus integrált áramkörök (ASIC-ek), amelyeket mátrixműveletekre és a neurális hálózatok nagy párhuzamos feldolgozási igényeire hangoltak techtarget.com. Egy NPU „utánozza az emberi agy neurális hálózatait az MI-feladatok gyorsításához”, lényegében egy szilícium agyként működik az eszközödben techtarget.com. Az NPU-k kiválóan alkalmasak az MI-modellek hatékony, eszközön történő futtatására (inferencia, azaz előrejelzések készítése), gyakran alacsonyabb numerikus pontosságot (pl. 8 bites egész számokat) használva az energiatakarékosság érdekében, miközben továbbra is magas teljesítményt nyújtanak backblaze.com. Az „NPU” kifejezést néha tágabb értelemben használják bármilyen MI-gyorsítóra, de leggyakrabban a mobil és peremhálózati eszközökben található egységekre utal backblaze.com. Például az Apple „Neural Engine”-je az iPhone-okban és a Samsung mobil MI-motorja is olyan NPU, amelyet a rendszerchipjükbe (SoC) integráltak.
Tensor Processing Unitok (TPU-k) ezzel szemben a Google által kifejlesztett egyedi chipek a gépi tanulás gyorsítására, különösen a TensorFlow keretrendszerhez. A TPU egy olyan ASIC típus, amelyet a tenzorműveletek (mátrixszorzások stb.) optimalizálására terveztek, amelyek a neurális hálózatok tanításának és következtetésének középpontjában állnak backblaze.com. A Google először 2015-ben telepített TPU-kat adatközpontjaiban a neurális hálózati számítások felgyorsítására, majd később elérhetővé tette őket a Google Cloudon keresztül backblaze.com. A TPU-k egy egyedi architektúrát, az ún. systolic array-t használják, amely sok kis feldolgozóegységet köt össze egy rácsban, amely az adatokat egy mátrixszorzó egységek láncolatán pumpálja át backblaze.com. Ez a kialakítás rendkívül nagy áteresztőképességet biztosít a mélytanulási feladatokhoz. A Google TPU-i szándékosan feláldoznak némi pontosságot (8 vagy 16 bites számításokat használnak 32 bites lebegőpontos helyett) a hatalmas sebesség- és hatékonyságnövekedésért cserébe backblaze.com, mivel sok AI-feladat nem igényel nagy pontosságot a pontos eredményekhez. Bár a „TPU” technikailag a Google chipjeire utal, a kifejezést néha általánosabban is használják bármilyen „tenzor” gyorsítóra. Figyelemre méltó, hogy a Google Edge TPU társprocesszorokat is gyárt beágyazott AI-hoz, például a Coral Dev Board termékekben, amelyek néhány wattból 4 billió művelet/másodperc teljesítményt nyújtanak coral.ai.
Röviden: az NPU-k és a TPU-k egyaránt szilícium alapú gyorsítók AI-hoz, de az NPU-kat jellemzően mobil/edge eszközökbe építik hatékony helyi következtetéshez, míg a TPU-k (szűkebb értelemben) nagy teljesítményű chipek (és most már modulok) elsősorban a Google-tól, eredetileg felhő/adatközponti tanítási és következtetési feladatokra. Mindkettő eltér a hagyományos CPU/GPU kialakítástól, hogy a neurális hálózatokhoz szükséges párhuzamos matematikai műveleteket helyezze előtérbe. Ahogy egy tech szerkesztő fogalmazott: „A TPU-k még tovább viszik a specializációt, a tenzorműveletekre koncentrálnak, hogy nagyobb sebességet és energiahatékonyságot érjenek el… Az NPU-k elterjedtek AI-képes eszközökben, például okostelefonokban és IoT kütyükben” backblaze.com.
Miben különböznek az NPU-k és a TPU-k a CPU-któl és a GPU-któl?
A hagyományos CPU-k (központi feldolgozó egységek) az általános számítástechnika „agyai” – úgy optimalizálták őket, hogy rugalmasan kezeljenek mindenféle feladatot, az operációs rendszer futtatásától a böngészésig. Néhány erős maggal rendelkeznek, amelyek kiválóak a szekvenciális logikában és a változatos utasítások végrehajtásában, de nem igazán jók a mélytanuláshoz szükséges, rendkívül párhuzamos matematikai számításokban techtarget.com. Amikor egy CPU-t nagy neurális háló feldolgozására kérnek, gyakran szűk keresztmetszetté válik, mivel milliónyi szorzást és összeadást kell egymás után vagy korlátozott párhuzamos csoportokban végrehajtania. Ez magas késleltetéshez és energiafogyasztáshoz vezet (az úgynevezett Von Neumann-szűk keresztmetszet, amikor sok adatot kell mozgatni a CPU és a memória között) backblaze.com. A CPU-k némi MI-munkát el tudnak végezni (különösen egyszerűbb vagy kisebb modelleknél, illetve MI-programok vezérlő logikájánál techtarget.com), de általánosságban nehezen tudnak hatékonyan lépést tartani a modern MI tömegesen párhuzamos lineáris algebra igényeivel.
A GPU-k (grafikus feldolgozó egységek) a párhuzamos számítást helyezték előtérbe. Eredetileg azért készültek, hogy képeket rendereljenek, sok egyszerű műveletet hajtva végre párhuzamosan a pixeleken és csúcspontokon, de kiderült, hogy a neurális hálók tanítására is kiválóan alkalmasak, mivel ezeknél is ugyanazokat a matematikai műveleteket (skaláris szorzatokat stb.) kell sok adaton egyszerre alkalmazni techtarget.com. Egy GPU több száz vagy ezer kis magot tartalmaz, amelyek párhuzamosan tudnak számolni. Ez teszi a GPU-kat kiválóvá a nagyszabású MI-hez, és a 2010-es években a GPU-k (különösen az NVIDIA CUDA szoftverével) a mélytanulás kutatásának igáslovaivá váltak. Ugyanakkor a GPU-k még mindig viszonylag általánosak – különféle grafikai feladatokat is el kell látniuk, és meg kell őrizniük a rugalmasságot, így nem 100%-ban optimalizáltak a neurális hálókhoz. Emellett sok energiát fogyasztanak, és gondos programozást igényelnek a teljes kihasználásukhoz (nem szeretik a bonyolult elágazó kódot, és a letisztult, adatpárhuzamos feladatokban jeleskednek) techtarget.com.
Az NPU-k és TPU-k még tovább viszik a specializációt. Ezeket kifejezetten csak a neurális hálózati feladatokra tervezték. Ez azt jelenti, hogy az architektúrájukból mindent kihagynak, ami nem szükséges az MI-matematikához, és több szilíciumot szentelnek például mátrixszorzó egységeknek, összegző összeadóknak, valamint a chipen belüli memóriának, amely gyorsan mozgatja az adatokat ezekbe a matematikai egységekbe és onnan ki. Egy Google Cloud TPU például lényegében egy hatalmas kétdimenziós MAC (multiply-accumulate) egységtömb, amelyet egy okos adatfolyam-architektúra (a szisztolikus tömb) lát el nagy sebességgel operandusokkal backblaze.com. Nem foglalkozik gyorsítótárakkal, spekulatív végrehajtással vagy más CPU-funkciókkal – teljesen a mátrixmatematikára van kihegyezve. A mobilchipekben lévő NPU-k hasonlóan integrálnak dedikált neurális motor magokat a CPU/GPU mellé. Ezek a magok gyakran alacsony pontosságú aritmetikát használnak (pl. 8 bites egészek, mint a TPU-k), és rendkívül párhuzamos „rétegről rétegre” számításokat futtatnak például konvolúciós neurális hálózatokhoz. Egy NPU akár „fúziós” architektúrát is alkalmazhat, amely ötvözi a skalár, vektor és tenzor egységeket (a Qualcomm Hexagon NPU-ja ezt teszi), hogy hatékonyan kezelje a különböző neurális hálózati műveleteket futurumgroup.com.
A fő különbségek a következőkben rejlenek:
- Utasításkészlet és rugalmasság: A CPU-knak széles, általános utasításkészletük van (sok mindent tudnak, de nem mindent egyszerre). A GPU-knak szűkebb, de még mindig rugalmas utasításkészletük van, amelyet a matematikai áteresztőképességre optimalizáltak. Az NPU-k/TPU-k nagyon szűk utasításkészlettel rendelkeznek – lényegében csak a neurális hálózatokhoz szükséges műveletekkel (mátrixszorzás, konvolúció, aktivációs függvények), amelyeket gyakran fix csővezetékek vagy tömbök valósítanak meg fuse.wikichip.org. Például a Tesla önvezető NPU-jának ISA-jában mindössze 8 utasítás található, amelyek a DMA olvasás/írásra és skalárszorzatokra fókuszálnak fuse.wikichip.org. Párhuzamosság és magok: A CPU-k = néhány erős mag; a GPU-k = több ezer egyszerű mag; az NPU-k/TPU-k = bizonyos értelemben tízezernyi nagyon egyszerű ALU (MAC egységek), amelyek mátrix vagy neurális hálózat szerkezetben vannak elrendezve. Egyetlen NPU chip akár tízezer milliárd műveletet is végrehajthat másodpercenként – a Tesla autók NPU-ja 2 GHz-en fut 9 216 MAC egységgel, így ~37 tera-művelet/másodpercet (TOPS) ér el magonként, és minden FSD chip két NPU-t tartalmaz, így összesen ~74 TOPS fuse.wikichip.org, ts2.tech. Ezzel szemben egy csúcskategóriás CPU csak néhány százmilliárd művelet/másodperc sebességet érhet el AI feladatoknál, és egy GPU is csak néhány TOPS-ot, ha nem használ speciális tensor magokat.
- Memória-architektúra: Az NPU-k/TPU-k gyors, chipen belüli memóriára és adatfolyamokra támaszkodnak. A TPU-k elkerülik a klasszikus memória-szűk keresztmetszetet szisztolikus adatáramlással – minden kis egység lépésről lépésre adja át az adatot a következőnek, minimalizálva a főmemóriába történő olvasásokat/írásokat backblaze.com. Sok NPU tartalmaz chipen belüli SRAM-ot a súlyok/aktivációk tárolására (pl. a Tesla NPU magjai egyenként 32 MB SRAM-ot tartalmaznak, hogy helyben tárolják a neurális hálózati adatokat) semianalysis.com. Ez szemben áll a GPU-k/CPU-k megoldásával, amelyek nagymértékben külső DRAM-ot használnak.
- Pontosság: A CPU-k/GPU-k általában 32 vagy 64 bites lebegőpontos számokkal számolnak. Az AI gyorsítók gyakran 16 vagy 8 bites egész számokat használnak (és néhányan már 4 vagy akár 2 bitessel is kísérleteznek), mert a neurális hálók elviselik az alacsonyabb pontosságot. A Google TPU tervezői kifejezetten megjegyezték, hogy következtetéshez nincs szükség teljes lebegőpontos pontosságra, hasonlóan ahhoz, mint amikor „nem kell pontosan tudni, hány esőcsepp esik, hogy megállapítsuk, hevesen esik az eső” backblaze.com. Ez lehetővé teszi, hogy az NPU-k/TPU-k több műveletet hajtsanak végre párhuzamosan, és kevesebb energiát használjanak műveletenként.
- Felhasználási területek: A GPU-kat továbbra is széles körben használják nagy modellek tanítására és rugalmas számításokra (és gyakoriak adatközpontokban, csúcskategóriás PC-kben). A TPU-k (felhőben) a Google ökoszisztémájában nagy léptékű tanításra és következtetésre irányulnak. Az NPU-kat inkább edge eszközökben – okostelefonokban, kamerákban, háztartási gépekben – találjuk, ahol következtetést végeznek már betanított modelleken. Ezek különösen jól teljesítenek olyan feladatokban, mint például valós időben képi modell alkalmazása egy kamera képére, vagy hangasszisztens ébresztőszó folyamatos, alacsony fogyasztású felismerése. Ahogy a TechTarget megjegyezte: „A GPU-kat sok ML projektben az elérhetőség és költséghatékonyság miatt választják; a TPU-k általában gyorsabbak és kevésbé pontosak, a Google Cloud vállalati ügyfelei használják; az NPU-kat jellemzően edge/mobil eszközökben találjuk, ahol jelentősen gyorsabb a helyi feldolgozás” techtarget.com.
Összefoglalva, CPU-k = sokoldalú szervezők, GPU-k = párhuzamos igáslovak, TPU-k/NPU-k = neurális hálózati specialisták. Mindegyik együtt tud működni – valójában egy modern, AI-képes eszközben a CPU gyakran koordinálja a feladatokat, és szükség szerint áthelyezi a számításigényes részeket az NPU/GPU-ra techtarget.com. Ez a specializációs trend azért létezik, mert az informatika világában már nem működik az „egy méret mindenkinek” elv: ahogy egy szerkesztő megjegyezte, „minden igényhez milliókkal több tranzisztort hozzáadni nem volt hatékony… a tervezők a célzott processzorokat választották” techtarget.com. A célzottan fejlesztett NPU-k és TPU-k drasztikusan felgyorsítják az AI számításokat, miközben alacsonyan tartják az energiafogyasztást – ez kritikus egyensúly mind az akkumulátoros eszközök, mind a nagy sűrűségű szerverek esetében.
Miért On-Device AI? (Edge vs. Cloud)
Miért érdemes egyáltalán AI-t futtatni a telefonodon vagy az autódban – miért ne küldenénk mindent a felhőbe, ahol óriási szerverek (GPU-kkal/TPU-kkal) végezhetik a nehéz munkát? Számos meggyőző ok hajtja az on-device AI felé való elmozdulást, amelyek végső soron a sebességre, adatvédelemre, költségre és megbízhatóságra vezethetők vissza nimbleedge.com:
- Azonnali válasz (alacsony késleltetés): Egy eszközön futó NPU valós időben tudja feldolgozni az adatokat anélkül, hogy azokat egy felhőszerverhez kellene küldeni és vissza. Ez kulcsfontosságú az interaktív vagy biztonságkritikus AI-feladatoknál. Például egy autó önvezető rendszere, amely fedélzeti NPU-kat használ, képes azonnal felismerni a gyalogost és fékezni azonnal, milliszekundumokon belül, ahelyett, hogy a felhőben történő számításra várna. Egy okos kamera NPU-val abban a pillanatban észleli a behatolót, amikor az megjelenik a képen. A telefonodon az on-device AI azt jelenti, hogy a hangasszisztensed gyorsabban és természetesebben válaszol, mert nem kell folyamatosan „hazatelefonálnia”. A csökkentett késleltetés valódi valós idejű döntéshozatalt és gördülékenyebb felhasználói élményt tesz lehetővé nimbleedge.com.
- Adatvédelem és adatbiztonság: Az eszközön futó MI az adatokat helyben tartja. Ahelyett, hogy a mikrofon hangját vagy a kamera képét elemzésre a felhőbe továbbítaná, a feldolgozás magán az eszközön történik. Ez jelentősen csökkenti az érzékeny adatok kitettségét. Például a modern okostelefonok az arcfelismerést (Face ID stb.) teljes egészében az eszközön végzik – az arcod biometrikus térképe soha nem hagyja el a telefon biztonságos tárhelyét. Hasonlóképpen, egy MI-alapú hallókészülék vagy egészségügyi viselhető eszköz is képes biometrikus adatokat elemezni anélkül, hogy azokat bármilyen szerverre feltöltené, így megőrizve a magánszférát. Tekintettel a felhasználók növekvő aggodalmaira és a szabályozásokra az adatszuverenitás kapcsán, ez komoly előnyt jelent. Ahogy egy edge MI blog is megfogalmazta, az eszközön történő feldolgozás azt jelenti, hogy „a felhasználói adatokat nem kell a felhőbe továbbítani”, ami alapvető adatvédelmi előnyt nyújt nimbleedge.com. (Természetesen a magánszféra nem automatikus – a fejlesztőknek továbbra is körültekintően kell kezelniük a tárolt adatokat –, de könnyebb megbízni olyan eszközökben, amelyek nem küldik folyamatosan az információidat kifelé.) A technológiai vezérigazgatók gyakran hangsúlyozzák ezt a szempontot. A Qualcomm vezérigazgatója, Cristiano Amon megjegyezte, hogy a felhő és az eszközön futó intelligencia kombinálása fokozhatja a személyre szabást miközben az adatokat biztonságban tartja az eszközön – ő ezt „hibrid jövőnek” nevezi, ahol az eszközön futó MI együttműködik a felhő MI-vel a legjobb eredmény érdekében moomoo.com.
- Offline elérhetőség és megbízhatóság: Az NPU/TPU-val rendelkező eszközök nem függenek a kapcsolattól. Működhetnek metróalagútban, repülőgépen, távoli vidéki területeken vagy hálózati kimaradások idején is. Ez óriási előny a megbízhatóság szempontjából. Az eszközön futó hangfelismerés akkor is működik, ha nincs térerő. Egy fedélzeti látás MI-vel rendelkező drón akadályokat tud kikerülni akkor is, ha nincs hálózat. Ez a függetlenség kritikus a küldetéskritikus rendszerek esetében is: például katasztrófaelhárító robotok vagy orvosi eszközök, amelyeknél nem feltételezhető az élő internetkapcsolat. Az „offline funkcionalitás” az eszközön futó MI egyik alapvető előnye nimbleedge.com – biztosítja, hogy az MI-funkció mindig és mindenhol elérhető legyen, amikor szükség van rá.
- Költséghatékonyság nagy léptékben: Az adatok folyamatos továbbítása a felhőbe MI-feldolgozás céljából nagyon költséges lehet (a felhőszolgáltatás nem ingyenes), és nagy sávszélességet igényel. Ahogy az MI-funkciók elterjednek, a cégeknek hatalmas felhőszolgáltatási számlákat kellene fizetniük, ha minden apró feladat szervert terhelne. Ha többet végeznek el a peremhálózaton, csökkentik a felhőszerverek terhelését és a hálózati forgalmat. Gyakran hatékonyabb néhány extra dollárt költeni egy jobb chipre az eszközben, mint gigabájtnyi felhőalapú számításért fizetni az eszköz élettartama alatt. A Futurum iparági elemzése kiemelte, hogy az eszközön történő feldolgozás segít kezelni a generatív MI méretezési és költségproblémáit – „elosztja” a terhelést, így az adatközpontok nem telítődnek túl (és a felhasználók/fejlesztők sem fizetnek csillagászati összegeket a felhőalapú GPU-időért) futurumgroup.com.
- Személyre szabás és kontextus: Egy újonnan megjelenő ok: az eszközön futó MI képes tanulni és alkalmazkodni a helyi kontextushoz olyan módon, ahogy a felhőalapú MI talán nem. Az okostelefonod képes egy apró helyi modellt fenntartani, amely megtanulja a te üzenetküldési stílusodat a jobb automatikus javítás érdekében, anélkül, hogy ezt a személyes nyelvi modellt megosztaná a felhővel. Az eszközök valós időben tudnak adatokat egyesíteni több szenzorból (ez helyben könnyebb, mint egy csomó szenzoradatot a felhőbe streamelni). Ez személyre szabottabb és kontextusérzékenyebb élményt tesz lehetővé. Egyes funkciók, mint például a federated learning, még azt is lehetővé teszik, hogy az eszközök együttműködve fejlesszék az MI modelleket anélkül, hogy nyers adatokat töltenének fel (csak kis súlyfrissítéseket küldenek vissza).
- Szabályozás és adatszuverenitás: Az olyan törvények, mint az európai GDPR és különféle adatlokalizációs követelmények egyre inkább előírják, hogy bizonyos adatokat (különösen személyes vagy érzékeny adatokat) ne küldjenek külföldre vagy harmadik félnek beleegyezés nélkül. Az eszközön futó MI lehetőséget kínál a megfelelésre azáltal, hogy az adatokat a forrásnál dolgozza fel. Például az orvosi képalkotó MI eszközök futtathatók a kórház hardverén (edge szerverek NPUs-sal), így a páciens adatai sosem hagyják el a helyszínt, megfelelve az adatvédelmi szabályozásoknak. A NimbleEdge 2025-ös jelentése kiemeli, hogy a kormányok egyre inkább szorgalmazzák a helyi inferencia használatát szuverenitási és megfelelőségi okokból nimbleedge.com.
Mindezek a tényezők egy paradigmaváltást hajtanak végre: ahelyett, hogy „felhő-első” megközelítésben gondolkodnánk az MI-ről, a cégek most, amikor csak lehet, „eszköz-első” MI funkciókat terveznek. Ahogy a Qualcomm MI alelnöke, Durga Malladi összefoglalta: „Ahhoz, hogy a generatív MI-t hatékonyan elterjesszük a mainstreamben, az MI-nek mind a felhőben, mind az edge eszközökön kell futnia… például okostelefonokon, laptopokon, járművekben és IoT eszközökön” iconnect007.com. Egy hibrid MI világ felé haladunk, ahol a nagyobb modellek és a nehéz tanítás a felhőben marad, de sok inferenciafeladat és személyes MI élmény helyben, a kezedben és otthonodban lévő NPU/TPU-n fut. Valójában Amon ezt „fordulópontnak” nevezi az MI-ben – eszközön történő inferencia késleltetés nélkül, ahol „az MI jövője személyes”, mert ott fut, ahol te vagy x.com.
Az eszközön futó MI a gyakorlatban: okostelefonoktól az önvezető autókig
Speciális MI chipek már most is be vannak építve a körülötted lévő eszközök széles skálájába, gyakran láthatatlanul téve őket okosabbá. Íme néhány fő terület, ahol NPUs és edge TPUs kerülnek bevetésre:
- Okostelefonok és tabletek: Szinte minden modern csúcskategóriás telefon (és sok középkategóriás is) ma már tartalmaz NPU-t vagy dedikált AI motort. Az Apple indította el a trendet 2017-ben az Apple Neural Engine-nel az iPhone A11-es chipjében, amely lehetővé tette a helyi Face ID-t és Animojit, akár 600 milliárd művelet/másodperc teljesítménnyel apple.fandom.com. Ma az Apple A17 Pro chipje (2023) egy 16 magos Neural Engine-t tartalmaz, amely képes 35 billió művelet/másodperc teljesítményre apple.fandom.com. Ez olyan funkciókat tesz lehetővé, mint a fejlett kamera jelenetfelismerés, fotóstílusok, offline feldolgozott Siri hangutasítások, automatikus javítás, élő átirat, sőt, akár transzformátor modellek futtatása fordításhoz helyben. A Google Pixel telefonjai szintén saját fejlesztésű chipekkel (“Google Tensor” SoC-k) és NPU-kkal rendelkeznek: a legújabb Tensor G3 a Pixel 8-ban „kifejezetten a Google AI modelljeinek futtatására lett tervezve”, a chip minden részét (CPU, GPU, ISP) fejlesztették, hogy utat nyissanak az eszközön futó generatív AI előtt blog.google. A Pixel 8 képes a Google legmodernebb szövegfelolvasó és fordító modelljeit helyben futtatni, ugyanazokat, amelyek korábban csak adatközpontokban működtek blog.google. Emellett összetett kameratrükköket is végrehajt, mint például a „Best Take” csoportkép összevonás és az Audio Magic Eraser, mindezt AI modellek segítségével helyben blog.google. A Samsung és más Android gyártók a Qualcomm Snapdragon chipjeit használják, amelyek legújabb NPU-i (Hexagon AI engine) már képesek nagy nyelvi modelleket is futtatni a telefonon – a Qualcomm bemutatta, hogy egy 10 milliárd paraméteres LLM-et és még a Stable Diffusion képgenerálást is futtattak egy Snapdragon 8 Gen 3-as telefonon futurumgroup.com. Ennek a chipnek az AI motorja 98%-kal gyorsabb, mint az előző generációé, és támogatja az INT4 precizitást a hatékonyság érdekében futurumgroup.com. A gyakorlati eredmény: a 2024-es telefonod képes például cikkeket összefoglalni, kérdésekre válaszolni vagy fotókat szerkeszteni AI segítségével anélkül, hogy szükség lenne a felhőre. Még az akadálymentességi funkciók is profitálnak: pl. a Pixel telefonok már tudnak helyben hangalapú gépelést, élő feliratozást, és hamarosan egy olyan funkciót is, amely helyi modell segítségével írja le a képeket vak felhasználóknak.
- Okos kamerák és biztonsági rendszerek: A mesterséges intelligenciával ellátott kamerák beépített NPU-kat használnak emberek, arcok, állatok vagy gyanús viselkedés azonnali felismerésére. Például az EnGenius legújabb biztonsági kamerái beépített NPU-val rendelkeznek, amely kezeli a tárgyfelismerést és a videót közvetlenül a kamerán alakítja át metadatatá, így nincs szükség külön videórögzítőre, és növeli a biztonságot (mivel a videó helyben elemezhető és tárolható) engeniustech.com. Ez azt jelenti, hogy a biztonsági kamerád eldöntheti, hogy „személy jelen van” vagy „csomag kézbesítve”, és csak erről küld értesítést, ahelyett, hogy órákon át tartó felvételeket továbbítana egy felhőszolgáltatásba. Hasonlóképpen, a fogyasztói eszközök, mint például a Google Nest Cam IQ, rendelkeztek beépített vizuális chippel (Google Edge TPU), amely felismerte az ismerős arcokat, és megkülönböztette az embereket az állatoktól a látómezőben. A DSLR és tükör nélküli kamerák is egyre gyakrabban kapnak AI processzort olyan funkciókhoz, mint a témakövetés, szem-autofókusz és jelenetoptimalizálás valós időben. A drónokban a fedélzeti AI chipek segítenek az akadályelkerülésben és a vizuális navigációban anélkül, hogy távirányítóra lenne szükség. Különösen a Google Edge TPU (egy apró ASIC modul) népszerű kiegészítővé vált DIY és ipari IoT kamerákhoz – 4 TOPS vizuális feldolgozási teljesítményt nyújt olyan feladatokhoz, mint az emberek felismerése vagy rendszámtáblák olvasása, miközben csak ~2 wattot fogyaszt coral.ai.
- Okos otthon & IoT eszközök: A telefonokon túl sok okos otthoni kütyü is rendelkezik mini NPU-val. A hangvezérelt hangszórók (Amazon Echo, Google Nest Hub stb.) ma már gyakran tartalmaznak helyi beszédfelismerő chipeket. Az Amazon kifejlesztette az AZ1 Neural Edge processzort az Echo eszközökhöz, hogy felgyorsítsa Alexa ébresztőszó-felismerését és válaszait az eszközön, ezzel felére csökkentve a késleltetést embedl.com. Az AZ1 (a MediaTek-kel közösen fejlesztve) egy neurális hálózatot futtat, amely felismeri az „Alexa” szót, és egyszerű parancsokat dolgoz fel anélkül, hogy elérné a felhőt embedl.com. Ez nemcsak gyorsabbá teszi Alexát, hanem több hangadatot is priváttá tesz. Hasonlóképpen, sok új TV, háztartási gép, sőt játék is tartalmaz valamilyen AI-t az edge-en – például egy okoshűtő kamerája helyben felismeri az ételeket és a lejárati dátumokat. A viselhető eszközök is említést érdemelnek: az Apple Watch S9 chipje egy 4-magos Neural Engine-t kapott, hogy jobban kezelje az egészségügyi AI algoritmusokat és a Siri kéréseket magán az órán apple.fandom.com. Az ipari oldalon pedig az NPU-val ellátott IoT szenzorok képesek anomália-felismerést végezni a berendezés adataiban közvetlenül az edge-en, csak a releváns eseményeket továbbítva felfelé (sávszélességet takarítva meg és gyorsabban reagálva a problémákra).
- Autók (ADAS és autonómia): Az autók mára kerekeken guruló MI-központokká váltak. A fejlett vezetéstámogató rendszerek (ADAS) és az önvezető funkciók egy fedélzeti MI-gyorsítókból álló csomagra támaszkodnak, hogy értelmezzék a kameraképeket, LiDAR-t, radart, és egy szempillantás alatt hozzanak vezetési döntéseket. A Tesla híresen saját FSD (Full Self-Driving) számítógépét tervezte meg két NPU chippel. A Tesla FSD chipje (HW3, 2019-ben mutatták be) 144 TOPS teljesítményt nyújtott (két NPU, egyenként 72 TOPS); az újabb HW4 (2023) ezt nagyjából 200–250 TOPS összteljesítményre növeli (két 7 nm-es NPU, egyenként 100+ TOPS) ts2.tech. Ez lehetővé teszi, hogy az autó egyszerre, helyben dolgozza fel a 8 kamera teljes felbontású videóját, a szonárt stb. neurális hálózatokon keresztül az érzékeléshez, sőt, akár nyelvi modelleket is futtasson hangutasításokhoz – mindezt az autó modulján belül, helyben. Versenytárs platformok, mint a NVIDIA Drive és a Qualcomm Snapdragon Ride szintén integrálnak NPU-kat. Az NVIDIA legújabb autós szuperszámítógép-chipje, a Drive Thor, amelyet 2025-ös autókhoz szánnak, akár 1 000 TOPS teljesítményt is kínál egyetlen chipen (és 2 000 TOPS-ot, ha kettőt párosítanak), hogy támogassa a 4-es szintű autonómiát ts2.tech. Ez egyesíti a GPU-t, CPU-t és dedikált mélytanulási gyorsítókat, így képes mindent kezelni a közlekedési tábla felismerésétől a vezetőfigyelő MI-ig a chipen belül ts2.tech. Ezek az NPU-k szó szerint életmentők: egy önvezető autónak nincs ideje felhő szerverekre várni, ha egy gyerek szalad az útra. A fedélzeti MI-nek tizedmásodpercek alatt kell látnia és reagálnia. A személyautókon kívül is széles körben használják az edge MI-t önvezető drónokban, kiszállító robotokban és ipari járművekben, amelyek fedélzeti NPU/TPU-val navigálnak és hoznak döntéseket (például a Nuro kiszállító robotjai és sok önvezető teherautó-rendszer NVIDIA vagy Huawei MI-chipeket használ az eszközön).
- Edge számítástechnika és ipar: Gyárakban és vállalati környezetben az eszközön futó MI gyakran edge szerverek vagy átjárók MI gyorsítókkal formájában jelenik meg. Ahelyett, hogy a kamera képeit vagy szenzoradatokat egy központi felhőbe küldenék, a cégek helyben telepítenek edge boxokat (néha GPU-alapúakat, néha NPU/FPGA-alapúakat). Ezek olyan feladatokat látnak el, mint a valós idejű videóanalitika minőségellenőrzéshez a gyártósoron, hibák felismerése MI-alapú képfeldolgozással mikroszekundumok alatt. Az egészségügyi eszközök egy másik példa: egy hordozható ultrahang vagy MRI rendelkezhet NPU-val, hogy az MI-alapú képelemzést helyben végezze, így az orvosok azonnali diagnosztikai segítséget kapnak internetkapcsolat nélkül (ami a betegadatok védelme szempontjából is előnyös). A kiskereskedelem és a városok is alkalmazzák az edge MI-t – például okos forgalmi kamerák NPUs-sal, amelyek elemzik a torlódást és igazítják a lámpákat, vagy bolti polckamerák, amelyek követik a készletet. Sok ilyen eszköz speciális NPUs-t használ, mint az Intel Movidius Myriad chipek, a Google Edge TPU vagy új szereplők, mint a Hailo-8 (egy izraeli NPU, amely 26 TOPS teljesítményt nyújt néhány wattból kamerákhoz). A közös pont, hogy ezek a gyorsítók lehetővé teszik az elemzést helyben, valós idejű eredményeket biztosítva, és csak a magas szintű következtetéseket (nem a nyers adatokat) továbbítják a hálózatokon.
Az NPU/TPU-k sokoldalúsága az eszköztípusok között lenyűgöző. Egyik pillanatban lehetővé teszik, hogy a telefonod elhomályosítsa a háttért egy fotón MI-vel, a következőben pedig drónt irányítanak vagy orvosi képeket vizsgálnak. Az okostelefon kamerák ma már NPUs-t használnak olyan funkciókhoz, mint az Éjszakai mód (több képkocka intelligens összegzése), Portré mód bokeh, jelenetfelismerés (a telefon tudja, hogy „naplementét” fotózol, és MI-vel optimalizálja a színeket), sőt, szórakoztató AR-effektekhez is (Animoji, amely leképezi az arcod, vagy Snapchat filterek, amelyek követik a mozgásod – mindezt az eszközön futó neurális hálók teszik lehetővé). A biometria is használ NPUs-t: ujjlenyomat-olvasók MI-alapú élő felismeréssel, arcfeloldás mélységérzékelőkkel és MI-vel. Az audió területén is: a zajszűrés fülhallgatókban és telefonokban ma már gyakran MI-alapú, az NPUs valós időben választja szét a hangot a háttérzajtól.
Egy konkrét 2024-es innovációs példa: az Oppo (okostelefon-gyártó) a MediaTekkel együttműködve bejelentette, hogy Mixture-of-Experts (MoE) MI modellt valósított meg közvetlenül az eszközön 2024 végén – állítólag elsőként egy telefonban grandviewresearch.com. Ez a fejlett neurális hálózati architektúra (MoE) úgy növeli a teljesítményt, hogy csak a releváns „szakértő” alhálózatokat aktiválja feladatonként, és mivel mindez az eszközön történik, az Oppo telefonok gyorsabb MI-feldolgozást és jobb energiahatékonyságot érnek el összetett feladatoknál, felhősegítség nélkül grandviewresearch.com. Ez is mutatja, hogy a legújabb MI-kutatások milyen gyorsan jutnak el kézi eszközeinkbe a fejlettebb NPUs révén.
A 2025-ös MI-chipek belsejében: legújabb fejlesztések az Apple-től, Google-tól, Qualcommtól és másoktól
Az eszközön futó MI-hardver fejlesztéséért folytatott verseny gyorsan felpörgött. Íme, mit mutattak be a nagy cégek mostanában (2024–2025) NPUs/TPUs és MI-szilikon terén:
- Apple: Az Apple egyedi szilícium stratégiája régóta hangsúlyt fektet az eszközön futó gépi tanulásra. Az Apple Neural Engine-je évről évre egyre erősebb lett. A 2023-as iPhone 15 Pro-ban az A17 Pro chip Neural Engine-je elérte a 35 TOPS-ot (billió művelet másodpercenként) 16 maggal apple.fandom.com. Ez kétszerese volt az A16 NPU nyers teljesítményének, és az Apple ezt kihasználva tette lehetővé például a Siri eszközön történő beszédfelismerését (végre sok Siri-kérés internet nélkül is feldolgozható), valamint új kamerafunkciókat (mint például a Portré mód automatikus rögzítése, és élő szövegfordítás a kamerán keresztül). Az Apple 2024-es chipjei folytatták a trendet: a Mac-ekhez készült M3 család (2023 vége) frissített Neural Engine-t kapott (érdekesség, hogy az M3 alapchipnél 18 TOPS-ra hangolták, inkább a hatékonyságra fókuszálva) apple.fandom.com. 2024-ben az Apple bemutatta az M4 chipet (felsőkategóriás iPadekhez/Macekhez, 2024 közepe), amely állítólag 38 TOPS-ra emelte a Neural Engine-t egy továbbfejlesztett 3 nm-es gyártástechnológián apple.fandom.com. A puszta számokon túl az Apple valóban használja ezt az NPU-t: olyan funkciók, mint a Personal Voice (amely 15 percnyi tanítás után klónozza a felhasználó hangját) privát módon futnak az iPhone Neural Engine-jén, és a Live Voicemail átiratok is helyben készülnek. Az Apple minden eszközkategóriájába integrált NPU-t – még az AirPods Pro is rendelkezik egy apró neurális chippel az Adaptív Hanghoz. Az Apple vezetői gyakran hangsúlyozzák az adatvédelmi szempontot: „gépi tanulás az eszközödön” azt jelenti, hogy az adataid nálad maradnak. 2025-re várhatóan az Apple Neural Engine-je tovább bővülhet, vagy új módokon válhat elérhetővé harmadik féltől származó alkalmazások számára (a Core ML már most is lehetővé teszi a fejlesztőknek a használatát, de az Apple további neurális API-hozzáférést is megnyithat). Pletykák szerint az Apple önálló AI-gyorsítót is tervez jövőbeli szemüvegekhez vagy autókhoz, de a jelenlegi termékek azt mutatják, hogy inkább az integrált NPU-kat részesítik előnyben az A-sorozatú és M-sorozatú SoC-kben.
- Google: A Google nemcsak a felhőalapú TPU úttörője volt, hanem megduplázta a eszközön futó MI fejlesztését a Pixel telefonok és fogyasztói eszközök számára is. A Google Tensor SoC (amelyet először 2021-ben, a Pixel 6-ban mutattak be) abban volt egyedi, hogy a felhőről híres Google egy olyan telefonchipet készített, amely képes MI-t magán a készüléken futtatni. A Tensor G3-mal (a 2023-as Pixel 8-ban) a Google kiemelte a fejlesztéseket, amelyek lehetővé teszik a generatív MI eszközön futtatását. A Google kifejezetten elmondta, hogy a Pixel 8 chipje „a Google MI-kutatását közvetlenül a legújabb telefonjainkba hozza” blog.google. A Tensor G3 következő generációs TPU-ja (a Google belsőleg továbbra is „TPU”-nak nevezi az MI-magot) lehetővé teszi, hogy a Pixel fejlett modelleket, például a Palm 2-t vagy a Gemini Nano-t (a Google nagy nyelvi modelljeinek karcsúsított változatai) futtasson a készüléken, olyan funkciókhoz, mint a weboldalak összefoglalása vagy a hangalapú gépelés fejlesztése reddit.com. Egy kiemelt funkció: a Pixel 8 képes a Google legjobb szövegfelolvasó modelljét (amelyet adatközpontban használnak) helyben futtatni, így a telefon természetes hangon olvassa fel a weboldalakat, sőt, akár valós időben is lefordítja azokat, mindezt offline módon blog.google. A Google a Pixel TPU-ját fotózásra is használja („HDR+” többképes feldolgozás, Magic Eraser tárgyeltávolítás MI-alapú kitöltéssel blog.google), biztonságra (eszközön futó arcfelismerés MI-vel, amelyet most már elég erősnek tartanak fizetésekhez is blog.google), és beszédfeldolgozásra (az Asszisztens, amelyet nem zavar, ha azt mondod: „ööö”). A telefonokon túl a Google kínálja a Coral Dev Board-ot és USB sticket is, hogy a hobbisták és vállalatok Edge TPU-kat adhassanak projektjeikhez, mindegyikben a Google Edge TPU-ja található, amely 4 TOPS teljesítményt nyújt vizuális feladatokhoz nagyon alacsony fogyasztás mellett coral.ai. Ezt használják a Google néhány saját termékében is, például a Nest Hub Max-ben gesztusfelismeréshez. A Google számára a TPU-k integrálása az edge-en egy szélesebb stratégia része: Sundar Pichai (a Google vezérigazgatója) szerint az MI jövője minden élmény kibővítéséről szól, és egyértelmű, hogy a Google úgy látja, „hogy az MI átalakító erejét a mindennapi életbe hozzuk, ahhoz az eszközről kell elérni, amit minden nap használsz” blog.google – ezért vannak Tensor chipek. Várhatóan 2024 végén jöhet a Tensor G4 a Pixel telefonokban, valószínűleg a Samsung vagy a TSMC újabb gyártástechnológiájával, tovább javítva az MI teljesítményét és hatékonyságát, talán már eszközön futó multimodális MI-t is lehetővé téve (látás+nyelvi modellek kombinálása).
- Qualcomm: Az Android telefonok vezető mobilchip-gyártója agresszívan népszerűsíti AI Engine megoldását a Snapdragon sorozatban. A Snapdragon 8 Gen 2 (2022 vége) dedikált INT4 támogatást vezetett be, és bemutatta a valós idejű stabil diffúziós képgenerálást telefonon. A Snapdragon 8 Gen 3 (2023 végén jelentették be, 2024-es csúcskategóriás telefonokban) jelentős ugrás: a Qualcomm szerint a Hexagon NPU-ja 98%-kal gyorsabb, mint a Gen 2-é, és 40%-kal energiahatékonyabb futurumgroup.com. Ez a chip akár 10 milliárd paraméteres nagy nyelvi modelleket is képes teljesen eszközön futtatni, körülbelül 20 token/másodperc feldolgozási sebességgel – ez elegendő egyszerű beszélgetésekhez egy AI asszisztenssel felhő nélkül futurumgroup.com. Emellett demókban elérte a „világ leggyorsabb Stable Diffusion” képgenerálását mobil eszközön futurumgroup.com. A Qualcomm hangsúlyozza, hogy az eszközön futó generatív AI kulcsfontosságú értékesítési pont az új telefonoknál. Például együttműködtek a Metával az open-source Llama 2 LLM optimalizálásában Snapdragonra, hogy 2024-re lehetővé tegyék chatbot AI futtatását telefonon iconnect007.com. (Egy Qualcomm vezető így nyilatkozott: „üdvözöljük a Meta nyílt megközelítését… a generatív AI skálázásához a felhőben és az edge-en is futnia kell”, megerősítve az edge AI filozófiát iconnect007.com.) A telefonokon túl a Qualcomm laptopchipekbe is tesz NPU-kat (Snapdragon compute platformok Windows on ARM-hoz) – és autóipari platformjuk, a Snapdragon Ride ugyanazokat az AI magokat használja, akár 30 TOPS-ot kínálva ADAS-hoz, a jövőben pedig több száz TOPS-ot terveznek. 2025-ben a Qualcomm bejelentette az új Snapdragon X Elite CPU-t PC-khez, amely erős NPU-t tartalmaz, jelezve, hogy céljuk az Apple és az Intel kihívása az AI teljesítmény terén a személyi számítógépekben. Az eszközön futó AI térnyerésével a Qualcomm már „AI phone” néven is forgalmaz néhány telefont. Előrejelzésük szerint sok alkalmazás (a fotózástól az üzenetküldésen át a produktivitásig) ki fogja használni az NPU-t. Szoftveroldalon a Qualcomm kiadta a Qualcomm AI Stack csomagot, hogy egységesítse a népszerű keretrendszerek (TensorFlow Lite, PyTorch, ONNX) támogatását az NPU-kon iconnect007.com – ezzel megkönnyítve a fejlesztők számára az AI hardver használatát mély chipismeret nélkül.
- MediaTek: A #2 mobilchip-gyártó (ismert a Dimensity sorozatról) szintén frissítette NPU-it. A MediaTek AI motorjait „APU”-nak (AI Processing Unit) nevezi. Például a Dimensity 9200+ (2023) hatodik generációs APU-val rendelkezik, amely jelentős teljesítménynövekedést hozott az előző chiphez képest, lehetővé téve olyan funkciókat, mint az eszközön futó stabil diffúzió és AI zajcsökkentés videókban. 2024-ben a MediaTek bejelentette a Dimensity 9400-at, és az Oppóval való együttműködésben fejlett NPU-architektúráját használta fel új AI-funkciók bevezetésére (ahogy említettük, az Oppo Find X8 AI fotó-újramaszterelése tükröződés eltávolítással és élesítéssel a MediaTek NPU-jával működik) mediatek.com. A MediaTek vezetői kifejezetten az élvonalba pozícionálták magukat az eszközön futó AI terén. Ahogy Will Chen, a MediaTek munkatársa fogalmazott: „az AI jövője túlmutat a felhőn; az élfeldolgozás hajtja, közvetlenül a tenyeredből.” Véleményük szerint a telefonokon futó AI-nak gyorsnak, privátnak, biztonságosnak és folyamatosan elérhetőnek kell lennie mediatek.com. A MediaTek még egy „APU-központú” együttműködést is létrehozott a Metával a Llama keretrendszerek támogatására, valamint olyan eszközgyártókkal, mint az Oppo és a Xiaomi, az AI kamera és AI hang funkciókra fókuszálva. 2025-re a MediaTek tervezi, hogy ezeket az NPU-kat nemcsak telefonokban, hanem okostévékben (AI felskálázásra és képjavításra), IoT eszközökben, sőt autókban is bevezeti (a MediaTek rendelkezik autóipari AI platformmal, és együttműködik az Nvidiával, hogy integrálja az Nvidia GPU IP-t autókba, miközben feltehetően saját NPU-ját biztosítja a szenzoros AI-hoz).
- Intel: 2024 jelentette az Intel belépését az AI gyorsítók piacára a mainstream PC-ken. Az Intel 14. generációs Core processzora (Meteor Lake, 2023 decemberében jelent meg, 2024-ben Core Ultra néven újrabrandelték) az első x86-os PC processzor beépített neurális feldolgozó egységgel (NPU). A Meteor Lake NPU-ja (néha VPU – Vision Processing Unit – néven is említik, az Intel Movidius technológiáján alapul) körülbelül 8–12 TOPS AI teljesítményt nyújt pcworld.com. Ezt a Windows 11 AI-funkcióinak gyorsítására használják, mint például a háttérelmosás, szemkontaktus videóhívásokban, illetve alkalmazások is használhatják helyi átirat, zajszűrés vagy akár kisebb AI-asszisztensek futtatására. A Microsoft és az Intel közösen népszerűsítik az „AI PC” koncepcióját. Az Intel állítása szerint ezek az NPU-k 2024-ben több tízmillió laptopban jelennek meg pcworld.com. A Meteor Lake után az Intel ütemtervében szerepel az Arrow Lake (2024-ben asztali gépekre), amely szintén tartalmaz NPU-t (kb. 13 TOPS, enyhén javított) pcworld.com. Érdekes, hogy az Intel első asztali NPU-kísérletét valójában az AMD felülmúlta (lásd lejjebb), és az Intel inkább egy visszafogottabb NPU-tervet választott, hogy ne kelljen feláldozni a GPU/CPU területet az entuziasta chipekben pcworld.com. 2024 végére azonban az Intel jelezte, hogy a jövőbeli Lunar Lake chipek sokkal erősebb NPU-val (~45 TOPS) érkeznek majd, hogy megfeleljenek a Microsoft „Copilot” követelményeinek pcworld.com. Mindez azt mutatja, hogy az Intel az AI-t elengedhetetlennek tartja a PC-k jövőjében – nem óriási modellek tanítására, hanem a mindennapi AI-alapú élmények gyorsítására (az irodai szoftverek fejlesztésétől a helyi AI-t használó kreatív eszközökig). Az Intel emellett értékesít edge AI gyorsítókat is, mint a Intel Movidius Myriad chipek (néhány drónban, kamerában használják) és a Habana gyorsítók szerverekhez, de a Meteor Lake integrált NPU-ja mérföldkő, amely az AI-t elhozza az átlagos fogyasztói eszközökbe. AMD: Az AMD körülbelül ugyanabban az időben ugrott bele az eszközön futó MI-be. A 2023-ban megjelent Ryzen 7040 sorozatú laptop processzorai (Phoenix) tartalmazták az első Ryzen AI Engine-t – lényegében egy integrált XDNA NPU-t (ez a technológia az AMD Xilinx felvásárlásából származik). Ez az NPU akár 10 TOPS teljesítményt is nyújtott a mobil chipen. Az AMD olyan felhasználási eseteket emelt ki, mint az MI-vel feljavított videóhívások, produktivitási alkalmazások, és így tovább, hasonlóan az Intel céljaihoz. Ezután az AMD rövid ideig piacra dobta a Ryzen 8000 asztali sorozatot (2024 elején), amelynek NPU-ja elérte a 39 TOPS-ot – ez nagyon magas érték egy általános célú CPU MI egységéhez, még az Intel terveit is meghaladja. Azonban az AMD gyorsan irányt váltott, kihagyott egy generációt, és a következő architektúrájára koncentrált (a későbbi, 2024 végén megjelenő Ryzen 9000-ből elhagyták az NPU-t, hogy a magok fejlesztését helyezzék előtérbe). Ennek ellenére várható, hogy az AMD a jövőbeli PC chipekben visszahozza az NPU-kat (valószínűleg csak ideiglenes visszalépésről van szó, miközben egy erős MI-motor integrálásán dolgoznak anélkül, hogy más teljesítmény rovására menne). Termékoldalon az AMD NPU-i érdekes lehetőségeket nyithatnak, mivel az AMD-nek erős GPU-i is vannak – a kettő kombinációja együttműködve kezelheti az MI-feladatokat (egyes részeket az NPU, másokat a GPU végezhet). Az AMD MI-magokat is beépít adaptív (FPGA-alapú) SoC-jaiba és autóipari chipjeibe. Összefoglalva, 2025-re minden x86 PC chipgyártó bevezette az NPU-kat, igazodva ahhoz, amit az okostelefonok néhány évvel korábban tettek, ami azt jelzi, hogy az MI-gyorsítás mindenhol alapfunkcióvá válik.
- Mások: Számos specializált chipgyártó és más technológiai cég is innovál az NPU-k területén. Az NVIDIA, amely a GPU-król ismert, ma már dedikált Tensor Core-okat is tartalmaz a GPU-iban, és kínál egy nyílt NVDLA (deep learning accelerator) dizájnt is, amely integrálható System-on-Chip termékekbe. Az olyan edge eszközökben, mint az NVIDIA Jetson sorozat (robotokban, drónokban, beágyazott rendszerekben használják), megtalálható a GPU és a fix funkciós „DLA” is – lényegében NPU-k –, amelyek levesznek némi neurális hálózati inferenciát a GPU válláról. Az NVIDIA Orin modul például 2 DLA-t tartalmaz a GPU mellett, ami hozzájárul a 254 TOPS AI teljesítményhez autókban ts2.tech. Az Apple-ről azt rebesgetik, hogy még fejlettebb AI koprocesszorokon vagy nagyobb neurális motorokon dolgozik AR szemüvegeihez vagy jövőbeli projektjeihez, bár a részletek titkosak. A Huawei (a geopolitikai kihívások ellenére) továbbra is tervez Kirin mobilchipeket NPU-kkal (a „DaVinci” NPU architektúrájuk), valamint szerverosztályú NPU-kat Ascend AI chipjeikben – a 2023-as Kirin 9000S chipjük állítólag erős NPU-t tart meg képfeldolgozási és nyelvi feladatokra a telefonjaikon. Emellett startupokat is látunk, mint a Hailo, Mythic, Graphcore és mások, akik saját edge AI chipeket kínálnak: pl. a Hailo-8 (26 TOPS egy mini PCIe kártyán AI kamerákhoz), a Graphcore IPU-ja adatközpontokhoz (nem teljesen eszközön futó, de új architektúra neurális hálókhoz), a Mythic analóg NPU-kon dolgozik, stb. Az ARM, amelynek dizájnjai a legtöbb mobilchip alapját adják, kínálja az Ethos NPU sorozatot (mint az Ethos-U, Ethos-N78), amelyet a chipgyártók integrálhatnak, hogy kész AI gyorsítót kapjanak IoT vagy középkategóriás SoC-kben. Ez lehetővé tette, hogy még a viszonylag kisebb szereplők is NPU-t tegyenek a chipjeikbe az ARM dizájn licencelésével.
A lényeg, hogy a nagy technológiai cégektől a startupokig mindenki befektet az eszközön futó AI szilíciumba. Ennek eredményeként gyors fejlődést látunk: új chipek magasabb TOPS-szal, jobb hatékonysággal (TOPS wattként), és új adattípusok támogatásával (például 4 bites kvantálás nagyobb modellekhez). Például a Qualcomm és a MediaTek legújabb chipjei képesek INT4 precízióval futtatni, ami kiváló a generatív AI modellekhez, ahol a memória sávszélesség a szűk keresztmetszet androidauthority.com. Ezek az innovációk közvetlenül a felhasználók javát szolgálják – pl. valós idejű mobil AI videószerkesztés (objektumok eltávolítása 4K videóból valós időben, ahogy a Snapdragon 8 Gen 3 „Video Object Eraser” AI funkciója tudja futurumgroup.com), vagy AI koprocesszorok autókban, amelyek lehetővé teszik, hogy a hangasszisztensek hálózat nélkül is működjenek, és olyan gyorsan válaszoljanak, mint egy emberi beszélgetés.
Főbb hírek 2024–2025-ből: Új termékek, benchmarkok és partnerségek
Hogy érzékeltessük, milyen gyorsan haladnak a dolgok, íme néhány kiemelt esemény az NPU/TPU és az eszközön futó AI világából 2024 végéről 2025-re:
- Apple M3 és M4 bemutatók (2023. október & 2024. május): Bevezették a következő generációs Neural Engine-eket. Az M3 Neural Engine-je 18 TOPS-ot tud (16 magos), míg az M4 38 TOPS-ra ugrott (továbbra is 16 magos, de magasabb órajel/hatékonyság) apple.fandom.com. Az Apple bemutatta, hogy ezek a chipek képesek intenzív feladatokat kezelni, például helyben, macOS-en stabil diffúziós képgenerálást (a Core ML Stable Diffusion-nel a fejlesztők kb. 15 másodperc alatt generáltak képet M2-n – M3/M4-en még gyorsabban).Google Pixel 8 bemutató (2023. október): Kiemelték a mesterséges intelligenciát „mindenhol” az eszközben. A Google eseményén bemutatták a Pixel 8 helyi weboldal-összegzését és cikkek élő fordítását a Tensor G3 NPU-val. Bemutatták az „Assistant with Bard”-ot is, amely végül bizonyos interakciókat helyben fog futtatni. A Google hangsúlyozta, hogy a Pixel 8 kétszer annyi modellt tud helyben futtatni, mint a Pixel 6, és ezek a modellek sokkal fejlettebbek blog.google. Más szóval, óriási ugrás mindössze két év Tensor chip fejlesztés alatt.Qualcomm–Meta partnerség (2023. július): A Qualcomm és a Meta bejelentették, hogy optimalizálják a Meta Llama 2 nagy nyelvi modellt, hogy 2024-re teljesen Snapdragon NPU-kon fusson iconnect007.com. A cél, hogy a fejlesztők chatbotokat és generatív AI alkalmazásokat telepíthessenek telefonokra, VR headsetekre, PC-kre stb., felhő nélkül. Ez jelentős támogatás volt a helyi AI mellett egy nagy AI modell tulajdonosától (Meta) és egy nagy chipgyártótól. 2024 végén bejelentették a Llama 3 optimalizálásának terveit is qualcomm.com.Microsoft Windows 11 „Copilot” PC-k (2024): A Microsoft mércét állított, és azokat a PC-ket, amelyek >40 TOPS helyi AI gyorsítással rendelkeznek, „AI PC”-nek nevezte, amelyek jogosultak a továbbfejlesztett AI funkciókra (mint például a Copilot digitális asszisztens integrációja). Ez arra ösztönözte az OEM-eket – Lenovo, Dell stb. –, hogy NPU-val rendelkező chipeket alkalmazzanak (legyen az Intel, AMD vagy Qualcomm), hogy megfeleljenek a specifikációnak. Az eredmény egy várható AI-képes laptop hullám 2024-ben, a Microsoft szerint több tucat modell érkezik, és több mint 40 millió AI PC szállítását jósolják 2024-ben pcworld.com.
- AMD rövid Ryzen 8000 NPU-ja (2024. január): Az AMD bejelentett egy asztali CPU-t, amelyben egy elképesztő, 39 TOPS-os NPU található (meglepetés, mivel az asztali chipek általában nem tartalmaznak ilyen gyorsítókat) pcworld.com. Bár ezt a konkrét terméket gyorsan felváltották, megmutatta, hogy még az asztali CPU-k is kaphatnak olyan AI szilíciumot, amely TOPS-ban felveszi a versenyt a mobil chipekkel. Ez volt az első asztali x86 CPU, amely NPU-t tartalmazott (éppen megelőzve az Intel Arrow Lake-et).
- Tesla FSD Beta v12 (2023 vége) bemutatók: Elon Musk bemutatta a teljesen végponttól végpontig AI-alapú vezetést (radar nélkül, csak vizuális hálózatokkal), amely a Tesla HW3/HW4 NPU-in futott. Figyelemre méltó volt, hogy a neurális hálózat valós időben, teljes egészében az autó számítógépén dolgozta fel a videójeleket, és így vezette az autót. Megfigyelők szerint az FSD v12 teljesen kihasználta a 2× 100 TOPS-os NPU-kat a látáshoz, és a Tesla utalt arra, hogy a jövőbeli fejlesztések (HW5) akár 2000 TOPS-ot is célozhatnak, hogy még nagyobb modelleket kezeljenek (voltak pletykák, hogy a Tesla HW5 akár 2 petaFLOPS = 2000 TOPS elérését is megcélozhatja) notateslaapp.com.
- NVIDIA Drive Thor bemutatása (2024 GTC): Az NVIDIA bemutatta következő autóipari chipjének, a Drive Thor-nak a részleteit, amely kétszeres AI számítási kapacitást kínál elődjéhez, az Orin-hoz képest – akár 2000 TOPS, ha két chipet összekapcsolnak ts2.tech. Jelentős, hogy a Thor-t nemcsak vezetési feladatokra, hanem utastéri AI-ra (például hang- és utasfigyelés) is ajánlják egyetlen platformon, ami megmutatja, hogy az NPU-k és GPU-k együtt hogyan tudnak számos AI-funkciót egyesíteni az autókban ts2.tech. Több autógyártó (Xpeng, BYD, Volvo) bejelentette, hogy 2025-től használni fogja a Thor-t ts2.tech.
- Oppo helyi MoE AI-ja (2024. október): Mint említettük, az Oppo egy Mixture-of-Experts modellt valósított meg a Find X8 telefonon grandviewresearch.com. Ez azért hírértékű, mert a MoE modellek általában nagyok, és összetettségük miatt eddig szerveroldalinak számítottak. A MoE helyi futtatása azt sugallja, hogy új modellezési tömörítési technikákat alkalmaztak, és nagyon erős NPU-t (valószínűleg a MediaTek Dimensity 9400-at) használtak az eszközben.
- Meta Ray-Ban AI szemüvegek (2025): (Várható) A Meta bemutatott olyan okosszemüveg prototípusokat, amelyek képesek felismerni, amit látsz, és beszélni is tudnak róla – valószínűleg egy beépített, egyedi gyorsítóval (a Meta már fejleszt egyedi szilíciumot AR-hez). Bár kevés a részlet, ez is kiemeli azt a törekvést, hogy az AI-t nagyon korlátozott eszközökbe (szemüveg, akkumulátoros fülhallgató) is beépítsék, ami rendkívül hatékony NPU-kat igényel.
- MLPerf mobilos inferencia benchmarkok (2023–24): Az MLCommons közzétette az eredményeket, amelyek a legújabb okostelefonok AI-teljesítményét mutatják. Például az MLPerf Inference v3.0-ban (2023. október) az Apple A16, a Google Tensor G2 és a Qualcomm Gen 2 is tesztelve lett olyan feladatokon, mint a képosztályozás és objektumfelismerés. Az eredmények azt mutatták, hogy az Apple és a Qualcomm felváltva nyertek, de általánosságban a mobil NPU-k egyre jobban felzárkóznak bizonyos laptop-/asztali gyorsítókhoz ezekben a feladatokban – mindezt akkumulátorról működve. A szoftveres különbségekre is rávilágított (pl. Qualcomm AI SDK vs. Apple Core ML). Az évről évre folyamatos javulás (két számjegyű százalékos növekedés) ezekben a benchmarkokban azt mutatja, hogy egészséges a verseny és gyors az előrelépés az eszközön futó AI terén.
- Stratégiai partnerségek: Számos iparágakon átívelő partnerség jött létre. Például az NVIDIA és a MediaTek (2023. május) bejelentették, hogy az Nvidia GPU IP-jét és szoftveres ökoszisztémáját beépítik a MediaTek jövőbeli okostelefonos és autós chipjeibe, így egyesítve az Nvidia AI-erősségeit a MediaTek mobil SoC szakértelmével. Emellett olyan cégek, mint a Qualcomm autógyártókkal (Mercedes, BMW) működnek együtt, hogy a Snapdragon Cockpit és Ride platformokat (NPU-kkal) új járművekbe építsék AI-funkciókhoz. Az Arm a Fujitsuval és másokkal dolgozik új AI chipterveken (mint a Fugaku szuperszámítógép AI-partíciója, bár ez csúcskategóriás). Még az IBM és a Samsung is új chiptechnológiákat (például neuromorfikus számítástechnika és AI-memória) villantott fel, amelyek egy nap forradalmasíthatják az NPU-kat – ezek még nincsenek itt, de mutatják, hogy a kutatási csatornák tele vannak.
Összességében az elmúlt év tele volt fejlesztésekkel, ami aláhúzza, hogy az eszközön futó AI az egyik legforróbb terület a technológiában. Ahogy egy iparági elemző megjegyezte: „ezek az eszközön futó képességek teljesen új távlatokat nyitnak… a LLM-ek mobilon futtatása segít a skálázhatóság és költségek kezelésében, az adatok privátak maradnak, és az AI akkor is működik, ha korlátozott a kapcsolat” futurumgroup.com. Ez nagyjából összefoglalja, miért fektet be itt minden nagy tech cég.
Szakértői vélemények: Mit mondanak a technológiai vezetők az eszközön futó AI-ról
Az NPU-k és TPU-k lendülete nemcsak a termékekben, hanem az iparági vezetők szavaiban is megmutatkozik. Íme néhány válogatott idézet és nézőpont, amelyek rávilágítanak az eszközön futó AI jelentőségére:
- Cristiano Amon (a Qualcomm vezérigazgatója): „Ha az MI el akar terjedni, akkor az eszközökön fog futni… Ez fordulópontot jelent az MI-ben: nincs késleltetési probléma – csak zökkenőmentes, biztonságos, a felhőhöz kiegészítő jelleggel működő, eszközön végzett következtetés. Az MI jövője személyes, és az eszközödön kezdődik.” (Bloomberg interjú és X bejegyzés, 2023) x.com. Amon egy hibrid MI-világot képzel el, ahol a telefonod/PC-d sok mindent maga végez el a saját NPU-ján, és csak szükség esetén dolgozik együtt a felhővel. Kiemeli, hogy az MI helyi futtatása kulcsfontosságú ahhoz, hogy mindenütt jelen legyen (nem lehet mindent a felhő GPU-ira bízni – nincs belőlük elég a világon milliárdnyi eszközhöz).
- Durga Malladi (SVP, Qualcomm): „Üdvözöljük a Meta nyílt és felelős MI-megközelítését… Ahhoz, hogy a generatív MI hatékonyan elterjedjen a mainstreamben, az MI-nek a felhőben és a peremhálózati eszközökön is futnia kell.” iconnect007.com Malladi ezt a Meta-partnerség kapcsán mondta. Ez egy általános nézetet hangsúlyoz: az MI skálázása = felhő + perem együttműködése. Ma már világos, hogy a tisztán felhőalapú MI nem lesz elégséges (költség, adatvédelem és késleltetés miatt), ezért a peremhálózati MI-nek is részt kell vállalnia a terhelésből.
- Will Chen (alelnök, MediaTek): „Az MI jövője túlmutat a felhőn; a peremhálózati számítás hajtja, közvetlenül a tenyeredből… Az OPPO és a MediaTek úttörő szerepet játszik az eszközön futó MI-ben, biztosítva, hogy az intelligens képességek erősek, gyorsak, privátak, biztonságosak és folyamatosan elérhetők legyenek.” (MediaTek Exec Talk, 2025) mediatek.com. Ez az idézet tömören összefoglalja az eszközön futó MI értékajánlatát – teljesítményt és elérhetőséget kapsz, plusz adatvédelmet és biztonságot. Azt is mutatja, hogy még a hagyományosan kevésbé nyugati fókuszú cégek (mint a MediaTek) is az MI bevezetésének élvonalában gondolkodnak.
- Dr. Norman Wang (MI hardver szakértő, egy chip startup vezérigazgatója): „Az MI hardverben minél közelebb tudod vinni a számítást az adatforráshoz, annál jobb. A cél az adatmozgatás csökkentése. Egy NPU közvetlenül a képérzékelő mellett azt jelenti, hogy nem kell megapixeleket küldeni a felhőbe – azonnal, a peremen nyerjük ki a felismeréseket. Ez óriási változás a késleltetés és az energiafogyasztás szempontjából.” (Panel a HotChips 2024-en – parafrázis). Ez a technikai meglátás magyarázza, miért ülnek gyakran az NPU-k ugyanazon a szilíciumon más komponensekkel: pl. egy telefon SoC-ján az NPU közvetlenül elérheti a kamera adatait az ISP-től. Az adatmozgatás minimalizálása kulcsfontosságú a hatékony MI-hez, és a peremhálózati MI ezt úgy éri el, hogy a feldolgozást az adat forrásánál végzi.
- Xinzhou Wu (az NVIDIA autóipari alelnöke): „A gyorsított számítás forradalmi áttörésekhez vezetett, beleértve a generatív MI-t is, amely újradefiniálja az autonómiát és a közlekedési ipart.” (GTC 2024 Keynote) ts2.tech. Arról beszélt, hogy a nagy teljesítményű fedélzeti számítógépek (NPUs/GPUs) lehetővé teszik, hogy az autók ne csak vezessenek, hanem akár fejlett MI-t, például generatív modelleket is alkalmazzanak olyan dolgokra, mint a természetes nyelvi interfészek az autóban vagy a helyzetek jobb megértése. Ez hangsúlyozza, hogy még az autóiparban is az eszközön futó MI-t nemcsak az alapvető funkciókhoz, hanem a felhasználói élmény javításához is használják (pl. olyan hangasszisztensek az autókban, amelyek beszélgetést tudnak folytatni a fedélzeti LLM-eknek köszönhetően).
- Sundar Pichai (a Google vezérigazgatója): „Az MI jövője arról szól, hogy mindenki számára hasznossá tegyük. Ez azt jelenti, hogy az MI-t minden általunk használt eszközbe – telefonokba, háztartási gépekbe, autókba – be kell építeni, hogy ott legyen, amikor szükség van rá. Szeretnénk ott találkozni a felhasználókkal, ahol vannak, olyan MI-vel, amely valós időben, helyben működik, és megőrzi a magánéletet.” (Több interjúból/előadásból parafrazálva). Pichai gyakran beszél az „ambient MI”-ről – arról az elképzelésről, hogy az MI mindenhol körülöttünk lesz, beágyazva a dolgokba. A Google Tensor chipekkel kapcsolatos törekvése a Pixel telefonokban ennek a filozófiának a közvetlen megvalósítása.
- Iparági statisztikák: Az elemzők számokban is megfigyelték a trendet. A Grand View Research 2024-es jelentése megjegyezte: „A speciális MI-chipek és NPUs legújabb fejlesztései lehetővé tették, hogy összetett MI-algoritmusok közvetlenül az eszközökön fussanak, jelentősen javítva a teljesítményt és az energiahatékonyságot… közeledünk egy kulcsfontosságú átmenethez az eszközön futó MI irányába.” grandviewresearch.com. Ugyanez a jelentés előrejelzi, hogy a on-device AI piaca a következő években robbanásszerűen növekedni fog, a hardver szegmens (NPUs, stb.) 2024-ben a bevétel több mint 60%-át teszi ki, és tovább nő, ahogy szinte minden új IoT vagy mobil eszköz MI-képességeket kap grandviewresearch.com. Egy másik, az IDC és mások által készített előrejelzés szerint a 2020-as évek közepére szinte minden csúcskategóriás okostelefon és a középkategóriások többsége is MI-gyorsítóval lesz felszerelve, és 2030-ra milliárdnyi edge MI-chip lesz használatban a fogyasztói elektronikától az okos infrastruktúráig.
A szakértők egyetértenek abban, hogy az eszközön futó MI nem csak egy kellemes extra – hanem elengedhetetlen a technológia következő hullámához. Andrew Ng MI-pionír gyakran említi, hogy a „tiny AI” és az edge MI lehetővé teszi, hogy az intelligencia minden tárgyba eljusson, hasonlóan ahhoz, ahogy a villamos energia vagy az internet tette korábban. Azáltal, hogy leküzdik a csak felhőalapú MI korlátait, az NPUs és TPUs lehetővé teszik ezt az elterjedést.
A sok szabvány kihívása (és a leegyszerűsítésre irányuló törekvések)
Miközben a hardver gyorsan fejlődött, az eszközön futó MI-hez tartozó szoftverek és szabványok ökoszisztémája még mindig le van maradva. A fejlesztők egy eszközök közötti NPU-k kihasználásához szükséges eszközök és SDK-k dzsungelével szembesülnek nimbleedge.com. Főbb pontok:- Minden platformnak megvan a saját API-ja vagy SDK-ja: az Apple-nél ez a Core ML (API-kkal a Neural Engine célzásához), az Androidnál a Neural Networks API (NNAPI) (bár a Google bejelentette, hogy az Android 14 után továbbfejleszti) threads.com, a Qualcomm kínálja a SNPE-t (Snapdragon Neural Processing Engine) vagy általánosabban a Qualcomm AI Stack-et, az NVIDIA-nál a TensorRT és a CUDA érhető el az eszközeikhez, és így tovább. Létezik még ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI és mások is. Ezek a különböző SDK-k gyakran eltérő képességekkel rendelkeznek, és a modelleket módosítani kell, hogy optimálisan fussanak az adott célhardveren. Egy 2025-ös eszközön futó MI-jelentés szerint „Több, inkompatibilis SDK (pl. Core ML, LiteRT, ONNX Runtime) eltérő operátor-támogatással és teljesítménnyel” extra munkára kényszeríti a fejlesztőket nimbleedge.com.
- Töredezettségi problémák: Egy modell, amely tökéletesen fut egy asztali GPU-n, lehet, hogy nem fut azonnal egy telefon NPU-ján – az operátorok (matematikai függvények) lehet, hogy nem támogatottak, vagy másképp kell kvantálni őket. A fejlesztőknek néha külön buildet kell fenntartaniuk, vagy manuálisan kell optimalizálniuk a modelleket minden hardverhez. Ez a „alacsony szintű, töredezett ökoszisztéma” panasz nimbleedge.com. A hibakereső eszközök is szűkösek – egy NPU profilozása, hogy kiderüljön, miért lassú egy modell, nehéz lehet, különösen a CPU/GPU-hoz elérhető fejlett eszközökhöz képest nimbleedge.com. Standardizációs erőfeszítések: Ennek kezelésére több dolog is történik. Az ONNX (Open Neural Network Exchange) egy közös formátumként jelent meg, így egy modellt betaníthatsz PyTorch-ban vagy TensorFlow-ban, majd exportálhatod ONNX-ba a telepítéshez. Számos futtatókörnyezet (beleértve az eszközön futókat, mint a Qualcomm és a MediaTek megoldásait) támogatja az ONNX modellek betöltését, és megpróbálja azokat a hardverre fordítani. Ez segít elkerülni az egyetlen keretrendszerhez való kötöttséget. Az Android NNAPI-t a Google azért hozta létre, hogy univerzális interfészt biztosítson – egy alkalmazás kérheti, hogy „futtasd ezt a neurális hálót” az NNAPI-n keresztül, és az operációs rendszer a rendelkezésre álló gyorsítót (GPU, DSP vagy NPU) használja a végrehajtáshoz. Az NNAPI-t sok Android eszköz átvette, de voltak korlátai, és nem minden gyártó biztosított megbízható illesztőprogramokat, ezért a Google új stratégiát jelzett előre (esetleg a WebNN-re vagy közvetlen gyártói integrációkra támaszkodva) 2024 után threads.com. PC-ken a Microsoft bevezette a DirectML-t és a Windows ML API-kat, hogy hasonlóan elrejtsék a hardverbeli különbségeket (így a fejlesztő ugyanazt az API-t használhatja NVIDIA, Intel, AMD NPU-khoz).Egységes eszközkészletek: A vállalatok eszközkészleteket is építenek a telepítés egyszerűsítésére. Láttuk a Qualcomm AI Stack-jét, amely ötvözi a fordítójukat (AI Model Efficiency Toolkit) és a futtatókörnyezeteket, így a fejlesztők könnyebben célozhatják meg a Hexagon NPU-t iconnect007.com. Az NVIDIA TensorRT-je és kapcsolódó SDK-i hasonló célt szolgálnak Jetson eszközöknél, optimalizálva a modelleket GPU+NVDLA-ra. Az Intel OpenVINO egy másik példa – lehetővé teszi, hogy egy modellt optimalizálj Intel CPU-kra, iGPU-kra és VPU-kra (NPU-kra) peremhálózati telepítésekhez. Ezek a keretrendszerek gyakran tartalmaznak modell-optimalizálókat, amelyek átalakítják a modelleket (metszés, kvantálás), hogy kisebb eszközökön is elférjenek.Interoperabilitás: Mozgás indult abba az irányba, hogy különböző NPU-k közös keretrendszerekkel működjenek. Például a Google TensorFlow Lite-jának vannak hardverdelegáltjai – egy az NNAPI-hoz (általánosan lefedi az Android eszközöket), egy a Core ML-hez (iOS eszközök), egy az Edge TPU-hoz stb. Az ötlet az, hogy megírod a TFLite modelledet, és az a legjobb elérhető gyorsítón fut a delegált révén. Hasonlóképpen, a PyTorch is bővíti a mobil háttér-támogatást, sőt olyanokat is, mint az Apple Metal Performance Shaders (hogy GPU/NPU-t használjon iOS-en). Az ONNX Runtime szintén képes különböző gyorsítókat célozni plugineken keresztül (például be lehet kötni az NVIDIA TensorRT-t vagy az ARM Compute Library-t vagy másokat a háttérben).Feltörekvő szabványok: A Khronos Group (az OpenGL/Vulkan mögött) dolgozott az NNEF-en (Neural Network Exchange Format), és folyamatban van a WebNN API megvitatása is, hogy a böngészők hozzáférhessenek a helyi AI-gyorsításhoz. Egyiket sem fogadták még el univerzálisan. De egy érdekes fejlemény: 2024 végén több vállalat szövetséget alapított, hogy előmozdítsa az „AI Hardware Common Layer” szabványokat – lényegében azt vizsgálják, lehet-e közös, alacsony szintű interfészt létrehozni az NPU-khoz (hasonlóan ahhoz, ahogy az OpenCL tette a GPU-s számításoknál). Még korai szakaszban járnak.
- Fejlesztői élmény: Ez egy elismert hiányosság. Ahogy a NimbleEdge blogja is írta, „az on-device AI fejlesztése jelenleg egy széttagolt és alacsony szintű ökoszisztémában való eligazodást igényel… ami arra kényszeríti a fejlesztőket, hogy minden hardveres célpontra külön implementációkat készítsenek” nimbleedge.com. Az iparág tudja, hogy ennek javulnia kell ahhoz, hogy az on-device AI valóban elterjedjen. Lehet, hogy konszolidációt látunk majd – például, ha a Google, az Apple és a Qualcomm mind meg tudna egyezni egy alapvető művelet- és API-készletben (talán túl optimista elképzelés). Valószínűbb azonban, hogy a PyTorch-hoz és TensorFlow-hoz hasonló keretrendszerek elrejtik a komplexitást azáltal, hogy integrálják az összes gyártói könyvtárat, és futásidőben kiválasztják a megfelelőt.
Lényegében, míg az NPU-k/TPU-k adják az izmot, a közösség agybarát eszközökön dolgozik, hogy ezt az izmot használni lehessen. A jó hír az, hogy például öt évvel ezelőtthöz képest sokkal több lehetőség van egy modellt eszközön futtatni anélkül, hogy chip-szakértőnek kellene lenni. De van még hova fejlődni – különösen a hibakeresés, profilozás és a több hardver támogatása terén.
Piaci trendek és jövőbeli kilátások
Az NPU-k és TPU-k elterjedése az eszközökben egy nagyobb trendet hajt: AI mindenhol. Íme néhány magas szintű trend és várható fejlemény:
- Edge AI piaci növekedés: A piackutatások robbanásszerű növekedést jeleznek az edge AI hardverek terén. Az on-device AI piac (beleértve a chipeket és a szoftvereket) várhatóan évi ~29%-os összetett növekedési rátával bővül az évtized során nimbleedge.com. Egy jelentés szerint 2024-ben értéke körülbelül 233 milliárd dollár, és 2032-re meghaladja az 1,7 billió dollárt nimbleedge.com – ennek a növekedésnek nagy része az edge telepítéseknek köszönhető. Az IDTechEx egy másik elemzése szerint az edge eszközök AI chip piacának értéke 2034-re eléri a 22 milliárd dollárt, ahol a fogyasztói elektronika, az autóipar és az ipari szegmens lesz a legnagyobb idtechex.com. Ez azt jelenti, hogy évente több százmillió eszköz fog NPU-val, mint alapvető komponenssel piacra kerülni.
- Mindenütt jelenlévő elterjedés: Ahogy ma már minden okostelefonnak van GPU-ja (még ha kicsi is), elérkeztünk oda, hogy minden új okostelefonban lesz AI gyorsító. A csúcskategóriás telefonokban már most is van; a középkategóriás készülékek a következők. Valóban, a Qualcomm (pl. Snapdragon 7 sorozat) és a MediaTek (Dimensity 700/800 sorozat) középkategóriás chipjei már tartalmaznak lebutított NPU-kat, hogy az olyan funkciók, mint az AI kamerafejlesztések és a hangasszisztens, olcsóbb készülékeken is működhessenek. A telefonokon túl az NPU-k terjednek PC-kben (több gyártó új Windows laptopjaiban alapfelszereltség), autókban (szinte minden új, ADAS 2+ szintű autóban van valamilyen AI chip), és IoT eszközökben. Még a háztartási gépek, mint a hűtők és mosógépek is elkezdték hirdetni az „AI” funkciókat (amelyek közül néhány felhőalapú, de néhány helyi, például szenzorok alapján adaptív ciklusok). A trend egyértelmű: ha egy eszközben van számítási chip, akkor lesz benne valamilyen ML gyorsítás is.
- Teljesítmény pálya: Az eszközön futó AI teljesítménye nagyjából 1–2 évente duplázódik (jobb architektúra és fejlettebb félvezető csomópontokra, mint 5nm, 4nm, 3nm való áttérés kombinációja). Az Apple Neural Engine 2017-ben 600 milliárd művelet/mp-ről 2023-ra 35 billióra nőtt – közel 60×-os növekedés hat év alatt apple.fandom.com. A Qualcomm csúcskészülékei hasonlóan néhány TOPS-ról 2018-ban több mint 27 TOPS-ra ugrottak 2023-ra (SD 8 Gen 3 teljes AI számítási kapacitása, minden magot beleszámítva). Várhatóan 2025–2026-ra a mobil NPU-k 100+ TOPS-ot fognak tudni, a PC gyorsítók még többet, és ezek a számok talán kevésbé lesznek relevánsak, ahogy a fókusz áttevődik a használható teljesítményre konkrét AI feladatoknál (például, mekkora LLM-et tudsz zökkenőmentesen futtatni, vagy tudsz-e 4K AI videót valós időben feldolgozni). A felhő és a perem közötti különbség valószínűleg szűkül az inferencia feladatoknál. Azonban a perem továbbra is el fog maradni a felhőtől a legújabb, legnagyobb modellek esetén az energia- és memória-korlátok miatt.
- Energiahatékonysági nyereségek: Egy alulértékelt szempont, hogy ezek az NPU-k mennyire hatékonyak lettek. A Tesla autós NPU-ja ~4,9 TOPS/Watt teljesítményt ér el fuse.wikichip.org, ami néhány éve még csúcstechnológiának számított; most néhány mobil NPU hasonló vagy jobb értéket állít. A hatékony NPU-k hosszabb akkumulátor-üzemidőt jelentenek, még akkor is, ha többet használjuk az AI funkciókat. Ez azt is jelenti, hogy az AI beépítése apró, elemes eszközökbe is megvalósíthatóvá válik (pl. AI hallókészülékek, okos szenzorok gombelemről, amelyek anomália detektálást végeznek). A TinyML fogalma – rendkívül kis léptékű gépi tanulás mikrokontrollereken – ennek a kiterjesztése, leegyszerűsített „NPU”-kat vagy optimalizált utasításokat használva mikrokontrollereken, hogy AI-t futtassanak szenzorokban. Az ARM Ethos-U NPU-ja ezt a szegmenst célozza (pl. folyamatos kulcsszó-felismerés néhány milliwattból). Várhatóan egyre több AI-specifikus apró chip jelenik meg, amelyeket szenzorokba, viselhető eszközökbe és mindennapi tárgyakba lehet beépíteni (Okos fogkefe? AI-alapú füstérzékelő? Jönni fog).
- Hibrid felhő-perem megoldások: Ahelyett, hogy a perem teljesen kiváltaná a felhőt, a jövő az együttműködésé. Az eszközök helyben végzik el, amit tudnak, és csak azért fordulnak a felhőhöz, amit nem tudnak megoldani. Például az AR szemüveged helyben futtathat jelenetfelismerést, hogy tudja, mire nézel, de ha nagyon összetett kérdést teszel fel (például alapos magyarázatot kérsz), akkor egy felhőalapú MI-től kérhet erősebb elemzést, majd ezt jeleníti meg. Ez a hibrid megközelítés adja a legjobb egyensúlyt a gyors reakció és a képességek között. A cégek aktívan terveznek ilyen élményeket: a Microsoft Copilotja Windows alatt például a helyi NPU-t használhatja gyors hang-felismeréshez és parancsértelmezéshez, de a nehezebb feladatokat a felhőre bízza (kivéve, ha esetleg van egy erős PC-s NPU-d, ami elbírja). Az ideális felhasználó nem is tudja vagy törődik vele, melyik működik, csak azt érzékeli, hogy minden gyorsabb és adatvédelmi szempontból is megfelelő. Emellett federált tanulás is egyre elterjedtebb lesz – a modellek a felhőben tanulnak, de a titkosított vagy helyben feldolgozott adatok segítségével, illetve fordítva.
- Új felhasználási területek: Ahogy az NPU-k egyre erősebbek lesznek, új alkalmazások nyílnak meg. Generatív MI helyben – képzeld el, hogy MI képgenerálás, MI videószerkesztés és személyes chatbotok mind a telefonodon vagy laptopodon futnak. 2025-re már megjelenhetnek az offline személyi asszisztensek első változatai, amelyek képesek összefoglalni az e-mailjeidet vagy üzeneteket írni felhő nélkül. Valós idejű nyelvi fordítás beszélgetés közben (két ember különböző nyelven beszél, a telefon vagy fülhallgató pedig közel valós időben fordít) sokkal jobb lesz a helyi feldolgozásnak köszönhetően (nincs késés, bárhol működik). Egészségügyi MI akár viselhető eszközökön is élhet – az okosórád felismerheti a pitvarfibrillációt vagy elemezheti az alvási apnoe mintákat az NPU segítségével. Biztonság: az eszközök helyben futtathatnak MI-t, hogy valós időben észleljék a rosszindulatú programokat vagy adathalászatot (például a vírusirtó a készüléken futó MI-modellel dolgozik, nem felhőalapú vizsgálattal). Járművekben a vezetésen túl az MI személyre szabhatja az utastéri élményt (például a vezető arcfelismerő kamerája alapján hangulatodhoz igazítja a klímát stb.). Ezekhez a felhasználási területekhez gyors iteráció és adatvédelem kell, ami a helyi feldolgozásnak kedvez.
- Verseny és demokratizáció: A nagy szereplők továbbra is versenyeznek, ami jó a fogyasztóknak – várható, hogy azt reklámozzák majd, hogy „a mi MI-chipünk X TOPS-ra képes vagy Y funkciót tud, amit más nem.” Ugyanakkor a technológia demokratizálódik – az NPU-k már nem csak 1000 dolláros telefonokban vannak, hanem jönnek 300 dolláros telefonokba, 50 dolláros IoT lapokra (Coral, Arduino Portenta stb.), és a nyílt forráskódú közösségek apró MI-modelleket készítenek, amelyeket hobbisták is futtathatnak Raspberry Pi-n vagy mikrokontrolleren egy alap gyorsítóval. Ez a széles körű elérhetőség azt jelenti, hogy az innováció bárhonnan jöhet. Egy magányos fejlesztő is készíthet olyan alkalmazást, amely helyi MI-t használ valami okosra, szerverfarm nélkül – így az MI-alapú szoftverekhez is alacsonyabb a belépési küszöb. Jövő technológiák: Távolabbra tekintve, a neuromorf számítástechnika (agy által inspirált chipek, mint az Intel Loihi) és az analóg AI chipek kutatása egy napon forradalmasíthatja az NPU-kat, nagyságrendekkel nagyobb hatékonyságot kínálva. Olyan cégek dolgoznak ezen, mint az IBM és a BrainChip. Ha sikerrel járnak, egy neuromorf chip lehetővé teheti, hogy összetett AI folyamatosan fusson apró akkumulátoros eszközökön. Elképzelhető, hogy az 3D rétegzés és új memória technológiák is integrálódnak az NPU-kba a memória szűk keresztmetszetek leküzdésére (néhány 2025 utáni chip HBM memóriát vagy új, chipen belüli nem felejtő memóriát használhat az AI magok gyorsabb kiszolgálására). Várható továbbá nagyobb specializáció az AI chipeken belül: például külön gyorsítók a látáshoz, a beszédhez, az ajánlórendszerekhez stb., mindegyik a saját területére hangolva. Egyes SoC-k már most is rendelkeznek két NPU-val (egy „nagy” NPU a nehéz feladatokhoz, egy mikro NPU a szenzor hubban a folyamatos, könnyű feladatokhoz).Összefoglalva, az irány egyértelmű: az NPU-k és TPU-k ugyanolyan alapvetővé és nélkülözhetetlenné válnak, mint a CPU-k a modern számítástechnikában. Ezek teszik lehetővé, hogy az eszközök okosabbak, gyorsabban reagálóak és jobban figyeljenek a magánéletünkre. Ahogy egy jelentés fogalmazott: „a nagy teljesítményű feldolgozóegységek az eszközökben nagyrészt felelősek az összetett AI funkciók, például a képfelismerés, a természetes nyelvfeldolgozás és a valós idejű döntéshozatal végrehajtásáért”, és ez hajtja az intelligensebb, gyorsabban reagáló technológiát minden ágazatban grandviewresearch.com.Egy olyan korszakba lépünk, ahol egyszerűen elvárhatod, hogy az eszközöd megértse és előre lássa az igényeidet – a telefonod a te stílusodban szerkeszti a fotókat és ír üzeneteket, az autód elkerüli a baleseteket és AI-jal szórakoztat, az otthoni eszközeid megtanulják a szokásaidat – mindezt a bennük csendben dolgozó neurális processzorok teszik lehetővé. Az eszközön futó AI nem sci-fi; már itt van, és gyorsan fejlődik. Az NPU-k és TPU-k mindennapi eszközeinkkel való összefonódása személyessé, mindent áthatóvá és priváttá teszi az AI-t – valóban a felhő intelligenciájának erejét hozza le a földre (vagy legalábbis a zsebedbe).Források:Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 2024. aug. 27. techtarget.com. Leírja a CPU-k, GPU-k, TPU-k és NPU-k szerepét és különbségeit az AI feladatokban.Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Magyarázat a Google TPU tervezéséről (systolikus tömbök, alacsony precizitás) és az NPU-k használatáról mobil eszközökben.
- TechTarget WhatIs. „Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. Megjegyzi, hogy a TPU-k mátrixműveletekre specializálódtak, míg az NPU-k az agy neurális hálózatait utánozzák a gyorsítás érdekében techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). „Az eszközön futó MI helyzete: Mi hiányzik a mai környezetből.” 2025. június 26. nimbleedge.com. Ismerteti az eszközön futó MI előnyeit (késleltetés, offline működés, adatvédelem, költség) és a kihívásokat, mint például a töredezett SDK-kat.
- Qualcomm (OnQ Blog). „Bloomberg és Cristiano Amon az eszközön futó MI-ről beszélgetnek.” 2023. július x.com. A Qualcomm vezérigazgatója az eszközön történő következtetés fontosságáról a jövő MI-jében (tweet idézet az MI fordulópontjáról).
- MediaTek Blog (Exec Talk, Will Chen). „Az MI mobil élmények jövőjének alakítása.” 2025. március 3. mediatek.com. MediaTek és Oppo együttműködés az NPU-kon; idézet a kézben lévő edge computingról és példa az NPU-val végzett MI-alapú fotófeljavításra.
- I-Connect007 / Qualcomm Press. „A Qualcomm együttműködik a Metával az eszközön futó MI (Llama 2) érdekében.” 2023. július 24. iconnect007.com. Sajtóközlemény Qualcomm SVP Durga Malladi idézetével a generatív MI edge eszközökön és felhőn keresztüli skálázásáról.
- PCWorld (Mark Hachman). „Az Intel Core Ultra CPU-k egyszerűvé teszik az MI-t….” 2024. október 24. pcworld.com. Tárgyalja, hogy az Intel Arrow Lake a Meteor Lake NPU-ját használja (13 TOPS), és megemlíti az AMD Ryzen 8000 39 TOPS NPU-ját, valamint a Microsoft 40 TOPS „Copilot” követelményét.
- Ts2 (Tech Empowerment). „Önvezető szuperszámítógép-összecsapás: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” 2023. szept. ts2.tech. TOPS becsléseket közöl: Tesla HW3 vs HW4 (72→100 TOPS chipekénként) ts2.tech, NVIDIA Thor ~1000 TOPS (vagy 2000 duplával) ts2.tech, valamint idézi az NVIDIA alelnökét a generatív MI-ről járművekben ts2.tech.
- Grand View Research. „On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Megjegyzi a specializált MI-chipek (NPU-k) térnyerését, amelyek lehetővé teszik az összetett MI-t az eszközökön, valamint hogy a hardver 2024-ben a beágyazott MI-piac 60,4%-át tette ki, amit az okostelefonok, IoT, NPU-k stb. hajtottak.
- Google Blog. „Google Tensor G3: Pixel 8 AI-első processzora.” 2023. okt. blog.google. Leírja a Tensor G3 fejlesztéseit a beágyazott generatív MI-hez, az új TPU dizájnt, valamint a beágyazott TTS modellt, amely eléri az adatközponti minőséget.
- Techspot. „A Snapdragon 8 Gen 3 generatív MI-t hoz az okostelefonokra.” 2023. okt. futurumgroup.com. A Futurum Group elemzése részletezi az SD8Gen3 MI-motorját: 10M paraméteres LLM az eszközön, 98%-kal gyorsabb NPU, a világ leggyorsabb Stable Diffusion-je telefonon stb., valamint a beágyazott LLM-ek előnyeit költség/adatvédelem/offline szempontból futurumgroup.com.
- Apple Wiki (Fandom). „Neural Engine.” Frissítve: 2025 apple.fandom.com. A Neural Engine verziótörténete, az A17 Pro 35 TOPS-szal 2023-ban, stb. Bemutatja a fejlődést 0,6 TOPS-tól (A11) 35 TOPS-ig (A17) apple.fandom.com és az M4 38 TOPS-szal apple.fandom.com.
- EnGenius Tech. „Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Példa olyan biztonsági kamerára, amely beépített NPU-val rendelkezik, lehetővé téve a kamerán történő AI feldolgozást és helyi tárolást (NVR nem szükséges).
- EmbedL. „Az Amazon kiadja az AZ1 Neural Edge Processzort.” 2020. okt. embedl.com. Az Amazon AZ1 edge NPU-járól szól Echo eszközökhöz, a MediaTek-kel közösen fejlesztve, amelyet eszközön történő beszédfeldolgozásra terveztek a késleltetés és a felhőfüggőség csökkentése érdekében embedl.com.