NPU:t vs. TPU:t: Kuinka laitekohtainen tekoäly tehostaa laitteitasi vuonna 2025

6 syyskuun, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple käynnisti laitteessa tapahtuvan tekoälyn vuonna 2017 iPhone A11:n Neural Enginellä, mahdollistaen Face ID:n ja Animojin jopa 600 miljardilla operaatioilla sekunnissa.
  • Vuonna 2023 iPhone A17 Pron 16-ytiminen Neural Engine tarjosi noin 35 TOPS:ia, mahdollistaen laitteessa tapahtuvan puheentunnistuksen, valokuvauksen ja käännöstoiminnot.
  • Google Pixel 8 (2023) käyttää Tensor G3 NPU:ta pyörittämään laitteessa toimivia tekoälymalleja, kuten Palm 2:ta offline-käännöksiin ja tiivistämiseen.
  • Googlen Edge TPU Coral Dev Boardilla tarjoaa 4 TOPS:ia kuvantunnistusta muutamalla watilla.
  • Teslan Full Self-Driving -laitteistossa on kaksi NPU:ta: HW3 (2019) tarjosi noin 144 TOPS:ia ja HW4 (2023) noin 200–250 TOPS:ia.
  • NVIDIA Drive Thor (julkistettu 2024) voi saavuttaa jopa 2000 TOPS:ia, kun kaksi sirua yhdistetään autojen tekoälytehtäviin.
  • Qualcommin Snapdragon 8 Gen 3 (2023) Hexagon NPU on 98 % nopeampi kuin Gen 2, pystyy ajamaan jopa 10 miljardin parametrin LLM-malleja laitteessa ja saavutti maailman nopeimman mobiili-Stable Diffusionin esittelyissä.
  • MediaTekin Dimensity 9400 (2024) kuudennen sukupolven APU:lla mahdollistaa Oppo Find X8:n tekoälyvalokuvien uudelleenmuokkauksen, mikä viittaa NPU:iden laajenemiseen televisioihin, IoT-laitteisiin ja autoihin vuoteen 2025 mennessä.
  • Intelin Meteor Lake, 14. sukupolven Core (julkaistu 2023; uudelleenbrändätty Core Ultra vuonna 2024), sisältää integroidun NPU:n, joka tarjoaa noin 8–12 TOPS:ia, Arrow Lake noin 13 TOPS:ia ja Lunar Laken huhutaan yltävän noin 45 TOPS:iin.
  • AMD:n Ryzen 7040 Phoenix (2023) esitteli Ryzen AI Enginen jopa 10 TOPS:illa, kun taas Ryzen 8000 desktop (alkuvuosi 2024) tarjosi 39 TOPS:ia ennen kuin AMD keskeytti NPU:t kyseisessä sukupolvessa.

Yhteenveto: Älypuhelimeesi, kameraasi ja jopa autoosi rakennetaan nyt tekoälyaivot – pilvipalvelua ei tarvita. Erityiset sirut nimeltä NPU:t (Neural Processing Units) ja TPU:t (Tensor Processing Units) muuttavat arjen laitteet älykkäiksi avustajiksi, jotka osaavat kasvojentunnistuksen, äänikomentojen käsittelyn, reaaliaikaisen käännöksen, autonomiset ajo-ominaisuudet ja paljon muuta. Tämä laitteessa tapahtuvan tekoälyn vallankumous lupaa salamannopeita vasteita, parempaa yksityisyyttä ja uusia ominaisuuksia, joita aiemmin pidettiin mahdollisina vain supertietokoneilla. Tässä raportissa selvitämme, mitä NPU:t ja TPU:t ovat, miten ne eroavat CPU:ista/GPU:ista ja miksi teknologiajätit kuten Apple, Google, Qualcomm ja Intel kilpailevat saadakseen nämä “tekoälyaivot” kaikkeen puhelimista autoihin. Esittelemme myös uusimmat 2024–2025 läpimurrot, asiantuntijanäkemykset, alan standardit ja tulevaisuuden näkymät laitteessa tapahtuvalle tekoälylle.

Mitä ovat NPU:t ja TPU:t? (Tutustu laitteesi tekoälyaivoihin)

Neuraaliprosessointiyksiköt (NPU:t) ovat erikoistuneita prosessoreita, jotka on suunniteltu nopeuttamaan keinotekoisia neuroverkkoja – algoritmeja, jotka mahdollistavat nykyaikaiset tekoälytehtävät, kuten kuvantunnistuksen, puheenkäsittelyn ja paljon muuta. Toisin kuin yleiskäyttöiset suorittimet (CPU:t), NPU:t ovat sovelluskohtaisia integroitavia piirejä (ASIC), jotka on viritetty matriisilaskentaan ja neuroverkkojen raskaisiin rinnakkaisiin työkuormiin techtarget.com. NPU “matkii ihmisaivojen hermoverkkoja nopeuttaakseen tekoälytehtäviä” ja toimii käytännössä kuin piipohjainen aivo laitteessasi techtarget.com. NPU:t ovat erinomaisia suorittamaan inferenssiä (ennusteiden tekemistä) tekoälymalleille tehokkaasti laitteessa, usein käyttäen matalampaa numeerista tarkkuutta (esim. 8-bittisiä kokonaislukuja) säästääkseen virtaa samalla kun ne tarjoavat korkean suorituskyvyn backblaze.com. Termiä “NPU” käytetään joskus laajasti mistä tahansa tekoälykiihdyttimestä, mutta useimmiten sillä viitataan mobiili- ja reunalaitteiden kiihdyttimiin backblaze.com. Esimerkiksi Applen “Neural Engine” iPhoneissa ja Samsungin mobiilitekoälymoottori ovat NPU:ita, jotka on integroitu niiden järjestelmäpiireihin (SoC).

Tensor Processing Units (TPU:t) puolestaan ovat Googlen kehittämiä räätälöityjä siruja koneoppimisen kiihdyttämiseen, erityisesti TensorFlow-kehystä varten. TPU on eräänlainen ASIC, joka on optimoitu tensorilaskentaan (matriisikertolaskut jne.), jotka ovat hermoverkkojen koulutuksen ja päättelyn ytimessä backblaze.com. Google otti TPUnsa käyttöön datakeskuksissaan ensimmäisen kerran vuonna 2015 nopeuttaakseen hermoverkkojen laskentaa, ja toi ne myöhemmin saataville Google Cloudin kautta backblaze.com. TPU:t käyttävät erilaista arkkitehtuuria nimeltä systolinen verkko, jossa monet pienet laskentayksiköt on yhdistetty ruudukoksi, joka pumppaa dataa matriisikertolaskuketjun läpi backblaze.com. Tämä rakenne mahdollistaa erittäin suuren läpimenon syväoppimistehtävissä. Googlen TPU:t uhraavat tarkoituksella hieman tarkkuutta (käyttäen 8- tai 16-bittistä matematiikkaa 32-bittisten liukulukujen sijaan) saavuttaakseen valtavia nopeus- ja tehokkuusetuja backblaze.com, koska monet tekoälytehtävät eivät vaadi suurta tarkkuutta saadakseen tarkkoja tuloksia. Vaikka “TPU” viittaa teknisesti Googlen siruihin, termiä käytetään joskus yleisemmin mistä tahansa “tensorikiihdyttimestä”. Huomionarvoista on myös, että Google valmistaa Edge TPU -yhteisprosessoreita laitekohtaisiin tekoälyratkaisuihin, kuten Coral Dev Boardiin, tarjoten 4 biljoonaa operaatiota sekunnissa muutamalla watilla coral.ai.

Yhteenvetona: NPU:t ja TPU:t ovat molemmat tekoälylle suunniteltuja piikiihdyttimiä, mutta NPU:t ovat yleisesti sisäänrakennettu mobiili-/reunalaitteisiin tehokasta laitteistopäättelyä varten, kun taas TPU:t (tiukassa merkityksessä) ovat olleet Googlen korkean suorituskyvyn siruja (ja nykyään moduuleja), alun perin pilvi-/datakeskuskoulutukseen ja -päättelyyn. Molemmat poikkeavat perinteisistä CPU-/GPU-rakenteista priorisoimalla rinnakkaiset matemaattiset operaatiot hermoverkoille. Erään teknologiaeditorin sanoin, “TPU:t vievät erikoistumisen pidemmälle, keskittyen tensorilaskentaan saavuttaakseen suurempia nopeuksia ja energiatehokkuutta… NPU:t ovat yleisiä tekoälyä hyödyntävissä laitteissa, kuten älypuhelimissa ja IoT-laitteissa” backblaze.com.

Miten NPU:t ja TPU:t eroavat CPU:ista ja GPU:ista?

Perinteiset suorittimet (CPU:t) (keskusyksiköt) ovat yleislaskennan “aivot” – optimoitu joustavuuteen, jotta ne voivat hoitaa kaikenlaisia tehtäviä, käyttöjärjestelmän pyörittämisestä verkkoselailuun. Niissä on muutama tehokas ydin, jotka loistavat peräkkäisessä logiikassa ja vaihtelevissa käskyissä, mutta ne eivät ole hyviä syväoppimisen vaatimassa erittäin rinnakkaisessa laskennassa techtarget.com. Kun CPU:lle annetaan tehtäväksi käsitellä suuri neuroverkko, siitä tulee usein pullonkaula, kun se yrittää suorittaa miljoonia kertolaskuja ja yhteenlaskuja peräkkäin tai rajoitetuissa rinnakkaisissa erissä. Tämä johtaa korkeaan viiveeseen ja virrankulutukseen (ns. Von Neumannin pullonkaula, jossa paljon dataa siirretään CPU:n ja muistin välillä) backblaze.com. CPU:t pystyvät jonkin verran tekoälytyöhön (erityisesti yksinkertaisemmissa tai pienemmissä malleissa, tai tekoälyohjelmien ohjauslogiikassa techtarget.com), mutta pääsääntöisesti ne eivät kykene tehokkaasti skaalaamaan modernin tekoälyn vaatimaan valtavaan rinnakkaiseen lineaarialgebraan.

GPU:t (grafiikkaprosessorit) toivat rinnakkaislaskennan keskiöön. Alun perin ne kehitettiin kuvien renderöintiin suorittamalla monia yksinkertaisia operaatioita rinnakkain pikseleille ja verteksille, mutta GPU:t osoittautuivat hyvin sopiviksi myös neuroverkkojen kouluttamiseen, jossa samoja matemaattisia operaatioita (pistetuloja jne.) sovelletaan suureen määrään dataa samanaikaisesti techtarget.com. GPU:ssa on satoja tai tuhansia pieniä ytimiä, jotka voivat suorittaa laskentaa rinnakkain. Tämä tekee GPU:ista erinomaisia laajamittaiseen tekoälyyn, ja 2010-luvulla GPU:t (erityisesti NVIDIAn CUDA-ohjelmistolla) nousivat syväoppimisen tutkimuksen työjuhdiksi. GPU:t ovat kuitenkin yhä melko yleiskäyttöisiä – niiden täytyy hoitaa erilaisia grafiikkatehtäviä ja säilyttää joustavuus, joten ne eivät ole täysin optimoituja neuroverkoille. Ne myös kuluttavat paljon virtaa ja vaativat huolellista ohjelmointia täyden hyödyn saavuttamiseksi (ne eivät pidä monimutkaisesta haarautuvasta koodista ja toimivat parhaiten suoraviivaisissa, datarinnakkaisissa tehtävissä) techtarget.com.

NPU:t ja TPU:t vievät erikoistumisen vielä pidemmälle. Ne on suunniteltu erityisesti vain neuroverkkojen työkuormaa varten. Tämä tarkoittaa, että niiden arkkitehtuurista voidaan poistaa kaikki, mitä ei tarvita tekoälylaskentaan, ja käyttää enemmän piialaa esimerkiksi matriisikertolaskuyksiköihin, akkumulaatiosummereihin ja sirun sisäiseen muistiin, jolla dataa siirretään nopeasti sisään ja ulos näistä laskentayksiköistä. Esimerkiksi Google Cloud TPU on käytännössä valtava 2D-ruudukko MAC-yksiköitä (multiply-accumulate) älykkäällä dataflow-arkkitehtuurilla (systolinen matriisi), joka syöttää niille operandeja suurella nopeudella backblaze.com. Se ei käytä välimuisteja, spekulatiivista suoritusta tai muita suorittimen ominaisuuksia – se on virtaviivaistettu matriisilaskentaan. Myös mobiilipiirien NPU:t sisältävät omat neural engine -ytimensä CPU:n/GPU:n rinnalla. Nämä ytimet käyttävät usein matalatarkkuuksista aritmetiikkaa (esim. 8-bittiset kokonaisluvut kuten TPU:t) ja suorittavat erittäin rinnakkaisia “kerros kerrokselta” -laskentoja esimerkiksi konvoluutiohermoverkoille. NPU voi käyttää “fuusioitua” arkkitehtuuria, jossa yhdistyvät skalaariset, vektori- ja tensoriyksiköt (Qualcommin Hexagon NPU toimii näin) eri neuroverkkotoimintojen tehokkaaseen käsittelyyn futurumgroup.com.

Keskeiset erot tiivistyvät seuraaviin:

  • Käskykanta ja joustavuus: CPU:illa on laaja, yleiskäyttöinen käskykanta (voi tehdä monia asioita, mutta ei kaikkia samanaikaisesti). GPU:illa on rajoitetumpi mutta silti joustava käskykanta, joka on optimoitu matemaattisen läpimenon kannalta. NPU:t/TPU:t käyttävät hyvin kapeaa käskykantaa – käytännössä vain neuroverkoille tarvittavat operaatiot (matriisikertolasku, konvoluutio, aktivointifunktiot), usein toteutettuina kiinteinä putkina tai matriiseina fuse.wikichip.org. Esimerkiksi Teslan itseajavan auton NPU:ssa on vain 8 käskyä ISA:ssa, keskittyen DMA-luku/kirjoitusoperaatioihin ja pistetuloihin fuse.wikichip.org.
  • Rinnakkaisuus ja ytimet: CPU:t = muutama tehokas ydin; GPU:t = tuhansia yksinkertaisia ytimiä; NPU:t/TPU:t = tavallaan kymmeniä tuhansia hyvin yksinkertaisia ALU-yksiköitä (MAC-yksiköt) järjestettynä matriisi- tai neuroverkkomaisesti. Yksi NPU-siru voi suorittaa kymmeniä biljoonia operaatioita sekunnissa – Teslan auton NPU toimii 2 GHz taajuudella ja siinä on 9 216 MAC-yksikköä, saavuttaen noin 37 teraoperaatiota sekunnissa (TOPS) ydintä kohden, ja jokaisessa FSD-sirussa on kaksi NPU:ta eli noin 74 TOPS fuse.wikichip.org, ts2.tech. Vertailun vuoksi huipputason CPU yltää vain muutamaan sataan miljardiin operaatioon sekunnissa AI-tehtävissä, ja GPU ehkä muutamaan TOPS:iin, ellei käytetä erityisiä tensoriytimiä.
  • Muistiarkkitehtuuri: NPU:t/TPU:t tukeutuvat nopeaan sirun sisäiseen muistiin ja datan suoratoistoon. TPU:t välttävät perinteisen muistipullonkaulan käyttämällä systolista datavirtaa – jokainen pieni yksikkö siirtää dataa seuraavalle synkronoidusti, mikä minimoi päämuistin luku- ja kirjoitusoperaatiot backblaze.com. Monissa NPU:ssa on sirun sisäistä SRAM-muistia painoille/aktivaatioille (esim. Teslan NPU-ytimissä on 32 Mt SRAM-muistia kullekin, jotta neuroverkkodata voidaan säilyttää paikallisesti) semianalysis.com. Tämä eroaa GPU:ista/CPU:ista, jotka käyttävät runsaasti ulkoista DRAM-muistia.
  • Tarkkuus: CPU:t/GPU:t käyttävät yleensä 32- tai 64-bittisiä liukulukuja laskentaan. AI-kiihdyttimet käyttävät usein 16- tai 8-bittisiä kokonaislukuja (ja jotkut tutkivat nyt 4- tai jopa 2-bittisiä), koska neuroverkot sietävät matalampaa tarkkuutta. Googlen TPU-suunnittelijat totesivat nimenomaisesti, ettei täyttä liukulukutarkkuutta tarvita inferenssiin, verraten sitä siihen, että “ei tarvitse tietää tarkalleen montako sadepisaraa sataa, jotta tietää sateen olevan rankkaa” backblaze.com. Tämä mahdollistaa sen, että NPU:t/TPU:t voivat suorittaa enemmän operaatioita rinnakkain ja käyttää vähemmän energiaa operaatiota kohden.
  • Käyttötapaukset: GPU:t ovat yhä laajasti käytössä suurten mallien koulutuksessa ja joustavassa laskennassa (ja ne ovat yleisiä datakeskuksissa ja huippuluokan PC:issä). TPU:t (pilvessä) on suunnattu laajamittaiseen koulutukseen ja inferenssiin Googlen ekosysteemissä. NPU:ita löytyy useammin reunalaitteista – älypuhelimista, kameroista, kodinkoneista – suorittamassa inferenssiä jo koulutetuilla malleilla. Ne loistavat tehtävissä, kuten visiomallin soveltamisessa kamerakuvaan reaaliajassa tai ääniohjaimen herätyssanan tunnistuksessa jatkuvasti pienellä virrankulutuksella. Kuten TechTarget totesi: “GPU:t valitaan saatavuuden ja kustannustehokkuuden vuoksi monissa ML-projekteissa; TPU:t ovat yleensä nopeampia ja vähemmän tarkkoja, yritysten käytössä Google Cloudissa; NPU:ita löytyy yleisesti reuna-/mobiililaitteista merkittävästi nopeampaan paikalliseen prosessointiin” techtarget.com.

Yhteenvetona, CPU:t = monipuoliset järjestelijät, GPU:t = rinnakkaiset työjuhdat, TPU:t/NPU:t = neuroverkkojen asiantuntijat. Kaikki voivat tehdä yhteistyötä – itse asiassa nykyaikaisessa tekoälylaitteessa CPU usein koordinoi tehtäviä ja siirtää laskentaintensiiviset osat NPU:lle/GPU:lle tarpeen mukaan techtarget.com. Tämä erikoistumisen trendi on olemassa, koska yksi ratkaisu ei enää sovi kaikille laskennassa: kuten eräs toimittaja totesi, “miljoonien transistorien lisääminen joka tarpeeseen ei ollut tehokasta… suunnittelijat siirtyivät käyttötarkoitukseen rakennettuihin prosessoreihin” techtarget.com. Tarkoitukseen rakennetut NPU:t ja TPU:t nopeuttavat tekoälylaskentaa huomattavasti pitäen virrankulutuksen alhaisena – kriittinen tasapaino sekä akkukäyttöisille laitteille että tiheille palvelimille.

Miksi tekoäly laitteessa? (Reuna vs. pilvi)

Miksi vaivautua ajamaan tekoälyä puhelimellasi tai autossasi ollenkaan – miksei vain lähettää kaikki pilveen, jossa jättimäiset palvelimet (GPU:illa/TPU:illa) voivat tehdä raskaan työn? On useita painavia syitä, jotka ajavat siirtymistä kohti laitteessa tapahtuvaa tekoälyä, ja ne tiivistyvät nopeuteen, yksityisyyteen, kustannuksiin ja luotettavuuteen nimbleedge.com:

  • Välitön vaste (matala viive): Laitteessa oleva NPU voi käsitellä dataa reaaliajassa ilman viivettä, joka syntyy datan lähettämisestä pilvipalvelimelle ja takaisin. Tämä on ratkaisevan tärkeää vuorovaikutteisissa tai turvallisuuskriittisissä tekoälytehtävissä. Esimerkiksi auton autonominen ajamisjärjestelmä, joka käyttää sisäisiä NPU:ita, voi tunnistaa jalankulkijan ja jarruttaa välittömästi, millisekunneissa, sen sijaan että odottaisi pilvilaskentaa. Älykäs kamera, jossa on NPU, voi havaita tunkeilijan heti, kun tämä ilmestyy kuvaan. Puhelimessasi laitteessa toimiva tekoäly tarkoittaa, että ääniohjausavustajasi voi vastata nopeammin ja luonnollisemmin, koska sen ei tarvitse jatkuvasti “soittaa kotiin.” Pienempi viive mahdollistaa aidon reaaliaikaisen päätöksenteon ja sujuvamman käyttökokemuksen nimbleedge.com.
  • Yksityisyys ja tietoturva: Laitteessa toimiva tekoäly pitää tietosi paikallisina. Sen sijaan, että mikrofonin ääni tai kameran kuva lähetettäisiin pilveen analysoitavaksi, käsittely tapahtuu laitteen sisällä. Tämä vähentää merkittävästi arkaluonteisten tietojen altistumista. Esimerkiksi nykyaikaiset älypuhelimet suorittavat kasvojentunnistuksen (Face ID jne.) täysin laitteessa – kasvojesi biometrinen kartta ei koskaan poistu puhelimen suojatusta ympäristöstä. Samoin tekoälyä hyödyntävä kuulokoje tai terveyslaite voi analysoida biometrisiä tietoja lataamatta niitä millekään palvelimelle, mikä säilyttää yksityisyyden. Kasvavien käyttäjien huolien ja tietosuojamääräysten vuoksi tämä on merkittävä etu. Kuten eräs edge AI -blogi totesi, laitteessa tapahtuva käsittely tarkoittaa, että “käyttäjätietoja ei tarvitse lähettää pilveen,” mikä tarjoaa perustason yksityisyyshyödyn nimbleedge.com. (Toki yksityisyys ei ole automaattista – kehittäjien on silti käsiteltävä tallennettuja tietoja huolellisesti – mutta on helpompi luottaa laitteisiin, jotka eivät jatkuvasti lähetä tietojasi ulos.) Teknologiayritysten toimitusjohtajat korostavat usein tätä näkökulmaa. Qualcommin toimitusjohtaja Cristiano Amon totesi, että pilvi- ja laiteälyn yhdistäminen voi parantaa personointia samalla kun tiedot pysyvät turvassa laitteessa – hän kutsuu tätä “hybriditulevaisuudeksi”, jossa laitteessa toimiva tekoäly tekee yhteistyötä pilvitekoälyn kanssa parhaiden tulosten saavuttamiseksi moomoo.com.
  • Offline-saatavuus & luotettavuus: Laitteet, joissa on NPU/TPU, eivät ole riippuvaisia yhteydestä. Ne voivat toimia metrotunnelissa, lentokoneessa, syrjäisillä maaseutualueilla tai verkkokatkosten aikana. Tämä on valtava etu luotettavuuden kannalta. Laitteessa toimiva puheentunnistus toimii edelleen ilman signaalia. Drone, jossa on sisäinen konenäkötekoäly, voi välttää esteitä myös verkon ulkopuolella. Tämä itsenäisyys on myös kriittistä kriittisissä järjestelmissä: esimerkiksi katastrofiapurobotit tai lääkinnälliset laitteet, joiden ei voida olettaa olevan jatkuvasti yhteydessä internetiin. “Offline-toiminnallisuus” on laitteessa toimivan tekoälyn ydinvahvuus nimbleedge.com – se varmistaa, että tekoälyominaisuus on käytettävissä aina ja kaikkialla, missä sitä tarvitaan.
  • Kustannustehokkuus laajassa mittakaavassa: Raakadatien jatkuva lähettäminen pilveen tekoälykäsittelyä varten voi olla hyvin kallista (pilvilaskenta ei ole ilmaista) ja kaistaa kuluttavaa. Kun tekoälyominaisuudet yleistyvät, yritysten pitäisi maksaa valtavia pilvipalvelulaskuja, jos jokainen pieni tehtävä lähetetään palvelimelle. Siirtämällä enemmän käsittelyä reunalle, ne vähentävät pilvipalvelimien kuormitusta ja verkon käyttöä. Usein on tehokkaampaa käyttää muutama ylimääräinen dollari parempaan siruun laitteessa kuin maksaa gigatavuista pilvilaskentaa laitteen elinkaaren aikana. Futurum-analyysissä todettiin, että laitteessa tapahtuva käsittely auttaa ratkaisemaan generatiivisen tekoälyn skaalaus- ja kustannushaasteita – se “hajauttaa” kuormaa, jolloin datakeskukset eivät ylikuormitu (eikä käyttäjien/kehittäjien tarvitse maksaa pilvi-GPU-ajasta itseään kipeäksi) futurumgroup.com.
  • Personointi & konteksti: Uusi syy: laitekohtainen tekoäly voi oppia ja mukautua paikalliseen kontekstiin tavalla, johon pilvipohjainen tekoäly ei välttämättä pysty. Älypuhelimesi voi ylläpitää pientä paikallista mallia, joka oppii kirjoitustyylisi ja parantaa automaattista korjausta jakamatta tätä henkilökohtaista kielimallia pilveen. Laitteet voivat yhdistää tietoa useista sensoreista reaaliajassa (joka on helpompaa tehdä paikallisesti kuin lähettää useita sensorivirtoja pilveen). Tämä mahdollistaa henkilökohtaisemman ja kontekstia ymmärtävän käyttökokemuksen. Jotkin ominaisuudet, kuten federated learning, mahdollistavat jopa laitteiden yhteistoiminnallisen tekoälymallien parantamisen ilman raakadatasta luopumista (lähettämällä vain pieniä painopäivityksiä takaisin).
  • Sääntely ja datan suvereniteetti: Lait, kuten Euroopan GDPR ja erilaiset datan lokalisaatiovaatimukset, edellyttävät yhä useammin, että tiettyjä tietoja (erityisesti henkilökohtaisia tai arkaluonteisia tietoja) ei saa lähettää ulkomaille tai kolmansille osapuolille ilman suostumusta. Laitekohtainen tekoäly tarjoaa tavan noudattaa näitä vaatimuksia käsittelemällä tiedot lähteessä. Esimerkiksi lääketieteelliset kuvantamisen tekoälytyökalut voivat toimia sairaalan laitteistolla (edge-palvelimet NPU:illa), jolloin potilastiedot eivät koskaan poistu tiloista ja yksityisyydensuoja säilyy. NimbleEdgen vuoden 2025 raportti korostaa hallitusten painostavan yhä enemmän paikalliseen inferenssiin suvereniteetti- ja sääntelysyistä nimbleedge.com.

Kaikki nämä tekijät ajavat paradigman muutosta: sen sijaan, että tekoäly suunniteltaisiin “cloud-first”-periaatteella, yritykset suunnittelevat nyt tekoälyominaisuudet “device-first” aina kun mahdollista. Kuten Qualcommin tekoälyjohtaja Durga Malladi tiivisti: “Jotta generatiivinen tekoäly voidaan tuoda tehokkaasti valtavirtaan, tekoälyn on toimittava sekä pilvessä että laitteissa reunalla… kuten älypuhelimissa, kannettavissa tietokoneissa, ajoneuvoissa ja IoT-laitteissa” iconnect007.com. Olemme siirtymässä hybriditekoälyn maailmaan, jossa raskas koulutus ja suuret mallit voivat sijaita pilvessä, mutta monet inferenssitehtävät ja henkilökohtaiset tekoälykokemukset toimivat paikallisesti käsissäsi ja kodeissasi olevilla NPU-/TPU-piireillä. Itse asiassa Amon kutsuu tätä “tekoälyn käännekohdaksi” – laitekohtainen inferenssi ilman viivettä, jossa “tekoälyn tulevaisuus on henkilökohtainen”, koska se toimii juuri siellä missä sinä olet x.com.

Laitekohtainen tekoäly käytännössä: älypuhelimista itseajaviin autoihin

Erikoistuneet tekoälypiirit ovat jo upotettu laajaan valikoimaan ympärilläsi olevia laitteita, usein näkymättömästi tehden niistä älykkäämpiä. Tässä joitakin keskeisiä alueita, joilla NPU:t ja edge-TPU:t ovat käytössä:

  • Älypuhelimet & tabletit: Lähes kaikissa nykyaikaisissa lippulaivapuhelimissa (ja monissa keskitason laitteissakin) on nykyään NPU tai erillinen tekoälymoottori. Apple aloitti trendin vuonna 2017 Apple Neural Engine -piirillä iPhonen A11-sirussa, mahdollistaen laitteella tapahtuvan Face ID:n ja Animojin jopa 600 miljardin operaation sekuntinopeudella apple.fandom.com. Nykyään Applen A17 Pro -siru (2023) sisältää 16-ytimisen Neural Enginen, joka kykenee 35 biljoonaan operaatioon sekunnissa apple.fandom.com. Tämä mahdollistaa ominaisuudet kuten kehittynyt kameran kohtauksen tunnistus, valokuvatyylit, Sirin äänikomennot ilman verkkoyhteyttä, automaattinen korjaus, live-transkriptio sekä jopa transformer-mallien ajaminen käännöksiä varten laitteella. Googlen Pixel-puhelimissa on myös omaa piiriä (“Google Tensor” SoC), joissa on NPU:t: uusin Tensor G3 Pixel 8:ssa on “räätälöity Googlen tekoälymalleille”, ja siinä on päivitetty kaikki sirun osat (CPU, GPU, ISP) mahdollistamaan laitteella toimiva generatiivinen tekoäly blog.google. Pixel 8 pystyy ajamaan Googlen huippuluokan tekstistä puheeksi- ja käännösmalleja paikallisesti, samoja, jotka aiemmin olivat vain datakeskuksissa blog.google. Se tekee myös monimutkaisia kameratemppuja, kuten “Best Take” -ryhmäkuvayhdistelmän ja Audio Magic Eraser -toiminnon käyttäen tekoälymalleja laitteella blog.google. Samsung ja muut Android-valmistajat käyttävät Qualcommin Snapdragon-piirejä, joiden uusimmat NPU:t (Hexagon AI engine) voivat jopa ajaa suuria kielimalleja puhelimessa – Qualcomm on demonstroinut 10 miljardin parametrin LLM:n ja jopa Stable Diffusion -kuvageneroinnin ajamista puhelimella, jossa on Snapdragon 8 Gen 3 futurumgroup.com. Tämän sirun tekoälymoottori on 98 % nopeampi kuin edellinen sukupolvi ja tukee INT4-tarkkuutta tehokkuuden parantamiseksi futurumgroup.com. Käytännön seuraus: vuoden 2024 puhelimesi voi tehdä asioita kuten artikkeleiden tiivistäminen, kysymyksiin vastaaminen tai valokuvien muokkaus tekoälyllä ilman pilvipalvelua. Myös esteettömyys-ominaisuudet hyötyvät: esim. Pixel-puhelimissa on nyt laitteella toimiva puhekirjoitus, live-tekstitykset ja tulossa oleva ominaisuus, joka kuvailee kuvia näkövammaisille käyttäjille paikallisen mallin avulla.
  • Älykkäät kamerat ja turvajärjestelmät: Tekoälyllä varustetut kamerat käyttävät sisäänrakennettuja NPU-piirejä havaitakseen ihmisiä, kasvoja, eläimiä tai epäilyttävää käyttäytymistä välittömästi. Esimerkiksi EnGeniuksen uusimmissa turvakameroissa on sisäänrakennettu NPU, joka hoitaa kohteiden tunnistuksen ja muuntaa videon metatiedoksi suoraan kamerassa, jolloin erillistä tallenninta ei tarvita ja turvallisuus paranee (koska videota voidaan analysoida ja tallentaa paikallisesti) engeniustech.com. Tämä tarkoittaa, että turvakamerasi voi päättää ”henkilö paikalla” tai ”paketti toimitettu” ja lähettää vain kyseisen hälytyksen sen sijaan, että se lähettäisi tuntikausia videokuvaa pilvipalveluun. Vastaavasti kuluttajalaitteissa, kuten Google Nest Cam IQ:ssa, oli laitekohtainen kuvantunnistuspiiri (Google Edge TPU), joka tunnisti tutut kasvot ja erotti ihmiset lemmikeistä näkökentässään. Myös järjestelmä- ja peilittömiin kameroihin lisätään tekoälyprosessoreita esimerkiksi kohteiden seurantaan, silmätarkennukseen ja kohtausten optimointiin reaaliajassa. Dronessa sisäiset tekoälypiirit auttavat esteiden välttämisessä ja visuaalisessa navigoinnissa ilman kauko-ohjausta. Erityisesti Google’n Edge TPU (pieni ASIC-moduuli) on tullut suosituksi lisäosaksi tee-se-itse- ja teollisuus-IoT-kameroihin – se tarjoaa 4 TOPS:n kuvantunnistusvoiman esimerkiksi ihmisten tunnistamiseen tai rekisterikilpien lukemiseen, käyttäen vain noin 2 wattia coral.ai.
  • Älykoti- ja IoT-laitteet: Puhelimien lisäksi monissa älykotilaitteissa on pienet NPU-piirit. Puheohjattuihin kaiuttimiin (Amazon Echo, Google Nest Hub jne.) sisältyy nykyään usein paikallisia puheentunnistuspiirejä. Amazon kehitti AZ1 Neural Edge -prosessorin Echo-laitteille nopeuttamaan Alexan herätyssanan tunnistusta ja vastauksia laitteessa, mikä puolitti viiveen embedl.com. AZ1 (rakennettu yhdessä MediaTekin kanssa) ajaa neuroverkkoa, joka tunnistaa ”Alexa”-herätyssanan ja käsittelee yksinkertaiset komennot ilman pilvipalvelua embedl.com. Tämä ei ainoastaan tee Alexasta nopeamman tuntuisen, vaan myös pitää enemmän äänidataa yksityisenä. Samoin monet uudet televisiot, kodinkoneet ja jopa lelut sisältävät jonkinlaista tekoälyä reunalla – esimerkiksi älyjääkaapin kamera voi tunnistaa elintarvikkeet ja viimeiset käyttöpäivät paikallisesti. Puettavat laitteet ansaitsevat myös maininnan: Apple Watchin S9-siru toi mukanaan 4-ytimisen Neural Enginen, joka käsittelee paremmin terveysalgoritmeja ja Siri-pyyntöjä kellossa apple.fandom.com. Teollisuuden puolella IoT-anturit, joissa on NPU-piiri, voivat suorittaa poikkeavuuksien tunnistusta laitedatasta suoraan reunalla, jolloin vain olennaiset tapahtumat välitetään eteenpäin (säästää kaistanleveyttä ja reagoi nopeammin ongelmiin).
  • Autot (ADAS ja autonomisuus): Autoista on tullut pyörillä kulkevia tekoälykeskuksia. Kehittyneet kuljettajaa avustavat järjestelmät (ADAS) ja itseajavat ominaisuudet perustuvat joukkoon ajoneuvon sisäisiä tekoälykiihdyttimiä, jotka tulkitsevat kamerakuvia, LiDARia, tutkaa ja tekevät ajopäätöksiä sekunnin murto-osassa. Tesla suunnitteli tunnetusti oman FSD (Full Self-Driving) Computer -tietokoneensa, jossa on kaksi NPU-sirua. Teslan FSD-siru (HW3, esitelty 2019) tarjosi 144 TOPS (kaksi NPU:ta, 72 TOPS kumpikin); uudempi HW4 (2023) nostaa tämän noin 200–250 TOPS kokonaistehoon (kaksi 7 nm NPU:ta, yli 100 TOPS kumpikin) ts2.tech. Tämä mahdollistaa auton käsitellä täyden resoluution videota kahdeksasta kamerasta, sonarista jne. samanaikaisesti neuroverkkojen kautta havainnointia varten ja jopa ajaa joitakin kielimalleja äänikomennoille – kaikki paikallisesti auton moduulissa. Kisaavat alustat kuten NVIDIA Drive ja Qualcomm Snapdragon Ride sisältävät myös NPU:ita. NVIDIA:n uusin autojen supertietokonesiru, Drive Thor, joka on tulossa vuoden 2025 autoihin, tarjoaa jopa 1 000 TOPS yhdellä sirulla (ja 2 000 TOPS kahdella sirulla) tukeakseen tason 4 autonomisuutta ts2.tech. Se yhdistää GPU:n, CPU:n ja omistetut syväoppimisen kiihdyttimet, joten se pystyy käsittelemään kaikkea liikennemerkkien tunnistuksesta kuljettajan seurantaan samalla sirulla ts2.tech. Nämä NPU:t ovat kirjaimellisesti elintärkeitä: autonominen auto ei voi odottaa pilvipalvelimia, jos lapsi juoksee tielle. Ajoneuvon sisäisen tekoälyn on nähtävä ja reagoitava kymmenissä millisekunneissa. Henkilöautojen ulkopuolella reunalaskentaa hyödyntävää tekoälyä käytetään laajasti myös autonomisissa drooneissa, jakeluroboteissa ja teollisuusajoneuvoissa, jotka navigoivat ja tekevät päätöksiä omilla NPU/TPU-piireillään (esimerkiksi Nuron jakelurobotit ja monet itseajavat kuorma-autojärjestelmät käyttävät NVIDIA:n tai Huawein tekoälysiruja laitteessa).
  • Reunatietokoneet ja teollisuus: Tehtaissa ja yritysympäristöissä laitekohtainen tekoäly toteutetaan usein reunapalvelimien tai yhdyskäytävien muodossa, joissa on tekoälykiihdyttimiä. Sen sijaan, että kamerakuvia tai anturidataa lähetettäisiin keskitettyyn pilveen, yritykset asentavat paikan päälle reunabokseja (joskus GPU-pohjaisia, joskus NPU/FPGA-pohjaisia). Nämä hoitavat tehtäviä, kuten reaaliaikainen videoanalytiikka laadunvalvontaan tuotantolinjalla, havaitsevat viat tekoälynäöllä mikrosekunneissa. Terveydenhuollon laitteet ovat toinen esimerkki: kannettava ultraääni- tai magneettikuvauslaite voi sisältää NPU:n, joka tekee tekoälypohjaista kuvantunnistusta laitteessa, jolloin lääkärit saavat välittömän diagnoosiavun ilman internet-yhteyttä (mikä on myös parempi potilastietojen yksityisyydelle). Vähittäiskauppa ja kaupungit hyödyntävät myös tekoälyä reunalla – esimerkiksi älykkäät liikennekamerat, joissa on NPU:t ruuhkien analysointiin ja valojen säätämiseen, tai kaupan hyllykameroita, jotka seuraavat varastotilannetta. Monet näistä käyttävät erikoistuneita NPU-piirejä, kuten Intelin Movidius Myriad -sirua, Googlen Edge TPU:ta tai uusia tulokkaita, kuten Hailo-8 (israelilainen NPU, joka tuottaa 26 TOPS muutamalla watilla kameroille). Yhteistä näille kiihdyttimille on, että analyysi tapahtuu paikallisesti, jolloin saavutetaan reaaliaikaiset tulokset ja vain korkean tason havainnot (ei raakadata) siirtyvät verkkojen yli.

NPU/TPU-piirien monipuolisuus eri laitteissa on vaikuttavaa. Yhdessä hetkessä ne mahdollistavat puhelimesi taustan sumentamisen valokuvassa tekoälyllä, ja seuraavassa ohjaavat dronea tai analysoivat lääketieteellisiä kuvia. Älypuhelinten kamerat käyttävät nyt NPU:ita ominaisuuksiin kuten Night Mode (useiden kuvien älykäs yhdistäminen), muotokuva-tilan bokeh, kohtauksen tunnistus (puhelin tunnistaa “auringonlaskun” ja optimoi värit tekoälyllä) ja jopa hauskoihin AR-efekteihin (Animoji, joka kartoittaa kasvosi, tai Snapchat-filtterit, jotka seuraavat liikkeitäsi – kaikki laitekohtaisen neuroverkon ansiota). Biometria hyödyntää NPU:ita: sormenjälkilukijat, joissa on tekoälyyn perustuva elossaolon tunnistus, kasvojentunnistus syvyysantureilla ja tekoälyllä. Ääni käyttää niitä myös: melunvaimennus kuulokkeissa ja puhelimissa on nyt usein tekoälypohjaista, NPU erottaa puheen taustamelusta reaaliajassa.

Konkreettinen esimerkki vuoden 2024 innovaatiosta: Oppo (älypuhelinvalmistaja) ilmoitti yhteistyössä MediaTekin kanssa toteuttaneensa Mixture-of-Experts (MoE) -tekoälymallin suoraan laitteessa vuoden 2024 lopulla – tiettävästi ensimmäisenä puhelimessa grandviewresearch.com. Tämä edistynyt neuroverkkorakenne (MoE) voi parantaa suorituskykyä aktivoimalla vain tehtävään liittyvät “asiantuntija”-aliverkot, ja kun tämä tehdään laitteessa, Oppo-puhelimet voivat saavuttaa nopeamman tekoälykäsittelyn ja paremman energiatehokkuuden monimutkaisissa tehtävissä ilman pilviapua grandviewresearch.com. Tämä korostaa, kuinka huipputason tekoälytutkimus siirtyy nopeasti kädessä pidettäviin laitteisiimme parantuneiden NPU:iden ansiosta.

Vuoden 2025 tekoälypiirit: tuoreimmat kehitykset Applelta, Googlelta, Qualcommilta ja muilta

Kilpailu parempien laitekohtaisten tekoälypiirien kehittämisestä on kiihtynyt nopeasti. Tässä katsaus siihen, mitä suuret yritykset ovat tuoneet markkinoille viime aikoina (2024–2025) NPU/TPU- ja tekoälypiirien saralla:

  • Apple: Applen oma sirustrategia on pitkään painottanut laitteessa tapahtuvaa koneoppimista. Joka vuosi Applen Neural Engine on kasvanut teholtaan. Vuoden 2023 iPhone 15 Prossa A17 Pro -sirun Neural Engine saavutti 35 TOPS (biljoonaa operaatiota sekunnissa) 16 ytimellään apple.fandom.com. Tämä oli kaksinkertainen raaka läpimeno A16:n NPU:hun verrattuna, ja Apple hyödynsi tätä mahdollistamaan esimerkiksi laitteessa tapahtuvan puheentunnistuksen Sirille (vihdoin monet Siri-pyynnöt käsitellään ilman internetiä) sekä uusia kameratoimintoja (kuten automaattisesti tallennettu muotokuva-tila ja tekstin reaaliaikainen kääntäminen kameran kautta). Applen vuoden 2024 sirut jatkoivat kehitystä: M3-sarja Mac-tietokoneille (loppuvuosi 2023) sai päivitetyn Neural Enginen (mielenkiintoisesti viritetty 18 TOPS:iin M3-perussirussa, painottaen enemmän energiatehokkuutta) apple.fandom.com. Vuonna 2024 Apple esitteli M4-sirun (huippuluokan iPadeihin/Maceihin, keski-2024), jonka Neural Enginen kerrotaan yltävän 38 TOPS hienosäädetyllä 3 nm prosessilla apple.fandom.com. Pelkkien lukujen lisäksi Apple on käyttänyt tätä NPU:ta: ominaisuudet kuten Personal Voice (joka luo käyttäjän äänestä kloonin 15 minuutin harjoittelun jälkeen) toimivat yksityisesti Neural Enginessä iPhoneissa, ja Live Voicemail -transkriptiot tapahtuvat paikallisesti. Apple on myös integroinut NPU:t kaikkiin laiteluokkiinsa – jopa AirPods Prossa on pieni neuroprosessori Adaptive Audiota varten. Applen johtajat korostavat usein yksityisyyttä: ”koneoppiminen laitteessasi” tarkoittaa, että tietosi pysyvät sinulla. Vuoteen 2025 mennessä odotetaan, että Applen Neural Engine laajenee entisestään tai tulee kolmansien osapuolten sovellusten saataville uusilla tavoilla (Core ML mahdollistaa jo nyt kehittäjien käytön, mutta Apple voisi avata lisää neural API -pääsyä). On myös huhuja, että Apple suunnittelee itsenäistä AI-kiihdytintä tuleviin laseihin tai autoihin, mutta nykyiset tuotteet osoittavat, että yhtiö suosii integroitua NPU:ta A- ja M-sarjan SoC-piireissä.
  • Google: Google ei ainoastaan ollut pilvi-TPU:n edelläkävijä, vaan panosti myös vahvasti laitteessa toimivaan tekoälyyn Pixel-puhelimissa ja kuluttajalaitteissa. Google Tensor -järjestelmäpiiri (esiteltiin ensimmäisen kerran vuonna 2021 Pixel 6:ssa) oli ainutlaatuinen siinä, että Google, joka tunnetaan pilvipalveluistaan, teki puhelinsirun, jolla tekoäly pyörii itse laitteessa. Tensor G3:n (vuoden 2023 Pixel 8:ssa) myötä Google korosti päivityksiä, jotka mahdollistavat generatiivisen tekoälyn laitteessa. Google sanoi suoraan, että Pixel 8:n siru tuo “Googlen tekoälytutkimuksen suoraan uusimpiin puhelimiimme” blog.google. Tensor G3:n uuden sukupolven TPU (Google kutsuu tekoälyydintä edelleen sisäisesti “TPU”:ksi) mahdollistaa Pixelin ajavan kehittyneitä malleja, kuten Palm 2 tai Gemini Nano (Googlen suurten kielimallien kevennetyt versiot) laitteessa ominaisuuksia varten, kuten verkkosivujen tiivistäminen tai puhekirjoituksen parantaminen reddit.com. Yksi tärkeimmistä ominaisuuksista: Pixel 8 pystyy ajamaan Googlen parasta tekstistä puheeksi -mallia (samaa, jota käytetään datakeskuksessa) paikallisesti, mikä mahdollistaa puhelimen lukea verkkosivuja ääneen luonnollisilla äänillä ja jopa kääntää ne reaaliajassa, kaikki offline-tilassa blog.google. Google käyttää Pixelin TPU:ta myös valokuvaukseen (“HDR+” monirunkoinen kuvankäsittely, Magic Eraser -objektinpoisto tekoälyllä blog.google), turvallisuuteen (laitteessa toimiva kasvojentunnistus, jonka tekoäly on nyt tarpeeksi vahva maksamiseen blog.google) ja puheeseen (Assistant, jota ei haittaa jos sanot “öö”). Puhelimien lisäksi Google tarjoaa Coral Dev Board -kehitysalustan ja USB-tikun harrastajille ja yrityksille Edge TPU:n lisäämiseksi projekteihinsa, joissa jokaisessa on Googlen Edge TPU, joka tarjoaa 4 TOPS:n suorituskyvyn konenäkötehtäviin erittäin pienellä virrankulutuksella coral.ai. Sitä käytetään myös joissakin Googlen omissa tuotteissa, kuten Nest Hub Maxissa eleentunnistukseen. Googlelle TPU:iden integrointi reunalaitteisiin on osa laajempaa strategiaa: Sundar Pichai (Googlen toimitusjohtaja) on sanonut, että tekoälyn tulevaisuus on jokaisen kokemuksen parantamisessa, ja on selvää, että Google näkee, että “jotta tekoälyn mullistava voima saadaan osaksi arkea, sitä täytyy käyttää laitteesta, jota käytät joka päivä” blog.google – siksi Tensor-sirut. Voimme odottaa Tensor G4 -sirua vuoden 2024 lopun Pixel-puhelimissa, mahdollisesti Samsungin tai TSMC:n uudempaan prosessiin perustuen, mikä parantaisi tekoälyn suorituskykyä ja energiatehokkuutta entisestään, ehkä jopa mahdollistaisi laitteessa toimivan multimodaalisen tekoälyn (yhdistäen näkö- ja kielimallit).
  • Qualcomm: Johtava Android-puhelinten mobiilipiirien toimittaja on aggressiivisesti tuonut esiin AI Engine -tekoälymoottoriaan Snapdragon-sarjassa. Snapdragon 8 Gen 2 (loppuvuosi 2022) esitteli omistetun INT4-tuen ja demonstroi reaaliaikaista stable diffusion -kuvagenerointia puhelimella. Snapdragon 8 Gen 3 (julkistettu loppuvuonna 2023, vuoden 2024 lippulaivapuhelimissa) on merkittävä harppaus: Qualcommin mukaan sen Hexagon NPU on 98 % nopeampi kuin Gen 2:n ja 40 % energiatehokkaampi futurumgroup.com. Tämä piiri pystyy ajamaan suuria kielimalleja, joissa on jopa 10 miljardia parametria, täysin laitteessa, käsitellen noin 20 tokenia sekunnissa – riittävästi yksinkertaisiin keskusteluihin tekoälyavustajan kanssa ilman pilveä futurumgroup.com. Se saavutti myös “maailman nopeimman Stable Diffusion” -kuvageneroinnin mobiililaitteella demoissa futurumgroup.com. Qualcomm on korostanut, että laitekohtainen generatiivinen tekoäly on uusiin puhelimiin keskeinen myyntivaltti. Esimerkiksi he tekivät yhteistyötä Metan kanssa optimoidakseen avoimen lähdekoodin Llama 2 LLM:n Snapdragonille, tavoitteena mahdollistaa chatbot-tekoälyn ajaminen puhelimella vuoteen 2024 mennessä iconnect007.com. (Eräs Qualcommin johtaja sanoi: “arvostamme Metan avointa lähestymistapaa… jotta generatiivinen tekoäly voi laajentua, sen on toimittava sekä pilvessä että reunalla”, vahvistaen edge AI -filosofiaa iconnect007.com.) Puhelinten lisäksi Qualcomm tuo NPU-yksiköitä kannettavien tietokoneiden piireihin (Snapdragon compute -alustat Windows on ARM:lle) – ja heidän autoalustansa Snapdragon Ride käyttää samoja tekoälyytimiä tarjotakseen jopa 30 TOPS ADAS-järjestelmille, ja tiekartta ulottuu satoihin TOPS:iin. Vuonna 2025 Qualcomm julkisti jopa uuden Snapdragon X Elite -prosessorin PC:ille, jossa on tehokas NPU, mikä viestii tavoitteesta haastaa Apple ja Intel tekoälysuorituskyvyssä henkilökohtaisissa tietokoneissa. Laitteessa toimivan tekoälyn yleistyessä Qualcomm brändääkin joitakin puhelimia “AI-puhelimiksi”. He arvioivat, että monet sovellukset (valokuvauksesta viestintään ja tuottavuuteen) hyödyntävät NPU:ta. Ohjelmistopuolella Qualcomm julkaisi Qualcomm AI Stack -kokonaisuuden yhtenäistääkseen tuen suosituimmille kehitysalustoille (TensorFlow Lite, PyTorch, ONNX) heidän NPU-yksiköillään iconnect007.com – pyrkien helpottamaan kehittäjien mahdollisuuksia hyödyntää tekoälylaitteistoa ilman syvällistä piiriosaamista.
  • MediaTek: Mobiilisirujen valmistajien kakkonen (tunnetaan Dimensity-sarjasta) on myös päivittänyt NPU-yksikkönsä. MediaTek kutsuu tekoälymoottoreitaan nimellä “APU” (AI Processing Unit). Esimerkiksi Dimensity 9200+ (2023) sisältää kuudennen sukupolven APU:n, joka tarjoaa merkittävän suorituskykyparannuksen edelliseen siruun verrattuna, mahdollistaen ominaisuudet kuten laitteessa tapahtuvan stable diffusionin ja videon tekoälypohjaisen kohinanvaimennuksen. Vuonna 2024 MediaTek julkisti Dimensity 9400 -sirun, ja yhteistyössä Oppon kanssa he hyödynsivät sen kehittynyttä NPU-arkkitehtuuria esitelläkseen uusia tekoälyominaisuuksia (kuten mainittu, Oppo Find X8:n tekoälyllä toimiva valokuvien uudelleenmuokkaus heijastusten poistolla ja epäterävyyden poistolla perustuu MediaTekin NPU:hun) mediatek.com. MediaTekin johtajat ovat selvästi asemoineet itsensä laitteessa tapahtuvan tekoälyn kärkeen. Kuten MediaTekin Will Chen totesi, “tekoälyn tulevaisuus ylittää pilven; sitä ohjaa reunalaskenta suoraan käden ulottuvilta.” Heidän näkemyksensä mukaan tekoälyn puhelimissa täytyy olla nopea, yksityinen, turvallinen ja aina saatavilla mediatek.com. MediaTek on jopa muodostanut “APU-keskeisen” yhteistyön Metan kanssa tukeakseen Llama-kehyksiä sekä laitevalmistajien kuten Oppo ja Xiaomi kanssa keskittyen tekoälykamera- ja tekoälypuheominaisuuksiin. Vuoteen 2025 mennessä MediaTek aikoo tuoda nämä NPU:t käyttöön paitsi puhelimissa, myös älytelevisioissa (tekoälyskaalaus ja kuvanparannus), IoT-laitteissa ja jopa autoissa (MediaTekillä on autojen tekoälyalusta ja se on tehnyt yhteistyötä Nvidian kanssa integroidakseen Nvidian GPU IP:tä autoihin, samalla kun se todennäköisesti tarjoaa oman NPU:nsa sensoritekoälyyn).
  • Intel: Vuosi 2024 merkitsi Intelin tuloa tekoälykiihdyttimien markkinoille tavallisissa PC-tietokoneissa. Intelin 14. sukupolven Core (Meteor Lake, julkaistu joulukuussa 2023 ja uudelleenbrändätty Core Ultra -nimellä vuonna 2024) on ensimmäinen x86 PC -prosessori, jossa on sisäänrakennettu neuroprosessointiyksikkö (NPU). Meteor Laken NPU (jota kutsutaan joskus nimellä VPU – Vision Processing Unit – perustuu Intelin Movidius-teknologiaan) tarjoaa noin 8–12 TOPS tekoälysuorituskykyä pcworld.com. Tätä käytetään Windows 11:n tekoälyominaisuuksien, kuten taustan sumennuksen ja katsekontaktin videopuheluissa, nopeuttamiseen, ja sovellukset voivat hyödyntää sitä esimerkiksi paikalliseen transkriptioon, melunvaimennukseen tai jopa pieniin tekoälyavustajiin. Microsoft ja Intel ovat yhdessä edistäneet ”AI PC” -konseptia. Intel väittää, että näitä NPU-yksiköitä toimitetaan kymmeniä miljoonia kannettaviin tietokoneisiin vuonna 2024 pcworld.com. Meteor Laken jälkeen Intelin tiekartalla mainitaan Arrow Lake (pöytäkoneisiin vuonna 2024), jossa on myös NPU (noin 13 TOPS, hieman parannettu) pcworld.com. Mielenkiintoista on, että Intelin ensimmäinen yritys pöytäkoneen NPU:ssa jäi itse asiassa AMD:n varjoon (katso alla), ja Intel päätti käyttää maltillista NPU-suunnittelua välttääkseen GPU/CPU-alueen uhraamisen harrastelijatason siruissa pcworld.com. Mutta vuoden 2024 lopulla Intel ilmoitti, että tulevissa Lunar Lake -siruissa on huomattavasti tehokkaampi NPU (~45 TOPS) Microsoftin ”Copilot”-vaatimusten täyttämiseksi pcworld.com. Kaikki tämä osoittaa, että Intel pitää tekoälyä välttämättömänä PC-tietokoneille tulevaisuudessa – ei suurten mallien kouluttamiseen, vaan arkipäiväisten tekoälyllä tehostettujen kokemusten nopeuttamiseen (toimisto-ohjelmistojen parannuksista luoviin työkaluihin, jotka hyödyntävät paikallista tekoälyä). Intel myy myös edge-tekoälykiihdyttimiä, kuten Intel Movidius Myriad -sirut (käytössä joissakin droneissa ja kameroissa) sekä Habana -kiihdyttimet palvelimille, mutta Meteor Laken integroitu NPU on merkkipaalu, joka tuo tekoälyn tavallisen kuluttajan laitteisiin.
  • AMD: AMD hyppäsi mukaan laitteistopohjaiseen tekoälyyn suunnilleen samaan aikaan. Sen Ryzen 7040 -sarjan kannettavien prosessorit (Phoenix), jotka julkaistiin vuonna 2023, sisälsivät ensimmäisen Ryzen AI Engine -ratkaisun – käytännössä integroidun XDNA NPU:n (teknologiaa AMD:n Xilinx-yrityskaupasta). Tämä NPU tarjosi jopa 10 TOPS mobiilipiirillä en.wikipedia.org. AMD mainosti käyttökohteita, kuten tekoälyllä parannettuja videopuheluita, tuottavuussovelluksia ja niin edelleen, samankaltaisesti kuin Intel. Tämän jälkeen AMD julkaisi lyhyesti Ryzen 8000 -pöytäkonesarjan (alkuvuodesta 2024), jonka NPU ylsi 39 TOPS – erittäin korkea luku yleiskäyttöisen suorittimen tekoäly-yksikölle, jopa ohittaen Intelin suunnitelmat pcworld.com. Kuitenkin AMD muutti nopeasti suuntaa ja ohitti yhden sukupolven, keskittyen seuraavaan arkkitehtuuriinsa (myöhemmin vuonna 2024 julkaistu Ryzen 9000 jätti NPU:n pois ja priorisoi ydinten päivitykset) pcworld.com. Siitä huolimatta AMD:n odotetaan tuovan NPU:t takaisin tuleviin PC-piireihin (todennäköisesti kyseessä on vain väliaikainen vetäytyminen, kun he työstävät vahvan tekoälymoottorin integrointia ilman muiden suorituskykyalueiden heikentämistä). Tuotepuolella AMD:n NPU:t voivat mahdollistaa mielenkiintoisia asioita, sillä AMD:llä on myös vahvat GPU:t – yhdistelmä voisi käsitellä tekoälytehtäviä yhteistyössä (osa NPU:lla, osa GPU:lla). AMD on myös lisännyt tekoälyytimiä adaptiivisiin (FPGA-pohjaisiin) SoC-piireihinsä ja autoteollisuuden siruihin. Yhteenvetona: vuoteen 2025 mennessä kaikki x86-PC-piirivalmistajat ovat ottaneet NPU:t käyttöön, mikä on linjassa sen kanssa, mitä älypuhelimet tekivät muutama vuosi aiemmin, ja osoittaa, että tekoälykiihdytys on nousemassa vakiotoiminnoksi kaikilla osa-alueilla.
  • Muut: Myös useat erikoistuneet siruyritykset ja muut teknologiayritykset innovoivat NPU-alueella. NVIDIA, joka tunnetaan näytönohjaimistaan, sisältää nyt omistetut Tensor Cores -ytimet näytönohjaimissaan ja tarjoaa avoimen NVDLA (deep learning accelerator) -suunnittelun integroitavaksi järjestelmäpiirituotteisiin. Edge-laitteissa, kuten NVIDIA Jetson -sarjassa (käytetään roboteissa, drooneissa, sulautetuissa järjestelmissä), on sekä näytönohjain että kiinteätoimiset “DLA:t” – käytännössä NPU:ita – jotka siirtävät osan neuroverkkojen päättelystä pois näytönohjaimelta. Esimerkiksi NVIDIAn Orin-moduulissa on 2 DLA:ta näytönohjaimen lisäksi, mikä mahdollistaa 254 TOPS:n tekoälysuorituskyvyn autoihin ts2.tech. Applen huhutaan kehittävän entistä kehittyneempiä tekoäly-yhteisprosessoreita tai suurempia neurokoneita AR-laseihinsa tai tuleviin projekteihin, mutta yksityiskohdat ovat salaisia. Huawei (geopoliittisista haasteista huolimatta) jatkaa Kirin-mobiilipiirien suunnittelua NPU:illa (heidän “DaVinci” NPU-arkkitehtuurinsa) sekä palvelintason NPU:ita Ascend AI -piireissään – heidän vuoden 2023 Kirin 9000S -piirinsä sisältää tiettävästi vahvan NPU:n kuvien ja kielitehtävien käsittelyyn puhelimissa. Näemme myös startup-yrityksiä kuten Hailo, Mythic, Graphcore ja muita tarjoamassa omia edge AI -piirejään: esim. Hailo-8 kuten mainittu (26 TOPS mini PCIe -kortissa AI-kameroille), Graphcoren IPU datakeskuksiin (ei varsinaisesti laitekohtainen, mutta uusi arkkitehtuuri neuroverkoille), Mythic kehittää analogisia NPU:ita jne. ARM, jonka suunnitelmat ovat useimpien mobiilipiirien taustalla, tarjoaa Ethos NPU -sarjan (kuten Ethos-U, Ethos-N78), jonka piirivalmistajat voivat integroida saadakseen valmiin tekoälykiihdyttimen IoT- tai keskitason järjestelmäpiireihin. Tämä on mahdollistanut jopa suhteellisen pienille toimijoille NPU:iden sisällyttämisen piireihinsä lisensoimalla ARMin suunnittelun.

Yhteenvetona: suurista teknologiayrityksistä startup-yrityksiin, kaikki investoivat laitekohtaiseen tekoälypiiriin. Tämän seurauksena näemme nopeaa kehitystä: uudet sirut tarjoavat korkeampia TOPS-lukuja, parempaa energiatehokkuutta (TOPS per watti) ja tukea uusille tietotyypeille (kuten 4-bittinen kvantisointi suurempia malleja varten). Esimerkiksi Qualcommin ja MediaTekin uusimmat sirut tukevat INT4-tarkkuutta, mikä on erinomaista generatiivisille tekoälymalleille, joissa muistikaista on rajoittava tekijä androidauthority.com. Nämä innovaatiot näkyvät suoraan käyttäjille – esim. reaaliaikainen mobiili tekoälyvideon editointi (esineiden poistaminen 4K-videosta lennossa, kuten Snapdragon 8 Gen 3 pystyy “Video Object Eraser” -tekoälytoiminnollaan futurumgroup.com), tai tekoäly-yhteisprosessoreilla varustetut autot, joissa ääniohjaus toimii ilman verkkoa ja vastaa yhtä nopeasti kuin ihminen.

Vuoden 2024–2025 tärkeimmät uutiset: Julkaisut, vertailut ja kumppanuudet

Havainnollistaaksemme kehityksen nopeutta, tässä on joitakin pääotsikoita NPU/TPU- ja laitekohtaisen tekoälyn maailmasta loppuvuodesta 2024 vuoteen 2025:

  • Apple M3- ja M4-julkistukset (lokakuu 2023 & toukokuu 2024): Toivat seuraavan sukupolven Neural Enginet. M3:n Neural Engine yltää 18 TOPS:iin (16-ytiminen), ja M4 nousi 38 TOPS:iin (yhä 16-ytiminen, mutta korkeampi kellotaajuus/tehokkuus) apple.fandom.com. Apple esitteli näiden sirujen kykyä hoitaa vaativia tehtäviä, kuten laitteella tapahtuvaa stable diffusion -kuvagenerointia macOS:ssä (Core ML Stable Diffusionilla kehittäjät näyttivät, että kuvan generointi M2:lla kesti noin 15 sekuntia – M3/M4:lla vielä nopeammin).
  • Google Pixel 8 -lanseeraus (lokakuu 2023): Korosti tekoälyä “kaikkialla” laitteessa. Googlen tapahtumassa esiteltiin Pixel 8:n kykyä tiivistää verkkosivuja ja kääntää artikkeleita reaaliajassa laitteella Tensor G3 NPU:n avulla. Lisäksi esiteltiin “Assistant with Bard”, joka tulee jatkossa suorittamaan osan toiminnoista laitteella. Google kertoi, että Pixel 8 pystyy ajamaan 2× enemmän malleja laitteella kuin Pixel 6, ja mallit ovat huomattavasti kehittyneempiä blog.google. Toisin sanoen valtava harppaus vain kahdessa vuodessa Tensor-sirujen kehityksessä.
  • Qualcomm–Meta-yhteistyö (heinäkuu 2023): Qualcomm ja Meta ilmoittivat optimoivansa Metan Llama 2 -suurkielimallin toimimaan täysin Snapdragon NPU:lla vuoteen 2024 mennessä iconnect007.com. Tavoitteena on mahdollistaa kehittäjille chatbotien ja generatiivisten tekoälysovellusten käyttö puhelimissa, VR-laseissa, PC:issä jne. ilman pilveä. Tämä oli merkittävä tunnustus laitepohjaiselle tekoälylle sekä suurelta mallinomistajalta (Meta) että suurelta siruvalmistajalta. Vuoden 2024 lopulla he jatkoivat suunnitelmilla myös Llama 3 -optimoinnista qualcomm.com.
  • Microsoft Windows 11 “Copilot” -PC:t (2024): Microsoft asetti rajan, jonka mukaan PC:t, joissa on yli 40 TOPS paikallista tekoälykiihdytystä, ovat “AI PC” -statuksen arvoisia ja oikeutettuja parannettuihin tekoälyominaisuuksiin (kuten Copilot-digitaaliavustajan integrointi). Tämä ajoi laitevalmistajat – Lenovo, Dell jne. – ottamaan käyttöön NPU-siruja (oli kyseessä sitten Intel, AMD tai Qualcomm) täyttääkseen vaatimukset. Tuloksena odotetaan tekoälykykyisten kannettavien aaltoa vuonna 2024, ja Microsoftin mukaan kymmeniä malleja on tulossa sekä ennusteena yli 40 miljoonaa AI PC -toimitusta vuonna 2024 pcworld.com.
  • AMD:n lyhyt Ryzen 8000 NPU (tammi 2024): AMD julkisti pöytäkoneprosessorin, jossa on huimat 39 TOPS NPU (yllätys, sillä pöytäkoneiden siruissa ei yleensä ole tällaisia kiihdyttimiä) pcworld.com. Vaikka kyseinen tuote syrjäytettiin nopeasti, se osoitti, että myös pöytäkoneprosessorit voivat sisältää tekoälypiirejä, jotka kilpailevat mobiilisirujen kanssa TOPS-luvuissa. Tämä oli myös ensimmäinen pöytäkoneen x86-prosessori, jossa oli NPU (juuri ennen Intel Arrow Lakea).
  • Tesla FSD Beta v12 (loppuvuosi 2023) demot: Elon Musk esitteli end-to-end tekoälyajamista (ei tutkaa, vain konenäköverkkoja), joka pyöri Teslan HW3/HW4 NPU:illa. Huomionarvoista oli, että neuroverkko ohjasi autoa videokuvan perusteella, joka prosessoitiin kokonaan auton tietokoneella reaaliajassa. Havainnoijat totesivat, että FSD v12 hyödynsi täysimääräisesti 2× 100 TOPS NPU:ta näköön, ja Tesla vihjasi, että tulevat päivitykset (HW5), joiden tavoitteena on 2000 TOPS, saattavat olla kehitteillä vielä suurempien mallien käsittelyyn (liikkui huhuja, että Teslan HW5 voisi tähdätä 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
  • NVIDIA Drive Thor julkistettu (2024 GTC): NVIDIA paljasti seuraavan autopiirinsä, Drive Thorin, yksityiskohtia, joka sisältää 2× edeltäjänsä Orinin tekoälylaskentatehon – jopa 2000 TOPS kahdella sirulla yhdistettynä ts2.tech. Merkittävää on, että Thor on suunniteltu hoitamaan paitsi ajotehtäviä myös auton sisäisiä tekoälytoimintoja (kuten puhe ja matkustajien seuranta) yhdellä alustalla, mikä osoittaa, miten NPU:t ja GPU:t voivat yhdessä yhdistää monia tekoälytoimintoja autoissa ts2.tech. Useat autonvalmistajat (Xpeng, BYD, Volvo) ilmoittivat ottavansa Thorin käyttöön vuodesta 2025 alkaen ts2.tech.
  • Oppo:n laitekohtainen MoE-tekoäly (loka 2024): Kuten mainittiin, Oppo toteutti Mixture-of-Experts -mallin Find X8 -puhelimessa grandviewresearch.com. Tämä on uutisarvoista, koska MoE-mallit ovat yleensä suuria ja niitä on pidetty palvelinpuolen ratkaisuina niiden monimutkaisuuden vuoksi. MoE:n ajaminen laitteessa viittaa uusiin mallinpakkaustekniikoihin ja erittäin suorituskykyiseen NPU:hun (todennäköisesti kyseisessä laitteessa oleva MediaTek Dimensity 9400).
  • Metan Ray-Ban AI -lasit (2025): (Odotettu) Meta esitteli prototyyppejä älylaseista, jotka voivat tunnistaa, mitä näet, ja puhua siitä sinulle – todennäköisesti käyttäen sisäistä räätälöityä kiihdytintä (Meta on kehittänyt omaa piiriä AR:ää varten). Vaikka yksityiskohdat ovat vähäisiä, tämä korostaa pyrkimystä tuoda tekoäly hyvin rajattuihin laitteisiin (lasit, akulliset nappikuulokkeet), mikä vaatii erittäin tehokkaita NPU-piirejä.
  • MLPerf Mobile Inference Benchmarks (2023–24): MLCommons julkaisi tuloksia, jotka osoittavat uusimpien älypuhelinten tekoälykyvykkyyden. Esimerkiksi MLPerf Inference v3.0:ssa (lokakuu 2023) Applen A16, Google Tensor G2 ja Qualcomm Gen 2 testattiin tehtävissä kuten kuvien luokittelu ja objektien tunnistus. Tulokset osoittivat Applen ja Qualcommin vuorottelevan voitoissa, mutta yleisesti mobiili-NPU:t kuromassa kiinni joitakin kannettavien/pöytäkoneiden kiihdyttimiä näissä tehtävissä – kaikki akulla. Lisäksi korostui ohjelmistoeroja (esim. Qualcommin AI SDK vs. Apple Core ML). Jatkuvat parannukset vuosittain (kaksinumeroiset prosenttikasvut) näissä testeissä osoittavat tervettä kilpailua ja nopeaa kehitystä laitepohjaisessa tekoälyssä.
  • Strategiset kumppanuudet: Monia toimialojen välisiä kumppanuuksia on muodostettu. Esim. NVIDIA ja MediaTek (toukokuu 2023) ilmoittivat yhteistyöstä, jossa Nvidian GPU IP ja ohjelmistoekosysteemi tuodaan MediaTekin tuleviin älypuhelin- ja autopiireihin, yhdistäen Nvidian tekoälyosaamisen MediaTekin mobiili-SoC-asiantuntemukseen. Myös yritykset kuten Qualcomm tekevät yhteistyötä autonvalmistajien (Mercedes, BMW) kanssa tuodakseen Snapdragon Cockpit- ja Ride-alustat (NPU:illa) uusiin ajoneuvoihin tekoälyominaisuuksia varten. Arm on tehnyt yhteistyötä Fujitsun ja muiden kanssa uusien tekoälypiirien suunnittelussa (kuten Fugaku-supertietokoneen AI-osio, tosin se on huipputasoa). Jopa IBM ja Samsung ovat vihjanneet uusista siruteknologioista (kuten neuromorfinen laskenta ja AI-muisti), jotka voisivat jonain päivänä mullistaa NPU:t – eivät vielä täällä, mutta osoittavat tutkimusputkien olevan täynnä.

Kaiken kaikkiaan viime vuosi on ollut täynnä kehitystä, mikä korostaa, että laitepohjainen tekoäly on yksi teknologian kuumimmista alueista. Kuten eräs alan analyytikko totesi, “nämä laitepohjaiset kyvykkyydet avaavat täysin uusia mahdollisuuksia… LLM-mallien ajaminen mobiilissa auttaa skaalaamaan ja alentamaan kustannuksia, pitää datan yksityisenä ja varmistaa, että tekoäly toimii myös rajallisella yhteydellä” futurumgroup.com. Tämä tiivistää hyvin, miksi jokainen suuri teknologiayritys panostaa tähän.

Asiantuntijanäkemyksiä: Mitä teknologiajohtajat sanovat laitepohjaisesta tekoälystä

NPUn ja TPUn vauhti näkyy paitsi tuotteissa, myös alan johtajien puheissa. Tässä muutamia valittuja lainauksia ja näkökulmia, jotka valaisevat laitepohjaisen tekoälyn merkitystä:

  • Cristiano Amon (Qualcommin toimitusjohtaja): “Jos tekoäly aikoo yleistyä, sitä tullaan käyttämään laitteissa… Tämä on käännekohta tekoälylle: ei viiveongelmia – vain saumatonta, turvallista, pilvipalvelua täydentävää laitekohtaista päättelyä. Tekoälyn tulevaisuus on henkilökohtainen, ja se alkaa omasta laitteestasi.” (Bloombergin haastattelu ja X-julkaisu, 2023) x.com. Amon näkee hybridin tekoälymaailman, jossa puhelimesi/tietokoneesi hoitaa paljon itse omilla NPU-piireillään ja tekee yhteistyötä pilven kanssa tarvittaessa. Hän korostaa, että tekoälyn ajaminen paikallisesti on avain sen yleistymiseen (kaikkea ei voi laittaa pilvipalvelun GPU:iden varaan – niitä ei ole maailmassa tarpeeksi miljardeille laitteille).
  • Durga Malladi (SVP, Qualcomm): “Arvostamme Metan lähestymistapaa avoimeen ja vastuulliseen tekoälyyn… Jotta generatiivinen tekoäly saadaan tehokkaasti laajennettua valtavirtaan, sen täytyy toimia sekä pilvessä että reunalaitteissa.” iconnect007.com Malladi sanoi tämän Metan kumppanuuden yhteydessä. Se korostaa yleistä näkemystä: tekoälyn skaalaus = pilvi + reuna yhdessä. Nyt ymmärretään, että pelkkä pilvipohjainen tekoäly ei riitä (kustannus-, yksityisyys- ja viiveongelmien vuoksi), joten reunalaitteiden tekoälyn täytyy jakaa kuormaa.
  • Will Chen (varatoimitusjohtaja, MediaTek): “Tekoälyn tulevaisuus ylittää pilven; sitä ohjaa reunalaskenta suoraan käden ulottuvilta… OPPO ja MediaTek ovat edelläkävijöitä laitekohtaisessa tekoälyssä, varmistaen, että älykkäät ominaisuudet ovat tehokkaita, nopeita, yksityisiä, turvallisia ja aina saatavilla.” (MediaTek Exec Talk, 2025) mediatek.com. Tämä lainaus tiivistää laitekohtaisen tekoälyn arvon: saat suorituskykyä ja saavutettavuutta plus yksityisyyttä ja turvallisuutta. Se osoittaa myös, että jopa perinteisesti lännessä vähemmän näkyvät yritykset (kuten MediaTek) ajattelevat tekoälyn käyttöönoton eturintamassa.
  • Dr. Norman Wang (tekoälylaitteiston asiantuntija, siruyrityksen toimitusjohtaja): “Tekoälylaitteistoissa mitä lähemmäs laskenta saadaan tietolähdettä, sen parempi. Kyse on datan siirtelyn vähentämisestä. NPU kuvasensorin vieressä tarkoittaa, ettei megapikseleitä tarvitse lähettää pilveen – oivallukset saadaan suoraan reunalla. Se on mullistavaa viiveen ja virrankulutuksen kannalta.” (Paneeli HotChips 2024 – referoitu). Tämä tekninen näkemys selittää, miksi NPU:t sijaitsevat usein samalla piirillä muiden komponenttien kanssa: esimerkiksi puhelimen SoC:lla NPU voi napata kameradatan suoraan ISP:ltä. Datan siirtelyn minimointi on suuri osa tehokasta tekoälyä, ja reunalaitteiden tekoäly mahdollistaa tämän käsittelemällä tietoa lähteellä.
  • Xinzhou Wu (autoteollisuuden varatoimitusjohtaja, NVIDIA): ”Kiihtyvä laskenta on johtanut mullistaviin läpimurtoihin, mukaan lukien generatiivinen tekoäly, joka määrittelee uudelleen autonomian ja liikennealan.” (GTC 2024 Keynote) ts2.tech. Hän puhui siitä, kuinka tehokkaat ajoneuvojen tietokoneet (NPUt/GPUt) mahdollistavat autojen paitsi ajamisen, myös kehittyneen tekoälyn, kuten generatiivisten mallien, hyödyntämisen esimerkiksi luonnollisen kielen käyttöliittymissä autossa tai tilanteiden paremmassa ymmärtämisessä. Tämä korostaa, että jopa autoteollisuus näkee laitekohtaisen tekoälyn paitsi ydintoiminnallisuuden, myös käyttäjäkokemuksen parantamisen välineenä (esim. autojen puheavustajat, jotka voivat käydä keskusteluja kiitos laitteessa toimivien LLM-mallien).
  • Sundar Pichai (Googlen toimitusjohtaja): ”Tekoälyn tulevaisuus on siinä, että siitä tehdään hyödyllistä kaikille. Se tarkoittaa tekoälyn tuomista kaikkiin käyttämiimme laitteisiin – puhelimiin, kodinkoneisiin, autoihin – jotta se on saatavilla silloin kun sitä tarvitset. Haluamme kohdata käyttäjät siellä missä he ovat, tekoälyn avulla, joka toimii reaaliajassa, paikallisesti ja säilyttää yksityisyyden.” (Vapaasti lainattu useista haastatteluista/keynoteista). Pichai puhuu usein ”ambient AI:sta” – ajatuksesta, että tekoäly on kaikkialla ympärillämme, upotettuna esineisiin. Googlen panostus Tensor-piireihin Pixel-puhelimissa on suora toteutus tästä filosofiasta.
  • Toimialatilastot: Analyytikot ovat havainneet trendin myös numeroissa. Grand View Researchin raportissa vuodelta 2024 todettiin: ”Viimeaikaiset edistysaskeleet erikoistuneissa tekoälypiireissä ja NPUissa ovat mahdollistaneet monimutkaisten tekoälyalgoritmien ajamisen suoraan laitteilla, mikä on merkittävästi parantanut suorituskykyä ja energiatehokkuutta… olemme lähellä ratkaisevaa siirtymää kohti laitekohtaista tekoälyä.” grandviewresearch.com. Samassa raportissa ennustetaan, että laitekohtaisen tekoälyn markkinat räjähtävät tulevina vuosina, ja laitteistosegmentti (NPUt jne.) muodostaa yli 60 % liikevaihdosta vuonna 2024 ja kasvaa, kun lähes kaikki uudet IoT- tai mobiililaitteet ottavat tekoälyominaisuudet käyttöön grandviewresearch.com. Toinen IDC:n ja muiden ennuste arvioi, että 2020-luvun puoliväliin mennessä lähes kaikissa huippuluokan älypuhelimissa ja suurimmassa osassa keskihintaisia malleja on tekoälykiihdyttimet, ja vuoteen 2030 mennessä miljardit edge-tekoälypiirit ovat käytössä kulutuselektroniikasta älykkääseen infrastruktuuriin.

Asiantuntijoiden keskuudessa vallitsee yksimielisyys siitä, että laitekohtainen tekoäly ei ole vain mukava lisä – se on välttämätöntä seuraavalle teknologia-aallolle. Tekoälypioneeri Andrew Ng on usein maininnut, että ”tiny AI” ja edge-tekoäly mahdollistavat älykkyyden läpäisemisen jokaiseen esineeseen, aivan kuten sähkö tai internet aiemmilla aikakausilla. Ylittämällä pilvipohjaisen tekoälyn rajoitukset NPUt ja TPUt mahdollistavat tämän läpimurron.

Monien standardien haaste (ja pyrkimykset yksinkertaistaa)

Vaikka laitteisto on kehittynyt nopeasti, ohjelmistojen ja standardien ekosysteemi laitekohtaiselle tekoälylle on yhä kehitysvaiheessa. Kehittäjät kohtaavat viidakon erilaisia työkaluja ja SDK:ita yrittäessään hyödyntää NPU:ita eri laitteilla nimbleedge.com. Keskeiset kohdat:
  • Jokaisella alustalla on oma API tai SDK: Applella on Core ML (API:t Neural Enginen hyödyntämiseen), Androidilla Neural Networks API (NNAPI) (vaikka Google ilmoitti aikovansa kehittää sitä Android 14:n jälkeen) threads.com, Qualcomm tarjoaa SNPE (Snapdragon Neural Processing Engine) tai laajemmin Qualcomm AI Stackin, NVIDIA:lla on TensorRT ja CUDA omille laitteilleen, ja niin edelleen. Lisäksi on ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI ja muita. Näillä eri SDK:illa on usein erilaiset ominaisuudet ja ne vaativat mallien hienosäätöä toimiakseen optimaalisesti kullakin alustalla. Kuten vuoden 2025 laitekohtaisen tekoälyn raportissa todettiin, “Useat, yhteensopimattomat SDK:t (esim. Core ML, LiteRT, ONNX Runtime) vaihtelevalla operaattorituella ja suorituskyvyllä” pakottavat kehittäjät ylimääräiseen työhön nimbleedge.com.
  • Sirpaloitumisongelmat: Malli, joka toimii täydellisesti pöytäkoneen GPU:lla, ei välttämättä toimi suoraan puhelimen NPU:lla – operaattorit (matemaattiset funktiot) eivät ehkä ole tuettuja tai ne täytyy kvantisoida eri tavalla. Kehittäjien täytyy joskus ylläpitää erillisiä versioita tai optimoida malleja manuaalisesti jokaiselle laitteistolle. Tämä on “matalan tason, sirpaloitunut ekosysteemi” -valitus nimbleedge.com. Myös debuggaustyökalut ovat harvassa – NPU:n profilointi mallin hitauden syyn selvittämiseksi voi olla vaikeaa, erityisesti verrattuna CPU/GPU-työkalujen runsauteen nimbleedge.com.
  • Standardisointipyrkimykset: Tämän ratkaisemiseksi on käynnissä muutamia asioita. ONNX (Open Neural Network Exchange) on noussut yleiseksi formaatiksi, joten voit kouluttaa mallin PyTorchilla tai TensorFlow’lla ja sitten viedä sen ONNX-muotoon käyttöönottoa varten. Monet ajonaikaiset ympäristöt (mukaan lukien laitekohtaiset, kuten Qualcommin ja MediaTekin) tukevat ONNX-mallien lataamista ja yrittävät kääntää ne laitteistolle sopiviksi. Tämä auttaa välttämään sitoutumista yhteen kehykseen. Android NNAPI oli Googlen yritys tarjota universaali rajapinta – sovellus voi pyytää “aja tämä neuroverkko” NNAPI:n kautta ja käyttöjärjestelmä käyttää mitä tahansa saatavilla olevaa kiihdytintä (GPU, DSP tai NPU) sen suorittamiseen. NNAPI otettiin käyttöön monissa Android-laitteissa, mutta siinä oli rajoituksia eikä kaikki valmistajat tarjonneet luotettavia ajureita, minkä vuoksi Google ilmoitti uudesta strategiasta (mahdollisesti WebNN:n tai suoran valmistajaintegraation varaan) vuoden 2024 jälkeen threads.com. PC:llä Microsoft esitteli DirectML– ja Windows ML -rajapinnat, jotka samoin abstrahoivat laitteistoeroja (mahdollistaen kehittäjän käyttää samaa rajapintaa NVIDIA-, Intel-, AMD-NPU:ille).
  • Yhdistetyt työkaluketjut: Yritykset rakentavat myös työkaluketjuja käyttöönoton sujuvoittamiseksi. Näimme Qualcommin AI Stack:n, joka yhdistää heidän kääntäjänsä (AI Model Efficiency Toolkit) ja ajonaikaiset ympäristöt, jotta kehittäjät voivat helpommin kohdistaa Hexagon NPU:lleen iconnect007.com. NVIDIA:n TensorRT ja siihen liittyvät SDK:t tekevät vastaavaa Jetson-laitteille, optimoiden mallit GPU+NVDLA:lle. Intel OpenVINO on toinen – sen avulla voit ottaa mallin ja optimoida sen Intelin suorittimille, iGPU:ille ja VPU:ille (NPU:ille) reunalaitteiden käyttöönottoa varten. Näihin kehyksiin sisältyy usein mallin optimoijia, jotka muuntavat malleja (karsinta, kvantisointi) sopimaan pienemmille laitteille.
  • Yhteentoimivuus: On liikehdintää kohti sitä, että eri NPU:t toimisivat yhteisten kehysten kanssa. Esimerkiksi Googlen TensorFlow Lite sisältää laitteistodelegaattoreita – yksi NNAPI:lle (kattaa Android-laitteet yleisesti), yksi Core ML:lle (iOS-laitteet), yksi Edge TPU:lle jne. Ajatuksena on, että kirjoitat TFLite-mallisi ja se suoritetaan parasta saatavilla olevaa kiihdytintä käyttäen delegaatin kautta. Samoin PyTorch on lisännyt tukea mobiilitaustoille ja jopa asioille kuten Applen Metal Performance Shaders (GPU/NPU:n käyttö iOS:lla). ONNX Runtime voi myös kohdistaa eri kiihdyttimiin liitännäisten kautta (esim. voi liittää NVIDIA:n TensorRT:n tai ARM:n Compute Libraryn tai muita taustalle).
  • Nousevat standardit: Khronos Group (OpenGL/Vulkanin taustalla) työsti NNEF (Neural Network Exchange Format) -formaattia ja WebNN API:sta keskustellaan, jotta selaimet voisivat käyttää paikallista AI-kiihdytystä. Yksikään ei ole vielä yleisesti käytössä. Mutta yksi mielenkiintoinen kehitys: loppuvuodesta 2024 useat yritykset muodostivat liittouman edistääkseen “AI Hardware Common Layer” -standardeja – käytännössä tutkitaan, voisiko NPU:ille tehdä yhteisen matalan tason rajapinnan (vastaavasti kuin OpenCL teki GPU-laskennalle). Se on kuitenkin vielä alkuvaiheessa.
  • Kehittäjäkokemus: Tämä on tunnustettu puute. Kuten NimbleEdgen blogissa todettiin, “on-device AI:n kehittäminen vaatii tällä hetkellä pirstaleisen ja matalan tason ekosysteemin hallintaa… pakottaen kehittäjät räätälöimään toteutukset jokaiselle laitteistolle erikseen” nimbleedge.com. Ala tietää, että tämän on parannuttava, jotta on-device AI voi todella yleistyä. Saatamme nähdä konsolidaatiota – esimerkiksi, jos Google, Apple ja Qualcomm voisivat kaikki sopia jostain ydintoimintojen ja API:n joukosta (ehkä toiveajattelua). Todennäköisemmin kuitenkin kehykset kuten PyTorch ja TensorFlow piilottavat monimutkaisuuden integroimalla kaikki valmistajien kirjastot ja valitsemalla oikean ajonaikaisesti.

Ytimeltään, vaikka NPU:t/TPU:t tarjoavat voiman, yhteisö kehittää aivoystävällisiä työkaluja tämän voiman hyödyntämiseen. Hyvä uutinen on, että verrattuna esimerkiksi viiden vuoden takaiseen, on paljon enemmän vaihtoehtoja mallin ajamiseen laitteella ilman, että tarvitsee olla siruasiantuntija. Mutta parannettavaa riittää – erityisesti debuggaamisessa, profiloinnissa ja monilaitetuen osalta.

Markkinatrendit ja tulevaisuuden näkymät

NPU:iden ja TPU:iden yleistyminen laitteissa ajaa suurempaa trendiä: tekoäly kaikkialla. Tässä joitakin korkeantason trendejä ja odotuksia tulevaisuuteen:

  • Edge AI -markkinan kasvu: Markkinatutkimukset osoittavat edge AI -laitteiston räjähdysmäistä kasvua. On-device AI -markkinan (mukaan lukien sirut ja ohjelmistot) odotetaan kasvavan noin 29 % vuosivauhtia tämän vuosikymmenen ajan nimbleedge.com. Yhden raportin mukaan sen arvoksi arvioitiin noin 233 miljardia dollaria vuonna 2024, ja sen odotetaan nousevan yli 1,7 biljoonaan dollariin vuoteen 2032 mennessä nimbleedge.com – suuri osa kasvusta perustuu edge-toteutuksiin. Toinen IDTechExin analyysi ennustaa, että AI-sirumarkkina edge-laitteille saavuttaa 22 miljardia dollaria vuoteen 2034 mennessä, ja suurimmat segmentit ovat kulutuselektroniikka, autoteollisuus ja teollisuus idtechex.com. Tämä tarkoittaa, että satoja miljoonia laitteita vuodessa toimitetaan NPU:iden ollessa vakiokomponentteja.
  • Laajalle levinnyt käyttöönotto: Aivan kuten jokaisessa älypuhelimessa on nykyään GPU (vaikka pieni), olemme saavuttamassa pisteen, jossa jokaisessa uudessa älypuhelimessa on AI-kiihdytin. Huippuluokan puhelimissa ne ovat jo nyt; seuraavaksi vuorossa ovat keskihintaiset puhelimet. Itse asiassa Qualcommin keskitason siruissa (esim. Snapdragon 7 -sarja) ja MediaTekin (Dimensity 700/800 -sarja) on nyt pienennetyt NPU:t, jotta tekoälykameran parannukset ja puheavustaja toimivat myös edullisemmissa laitteissa. Puhelimien lisäksi NPU:t leviävät tietokoneisiin (vakiona uusissa Windows-kannettavissa useilta valmistajilta), autoihin (lähes kaikissa uusissa ADAS Level 2+ -autoissa on jonkinlainen AI-siru) ja IoT-laitteisiin. Jopa kodinkoneet, kuten jääkaapit ja pesukoneet, alkavat mainostaa “tekoäly”ominaisuuksia (osa näistä pilvipohjaisia, osa paikallisia, kuten antureihin perustuvat mukautuvat pesuohjelmat). Suunta on selvä: jos laitteessa on laskentasiru, siinä on jonkinlaista ML-kiihdytystä sillä sirulla.
  • Suorituskyvyn kehitys: Laitteessa tapahtuvan tekoälyn suorituskyky kaksinkertaistuu noin 1–2 vuoden välein (paremman arkkitehtuurin ja edistyneiden puolijohdeprosessien, kuten 5nm, 4nm, 3nm, ansiosta). Applen Neural Engine ylsi 600 miljardiin operaatioon sekunnissa vuonna 2017 ja 35 biljoonaan vuonna 2023 – lähes 60× kasvu kuudessa vuodessa apple.fandom.com. Myös Qualcommin huippumallit nousivat muutamasta TOPS:sta vuonna 2018 yli 27 TOPS:iin vuonna 2023 (SD 8 Gen 3:n kokonais-AI-laskenta, kaikki ytimet mukaan lukien). Voimme odottaa, että vuosina 2025–2026 mobiili-NPU:t tarjoavat yli 100 TOPS:ia, ja PC-kiihdyttimet vielä enemmän, ja nämä luvut voivat menettää merkitystään, kun painopiste siirtyy käytännön suorituskykyyn tietyissä AI-tehtävissä (esim. kuinka suuren LLM:n voi ajaa sujuvasti tai voiko tehdä 4K AI -videota reaaliajassa). Pilven ja reunalaskennan välinen ero kaventuu todennäköisesti inferenssitehtävissä. Kuitenkin reunalaskenta jää jälkeen pilvestä kaikkein edistyneimpien suurten mallien osalta virta- ja muistirajoitteiden vuoksi.
  • Energiatehokkuuden parannukset: Yksi aliarvostettu näkökulma on, kuinka tehokkaiksi nämä NPU:t ovat kehittyneet. Teslan auton NPU saavuttaa noin 4,9 TOPS/Watt fuse.wikichip.org, mikä oli huippuluokkaa pari vuotta sitten; nyt jotkut mobiili-NPU:t väittävät yltävänsä samaan tai parempaan. Tehokkaat NPU:t tarkoittavat pidempää akunkestoa, vaikka käyttäisimme AI-ominaisuuksia enemmän. Se mahdollistaa myös tekoälyn tuomisen pieniin paristokäyttöisiin laitteisiin (esim. tekoälykuulolaitteet, älyanturit, jotka toimivat nappiparistolla ja suorittavat poikkeavuuksien tunnistusta). Käsite TinyML – erittäin pienimuotoinen koneoppiminen mikro-ohjaimilla – on jatkoa tälle, käyttäen yksinkertaistettuja “NPU:ita” tai optimoituja käskyjä mikro-ohjaimilla tekoälyn suorittamiseen antureissa. ARMin Ethos-U NPU on suunnattu tälle segmentille (esim. aina päällä oleva avainsanan tunnistus muutamalla milliwatilla). Odota lisää tekoälyyn erikoistuneita pieniä siruja, joita voidaan upottaa antureihin, puettaviin laitteisiin ja arjen esineisiin (Älyhammasharja? Tekoälyllä varustettu palovaroitin? Se on tulossa).
  • Hybridipilvi-Edge-ratkaisut: Sen sijaan, että edge korvaisi pilven kokonaan, tulevaisuus on yhteistyössä. Laitteet tekevät paikallisesti sen minkä pystyvät ja pyytävät apua vain siihen, mihin eivät itse kykene. Esimerkiksi AR-lasit voivat suorittaa paikallista näkymän tunnistusta tietääkseen, mitä katsot, mutta jos kysyt hyvin monimutkaisen kysymyksen (kuten perusteellisen selityksen), ne voivat kysyä pilvi-AI:lta tehokkaampaa analyysiä ja esittää sen sitten sinulle. Tämä hybridimalli tarjoaa parhaan tasapainon reagointinopeuden ja kyvykkyyden välillä. Yritykset suunnittelevat aktiivisesti kokemuksia tämän ympärille: Microsoftin Copilot Windowsissa voi käyttää paikallista NPU:ta nopeaan puheesta tekstiksi -muunnokseen ja komentojen tulkintaan, mutta käyttää pilveä raskaampaan laskentaan (ellei sinulla satu olemaan tehokasta PC-NPU:ta, joka selviää siitä). Käyttäjän ei ihanteellisesti pitäisi tietää tai välittää, kumpaa käytetään, paitsi että kaikki toimii nopeammin ja yksityisyyttä kunnioittaen. Näemme myös federated learningin yleistyvän – mallit koulutetaan pilvessä, mutta laitteilla salatun tai esikäsitellyn datan avulla, ja päinvastoin.
  • Nousevat käyttötapaukset: Kun NPU:t tehostuvat, uusia sovelluksia avautuu. Generatiivinen AI laitteessa on iso juttu – kuvittele tekoälykuvien luonti, tekoälyvideon editointi ja henkilökohtaiset chatbotit kaikki puhelimessasi tai läppärissäsi. Vuoteen 2025 mennessä saatamme nähdä ensimmäisiä offline-henkilöavustajia, jotka voivat tiivistää sähköpostisi tai luonnostella viestejä ilman pilveä. Reaaliaikainen kielten käännös keskustelussa (kaksi ihmistä puhuu eri kieliä, puhelin tai kuulokkeet kääntävät lähes reaaliajassa) paranee huomattavasti laitekohtaisen prosessoinnin ansiosta (ei viivettä ja toimii missä vain). Terveys-AI voi asua puettavissa laitteissa – älykellosi tunnistaa eteisvärinän tai analysoi uniapnean malleja NPU:n avulla. Turvallisuus: laitteet voivat ajaa tekoälyä paikallisesti haittaohjelmien tai tietojenkalastelun tunnistamiseen reaaliajassa (esim. virustorjunta käyttää laitteessa olevaa AI-mallia pilvitarkistusten sijaan). Ja ajoneuvoissa, ajamisen lisäksi, AI voi personoida auton sisäkokemuksen (säätää ilmastointia kuljettajan mielialan mukaan kuljettajaa seuraavan kameran AI:n avulla jne.). Monet näistä käyttötapauksista vaativat nopeaa kehitystä ja yksityisyyttä, mikä sopii laitekohtaiselle ratkaisulle.
  • Kilpailu ja demokratisoituminen: Suuret toimijat jatkavat kilpailua, mikä on hyvä kuluttajille – odota markkinointia tyyliin ”meidän AI-siru tekee X TOPS tai mahdollistaa Y-ominaisuuden, johon muut eivät pysty.” Mutta myös teknologia demokratisoituu – NPU:t eivät ole enää vain 1000 dollarin puhelimissa; niitä tulee 300 dollarin puhelimiin, 50 dollarin IoT-kortteihin (Coral, Arduino Portenta jne.), ja avoimen lähdekoodin yhteisöt luovat pieniä AI-malleja, joita harrastajat voivat ajaa Raspberry Pi:llä tai mikro-ohjaimella peruskiihdyttimen avulla. Tämä laaja saatavuus tarkoittaa, että innovaatio voi tulla mistä tahansa. Yksittäinen kehittäjä voi nyt rakentaa sovelluksen, joka käyttää laitekohtaista AI:ta johonkin kekseliääseen ilman palvelinfarmia – AI-ohjelmiston kynnykset madaltuvat.
  • Tulevaisuuden teknologia: Katsoessamme pidemmälle tulevaisuuteen, tutkimus neuromorfisen laskennan (aivoista inspiroituneet sirut kuten Intel Loihi) ja analogisten AI-sirujen parissa voi jonain päivänä mullistaa NPU:t, tarjoten moninkertaisia tehokkuushyötyjä. Yritykset kuten IBM ja BrainChip työskentelevät näiden parissa. Jos onnistutaan, neuromorfinen siru saattaa mahdollistaa monimutkaisen tekoälyn pyörimisen pienissä akkukäyttöisissä laitteissa jatkuvasti. Saatamme myös nähdä 3D-pinoamisen ja uuden muistiteknologian integrointia NPU:ihin muistipullonkaulojen voittamiseksi (jotkut vuoden 2025+ sirut saattavat käyttää HBM-muistia tai uutta sirun sisäistä ei-tuhoutuvaa muistia syöttämään AI-ytimiä nopeammin). Lisäksi odotettavissa on lisää erikoistumista AI-siruissa: esim. erilliset kiihdyttimet näköä, puhetta, suositusmalleja jne. varten, jokainen optimoitu omaan käyttötarkoitukseensa. Joissakin SoC-piireissä on jo kaksois-NPU:t (yksi “iso” NPU raskaille tehtäville, yksi mikro-NPU sensorikeskuksessa aina päällä oleville kevyille tehtäville).

Yhteenvetona suunta on selvä: NPU:t ja TPU:t ovat muuttumassa yhtä vakiintuneiksi ja välttämättömiksi kuin CPU:t modernissa laskennassa. Ne mahdollistavat laitteiden älykkyyden, nopean reagoinnin ja yksityisyyden kunnioittamisen. Kuten eräässä raportissa todettiin, “laitteiden tehokkaat prosessoriyksiköt ovat pitkälti vastuussa monimutkaisten AI-toimintojen, kuten kuvantunnistuksen, NLP:n ja reaaliaikaisten päätösten tekemisestä”, ja tämä ajaa älykkäämpää, reagoivampaa teknologiaa eri aloille grandviewresearch.com.

Olemme siirtymässä aikakauteen, jossa odotat laitteesi ymmärtävän ja ennakoivan tarpeesi – puhelimesi muokkaa kuvia ja kirjoittaa viestejä tyyliisi, autosi välttää onnettomuuksia ja viihdyttää sinua tekoälyllä, kotilaitteesi oppivat mieltymyksesi – kaiken tämän mahdollistavat hiljaiset neuroprosessorit niiden sisällä. Laitteessa toimiva tekoäly ei ole tieteisfiktiota; se on täällä jo nyt ja kehittyy nopeasti. NPU:iden ja TPU:iden yhdistyminen arjen laitteisiin tekee tekoälystä henkilökohtaista, kaikkialla läsnä olevaa ja yksityistä – tuoden pilviälyn voiman todella alas maan pinnalle (tai ainakin taskuusi asti).

Lähteet:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27.8.2024 techtarget.com. Kuvaa CPU:iden, GPU:iden, TPU:iden ja NPU:iden rooleja ja eroja AI-tehtävissä.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Selitys Googlen TPU-suunnittelusta (systoliset matriisit, matala tarkkuus) ja NPU:n käytöstä mobiililaitteissa.
  • TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. Toteaa, että TPU:t erikoistuvat matriisilaskentatehtäviin ja NPU:t jäljittelevät aivojen hermoverkkoja kiihdytyksen saavuttamiseksi techtarget.com.
  • NimbleEdge Blog (Neeraj Poddar). “The State of On-Device AI: What’s Missing in Today’s Landscape.” 26. kesäkuuta 2025 nimbleedge.com. Käsittelee laitekohtaisen tekoälyn etuja (viive, offline, yksityisyys, kustannukset) ja haasteita, kuten pirstaloituneet SDK:t.
  • Qualcomm (OnQ Blog). “Bloomberg and Cristiano Amon talk on-device AI.” heinäkuu 2023 x.com. Qualcommin toimitusjohtaja korostaa laitekohtaisen inferenssin merkitystä tekoälyn tulevaisuudessa (tweet-lainaus käännekohdasta tekoälyssä).
  • MediaTek Blog (Exec Talk by Will Chen). “Shaping the future of AI mobile experiences.” 3. maaliskuuta 2025 mediatek.com. MediaTekin ja Oppon yhteistyö NPU:iden parissa; lainaus reunalaskennasta kädessäsi ja esimerkki tekoälykuvan uudelleenparantamisesta NPU:lla.
  • I-Connect007 / Qualcomm Press. “Qualcomm works with Meta to enable on-device AI (Llama 2).” 24. heinäkuuta 2023 iconnect007.com. Lehdistötiedote, jossa Qualcommin varatoimitusjohtaja Durga Malladi kommentoi generatiivisen tekoälyn skaalaamista reunalaitteiden ja pilven avulla.
  • PCWorld (Mark Hachman). “Intel’s Core Ultra CPUs keep AI simple….” 24. lokakuuta 2024 pcworld.com. Käsittelee Intel Arrow Laken Meteor Lake -NPU:n (13 TOPS) käyttöä ja mainitsee AMD:n Ryzen 8000:n 39 TOPS NPU:n sekä Microsoftin 40 TOPS “Copilot” -vaatimuksen.
  • Ts2 (Tech Empowerment). “Itseajavien supertietokoneiden taistelu: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” Syys. 2023 ts2.tech. Antaa TOPS-arviot: Tesla HW3 vs HW4 (72→100 TOPS per siru) ts2.tech, NVIDIA Thor ~1000 TOPS (tai 2000 kaksoiskokoonpanolla) ts2.tech ja siteeraa NVIDIAn varatoimitusjohtajaa generatiivisesta tekoälystä ajoneuvoissa ts2.tech.
  • Grand View Research. “On-Device AI Market Report, 2030.” 2024 grandviewresearch.com. Toteaa erikoistuneiden tekoälysirujen (NPU) yleistymisen mahdollistavan monimutkaisen tekoälyn laitteissa, ja että laitteistot muodostivat 60,4 % laitekohtaisen tekoälyn markkinoista vuonna 2024, älypuhelinten, IoT:n, NPU:iden jne. vauhdittamana.
  • Google Blog. “Google Tensor G3: Pixel 8:n tekoäly-ensimmäinen prosessori.” Loka. 2023 blog.google. Kuvaa Tensor G3:n parannuksia laitekohtaiselle generatiiviselle tekoälylle, uuden TPU-suunnittelun ja laitteessa toimivan TTS-mallin, joka vastaa datakeskuksen laatua.
  • Techspot. “Snapdragon 8 Gen 3 tuo generatiivisen tekoälyn älypuhelimiin.” Loka. 2023 futurumgroup.com. Futurum Groupin analyysi, jossa yksityiskohtia SD8Gen3:n tekoälymoottorista: 10 miljardin parametrin LLM laitteessa, 98 % nopeampi NPU, maailman nopein Stable Diffusion puhelimessa jne., sekä laitekohtaisten LLM:ien hyödyt kustannuksissa/yksityisyydessä/offlinessa futurumgroup.com.
  • Apple Wiki (Fandom). ”Neural Engine.” Päivitetty 2025 apple.fandom.com. Neural Enginen versiohistoria, jossa A17 Pro 35 TOPS vuonna 2023 jne. Näyttää kehityksen 0,6 TOPS:sta (A11) 35 TOPS:iin (A17) apple.fandom.com ja M4:ssä 38 TOPS apple.fandom.com.
  • EnGenius Tech. ”Cloud Edge Camera AI Surveillance.” 2023 engeniustech.com. Esimerkki turvakamerasta, jossa on sisäänrakennettu NPU, joka mahdollistaa tekoälykäsittelyn kamerassa ja paikallisen tallennuksen (NVR:ää ei tarvita).
  • EmbedL. ”Amazon julkaisee AZ1 Neural Edge Processorin.” Lokakuu 2020 embedl.com. Käsittelee Amazonin AZ1 edge NPU:ta Echo-laitteille, rakennettu yhdessä MediaTekin kanssa, suunniteltu laitekohtaisiin puheentunnistustehtäviin viiveen ja piliriippuvuuden vähentämiseksi embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Don't Miss

Bitcoin’s $115K Shock, SEC’s ‘Project Crypto’ Bombshell & NFT Boom – Early August 2025 Crypto Roundup

Bitcoinin 115 000 dollarin yllätys, SEC:n ’Project Crypto’ -paljastus ja NFT-buumi – kryptokatsaus elokuun alussa 2025

Bitcoin nousi lähes 122 800 dollariin kaikkien aikojen huippuna noin
Smart Fabrics with Sensors: The Wearable Tech Revolution You Didn’t See Coming

Älykkäät sensorikankaat: Pukeutuvan teknologian vallankumous, jota et osannut odottaa

Maailmanlaajuisten älytekstiilien markkinoiden arvo oli noin 6–8 miljardia dollaria vuonna