- Apple стартира вградената AI през 2017 г. с Neural Engine на iPhone A11, позволявайки Face ID и Animoji с до 600 милиарда операции в секунда.
- През 2023 г. 16-ядреният Neural Engine на iPhone A17 Pro доставя около 35 TOPS, захранвайки функции за реч, фотография и превод на устройството.
- Google Pixel 8 (2023) използва Tensor G3 NPU за изпълнение на AI модели на устройството като Palm 2 за офлайн превод и обобщение.
- Edge TPU на Google върху Coral Dev Board осигурява 4 TOPS за обработка на изображения при няколко вата.
- Хардуерът за напълно автономно шофиране на Tesla има два NPU: HW3 (2019) предлага около 144 TOPS, а HW4 (2023) – около 200–250 TOPS.
- NVIDIA Drive Thor (разкрит 2024) може да достигне до 2000 TOPS, когато два чипа са свързани за автомобилни AI задачи.
- Hexagon NPU на Qualcomm Snapdragon 8 Gen 3 (2023) е с 98% по-бърз от Gen 2, може да изпълнява LLM с до 10 милиарда параметъра на устройството и постигна най-бързия в света мобилен Stable Diffusion в демонстрации.
- MediaTek Dimensity 9400 (2024) с шесто поколение APU захранва AI ремастериране на снимки в Oppo Find X8, което показва, че NPU ще се разширят към телевизори, IoT и автомобили до 2025 г.
- Intel Meteor Lake, 14-то поколение Core (стартирано 2023; ребрандирано като Core Ultra през 2024), включва интегриран NPU с около 8–12 TOPS, като Arrow Lake е с ~13 TOPS, а за Lunar Lake се говори за около 45 TOPS.
- AMD Ryzen 7040 Phoenix (2023) представи Ryzen AI Engine с до 10 TOPS, докато Ryzen 8000 desktop (началото на 2024) предложи 39 TOPS, преди AMD да спре NPU в това поколение.
Накратко: Вашият смартфон, камера и дори колата ви вече имат вградени AI мозъци – без нужда от облак. Специални чипове, наречени NPU (Neural Processing Units) и TPU (Tensor Processing Units), превръщат ежедневните устройства в интелигентни асистенти, способни на разпознаване на лица, гласови команди, превод в реално време, автономно шофиране и други. Тази революция на AI в устройствата обещава светкавично бързи реакции, по-добра поверителност и нови функции, които някога смятахме за възможни само със суперкомпютри. В този доклад ще разясним NPU и TPU, ще видим как се различават от CPU/GPU и ще проучим защо технологични гиганти като Apple, Google, Qualcomm и Intel се надпреварват да вградят тези „AI мозъци“ във всичко – от телефони до коли. Ще подчертаем и най-новите пробиви за 2024–2025 г., експертни мнения, индустриални стандарти и какво ни очаква в бъдещето на AI в устройствата.
Какво са NPU и TPU? (Запознайте се с AI мозъка на вашето устройство)
Невронните процесорни устройства (NPU) са специализирани процесори, създадени да ускоряват изкуствените невронни мрежи – алгоритмите, които задвижват съвременните AI задачи като разпознаване на изображения, обработка на реч и други. За разлика от универсалните CPU, NPU са интегрални схеми със специфично приложение (ASIC), оптимизирани за матрична математика и тежки паралелни натоварвания на невронните мрежи techtarget.com. NPU „имитира невронните мрежи на човешкия мозък, за да ускори AI задачите“, като по същество действа като силициев мозък във вашето устройство techtarget.com. NPU са отлични при изпълнение на инференция (правене на прогнози) за AI модели ефективно на самото устройство, често използвайки по-ниска числова прецизност (напр. 8-битови цели числа), за да пестят енергия, като същевременно осигуряват висока производителност backblaze.com. Терминът „NPU“ понякога се използва широко за всеки AI ускорител, но по-често се отнася до тези в мобилни и edge устройства backblaze.com. Например, „Neural Engine“ на Apple в iPhone и мобилният AI engine на Samsung са NPU, интегрирани в техните системи върху чип (SoC) дизайни.
Tensor Processing Units (TPUs), от друга страна, бяха създадени от Google като специализирани чипове за ускоряване на машинното обучение, особено за рамката TensorFlow. TPU е вид ASIC, оптимизиран за тензорни операции (умножения на матрици и др.), които са в основата на обучението и инференцията на невронни мрежи backblaze.com. Google внедри TPUs за първи път в своите центрове за данни през 2015 г., за да ускори изчисленията на невронни мрежи, а по-късно ги направи достъпни чрез Google Cloud backblaze.com. TPUs използват специфична архитектура, наречена систоличен масив, която свързва много малки изчислителни единици в решетка, през която се изпомпват данни чрез верига от модули за умножение на матрици backblaze.com. Този дизайн постига изключително висока производителност при задачи за дълбоко обучение. TPU на Google умишлено жертват част от прецизността (използвайки 8-битова или 16-битова аритметика вместо 32-битови числа с плаваща запетая) за огромни печалби в скоростта и ефективността backblaze.com, тъй като много AI задачи не изискват висока прецизност за постигане на точни резултати. Макар че „TPU“ технически се отнася до чиповете на Google, терминът понякога се използва по-общо за всеки „тензорен“ ускорител. Забележително е, че Google произвежда и Edge TPU копроцесори за AI на устройства, като Coral Dev Board, които осигуряват 4 трилиона операции в секунда при няколко вата coral.ai.
Накратко: NPU и TPU са и двата силициеви ускорители за AI, но NPU обикновено са вградени в мобилни/edge устройства за ефективна инференция на устройството, докато TPU (в строгия смисъл) са високопроизводителни чипове (и вече модули) основно от Google, първоначално за обучение и инференция в облак/центрове за данни. И двата типа се различават от традиционните CPU/GPU дизайни, като приоритизират паралелните математически операции за невронни мрежи. Както един технологичен редактор казва, „TPU отиват още по-далеч в специализацията, фокусирайки се върху тензорните операции, за да постигнат по-високи скорости и енергийна ефективност… NPU са разпространени в AI-устройства като смартфони и IoT джаджи“ backblaze.com.
С какво NPU и TPU се различават от CPU и GPU?
Традиционните CPU (централни процесорни устройства) са „мозъкът“ на общите изчисления – оптимизирани за гъвкавост, за да се справят с всякакви задачи, от стартиране на операционната система до сърфиране в интернет. Те имат няколко мощни ядра, които се отличават при последователна логика и разнообразни инструкции, но не са добри в силно паралелните математически изчисления, необходими за дълбоко обучение techtarget.com. Когато от CPU се изисква да обработи голяма невронна мрежа, често се превръща в тясно място, опитвайки се да изпълни милиони умножения и събирания последователно или в ограничени паралелни партиди. Това води до висока латентност и консумация на енергия (т.нар. тясно място на фон Нойман при прехвърляне на големи обеми данни между CPU и паметта) backblaze.com. CPU могат да вършат някои AI задачи (особено по-прости или по-малки модели, или контролна логика за AI програми techtarget.com), но като правило им е трудно да се мащабират ефективно до изискванията на съвременния AI за масивна паралелна линейна алгебра.
GPU (графични процесорни устройства) изведоха паралелните изчисления на преден план. Първоначално създадени за рендиране на изображения чрез извършване на много прости операции паралелно върху пиксели и върхове, GPU се оказаха много подходящи за обучение на невронни мрежи, което също включва прилагане на едни и същи математически операции (скаларни произведения и др.) върху много данни едновременно techtarget.com. Един GPU съдържа стотици или хиляди малки ядра, които могат да извършват изчисления паралелно. Това прави GPU отлични за мащабен AI, и през 2010-те години GPU (особено тези на NVIDIA с CUDA софтуер) се превърнаха в работния кон на изследванията в дълбокото обучение. Въпреки това, GPU все още са донякъде универсални – те трябва да се справят с различни графични задачи и да запазят гъвкавост, така че не са 100% оптимизирани за невронни мрежи. Те също така консумират много енергия и изискват внимателно програмиране за пълноценно използване (не харесват сложен разклоняващ се код и се справят най-добре с опростени, паралелни задачи с данни) techtarget.com.
NPU и TPU извеждат специализацията още по-далеч. Те са създадени специално за само натоварването от невронни мрежи. Това означава, че тяхната архитектура може да премахне всичко ненужно за AI изчисленията и да посвети повече силиций на неща като модули за матрично умножение, натрупващи събирачи и вградената памет за бързо прехвърляне на данни към и от тези изчислителни модули. Например, Google Cloud TPU по същество е гигантска 2D решетка от MAC (умножи-натрупай) модули с интелигентна архитектура за пренос на данни (систоличен масив), която ги захранва с операнди с висока скорост backblaze.com. Той не се занимава с кешове, спекулативно изпълнение или други CPU функции – оптимизиран е за матрична математика. NPU в мобилните чипове по подобен начин интегрират специализирани ядра за невронен двигател до CPU/GPU. Тези ядра често използват нискоточна аритметика (например 8-битови цели числа като TPU) и изпълняват силно паралелни изчисления „слой по слой“ за неща като конволюционни невронни мрежи. Един NPU може да използва „сливаща“ архитектура, комбинираща скаларни, векторни и тензорни модули (Hexagon NPU на Qualcomm прави това), за да обработва различни операции на невронни мрежи ефективно futurumgroup.com.
Ключовите разлики се свеждат до:
- Инструкционен набор и гъвкавост: CPU имат широк, общ инструкционен набор (могат да правят много неща, но не всички едновременно). GPU имат по-ограничен, но все пак гъвкав инструкционен набор, оптимизиран за пропускателна способност при изчисления. NPU/TPU имат много тесен инструкционен набор – по същество само операциите, необходими за невронни мрежи (матрично умножение, конволюция, активационни функции), често реализирани като фиксирани конвейери или масиви fuse.wikichip.org. Например, NPU за самоуправляващи се автомобили на Tesla има само 8 инструкции в своя ISA, фокусирани върху DMA четене/запис и скаларни произведения fuse.wikichip.org.
- Паралелизъм и ядра: CPU = няколко мощни ядра; GPU = хиляди прости ядра; NPU/TPU = в известен смисъл, десетки хиляди много прости ALU (MAC единици), структурирани матрично или като невронна мрежа. Един NPU чип може да извършва десетки трилиони операции в секунда – автомобилният NPU на Tesla работи на 2 GHz с 9 216 MAC, постига ~37 тераоперации в секунда (TOPS) на ядро, а всеки FSD чип има два NPU за ~74 TOPS fuse.wikichip.org, ts2.tech. За сравнение, висок клас CPU може да достигне само няколкостотин милиарда операции/сек при AI задачи, а GPU – може би няколко TOPS, ако не използва специални тензорни ядра.
- Паметна архитектура: NPU/TPU разчитат на бърза вградена памет и стрийминг на данни. TPU избягват класическото тесно място на паметта чрез използване на систоличен поток от данни – всяка малка единица подава данни на следващата синхронизирано, минимизирайки четенията/записите в основната памет backblaze.com. Много NPU включват блок SRAM на чипа за тегла/активации (напр. NPU ядрата на Tesla имат по 32 MB SRAM всяко за локално съхранение на данни за невронната мрежа) semianalysis.com. Това е в контраст с GPU/CPU, които използват външна DRAM в голяма степен.
- Точност: CPU/GPU обикновено използват 32-битови или 64-битови числа с плаваща запетая за изчисления. AI ускорителите често използват 16-битови или 8-битови цели числа (а някои вече изследват 4-битови или дори 2-битови), тъй като невронните мрежи понасят по-ниска точност. Дизайнерите на TPU на Google изрично отбелязват, че не е нужна пълна точност с плаваща запетая за inference, подобно на „не е нужно да знаете точно колко капки дъжд падат, за да разберете, че вали силно“ backblaze.com. Това позволява на NPU/TPU да извършват повече операции паралелно и да използват по-малко енергия на операция.
- Приложения: GPU все още се използват широко за обучение на големи модели и за гъвкави изчисления (и са често срещани в центрове за данни и висок клас PC). TPU (облак) са насочени към мащабно обучение и inference в екосистемата на Google. NPU по-често се срещат в edge устройства – смартфони, камери, уреди – извършващи inference върху вече обучени модели. Те блестят в задачи като прилагане на vision модел върху кадър от камера в реално време или непрекъснато разпознаване на wake-word за гласов асистент при ниска консумация на енергия. Както отбелязва TechTarget: „GPU се избират заради наличност и рентабилност в много ML проекти; TPU обикновено са по-бързи и по-малко точни, използвани от бизнеси в Google Cloud; NPU най-често се срещат в edge/мобилни устройства за значително по-бърза локална обработка“ techtarget.com.
В обобщение, CPU = универсални организатори, GPU = паралелни работни коне, TPU/NPU = специалисти по невронни мрежи. Всички могат да си сътрудничат – всъщност, в едно съвременно устройство с AI, CPU често координира задачите и прехвърля изчислително тежките части към NPU/GPU при нужда techtarget.com. Тази тенденция към специализация съществува, защото вече един подход не е подходящ за всички в компютърните технологии: както се пошегува един редактор, „добавянето на милиони повече транзистори за всяка нужда не беше ефективно… дизайнерите приеха процесори, създадени за конкретна цел“ techtarget.com. Процесорите NPU и TPU, създадени за конкретна цел, драстично ускоряват AI изчисленията, като същевременно поддържат ниска консумация на енергия – критичен баланс както за устройства на батерии, така и за сървъри с висока плътност.
Защо AI на устройството? (Edge срещу Cloud)
Защо изобщо да пускаме AI на телефона или колата си – защо просто да не изпратим всичко в облака, където огромни сървъри (с GPU/TPU) могат да свършат тежката работа? Има няколко убедителни причини, които движат прехода към AI на устройството, и те се свеждат до скорост, поверителност, цена и надеждност nimbleedge.com:
- Мигновен отговор (ниска латентност): NPU на устройството може да обработва данни в реално време без забавянето от изпращане на данни до облачен сървър. Това е от решаващо значение за интерактивни или критични за безопасността AI задачи. Например, автономната система за шофиране на автомобил с вградени NPU може да разпознае пешеходец и да натисне спирачките незабавно, в рамките на милисекунди, вместо да чака изчисления от облака. Умна камера с NPU може да засече нарушител в момента, в който се появи в кадър. На телефона ви, AI на устройството означава, че гласовият асистент може да отговаря по-бързо и по-естествено, защото не „звъни у дома“ постоянно. Намалената латентност позволява истинско вземане на решения в реално време и по-гладко потребителско изживяване nimbleedge.com.
- Поверителност и сигурност на данните: AI на устройството пази вашите данни локално. Вместо да изпраща аудиото от микрофона или видеото от камерата ви в облака за анализ, обработката се извършва вътре в устройството. Това значително намалява излагането на чувствителни данни. Например, съвременните смартфони извършват разпознаване на лице (Face ID и др.) изцяло на устройството – биометричната карта на лицето ви никога не напуска защитената зона на телефона. По същия начин, AI слухов апарат или здравен носим уред може да анализира биометрични данни, без да ги качва на сървър, като така запазва поверителността. С оглед нарастващите опасения на потребителите и регулациите относно суверенитета на данните, това е голямо предимство. Както се казва в един блог за edge AI, обработката на устройството означава, че „потребителските данни не е необходимо да се предават в облака“, осигурявайки базово ниво на поверителност nimbleedge.com. (Разбира се, поверителността не е автоматична – разработчиците все пак трябва внимателно да боравят със съхраняваните данни – но е по-лесно да се доверим на устройства, които не изпращат постоянно информацията ви навън.) Технологичните изпълнителни директори често подчертават този аспект. Главният изпълнителен директор на Qualcomm Кристиано Амон отбелязва, че комбинирането на облачен и локален интелект може да подобри персонализацията докато данните остават защитени на устройството – той го нарича „хибридно бъдеще“, където AI на устройството си сътрудничи с облачния AI за най-доброто от двата свята moomoo.com.
- Офлайн достъпност и надеждност: Устройства с NPU/TPU не зависят от свързаност. Те могат да работят в тунел на метрото, в самолет, в отдалечени селски райони или при прекъсвания на мрежата. Това е огромно предимство за надеждността. Функция за гласово диктуване на устройството ще работи дори без сигнал. Дрон с борден AI за зрение може да избягва препятствия дори извън мрежа. Тази независимост е критична и за системи с критично значение: напр. роботи за възстановяване при бедствия или медицински устройства, които не могат да разчитат на постоянна интернет връзка. „Офлайн функционалността“ е основно предимство на AI на устройството nimbleedge.com – тя гарантира, че AI функцията е налична винаги и навсякъде, когато е необходима.
- Икономическа ефективност в мащаб: Постоянното изпращане на сурови данни в облака за AI обработка може да бъде много скъпо (облачните изчисления не са безплатни) и да изисква голяма честотна лента. С разпространението на AI функциите, компаниите ще трябва да плащат огромни сметки за облачна обработка, ако всяка малка задача се изпраща към сървър. Като се прави повече на edge-а, се намалява натоварването на облачните сървъри и използването на мрежата. Често е по-ефективно да се похарчат няколко допълнителни долара за по-добър чип в устройството, отколкото да се плаща за гигабайти облачни изчисления през целия живот на устройството. Анализ на индустрията от Futurum отбелязва, че обработката на устройството помага за справяне с проблемите на генеративния AI, свързани с мащабирането и разходите – тя „разпределя“ натоварването, така че центровете за данни да не се претоварват (и потребителите/разработчиците да не плащат прекомерно за облачно GPU време) futurumgroup.com.
- Персонализация и контекст: Нововъзникваща причина: AI на устройството може да се учи от и да се адаптира към локалния контекст по начин, по който облачният AI може и да не успее. Вашият смартфон може да поддържа малък локален модел, който научава вашия стил на писане за по-добра автокорекция, без да споделя този личен езиков модел в облака. Устройствата могат да обединяват данни от множество сензори в реално време (нещо, което е по-лесно да се прави локално, отколкото да се стриймват множество сензорни потоци към облака). Това може да позволи по-персонализирано и контекстуално осъзнато изживяване. Някои функции като федеративно обучение дори позволяват на устройствата да подобряват AI моделите съвместно, без да качват сурови данни (изпращат се само малки актуализации на теглата).
- Регулации и суверенитет на данните: Закони като GDPR на Европа и различни изисквания за локализация на данни все по-често изискват определени данни (особено лични или чувствителни данни) да не се изпращат в чужбина или на трети страни без съгласие. AI на устройството предлага начин за спазване на тези изисквания чрез обработка на данните на място. Например, AI инструменти за медицински изображения могат да работят на хардуера на болницата (edge сървъри с NPU), така че данните на пациентите никога да не напускат обекта, което отговаря на изискванията за поверителност. Докладът на NimbleEdge за 2025 г. посочва, че правителствата настояват за повече локално инфериране поради причини за суверенитет и съответствие nimbleedge.com.
Всички тези фактори водят до смяна на парадигмата: вместо да се мисли „cloud-first“ за AI, компаниите сега проектират AI функции „device-first“, когато е възможно. Както обобщава вицепрезидентът по AI на Qualcomm, Дурга Малади: „За да се мащабира ефективно генеративният AI до масовия пазар, AI ще трябва да работи както в облака, така и на устройства в edge… като смартфони, лаптопи, превозни средства и IoT устройства“ iconnect007.com. Преминаваме към хибриден AI свят, където тежкото обучение и големите модели може да са в облака, но много задачи по инфериране и персонални AI изживявания се изпълняват локално на NPU/TPU във вашите ръце и домове. Всъщност, Амон го нарича „преломен момент в AI“ – инфериране на устройството без закъснение, където „бъдещето на AI е лично“, защото работи точно там, където сте вие x.com.
AI на устройството в действие: от смартфони до самоуправляващи се коли
Специализирани AI чипове вече са вградени в широка гама устройства около вас, често невидимо правейки ги по-умни. Ето някои основни области, където се използват NPU и edge TPU:
- Смартфони и таблети: Почти всички съвременни флагмански телефони (и дори много от средния клас) вече включват NPU или специален AI двигател. Apple започна тази тенденция през 2017 г. с Apple Neural Engine в чипа A11 на iPhone, което позволи Face ID и Animoji да се изпълняват на устройството с до 600 милиарда операции в секунда apple.fandom.com. Днес чипът A17 Pro на Apple (2023) разполага с 16-ядрен Neural Engine, способен на 35 трилиона операции в секунда apple.fandom.com. Това захранва функции като разпознаване на сцени с камерата, стилове на снимки, гласови команди към Siri, обработвани офлайн, автокорекция, живи транскрипции и дори изпълнение на трансформър модели за превод на устройството. Телефоните Pixel на Google също имат персонализиран силиций (“Google Tensor” SoCs) с NPU: най-новият Tensor G3 в Pixel 8 е “специално проектиран да изпълнява AI моделите на Google”, като подобрява всяка част от чипа (CPU, GPU, ISP), за да проправи пътя за генеративен AI на устройството blog.google. Pixel 8 може да изпълнява най-новите модели на Google за преобразуване на текст в реч и превод локално, същите, които преди това бяха ограничени до центрове за данни blog.google. Той също така изпълнява сложни трикове с камерата като “Best Take” за групови снимки и Audio Magic Eraser с помощта на набор от AI модели на устройството blog.google. Samsung и други Android производители използват чипсети Snapdragon на Qualcomm, чиито най-нови NPU (Hexagon AI engine) могат дори да изпълняват големи езикови модели на телефона – Qualcomm демонстрира изпълнение на LLM с 10 милиарда параметъра и дори генериране на изображения със Stable Diffusion на телефон със Snapdragon 8 Gen 3 futurumgroup.com. AI двигателят на този чип е с 98% по-бърз от предишното поколение и поддържа INT4 прецизност за ефективност futurumgroup.com. Практически резултат: вашият телефон от 2024 г. може да прави неща като обобщаване на статии, отговаряне на въпроси или редактиране на снимки с AI без да е необходим облак. Дори функциите за достъпност се възползват: напр. Pixel телефоните вече имат гласово въвеждане, живи надписи и предстояща функция за описване на изображения на незрящи потребители чрез локален модел.
- Смарт камери и системи за сигурност: Камерите с изкуствен интелект използват вградени NPU за моментално разпознаване на хора, лица, животни или подозрително поведение. Например, най-новите камери за сигурност на EnGenius включват вграден NPU, който обработва разпознаването на обекти и преобразува видеото в метаданни директно в камерата, елиминирайки нуждата от отделен видеорекордер и повишавайки сигурността (тъй като видеото може да се анализира и съхранява локално) engeniustech.com. Това означава, че вашата камера за сигурност може да реши „има човек“ или „пратката е доставена“ и да изпрати само това известие, вместо да предава часове видео към облачна услуга. По същия начин, потребителски устройства като Google Nest Cam IQ имаха чип за визуално разпознаване на устройството (Google Edge TPU), за да разпознават познати лица и да различават хора от домашни любимци в зрителното поле. DSLR и безогледалните камери също добавят AI процесори за неща като проследяване на обекти, автофокус по очи и оптимизация на сцената в реално време. При дроновете, вградените AI чипове помагат за избягване на препятствия и визуална навигация без нужда от дистанционно управление. Особено, Edge TPU на Google (малък ASIC модул) се превърна в популярен аксесоар за DIY и индустриални IoT камери – осигурява 4 TOPS изчислителна мощност за задачи като разпознаване на хора или четене на регистрационни номера, като използва само ~2 вата coral.ai.
- Смарт домашни и IoT устройства: Освен телефоните, много смарт домашни джаджи имат мини NPU. Говорителите с гласово активиране (Amazon Echo, Google Nest Hub и др.) вече често включват чипове за локално разпознаване на реч. Amazon разработи AZ1 Neural Edge процесор за устройствата Echo, за да ускори разпознаването на ключовата дума на Alexa и отговорите на самото устройство, намалявайки закъснението наполовина embedl.com. AZ1 (създаден с MediaTek) изпълнява невронна мрежа, която разпознава „Alexa“ и обработва прости команди без да се свързва с облака embedl.com. Това не само прави Alexa по-бърза, но и запазва повече гласови данни поверителни. По същия начин, много нови телевизори, уреди и дори играчки имат някакъв AI на ръба – например камерата на смарт хладилник може локално да разпознава храни и срокове на годност. Носими устройства също заслужават внимание: чипът S9 на Apple Watch добави 4-ядрен Neural Engine за по-добро обработване на здравни AI алгоритми и заявки към Siri директно на часовника apple.fandom.com. А в индустриалния сектор, IoT сензори с NPU могат да извършват откриване на аномалии в данните от оборудването директно на ръба, като сигнализират само за релевантните събития нагоре по веригата (пестейки трафик и реагирайки по-бързо на проблеми).
- Автомобили (ADAS и автономност): Колите се превърнаха в AI центрове на колела. Системите за напреднала помощ на водача (ADAS) и функциите за самостоятелно шофиране разчитат на набор от бордови AI ускорители, за да интерпретират видео от камери, LiDAR, радар и да вземат решения за шофиране за части от секундата. Tesla стана известна с това, че проектира своя собствен FSD (Full Self-Driving) компютър с два NPU чипа. FSD чипът на Tesla (HW3, представен през 2019 г.) осигурява 144 TOPS (два NPU по 72 TOPS всеки); по-новият HW4 (2023) увеличава това до приблизително 200–250 TOPS общо (два 7nm NPU с по над 100 TOPS всеки) ts2.tech. Това позволява на колата да обработва видео с пълна резолюция от 8 камери, сонар и др., едновременно чрез невронни мрежи за възприятие и дори да изпълнява някои езикови модели за гласови команди – всичко това локално в модула на автомобила. Конкурентни платформи като NVIDIA Drive и Qualcomm Snapdragon Ride също интегрират NPU. Най-новият автомобилен суперкомпютърен чип на NVIDIA, Drive Thor, планиран за автомобили през 2025 г., се отличава с до 1,000 TOPS на един чип (и 2,000 TOPS при сдвояване на два чипа), за да поддържа автономност от ниво 4 ts2.tech. Той комбинира GPU, CPU и специализирани ускорители за дълбоко обучение, така че може да обработва всичко – от разпознаване на пътни знаци до AI за наблюдение на водача – директно на чипа ts2.tech. Тези NPU буквално спасяват животи: автономният автомобил не може да чака облачни сървъри, ако дете изскочи на пътя. Бордовият AI трябва да види и реагира в рамките на десетки милисекунди. Извън леките автомобили, edge AI се използва масово и в автономни дронове, роботи за доставки и индустриални превозни средства, които се ориентират и вземат решения с бордови NPU/TPU (например, роботите за доставки на Nuro и много системи за автономни камиони използват NVIDIA или Huawei AI чипове на устройството).
- Edge Computing и индустрия: В заводи и корпоративни среди, AI на устройството често приема формата на edge сървъри или гейтуеи с AI ускорители. Вместо да изпращат видео потоци или сензорни данни към централен облак, компаниите инсталират edge кутии (понякога базирани на GPU, понякога на NPU/FPGA) на място. Те обработват задачи като анализ на видео в реално време за контрол на качеството на производствена линия, откриване на дефекти чрез AI визия за микросекунди. Медицинските устройства са друг пример: преносим ултразвук или ЯМР може да има NPU за AI анализ на изображения на самото устройство, така че лекарите получават незабавна диагностична помощ без нужда от интернет връзка (което също е по-добро за поверителността на пациентските данни). Търговията на дребно и градовете също внедряват AI на edge – напр. умни трафик камери с NPU за анализ на задръствания и регулиране на светофарите, или камери по рафтовете в магазините, които следят наличностите. Много от тях използват специализирани NPU като Intel Movidius Myriad чипове или Google Edge TPU, или нови играчи като Hailo-8 (израелски NPU, който осигурява 26 TOPS при няколко вата за камери). Общото между тях е, че тези ускорители позволяват анализът да се случва локално, постигайки резултати в реално време и изпращайки по мрежите само обобщени изводи (а не сурови данни).
Многофункционалността на NPU/TPU в различни типове устройства е впечатляваща. В един момент те позволяват на телефона ви да замъглява фона на снимка с AI, а в следващия – управляват дрон или сканират медицински изображения. Камерите на смартфоните вече използват NPU за функции като Night Mode (интелигентно обединяване на няколко кадъра), портретен режим с боке ефект, разпознаване на сцени (телефонът ви разбира, че снимате „залез“ и оптимизира цветовете чрез AI), както и за забавни AR ефекти (Animoji, които картографират лицето ви, или Snapchat филтри, които следят движенията ви – всичко това благодарение на невронни мрежи на устройството). Биометрията използва NPU: скенери за пръстови отпечатъци, подобрени с AI за разпознаване на жив човек, отключване с лице с дълбочинни сензори плюс AI. Аудиото също ги използва: шумопотискането в слушалки и телефони вече често е AI-базирано, като NPU отделя гласа от фоновия шум в реално време.
Конкретен пример за иновация през 2024: Oppo (производителят на смартфони), в партньорство с MediaTek, обяви, че е внедрил Mixture-of-Experts (MoE) AI модел директно на устройството в края на 2024 – според съобщенията първият, който го прави в телефон grandviewresearch.com. Тази усъвършенствана невронна архитектура (MoE) може да повиши производителността, като активира само релевантните „експертни“ подмрежи за всяка задача, а изпълнението на устройството означава, че телефоните на Oppo могат да постигнат по-бърза AI обработка и по-добра енергийна ефективност при сложни задачи, без нужда от облачна помощ grandviewresearch.com. Това подчертава как дори най-новите AI изследвания бързо намират път към нашите мобилни устройства чрез подобрени NPU.
Вътре в AI чиповете на 2025: най-новите разработки от Apple, Google, Qualcomm и други
Надпреварата за създаване на по-добър AI хардуер на устройството се разгорещи бързо. Ето какво пуснаха основните компании напоследък (2024–2025) по отношение на NPU/TPU и AI силиций:
- Apple: Стратегията на Apple за персонализирани чипове отдавна акцентира върху машинното обучение на устройството. Всяка година Neural Engine на Apple става все по-мощен. В iPhone 15 Pro от 2023 г., Neural Engine на чипа A17 Pro достигна 35 TOPS (трилиона операции в секунда) с 16 ядра apple.fandom.com. Това беше двойно по-голяма сурова производителност от NPU на A16, а Apple използва това, за да позволи функции като разпознаване на реч на устройството за Siri (най-накрая обработвайки много заявки към Siri без интернет) и нови възможности на камерата (като автоматично заснемане в режим Портрет и превод на текст на живо чрез камерата). Чиповете на Apple за 2024 г. продължиха тенденцията: фамилията M3 за Mac (края на 2023 г.) получи обновен Neural Engine (интересно, настроен за 18 TOPS при базовия чип M3, с фокус върху ефективността) apple.fandom.com. През 2024 г. Apple представи M4 чипа (за висок клас iPad/Mac, средата на 2024 г.), който според съобщенията увеличава Neural Engine до 38 TOPS на усъвършенстван 3nm процес apple.fandom.com. Освен просто числата, Apple използва този NPU: функции като Personal Voice (който създава клонинг на гласа на потребителя след 15 минути обучение) работят частно на Neural Engine в iPhone, а Live Voicemail транскрипции се случват локално. Apple също е интегрирала NPU във всички свои класове устройства – дори AirPods Pro имат малък неврален чип за Adaptive Audio. Ръководителите на Apple често подчертават аспекта на поверителността: „машинно обучение на вашето устройство“ означава, че вашите данни остават при вас. До 2025 г. очакваме Neural Engine на Apple да се разшири още или да стане достъпен за приложения на трети страни по нови начини (вече Core ML позволява на разработчиците да го използват, но Apple може да отвори още неврални API достъпи). Има и слухове, че Apple проектира самостоятелен AI ускорител за бъдещи очила или автомобили, но настоящите продукти показват, че предпочитат интегрирани NPU в своите SoC от сериите A и M.
- Google: Google не само че беше пионер в облачните TPU, но и удвои усилията си върху AI на устройството за Pixel телефони и потребителски устройства. Google Tensor SoC (въведен за първи път през 2021 г. в Pixel 6) беше уникален, тъй като Google, известна с облака си, създаде чип за телефон, който да изпълнява AI директно на устройството. При Tensor G3 (в Pixel 8 от 2023 г.) Google подчерта подобренията, които позволяват генеративен AI на устройството. Google изрично заяви, че чипът на Pixel 8 носи „AI изследванията на Google директно в най-новите ни телефони“ blog.google. Новото поколение TPU в Tensor G3 (Google все още нарича AI ядрото „TPU“ вътрешно) позволява на Pixel да изпълнява напреднали модели като Palm 2 или Gemini Nano (олекотени версии на големите езикови модели на Google) на самото устройство за функции като обобщаване на уебсайтове или подобрения в гласовото въвеждане reddit.com. Една от водещите функции: Pixel 8 може да изпълнява най-добрия модел за преобразуване на текст в реч на Google (този, който се използва в центровете за данни) локално, което позволява на телефона да чете уебстраници на глас с естествени гласове и дори да ги превежда в реално време, всичко това офлайн blog.google. Google също използва TPU в Pixel за фотография („HDR+“ многокадрова обработка, Magic Eraser премахване на обекти чрез AI inpainting blog.google), за сигурност (отключване с лице на устройството чрез AI, което вече се счита за достатъчно сигурно за плащания blog.google), и за реч (Асистентът, който не се притеснява, ако кажете „ъъъ“). Извън телефоните, Google предлага Coral Dev Board и USB стик за ентусиасти и предприятия, които искат да добавят Edge TPU към своите проекти, като всеки съдържа Edge TPU на Google, който осигурява 4 TOPS за задачи с компютърно зрение при много ниска консумация на енергия coral.ai. Използва се и в някои от собствените продукти на Google, като Nest Hub Max за разпознаване на жестове. За Google интегрирането на TPU на edge е част от по-широка стратегия: Сундар Пичай (CEO на Google) е казал, че бъдещето на AI е да допълва всяко изживяване, и очевидно Google смята, че „за да донесеш трансформиращата сила на AI в ежедневието, трябва да имаш достъп до него от устройството, което използваш всеки ден“ blog.google – затова са Tensor чиповете. Можем да очакваме Tensor G4 в късните Pixel телефони през 2024 г., вероятно изграден по по-нова технология на Samsung или TSMC, с още по-добра AI производителност и ефективност, а може би дори и с възможности за мултимодален AI на устройството (комбиниране на модели за зрение+език).
- Qualcomm: Водещият доставчик на мобилни чипове за Android телефони агресивно промотира своя AI Engine в серията Snapdragon. Snapdragon 8 Gen 2 (края на 2022 г.) въведе специална поддръжка на INT4 и демонстрира генериране на изображения със стабилна дифузия в реално време на телефон. Snapdragon 8 Gen 3 (обявен в края на 2023 г., във флагманските телефони от 2024 г.) е значителен скок: Qualcomm твърди, че Hexagon NPU е 98% по-бърз от този на Gen 2 и с 40% по-енергоефективен futurumgroup.com. Този чип може да изпълнява големи езикови модели с до 10 милиарда параметъра изцяло на устройството, обработвайки около 20 токена в секунда – достатъчно за прости разговори с AI асистент без облак futurumgroup.com. Той също така постигна „най-бързото в света Stable Diffusion“ генериране на изображения на мобилно устройство в демонстрации futurumgroup.com. Qualcomm открито заявява, че генеративният AI на устройството е ключова точка за продажба на новите телефони. Например, те си партнират с Meta за оптимизиране на отворения код на Llama 2 LLM за Snapdragon, с цел да ви позволят да стартирате AI чатбот на телефона си до 2024 г. iconnect007.com. (Един от ръководителите на Qualcomm каза: „аплодираме отворения подход на Meta… за да се мащабира генеративният AI, той трябва да работи както в облака, така и на edge“, подчертавайки философията за edge AI iconnect007.com.) Освен в телефоните, Qualcomm поставя NPU и в чипове за лаптопи (Snapdragon compute платформи за Windows on ARM) – а автомобилната им платформа Snapdragon Ride използва същите AI ядра, за да предложи до 30 TOPS за ADAS, с пътна карта към стотици TOPS. През 2025 г. Qualcomm дори обяви нов Snapdragon X Elite CPU за PC, който включва мощен NPU, сигнализирайки намерение да предизвика Apple и Intel по отношение на AI производителността в персоналните компютри. С нарастването на AI на устройството, Qualcomm дори брандира някои телефони като „AI телефони“. Те прогнозират, че много приложения (от фотография до съобщения и продуктивност) ще използват NPU. От софтуерна страна, Qualcomm пусна Qualcomm AI Stack, за да обедини поддръжката на популярни фреймуъркове (TensorFlow Lite, PyTorch, ONNX) на своите NPU iconnect007.com – опитвайки се да улесни разработчиците да използват AI хардуера без дълбоки познания за чиповете.
- MediaTek: Вторият по големина производител на мобилни чипове (известен със серията Dimensity) също е подобрил своите NPU. MediaTek нарича своите AI двигатели „APU“ (AI Processing Unit). Например, Dimensity 9200+ (2023) има шесто поколение APU със значително повишена производителност спрямо предишния чип, което позволява функции като on-device stable diffusion и AI шумопотискане във видеа. През 2024 г. MediaTek обяви Dimensity 9400, а в партньорство с Oppo използва своята усъвършенствана NPU архитектура, за да въведе нови AI функции (както беше споменато, AI ремастерирането на снимки с премахване на отражения и изчистване на размазвания в Oppo Find X8 се задвижва от NPU на MediaTek) mediatek.com. Ръководителите на MediaTek изрично се позиционират като лидери в областта на AI на устройството. Както казва Уил Чен от MediaTek, „бъдещето на AI надхвърля облака; то се задвижва от edge computing директно от дланта на ръката ви.“ Според тях AI на телефоните трябва да бъде бърз, личен, сигурен и винаги достъпен mediatek.com. MediaTek дори създаде „APU-центрирано“ сътрудничество с Meta за поддръжка на Llama фреймуъркове и с производители на устройства като Oppo и Xiaomi, фокусирайки се върху AI камера и AI гласови функции. До 2025 г. MediaTek планира да внедри тези NPU не само в телефони, но и в смарт телевизори (за AI upscaling и подобряване на картината), IoT устройства, и дори автомобили (MediaTek има автомобилна AI платформа и е в партньорство с Nvidia за интегриране на Nvidia GPU IP за автомобили, като вероятно предоставя собствен NPU за AI на сензорите).
- Intel: 2024 отбеляза навлизането на Intel в AI ускорителите за масовите компютри. 14-тото поколение Core на Intel (Meteor Lake, пуснат през декември 2023 и ребрандиран като Core Ultra през 2024) е първият x86 процесор за компютри с вграден невронен процесорен модул (NPU). NPU-то на Meteor Lake (понякога наричано VPU – Vision Processing Unit – базирано на технологията Movidius на Intel) осигурява около 8–12 TOPS AI производителност pcworld.com. Това се използва за ускоряване на AI функциите на Windows 11 като замъгляване на фона, контакт с очите по време на видео разговори и може да се използва от приложения за неща като локална транскрипция, потискане на шум или дори малки AI асистенти. Microsoft и Intel заедно популяризират концепцията за “AI PC”. Intel твърди, че тези NPU ще бъдат доставени в десетки милиони лаптопи през 2024 pcworld.com. След Meteor Lake, пътната карта на Intel споменава Arrow Lake (за настолни компютри през 2024), който също включва NPU (около 13 TOPS, леко подобрен) pcworld.com. Интересно е, че първият опит на Intel за настолен NPU всъщност беше надминат от AMD (виж по-долу), а Intel избра да използва по-скромен дизайн на NPU, за да не жертва площта на GPU/CPU при чиповете за ентусиасти pcworld.com. Но към края на 2024 Intel сигнализира, че бъдещите чипове Lunar Lake ще имат много по-мощен NPU (~45 TOPS), за да отговорят на изискванията на Microsoft за “Copilot” pcworld.com. Всичко това показва, че Intel вижда AI като задължителен елемент за компютрите в бъдеще – не за обучение на огромни модели, а за ускоряване на ежедневните AI-базирани преживявания (от подобрения в офис пакета до креативни инструменти с локален AI). Intel също така продава edge AI ускорители като Intel Movidius Myriad чипове (използвани в някои дронове, камери) и Habana ускорители за сървъри, но интегрираният NPU на Meteor Lake е важен етап, който носи AI до обикновения потребителски уред.
- AMD: AMD се включи в on-device AI приблизително по същото време. Лаптоп процесорите Ryzen 7040 серия (Phoenix), пуснати през 2023 г., включваха първия Ryzen AI Engine – по същество интегриран XDNA NPU (технология от придобиването на Xilinx от AMD). Този NPU осигуряваше до 10 TOPS на мобилния чип en.wikipedia.org. AMD изтъкна приложения като видео разговори с AI подобрения, продуктивни приложения и т.н., подобно на целите на Intel. След това AMD за кратко пусна настолната серия Ryzen 8000 (началото на 2024 г.) с NPU, достигащ 39 TOPS – много висока стойност за AI модул на универсален процесор, дори надминаваща плановете на Intel pcworld.com. Въпреки това, AMD бързо промени курса и пропусна едно поколение, фокусирайки се върху следващата си архитектура (следващият Ryzen 9000 в края на 2024 г. премахна NPU, за да се даде приоритет на ъпгрейдите на ядрата) pcworld.com. Въпреки това се очаква AMD да върне NPU в бъдещите си PC чипове (вероятно е временно отстъпление, докато работят по интегриране на мощен AI модул без компромис с другите характеристики). От продуктова гледна точка, NPU на AMD могат да позволят интересни неща, тъй като AMD има и силни GPU – комбинацията може да обработва AI задачи съвместно (някои части на NPU, други на GPU). AMD също така вгражда AI ядра в своите адаптивни (FPGA-базирани) SoC и автомобилни чипове. В обобщение, до 2025 г. всички x86 производители на PC чипове са възприели NPU, в съответствие с това, което смартфоните направиха преди няколко години, което показва, че AI ускорението се превръща в стандартна функция навсякъде.
- Други: Разнообразие от специализирани чип компании и други технологични фирми също иновират в областта на NPU. NVIDIA, известна с GPU-тата си, вече включва специализирани Tensor Cores в своите GPU и предлага отворен NVDLA (ускорител за дълбоко обучение) дизайн за интеграция в System-on-Chip продукти. В edge устройства като серията NVIDIA Jetson (използвани в роботи, дронове, вградени системи), има както GPU, така и фиксирани “DLA” – по същество NPU – които поемат част от инференса на невронни мрежи от GPU-то. Например модулът Orin на NVIDIA има 2 DLA в допълнение към GPU-то си, което допринася за 254 TOPS AI производителност за автомобили ts2.tech. Apple се говори, че работи по още по-усъвършенствани AI копроцесори или по-големи невронни енджини за своите AR очила или бъдещи проекти, макар че подробностите са тайна. Huawei (въпреки геополитическите предизвикателства) продължава да проектира мобилни чипове Kirin с NPU (тяхната “DaVinci” NPU архитектура), както и сървърни NPU в AI чиповете Ascend – техният чип Kirin 9000S от 2023 reportedly запазва силен NPU за задачи с изображения и език на телефоните им. Виждаме и стартъпи като Hailo, Mythic, Graphcore и други, които предлагат собствени edge AI чипове: напр. Hailo-8 както бе споменато (26 TOPS в mini PCIe карта за AI камери), Graphcore’s IPU за дейтацентрове (не точно on-device, но нова архитектура за невронни мрежи), Mythic работи по аналогови NPU и др. ARM, чиито дизайни са в основата на повечето мобилни чипове, предлага Ethos NPU серията (като Ethos-U, Ethos-N78), която производителите на чипове могат да интегрират за готов AI ускорител в IoT или среден клас SoC. Това позволи дори на сравнително по-малки играчи да включат NPU в чиповете си чрез лицензиране на ARM дизайна.
В крайна сметка, от големите технологични компании до стартъпите, всички инвестират в AI хардуер на устройството. В резултат виждаме бързи подобрения: нови чипове с по-високи TOPS, по-добра ефективност (TOPS на ват) и поддръжка на нови типове данни (като 4-битова квантизация за по-големи модели). Например, последните на Qualcomm и MediaTek могат да работят с INT4 прецизност, което е чудесно за генеративни AI модели, където пропускателната способност на паметта е ограничител androidauthority.com. Тези иновации се превръщат директно в ползи за потребителите – напр. AI видео редактиране в реално време на мобилни устройства (премахване на обекти от 4K видео в движение, както Snapdragon 8 Gen 3 може с функцията “Video Object Eraser” futurumgroup.com), или AI копроцесори в автомобили, които позволяват гласови асистенти да работят без мрежа и да отговарят толкова бързо, колкото човешки разговор.
Ключови новини от 2024–2025: Лансирания, бенчмаркове и партньорства
За да илюстрираме колко бързо се развиват нещата, ето някои заглавни събития в света на NPU/TPU и AI на устройството от края на 2024 до 2025:
- Представяне на Apple M3 и M4 (окт 2023 и май 2024): Донесоха следващо поколение Neural Engines. Neural Engine на M3 постига 18 TOPS (16-ядрен), а M4 скочи до 38 TOPS (отново 16-ядрен, но с по-висока честота/ефективност) apple.fandom.com. Apple демонстрира тези чипове при изпълнение на интензивни задачи като генериране на изображения чрез stable diffusion директно на macOS устройство (с Core ML Stable Diffusion, разработчиците показаха ~15 секунди за генериране на изображение на M2 – още по-бързо на M3/M4).
- Пускане на Google Pixel 8 (окт 2023): Акцент върху ИИ „навсякъде“ в устройството. Събитието на Google демонстрира обобщаване на уеб страници и превод на статии в реално време на Pixel 8 чрез Tensor G3 NPU. Представен беше и „Assistant with Bard“, който в бъдеще ще изпълнява някои взаимодействия директно на устройството. Google изтъкна, че Pixel 8 може да изпълнява 2× повече модели на устройството спрямо Pixel 6, и то модели, които са значително по-усъвършенствани blog.google. С други думи, огромен напредък само за две години развитие на Tensor чиповете.
- Партньорство Qualcomm–Meta (юли 2023): Qualcomm и Meta обявиха, че оптимизират големия езиков модел Llama 2 на Meta да работи изцяло върху Snapdragon NPU до 2024 г. iconnect007.com. Целта е да се даде възможност на разработчиците да внедряват чатботове и генеративни ИИ приложения на телефони, VR очила, компютри и др., без нужда от облак. Това беше значителна подкрепа за ИИ на устройството от голям собственик на ИИ модел (Meta) и голям производител на чипове. В края на 2024 г. те последваха с планове за оптимизация и на Llama 3 qualcomm.com.
- Microsoft Windows 11 “Copilot” компютри (2024): Microsoft въведе стандарт, наричайки компютри с >40 TOPS локално ИИ ускорение „AI компютри“, отговарящи на условията за разширени ИИ функции (като интеграция на дигиталния асистент Copilot). Това подтикна OEM производителите – Lenovo, Dell и др. – да използват чипове с NPU (независимо дали са Intel, AMD или Qualcomm), за да покрият изискванията. Резултатът е очаквана вълна от ИИ-способни лаптопи през 2024 г., като Microsoft твърди, че десетки модели са в процес на подготовка и прогнозира над 40 милиона доставки на AI компютри през 2024 г. pcworld.com.
- Краткият Ryzen 8000 NPU на AMD (януари 2024): AMD обяви настолен процесор с впечатляващ NPU от 39 TOPS (изненада, тъй като настолните чипове обикновено нямат такива ускорители) pcworld.com. Въпреки че този конкретен продукт бързо беше заменен, той показа, че дори настолните процесори могат да имат AI силиций, съперничещ на мобилните чипове по TOPS. Това беше и първият настолен x86 процесор с NPU (малко изпреварвайки Intel Arrow Lake).
- Демонстрации на Tesla FSD Beta v12 (края на 2023): Илон Мъск показа end-to-end AI шофиране (без радар, само vision мрежи), работещо на Tesla HW3/HW4 NPU. Забележително беше, че невронната мрежа управляваше колата, използвайки видео потоци, обработвани изцяло на бордовия компютър в реално време. Наблюдателите отбелязаха, че FSD v12 напълно използва 2× 100 TOPS NPU за vision, а Tesla намекна, че бъдещи ъпгрейди (HW5), насочени към 2000 TOPS, може да са в разработка, за да се справят с още по-големи модели (имаше слухове, че HW5 на Tesla може да цели 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
- NVIDIA Drive Thor разкрит (2024 GTC): NVIDIA разкри подробности за следващия си автомобилен чип, Drive Thor, който предлага еквивалента на 2× AI изчислителната мощ на предшественика си Orin – до 2000 TOPS при свързани два чипа ts2.tech. Значимо е, че Thor е представен като решение не само за задачи по шофиране, но и за in-cabin AI (като гласово разпознаване и мониторинг на пътниците) на една платформа, показвайки как NPU и GPU заедно могат да консолидират много AI функции в автомобилите ts2.tech. Няколко автомобилни производители (Xpeng, BYD, Volvo) обявиха, че ще използват Thor от 2025 г. ts2.tech.
- On-device MoE AI на Oppo (октомври 2024): Както беше споменато, Oppo внедри Mixture-of-Experts модел в телефона Find X8 grandviewresearch.com. Това е новина, защото MoE моделите обикновено са големи и се считаха за сървърни поради своята сложност. Изпълнението на MoE на устройството подсказва за нови техники в компресията на моделите и много способен NPU (вероятно MediaTek Dimensity 9400 в това устройство).
- AI очилата Ray-Ban на Meta (2025): (Очаква се) Meta показа прототипи на смарт очила, които могат да разпознават това, което виждате, и да ви говорят за него – вероятно използвайки вграден персонализиран ускорител (Meta прототипира персонализиран силиций за AR). Макар че подробностите са оскъдни, това подчертава стремежа да се внедри AI в много ограничени устройства (очила, безжични слушалки), което изисква ултра-ефективни NPU.
- MLPerf Mobile Inference Benchmarks (2023–24): MLCommons публикува резултати, показващи AI възможностите на най-новите смартфони. Например, в MLPerf Inference v3.0 (октомври 2023), Apple A16, Google Tensor G2 и Qualcomm Gen 2 бяха тествани на задачи като класификация на изображения и разпознаване на обекти. Данните показаха, че Apple и Qualcomm си разменят победи, но като цяло мобилните NPU наваксват разликата с някои лаптоп/десктоп ускорители за тези задачи – и всичко това на батерия. Освен това се подчертаха софтуерните разлики (напр. AI SDK на Qualcomm срещу Apple Core ML). Продължаващите подобрения всяка година (двуцифрени % ръстове) в тези бенчмаркове демонстрират здравословната конкуренция и бързия напредък в AI на устройството.
- Стратегически партньорства: Създадоха се много междуиндустриални партньорства. Например, NVIDIA и MediaTek (май 2023) обявиха сътрудничество за интегриране на Nvidia GPU IP и софтуерна екосистема в бъдещите смартфон и автомобилни чипове на MediaTek, ефективно съчетавайки AI силните страни на Nvidia с експертизата на MediaTek в мобилните SoC. Също така компании като Qualcomm си партнират с автомобилни производители (Mercedes, BMW), за да интегрират платформите Snapdragon Cockpit и Ride (с NPU) в нови превозни средства за AI функции. Arm си партнира с Fujitsu и други за нови AI чип дизайни (като AI секцията на суперкомпютъра Fugaku, макар че това е от висок клас). Дори IBM и Samsung загатнаха за нови чип технологии (като невроморфни изчисления и AI памет), които един ден могат да революционизират NPU – все още не са тук, но показват, че изследователските канали са пълни.
В обобщение, изминалата година беше изпълнена с развития, подчертавайки, че AI на устройството е една от най-горещите области в технологиите. Както отбеляза един индустриален анализатор, „тези възможности на устройството отключват изцяло нови хоризонти… изпълнението на LLM на мобилни устройства помага за мащабиране и намаляване на разходите, запазва данните частни и гарантира, че AI работи дори при ограничена свързаност“ futurumgroup.com. Това обобщава защо всяка голяма технологична компания инвестира тук.
Експертни мнения: Какво казват технологичните лидери за AI на устройството
Динамиката зад NPU и TPU е видима не само в продуктите, но и в думите на лидерите в индустрията. Ето няколко избрани цитата и гледни точки, които хвърлят светлина върху значението на AI на устройството:
- Кристиано Амон (CEO на Qualcomm): „Ако ИИ ще се мащабира, ще го видите да работи на устройства… Това бележи повратна точка в ИИ: без проблеми със закъснението — просто безпроблемно, сигурно, допълващо облака изчисление на устройството. Бъдещето на ИИ е лично и започва от вашето устройство.“ (Интервю за Bloomberg и публикация в X, 2023) x.com. Амон си представя хибриден ИИ свят, в който вашият телефон/компютър обработва много задачи самостоятелно чрез своите NPU, работейки с облака при нужда. Той подчертава, че локалното изпълнение на ИИ е ключът към неговата повсеместност (не може всичко да разчита на облачни GPU – няма достатъчно от тях в света за милиарди устройства).
- Дурга Малади (SVP, Qualcomm): „Приветстваме подхода на Meta към отворен и отговорен ИИ… За да се мащабира ефективно генеративният ИИ до масовия пазар, той трябва да работи както в облака, така и на устройства в периферията.“ iconnect007.com Малади казва това в контекста на партньорството с Meta. Това подчертава една обща гледна точка: мащабирането на ИИ = облак + периферия, работещи заедно. Вече има разбиране, че само облачен ИИ няма да е достатъчен (заради разходи, поверителност и закъснение), затова периферният ИИ трябва да поеме част от натоварването.
- Уил Чен (зам. генерален директор, MediaTek): „Бъдещето на ИИ надхвърля облака; то се движи от edge computing директно в дланта на ръката ви… OPPO и MediaTek са пионери в ИИ на устройството, като гарантират, че интелигентните възможности са мощни, бързи, поверителни, сигурни и винаги достъпни.“ (MediaTek Exec Talk, 2025) mediatek.com. Този цитат ясно обобщава стойността на ИИ на устройството – получавате производителност и достъпност плюс поверителност и сигурност. Показва също, че дори компании, традиционно по-малко видими на Запад (като MediaTek), мислят на ръба на ИИ внедряването.
- Д-р Норман Уанг (експерт по ИИ хардуер, CEO на стартъп за чипове): „В ИИ хардуера, колкото по-близо можеш да поставиш изчисленията до източника на данни, толкова по-добре. Става дума за намаляване на движението на данни. NPU до вашия сензор за изображения означава, че не изпращате мегапиксели към облака – извличате прозрения директно на периферията. Това променя играта по отношение на закъснение и енергия.“ (Панел на HotChips 2024 – перифразирано). Тази техническа гледна точка обяснява защо NPU често са на същия чип като други компоненти: например, в SoC на телефон, NPU може директно да вземе данни от камерата чрез ISP. Минимизирането на движението на данни е огромна част от ефективния ИИ, а edge AI го постига чрез обработка на източника на данните.
- Синчжоу Ву (вицепрезидент „Автомобили“, NVIDIA): „Ускорените изчисления доведоха до трансформативни пробиви, включително генеративния ИИ, който преосмисля автономията и автомобилната индустрия.“ (Основен доклад на GTC 2024) ts2.tech. Той обсъждаше как мощните бордови компютри (с NPU/GPU) позволяват на автомобилите не само да се движат самостоятелно, но и потенциално да включват напреднал ИИ като генеративни модели за неща като естественоезикови интерфейси в колата или по-добро разбиране на ситуации. Това подчертава, че дори сектори като автомобилния разглеждат ИИ на устройството не само като основна функционалност, но и като начин за подобряване на потребителското изживяване (например гласови асистенти в колите, които могат да водят разговори благодарение на бордовите LLM).
- Сундар Пичай (CEO на Google): „Бъдещето на ИИ е да го направим полезен за всички. Това означава да вкараме ИИ във всички устройства, които използваме – телефони, уреди, автомобили – така че да е там, когато ви трябва. Искаме да срещнем потребителите там, където са, с ИИ, който работи в реално време, на място и запазва поверителността.“ (Парафразирано от няколко интервюта/основни доклади). Пичай често говори за „амбентен ИИ“ – идеята, че ИИ ще бъде навсякъде около нас, вграден в нещата. Стремежът на Google с чиповете Tensor в Pixel е директно изпълнение на тази философия.
- Статистика от индустрията: Анализаторите наблюдават тенденцията в числа. Доклад на Grand View Research от 2024 г. отбелязва: „Последните постижения в специализирани ИИ чипове и NPU позволиха сложни ИИ алгоритми да работят директно на устройствата, значително подобрявайки производителността и енергийната ефективност… ние сме на прага на ключов преход към ИИ на устройството.“ grandviewresearch.com. Същият доклад прогнозира, че пазарът на ИИ на устройството ще експлодира през следващите години, като хардуерният сегмент (NPU и др.) ще съставлява над 60% от приходите през 2024 г. и ще расте, тъй като почти всяко ново IoT или мобилно устройство ще приема ИИ възможности grandviewresearch.com. Друга прогноза на IDC и други сочи, че до средата на 2020-те почти всички висок клас смартфони и повечето от средния клас ще имат ИИ ускорители, а до 2030 г. милиарди edge ИИ чипове ще се използват – от потребителска електроника до интелигентна инфраструктура.
Консенсусът сред експертите е, че ИИ на устройството не е просто нещо хубаво – той е съществен за следващата технологична вълна. Пионерът в ИИ Андрю Нг често споменава, че „мини ИИ“ и edge ИИ ще позволят интелигентността да проникне във всеки обект, подобно на електричеството или интернет в предишни епохи. Преодолявайки ограниченията на ИИ само в облака, NPU и TPU правят това проникване възможно.
Предизвикателството с многото стандарти (и усилията за опростяване)
Докато хардуерът се развива бързо, екосистемата от софтуер и стандарти за AI на устройството все още наваксва. Разработчиците се сблъскват с джунгла от инструменти и SDK, когато се опитват да използват NPU на различни устройства nimbleedge.com. Основни моменти:- Всяка платформа има свой собствен API или SDK: Apple разполага с Core ML (с API за насочване към Neural Engine), Android има Neural Networks API (NNAPI) (макар че Google обяви планове да го развие след Android 14) threads.com, Qualcomm предлага SNPE (Snapdragon Neural Processing Engine) или по-общо Qualcomm AI Stack, NVIDIA има TensorRT и CUDA за своите устройства и т.н. Съществуват също ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI и други. Тези различни SDK често имат различни възможности и изискват модели да бъдат променяни, за да работят оптимално на всяка целева платформа. Както се отбелязва в доклад за AI на устройството от 2025 г., „Множество, несъвместими SDK (напр. Core ML, LiteRT, ONNX Runtime) с различна поддръжка на оператори и производителност“ принуждават разработчиците да вършат допълнителна работа nimbleedge.com.
- Проблеми с фрагментацията: Модел, който работи перфектно на настолен GPU, може да не работи веднага на NPU на телефон – операторите (математическите функции) може да не се поддържат или да трябва да се квантизират по различен начин. Понякога разработчиците трябва да поддържат отделни билдове или ръчно да оптимизират моделите за всеки хардуер. Това е оплакването за „ниско ниво, фрагментирана екосистема“ nimbleedge.com. Инструментите за дебъгване също са оскъдни – профилирането на NPU, за да се види защо даден модел е бавен, може да е трудно, особено в сравнение с богатите инструменти за CPU/GPU nimbleedge.com.
- Усилия за стандартизация: За да се справим с това, се случват няколко неща. ONNX (Open Neural Network Exchange) се появи като общ формат, така че можете да тренирате модел в PyTorch или TensorFlow и след това да го експортирате в ONNX за внедряване. Много среди за изпълнение (включително такива на устройства като тези на Qualcomm и MediaTek) поддържат зареждане на ONNX модели и ще се опитат да ги компилират за съответния хардуер. Това помага да се избегне заключване към една рамка. Android NNAPI беше опит на Google да предостави универсален интерфейс – приложението може да поиска „изпълни тази невронна мрежа“ чрез NNAPI и операционната система ще използва какъвто и да е наличен ускорител (GPU, DSP или NPU), за да я изпълни. NNAPI беше възприет в много Android устройства, но имаше ограничения и не всички производители предоставиха стабилни драйвери, което доведе до това Google да посочи нова стратегия (възможно е да се опира на WebNN или директни интеграции с производители) след 2024 threads.com. При компютрите, Microsoft въведе DirectML и Windows ML API, за да абстрахира по подобен начин хардуерните разлики (позволявайки на разработчиците да използват един и същ API за NVIDIA, Intel, AMD NPU).
- Унифицирани инструментални вериги: Компаниите също така изграждат инструментални вериги за улесняване на внедряването. Видяхме AI Stack на Qualcomm, който комбинира техния компилатор (AI Model Efficiency Toolkit) и среди за изпълнение, така че разработчиците да могат по-лесно да насочват към Hexagon NPU iconnect007.com. TensorRT и свързаните SDK на NVIDIA правят нещо подобно за Jetson устройствата, оптимизирайки моделите за GPU+NVDLA. Intel OpenVINO е друг пример – позволява да вземете модел и да го оптимизирате за Intel CPU, iGPU и VPU (NPU) за edge внедряване. Тези рамки често включват оптимизатори на модели, които преобразуват моделите (рязане, квантизация), за да се поберат на по-малки устройства.
- Интероперативност: Има движение към това различни NPU да работят с общи рамки. Например, TensorFlow Lite на Google има хардуерни делегати – един за NNAPI (покрива Android устройства по принцип), един за Core ML (iOS устройства), един за Edge TPU и др. Идеята е, че пишете своя TFLite модел и той ще се изпълнява с най-добрия наличен ускорител чрез делегата. По подобен начин PyTorch добавя поддръжка за мобилни бекендове и дори неща като Metal Performance Shaders на Apple (за използване на GPU/NPU на iOS). ONNX Runtime също може да насочва към различни ускорители чрез плъгини (например може да се включи TensorRT на NVIDIA или Compute Library на ARM или други под капака).
- Появяващи се стандарти: Khronos Group (зад OpenGL/Vulkan) работи по NNEF (Neural Network Exchange Format) и се обсъжда WebNN API за браузърите, за да имат достъп до локално AI ускорение. Все още никой не е универсално възприет. Но едно интересно развитие: в края на 2024 няколко компании създадоха алианс за насърчаване на “AI Hardware Common Layer” стандарти – по същество, изследване дали може да се създаде общ нискониво интерфейс към NPU (аналогично на това, което OpenCL направи за изчисленията на GPU). Все още е рано.
- Опит на разработчиците: Това е призната празнина. Както се казва в блога на NimbleEdge, „разработването за AI на устройството в момента изисква навигиране в фрагментирана и нискониво екосистема… принуждавайки разработчиците да адаптират имплементации за всяка хардуерна цел“ nimbleedge.com. Индустрията знае, че това трябва да се подобри, за да може AI на устройството наистина да стане масов. Може да видим консолидация – например, ако Google, Apple и Qualcomm се споразумеят за някакъв основен набор от операции и API (може би пожелателно мислене). Или по-вероятно, рамки като PyTorch и TensorFlow ще скрият сложността, като интегрират всички тези вендорски библиотеки и избират правилната по време на изпълнение.
В същността си, докато NPU/TPU осигуряват „мускулите“, общността работи върху инструменти, приятелски към мозъка, за да използва тези „мускули“. Добрата новина е, че в сравнение с преди пет години, например, сега има много повече възможности да се внедри модел на устройството, без да си чип експерт. Но има място за развитие – особено в дебъгване, профилиране и поддръжка на много хардуер.
Пазарни тенденции и бъдещи перспективи
Разпространението на NPU и TPU в устройствата движи по-голяма тенденция: AI навсякъде. Ето някои основни тенденции и какво да очакваме занапред:
- Ръст на пазара на Edge AI: Пазарните проучвания показват експлозивен ръст на хардуера за edge AI. Пазарът на AI на устройството (включително чипове и софтуер) се очаква да расте с около 29% средногодишен ръст през десетилетието nimbleedge.com. Един доклад го оценява на ~$233 милиарда през 2024 г., като се очаква да достигне над $1,7 трилиона до 2032 г. nimbleedge.com – голяма част от този ръст ще се дължи на edge внедрявания. Друг анализ на IDTechEx прогнозира, че пазарът на AI чипове за edge устройства ще достигне $22 милиарда до 2034 г., като най-големите сегменти ще са потребителската електроника, автомобилостроенето и индустрията idtechex.com. Това означава стотици милиони устройства годишно, които ще се доставят с NPU като стандартен компонент.
- Повсеместно приемане: Подобно на това, че всеки смартфон днес има GPU (дори и малък), достигаме до момента, в който всеки нов смартфон ще има AI ускорител. Високият клас телефони вече ги имат; следващите са средният клас. Всъщност, чиповете от среден клас на Qualcomm (напр. серия Snapdragon 7) и MediaTek (серия Dimensity 700/800) вече включват олекотени NPU, така че функции като AI подобрения на камерата и гласов асистент да работят и на по-евтини устройства. Извън телефоните, NPU се разпространяват към PC-та (стандартно в новите Windows лаптопи от различни производители), автомобили (почти всички нови автомобили с ADAS Level 2+ имат някакъв вид AI чип) и IoT. Дори уреди като хладилници и перални започват да рекламират “AI” функции (някои от които са базирани в облака, но други са локални, като адаптивни цикли според сензори). Тенденцията е ясна: ако едно устройство има изчислителен чип, то ще има някакво ML ускорение на този чип.
- Траектория на производителността: AI производителността на устройството се удвоява приблизително на всеки 1–2 години (комбинация от по-добра архитектура и преминаване към напреднали полупроводникови възли като 5nm, 4nm, 3nm). Neural Engine на Apple се увеличи от 600 милиарда операции/сек през 2017 до 35 трилиона през 2023 – почти 60× увеличение за шест години apple.fandom.com. Флагманите на Qualcomm също скочиха от няколко TOPS през 2018 до над 27 TOPS през 2023 (общият AI изчислителен капацитет на SD 8 Gen 3, като се броят всички ядра). Можем да очакваме до 2025–2026 мобилни NPU с над 100 TOPS, а PC ускорителите – дори повече, като тези цифри може да станат по-малко релевантни, тъй като фокусът се измества към ползваема производителност при конкретни AI задачи (например, колко голям LLM може да се изпълнява гладко, или може ли да се прави 4K AI видео в реално време). Разликата между облака и edge устройствата вероятно ще се стесни за inference задачи. Въпреки това, edge устройствата ще изостават от облака за най-новите големи модели поради ограничения в мощността и паметта.
- Печалби в енергийната ефективност: Един подценяван аспект е колко ефективни стават тези NPU. Автомобилният NPU на Tesla постига ~4.9 TOPS/ват fuse.wikichip.org, което беше върхово постижение преди няколко години; сега някои мобилни NPU твърдят подобни или по-добри резултати. Ефективните NPU означават по-дълъг живот на батерията, дори когато използваме повече AI функции. Това също означава, че поставянето на AI в малки устройства на батерии става възможно (напр. AI слухови апарати, смарт сензори, работещи с батерии тип “монета” и извършващи откриване на аномалии). Концепцията за TinyML – изключително малък мащаб машинно обучение върху микроконтролери – е продължение на това, използвайки опростени “NPU” или оптимизирани инструкции на микроконтролери за AI в сензори. ARM Ethos-U NPU е насочен към този сегмент (напр. винаги включено разпознаване на ключови думи, работещо с няколко миливата). Очаквайте повече AI-специфични малки чипове, които могат да се вграждат в сензори, носими устройства и ежедневни предмети (Умна четка за зъби? AI детектор за дим? Идва).
- Хибридни облачно-Edge решения: Вместо edge напълно да замени облака, бъдещето е в сътрудничеството. Устройствата ще правят това, което могат локално, и ще се обръщат към облака само за нещата, които не могат. Например, вашите AR очила може да извършват локално разпознаване на сцени, за да разберат какво гледате, но ако зададете много сложен въпрос (като подробно обяснение), те може да се обърнат към облачен AI за по-мощен анализ и след това да го представят. Този хибриден подход дава най-добрия баланс между бързодействие и възможности. Компаниите активно проектират преживявания около това: Copilot на Microsoft за Windows може да използва локалния NPU за бързо преобразуване на глас в текст и анализ на команди, но след това да използва облака за по-тежките задачи (освен ако нямате мощен PC NPU, който може да се справи). Идеално е потребителят да не знае или да не го интересува кое се използва, освен че всичко е по-бързо и уважава поверителността. Ще видим и федеративно обучение да става по-често срещано – моделите се обучават в облака, но с помощта на данни, криптирани или обработени на устройствата, и обратно.
- Нови приложения: С нарастването на мощността на NPU се отварят нови приложения. Генеративен AI на устройството е голям пример – представете си AI създаване на изображения, AI видео редактиране и лични чатботове директно на телефона или лаптопа ви. До 2025 г. може да видим първи версии на офлайн лични асистенти, които могат да обобщават имейли или да съставят съобщения без облак. Превод на език в реално време по време на разговор (двама души говорят на различни езици, а телефоните или слушалките превеждат почти в реално време) ще бъде значително подобрен от обработката на устройството (без забавяне и работи навсякъде). Здравен AI може да бъде в носими устройства – вашият смартчасовник да открива предсърдно мъждене или да анализира модели на сънна апнея чрез своя NPU. Сигурност: устройствата може локално да изпълняват AI за откриване на зловреден софтуер или фишинг в реално време (например антивирусна програма, използваща AI модел на устройството, а не облачно сканиране). А в превозните средства, освен за шофиране, AI може да персонализира изживяването в колата (например да регулира климатика според настроението ви чрез AI камера, насочена към водача и др.). Много от тези приложения изискват бърза итерация и поверителност, което е подходящо за обработка на устройството.
- Конкуренция и демократизация: Големите играчи ще продължат да се конкурират, което е добре за потребителите – очаквайте маркетинг от типа „нашият AI чип прави X TOPS или позволява Y функция, която другите не могат“. Но също така технологията се демократизира – NPU вече не са само в телефони за $1000; те идват в телефони за $300, IoT платки за $50 (Coral, Arduino Portenta и др.), а отворените общности създават малки AI модели, които ентусиасти могат да пускат на Raspberry Pi или микроконтролер с базов ускорител. Тази широка достъпност означава, че иновациите могат да дойдат отвсякъде. Един самостоятелен разработчик вече може да създаде приложение, което използва AI на устройството за нещо умно, без да е необходим сървърен център – така се намалява бариерата за навлизане на софтуер, задвижван от AI.
- Бъдещи технологии: Гледайки напред, изследванията в областта на невроморфните изчисления (чипове, вдъхновени от мозъка, като Intel Loihi) и аналоговите AI чипове един ден могат да революционизират NPU, предлагайки ефективност с порядъци по-голяма. Компании като IBM и BrainChip работят по тези технологии. Ако са успешни, невроморфен чип може да позволи сложен AI да работи непрекъснато на малки устройства с батерия. Може също да видим 3D наслагване и нови памет технологии, интегрирани в NPU, за да се преодолеят тесните места при паметта (някои чипове след 2025 може да използват HBM памет или нова вградена енергонезависима памет за по-бързо захранване на AI ядрата). Очаквайте и повече специализация в AI чиповете: напр. отделни ускорители за визия, за реч, за препоръчителни модели и др., всеки оптимизиран за своята област. Някои SoC вече имат двойни NPU (един „голям“ NPU за тежки задачи, един микро NPU в сензорния хъб за винаги активни леки задачи).
В заключение, тенденцията е ясна: NPU и TPU стават толкова стандартни и незаменими, колкото и CPU в съвременните изчисления. Те дават възможност на устройствата да бъдат по-умни, по-отзивчиви и по-загрижени за нашата поверителност. Както се казва в един доклад, „високопроизводителните изчислителни единици в устройствата са основно отговорни за изпълнението на сложни AI функции като разпознаване на изображения, NLP и вземане на решения в реално време“, и това движи по-интелигентни, по-отзивчиви технологии във всички сектори grandviewresearch.com.
Влизаме в ера, в която просто ще очаквате вашето устройство да разбира и предугажда нуждите ви – телефонът ви редактира снимки и пише съобщения в ваш стил, колата ви избягва катастрофи и ви забавлява с AI, домашните ви уреди научават предпочитанията ви – всичко това е възможно благодарение на тихите невронни процесори вътре в тях. AI на устройството не е научна фантастика; той е тук и бързо се подобрява. Сливането на NPU и TPU с ежедневните ни джаджи прави AI личен, повсеместен и поверителен – наистина носи силата на облачния интелект на земята (или поне, във вашия джоб).
Източници:
- Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Сравнение на AI хардуерни опции.” TechTarget, 27 август 2024 techtarget.com. Описва ролите и разликите между CPU, GPU, TPU и NPU при AI натоварвания.
- Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Обяснение на TPU дизайна на Google (систолични масиви, ниска прецизност) и използването на NPU в мобилни устройства.
- TechTarget WhatIs. „Tensor processing unit (TPU).“ whatis.techtarget.com, 2023 techtarget.com. Отбелязва, че TPU са специализирани в задачи с матрична математика, а NPU имитират невронните мрежи на мозъка за ускорение techtarget.com.
- NimbleEdge Blog (Neeraj Poddar). „Състоянието на AI на устройството: Какво липсва в днешния пейзаж.“ 26 юни 2025 nimbleedge.com. Описва предимствата на AI на устройството (забавяне, офлайн, поверителност, разходи) и предизвикателства като фрагментирани SDK.
- Qualcomm (OnQ Blog). „Bloomberg и Кристиано Амон говорят за AI на устройството.“ юли 2023 x.com. Главният изпълнителен директор на Qualcomm за важността на инференцията на устройството за бъдещето на AI (цитат от туит за повратна точка в AI).
- MediaTek Blog (Exec Talk от Will Chen). „Оформяне на бъдещето на AI мобилните изживявания.“ 3 март 2025 mediatek.com. Сътрудничество между MediaTek и Oppo по NPU; цитат за edge computing в ръката ти и пример за AI ремастериране на снимки с помощта на NPU.
- I-Connect007 / Qualcomm Press. „Qualcomm работи с Meta за активиране на AI на устройството (Llama 2).“ 24 юли 2023 iconnect007.com. Прессъобщение с цитат от старши вицепрезидента на Qualcomm Дурга Маладади за мащабиране на генеративния AI чрез edge устройства и облак.
- PCWorld (Mark Hachman). „Intel Core Ultra CPU правят AI прост…“ 24 октомври 2024 pcworld.com. Обсъжда Intel Arrow Lake с NPU на Meteor Lake (13 TOPS) и отбелязва NPU на AMD Ryzen 8000 с 39 TOPS и изискването на Microsoft за 40 TOPS „Copilot“.
- Ts2 (Tech Empowerment). „Сблъсък на суперкомпютри за автономно управление: NVIDIA Thor срещу Tesla HW4 срещу Qualcomm Ride.“ сеп. 2023 ts2.tech. Дава оценки за TOPS: Tesla HW3 срещу HW4 (72→100 TOPS на чип) ts2.tech, NVIDIA Thor ~1000 TOPS (или 2000 с два чипа) ts2.tech и цитира вицепрезидента на NVIDIA относно генеративния ИИ в автомобилите ts2.tech.
- Grand View Research. „Доклад за пазара на AI на устройства, 2030.“ 2024 grandviewresearch.com. Отбелязва възхода на специализирани AI чипове (NPU), които позволяват сложен AI на устройства, и че хардуерът е представлявал 60,4% от пазара на AI на устройства през 2024 г., движен от смартфони, IoT, NPU и др.
- Google Blog. „Google Tensor G3: AI-процесорът на Pixel 8.“ окт. 2023 blog.google. Описва подобренията на Tensor G3 за генеративен AI на устройството, нов TPU дизайн и модел за TTS на устройството с качество като в дейта център.
- Techspot. „Snapdragon 8 Gen 3 носи генеративен AI на смартфоните.“ окт. 2023 futurumgroup.com. Анализ на Futurum Group с подробности за AI енджина на SD8Gen3: 10B параметъра LLM на устройството, 98% по-бърз NPU, най-бързият в света Stable Diffusion на телефон и др., както и ползите от LLM на устройството за разходи/лични данни/офлайн futurumgroup.com.
- Apple Wiki (Fandom). „Neural Engine.“ Актуализирано 2025 apple.fandom.com. История на версиите на Neural Engine с A17 Pro 35 TOPS през 2023 г. и др. Показва еволюцията от 0.6 TOPS (A11) до 35 TOPS (A17) apple.fandom.com и M4 с 38 TOPS apple.fandom.com.
- EnGenius Tech. „Cloud Edge Camera AI Surveillance.“ 2023 engeniustech.com. Пример за охранителна камера с вграден NPU, позволяващ AI обработка на самата камера и локално съхранение (без нужда от NVR).
- EmbedL. „Amazon пуска AZ1 Neural Edge Processor.“ окт. 2020 embedl.com. Разглежда edge NPU AZ1 на Amazon за Echo устройства, създаден с MediaTek, предназначен за on-device разпознаване на реч с цел намаляване на латентността и зависимостта от облака embedl.com.