NPU vs. TPU: 2025년, 온디바이스 AI가 당신의 기기를 어떻게 초고속으로 변화시키는가

9월 7, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Apple은 2017년 iPhone A11의 Neural Engine으로 온디바이스 AI를 시작했으며, 초당 최대 6000억 번의 연산으로 Face ID와 Animoji를 가능하게 했습니다.
  • 2023년, iPhone A17 Pro의 16코어 Neural Engine은 약 35 TOPS를 제공하여 온디바이스 음성, 사진, 번역 기능을 지원합니다.
  • Google Pixel 8(2023)은 Tensor G3 NPU를 사용해 Palm 2와 같은 온디바이스 AI 모델로 오프라인 번역 및 요약을 실행합니다.
  • Google의 Coral Dev Board에 탑재된 Edge TPU는 몇 와트의 전력으로 4 TOPS의 비전 프로세싱을 제공합니다.
  • Tesla의 Full Self-Driving 하드웨어에는 두 개의 NPU가 있습니다: HW3(2019)는 약 144 TOPS, HW4(2023)는 약 200~250 TOPS를 제공합니다.
  • NVIDIA Drive Thor(2024년 공개)는 두 개의 칩을 연결하면 자동차용 AI 작업에서 최대 2000 TOPS에 도달할 수 있습니다.
  • Qualcomm의 Snapdragon 8 Gen 3(2023) Hexagon NPU는 Gen 2보다 98% 더 빠르며, 온디바이스에서 최대 100억 파라미터의 LLM을 실행할 수 있고, 시연에서 세계에서 가장 빠른 모바일 Stable Diffusion을 달성했습니다.
  • MediaTek의 Dimensity 9400(2024)은 6세대 APU로 Oppo Find X8의 AI 사진 리마스터링을 지원하며, 2025년까지 NPU가 TV, IoT, 자동차로 확장될 것임을 시사합니다.
  • Intel의 Meteor Lake, 14세대 Core(2023년 출시; 2024년 Core Ultra로 리브랜딩)는 약 8~12 TOPS의 통합 NPU를 탑재했으며, Arrow Lake는 약 13 TOPS, Lunar Lake는 약 45 TOPS로 소문나 있습니다.
  • AMD의 Ryzen 7040 Phoenix(2023)는 최대 10 TOPS의 Ryzen AI Engine을 도입했으며, Ryzen 8000 데스크톱(2024년 초)은 39 TOPS를 제공했으나 해당 세대에서 AMD는 NPU를 일시 중단했습니다.

한마디로: 당신의 스마트폰, 카메라, 심지어 자동차까지도 AI 두뇌가 내장되고 있습니다 – 클라우드가 필요 없습니다. NPU(Neural Processing Unit)와 TPU(Tensor Processing Unit)라는 특수 칩이 일상 기기를 얼굴 인식, 음성 명령, 실시간 번역, 자율주행 기능 등 다양한 지능형 어시스턴트로 변화시키고 있습니다. 이 온디바이스 AI 혁명은 번개처럼 빠른 반응, 더 나은 프라이버시, 그리고 예전에는 슈퍼컴퓨터에서만 가능하다고 여겼던 새로운 기능들을 약속합니다. 이 보고서에서는 NPU와 TPU를 쉽게 설명하고, CPU/GPU와 어떻게 다른지, 그리고 왜 Apple, Google, Qualcomm, Intel 같은 기술 대기업들이 이러한 “AI 두뇌”를 휴대폰부터 자동차까지 모든 것에 탑재하려고 경쟁하는지 살펴봅니다. 또한 2024~2025년 최신 혁신, 전문가 인사이트, 업계 표준, 그리고 온디바이스 AI의 미래에 대해서도 조명합니다.

NPU와 TPU란? (당신의 기기에 내장된 AI 두뇌를 만나다)

뉴럴 프로세싱 유닛(NPU)는 인공 신경망을 가속화하도록 설계된 특수 프로세서로, 이미지 인식, 음성 처리 등 현대 AI 작업을 구동하는 알고리즘을 빠르게 처리합니다. 범용 CPU와 달리, NPU는 애플리케이션 특화 집적 회로(ASIC)로, 행렬 연산과 신경망의 대규모 병렬 작업에 최적화되어 있습니다 techtarget.com. NPU는 “인간 뇌의 신경망을 모방해 AI 작업을 가속화”하며, 본질적으로 기기 내부의 실리콘 브레인 역할을 합니다 techtarget.com. NPU는 AI 모델의 추론(예측 수행)을 기기 내에서 효율적으로 실행하는 데 뛰어나며, 종종 낮은 수치 정밀도(예: 8비트 정수)를 사용해 전력을 절약하면서도 높은 성능을 제공합니다 backblaze.com. “NPU”라는 용어는 때때로 모든 AI 가속기를 포괄적으로 지칭하기도 하지만, 일반적으로는 모바일 및 엣지 디바이스에 탑재된 것을 의미합니다 backblaze.com. 예를 들어, 아이폰의 “뉴럴 엔진”이나 삼성의 모바일 AI 엔진이 SoC(System-on-Chip) 설계에 통합된 NPU입니다.

텐서 처리 장치(TPU, Tensor Processing Units)는 반면에, 구글이 기계 학습을 가속화하기 위해 맞춤형 칩으로 개발한 것으로, 특히 텐서플로우 프레임워크를 위해 설계되었습니다. TPU는 텐서 연산(행렬 곱셈 등) 최적화된 ASIC의 일종으로, 신경망 학습과 추론의 핵심에 해당합니다 backblaze.com. 구글은 2015년 자사 데이터 센터에 처음으로 TPU를 도입해 신경망 연산을 가속화했으며, 이후 Google Cloud를 통해 외부에 제공하기 시작했습니다 backblaze.com. TPU는 시스톨릭 어레이라는 독특한 아키텍처를 사용하는데, 이는 많은 소형 처리 유닛을 격자 형태로 연결해 행렬 곱셈 유닛 체인으로 데이터를 펌핑하는 구조입니다 backblaze.com. 이 설계는 딥러닝 작업에서 극도의 처리량을 달성합니다. 구글의 TPU는 일부 정밀도를 의도적으로 희생(32비트 부동소수점 대신 8비트 또는 16비트 연산 사용)하는 대신 엄청난 속도와 효율성을 얻도록 설계되었습니다 backblaze.com. 많은 AI 작업이 높은 정밀도를 요구하지 않아도 정확한 결과를 얻을 수 있기 때문입니다. “TPU”는 엄밀히 말하면 구글의 칩을 가리키지만, 때때로 “텐서” 가속기를 포괄적으로 지칭하는 용어로도 사용됩니다. 특히 구글은 Edge TPU라는 온디바이스 AI용 보조 프로세서도 생산하는데, Coral Dev Board와 같은 제품에 탑재되어 몇 와트로 4조 번의 연산을 수행할 수 있습니다 coral.ai.

요약하자면: NPU와 TPU는 모두 AI를 위한 실리콘 가속기이지만, NPU는 주로 모바일/엣지 디바이스에 내장되어 효율적인 온디바이스 추론에 사용되고, TPU(엄밀한 의미로)는 구글이 주로 클라우드/데이터센터 학습 및 추론 작업을 위해 개발한 고성능 칩(및 모듈)입니다. 두 칩 모두 전통적인 CPU/GPU 설계에서 벗어나 신경망을 위한 병렬 수학 연산을 우선시합니다. 한 기술 에디터의 표현을 빌리자면, “TPU는 특수화를 한층 더 밀어붙여 텐서 연산에 집중함으로써 더 높은 속도와 에너지 효율을 달성한다… NPU는 스마트폰과 IoT 기기 같은 AI 지원 디바이스에서 널리 사용된다” backblaze.com.

NPU와 TPU는 CPU, GPU와 어떻게 다를까?

전통적인 CPU(중앙 처리 장치)는 범용 컴퓨팅의 “두뇌”입니다. 운영 체제 실행부터 웹 브라우징까지 모든 종류의 작업을 처리할 수 있도록 유연성에 최적화되어 있습니다. CPU는 순차 논리와 다양한 명령어 처리에 뛰어난 소수의 강력한 코어를 가지고 있지만, 딥러닝에 필요한 고도로 병렬화된 수학 연산에는 적합하지 않습니다 techtarget.com. CPU가 대규모 신경망을 처리해야 할 때, 수백만 번의 곱셈과 덧셈을 순차적으로 또는 제한된 병렬 배치로 실행하려다 병목 현상이 자주 발생합니다. 이로 인해 지연 시간과 전력 소모가 높아집니다(이른바 폰 노이만 병목 현상: CPU와 메모리 간에 대량의 데이터를 주고받는 문제) backblaze.com. CPU도 일부 AI 작업(특히 더 단순하거나 작은 모델, 또는 AI 프로그램의 제어 로직 등 techtarget.com)을 수행할 수 있지만, 일반적으로 현대 AI가 요구하는 대규모 병렬 선형대수에는 효율적으로 확장하는 데 어려움을 겪습니다.

GPU(그래픽 처리 장치)는 병렬 컴퓨팅을 전면에 내세웠습니다. 원래는 픽셀과 정점에 대해 많은 단순 연산을 병렬로 수행하여 이미지를 렌더링하기 위해 만들어졌지만, GPU는 신경망 학습에도 적합하다는 것이 밝혀졌습니다. 신경망 학습 역시 동일한 수학 연산(내적 등)을 대량의 데이터에 동시에 적용하기 때문입니다 techtarget.com. GPU는 수백~수천 개의 작은 코어를 내장해 병렬로 수학 연산을 수행할 수 있습니다. 이로 인해 GPU는 대규모 AI에 매우 적합하며, 2010년대 내내 GPU(특히 NVIDIA의 CUDA 소프트웨어를 사용하는 GPU)는 딥러닝 연구의 주력 도구가 되었습니다. 하지만 GPU도 여전히 어느 정도 범용성을 유지해야 하므로, 다양한 그래픽 작업을 처리하고 유연성을 유지해야 하기에 신경망에 100% 최적화되어 있지는 않습니다. 또한 전력 소모가 많고, 완전히 활용하려면 신중한 프로그래밍이 필요합니다(복잡한 분기 코드를 싫어하고, 데이터 병렬 작업에 최적화되어 있음) techtarget.com.

NPU와 TPU는 이러한 특수화를 한층 더 발전시켰습니다. 이들은 오직 신경망 작업만을 위해 특별히 설계되었습니다. 즉, 이들의 아키텍처는 AI 연산에 필요하지 않은 모든 것을 제거하고, 행렬 곱셈 유닛, 누산기 가산기, 그리고 이러한 연산 유닛에 데이터를 빠르게 주고받기 위한 온칩 메모리와 같은 부분에 더 많은 실리콘을 할당할 수 있습니다. 예를 들어, Google Cloud TPU는 본질적으로 거대한 2D MAC(곱셈-누산) 유닛 배열에 영리한 데이터플로우 아키텍처(시스톨릭 어레이)를 적용하여 고속으로 피연산자를 공급합니다 backblaze.com. 캐시, 추측 실행, 기타 CPU 기능에는 신경 쓰지 않으며, 행렬 연산에 최적화되어 있습니다. 모바일 칩의 NPU 역시 CPU/GPU 옆에 전용 뉴럴 엔진 코어를 통합합니다. 이 코어들은 종종 저정밀 산술(예: TPU처럼 8비트 정수)을 사용하며, 합성곱 신경망과 같은 작업을 위해 매우 병렬적인 “레이어별” 연산을 실행합니다. NPU는 “스칼라, 벡터, 텐서 유닛”을 결합한 “퓨즈드” 아키텍처(퀄컴의 Hexagon NPU가 이에 해당)를 사용할 수 있어 다양한 신경망 연산을 효율적으로 처리합니다 futurumgroup.com.

핵심적인 차이점은 다음과 같습니다:

  • 명령어 집합과 유연성: CPU는 폭넓고 범용적인 명령어 집합을 가지고 있습니다(여러 가지를 할 수 있지만 모두 동시에 할 수는 없음). GPU는 더 제한적이지만 여전히 유연한 명령어 집합을 가지고 있으며, 수학적 처리량에 최적화되어 있습니다. NPU/TPU는 매우 좁은 명령어 집합을 가집니다 – 본질적으로 신경망에 필요한 연산(행렬 곱, 합성곱, 활성화 함수 등)만을 위한 것으로, 종종 고정된 파이프라인이나 배열로 구현됩니다 fuse.wikichip.org. 예를 들어, 테슬라의 자율주행 NPU는 ISA에 단 8개의 명령어만 있으며, DMA 읽기/쓰기와 도트 프로덕트에 집중되어 있습니다 fuse.wikichip.org.
  • 병렬성 및 코어: CPU = 소수의 강력한 코어; GPU = 수천 개의 단순한 코어; NPU/TPU = 어떤 면에서, 매트릭스 또는 신경망 방식으로 구성된 수만 개의 매우 단순한 ALU(MAC 유닛)들. 단일 NPU 칩은 초당 수십조 번의 연산을 수행할 수 있음 – 테슬라의 자동차 NPU는 2GHz에서 9,216개의 MAC을 구동하며, 코어당 약 37 테라 연산(TOPS)을 달성하고, 각 FSD 칩에는 두 개의 NPU가 있어 약 74 TOPS를 기록함 fuse.wikichip.org, ts2.tech. 반면, 고급 CPU는 AI 작업에서 초당 수천억 번의 연산에 그치고, GPU도 특수 텐서 코어를 사용하지 않으면 몇 TOPS 정도에 불과함.메모리 아키텍처: NPU/TPU는 빠른 온칩 메모리와 데이터 스트리밍에 의존함. TPU는 고전적인 메모리 병목을 회피하기 위해 시스톨릭 데이터플로우를 사용 – 각 작은 유닛이 데이터를 다음 유닛에 동기적으로 전달하여 메인 메모리의 읽기/쓰기를 최소화함 backblaze.com. 많은 NPU는 가중치/활성화값 저장을 위해 온칩 SRAM을 탑재(예: 테슬라 NPU 코어는 각각 32MB SRAM을 탑재해 신경망 데이터를 로컬에 저장) semianalysis.com. 이는 외부 DRAM을 많이 사용하는 GPU/CPU와 대조적임.정밀도: CPU/GPU는 보통 32비트 또는 64비트 부동소수점 연산을 수행함. AI 가속기는 종종 16비트 또는 8비트 정수(일부는 4비트, 심지어 2비트까지도 탐구 중)를 사용함. 이는 신경망이 낮은 정밀도를 허용하기 때문임. 구글 TPU 설계자는 추론에 완전한 부동소수점 정밀도가 필요 없다고 명시했는데, 이는 “비가 많이 오는지 알기 위해 빗방울 개수를 정확히 셀 필요는 없다”는 것과 유사함 backblaze.com. 덕분에 NPU/TPU는 더 많은 연산을 병렬로 처리하고 연산당 에너지 소모도 줄일 수 있음.사용 사례: GPU는 여전히 대형 모델 학습과 유연한 컴퓨팅에 널리 사용됨(데이터센터와 고급 PC에서 흔함). TPU(클라우드)는 구글 생태계에서 대규모 학습 및 추론을 목표로 함. NPU는 엣지 디바이스 – 스마트폰, 카메라, 가전제품 – 에서 이미 학습된 모델의 추론을 수행하는 데 더 자주 사용됨. 이들은 실시간으로 카메라 프레임에 비전 모델을 적용하거나, 음성 비서의 웨이크워드 감지를 저전력으로 지속적으로 실행하는 작업에서 강점을 보임. TechTarget은 다음과 같이 언급함: “GPU는 많은 ML 프로젝트에서 가용성과 비용 효율성 때문에 선택됨; TPU는 보통 더 빠르고 덜 정밀하며, 구글 클라우드에서 기업이 사용; NPU는 엣지/모바일 디바이스에서 현저히 빠른 로컬 처리를 위해 흔히 사용됨” techtarget.com.

요약하자면, CPU = 다재다능한 조직자, GPU = 병렬 작업의 일꾼, TPU/NPU = 신경망 전문가입니다. 이들은 모두 협력할 수 있습니다. 실제로, 최신 AI 지원 기기에서는 CPU가 종종 작업을 조정하고, 수학적으로 복잡한 부분을 필요에 따라 NPU/GPU에 오프로드합니다 techtarget.com. 이러한 전문화 경향은 이제 컴퓨팅에서 하나의 방식이 모두에게 맞지 않기 때문에 존재합니다. 한 편집자는 “모든 필요에 수백만 개의 트랜지스터를 추가하는 것은 효율성에 좋지 않았다… 설계자들은 목적에 맞게 제작된 프로세서를 받아들였다”고 말했습니다 techtarget.com. 목적에 맞게 제작된 NPU와 TPU는 AI 연산을 획기적으로 빠르게 하면서도 전력 소모를 낮게 유지합니다. 이는 배터리로 작동하는 기기와 고밀도 서버 모두에 중요한 균형입니다.

왜 온디바이스 AI인가? (엣지 vs. 클라우드)

왜 굳이 AI를 휴대폰이나 자동차에서 실행해야 할까요? 모든 것을 클라우드로 보내서 대형 서버(GPU/TPU 탑재)가 무거운 작업을 처리하게 하면 안 될까요? 온디바이스 AI로의 전환을 이끄는 몇 가지 설득력 있는 이유가 있습니다. 이는 속도, 프라이버시, 비용, 신뢰성으로 요약됩니다 nimbleedge.com:

  • 즉각적인 반응(저지연): 온디바이스 NPU는 데이터를 클라우드 서버로 보내는 왕복 지연 없이 실시간으로 처리할 수 있습니다. 이는 대화형 또는 안전이 중요한 AI 작업에 매우 중요합니다. 예를 들어, 차량의 자율주행 시스템이 탑재된 NPU를 사용해 보행자를 식별하고 즉시 브레이크를 밟을 수 있습니다. 클라우드 연산을 기다리는 대신 수 밀리초 내에 반응하는 것입니다. NPU가 탑재된 스마트 카메라는 프레임에 침입자가 나타나는 즉시 감지할 수 있습니다. 휴대폰에서는 온디바이스 AI 덕분에 음성 비서가 더 빠르고 자연스럽게 반응할 수 있습니다. 항상 “본사에 전화”하지 않아도 되기 때문입니다. 지연이 줄어들면 진정한 실시간 의사결정과 더 부드러운 사용자 경험이 가능해집니다 nimbleedge.com.
  • 프라이버시 및 데이터 보안: 온디바이스 AI는 데이터를 로컬에 보관합니다. 마이크 오디오나 카메라 피드를 분석을 위해 클라우드로 스트리밍하는 대신, 처리가 기기 내에서 이루어집니다. 이는 민감한 데이터 노출을 크게 줄여줍니다. 예를 들어, 최신 스마트폰은 얼굴 인식(페이스 ID 등)을 완전히 온디바이스에서 수행하며, 얼굴의 생체 정보 맵이 절대 휴대폰의 보안 영역을 벗어나지 않습니다. 마찬가지로, AI 보청기나 건강 웨어러블도 생체 데이터를 서버에 업로드하지 않고 분석할 수 있어 프라이버시를 지킬 수 있습니다. 데이터 주권에 대한 사용자 우려와 규제가 커지는 상황에서, 이는 큰 장점입니다. 한 엣지 AI 블로그에서는 온디바이스 처리가 “사용자 데이터가 클라우드로 전송될 필요가 없다”고 하여 기본적인 프라이버시 이점을 제공한다고 설명합니다 nimbleedge.com. (물론, 프라이버시가 자동으로 보장되는 것은 아니며, 저장된 데이터를 신중히 다뤄야 하지만, 정보를 계속 외부로 보내지 않는 기기를 더 신뢰하기 쉽습니다.) 테크 CEO들은 이 점을 자주 강조합니다. 퀄컴 CEO 크리스티아노 아몬은 클라우드와 온디바이스 인텔리전스를 결합하면 데이터를 기기 내에서 안전하게 유지하면서 개인화가 강화될 수 있다고 언급했습니다. 그는 이를 “하이브리드 미래”라고 부르며, 온디바이스 AI와 클라우드 AI가 협력해 최고의 결과를 낸다고 설명합니다 moomoo.com.
  • 오프라인 사용 가능성 및 신뢰성: NPU/TPU가 탑재된 기기는 연결성에 의존하지 않습니다. 지하철 터널, 비행기, 외딴 시골, 네트워크 장애 시에도 작동할 수 있습니다. 이는 신뢰성 측면에서 매우 중요합니다. 온디바이스 음성 받아쓰기 기능은 신호가 없어도 계속 작동합니다. 온보드 비전 AI가 탑재된 드론은 오프라인 상태에서도 장애물을 피할 수 있습니다. 이러한 독립성은 미션 크리티컬 시스템에도 필수적입니다. 예: 재난 복구 로봇이나 인터넷 연결을 가정할 수 없는 의료기기 등. “오프라인 기능”은 온디바이스 AI의 핵심 장점입니다 nimbleedge.com – AI 기능이 언제 어디서나 필요할 때 사용할 수 있음을 보장합니다.
  • 대규모 비용 효율성: AI 처리를 위해 원시 데이터를 계속 클라우드로 보내는 것은 매우 비용이 많이 들고(클라우드 컴퓨팅은 무료가 아님) 대역폭도 많이 소모합니다. AI 기능이 확산될수록, 모든 작은 작업마다 서버를 거치면 기업은 막대한 클라우드 처리 비용을 부담해야 합니다. 엣지에서 더 많은 처리를 하면 클라우드 서버 부하와 네트워크 사용량이 줄어듭니다. 기기에 더 좋은 칩을 몇 달러 더 투자하는 것이, 기기 수명 동안 기가바이트 단위의 클라우드 컴퓨팅 비용을 지불하는 것보다 효율적일 때가 많습니다. Futurum의 산업 분석에 따르면, 온디바이스 처리는 생성형 AI의 확장성과 비용 문제를 해결하는 데 도움이 되며, 부하를 “분산”시켜 데이터 센터가 과부하되지 않도록 하고(사용자/개발자가 클라우드 GPU 사용료로 큰돈을 내지 않게 함) futurumgroup.com.
  • 개인화 및 맥락: 새롭게 부상하는 이유 중 하나는 온디바이스 AI가 로컬 맥락에서 학습하고 적응할 수 있다는 점입니다. 클라우드 AI는 이 부분에서 한계가 있을 수 있습니다. 예를 들어, 스마트폰은 사용자의 텍스트 입력 스타일을 학습하는 작은 로컬 모델을 유지하여 더 나은 자동완성을 제공할 수 있으며, 이 개인 언어 모델을 클라우드에 공유하지 않습니다. 기기는 여러 센서의 데이터를 실시간으로 융합할 수 있는데(여러 센서 피드를 클라우드로 스트리밍하는 것보다 로컬에서 처리하는 것이 더 쉽습니다), 이를 통해 더욱 개인화되고 맥락을 인식하는 경험이 가능해집니다. 연합 학습과 같은 일부 기능은 원시 데이터를 업로드하지 않고도(작은 가중치 업데이트만 전송) 기기들이 AI 모델을 협력적으로 개선할 수 있게 해줍니다.
  • 규제 및 데이터 주권: 유럽의 GDPR과 다양한 데이터 현지화 요건과 같은 법률은 특정 데이터(특히 개인적이거나 민감한 데이터)를 동의 없이 해외나 제3자에게 전송하지 못하도록 점점 더 요구하고 있습니다. 온디바이스 AI는 데이터를 원천에서 처리함으로써 이러한 규정을 준수할 수 있는 방법을 제공합니다. 예를 들어, 의료 영상 AI 도구는 병원 하드웨어(엣지 서버와 NPU)에서 실행되어 환자 데이터가 외부로 나가지 않게 하여 개인정보 보호 규정을 충족할 수 있습니다. NimbleEdge의 2025년 보고서는 정부가 주권 및 규정 준수 이유로 더 많은 로컬 추론을 추진하고 있다고 지적합니다 nimbleedge.com.

이 모든 요인들이 패러다임의 변화를 이끌고 있습니다. 즉, AI를 “클라우드 우선”으로 생각하던 것에서 이제는 가능하다면 “디바이스 우선”으로 AI 기능을 설계하는 방향으로 바뀌고 있습니다. Qualcomm의 AI 부사장 Durga Malladi는 이렇게 요약했습니다: “생성형 AI를 대중적으로 확장하려면, AI는 클라우드 엣지의 디바이스(스마트폰, 노트북, 차량, IoT 기기 등) 모두에서 실행되어야 합니다” iconnect007.com. 우리는 하이브리드 AI 세계로 나아가고 있습니다. 대규모 학습과 큰 모델은 클라우드에 남아 있을 수 있지만, 많은 추론 작업과 개인 AI 경험은 여러분의 손과 집에 있는 NPU/TPU에서 로컬로 실행됩니다. 실제로 Amon은 이것을 “AI의 전환점”이라고 부르며, “AI의 미래는 개인적이다”라고 강조합니다. 왜냐하면 AI가 바로 여러분이 있는 곳에서 실행되기 때문입니다 x.com.

온디바이스 AI의 실제 적용: 스마트폰에서 자율주행차까지

특화된 AI 칩은 이미 여러분 주변의 다양한 기기에 내장되어 있으며, 종종 보이지 않게 이 기기들을 더 똑똑하게 만들어주고 있습니다. NPU와 엣지 TPU가 배치되는 주요 분야는 다음과 같습니다:

  • 스마트폰 & 태블릿: 거의 모든 최신 플래그십 폰(그리고 많은 중급기기들)에는 이제 NPU 또는 전용 AI 엔진이 탑재되어 있습니다. 애플은 2017년 Apple Neural Engine을 아이폰의 A11 칩에 도입하며 이 트렌드를 시작했으며, 이는 최대 6,000억 회의 연산을 초당 수행하여 기기 내에서 Face ID와 Animoji를 가능하게 했습니다 apple.fandom.com. 오늘날, 애플의 A17 Pro 칩(2023)은 초당 35조 번의 연산이 가능한 16코어 Neural Engine을 탑재하고 있습니다 apple.fandom.com. 이로 인해 고급 카메라 장면 감지, 사진 스타일, 오프라인으로 처리되는 Siri 음성 명령, 자동 교정, 실시간 전사, 심지어 기기 내 번역을 위한 트랜스포머 모델 실행과 같은 기능이 구현됩니다. 구글의 픽셀 폰 역시 NPU가 내장된 맞춤형 실리콘(“Google Tensor” SoC)을 사용합니다: 최신 Tensor G3(Pixel 8 탑재)는 “구글의 AI 모델을 실행하기 위해 맞춤 설계”되었으며, 칩의 모든 부분(CPU, GPU, ISP)을 업그레이드하여 기기 내 생성형 AI의 길을 열었습니다 blog.google. 픽셀 8은 구글의 최첨단 음성-텍스트 변환 및 번역 모델을 로컬에서 실행할 수 있으며, 이는 이전에는 데이터 센터에만 국한되어 있던 것들입니다 blog.google. 또한 “Best Take” 그룹 사진 합성, Audio Magic Eraser 등 복잡한 카메라 기능도 기기 내 AI 모델로 처리합니다 blog.google. 삼성 및 기타 안드로이드 제조사들은 퀄컴의 스냅드래곤 칩셋을 사용하며, 최신 NPU(헥사곤 AI 엔진)는 대형 언어 모델도 폰에서 실행할 수 있습니다 – 퀄컴은 스냅드래곤 8 Gen 3가 탑재된 폰에서 100억 파라미터 LLM과 Stable Diffusion 이미지 생성까지 시연했습니다 futurumgroup.com. 이 칩의 AI 엔진은 전 세대보다 98% 더 빠르며, 효율성을 위한 INT4 정밀도를 지원합니다 futurumgroup.com. 실질적인 결과: 2024년형 폰은 기사 요약, 질문 답변, 사진 AI 편집 등 클라우드 없이도 할 수 있습니다. 심지어 접근성 기능도 향상됩니다: 예를 들어 픽셀 폰은 이제 기기 내 음성 입력, 실시간 자막, 그리고 로컬 모델을 사용해 시각장애인에게 이미지를 설명해주는 기능이 곧 추가될 예정입니다.
  • 스마트 카메라 & 보안 시스템: AI 지원 카메라는 온보드 NPU를 사용해 사람, 얼굴, 동물 또는 수상한 행동을 즉시 감지합니다. 예를 들어, EnGenius의 최신 보안 카메라에는 내장 NPU가 탑재되어 있어 객체 감지와 비디오를 메타데이터로 카메라에서 바로 변환할 수 있어 별도의 비디오 레코더가 필요 없고 보안도 강화됩니다(비디오를 로컬에서 분석 및 저장할 수 있기 때문입니다) engeniustech.com. 즉, 보안 카메라가 “사람이 있음” 또는 “택배가 도착함”과 같은 알림만 전송할 수 있어, 수 시간 분량의 영상을 클라우드로 스트리밍할 필요가 없습니다. 이와 유사하게, Google Nest Cam IQ와 같은 소비자 기기에도 온디바이스 비전 칩(Google Edge TPU)이 탑재되어 있어 익숙한 얼굴을 인식하고 시야 내에서 사람과 반려동물을 구분할 수 있습니다. DSLR 및 미러리스 카메라에도 피사체 추적, 눈동자 자동 초점, 실시간 장면 최적화 등을 위한 AI 프로세서가 추가되고 있습니다. 드론에서는 온보드 AI 칩이 장애물 회피 및 시각적 내비게이션을 지원하여 원격 제어 없이도 작동할 수 있습니다. 특히, Google의 Edge TPU(초소형 ASIC 모듈)는 DIY 및 산업용 IoT 카메라의 인기 부가장치로 자리 잡았으며, 약 2와트만 사용하면서도 사람 감지나 번호판 인식 등 비전 처리 작업에 4 TOPS의 성능을 제공합니다 coral.ai.
  • 스마트홈 & IoT 기기: 스마트폰을 넘어, 많은 스마트홈 기기에도 미니 NPU가 탑재되어 있습니다. 음성 인식 스피커(Amazon Echo, Google Nest Hub 등)에는 이제 종종 로컬 음성 인식 칩이 포함되어 있습니다. Amazon은 Echo 기기에서 Alexa의 호출어 감지 및 응답을 기기 내에서 더 빠르게 처리하기 위해 AZ1 Neural Edge 프로세서를 개발했으며, 지연 시간을 절반으로 줄였습니다 embedl.com. AZ1(MediaTek과 공동 개발)은 “Alexa”라는 호출어를 인식하고 간단한 명령을 클라우드에 연결하지 않고도 처리할 수 있는 신경망을 실행합니다 embedl.com. 이는 Alexa의 반응 속도를 높일 뿐만 아니라 더 많은 음성 데이터를 개인적으로 보호할 수 있게 해줍니다. 이와 마찬가지로, 최신 TV, 가전제품, 심지어 장난감에도 엣지 AI가 적용되고 있습니다. 예를 들어, 스마트 냉장고의 카메라는 식품과 유통기한을 로컬에서 인식할 수 있습니다. 웨어러블도 주목할 만합니다: Apple Watch의 S9 칩은 4코어 Neural Engine을 추가해 건강 AI 알고리즘과 Siri 요청을 시계에서 직접 더 잘 처리할 수 있게 했습니다 apple.fandom.com. 산업 분야에서는 NPU가 탑재된 IoT 센서가 장비 데이터를 엣지에서 바로 이상 감지하여, 관련 이벤트만 상위로 전달(대역폭 절약 및 문제에 더 빠른 대응)할 수 있습니다.
  • 자동차(ADAS 및 자율주행): 자동차는 바퀴 달린 AI 허브가 되었습니다. 첨단 운전자 지원 시스템(ADAS)과 자율주행 기능은 카메라 피드, LiDAR, 레이더를 해석하고 순간적으로 주행 결정을 내리기 위해 일련의 온보드 AI 가속기에 의존합니다. 테슬라는 자사의 FSD(Full Self-Driving) 컴퓨터를 듀얼 NPU 칩으로 직접 설계한 것으로 유명합니다. 테슬라의 FSD 칩(HW3, 2019년 도입)은 144 TOPS(각각 72 TOPS의 두 개 NPU)를 제공했으며, 최신 HW4(2023)는 총 200–250 TOPS(각각 100+ TOPS의 7nm NPU 두 개)로 향상되었습니다 ts2.tech. 이를 통해 차량은 8대의 카메라, 소나 등에서 들어오는 풀 해상도 영상을 동시에 신경망으로 처리하고, 일부 음성 명령용 언어 모델도 차량 내부 모듈에서 로컬로 실행할 수 있습니다. NVIDIA Drive 및 Qualcomm Snapdragon Ride와 같은 경쟁 플랫폼도 NPU를 통합하고 있습니다. NVIDIA의 최신 자동차 슈퍼컴퓨터 칩인 Drive Thor는 2025년형 자동차에 탑재될 예정이며, 단일 칩에서 최대 1,000 TOPS(두 개를 페어링하면 2,000 TOPS)로 레벨 4 자율주행을 지원합니다 ts2.tech. 이 칩은 GPU, CPU, 전용 딥러닝 가속기를 결합하여 도로 표지판 인식부터 운전자 모니터링 AI까지 모든 것을 칩에서 처리할 수 있습니다 ts2.tech. 이러한 NPU는 말 그대로 생명을 구합니다. 자율주행차는 아이가 도로로 뛰어들 때 클라우드 서버의 응답을 기다릴 수 없습니다. 온보드 AI는 수십 밀리초 내에 보고 반응해야 합니다. 승용차 외에도 자율 드론, 배달 로봇, 산업용 차량 등에서도 온보드 NPU/TPU를 활용한 엣지 AI가 활발히 사용되고 있습니다(예: Nuro의 배달 로봇과 많은 자율주행 트럭 시스템은 기기 내에서 NVIDIA 또는 Huawei AI 칩을 사용).
  • 엣지 컴퓨팅 & 산업: 공장 및 기업 환경에서 온디바이스 AI는 종종 AI 가속기가 탑재된 엣지 서버 또는 게이트웨이의 형태로 구현됩니다. 카메라 영상이나 센서 데이터를 중앙 클라우드로 보내는 대신, 기업들은 현장에 엣지 박스(때로는 GPU 기반, 때로는 NPU/FPGA 기반)를 설치합니다. 이 장치들은 생산 라인에서 품질 관리를 위한 실시간 영상 분석, AI 비전을 활용한 마이크로초 단위의 결함 감지와 같은 작업을 처리합니다. 의료 기기도 또 다른 예입니다. 휴대용 초음파나 MRI 기기에 NPU가 탑재되어 AI 영상 분석을 기기 내에서 수행함으로써, 의사는 인터넷 연결 없이도 즉각적인 진단 지원을 받을 수 있습니다(이는 환자 데이터 프라이버시 측면에서도 더 우수합니다). 리테일 및 도시에서도 엣지에서 AI를 활용합니다. 예를 들어, NPU가 탑재된 스마트 교통 카메라로 혼잡도를 분석하고 신호를 조정하거나, 소매 매장 선반 카메라로 재고를 추적하는 식입니다. 이들 중 상당수는 Intel의 Movidius Myriad 칩, Google의 Edge TPU, 또는 Hailo-8(카메라용으로 몇 와트에서 26 TOPS를 제공하는 이스라엘 NPU)과 같은 신생 업체의 특화된 NPU를 사용합니다. 공통점은 이러한 가속기 덕분에 분석이 로컬에서 이루어져, 실시간 결과를 얻고 네트워크를 통해 원시 데이터가 아닌 고수준 인사이트만 전송할 수 있다는 점입니다.

NPU/TPU의 기기별 활용도는 매우 인상적입니다. 한순간에는 스마트폰에서 AI로 사진 배경을 흐리게 처리하고, 다음 순간에는 드론을 조종하거나 의료 영상을 스캔합니다. 스마트폰 카메라는 이제 NPU를 활용해 야간 모드(여러 프레임을 지능적으로 합성), 인물 모드 보케, 장면 인식(스마트폰이 “노을”을 촬영 중임을 인지하고 AI로 색상을 최적화), 심지어 재미있는 AR 효과(Animoji로 얼굴을 매핑하거나, Snapchat 필터로 움직임을 추적 – 모두 온디바이스 신경망 덕분)까지 구현합니다. 생체인식에도 NPU가 사용됩니다. AI로 생체 감지 기능이 강화된 지문 인식기, 깊이 센서와 AI가 결합된 얼굴 잠금 해제 등입니다. 오디오에도 적용됩니다. 이어버드와 스마트폰의 노이즈 캔슬링은 이제 종종 AI 기반으로, NPU가 실시간으로 음성과 배경 소음을 분리합니다.

2024년 혁신의 구체적 예시: Oppo(스마트폰 제조사)는 MediaTek과 협력해 Mixture-of-Experts(MoE) AI 모델을 온디바이스에 직접 구현했다고 2024년 말 발표했습니다. 이는 스마트폰 최초의 사례로 알려져 있습니다 grandviewresearch.com. 이 첨단 신경망 아키텍처(MoE)는 작업별로 관련 “전문가” 서브네트워크만 활성화해 성능을 높일 수 있으며, 이를 온디바이스에서 처리함으로써 Oppo 스마트폰은 복잡한 작업도 클라우드 도움 없이 더 빠른 AI 처리와 에너지 효율을 달성할 수 있습니다 grandviewresearch.com. 이는 최첨단 AI 연구조차 개선된 NPU를 통해 빠르게 우리의 손안의 기기로 들어오고 있음을 보여줍니다.

2025년 AI 칩 내부: Apple, Google, Qualcomm 등 최신 동향

온디바이스 AI 하드웨어 개발 경쟁이 빠르게 가열되고 있습니다. 주요 기업들이 최근(2024~2025년) NPU/TPU 및 AI 실리콘 분야에서 내놓은 최신 제품들을 살펴보겠습니다:

  • Apple: Apple의 맞춤형 실리콘 전략은 오랫동안 온디바이스(기기 내) 머신러닝에 중점을 두어 왔습니다. 매년 Apple의 Neural Engine은 성능이 향상되었습니다. 2023년 iPhone 15 Pro의 A17 Pro 칩 Neural Engine은 16코어로 35 TOPS(초당 35조 연산)에 도달했습니다 apple.fandom.com. 이는 A16의 NPU 원시 처리량의 두 배였으며, Apple은 이를 활용해 Siri의 온디바이스 음성 인식(마침내 많은 Siri 요청을 인터넷 없이 처리)과 새로운 카메라 기능(예: 인물 사진 모드 자동 캡처, 카메라를 통한 실시간 텍스트 번역 등)을 가능하게 했습니다. Apple의 2024년 칩도 이 추세를 이어갔습니다: Mac용 M3 시리즈(2023년 말)는 Neural Engine이 업데이트되었으며(흥미롭게도 M3 기본 칩은 18 TOPS로 효율성에 더 중점) apple.fandom.com. 2024년, Apple은 M4 칩(고급형 iPad/Mac, 2024년 중반용)을 선보였으며, 이 칩은 3nm 공정에서 Neural Engine이 38 TOPS로 향상된 것으로 알려졌습니다 apple.fandom.com. 단순한 수치 이상의 의미로, Apple은 실제로 그 NPU를 활용하고 있습니다: Personal Voice(15분 훈련 후 사용자의 목소리 클론 생성)와 같은 기능이 iPhone의 Neural Engine에서 비공개로 실행되며, Live Voicemail 전사도 로컬에서 처리됩니다. Apple은 모든 기기군에 NPU를 통합했으며, AirPods Pro에도 Adaptive Audio를 위한 작은 신경망 칩이 들어 있습니다. Apple 경영진은 종종 프라이버시 측면을 강조합니다: “기기 내 머신러닝”은 데이터가 사용자에게 남아 있음을 의미합니다. 2025년에는 Apple의 Neural Engine이 더 확장되거나, 새로운 방식으로 서드파티 앱에 제공될 가능성이 있습니다(Core ML로 이미 개발자가 사용할 수 있지만, Apple이 더 많은 neural API 접근을 열 수도 있음). 또한 Apple이 미래의 안경이나 자동차를 위한 독립형 AI 가속기를 설계 중이라는 소문도 있지만, 현재 제품들은 A-시리즈와 M-시리즈 SoC에 통합된 NPU를 선호함을 보여줍니다.
  • Google: Google은 클라우드 TPU를 선도했을 뿐만 아니라 Pixel 폰과 소비자 기기를 위한 온디바이스 AI에도 집중 투자했습니다. Google Tensor SoC(2021년 Pixel 6에 처음 도입)는, 클라우드로 유명한 Google이 AI를 기기 내에서 실행하기 위해 휴대폰 칩을 만든 점에서 독특했습니다. Tensor G3(2023년 Pixel 8 탑재)에서는 온디바이스 생성형 AI를 가능하게 하는 업그레이드가 강조되었습니다. Google은 Pixel 8의 칩이 “Google AI 연구를 최신 휴대폰에 직접 적용한다”고 명확히 밝혔습니다 blog.google. Tensor G3의 차세대 TPU(Google은 내부적으로 여전히 AI 코어를 “TPU”라고 부름)는 Pixel이 Palm 2Gemini Nano(Google의 대형 언어 모델의 경량 버전)와 같은 고급 모델을 기기 내에서 실행할 수 있게 하여, 웹사이트 요약이나 음성 입력 개선과 같은 기능을 제공합니다 reddit.com. 대표적인 기능 중 하나는: Pixel 8이 Google의 최고 텍스트-음성 변환 모델(데이터 센터에서 사용되는 모델)을 로컬에서 실행할 수 있어, 휴대폰이 웹페이지를 자연스러운 음성으로 읽어주고, 심지어 실시간 번역까지 오프라인으로 할 수 있다는 점입니다 blog.google. Google은 또한 Pixel의 TPU를 사진(“HDR+” 다중 프레임 이미지 처리, Magic Eraser의 AI 인페인팅을 통한 객체 제거 blog.google), 보안(AI 기반 온디바이스 얼굴 인식 잠금 해제, 이제 결제에도 충분히 강력하다고 평가됨 blog.google), 음성(“음…”이라고 말해도 괜찮은 어시스턴트) 등에 사용합니다. 휴대폰을 넘어, Google은 Coral Dev Board와 USB 스틱을 통해 취미 개발자와 기업이 프로젝트에 Edge TPU를 추가할 수 있도록 제공하며, 각각 Google의 Edge TPU가 내장되어 있어 매우 낮은 전력으로 비전 작업에 4 TOPS를 제공합니다 coral.ai. 이는 Google의 자체 제품인 Nest Hub Max의 제스처 인식 등에도 사용됩니다. Google에게 있어, 엣지에서 TPU를 통합하는 것은 더 넓은 전략의 일부입니다: Sundar Pichai(Google CEO)는 AI의 미래는 모든 경험을 증강하는 것이라고 말했으며, 분명히 Google은 “AI의 혁신적 힘을 일상에 가져오려면, 매일 사용하는 기기에서 AI에 접근할 수 있어야 한다”고 보고 있습니다 blog.google – 그래서 Tensor 칩이 등장한 것입니다. 우리는 아마도 Tensor G4가 2024년 말 Pixel 폰에 탑재되어, 삼성 또는 TSMC의 최신 공정으로 제작되고, AI 성능과 효율성이 더욱 향상되며, 온디바이스 멀티모달 AI(비전+언어 모델 결합)까지 가능해질 것으로 기대할 수 있습니다.
  • 퀄컴: 안드로이드 폰용 대표 모바일 칩 벤더인 퀄컴은 AI 엔진을 스냅드래곤 시리즈에 적극적으로 도입해 왔습니다. 스냅드래곤 8 Gen 2(2022년 말 출시)는 전용 INT4 지원을 도입했고, 스마트폰에서 실시간 스테이블 디퓨전 이미지 생성을 시연했습니다. 스냅드래곤 8 Gen 3(2023년 말 발표, 2024년 플래그십 폰에 탑재)는 대폭적인 도약입니다: 퀄컴에 따르면 Hexagon NPU는 Gen 2 대비 98% 더 빠르고, 40% 더 전력 효율적입니다 futurumgroup.com. 이 칩은 최대 100억 개의 파라미터를 가진 대형 언어 모델을 완전히 온디바이스에서 실행할 수 있으며, 약 초당 20토큰을 처리할 수 있습니다 – 클라우드 없이 AI 어시스턴트와 간단한 대화를 나누기에 충분한 속도입니다 futurumgroup.com. 또한 데모에서 모바일 기기 기준 “세계에서 가장 빠른 스테이블 디퓨전” 이미지 생성을 달성했습니다 futurumgroup.com. 퀄컴은 온디바이스 생성형 AI가 신형 스마트폰의 핵심 판매 포인트임을 적극적으로 강조해왔습니다. 예를 들어, 메타와 협력해 오픈소스 Llama 2 LLM을 스냅드래곤에 최적화하여, 2024년까지 스마트폰에서 챗봇 AI를 실행할 수 있도록 목표하고 있습니다 iconnect007.com. (퀄컴 임원 중 한 명은 “우리는 메타의 오픈 접근 방식을 환영합니다… 생성형 AI를 확장하려면 클라우드와 엣지 모두에서 실행되어야 합니다”라고 말하며 엣지 AI 철학을 강조했습니다 iconnect007.com.) 스마트폰을 넘어, 퀄컴은 노트북 칩(Windows on ARM용 스냅드래곤 컴퓨트 플랫폼)에도 NPU를 탑재하고 있으며, 자동차 플랫폼인 Snapdragon Ride 역시 동일한 AI 코어를 사용해 ADAS용 최대 30 TOPS를 제공하고, 수백 TOPS까지의 로드맵을 제시하고 있습니다. 2025년, 퀄컴은 PC용으로 강력한 NPU가 포함된 새로운 Snapdragon X Elite CPU를 발표하며, 개인용 컴퓨터 AI 성능에서 애플과 인텔에 도전하겠다는 의지를 드러냈습니다. 온디바이스 AI의 부상과 함께, 퀄컴은 일부 스마트폰을 실제로 “AI 폰”으로 브랜딩하고 있습니다. 퀄컴은 사진, 메시징, 생산성 등 다양한 앱이 NPU를 활용할 것으로 전망합니다. 소프트웨어 측면에서 퀄컴은 Qualcomm AI Stack을 출시해 자사 NPU에서 인기 프레임워크(TensorFlow Lite, PyTorch, ONNX) 지원을 통합했습니다 iconnect007.com – 개발자가 칩에 대한 깊은 지식 없이도 AI 하드웨어를 쉽게 사용할 수 있도록 돕기 위함입니다.
  • MediaTek: 2위 모바일 칩 제조업체(디멘시티 시리즈로 유명)는 NPU도 업그레이드했다. MediaTek은 자사의 AI 엔진을 “APU”(AI Processing Unit)라고 부른다. 예를 들어, Dimensity 9200+(2023)는 이전 칩 대비 성능이 크게 향상된 6세대 APU를 탑재해, 온디바이스 스테이블 디퓨전 및 동영상 AI 노이즈 감소와 같은 기능을 가능하게 한다. 2024년, MediaTek은 Dimensity 9400을 발표했고, Oppo와의 파트너십을 통해 고급 NPU 아키텍처를 활용해 새로운 AI 기능을 선보였다(앞서 언급한 Oppo Find X8의 반사 제거흐림 복원 AI 사진 리마스터링은 MediaTek의 NPU로 구동됨) mediatek.com. MediaTek 임원들은 자신들이 온디바이스 AI의 선두에 있다고 명확히 밝혔다. MediaTek의 Will Chen은 “AI의 미래는 클라우드를 넘어선다. 바로 당신 손바닥에서 엣지 컴퓨팅이 이끈다.”고 말했다. 그들의 관점에서, 휴대폰의 AI는 빠르고, 프라이빗하며, 안전하고, 항상 접근 가능해야 한다 mediatek.com. MediaTek은 Meta와 “APU 중심” 협업을 맺어 Llama 프레임워크를 지원하고, OppoXiaomi와 같은 기기 제조사와는 AI 카메라 및 AI 음성 기능에 집중하고 있다. 2025년까지 MediaTek은 이러한 NPU를 휴대폰뿐 아니라 스마트 TV(인공지능 업스케일링 및 화질 향상), IoT 기기, 그리고 자동차(자동차용 AI 플랫폼을 보유하고 있으며, Nvidia와 협력해 자동차용 Nvidia GPU IP를 통합하는 한편, 자사 NPU로 센서 AI를 제공할 예정)에도 적용할 계획이다.
  • 인텔: 2024년은 인텔이 AI 가속기 시장에 일반 PC용으로 진입한 해였습니다. 인텔의 14세대 코어(메테오 레이크, 2023년 12월 출시, 2024년 코어 울트라로 리브랜딩)는 내장 신경처리장치(NPU)를 탑재한 최초의 x86 PC 프로세서입니다. 메테오 레이크의 NPU(때때로 VPU – 비전 프로세싱 유닛 – 인텔의 모비디우스 기술 기반이라고도 불림)는 약 8–12 TOPS의 AI 성능을 제공합니다 pcworld.com. 이는 윈도우 11의 AI 기능(예: 배경 흐림, 화상 통화 시 시선 맞추기 등)을 가속화하는 데 사용되며, 앱에서 로컬 음성 인식, 소음 억제, 소규모 AI 비서 등에도 활용될 수 있습니다. 마이크로소프트와 인텔은 함께 “AI PC”라는 개념을 적극적으로 홍보하고 있습니다. 인텔은 이 NPU가 2024년에 수천만 대의 노트북에 탑재될 것이라고 주장합니다 pcworld.com. 메테오 레이크에 이어 인텔의 로드맵에는 Arrow Lake(2024년 데스크톱용)도 언급되어 있으며, 이 역시 NPU(약 13 TOPS, 약간 향상됨)를 포함합니다 pcworld.com. 흥미롭게도, 인텔의 데스크톱 NPU 첫 시도는 실제로 AMD(아래 참조)에 의해 능가되었으며, 인텔은 하이엔드 칩에서 GPU/CPU 면적을 희생하지 않기 위해 보수적인 NPU 설계를 선택했습니다 pcworld.com. 하지만 2024년 말, 인텔은 향후 Lunar Lake 칩이 마이크로소프트의 “Copilot” 요구사항을 충족하기 위해 훨씬 강력한 NPU(~45 TOPS)를 탑재할 것임을 시사했습니다 pcworld.com. 이 모든 것은 인텔이 AI를 앞으로 PC에 필수적인 요소로 보고 있음을 보여줍니다 – 거대한 모델 학습이 아니라, 일상적인 AI 기반 경험(오피스 제품군 향상, 로컬 AI를 활용한 창작 도구 등)을 가속화하기 위해서입니다. 인텔은 또한 Intel Movidius Myriad 칩(일부 드론, 카메라에 사용)과 Habana 서버용 가속기 등 엣지 AI 가속기도 판매하고 있지만, 메테오 레이크의 통합 NPU는 AI를 일반 소비자 기기로 가져온 이정표입니다.
  • AMD: AMD도 비슷한 시기에 온디바이스 AI에 뛰어들었습니다. 2023년에 출시된 Ryzen 7040 시리즈 노트북 프로세서(Phoenix)에는 최초의 Ryzen AI Engine이 탑재되었습니다. 이는 본질적으로 AMD가 Xilinx 인수를 통해 얻은 기술인 통합 XDNA NPU입니다. 이 NPU는 모바일 칩에서 최대 10 TOPS의 성능을 제공했습니다en.wikipedia.org. AMD는 인텔과 마찬가지로 AI 기반 화상 통화, 생산성 앱 등과 같은 활용 사례를 내세웠습니다. 이후 AMD는 잠시 Ryzen 8000 데스크톱 시리즈(2024년 초)를 출시하며 NPU가 39 TOPS에 달하는 성능을 선보였습니다. 이는 범용 CPU의 AI 유닛으로서는 매우 높은 수치로, 인텔의 계획을 능가하는 수준이었습니다pcworld.com. 그러나 AMD는 곧 방향을 바꿔 한 세대를 건너뛰고, 차세대 아키텍처(이후 2024년 말 출시된 Ryzen 9000에서는 NPU를 제외하고 코어 업그레이드에 집중)를 우선시했습니다pcworld.com. 그럼에도 불구하고, AMD는 향후 PC 칩에 NPU를 다시 도입할 것으로 예상됩니다(이는 다른 성능을 저해하지 않으면서 강력한 AI 엔진을 통합하기 위한 일시적인 후퇴로 보입니다). 제품 측면에서 AMD의 NPU는 AMD가 강력한 GPU도 보유하고 있기 때문에 흥미로운 기능을 구현할 수 있습니다. 이 조합은 AI 작업을 협력적으로 처리할 수 있습니다(일부는 NPU, 일부는 GPU에서 처리). AMD는 또한 AI 코어를 자사의 적응형(FPGA 기반) SoC 및 자동차용 칩에도 탑재해왔습니다. 요약하면, 2025년까지 모든 x86 PC 칩 제조업체가 NPU를 도입하여, 몇 년 전 스마트폰에서 했던 것과 같이 AI 가속이 전반적으로 표준 기능이 되어가고 있음을 보여줍니다.
  • 기타: 다양한 전문 칩 회사들과 기타 기술 기업들도 NPU 분야에서 혁신을 이루고 있습니다. NVIDIA는 GPU로 잘 알려져 있지만, 이제 GPU에 전용 Tensor Cores를 포함하고 있으며, SoC(System-on-Chip) 제품에 통합할 수 있는 오픈 NVDLA(딥러닝 가속기) 설계도 제공합니다. NVIDIA Jetson 시리즈(로봇, 드론, 임베디드 시스템에 사용)와 같은 엣지 디바이스에는 GPU와 고정 기능 “DLA” – 본질적으로 NPU –가 모두 탑재되어 있어 일부 신경망 추론을 GPU에서 분산 처리합니다. 예를 들어 NVIDIA의 Orin 모듈에는 GPU 외에 2개의 DLA가 추가로 탑재되어 있어 자동차용 AI 성능이 254 TOPS에 달합니다 ts2.tech. Apple은 AR 글래스나 미래 프로젝트를 위해 더욱 진보된 AI 코프로세서 또는 대형 뉴럴 엔진을 개발 중이라는 소문이 있지만, 세부 사항은 비밀입니다. Huawei(지정학적 도전에도 불구하고)는 계속해서 NPU(“DaVinci” NPU 아키텍처)를 탑재한 Kirin 모바일 칩과 서버급 NPU를 탑재한 Ascend AI 칩을 설계하고 있습니다. 2023년 Kirin 9000S 칩 역시 휴대폰에서 이미지 및 언어 작업을 위한 강력한 NPU를 유지하고 있는 것으로 알려졌습니다. 또한 스타트업 Hailo, Mythic, Graphcore 등도 자체 엣지 AI 칩을 선보이고 있습니다. 예를 들어, Hailo-8(AI 카메라용 미니 PCIe 카드에서 26 TOPS), Graphcore의 IPU(정확히 온디바이스는 아니지만 신경망을 위한 새로운 아키텍처), Mythic의 아날로그 NPU 개발 등입니다. ARM은 대부분의 모바일 칩 설계의 기반이 되는 기업으로, 칩 제조사가 IoT나 중급 SoC에 바로 적용할 수 있는 Ethos NPU 시리즈(Ethos-U, Ethos-N78 등)을 제공합니다. 이로 인해 비교적 작은 업체들도 ARM의 설계를 라이선스 받아 칩에 NPU를 탑재할 수 있게 되었습니다.

결론적으로, 대형 기술 기업부터 스타트업까지 모두가 온디바이스 AI 실리콘에 투자하고 있습니다. 그 결과, 새로운 칩들이 더 높은 TOPS, 더 나은 효율성(TOPS/Watt), 새로운 데이터 타입(대형 모델을 위한 4비트 양자화 등) 지원 등 빠른 발전을 보이고 있습니다. 예를 들어, Qualcomm과 MediaTek의 최신 칩은 INT4 정밀도를 지원하여, 메모리 대역폭이 제한인 생성형 AI 모델에 적합합니다 androidauthority.com. 이러한 혁신은 사용자에게 직접적인 이점을 제공합니다. 예: 실시간 모바일 AI 동영상 편집(Snapdragon 8 Gen 3의 “Video Object Eraser” AI 기능처럼 4K 동영상에서 실시간으로 객체를 제거 futurumgroup.com), 또는 자동차의 AI 코프로세서가 네트워크 없이도 작동하는 음성 비서 기능을 제공해 사람과 대화하듯 빠르게 응답하는 것 등입니다.

2024–2025년 주요 뉴스: 출시, 벤치마크, 파트너십

변화의 속도를 보여주기 위해, 2024년 말부터 2025년까지 NPU/TPU 및 온디바이스 AI 분야의 주요 이슈를 소개합니다:

  • Apple M3 및 M4 공개(2023년 10월 & 2024년 5월): 차세대 뉴럴 엔진을 도입했습니다. M3의 뉴럴 엔진은 18 TOPS(16코어)를 제공하며, M4는 38 TOPS로 도약했습니다(여전히 16코어지만 더 높은 클럭/효율) apple.fandom.com. Apple은 macOS에서 기기 내에서 안정적인 디퓨전 이미지 생성과 같은 고강도 작업을 이 칩들이 처리하는 모습을 시연했습니다(Core ML Stable Diffusion을 사용해 개발자들은 M2에서 이미지를 생성하는 데 약 15초가 걸렸으며, M3/M4에서는 더 빨랐습니다).
  • Google Pixel 8 출시(2023년 10월): 기기 내 “AI Everywhere”를 강조했습니다. Google의 이벤트에서는 Pixel 8이 Tensor G3 NPU를 사용해 웹페이지 요약 및 기사 실시간 번역을 기기 내에서 수행하는 모습을 시연했습니다. 또한 “Assistant with Bard”를 도입했으며, 일부 상호작용은 결국 기기 내에서 실행될 예정입니다. Google은 Pixel 8이 Pixel 6보다 2배 더 많은 모델을 기기 내에서 실행할 수 있고, 훨씬 더 정교한 모델도 가능하다고 강조했습니다 blog.google. 즉, Tensor 칩 개발 2년 만에 엄청난 도약이 이루어진 셈입니다.
  • Qualcomm–Meta 파트너십(2023년 7월): Qualcomm과 Meta는 Meta의 Llama 2 대형 언어 모델을 2024년까지 Snapdragon NPU에서 완전히 구동할 수 있도록 최적화한다고 발표했습니다 iconnect007.com. 목표는 개발자들이 클라우드 없이도 휴대폰, VR 헤드셋, PC 등에서 챗봇 및 생성형 AI 앱을 배포할 수 있도록 하는 것입니다. 이는 주요 AI 모델 소유자(Meta)와 주요 칩 제조업체가 온디바이스 AI를 공식적으로 지지한 중요한 사례였습니다. 2024년 말에는 Llama 3 최적화 계획도 이어서 발표했습니다 qualcomm.com.
  • Microsoft Windows 11 “Copilot” PC(2024): Microsoft는 40 TOPS 이상의 로컬 AI 가속 성능을 갖춘 PC를 “AI PC”로 정의하고, 향상된 AI 기능(예: Copilot 디지털 어시스턴트 통합) 자격을 부여하는 기준을 제시했습니다. 이로 인해 OEM(레노버, 델 등)들은 해당 사양을 충족하기 위해 NPU가 탑재된 칩(인텔, AMD, 퀄컴 등)을 채택하게 되었습니다. 그 결과 2024년에는 AI 지원 노트북의 물결이 예상되며, Microsoft는 수십 종의 모델이 출시될 것이라고 밝히고 2024년 AI PC 출하량이 4천만 대를 넘을 것으로 전망했습니다 pcworld.com.
  • AMD의 간략한 Ryzen 8000 NPU (2024년 1월): AMD는 데스크톱 CPU에 무려 39 TOPS NPU를 탑재해 발표했습니다(데스크톱 칩에는 보통 이런 가속기가 없기 때문에 놀라운 일입니다) pcworld.com. 해당 제품은 곧 대체되었지만, 데스크톱 CPU도 모바일 칩에 필적하는 AI 실리콘(TOPS 기준)을 가질 수 있음을 보여주었습니다. 또한 이는 데스크톱 x86 CPU 최초로 NPU를 탑재한 사례였으며(인텔 Arrow Lake보다 약간 빨랐습니다).
  • Tesla FSD Beta v12(2023년 말) 데모: 일론 머스크는 테슬라의 HW3/HW4 NPU에서 구동되는 엔드 투 엔드 AI 주행(레이더 없이 비전 네트워크만 사용)을 선보였습니다. 주목할 점은 신경망이 차량의 컴퓨터에서 실시간으로 처리되는 비디오 피드를 이용해 자동차를 운전했다는 것입니다. 관찰자들은 FSD v12가 비전 처리를 위해 2× 100 TOPS NPU를 완전히 활용했다고 언급했으며, 테슬라는 더 큰 모델을 처리하기 위해 2000 TOPS를 목표로 하는 미래 업그레이드(HW5)가 개발 중일 수 있음을 시사했습니다(테슬라 HW5가 2 페타FLOPS = 2000 TOPS를 목표로 할 수 있다는 소문도 있었습니다) notateslaapp.com.
  • NVIDIA Drive Thor 공개(2024 GTC): NVIDIA는 차세대 자동차용 칩 Drive Thor의 세부 정보를 공개했으며, 이는 이전 제품 Orin 대비 2배의 AI 연산 성능(두 칩 연결 시 최대 2000 TOPS)을 제공합니다 ts2.tech. 중요한 점은, Thor가 주행 작업뿐만 아니라 차량 내 AI(음성, 탑승자 모니터링 등)까지 하나의 플랫폼에서 처리할 수 있도록 설계되었다는 점으로, NPU와 GPU가 함께 자동차 내 다양한 AI 기능을 통합할 수 있음을 보여줍니다 ts2.tech. 여러 자동차 제조사(Xpeng, BYD, Volvo)가 2025년부터 Thor를 사용할 것이라고 발표했습니다 ts2.tech.
  • Oppo의 온디바이스 MoE AI(2024년 10월): 앞서 언급했듯, Oppo는 Find X8 폰에 Mixture-of-Experts(MoE) 모델을 구현했습니다 grandviewresearch.com. MoE 모델은 보통 대규모이며 복잡성 때문에 서버 측에서만 사용된다고 여겨졌기 때문에, 이 소식은 주목할 만합니다. 온디바이스 MoE 구동은 모델 압축의 새로운 기술과 매우 강력한 NPU(해당 기기의 MediaTek Dimensity 9400일 가능성 높음)를 시사합니다.
  • 메타의 레이밴 AI 안경(2025): (예상) 메타는 사용자가 보는 것을 인식하고 이에 대해 말해줄 수 있는 스마트 안경 프로토타입을 선보였습니다. 이는 온보드 커스텀 가속기(메타는 AR용 커스텀 실리콘을 프로토타입으로 개발 중)를 사용할 가능성이 높습니다. 세부 정보는 부족하지만, 이는 AI를 매우 제약된 기기(안경, 배터리 이어버드 등)에 탑재하려는 움직임을 강조합니다. 이런 기기에는 초고효율 NPU가 필수적입니다.
  • MLPerf 모바일 추론 벤치마크(2023–24): MLCommons는 최신 스마트폰의 AI 성능을 보여주는 결과를 발표했습니다. 예를 들어, MLPerf Inference v3.0(2023년 10월)에서는 애플 A16, 구글 텐서 G2, 퀄컴 Gen 2가 이미지 분류 및 객체 감지와 같은 작업에서 벤치마크되었습니다. 결과는 애플과 퀄컴이 승리를 주고받았지만, 전반적으로 모바일 NPU가 이러한 작업에서 일부 노트북/데스크톱급 가속기와의 격차를 빠르게 좁히고 있음을 보여줍니다(배터리로 구동되는 상황에서). 또한 소프트웨어 차이(예: 퀄컴 AI SDK vs. 애플 Core ML)도 부각되었습니다. 매년 지속적인 개선(두 자릿수 % 향상)이 이러한 벤치마크에서 나타나며, 온디바이스 AI의 치열한 경쟁과 빠른 발전을 보여줍니다.
  • 전략적 파트너십: 다양한 업계 간 파트너십이 형성되었습니다. 예를 들어, NVIDIA와 미디어텍(2023년 5월)은 엔비디아 GPU IP와 소프트웨어 생태계를 미디어텍의 미래 스마트폰 및 자동차 칩에 탑재하기 위한 협력을 발표했습니다. 이는 엔비디아의 AI 강점과 미디어텍의 모바일 SoC 전문성을 결합하는 효과를 냅니다. 또한 퀄컴은 자동차 제조사(메르세데스, BMW 등)와 협력하여 스냅드래곤 콕핏 및 라이드 플랫폼(NPU 탑재)을 신차에 적용, AI 기능을 제공하고 있습니다. Arm은 후지쯔 등과 협력해 새로운 AI 칩 설계(예: 후가쿠 슈퍼컴퓨터의 AI 파티션, 이는 하이엔드임)를 진행 중입니다. 심지어 IBM과 삼성도 뉴로모픽 컴퓨팅, AI 메모리 등 미래에 NPU를 혁신할 수 있는 새로운 칩 기술을 예고했습니다. 아직 상용화 단계는 아니지만, 연구 파이프라인이 활발함을 보여줍니다.

종합하면, 지난 1년은 엄청난 발전으로 가득했으며, 온디바이스 AI가 기술 분야에서 가장 뜨거운 영역 중 하나임을 보여줍니다. 한 업계 분석가는 “이러한 온디바이스 기능은 완전히 새로운 지평을 엽니다… 모바일에서 LLM을 실행하면 확장성과 비용 문제를 해결하고, 데이터를 비공개로 유지하며, 연결이 제한적일 때도 AI가 작동할 수 있습니다” futurumgroup.com이라고 평가했습니다. 이것이 바로 모든 대형 기술 기업이 이 분야에 투자하는 이유를 잘 설명해줍니다.

전문가 인사이트: 기술 리더들이 말하는 온디바이스 AI

NPU와 TPU의 성장세는 제품뿐 아니라 업계 리더들의 발언에서도 확인할 수 있습니다. 온디바이스 AI의 중요성을 보여주는 주요 인용문과 관점을 소개합니다:

  • Cristiano Amon (Qualcomm CEO): “AI가 대규모로 확장되려면, 기기에서 실행되는 모습을 보게 될 것입니다… 이것은 AI의 전환점입니다: 지연(latency) 문제 없이, 매끄럽고 안전하며, 클라우드를 보완하는 온디바이스 추론이 가능합니다. AI의 미래는 개인적이며, 여러분의 기기에서 시작됩니다.” (Bloomberg 인터뷰 및 X 게시글, 2023) x.com. Amon은 여러분의 휴대폰/PC가 자체 NPU로 많은 작업을 처리하고, 필요할 때 클라우드와 협력하는 하이브리드 AI 세상을 구상합니다. 그는 AI를 로컬에서 실행하는 것이 AI를 어디서나 사용할 수 있게 만드는 핵심이라고 강조합니다(모든 것이 클라우드 GPU에 의존할 수는 없습니다 – 전 세계 수십억 대의 기기를 감당할 만큼 충분하지 않기 때문입니다).
  • Durga Malladi (Qualcomm 수석 부사장): “우리는 Meta의 개방적이고 책임 있는 AI 접근 방식을 환영합니다… 생성형 AI를 주류로 효과적으로 확장하려면, AI는 클라우드와 엣지(단말) 기기 모두에서 실행되어야 합니다.” iconnect007.com Malladi는 Meta와의 파트너십 맥락에서 이 말을 했습니다. 이는 공통된 관점을 강조합니다: AI 확장 = 클라우드 + 엣지가 함께 작동. 이제 순수 클라우드 AI만으로는 충분하지 않다는 인식이 있습니다(비용, 프라이버시, 지연 문제 등), 그래서 엣지 AI가 부담을 분담해야 합니다.
  • Will Chen (MediaTek 부총경리): “AI의 미래는 클라우드를 뛰어넘어, 여러분 손바닥에서 바로 엣지 컴퓨팅에 의해 주도됩니다… OPPO와 MediaTek은 온디바이스 AI를 선도하며, 지능형 기능이 강력하고, 빠르며, 프라이버시와 보안이 보장되고, 언제나 접근 가능하도록 하고 있습니다.” (MediaTek Exec Talk, 2025) mediatek.com. 이 인용문은 온디바이스 AI의 가치 제안을 잘 요약합니다 – 성능과 접근성뿐만 아니라 프라이버시와 보안도 제공합니다. 또한 MediaTek처럼 서구에서 전통적으로 덜 알려진 기업들도 AI 배포의 최전선에서 사고하고 있음을 보여줍니다.
  • Dr. Norman Wang (AI 하드웨어 전문가, 칩 스타트업 CEO): “AI 하드웨어에서는 연산을 데이터 소스에 최대한 가깝게 배치할수록 더 좋습니다. 데이터 이동을 줄이는 것이 핵심입니다. 이미지 센서 옆에 NPU가 있으면, 메가픽셀 데이터를 클라우드로 보내지 않고 바로 엣지에서 인사이트를 추출할 수 있습니다. 이는 지연과 전력 측면에서 게임 체인저입니다.” (HotChips 2024 패널 – 의역). 이 기술적 통찰은 왜 NPU가 종종 다른 부품과 같은 실리콘에 위치하는지 설명합니다: 예를 들어, 휴대폰 SoC에서 NPU는 ISP로부터 카메라 데이터를 직접 가져올 수 있습니다. 데이터 이동을 최소화하는 것은 효율적인 AI의 핵심이며, 엣지 AI는 데이터를 원천에서 바로 처리함으로써 이를 실현합니다.
  • 신저우 우(자동차 부문 부사장, NVIDIA): “가속 컴퓨팅은 생성형 AI를 포함한 혁신적인 돌파구를 이끌었으며, 이는 자율성과 운송 산업을 재정의하고 있습니다.” (GTC 2024 기조연설) ts2.tech. 그는 강력한 온보드 컴퓨터(NPU/GPU 탑재)가 자동차를 단순히 주행하게 할 뿐만 아니라, 차량 내 자연어 인터페이스나 상황에 대한 더 나은 이해와 같은 고급 AI(생성형 모델 등)를 통합할 수 있게 해준다고 설명했습니다. 이는 자동차와 같은 분야에서도 온디바이스 AI가 핵심 기능뿐 아니라 사용자 경험 개선(예: 온보드 LLM 덕분에 대화가 가능한 차량 내 음성 비서 등)을 위해서도 중요하다는 점을 강조합니다.
  • 순다르 피차이(구글 CEO): “AI의 미래는 모두에게 도움이 되는 것입니다. 즉, 우리가 사용하는 모든 기기—휴대폰, 가전제품, 자동차—에 AI를 탑재해 필요할 때 언제든 사용할 수 있도록 하는 것이죠. 우리는 사용자가 있는 곳에서 AI를 만날 수 있도록, 실시간으로 현장에서 작동하고 프라이버시를 지키는 AI를 만들고자 합니다.” (여러 인터뷰/기조연설에서 재구성). 피차이는 종종 “앰비언트 AI”—AI가 우리 주변 모든 곳에 내장되는 개념—에 대해 이야기합니다. 구글이 픽셀에 텐서 칩을 적용하는 것도 바로 이 철학의 직접적인 실행입니다.
  • 업계 통계: 분석가들은 이 트렌드를 수치로 관찰하고 있습니다. 2024년 Grand View Research 보고서에 따르면: “최근 특화된 AI 칩과 NPU의 발전으로 복잡한 AI 알고리즘이 기기에서 직접 실행될 수 있게 되어, 성능과 에너지 효율성이 크게 향상되었습니다… 우리는 온디바이스 AI로의 중대한 전환점에 가까워지고 있습니다.” grandviewresearch.com. 같은 보고서는 온디바이스 AI 시장이 향후 폭발적으로 성장할 것으로 전망하며, 하드웨어 부문(NPU 등)이 2024년 전체 매출의 60% 이상을 차지하고, 거의 모든 신규 IoT 및 모바일 기기가 AI 기능을 채택함에 따라 그 비중이 더욱 커질 것으로 내다봤습니다 grandviewresearch.com. IDC 등 다른 전망에 따르면 2020년대 중반까지 거의 모든 고급 스마트폰과 대다수 중급 스마트폰에 AI 가속기가 탑재되고, 2030년까지는 수십억 개의 엣지 AI 칩이 가전제품부터 스마트 인프라까지 광범위하게 사용될 것으로 예측됩니다.

전문가들 사이의 공감대는 온디바이스 AI는 단순히 있으면 좋은 것이 아니라, 다음 기술 혁신의 필수 요소라는 점입니다. AI 선구자 앤드류 응은 “타이니 AI”와 엣지 AI가 지능을 모든 사물에 스며들게 할 것이라고 자주 언급해왔으며, 이는 과거 전기나 인터넷이 그랬던 것과 유사합니다. 클라우드 기반 AI의 한계를 극복함으로써 NPU와 TPU가 이러한 확산을 가능하게 하고 있습니다.

다양한 표준의 난제(그리고 단순화를 위한 노력)

하드웨어는 빠르게 발전했지만, 온디바이스 AI를 위한 소프트웨어와 표준의 생태계는 아직 따라잡는 중입니다. 개발자들은 다양한 기기에서 NPU를 활용하려 할 때 수많은 도구와 SDK의 정글에 직면합니다 nimbleedge.com. 주요 내용:
  • 각 플랫폼마다 고유의 API 또는 SDK가 있습니다: 애플은 Core ML(Neural Engine을 타겟팅하는 API 포함), 안드로이드는 Neural Networks API (NNAPI)(구글은 Android 14 이후로 진화시킬 계획을 발표함) threads.com, 퀄컴은 SNPE (Snapdragon Neural Processing Engine) 또는 더 넓게는 Qualcomm AI Stack, NVIDIA는 TensorRT와 자사 기기용 CUDA 등을 제공합니다. 또한 ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI 등도 있습니다. 이러한 다양한 SDK는 종종 서로 다른 기능을 가지고 있으며, 각 타겟에서 최적의 실행을 위해 모델을 조정해야 합니다. 2025년 온디바이스 AI 보고서에 따르면, “여러 개의 호환되지 않는 SDK(Core ML, LiteRT, ONNX Runtime 등)와 다양한 연산자 지원 및 성능” 때문에 개발자들이 추가 작업을 해야 한다고 합니다 nimbleedge.com.
  • 단편화 문제: 데스크톱 GPU에서 완벽하게 실행되는 모델이 휴대폰의 NPU에서는 바로 실행되지 않을 수 있습니다 – 연산자(수학 함수)가 지원되지 않거나 다르게 양자화해야 할 수도 있습니다. 개발자들은 때때로 각 하드웨어별로 별도의 빌드를 유지하거나 수동으로 모델을 최적화해야 합니다. 이것이 바로 “저수준, 단편화된 생태계”라는 불만입니다 nimbleedge.com. 디버깅 도구도 부족해서, NPU에서 모델이 느린 이유를 프로파일링하는 것이 특히 CPU/GPU용 풍부한 도구에 비해 어렵습니다 nimbleedge.com.
  • 표준화 노력: 이를 해결하기 위해 몇 가지 움직임이 있습니다. ONNX(Open Neural Network Exchange)는 공통 포맷으로 등장하여, PyTorch나 TensorFlow에서 모델을 학습한 후 ONNX로 내보내어 배포할 수 있습니다. 많은 런타임(퀄컴, 미디어텍 등 온디바이스용 포함)에서 ONNX 모델을 받아들이고 하드웨어에 맞게 컴파일을 시도합니다. 이는 특정 프레임워크에 종속되는 것을 방지하는 데 도움이 됩니다. Android NNAPI는 구글이 범용 인터페이스를 제공하려는 시도였습니다. 앱이 NNAPI를 통해 “이 신경망을 실행해줘”라고 요청하면, OS가 사용 가능한 가속기(GPU, DSP, NPU 등)를 사용해 실행합니다. NNAPI는 많은 안드로이드 기기에서 채택되었지만 한계가 있었고, 모든 벤더가 견고한 드라이버를 제공하지 않아 구글은 2024년 이후 새로운 전략(아마도 WebNN 또는 벤더 직접 통합에 의존)을 시사했습니다. PC에서는 마이크로소프트가 DirectML 및 Windows ML API를 도입해 하드웨어 차이를 추상화했습니다(NVIDIA, Intel, AMD NPU 모두에 동일한 API 사용 가능).통합 툴체인: 기업들은 배포를 간소화하기 위한 툴체인도 구축하고 있습니다. 퀄컴의 AI Stack은 컴파일러(AI Model Efficiency Toolkit)와 런타임을 결합해 개발자가 Hexagon NPU를 더 쉽게 타깃팅할 수 있게 합니다. NVIDIA의 TensorRT 및 관련 SDK도 Jetson 기기에서 GPU+NVDLA에 맞게 모델을 최적화하는 등 유사한 역할을 합니다. Intel OpenVINO 역시 모델을 인텔 CPU, iGPU, VPU(NPU)용으로 최적화해 엣지 배포에 활용할 수 있습니다. 이러한 프레임워크는 종종 모델 최적화 도구(프루닝, 양자화 등)를 포함해 소형 기기에 맞게 모델을 변환합니다.상호운용성: 다양한 NPU가 공통 프레임워크와 함께 동작하도록 하는 움직임도 있습니다. 예를 들어, 구글의 TensorFlow Lite는 하드웨어 딜리게이트를 지원합니다. NNAPI(안드로이드 기기용), Core ML(iOS 기기용), Edge TPU용 등 각각의 딜리게이트가 있습니다. 즉, TFLite 모델을 작성하면 딜리게이트를 통해 사용 가능한 최적의 가속기로 실행됩니다. 마찬가지로 PyTorch도 모바일 백엔드 및 애플의 Metal Performance Shaders(iOS의 GPU/NPU 사용) 지원을 추가하고 있습니다. ONNX Runtime 역시 플러그인을 통해 다양한 가속기를 타깃팅할 수 있습니다(예: NVIDIA의 TensorRT, ARM의 Compute Library 등).신흥 표준: Khronos Group(OpenGL/Vulkan의 주체)은 NNEF(Neural Network Exchange Format)를 개발했고, 브라우저에서 로컬 AI 가속에 접근할 수 있는 WebNN API도 논의되고 있습니다. 아직 보편적으로 채택되지는 않았습니다. 하지만 흥미로운 발전이 하나 있는데, 2024년 말 여러 기업이 “AI Hardware Common Layer” 표준을 추진하는 연합을 결성했습니다. 이는 NPU에 대한 공통 저수준 인터페이스를 만들 수 있는지(과거 OpenCL이 GPU 연산에서 했던 것처럼) 탐구하는 것입니다. 아직 초기 단계입니다.
  • 개발자 경험: 이는 인정된 격차입니다. NimbleEdge의 블로그에서 말했듯이, “온디바이스 AI 개발은 현재 분절되고 저수준의 생태계를 헤쳐나가야 하며… 개발자들은 각 하드웨어 타겟에 맞춰 구현을 조정해야 한다” nimbleedge.com. 업계는 온디바이스 AI가 진정으로 대중화되기 위해서는 이 부분이 개선되어야 한다는 것을 알고 있습니다. 우리는 통합을 보게 될 수도 있습니다 – 예를 들어, 구글, 애플, 퀄컴이 모두 일부 핵심 연산 및 API에 동의한다면(아마도 희망사항이겠지만). 아니면 더 가능성 있는 시나리오는, PyTorch와 TensorFlow 같은 프레임워크가 모든 벤더 라이브러리를 통합하고 런타임에 적합한 것을 선택함으로써 복잡성을 숨기는 것입니다.

본질적으로, NPU/TPU가 근육을 제공한다면, 커뮤니티는 그 근육을 사용할 수 있는 뇌 친화적 도구를 개발하고 있습니다. 좋은 소식은, 예를 들어 5년 전과 비교하면, 칩 전문가가 아니어도 온디바이스에 모델을 배포할 수 있는 옵션이 훨씬 많아졌다는 점입니다. 하지만 성장의 여지는 남아 있습니다 – 특히 디버깅, 프로파일링, 멀티 하드웨어 지원 측면에서 그렇습니다.

시장 동향 및 미래 전망

NPU와 TPU의 기기 내 확산은 더 큰 트렌드를 이끌고 있습니다: AI의 보편화. 앞으로 기대할 수 있는 주요 트렌드는 다음과 같습니다:

  • 엣지 AI 시장 성장: 시장 조사에 따르면 엣지 AI 하드웨어의 폭발적인 성장이 예상됩니다. 온디바이스 AI 시장(칩과 소프트웨어 포함)은 10년 동안 연평균 약 29% 성장할 것으로 전망됩니다 nimbleedge.com. 한 보고서는 2024년 약 2,330억 달러에서 2032년에는 1조 7,000억 달러를 넘을 것으로 평가했습니다 nimbleedge.com – 이 성장의 상당 부분이 엣지 배포에 달려 있습니다. IDTechEx의 또 다른 분석에 따르면 엣지 기기용 AI 칩 시장은 2034년까지 220억 달러에 이를 것이며, 소비자 전자, 자동차, 산업 분야가 가장 큰 세그먼트가 될 것이라고 합니다 idtechex.com. 이는 매년 수억 대의 기기가 NPU를 표준 부품으로 탑재해 출하된다는 것을 의미합니다.
  • 보편적 채택: 오늘날 모든 스마트폰에 GPU가 탑재되어 있는 것처럼(비록 작더라도), 이제는 모든 신형 스마트폰에 AI 가속기가 탑재되는 시점에 도달하고 있습니다. 현재는 고급형 폰에 탑재되어 있고, 중급형 폰이 그 다음입니다. 실제로 Qualcomm(예: Snapdragon 7 시리즈)과 MediaTek(Dimensity 700/800 시리즈)의 중급 칩에도 축소된 NPU가 포함되어 있어 AI 카메라 향상, 음성 비서와 같은 기능이 저렴한 기기에서도 작동할 수 있습니다. 스마트폰을 넘어, NPU는 PC(여러 제조사의 신형 Windows 노트북에 기본 탑재), 자동차(ADAS 레벨 2+가 탑재된 거의 모든 신차에 일종의 AI 칩이 있음), 그리고 IoT로 확산되고 있습니다. 냉장고, 세탁기 같은 가전제품도 “AI” 기능을 내세우기 시작했으며(일부는 클라우드 기반, 일부는 센서 기반 적응형 사이클 등 로컬 처리), 추세는 분명합니다: 기기에 연산 칩이 있다면, 그 칩에는 어떤 형태로든 ML 가속 기능이 들어가게 됩니다.
  • 성능 궤적: 온디바이스 AI 성능은 대략 1~2년마다 두 배로 증가하고 있습니다(더 나은 아키텍처와 5nm, 4nm, 3nm 등 첨단 반도체 공정 도입의 결합 효과). Apple의 Neural Engine은 2017년 6000억 ops/sec에서 2023년 35조 ops/sec로 6년 만에 거의 60배 증가했습니다 apple.fandom.com. Qualcomm의 플래그십 역시 2018년 몇 TOPS에서 2023년 27 TOPS 이상(SD 8 Gen 3의 전체 AI 연산, 모든 코어 포함)으로 도약했습니다. 2025~2026년에는 모바일 NPU가 100+ TOPS를 제공하고, PC 가속기는 그 이상을 달성할 것으로 기대할 수 있습니다. 그리고 이러한 수치보다 특정 AI 작업에서의 실사용 성능(예: 얼마나 큰 LLM을 원활하게 구동할 수 있는지, 4K AI 비디오를 실시간으로 처리할 수 있는지 등)에 더 초점이 맞춰질 수 있습니다. 추론 작업에 있어 클라우드와 엣지 간의 격차는 좁혀질 가능성이 높습니다. 다만, 엣지는 전력 및 메모리 제약으로 인해 최첨단 대형 모델에서는 여전히 클라우드에 뒤처질 것입니다.
  • 에너지 효율성 향상: 과소평가되는 부분 중 하나는 NPU의 효율성이 크게 향상되고 있다는 점입니다. Tesla의 차량용 NPU는 약 4.9 TOPS/Watt의 효율을 달성했으며 fuse.wikichip.org, 이는 몇 년 전만 해도 최첨단이었으나, 이제 일부 모바일 NPU는 이와 비슷하거나 더 나은 효율을 자랑합니다. 효율적인 NPU는 AI 기능을 더 많이 사용해도 배터리 수명이 더 길어진다는 의미입니다. 또한 AI를 초소형 배터리 구동 기기에 적용하는 것도 가능해집니다(예: AI 보청기, 동전형 배터리로 구동되는 스마트 센서의 이상 감지 등). TinyML 개념—마이크로컨트롤러에서의 극소형 머신러닝—도 이의 연장선상에 있으며, 마이크로컨트롤러에서 AI를 수행하기 위해 단순화된 “NPU” 또는 최적화된 명령어를 사용합니다. ARM의 Ethos-U NPU가 바로 이 시장을 겨냥한 것으로(예: 몇 mW로 항상 대기하는 키워드 감지), 앞으로 센서, 웨어러블, 일상 사물에 내장될 수 있는 AI 특화 초소형 칩이 더 많이 등장할 것입니다(스마트 칫솔? AI 기반 연기 감지기? 곧 볼 수 있습니다).
  • 하이브리드 클라우드-엣지 솔루션: 엣지가 클라우드를 완전히 대체하는 것이 아니라, 미래는 협업에 있습니다. 기기는 로컬에서 할 수 있는 것은 직접 처리하고, 할 수 없는 것만 외부에 요청하게 됩니다. 예를 들어, AR 안경이 로컬에서 장면 인식을 실행해 사용자가 무엇을 보고 있는지 파악할 수 있지만, 매우 복잡한 질문(예: 자세한 설명 요청)을 하면 더 강력한 분석을 위해 클라우드 AI에 질의하고 결과를 보여줄 수 있습니다. 이러한 하이브리드 방식은 반응성과 성능의 최적 균형을 제공합니다. 기업들은 이미 이를 중심으로 경험을 설계하고 있습니다: 마이크로소프트의 Copilot이 윈도우에서 로컬 NPU로 빠른 음성-텍스트 변환과 명령 해석을 처리하고, 무거운 작업은 클라우드로 넘기는 식입니다(단, PC NPU가 충분히 강력하다면 로컬에서 모두 처리할 수도 있습니다). 사용자는 어떤 방식이 쓰였는지 신경 쓸 필요 없이, 더 빠르고 프라이버시가 지켜진다는 점만 느끼면 됩니다. 또한 연합 학습(federated learning)이 더 보편화될 것입니다 – 모델은 클라우드에서 학습하지만, 데이터는 기기에서 암호화되거나 처리되어 도움을 주고, 그 반대도 가능합니다.
  • 새롭게 떠오르는 활용 사례: NPU가 더 강력해지면서 새로운 애플리케이션이 열리고 있습니다. 온디바이스 생성형 AI가 대표적입니다 – AI 이미지 생성, AI 영상 편집, 개인 챗봇이 모두 휴대폰이나 노트북에서 실행되는 것을 상상해보세요. 2025년쯤이면 이메일 요약이나 메시지 초안 작성 등을 오프라인에서 처리하는 초기 버전의 개인 비서가 등장할 수 있습니다. 실시간 대화 언어 번역(서로 다른 언어를 쓰는 두 사람이 휴대폰이나 이어버드로 거의 실시간 번역을 받으며 대화)이 온디바이스 처리로 크게 개선될 것입니다(지연 없이 어디서나 작동). 헬스 AI는 웨어러블에 탑재될 수 있습니다 – 스마트워치가 NPU를 이용해 심방세동을 감지하거나 수면 무호흡 패턴을 분석하는 식입니다. 보안: 기기가 AI를 로컬에서 실행해 실시간으로 악성코드나 피싱을 탐지할 수 있습니다(예: 클라우드 스캔 대신 기기 내 AI 모델을 활용하는 백신). 차량에서는 자율주행 외에도, AI가 운전자 얼굴 카메라로 감지한 기분에 따라 실내 온도를 조절하는 등 차량 내 경험을 개인화할 수 있습니다. 이들 대부분은 빠른 반복과 프라이버시가 중요한데, 온디바이스가 적합합니다.
  • 경쟁과 민주화: 대형 업체들은 계속 경쟁할 것이고, 이는 소비자에게 이득입니다 – “우리 AI 칩은 X TOPS를 지원한다”거나 “Y 기능을 타사보다 먼저 제공한다”는 식의 마케팅이 이어질 것입니다. 하지만 기술은 민주화되고 있습니다 – NPU는 1000달러짜리 폰에만 있는 것이 아니라, 300달러 폰, 50달러 IoT 보드(Coral, Arduino Portenta 등)에도 탑재되고, 오픈소스 커뮤니티에서는 라즈베리파이나 마이크로컨트롤러+기본 가속기에서 구동 가능한 초소형 AI 모델을 만들고 있습니다. 이처럼 널리 보급되면 혁신은 어디서든 나올 수 있습니다. 이제 혼자 개발하는 사람도 온디바이스 AI를 활용해 서버팜 없이도 똑똑한 앱을 만들 수 있어, AI 기반 소프트웨어 진입 장벽이 낮아집니다.
  • 미래 기술: 더 멀리 내다보면, 뉴로모픽 컴퓨팅(Intel Loihi와 같은 뇌에서 영감을 받은 칩)과 아날로그 AI 칩에 대한 연구가 언젠가 NPU에 혁신을 가져와 효율성을 획기적으로 높일 수 있습니다. IBM과 BrainChip 같은 기업들이 이 분야에서 일하고 있습니다. 성공한다면, 뉴로모픽 칩은 복잡한 AI가 아주 작은 배터리 장치에서 지속적으로 실행될 수 있게 할지도 모릅니다. 또한, NPU에 3D 적층 및 새로운 메모리 기술이 통합되어 메모리 병목 현상을 극복하는 것도 볼 수 있을 것입니다(2025년 이후 일부 칩은 HBM 메모리나 새로운 온칩 비휘발성 메모리를 사용해 AI 코어에 더 빠르게 데이터를 공급할 수 있습니다). 또한, AI 칩 내에서 더 많은 전문화가 기대됩니다: 예를 들어, 비전, 음성, 추천 모델 등 각 도메인에 맞게 조정된 별도의 가속기가 탑재되는 것입니다. 일부 SoC는 이미 듀얼 NPU(무거운 작업을 위한 “빅” NPU, 항상 켜져 있는 가벼운 작업을 위한 센서 허브 내 마이크로 NPU)를 탑재하고 있습니다.

결론적으로, 방향성은 분명합니다: NPU와 TPU는 현대 컴퓨팅에서 CPU만큼 표준적이고 필수적인 존재가 되어가고 있습니다. 이들은 기기를 더 똑똑하고, 더 반응 빠르며, 우리의 프라이버시를 더 잘 고려할 수 있게 만듭니다. 한 보고서에서 언급했듯이, “기기 내 고성능 처리 유닛은 이미지 인식, 자연어 처리, 실시간 의사결정과 같은 복잡한 AI 기능을 실행하는 데 주로 사용된다”고 하며, 이것이 다양한 분야에서 더 지능적이고 반응성 높은 기술을 이끌고 있습니다 grandviewresearch.com.

우리는 이제 기기가 당신의 필요를 이해하고 예측하는 것을 당연하게 여기는 시대에 진입하고 있습니다 – 휴대폰이 사진을 편집하고 당신 스타일로 메시지를 작성하며, 자동차가 사고를 피하고 AI로 당신을 즐겁게 하고, 집안 기기가 당신의 취향을 학습합니다 – 이 모든 것이 내부의 조용한 신경처리장치 덕분에 가능해집니다. 온디바이스 AI는 더 이상 공상과학이 아니며, 이미 현실이고 빠르게 발전하고 있습니다. NPU와 TPU가 일상 기기와 결합되면서 AI는 개인적이고, 어디에나 존재하며, 프라이버시를 지키는 방향으로 나아가고 있습니다 – 클라우드 인텔리전스의 힘을 지상으로(적어도 당신의 주머니 속으로) 가져오고 있습니다.

출처:

  • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 2024년 8월 27일 techtarget.com. AI 워크로드에서 CPU, GPU, TPU, NPU의 역할과 차이점을 설명합니다.
  • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023년 backblaze.com. Google의 TPU 설계(시스토릭 어레이, 저정밀도)와 모바일 기기에서의 NPU 사용에 대한 설명.
  • TechTarget WhatIs. “Tensor processing unit (TPU).” whatis.techtarget.com, 2023 techtarget.com. TPUs가 행렬 수학 작업에 특화되어 있고, NPU는 가속을 위해 뇌의 신경망을 모방한다는 점을 언급함 techtarget.com.
  • NimbleEdge Blog (Neeraj Poddar). “The State of On-Device AI: What’s Missing in Today’s Landscape.” 2025년 6월 26일 nimbleedge.com. 온디바이스 AI의 장점(지연 시간, 오프라인, 프라이버시, 비용)과 분산된 SDK와 같은 과제를 개요함.
  • Qualcomm (OnQ Blog). “Bloomberg and Cristiano Amon talk on-device AI.” 2023년 7월 x.com. Qualcomm CEO가 미래 AI를 위한 온디바이스 추론의 중요성에 대해 언급(인공지능의 전환점에 대한 트윗 인용).
  • MediaTek Blog (Exec Talk by Will Chen). “Shaping the future of AI mobile experiences.” 2025년 3월 3일 mediatek.com. MediaTek과 Oppo의 NPU 협업; 손안의 엣지 컴퓨팅에 대한 인용문과 NPU를 활용한 AI 사진 리마스터링 예시.
  • I-Connect007 / Qualcomm Press. “Qualcomm works with Meta to enable on-device AI (Llama 2).” 2023년 7월 24일 iconnect007.com. Qualcomm 부사장 Durga Malladi의 인용문과 함께, 엣지 디바이스와 클라우드를 통한 생성형 AI 확장에 대한 보도자료.
  • PCWorld (Mark Hachman). “Intel’s Core Ultra CPUs keep AI simple….” 2024년 10월 24일 pcworld.com. Intel Arrow Lake이 Meteor Lake의 NPU(13 TOPS)를 사용하고, AMD Ryzen 8000의 39 TOPS NPU 및 Microsoft의 40 TOPS “Copilot” 요구사항을 언급함.
  • Ts2 (Tech Empowerment). “Self-Driving Supercomputer Showdown: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.” 2023년 9월 ts2.tech. TOPS 추정치 제공: Tesla HW3 vs HW4 (칩당 72→100 TOPS) ts2.tech, NVIDIA Thor 약 1000 TOPS (또는 듀얼 시 2000) ts2.tech 및 차량 내 생성형 AI에 대한 NVIDIA 부사장 인용 ts2.tech.
  • Grand View Research. “On-Device AI Market Report, 2030.” 2024년 grandviewresearch.com. 복잡한 AI를 기기에서 구현하는 특화 AI 칩(NPU)의 부상과, 2024년 온디바이스 AI 시장에서 하드웨어가 60.4%를 차지했으며, 스마트폰, IoT, NPU 등이 주도했다고 언급.
  • Google Blog. “Google Tensor G3: Pixel 8’s AI-first processor.” 2023년 10월 blog.google. Tensor G3의 온디바이스 생성형 AI 업그레이드, 새로운 TPU 설계, 데이터센터급 품질의 온디바이스 TTS 모델을 설명.
  • Techspot. “Snapdragon 8 Gen 3 brings generative AI to smartphones.” 2023년 10월 futurumgroup.com. Futurum Group 분석으로 SD8Gen3의 AI 엔진(온디바이스 100억 파라미터 LLM, 98% 더 빠른 NPU, 세계에서 가장 빠른 스마트폰용 Stable Diffusion 등)과 온디바이스 LLM의 비용/프라이버시/오프라인 이점 설명 futurumgroup.com.
  • Apple 위키 (Fandom). “Neural Engine.” 2025년 업데이트 apple.fandom.com. 2023년 A17 Pro 35 TOPS 등 Neural Engine 버전 히스토리. 0.6 TOPS (A11)에서 35 TOPS (A17)까지의 발전 과정을 보여줌 apple.fandom.com 및 M4는 38 TOPS apple.fandom.com.
  • EnGenius Tech. “Cloud Edge Camera AI Surveillance.” 2023년 engeniustech.com. 내장 NPU로 카메라 내 AI 처리 및 로컬 저장(별도의 NVR 불필요)이 가능한 보안 카메라 예시.
  • EmbedL. “Amazon releases AZ1 Neural Edge Processor.” 2020년 10월 embedl.com. Echo 기기를 위한 Amazon의 AZ1 엣지 NPU에 대해 다루며, MediaTek과 함께 제작, 지연 시간 단축 및 클라우드 의존도 감소를 위해 온디바이스 음성 추론에 최적화됨 embedl.com.
NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

Don't Miss

Fuel Cell Revolution: How Hydrogen Power is Transforming Transportation, Energy and Tech in 2025

연료전지 혁명: 2025년 수소 에너지가 교통, 에너지, 기술을 변화시키다

2025년 연료전지는 실험실을 넘어 산업 전반으로 확대되며, 수소를 사용해 전기를
Sodium-Ion Batteries Are Coming – Cheaper, Safer and Poised to Disrupt Lithium-Ion

나트륨 이온 배터리가 온다 – 더 저렴하고, 더 안전하며, 리튬 이온을 대체할 준비 완료

2025년 4월, CATL은 차세대 나트륨 이온 배터리 브랜드 ‘Naxtra’의 2세대를