- Appleは2017年にiPhone A11のNeural EngineでオンデバイスAIを開始し、Face IDやAnimojiを最大6000億回/秒で実現しました。
- 2023年、iPhone A17 Proの16コアNeural Engineは約35TOPSを達成し、オンデバイスの音声、写真、翻訳機能を支えています。
- Google Pixel 8(2023)はTensor G3 NPUを使い、Palm 2などのAIモデルでオフライン翻訳や要約を実行します。
- GoogleのCoral Dev Board搭載Edge TPUは、数ワットで4TOPSの画像処理を実現します。
- Teslaの自動運転ハードウェアには2つのNPUがあり、HW3(2019)は約144TOPS、HW4(2023)は約200~250TOPSを提供します。
- NVIDIA Drive Thor(2024年発表)は、2チップ連結時に最大2000TOPSで自動車向けAIワークロードに対応します。
- QualcommのSnapdragon 8 Gen 3(2023)Hexagon NPUはGen 2比で98%高速化し、最大100億パラメータのLLMをオンデバイスで実行、デモで世界最速のモバイルStable Diffusionを達成しました。
- MediaTekのDimensity 9400(2024)は第6世代APUを搭載し、Oppo Find X8のAI写真リマスターを実現。2025年までにNPUがテレビ、IoT、自動車にも拡大する兆しです。
- IntelのMeteor Lake、第14世代Core(2023年発売、2024年にCore Ultraへ改名)は、約8~12TOPSの統合NPUを搭載。Arrow Lakeは約13TOPS、Lunar Lakeは約45TOPSと噂されています。
- AMDのRyzen 7040 Phoenix(2023)は最大10TOPSのRyzen AI Engineを導入し、Ryzen 8000デスクトップ(2024年初頭)は39TOPSを提供しましたが、その世代でNPUの開発は一時停止しました。
要約: あなたのスマートフォン、カメラ、さらには車までもが、AIの頭脳を内蔵し始めています ― クラウド不要です。NPU(ニューラルプロセッシングユニット)やTPU(テンソルプロセッシングユニット)と呼ばれる特別なチップが、日常のデバイスを顔認識、音声コマンド、リアルタイム翻訳、自動運転機能などを備えたインテリジェントアシスタントへと変貌させています。このオンデバイスAI革命は、超高速な応答、より高いプライバシー、そしてかつてはスーパーコンピュータでしか実現できなかった新機能を約束します。本レポートでは、NPUとTPUの仕組みを解説し、CPU/GPUとの違い、Apple、Google、Qualcomm、Intelなどの大手がなぜこれらの「AIの頭脳」をスマホから車まであらゆるものに搭載しようと競争しているのかを探ります。また、2024~2025年の最新ブレークスルー、専門家の見解、業界標準、そしてオンデバイスAIの未来についても紹介します。
NPUとTPUとは?(あなたのデバイスのAI頭脳を知ろう)
ニューラルプロセッシングユニット(NPU)は、人工ニューラルネットワークを高速化するために設計された専用プロセッサです。人工ニューラルネットワークは、画像認識や音声処理など、現代のAIタスクを支えるアルゴリズムです。汎用CPUとは異なり、NPUはアプリケーション固有集積回路(ASIC)であり、行列計算やニューラルネットワークの大規模な並列処理に最適化されていますtechtarget.com。NPUは「人間の脳のニューラルネットワークを模倣してAIタスクを高速化する」ものであり、実質的にあなたのデバイス内のシリコンの脳として機能しますtechtarget.com。NPUは、AIモデルの推論(予測)を効率的にデバイス上で実行するのが得意で、しばしば低い数値精度(例:8ビット整数)を使用して電力を節約しつつ高いパフォーマンスを発揮しますbackblaze.com。「NPU」という用語は、あらゆるAIアクセラレータを広義に指す場合もありますが、より一般的にはモバイルやエッジデバイスに搭載されているものを指しますbackblaze.com。例えば、iPhoneのApple「Neural Engine」やSamsungのモバイルAIエンジンは、SoC(システム・オン・チップ)設計に統合されたNPUです。
Tensor Processing Units(TPU)は、一方で、Googleによって開発された機械学習を加速するためのカスタムチップであり、特にTensorFlowフレームワーク向けに設計されています。TPUは、テンソル演算(行列の積など)に最適化されたASICの一種で、ニューラルネットワークの学習と推論の中心的な役割を担っていますbackblaze.com。Googleは2015年に自社データセンターでTPUを初めて導入し、ニューラルネットワークの計算を高速化しました。その後、Google Cloudを通じて一般にも提供されるようになりましたbackblaze.com。TPUは、シストリックアレイと呼ばれる独自のアーキテクチャを採用しており、多数の小さな演算ユニットをグリッド状に接続し、データを行列積ユニットのチェーンに流し込む仕組みですbackblaze.com。この設計により、ディープラーニングタスクで非常に高いスループットを実現しています。GoogleのTPUは、意図的に一部の精度(32ビット浮動小数点の代わりに8ビットまたは16ビット演算)を犠牲にし、その分大幅な速度と効率の向上を図っていますbackblaze.com。多くのAIタスクでは高精度がなくても十分な結果が得られるためです。「TPU」という用語は本来Googleのチップを指しますが、時に「テンソル」アクセラレータ全般を指して使われることもあります。特筆すべきは、GoogleがEdge TPUコプロセッサも製造しており、Coral Dev Boardなどの製品でオンデバイスAIを実現し、数ワットで4兆回の演算を可能にしていますcoral.ai。
要するに: NPUとTPUはいずれもAI向けのシリコンアクセラレータですが、NPUは効率的なオンデバイス推論のためにモバイルやエッジデバイスに組み込まれることが多い一方、TPU(厳密な意味では)はGoogleが主にクラウド/データセンターでの学習や推論タスク向けに開発した高性能チップ(および現在はモジュール)です。どちらも従来のCPU/GPU設計とは異なり、ニューラルネットワーク向けの並列数学演算を重視しています。ある技術編集者は、「TPUはさらに特化を進め、テンソル演算に集中することでより高い速度とエネルギー効率を実現している…NPUはスマートフォンやIoT機器などAI対応デバイスで広く使われている」backblaze.comと述べています。
NPUとTPUはCPUやGPUとどう違うのか?
従来のCPU(中央処理装置)は、一般的なコンピューティングの「頭脳」です。あらゆるタスク(オペレーティングシステムの実行からウェブ閲覧まで)を処理できる柔軟性に最適化されています。CPUは、順次処理や多様な命令に優れた少数の強力なコアを持っていますが、ディープラーニングに必要な高度に並列化された数値計算にはあまり向いていませんtechtarget.com。CPUが大規模なニューラルネットワークを処理しようとすると、しばしばボトルネックとなり、何百万もの乗算や加算を順番に、または限られた並列バッチで実行しようとします。これにより高いレイテンシと電力消費が発生します(いわゆるフォン・ノイマン・ボトルネック、CPUとメモリ間で大量のデータをやり取りすることによる)backblaze.com。CPUもある程度のAI処理(特にシンプルまたは小規模なモデル、AIプログラムの制御ロジックなどtechtarget.com)は可能ですが、一般的に、現代AIが要求する大規模な並列線形代数には効率的に対応できません。
GPU(グラフィックス処理装置)は、並列コンピューティングを前面に押し出しました。もともとはピクセルや頂点に対して多くの単純な処理を並列で行い画像を描画するために作られましたが、ニューラルネットワークの学習にも適していることが判明しました。ニューラルネットワークも同じ数値演算(ドット積など)を大量のデータに同時に適用するためですtechtarget.com。GPUは、数百から数千の小さなコアを持ち、並列で計算を行うことができます。これにより、GPUは大規模AIに非常に適しています。2010年代を通じて、GPU(特にNVIDIAのCUDAソフトウェアを使ったもの)はディープラーニング研究の主力となりました。ただし、GPUもある程度汎用的であり、さまざまなグラフィックス処理や柔軟性を維持する必要があるため、ニューラルネット専用に100%最適化されているわけではありません。また、消費電力が多く、最大限に活用するには慎重なプログラミングが必要です(複雑な分岐コードは苦手で、効率的なデータ並列タスクを得意とします)techtarget.com。
NPUやTPUは、さらに特化が進んでいます。これらはまさにニューラルネットワークのワークロード専用に作られています。つまり、そのアーキテクチャはAI計算に不要なものをすべて排除し、行列積演算ユニット、加算アキュムレータ、およびこれらの演算ユニット間でデータを高速にやり取りするためのオンチップメモリなどに、より多くのシリコンを割り当てることができます。たとえばGoogle Cloud TPUは、本質的には巨大な2次元配列のMAC(乗算-加算)ユニットで構成されており、巧妙なデータフローアーキテクチャ(シストリックアレイ)によって高速でオペランドを供給していますbackblaze.com。キャッシュや投機的実行、その他のCPU機能にはこだわらず、行列計算に特化して最適化されています。モバイルチップのNPUも同様に、CPU/GPUの横に専用のニューラルエンジンコアを統合しています。これらのコアはしばしば低精度の算術演算(例:TPUのような8ビット整数)を使用し、畳み込みニューラルネットワークなどのために高度に並列化された「レイヤーごとの」計算を実行します。NPUは「スカラー、ベクター、テンソルユニットを融合した」アーキテクチャ(QualcommのHexagon NPUがこれを採用)を用いて、さまざまなニューラルネットワーク演算を効率的に処理することもありますfuturumgroup.com。
主な違いは次の点に集約されます:
- 命令セットと柔軟性: CPUは幅広く汎用的な命令セットを持ち(多くのことができるが、同時にはできない)、GPUはより限定的だが依然として柔軟性のある命令セットで、数学演算のスループットに最適化されています。NPU/TPUは非常に狭い命令セットしか持たず、基本的にニューラルネットに必要な演算(行列積、畳み込み、活性化関数など)だけで構成されており、多くの場合、固定パイプラインや配列として実装されていますfuse.wikichip.org。例えば、Teslaの自動運転NPUはISAに8つの命令しかなく、DMAの読み書きとドット積に特化していますfuse.wikichip.org。
- 並列性とコア: CPU=少数の高性能コア、GPU=数千の単純なコア、NPU/TPU=ある意味で非常に単純なALUが数万個(MACユニット)がマトリクスやニューラルネットワークの形で構成されている。単一のNPUチップは1秒間に数十兆回の演算を行うことができる――テスラの車載NPUは2GHzで9,216個のMACを持ち、1コアあたり約37テラオペレーション毎秒(TOPS)を達成し、各FSDチップには2つのNPUが搭載されており、合計で約74TOPSとなるfuse.wikichip.org、ts2.tech。対照的に、ハイエンドCPUはAIタスクで数千億回/秒程度、GPUも特殊なテンソルコアを使わなければ数TOPS程度にとどまる。
- メモリアーキテクチャ: NPU/TPUは高速なオンチップメモリとデータストリーミングに依存している。TPUはシストリックデータフローを用いることで従来のメモリボトルネックを回避している――各小ユニットがデータを次に順番に渡していくことで、メインメモリへの読み書きを最小限に抑えるbackblaze.com。多くのNPUは重みや活性化データ用にオンチップSRAMを搭載している(例:テスラのNPUコアは各32MBのSRAMを持ち、ニューラルネットワークデータをローカルに保持)semianalysis.com。これは外部DRAMを多用するGPU/CPUとは対照的である。
- 精度: CPU/GPUは通常32ビットまたは64ビットの浮動小数点演算を行う。AIアクセラレータはしばしば16ビットや8ビットの整数(最近では4ビットや2ビットも検討されている)を使う。なぜならニューラルネットは低精度でも許容できるからだ。GoogleのTPU設計者は、推論には完全な浮動小数点精度は不要であり、「どれだけ多くの雨粒が降っているか正確に知る必要はなく、激しく雨が降っていることが分かればよい」という例えを挙げているbackblaze.com。これによりNPU/TPUはより多くの演算を並列で行い、1演算あたりの消費エネルギーも少なくできる。
- 用途: GPUは依然として大規模モデルの学習や柔軟な計算に広く使われている(データセンターやハイエンドPCでも一般的)。TPU(クラウド)はGoogleのエコシステム内で大規模な学習や推論を目的としている。NPUはよりエッジデバイス――スマートフォン、カメラ、家電――で、すでに学習済みモデルの推論を行う用途でよく使われる。例えばカメラ映像へのリアルタイムなビジョンモデル適用や、音声アシスタントのウェイクワード検出を低消費電力で常時実行するなどのタスクで威力を発揮する。TechTargetは次のように述べている: 「GPUは多くのMLプロジェクトで入手性とコスト効率の良さから選ばれる。TPUは通常より高速かつ低精度で、Google Cloudを利用する企業が使う。NPUはエッジ/モバイルデバイスで一般的で、ローカル処理を大幅に高速化する」techtarget.com。
要約すると、CPU=多用途のオーガナイザー、GPU=並列処理の働き者、TPU/NPU=ニューラルネットの専門家。すべて協力可能です――実際、現代のAI対応デバイスでは、CPUがタスクを調整し、必要に応じて計算負荷の高い部分をNPUやGPUにオフロードすることがよくありますtechtarget.com。この専門化の傾向は、もはや「すべてに対応する一つの形」が通用しなくなったために生まれました。ある編集者は「すべてのニーズに対応するために何百万ものトランジスタを追加するのは効率的ではなかった…設計者たちは専用プロセッサを受け入れた」と述べていますtechtarget.com。専用設計のNPUやTPUは、AI計算を劇的に高速化しつつ、消費電力を低く抑えます――これはバッテリー駆動のデバイスや高密度サーバーの両方にとって重要なバランスです。
なぜオンデバイスAIなのか?(エッジ vs. クラウド)
なぜわざわざAIをスマートフォンや車で実行する必要があるのでしょうか――すべてをクラウドに送って、巨大なサーバー(GPU/TPU搭載)が処理すればいいのでは?このオンデバイスAIへのシフトを後押しする理由はいくつかあり、それはスピード、プライバシー、コスト、信頼性に集約されますnimbleedge.com:
- 即時応答(低遅延): オンデバイスのNPUは、データをクラウドサーバーに送信して戻ってくる遅延なしにリアルタイムで処理できます。これはインタラクティブや安全性が重要なAIタスクにとって極めて重要です。たとえば、車載NPUを使った自動運転システムは、歩行者を認識して即座にブレーキをかけることができ、クラウド計算を待つ必要がありません。NPU搭載のスマートカメラなら、侵入者がフレームに現れた瞬間に検知できます。スマートフォンでは、オンデバイスAIにより音声アシスタントがより速く、より自然に応答でき、「常にクラウドに問い合わせる」必要がなくなります。遅延の削減は、真のリアルタイム意思決定とスムーズなユーザー体験を可能にしますnimbleedge.com。
- プライバシーとデータセキュリティ: オンデバイスAIはあなたのデータをローカルに保ちます。マイクの音声やカメラ映像を分析のためにクラウドへ送信する代わりに、処理はデバイス内で行われます。これにより、機密データの漏洩リスクが大幅に減少します。例えば、最新のスマートフォンは顔認証(Face IDなど)を完全にオンデバイスで実行しており、あなたの顔の生体マップが端末のセキュアエンクレーブから外部に出ることはありません。同様に、AI補聴器や健康ウェアラブルも、生体データをサーバーにアップロードせずに分析でき、プライバシーを守ります。データ主権に関するユーザーの懸念や規制が高まる中、これは大きな利点です。あるエッジAIのブログが述べているように、オンデバイス処理は「ユーザーデータをクラウドに送信する必要がない」という基本的なプライバシーの利点を提供しますnimbleedge.com。(もちろん、プライバシーが自動的に守られるわけではありません—保存データの取り扱いには依然として注意が必要ですが、常に情報を外部に送信しないデバイスの方が信頼しやすいのは確かです。)テック企業のCEOたちはこの点をよく強調します。QualcommのCEO、Cristiano Amonは、クラウドとオンデバイスのインテリジェンスを組み合わせることで、データをデバイス上で安全に保ちながらパーソナライズを強化できると述べています。彼はこれを「ハイブリッドな未来」と呼び、オンデバイスAIがクラウドAIと協調して両者の利点を活かすとしていますmoomoo.com。
- オフライン利用可能性と信頼性: NPU/TPUを搭載したデバイスは接続性に依存しません。地下鉄のトンネル内、飛行機の中、遠隔地、ネットワーク障害時でも動作します。これは信頼性の面で非常に大きな利点です。オンデバイスの音声入力機能は、電波がなくても動作します。オンボードのビジョンAIを搭載したドローンは、オフグリッドでも障害物を回避できます。この独立性は、ミッションクリティカルなシステムにも不可欠です。例えば、災害復旧ロボットや、常時インターネット接続を前提とできない医療機器などです。「オフライン機能」はオンデバイスAIの中核的な利点でありnimbleedge.com、AI機能が必要なとき・場所で常に利用可能であることを保証します。
- 大規模運用時のコスト効率: 生データを常にクラウドに送信してAI処理するのは非常にコストがかかり(クラウド計算は無料ではありません)、帯域も大量に消費します。AI機能が普及するにつれ、すべてのタスクがサーバーに送られると、企業は莫大なクラウド処理費用を負担しなければなりません。エッジ側でより多く処理することで、クラウドサーバーの負荷やネットワーク使用量を削減できます。デバイスに数ドル多く投資して高性能チップを搭載する方が、長期的にはクラウド計算のギガバイト単位の費用を支払うより効率的な場合が多いのです。Futurumの業界分析では、オンデバイス処理は生成AIのスケーリングやコスト問題の解決に役立つと指摘されており、負荷を「分散」させることでデータセンターの過負荷を防ぎ(ユーザーや開発者がクラウドGPU利用料で高額請求されることも防ぎます)futurumgroup.com。
- パーソナライゼーションとコンテキスト: 新たな理由として、オンデバイスAIはローカルなコンテキストから学び、適応することができ、クラウドAIでは難しい場合があります。あなたのスマートフォンは、あなたのテキスト入力スタイルを学習する小さなローカルモデルを維持し、より良いオートコレクトを実現しますが、その個人的な言語モデルをクラウドに共有することはありません。デバイスは複数のセンサーからのデータをリアルタイムで統合できます(多くのセンサーフィードをクラウドにストリーミングするよりもローカルで行う方が簡単です)。これにより、よりパーソナライズされ、コンテキストに応じた体験が可能になります。フェデレーテッドラーニングのような機能では、生データをアップロードせずに(小さな重みの更新のみを送信して)デバイス同士でAIモデルを協調的に改善することも可能です。
- 規制とデータ主権: ヨーロッパのGDPRやさまざまなデータローカライゼーション要件などの法律により、特定のデータ(特に個人情報や機微なデータ)は、同意なしに海外や第三者に送信してはならないとますます義務付けられています。オンデバイスAIは、データを発生源で処理することで、これに対応する方法を提供します。たとえば、医療画像AIツールは病院のハードウェア(NPU搭載のエッジサーバー)上で動作し、患者データが施設外に出ることがなく、プライバシー規制に対応できます。NimbleEdgeの2025年レポートは、主権やコンプライアンスの観点から、政府がよりローカルな推論を推進していることを指摘していますnimbleedge.com。
これらすべての要因が、パラダイムシフトを促しています。AIにおいて「クラウドファースト」で考えるのではなく、可能な場合は「デバイスファースト」でAI機能を設計するよう企業が変化しています。QualcommのAI担当VP、Durga Malladiは次のようにまとめています: 「生成AIを主流に効果的に拡大するには、AIはクラウドおよびエッジのデバイス上で動作する必要があります…スマートフォン、ノートパソコン、車両、IoTデバイスなど」iconnect007.com。私たちはハイブリッドAIの世界へと移行しており、大規模なトレーニングや巨大なモデルはクラウドに存在するかもしれませんが、多くの推論タスクや個人向けAI体験は、手元や家庭のNPU/TPU上でローカルに実行されます。実際、Amonはこれを「AIの転換点」と呼び、「AIの未来はパーソナル」であり、それはまさにあなたのいる場所で動作するからだと述べていますx.com。
オンデバイスAIの実例:スマートフォンから自動運転車まで
専用AIチップは、すでにあなたの身の回りのさまざまなデバイスに組み込まれており、多くの場合見えない形でそれらをより賢くしています。NPUやエッジTPUが導入されている主な分野をいくつか紹介します:
- スマートフォン&タブレット: ほぼすべての最新フラッグシップスマートフォン(多くのミッドレンジ機種も含む)には、現在NPUまたは専用AIエンジンが搭載されています。Appleは2017年にiPhoneのA11チップにApple Neural Engineを搭載し、最大6000億回/秒の演算処理でオンデバイスのFace IDやAnimojiを実現したことで、この流れを牽引しましたapple.fandom.com。現在では、AppleのA17 Proチップ(2023年)は16コアのNeural Engineを搭載し、毎秒35兆回の演算処理が可能ですapple.fandom.com。これにより、高度なカメラシーン検出、写真スタイル、オフラインで処理されるSiri音声コマンド、オートコレクト、ライブ文字起こし、さらにはオンデバイスでの翻訳用トランスフォーマーモデルの実行などの機能が実現しています。GoogleのPixelスマートフォンも同様に、NPUを搭載したカスタムシリコン(「Google Tensor」SoC)を採用しています。最新のTensor G3(Pixel 8搭載)は、「GoogleのAIモデルを動かすためにカスタム設計された」もので、チップのすべての部分(CPU、GPU、ISP)をアップグレードし、オンデバイス生成AIの道を切り開いていますblog.google。Pixel 8は、Googleの最先端テキスト読み上げや翻訳モデルをローカルで実行でき、これらは以前はデータセンターでしか動かなかったものですblog.google。また、「ベストテイク」グループ写真合成やAudio Magic Eraserなどの複雑なカメラ機能も、オンデバイスのAIモデル群で実現していますblog.google。Samsungや他のAndroidメーカーはQualcommのSnapdragonチップセットを使用しており、最新のNPU(Hexagon AIエンジン)は、大規模言語モデルさえもスマートフォン上で実行可能です。Qualcommは、Snapdragon 8 Gen 3搭載スマートフォンで100億パラメータのLLMやStable Diffusion画像生成の実行をデモンストレーションしましたfuturumgroup.com。このチップのAIエンジンは前世代比で98%高速化され、効率化のためにINT4精度もサポートしていますfuturumgroup.com。実用的な効果として、2024年のスマートフォンは記事の要約、質問への回答、写真のAI編集などをクラウドを必要とせずに実行できます。さらに、アクセシビリティ機能も恩恵を受けています。例えば、Pixelスマートフォンではオンデバイス音声入力、ライブキャプション、ローカルモデルを使って視覚障害者向けに画像を説明する新機能も登場予定です。
- スマートカメラ&セキュリティシステム: AI対応カメラは、オンボードNPUを使って人、顔、動物、または不審な行動を即座に検出します。例えば、EnGeniusの最新セキュリティカメラには、物体検出を処理し、カメラ上で直接ビデオをメタデータに変換する内蔵NPUが搭載されており、別途ビデオレコーダーが不要になり、セキュリティが向上します(ビデオをローカルで分析・保存できるため)engeniustech.com。つまり、セキュリティカメラが「人がいる」や「荷物が配達された」と判断し、そのアラートだけを送信できるため、何時間もの映像をクラウドサービスにストリーミングする必要がありません。同様に、Google Nest Cam IQのようなコンシューマー機器も、オンデバイスのビジョンチップ(Google Edge TPU)を搭載し、見慣れた顔の認識や人間とペットの識別を行っていました。DSLRやミラーレスカメラも、被写体追跡、瞳AF、シーン最適化などのためにAIプロセッサーをリアルタイムで搭載し始めています。ドローンでは、オンボードAIチップが障害物回避やビジュアルナビゲーションをリモートコントロールなしで支援します。特に、GoogleのEdge TPU(小型ASICモジュール)はDIYや産業用IoTカメラの人気アドオンとなっており、人物検出やナンバープレート読み取りなどのビジョン処理に4TOPSの処理能力を提供し、消費電力はわずか約2ワットですcoral.ai。
- スマートホーム&IoTデバイス: スマートフォン以外にも、多くのスマートホーム機器にミニNPUが搭載されています。音声対応スピーカー(Amazon Echo、Google Nest Hubなど)には、ローカル音声認識チップが搭載されることが増えています。AmazonはEchoデバイス向けにAZ1 Neural Edgeプロセッサーを開発し、Alexaのウェイクワード検出と応答をデバイス上で高速化し、遅延を半分に短縮しましたembedl.com。AZ1(MediaTek製)は「Alexa」を認識し、簡単なコマンドをクラウドに送信せずに処理するニューラルネットワークを実行しますembedl.com。これによりAlexaの応答が速くなるだけでなく、音声データのプライバシーも向上します。同様に、多くの新しいテレビ、家電、さらにはおもちゃにもエッジAIが搭載されています。例えば、スマート冷蔵庫のカメラが食品や賞味期限をローカルで識別できます。ウェアラブルも注目に値します。Apple WatchのS9チップは4コアNeural Engineを搭載し、健康AIアルゴリズムやSiriリクエストをウォッチ上でより良く処理できるようになりましたapple.fandom.com。また、産業分野では、NPU搭載IoTセンサーがエッジで設備データの異常検知を行い、関連イベントのみを上流に通知することで、帯域幅を節約し、問題への対応も迅速になります。
- 自動車(ADASおよび自動運転): 車はAIハブとしての役割を持つようになっています。先進運転支援システム(ADAS)や自動運転機能は、カメラ映像、LiDAR、レーダーを解釈し、瞬時に運転判断を下すための一連の車載AIアクセラレータに依存しています。テスラは自社設計のFSD(Full Self-Driving)コンピュータを有名にし、デュアルNPUチップを搭載しています。テスラのFSDチップ(HW3、2019年導入)は144 TOPS(2つのNPUがそれぞれ72 TOPS)を提供し、新しいHW4(2023年)は合計で約200~250 TOPS(2つの7nm NPUがそれぞれ100+ TOPS)に向上していますts2.tech。これにより、車は8台のカメラやソナーなどからのフル解像度ビデオを同時にニューラルネットワークで処理し、音声コマンド用の言語モデルも一部車内モジュールでローカルに実行できます。NVIDIA DriveやQualcommのSnapdragon Rideなどの競合プラットフォームもNPUを統合しています。NVIDIAの最新車載スーパーコンピュータチップDrive Thorは、2025年の車向けに最大1,000 TOPS(2つ組み合わせると2,000 TOPS)を1チップで実現し、レベル4自動運転をサポートしますts2.tech。これはGPU、CPU、専用のディープラーニングアクセラレータを組み合わせており、道路標識認識からドライバーモニタリングAIまでチップ上で処理できますts2.tech。これらのNPUは文字通り命を救う存在です。自動運転車は、子供が道路に飛び出した場合、クラウドサーバーを待つ余裕はありません。車載AIは数十ミリ秒以内に認識し反応しなければなりません。乗用車以外でも、自律型ドローン、配達ロボット、産業用車両などでエッジAIが多用されており、これらは車載NPU/TPUでナビゲーションや意思決定を行っています(例:Nuroの配達ロボットや多くの自動運転トラックシステムはNVIDIAやHuaweiのAIチップをデバイス上で使用)。
- エッジコンピューティングと産業分野: 工場や企業の現場では、オンデバイスAIは多くの場合、AIアクセラレータを搭載したエッジサーバーやゲートウェイの形を取ります。カメラ映像やセンサーデータを中央のクラウドに送信する代わりに、企業は現場にエッジボックス(GPUベースやNPU/FPGAベースの場合もある)を設置します。これらは、生産ラインでの品質管理のためのリアルタイム映像解析や、AIビジョンによる欠陥検出などをマイクロ秒単位で処理します。医療機器もその一例です。携帯型の超音波診断装置やMRIがNPUを搭載し、AI画像解析をデバイス上で行うことで、医師はインターネット接続なしで即座に診断支援を受けられます(これは患者データのプライバシー保護にも有利です)。小売や都市部でもエッジAIが活用されています。例えば、NPU搭載のスマート交通カメラが混雑状況を解析して信号を調整したり、小売棚のカメラが在庫を追跡したりします。これらの多くは、IntelのMovidius MyriadチップやGoogleのEdge TPU、新興のHailo-8(カメラ向けに数ワットで26TOPSを実現するイスラエル製NPU)など、専用NPUを使用しています。共通点は、これらのアクセラレータによってローカルで解析が行われ、リアルタイムの結果を得られること、そしてネットワーク上には生データではなく高レベルなインサイトのみが流れることです。
NPU/TPUのデバイス横断的な多用途性は驚くべきものです。ある時はスマートフォンでAIによる写真の背景ぼかしを実現し、次の瞬間にはドローンの誘導や医療画像のスキャンを支えています。スマートフォンカメラは現在、Night Mode(複数フレームの知的合成)、ポートレートモードのボケ、シーン認識(「夕焼け」をAIで判別し色を最適化)、さらにはARエフェクト(Animojiによる顔マッピングやSnapchatフィルターによる動き追跡など、すべてオンデバイスのニューラルネットによる)などの機能にNPUを活用しています。生体認証もNPUを利用しています。AIによる生体検知付き指紋認証や、深度センサー+AIによる顔認証などです。オーディオにも活用されており、イヤホンやスマホのノイズキャンセリングは今や多くがAI駆動で、NPUがリアルタイムで音声と雑音を分離しています。
2024年のイノベーションの具体例: Oppo(スマートフォンメーカー)はMediaTekと提携し、Mixture-of-Experts(MoE)AIモデルをデバイス上で直接実装したと2024年後半に発表しました。これはスマートフォンで初の事例とされていますgrandviewresearch.com。この先進的なニューラルネットワークアーキテクチャ(MoE)は、タスクごとに関連する「エキスパート」サブネットワークのみを活性化することで性能を向上させ、これをデバイス上で実行することで、Oppoのスマホは複雑なタスクでもクラウドを使わずに高速なAI処理と高い省電力性を実現できますgrandviewresearch.com。これは、最先端のAI研究が改良されたNPUを通じて、いかに急速に私たちの手元のデバイスに取り入れられているかを示しています。
2025年AIチップの内部: Apple、Google、Qualcommなどによる最新動向
オンデバイスAIハードウェアの開発競争は急速に激化しています。ここでは、主要企業が最近(2024~2025年)発表したNPU/TPUやAIシリコンの動向を紹介します:
- Apple: Appleのカスタムシリコン戦略は、長年にわたりデバイス上での機械学習を重視してきました。毎年、AppleのNeural Engineはその性能を向上させています。2023年のiPhone 15 Proでは、A17 ProチップのNeural Engineが16コアで35 TOPS(1秒間に35兆回の演算)に達しましたapple.fandom.com。これはA16のNPUの生のスループットの2倍であり、Appleはこれを活用してSiriのデバイス上での音声認識(ついに多くのSiriリクエストをインターネットなしで処理可能に)や新しいカメラ機能(ポートレートモードの自動撮影やカメラによるテキストのライブ翻訳など)を実現しました。Appleの2024年のチップもこの傾向を継続しています。Mac向けのM3ファミリー(2023年後半)はNeural Engineがアップデートされ(興味深いことにM3ベースチップでは18 TOPSに調整され、効率性重視)apple.fandom.com。2024年には、AppleはM4チップ(ハイエンドiPad/Mac向け、2024年中頃)を発表し、Neural Engineが改良された3nmプロセスで38 TOPSに達したと報じられていますapple.fandom.com。単なる数値以上に、AppleはそのNPUを活用しています。例えば、Personal Voice(15分のトレーニングでユーザーの声のクローンを作成する機能)はiPhoneのNeural Engine上でプライベートに動作し、Live Voicemailの文字起こしもローカルで行われます。AppleはすべてのデバイスカテゴリにNPUを統合しており、AirPods ProでさえAdaptive Audio用の小型ニューラルチップを搭載しています。Appleの幹部はしばしばプライバシーの観点を強調しており、「デバイス上での機械学習」はデータがユーザーの手元に留まることを意味します。2025年までには、AppleのNeural Engineがさらに拡張されたり、サードパーティアプリが新たな方法で利用できるようになる可能性があります(すでにCore MLで開発者が利用できますが、Appleがより多くのニューラルAPIアクセスを開放するかもしれません)。また、Appleが将来のグラスや車向けに独自のAIアクセラレータを設計しているという噂もありますが、現行製品を見る限り、AシリーズやMシリーズSoCに統合されたNPUを好んでいるようです。
- Google: GoogleはクラウドTPUの先駆者であるだけでなく、Pixelスマートフォンやコンシューマーデバイス向けのオンデバイスAIにも注力しています。Google Tensor SoC(2021年にPixel 6で初登場)は、クラウドで有名なGoogleがAIを端末上で動かすためのチップを作ったという点でユニークでした。Tensor G3(2023年のPixel 8)では、Googleは生成AIのオンデバイス実行を可能にするアップグレードを強調しました。Googleは明確に、Pixel 8のチップが「GoogleのAI研究を最新のスマートフォンに直接もたらす」と述べていますblog.google。Tensor G3の次世代TPU(GoogleはAIコアを社内で「TPU」と呼び続けています)により、PixelはPalm 2やGemini Nano(Googleの大規模言語モデルの軽量版)のような高度なモデルを端末上で実行でき、ウェブサイトの要約や音声入力の改善などの機能を実現していますreddit.com。注目の機能の一つは、Pixel 8がGoogleの最高のテキスト読み上げモデル(データセンターで使われているもの)をローカルで実行できることで、スマートフォンがウェブページを自然な音声で読み上げたり、リアルタイムで翻訳したりできる点です。しかもすべてオフラインで行えますblog.google。Googleはまた、PixelのTPUを写真撮影(「HDR+」の多フレーム画像処理、AIインペインティングによるMagic Eraserのオブジェクト除去blog.google)、セキュリティ(AIによるオンデバイス顔認証が支払いにも十分強力と認定blog.google)、音声(「えーっと」と言っても気にしないアシスタント)にも活用しています。スマートフォン以外にも、GoogleはCoral Dev BoardやUSBスティックを提供しており、ホビイストや企業が自分のプロジェクトにEdge TPUを追加できます。これらにはGoogleのEdge TPUが搭載されており、非常に低消費電力でビジョンタスク向けに4 TOPSを提供しますcoral.ai。これはGoogle自身の製品(Nest Hub Maxのジェスチャー認識など)にも使われています。Googleにとって、エッジでのTPU統合はより広範な戦略の一部です。Sundar Pichai(Google CEO)は、AIの未来はあらゆる体験を拡張することにあると述べており、Googleは明らかに「AIの変革的な力を日常生活にもたらすには、毎日使うデバイスからアクセスできる必要がある」と考えていますblog.google。そのためのTensorチップなのです。2024年後半のPixelスマートフォンには、Tensor G4が登場し、SamsungやTSMCの新しいプロセスで製造され、AI性能と効率がさらに向上し、オンデバイスでのマルチモーダルAI(ビジョン+言語モデルの組み合わせ)も実現するかもしれません。
- Qualcomm: Androidスマートフォン向けの主要なモバイルチップベンダーであるQualcommは、SnapdragonシリーズでAI Engineを積極的に推進しています。Snapdragon 8 Gen 2(2022年後半)は、専用のINT4サポートを導入し、スマートフォン上でのリアルタイム安定拡散画像生成を披露しました。Snapdragon 8 Gen 3(2023年後半発表、2024年のフラッグシップスマートフォンに搭載)は、大きな飛躍です。Qualcommによれば、Hexagon NPUはGen 2よりも98%高速で、40%電力効率が向上していますfuturumgroup.com。このチップは、最大100億パラメータの大規模言語モデルを完全にデバイス上で実行でき、約20トークン/秒の処理が可能です。これは、クラウドを使わずにAIアシスタントとの簡単な会話ができる十分な速度ですfuturumgroup.com。また、デモではモバイルデバイス上で「世界最速のStable Diffusion」画像生成も達成しましたfuturumgroup.com。Qualcommは、オンデバイス生成AIが新しいスマートフォンの重要なセールスポイントであると公言しています。例えば、Metaと提携し、オープンソースのLlama 2 LLMをSnapdragon向けに最適化し、2024年までにスマートフォン上でチャットボットAIを動かせることを目指していますiconnect007.com。(Qualcommの幹部は「Metaのオープンなアプローチを称賛します…生成AIを拡大するには、クラウドとエッジの両方で動作する必要があります」と述べ、エッジAIの哲学を強調しましたiconnect007.com。)スマートフォン以外にも、QualcommはノートPC向けチップ(Windows on ARM用Snapdragonコンピュートプラットフォーム)や、自動車向けプラットフォームSnapdragon RideにもNPUを搭載し、ADAS向けに最大30TOPSを提供、今後は数百TOPSへのロードマップも示しています。2025年には、PC向けに新しいSnapdragon X Elite CPUを発表し、強力なNPUを搭載することで、パーソナルコンピュータのAI性能でAppleやIntelに挑戦する姿勢を示しました。オンデバイスAIの台頭により、Qualcommは一部のスマートフォンを「AIフォン」としてブランディングしています。写真、メッセージ、プロダクティビティなど多くのアプリがNPUを活用すると予測しています。ソフトウェア面では、QualcommはQualcomm AI Stackをリリースし、人気のフレームワーク(TensorFlow Lite、PyTorch、ONNX)への対応をNPU上で統一しましたiconnect007.com。これにより、開発者がチップの深い知識なしにAIハードウェアを利用しやすくすることを目指しています。
- MediaTek: モバイルチップメーカー第2位(Dimensityシリーズで知られる)もNPUをアップグレードしています。MediaTekは自社のAIエンジンを「APU」(AI Processing Unit)と呼んでいます。例えば、Dimensity 9200+(2023年)は、第6世代APUを搭載し、前世代チップに比べて大幅な性能向上を実現。これにより、デバイス上でのStable Diffusionや動画のAIノイズリダクションなどの機能が可能になりました。2024年、MediaTekはDimensity 9400を発表し、Oppoとのパートナーシップにより、その先進的なNPUアーキテクチャを活用して新たなAI機能を導入しました(前述の通り、Oppo Find X8のAI写真リマスタリングの反射除去やぼかし除去はMediaTekのNPUによって実現されています)mediatek.com。MediaTekの幹部は、オンデバイスAIの最前線にいることを明言しています。MediaTekのWill Chen氏は、「AIの未来はクラウドを超越し、手のひらのエッジコンピューティングによって推進される」と述べています。彼らの見解では、スマートフォン上のAIは高速で、プライベートかつセキュア、そして常に利用可能でなければならないとしていますmediatek.com。MediaTekはMetaと「APU中心」の協業を結び、Llamaフレームワークをサポート。また、OppoやXiaomiなどのデバイスメーカーとAIカメラやAI音声機能に注力しています。2025年までに、MediaTekはこれらのNPUをスマートフォンだけでなく、スマートテレビ(AIアップスケーリングや画質向上のため)、IoTデバイス、さらには自動車にも展開する計画です(MediaTekは自動車向けAIプラットフォームを持ち、Nvidiaと提携して車載用Nvidia GPU IPを統合しつつ、自社のNPUでセンサーAIを提供する見込みです) 。
- インテル: 2024年は、インテルがAIアクセラレーターを主流のPCに導入した年となりました。インテルの第14世代Core(Meteor Lake、2023年12月発売、2024年にCore Ultraへリブランド)は、組み込み型ニューラルプロセッサユニット(NPU)を搭載した初のx86 PCプロセッサです。Meteor LakeのNPU(時にVPU ― Vision Processing Unit ― インテルのMovidius技術に基づく)は、約8~12 TOPSのAI性能を発揮しますpcworld.com。これは、Windows 11のAI機能(背景ぼかし、ビデオ通話時のアイコンタクトなど)の高速化に使われ、アプリによるローカルでの文字起こし、ノイズ抑制、あるいは小規模なAIアシスタントなどにも利用可能です。マイクロソフトとインテルは共同で「AI PC」というコンセプトを推進しています。インテルは、これらのNPUが2024年に数千万台のノートPCに搭載されると主張していますpcworld.com。Meteor Lakeに続き、インテルのロードマップにはArrow Lake(2024年にデスクトップ向け、NPU搭載、約13 TOPSでやや性能向上)も記載されていますpcworld.com。興味深いことに、インテルのデスクトップ向けNPUの初挑戦は実際にはAMD(下記参照)に先を越され、インテルはエンスージアスト向けチップでGPU/CPU領域を犠牲にしないよう控えめなNPU設計を選択しましたpcworld.com。しかし2024年後半には、インテルは将来のLunar Lakeチップで、マイクロソフトの「Copilot」要件を満たすため、より強力なNPU(約45 TOPS)を搭載することを示唆しましたpcworld.com。これらすべては、インテルが今後のPCにAIを必須と見なしていることを示しています ― 巨大なモデルの学習用ではなく、日常的なAI体験(オフィススイートの強化からローカルAIを活用したクリエイティブツールまで)を高速化するためです。インテルはまた、Intel Movidius Myriadチップ(ドローンやカメラなどで使用)やサーバー向けのHabanaアクセラレーターなど、エッジAIアクセラレーターも販売していますが、Meteor Lakeの統合NPUは、AIを一般消費者向けデバイスにもたらすマイルストーンとなっています。
- AMD: AMDもほぼ同時期にオンデバイスAIへ参入しました。2023年に発売されたRyzen 7040シリーズのノートパソコン向けプロセッサー(Phoenix)には、初のRyzen AI Engine(本質的にはAMDによるXilinx買収から得た技術を使った統合型XDNA NPU)が搭載されました。このNPUはモバイルチップ上で最大10 TOPSの性能を発揮しましたen.wikipedia.org。AMDは、AIによるビデオ通話の強化や生産性アプリなど、インテルと同様の用途をアピールしました。その後、AMDはNPUが39 TOPSに達するRyzen 8000デスクトップシリーズ(2024年初頭)を短期間リリースしましたが、これは汎用CPUのAIユニットとしては非常に高い数値で、インテルの計画すら上回っていますpcworld.com。しかし、AMDはすぐに方針を転換し、世代を一つ飛ばして次のアーキテクチャに注力(2024年後半のRyzen 9000ではNPUを省き、コアのアップグレードを優先)しましたpcworld.com。それでも、AMDは今後のPCチップでNPUを再び搭載すると予想されています(他の性能を損なわずに強力なAIエンジンを統合するための一時的な撤退とみられます)。製品面では、AMDは強力なGPUも持っているため、NPUと組み合わせることでAIワークロードを協調的に処理できる可能性があります(NPUで一部、GPUで一部を処理)。また、AMDはアダプティブ(FPGAベース)SoCや自動車向けチップにもAIコアを搭載しています。まとめると、2025年までにすべてのx86 PCチップメーカーがNPUを採用し、数年前にスマートフォンが行ったのと同じ流れとなり、AIアクセラレーションが標準機能になりつつあることを示しています。
- その他: NPU分野では、多様な専門チップ企業や他のテック企業もイノベーションを進めています。NVIDIAはGPUで知られていますが、現在はGPUに専用のTensor Coresを搭載し、System-on-Chip製品への統合用にオープンなNVDLA(ディープラーニングアクセラレータ)設計も提供しています。NVIDIA Jetsonシリーズ(ロボット、ドローン、組み込みシステムで使用)などのエッジデバイスには、GPUと固定機能の「DLA」―本質的にはNPU―が搭載されており、GPUからニューラルネットワーク推論の一部をオフロードします。たとえばNVIDIAのOrinモジュールにはGPUに加えて2つのDLAがあり、自動車向けに254 TOPSのAI性能に貢献していますts2.tech。Appleは、ARグラスや将来のプロジェクト向けに、さらに高度なAIコプロセッサや大型ニューラルエンジンを開発中と噂されていますが、詳細は秘密です。Huawei(地政学的な課題にもかかわらず)は、NPU(「DaVinci」NPUアーキテクチャ)を搭載したKirinモバイルチップや、サーバークラスのNPUを搭載したAscend AIチップの設計を継続しています。2023年のKirin 9000Sチップも、同社のスマートフォン向けに画像や言語タスクで強力なNPUを維持していると報じられています。また、スタートアップのHailo、Mythic、Graphcoreなども独自のエッジAIチップを提供しています。例: Hailo-8(AIカメラ向けmini PCIeカードで26 TOPS)、GraphcoreのIPU(厳密にはオンデバイスではないが、ニューラルネット向けの新アーキテクチャ)、MythicはアナログNPUを開発中など。ARMは、ほとんどのモバイルチップの基盤となる設計を持ち、Ethos NPUシリーズ(Ethos-U、Ethos-N78など)を提供し、チップメーカーはこれを統合することでIoTやミッドレンジSoCに即席のAIアクセラレータを搭載できます。これにより、比較的小規模なプレイヤーでもARMの設計をライセンスすることでNPUをチップに搭載できるようになりました。
要するに、大手テック企業からスタートアップまで、誰もがオンデバイスAIシリコンに投資しているということです。その結果、新しいチップはより高いTOPS、より良い効率(TOPS/W)、新しいデータ型(大規模モデル向け4ビット量子化など)への対応など、急速な進化が見られます。例えば、QualcommやMediaTekの最新チップはINT4精度で動作でき、これはメモリ帯域が制約となる生成AIモデルに最適ですandroidauthority.com。これらのイノベーションはユーザーの利点に直結します。例: リアルタイムのモバイルAI動画編集(Snapdragon 8 Gen 3の「Video Object Eraser」AI機能で4K動画から物体を即座に消去futurumgroup.com)、または車載AIコプロセッサによるネットワーク不要で人間の会話並みに素早く応答する音声アシスタントの実現などです。
2024~2025年の主なニュース:新製品、ベンチマーク、パートナーシップ
進化の速さを示すため、2024年後半から2025年にかけてのNPU/TPUおよびオンデバイスAI分野の主な出来事をいくつか紹介します:
- Apple M3およびM4の発表(2023年10月&2024年5月): 次世代Neural Engineを搭載。M3のNeural Engineは18 TOPS(16コア)、M4は38 TOPSに向上(同じ16コアだがクロック/効率が向上)apple.fandom.com。Appleは、これらのチップがmacOS上でのオンデバイス安定拡散画像生成のような負荷の高いタスクを処理できることを実演した(Core ML Stable Diffusionを使い、開発者はM2で画像生成に約15秒、M3/M4ではさらに高速と示した)。
- Google Pixel 8発表(2023年10月): デバイス内でAIが「あらゆる場所に」あることを強調。Googleのイベントでは、Pixel 8のオンデバイスによるウェブページ要約や記事のライブ翻訳(Tensor G3 NPU使用)がデモされた。また「Assistant with Bard」も導入され、今後一部のやり取りがオンデバイスで実行される予定。Googleは、Pixel 8がPixel 6の2倍のモデルをオンデバイスで実行できること、さらにはるかに高度なモデルも動かせるとアピールしたblog.google。つまり、Tensorチップ開発のわずか2年で大きな進歩があったということ。
- Qualcomm–Meta提携(2023年7月): QualcommとMetaは、MetaのLlama 2大規模言語モデルを2024年までにSnapdragon NPU上で完全動作するよう最適化すると発表iconnect007.com。開発者がチャットボットや生成AIアプリを、クラウドを使わずにスマホやVRヘッドセット、PCなどで展開できることを目指す。これは大手AIモデル所有者(Meta)と大手チップメーカーによるオンデバイスAIへの大きな支持表明だった。2024年後半には、Llama 3の最適化計画も発表qualcomm.com。
- Microsoft Windows 11「Copilot」PC(2024年): Microsoftは、ローカルAIアクセラレーションが40 TOPS超のPCを「AI PC」と定義し、強化されたAI機能(Copilotデジタルアシスタント統合など)の対象とした。これによりOEM(Lenovo、Dellなど)は、仕様を満たすためにNPU搭載チップ(Intel、AMD、Qualcommいずれでも)を採用するようになった。その結果、2024年にはAI対応ノートPCの波が予想され、Microsoftは数十モデルの登場と2024年に4,000万台超のAI PC出荷を見込んでいるpcworld.com。
- AMDの短命だったRyzen 8000 NPU(2024年1月): AMDは、デスクトップCPUとしては珍しく39 TOPSのNPUを搭載したCPUを発表しました(通常、デスクトップチップにはこのようなアクセラレータは搭載されていません)pcworld.com。この製品自体はすぐに後継モデルに置き換えられましたが、デスクトップCPUでもモバイルチップに匹敵するAIシリコン(TOPS性能)を持てることを示しました。また、これはデスクトップx86 CPUとして初めてNPUを搭載した製品であり(Intel Arrow Lakeよりもわずかに早かった)、注目されました。
- Tesla FSD Beta v12(2023年末)デモ: イーロン・マスクは、テスラのHW3/HW4 NPU上で動作するエンドツーエンドAI運転(レーダーなし、ビジョンネットのみ)を披露しました。注目すべきは、ニューラルネットワークが車載コンピュータ上でリアルタイムにビデオフィードを処理し、車を運転していた点です。FSD v12はビジョン用に2×100 TOPSのNPUをフル活用していると観察され、テスラは今後さらに大規模なモデルに対応するため、2000 TOPSを目指すアップグレード(HW5)が開発中であることを示唆しました(テスラのHW5は2ペタFLOPS=2000 TOPSを目標にしているという噂もありました)notateslaapp.com。
- NVIDIA Drive Thor発表(2024 GTC): NVIDIAは次世代自動車用チップ「Drive Thor」の詳細を発表しました。これは、前世代のOrinの2倍のAI演算能力を持ち、2チップ連結時には最大2000 TOPSに達しますts2.tech。特筆すべきは、Thorが運転タスクだけでなく、車内AI(音声認識や乗員モニタリングなど)も1つのプラットフォームで処理できる点で、NPUとGPUが連携して車内の多くのAI機能を統合できることを示していますts2.tech。複数の自動車メーカー(Xpeng、BYD、Volvo)が2025年からThorを採用すると発表しましたts2.tech。
- OppoのオンデバイスMoE AI(2024年10月): 先述の通り、OppoはFind X8スマートフォン上でMixture-of-Expertsモデルを実装しましたgrandviewresearch.com。MoEモデルは通常大規模で複雑なためサーバーサイドでの運用が前提とされていましたが、これを端末上で動作させたことはニュース価値があります。オンデバイスMoEの実現は、モデル圧縮の新技術と非常に高性能なNPU(おそらくMediaTek Dimensity 9400)があってこそ可能になったと考えられます。
- MetaのRay-Ban AIグラス(2025年):(予想)Metaは、見ているものを認識し、それについて話しかけてくれるスマートグラスのプロトタイプを披露しました。これはおそらく、オンボードのカスタムアクセラレータ(MetaはAR向けのカスタムシリコンを試作中)を使用していると考えられます。詳細はほとんど明かされていませんが、これはAIを非常に制約のあるデバイス(メガネやバッテリー式イヤホンなど)に搭載しようとする動きを強調しています。これには超高効率なNPUが必要となるでしょう。
- MLPerfモバイル推論ベンチマーク(2023–24年): MLCommonsは、最新スマートフォンのAI性能を示す結果を発表しました。例えば、MLPerf Inference v3.0(2023年10月)では、AppleのA16、Google Tensor G2、Qualcomm Gen 2が画像分類や物体検出などのタスクでベンチマークされました。結果は、AppleとQualcommが勝利を分け合う形となりましたが、一般的にモバイルNPUがこれらのタスクにおいて一部のノートパソコン/デスクトップクラスのアクセラレータとの差を縮めていることを示しています――しかもバッテリー駆動で。また、ソフトウェアの違い(例:QualcommのAI SDKとApple Core MLなど)も浮き彫りになりました。これらのベンチマークでの毎年の継続的な進歩(2桁%の向上)は、デバイス上AIの健全な競争と急速な進歩を示しています。
- 戦略的パートナーシップ: 多くの業界横断的なパートナーシップが形成されました。例として、NVIDIAとMediaTek(2023年5月)は、NvidiaのGPU IPとソフトウェアエコシステムをMediaTekの将来のスマートフォンおよび自動車向けチップに組み込む提携を発表し、NvidiaのAIの強みとMediaTekのモバイルSoCの専門性を事実上融合させました。また、Qualcommのような企業は自動車メーカー(メルセデス、BMW)と提携し、Snapdragon CockpitやRideプラットフォーム(NPU搭載)を新型車両に導入してAI機能を実現しています。Armは富士通などと新しいAIチップ設計(富岳スーパーコンピュータのAIパーティションなど、これはハイエンドですが)で提携しています。さらにIBMとSamsungも新しいチップ技術(ニューロモルフィックコンピューティングやAIメモリなど)を予告しており、これらは将来的にNPUを一変させる可能性があります――まだ実現していませんが、研究開発のパイプラインが充実していることを示しています。
総じて、過去1年は多くの進展があり、デバイス上AIがテクノロジー分野で最も注目されている分野の一つであることを強調しています。ある業界アナリストは、「これらのデバイス上の機能はまったく新しい地平を切り開く…モバイルでLLMを動かすことで、スケールやコストの課題に対応し、データのプライバシーを守り、接続が限られていてもAIが動作することを保証する」futurumgroup.comと述べています。これが、なぜすべての大手テック企業がこの分野に投資しているのかを端的に表しています。
専門家の見解:テックリーダーが語るデバイス上AI
NPUやTPUの勢いは、製品だけでなく業界リーダーの言葉にも表れています。ここでは、デバイス上AIの重要性を示すいくつかの注目すべき引用や見解を紹介します。
- クリスティアーノ・アモン(Qualcomm CEO): 「AIが大規模に普及するには、デバイス上で動作するのを見ることになるだろう…これはAIの転換点を示している。遅延の問題はなく、シームレスで安全、クラウドを補完するオンデバイス推論だ。AIの未来はパーソナルであり、それはあなたのデバイスから始まる。」(BloombergのインタビューおよびX投稿、2023年)x.com。アモンは、あなたのスマホやPCが多くを自前のNPUで処理し、必要に応じてクラウドと連携するハイブリッドAIの世界を構想している。彼は、AIをローカルで動かすことが普及の鍵だと強調している(すべてをクラウドGPUに頼ることはできない―世界中の何十億ものデバイスに対して十分なGPUは存在しない)。
- ドゥルガ・マラディ(Qualcomm SVP): 「私たちはMetaのオープンかつ責任あるAIへのアプローチを称賛します…生成AIを主流に効果的に拡大するには、AIはクラウドとエッジデバイスの両方で動作する必要があります。」 iconnect007.com。マラディはMetaとのパートナーシップの文脈でこれを述べた。これは共通の見解を強調している:AIのスケーリング=クラウド+エッジの協働。今や純粋なクラウドAIだけでは十分でない(コスト、プライバシー、遅延の理由から)という理解があり、エッジAIが負担を分担しなければならない。
- ウィル・チェン(MediaTek副GM): 「AIの未来はクラウドを超越し、手のひらからエッジコンピューティングによって推進されます…OPPOとMediaTekはオンデバイスAIの先駆者であり、インテリジェントな機能が強力で高速、プライベート、安全、そして常に利用可能であることを保証しています。」(MediaTek Exec Talk、2025年)mediatek.com。この引用はオンデバイスAIの価値提案を端的に表している―パフォーマンスとアクセス性に加えてプライバシーとセキュリティも得られる。また、MediaTekのように西側では伝統的に目立たない企業でさえ、AI展開の最先端を考えていることを示している。
- Dr. ノーマン・ワン(AIハードウェア専門家、チップスタートアップCEO): 「AIハードウェアでは、計算をデータソースにできるだけ近づけるほど良い。データ移動を減らすことが重要だ。イメージセンサーの隣にNPUがあれば、メガピクセルをクラウドに送る必要はなく、エッジで直接インサイトを抽出できる。それは遅延と消費電力にとってゲームチェンジャーだ。」(HotChips 2024のパネルにて―要約)。この技術的な洞察は、なぜNPUが他のコンポーネントと同じシリコン上にあることが多いのかを説明している。例えば、スマホのSoCではNPUがISPからカメラデータを直接取得できる。データ移動の最小化は効率的なAIの大きな要素であり、エッジAIはデータの発生源で処理を行うことでそれを実現している。
- Xinzhou Wu(NVIDIA自動車部門VP): 「アクセラレーテッド・コンピュートは、生成AIを含む変革的なブレークスルーをもたらし、自律性や輸送業界を再定義しています。」(GTC 2024 基調講演)ts2.tech。彼は、強力なオンボードコンピュータ(NPU/GPU搭載)が、車を運転するだけでなく、車内の自然言語インターフェースや状況理解の向上など、生成モデルのような高度なAIを組み込む可能性について語っていました。これは、自動車のような分野でも、オンデバイスAIがコア機能だけでなく、ユーザー体験の向上(例:車載LLMによる会話可能な音声アシスタント)にも活用されていることを強調しています。
- Sundar Pichai(Google CEO): 「AIの未来は、すべての人に役立つものにすることです。そのためには、AIを私たちが使うすべてのデバイス――スマートフォン、家電、自動車――に組み込む必要があります。必要なときに、そこにAIがあるようにしたいのです。私たちはユーザーがいる場所でAIを提供したい、リアルタイムで現場で動作し、プライバシーを守るAIを目指しています。」(複数のインタビュー・基調講演より要約)。ピチャイはよく「アンビエントAI」――AIがあらゆる場所に存在し、あらゆるものに組み込まれるという考え――について語ります。GoogleがPixelにTensorチップを搭載しているのは、その哲学を直接実行している例です。
- 業界統計: アナリストはこの傾向を数字で観察しています。Grand View Researchの2024年のレポートでは、「AI専用チップやNPUの最近の進歩により、複雑なAIアルゴリズムがデバイス上で直接実行できるようになり、パフォーマンスとエネルギー効率が大幅に向上しました…私たちはオンデバイスAIへの重要な転換点に近づいています。」 grandviewresearch.com。同レポートは、オンデバイスAI市場が今後数年で爆発的に拡大し、ハードウェア分野(NPUなど)が2024年の収益シェアの60%以上を占め、ほぼすべての新しいIoTやモバイルデバイスがAI機能を搭載することでさらに成長すると予測していますgrandviewresearch.com。IDCなどの他の予測では、2020年代半ばまでにほぼすべてのハイエンドスマートフォンと大多数のミッドレンジ機種がAIアクセラレータを搭載し、2030年までに数十億個のエッジAIチップが民生機器からスマートインフラまで幅広く利用されるとしています。
専門家の間では、オンデバイスAIは「あると便利」なものではなく、次世代テクノロジーに不可欠だというのが共通認識です。AIの先駆者アンドリュー・ングは、「タイニーAI」やエッジAIによって、知能があらゆるモノに浸透すると、かつて電気やインターネットがそうだったように語っています。クラウド専用AIの限界を克服することで、NPUやTPUがこの浸透を可能にしています。
多様な標準の課題(と簡素化への取り組み)
ハードウェアは急速に進化してきましたが、オンデバイスAI向けのソフトウェアと標準のエコシステムはまだ追いついていません。開発者は、さまざまなデバイスでNPUを活用しようとすると、ツールやSDKのジャングルに直面しますnimbleedge.com。主なポイント:- 各プラットフォームには独自のAPIやSDKがあります。AppleはCore ML(Neural EngineをターゲットにしたAPI付き)、AndroidはNeural Networks API (NNAPI)(ただしGoogleはAndroid 14以降での進化を発表)threads.com、QualcommはSNPE (Snapdragon Neural Processing Engine)やより広範なQualcomm AI Stack、NVIDIAはTensorRTやCUDAを自社デバイス向けに提供しています。他にもONNX Runtime、TensorFlow Lite、PyTorch Mobile、MediaTek NeuroPilot、Huawei HiAIなどがあります。これらのSDKは機能が異なることが多く、各ターゲットで最適に動作させるにはモデルの調整が必要です。2025年のオンデバイスAIレポートでは、「複数の互換性のないSDK(例: Core ML、LiteRT、ONNX Runtime)があり、オペレーターのサポートやパフォーマンスも異なるため、開発者は余分な作業を強いられる」nimbleedge.comと指摘されています。
- 断片化の問題: デスクトップGPUで完璧に動作するモデルでも、スマートフォンのNPUではすぐに動作しない場合があります。オペレーター(数値演算関数)がサポートされていなかったり、異なる量子化が必要だったりするためです。開発者は、ハードウェアごとに個別のビルドを維持したり、手動でモデルを最適化したりしなければならないこともあります。これが「低レベルで断片化されたエコシステム」という不満nimbleedge.comです。デバッグツールも乏しく、NPUのプロファイリング(なぜモデルが遅いのかを調べること)は、CPUやGPU向けの充実したツールと比べて特に困難ですnimbleedge.com。 標準化の取り組み: これに対処するために、いくつかの動きがあります。ONNX (Open Neural Network Exchange) は共通フォーマットとして登場し、PyTorch や TensorFlow でモデルをトレーニングしてから ONNX にエクスポートしてデプロイできます。多くのランタイム(Qualcomm や MediaTek のようなオンデバイスのものも含む)が ONNX モデルの取り込みに対応しており、ハードウェア向けにコンパイルを試みます。これにより、単一のフレームワークへのロックインを回避できます。Android NNAPI は Google によるユニバーサルインターフェースの試みで、アプリが NNAPI を通じて「このニューラルネットを実行して」とリクエストすると、OS が利用可能なアクセラレータ(GPU、DSP、NPU など)を使って実行します。NNAPI は多くの Android デバイスで採用されましたが、制限があり、すべてのベンダーが堅牢なドライバを提供したわけではないため、Google は2024年以降に新たな戦略(おそらく WebNN やベンダー直接統合への傾斜)を示唆しています。PC では、Microsoft が DirectML や Windows ML API を導入し、同様にハードウェアの違いを抽象化しています(開発者が NVIDIA、Intel、AMD の NPU で同じ API を使えるように)。統合ツールチェーン: 各社はデプロイを効率化するためのツールチェーンも構築しています。Qualcomm の AI Stack は、同社のコンパイラ(AI Model Efficiency Toolkit)とランタイムを組み合わせ、開発者が Hexagon NPU をより簡単にターゲットできるようにしています。NVIDIA の TensorRT や関連 SDK も Jetson デバイス向けに同様のことを行い、GPU+NVDLA 用にモデルを最適化します。Intel OpenVINO も同様で、モデルを Intel CPU、iGPU、VPU(NPU)向けに最適化し、エッジデプロイメントを可能にします。これらのフレームワークには、モデルを変換(プルーニングや量子化)して小型デバイスに適合させるモデルオプティマイザが含まれていることが多いです。相互運用性: 異なる NPU が共通フレームワークで動作するようにする動きも進んでいます。例えば、Google の TensorFlow Lite にはハードウェアデリゲートがあり、NNAPI 用(Android デバイス全般)、Core ML 用(iOS デバイス)、Edge TPU 用などがあります。TFLite モデルを書けば、デリゲートを通じて最適なアクセラレータで実行されるという考え方です。同様に、PyTorch もモバイルバックエンドや Apple の Metal Performance Shaders(iOS で GPU/NPU を利用)などのサポートを追加しています。ONNX Runtime もプラグイン経由でさまざまなアクセラレータをターゲットにできます(例: NVIDIA の TensorRT や ARM の Compute Library などを内部で利用可能)。新たな標準: Khronos Group(OpenGL/Vulkan の背後にある団体)は NNEF (Neural Network Exchange Format) に取り組み、WebNN API もブラウザからローカル AI アクセラレーションにアクセスするために議論されています。いずれもまだ普及はしていませんが、興味深い動きとして、2024年後半に複数の企業が「AI Hardware Common Layer」標準推進のためのアライアンスを結成しました。これは、NPU 向けの共通低レベルインターフェースが作れるか(GPU の計算向けに OpenCL がしたように)を模索するものです。まだ初期段階です。
- 開発者体験: これは認識されているギャップです。NimbleEdgeのブログが述べているように、「オンデバイスAIの開発は現在、断片化され低レベルなエコシステムを乗り越える必要があり…開発者は各ハードウェアターゲットごとに実装を調整せざるを得ない」 nimbleedge.com。業界は、オンデバイスAIが本当に主流になるためにはこれを改善しなければならないと認識しています。統合が進むかもしれません――例えば、GoogleやApple、QualcommがいくつかのコアなオペレーションやAPIに合意できれば(おそらく希望的観測ですが)。あるいは、PyTorchやTensorFlowのようなフレームワークが、すべてのベンダーライブラリを統合し、実行時に最適なものを選択することで複雑さを隠す可能性が高いでしょう。
本質的には、NPU/TPUが筋力を提供する一方で、コミュニティはその筋力を使うための脳にやさしいツールを開発しています。良いニュースは、例えば5年前と比べて、チップの専門家でなくてもモデルをオンデバイスで展開する選択肢がはるかに増えていることです。しかし、成長の余地はあります――特にデバッグ、プロファイリング、マルチハードウェア対応において。
市場動向と今後の展望
デバイスへのNPUやTPUの普及は、より大きなトレンド、すなわちあらゆる場所でのAIを推進しています。今後予想される主なトレンドをいくつか挙げます:
- エッジAI市場の成長: 市場調査によると、エッジAIハードウェアは爆発的な成長を示しています。オンデバイスAI市場(チップとソフトウェアを含む)は、今後10年間で約29%のCAGRで成長すると予測されていますnimbleedge.com。あるレポートでは、2024年に約2,330億ドル、2032年には1.7兆ドルを超えると評価されていますnimbleedge.com――その多くがエッジ展開による成長です。IDTechExによる別の分析では、エッジデバイス向けAIチップ市場は2034年までに220億ドルに達すると予測しており、コンシューマーエレクトロニクス、自動車、産業分野が最大のセグメントとなっていますidtechex.com。これは、毎年数億台規模のデバイスがNPUを標準搭載して出荷されることを意味します。
- ユビキタスな普及: 今日のすべてのスマートフォンにGPUが搭載されている(たとえ小さくても)のと同じように、すべての新しいスマートフォンにAIアクセラレータが搭載される時代に到達しつつあります。ハイエンドのスマートフォンにはすでに搭載されており、次はミッドレンジのスマートフォンです。実際、Qualcomm(例:Snapdragon 7シリーズ)やMediaTek(Dimensity 700/800シリーズ)のミッドレンジチップにも縮小版NPUが搭載されており、AIカメラの強化や音声アシスタントなどの機能が安価なデバイスでも利用できるようになっています。スマートフォン以外にも、NPUはPC(複数のベンダーによる新しいWindowsノートPCで標準搭載)、自動車(ADASレベル2+を備えたほぼすべての新車に何らかのAIチップが搭載)、IoTへと広がっています。冷蔵庫や洗濯機のような家電製品でさえ「AI」機能をうたうようになってきています(その一部はクラウドベースですが、センサーに基づく適応サイクルのようにローカルで動作するものもあります)。傾向は明らかです。デバイスに計算チップが搭載されていれば、何らかのMLアクセラレーションがそのチップ上に搭載されることになります。
- 性能の軌道: オンデバイスAIの性能はおよそ1~2年ごとに倍増しています(より優れたアーキテクチャと、5nm、4nm、3nmのような先進的な半導体ノードへの移行の組み合わせ)。AppleのNeural Engineは2017年の6000億回/秒から2023年には35兆回/秒へと、6年間で約60倍に増加しましたapple.fandom.com。Qualcommのフラッグシップも同様に、2018年の数TOPSから2023年には27TOPS超(SD 8 Gen 3の全AIコア合計)に跳ね上がっています。2025~2026年には、モバイルNPUが100TOPS以上、PC用アクセラレータはさらに高性能になると予想されます。また、特定のAIタスクでの実用的な性能(例えば、どれだけ大きなLLMをスムーズに動かせるか、4K AIビデオをリアルタイムで処理できるか)に注目が移るにつれ、これらの数値はあまり重要でなくなるかもしれません。推論タスクにおいては、クラウドとエッジの差は縮まるでしょう。しかし、エッジは電力やメモリの制約から、最先端の大規模モデルではクラウドに依然として遅れを取るでしょう。
- エネルギー効率の向上: 見落とされがちな側面の一つは、これらのNPUがどれほど効率的になっているかです。テスラの車載NPUは約4.9TOPS/Wattを達成しておりfuse.wikichip.org、これは数年前の最先端でしたが、今では一部のモバイルNPUが同等またはそれ以上を謳っています。効率的なNPUは、AI機能をより多く使ってもバッテリー寿命が長くなることを意味します。また、AIを小型のバッテリー駆動デバイスに搭載することも現実的になります(例:AI補聴器、コイン電池で動作し異常検知を行うスマートセンサー)。TinyMLという概念――マイクロコントローラ上での極小規模な機械学習――はこれを拡張したもので、簡易的な「NPU」や最適化された命令を使ってセンサーでAIを実行します。ARMのEthos-U NPUはこの分野をターゲットにしており(例:数ミリワットで常時オンのキーワード検出など)、今後はセンサーやウェアラブル、日用品に組み込めるAI専用の小型チップが増えていくでしょう(スマート歯ブラシ?AI搭載の煙探知機?それもやってきます)。
- ハイブリッド クラウド-エッジ ソリューション: エッジがクラウドを完全に置き換えるのではなく、未来は協調にあります。デバイスはローカルでできることは自分で処理し、できないことだけを外部に依頼します。 例えば、ARグラスはローカルでシーン認識を行い、何を見ているかを把握しますが、非常に複雑な質問(詳細な説明など)をした場合は、より強力な分析のためにクラウドAIに問い合わせて、その結果を提示するかもしれません。このハイブリッドなアプローチは、応答性と能力の最良のバランスをもたらします。企業はこれを前提に体験設計を積極的に進めています。たとえば、MicrosoftのCopilot on Windowsは、ローカルNPUで音声からテキストへの変換やコマンド解析を素早く行い、重い処理はクラウドで行う(もしかしたら高性能なPC NPUがあればローカルで完結するかもしれません)。理想的には、ユーザーはどちらが使われているかを意識せず、ただ速くてプライバシーが守られていることだけを感じるはずです。また、フェデレーテッドラーニングもより一般的になるでしょう ― モデルはクラウドで学習しますが、デバイス上で暗号化されたデータや処理の助けを借りたり、その逆もあります。
- 新たなユースケース: NPUがより強力になるにつれ、新しいアプリケーションが登場します。オンデバイス生成AIは大きな例です ― AIによる画像生成、AI動画編集、パーソナルチャットボットがすべてスマホやノートPC上で動くことを想像してください。2025年までには、クラウドを使わずにメール要約やメッセージ下書きができるオフラインのパーソナルアシスタントの初期バージョンが登場するかもしれません。会話中のリアルタイム翻訳(異なる言語を話す2人が、スマホやイヤホンでほぼリアルタイムに翻訳される)は、オンデバイス処理によって大幅に改善されます(遅延がなく、どこでも使える)。ヘルスAIはウェアラブルに搭載されるかもしれません ― スマートウォッチがNPUを使って心房細動を検出したり、睡眠時無呼吸のパターンを分析したりします。セキュリティ: デバイスがローカルでAIを実行し、マルウェアやフィッシングをリアルタイムで検出する(例:クラウドスキャンではなく、デバイス上のAIモデルを使うウイルス対策)。車両では自動運転以外にも、AIが車内体験をパーソナライズする(運転者向けカメラAIで気分を推定し、空調を調整するなど)。これら多くのユースケースは、迅速な反復とプライバシーが求められるため、オンデバイスに適しています。
- 競争と民主化: 大手企業は競争を続けるでしょう ― これは消費者にとって良いことで、「我々のAIチップはX TOPSを実現、他社にはできないY機能を可能に」などのマーケティングが期待できます。しかし、技術は民主化も進んでいます ― NPUは1000ドルのスマホだけでなく、300ドルのスマホや50ドルのIoTボード(Coral、Arduino Portentaなど)にも搭載され、オープンソースコミュニティはRaspberry Piやマイコン+簡易アクセラレータで動く小型AIモデルを作っています。この広範な普及により、イノベーションはどこからでも生まれる可能性があります。今や一人の開発者が、サーバーファームを必要とせず、オンデバイスAIを使った賢いアプリを作れる ― AI駆動ソフトウェアの参入障壁が下がっています。
- 未来技術: さらに先を見据えると、ニューロモーフィック・コンピューティング(Intel Loihiのような脳を模倣したチップ)やアナログAIチップの研究が、将来的にNPUを革命的に進化させ、桁違いの効率向上をもたらす可能性があります。IBMやBrainChipのような企業がこれに取り組んでいます。もし成功すれば、ニューロモーフィックチップによって、複雑なAIが小型バッテリー機器上で継続的に動作できるようになるかもしれません。また、3Dスタッキングや新しいメモリ技術がNPUに統合され、メモリのボトルネックを克服することも考えられます(2025年以降の一部チップでは、HBMメモリや新しいオンチップ不揮発性メモリがAIコアへのデータ供給を高速化するために使われるかもしれません)。さらに、AIチップ内でのさらなる専門化も期待されます。例えば、ビジョン用、音声用、レコメンデーションモデル用など、各分野に最適化された個別アクセラレータが搭載されるといった具合です。すでに一部のSoCでは、デュアルNPU(重いタスク用の「ビッグ」NPUと、常時稼働の軽量タスク用にセンサーハブ内のマイクロNPU)を搭載しています。
結論として、その進化の方向性は明らかです。NPUやTPUは、現代のコンピューティングにおいてCPUと同じくらい標準的かつ不可欠な存在になりつつあります。これらはデバイスをよりスマートに、より応答性高く、そして私たちのプライバシーにも配慮できるようにします。あるレポートでは、「デバイス上の高性能プロセッシングユニットが、画像認識、NLP、リアルタイム意思決定といった複雑なAI機能の実行を主に担っている」と述べられており、これがさまざまな分野でより知的で応答性の高い技術を推進していますgrandviewresearch.com。
私たちは、デバイスがあなたのニーズを理解し先回りして応えてくれることを当然のこととして期待する時代に突入しています。スマートフォンは写真を編集し、あなたの文体でメッセージを書き、車は事故を回避しAIでエンターテインメントを提供し、家庭用ガジェットはあなたの好みを学習します――これらすべては内部の静かなニューラルプロセッサによって実現されています。オンデバイスAIはもはやSFではなく、すでに現実であり急速に進化しています。NPUやTPUと日常的なガジェットの融合は、AIをパーソナルで、あまねく、そしてプライベートなものにし、まさにクラウドインテリジェンスの力を地上にもたらす(少なくとも、あなたのポケットにまで)。
出典:
- Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 2024年8月27日 techtarget.com。AIワークロードにおけるCPU、GPU、TPU、NPUの役割と違いについて解説。
- Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023年 backblaze.com。GoogleのTPU設計(シストリックアレイ、低精度)やモバイルデバイスでのNPU利用について説明。
- TechTarget WhatIs. 「テンソル処理ユニット(TPU)」 whatis.techtarget.com, 2023 techtarget.com. TPUは行列計算タスクに特化し、NPUは加速のために脳のニューラルネットワークを模倣していることに言及techtarget.com.
- NimbleEdge Blog(Neeraj Poddar). 「オンデバイスAIの現状:今日の状況で欠けているもの」 2025年6月26日 nimbleedge.com. オンデバイスAIの利点(レイテンシ、オフライン、プライバシー、コスト)と、断片化されたSDKなどの課題を概説。
- Qualcomm(OnQ Blog). 「BloombergとCristiano AmonがオンデバイスAIについて語る」 2023年7月 x.com. QualcommのCEOが将来のAIにおけるオンデバイス推論の重要性について(AIの転換点に関するツイート引用)。
- MediaTek Blog(Exec Talk by Will Chen). 「AIモバイル体験の未来を形作る」 2025年3月3日 mediatek.com. MediaTekとOppoのNPUに関する協業;手のひらのエッジコンピューティングやNPUを使ったAI写真リマスタリングの例についての引用。
- I-Connect007 / Qualcomm Press. 「QualcommがMetaと協力しオンデバイスAI(Llama 2)を実現」 2023年7月24日 iconnect007.com. QualcommのSVP Durga Malladiによる、エッジデバイスとクラウドを通じた生成AIのスケーリングに関するコメント付きプレスリリース。
- PCWorld(Mark Hachman). 「IntelのCore Ultra CPUはAIをシンプルに保つ…」 2024年10月24日 pcworld.com. Intel Arrow LakeがMeteor LakeのNPU(13 TOPS)を使用していること、AMDのRyzen 8000の39 TOPS NPUやMicrosoftの40 TOPS「Copilot」要件について言及。
- Ts2(Tech Empowerment)。“自動運転スーパーコンピューター対決:NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride。”2023年9月 ts2.tech。TOPSの推定値を提供:Tesla HW3 vs HW4(チップあたり72→100 TOPS)ts2.tech、NVIDIA Thorは約1000 TOPS(デュアルで2000)ts2.tech、さらに車載生成AIについてNVIDIA副社長のコメントを引用ts2.tech。
- Grand View Research。“オンデバイスAI市場レポート、2030。”2024年 grandviewresearch.com。スマートフォン、IoT、NPUなどにより、複雑なAIをデバイス上で実現する専用AIチップ(NPU)の台頭と、2024年のオンデバイスAI市場でハードウェアが60.4%を占めたことを指摘。
- Google Blog。“Google Tensor G3:Pixel 8のAIファーストプロセッサ。”2023年10月 blog.google。Tensor G3のオンデバイス生成AI向けアップグレード、新しいTPU設計、データセンター品質に匹敵するオンデバイスTTSモデルについて説明。
- Techspot。“Snapdragon 8 Gen 3が生成AIをスマートフォンにもたらす。”2023年10月 futurumgroup.com。Futurum Groupの分析で、SD8Gen3のAIエンジン:デバイス上で10BパラメータのLLM、98%高速化したNPU、スマホ上で世界最速のStable Diffusionなど、さらにコスト/プライバシー/オフラインのためのオンデバイスLLMの利点も解説futurumgroup.com。
- Apple Wiki(Fandom)「Neural Engine」2025年更新 apple.fandom.com。Neural Engineのバージョン履歴(2023年のA17 Proで35 TOPSなど)。A11の0.6 TOPSからA17の35 TOPSまでの進化を示す apple.fandom.com、およびM4で38 TOPS apple.fandom.com。
- EnGenius Tech「Cloud Edge Camera AI Surveillance」2023年 engeniustech.com。NPU内蔵でカメラ内AI処理とローカル保存が可能なセキュリティカメラの例(NVR不要)。
- EmbedL「Amazon、AZ1 Neural Edge Processorをリリース」2020年10月 embedl.com。AmazonのEchoデバイス向けAZ1エッジNPUについて解説。MediaTekと共同開発され、遅延とクラウド依存を減らすためのオンデバイス音声推論用に設計 embedl.com。