מעבדי NPU מול TPU: כיצד בינה מלאכותית על גבי המכשיר מאיצה את הגאדג'טים שלך ב-2025

ספטמבר 6, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • אפל השיקה את ה-AI על המכשיר כבר ב-2017 עם מנוע ה-Neural של iPhone A11, שאפשר Face ID ו-Animoji במהירות של עד 600 מיליארד פעולות לשנייה.
  • ב-2023, מנוע ה-Neural בעל 16 ליבות של iPhone A17 Pro סיפק כ-35 TOPS, והניע תכונות דיבור, צילום ותרגום על המכשיר.
  • Google Pixel 8 (2023) משתמש ב-Tensor G3 NPU להרצת מודלי AI על המכשיר כמו Palm 2 לתרגום וסיכום לא מקוון.
  • Edge TPU של גוגל על לוח הפיתוח Coral מספק 4 TOPS של עיבוד ראייה בכמה וואטים בודדים.
  • החומרה לנהיגה אוטונומית מלאה של טסלה כוללת שני NPUs: HW3 (2019) הציע כ-144 TOPS, ו-HW4 (2023) סביב 200–250 TOPS.
  • NVIDIA Drive Thor (הוצג ב-2024) יכול להגיע עד 2000 TOPS כאשר שני שבבים מחוברים לעומסי עבודה של AI לרכב.
  • Hexagon NPU של Snapdragon 8 Gen 3 (2023) של קוואלקום מהיר ב-98% מהדור הקודם, מסוגל להריץ LLMs עד 10 מיליארד פרמטרים על המכשיר, והדגים את Stable Diffusion הנייד המהיר בעולם.
  • Dimensity 9400 (2024) של מדיה-טק עם APU דור שישי מניע שיחזור תמונות AI ב-Oppo Find X8, ומסמן ש-NPU מתרחבים לטלוויזיות, IoT ורכבים עד 2025.
  • Meteor Lake של אינטל, הדור ה-14 של Core (הושק ב-2023; מותג מחדש כ-Core Ultra ב-2024), כולל NPU משולב שמספק כ-8–12 TOPS, עם Arrow Lake סביב ~13 TOPS ו-Lunar Lake שמועות על כ-45 TOPS.
  • Ryzen 7040 Phoenix (2023) של AMD הציג את Ryzen AI Engine עם עד 10 TOPS, בעוד Ryzen 8000 דסקטופ (תחילת 2024) הציע 39 TOPS לפני ש-AMD עצרה את ה-NPU בדור הזה.

בשורה התחתונה: הסמארטפון, המצלמה ואפילו הרכב שלך מקבלים מוחות AI מובנים – בלי צורך בענן. שבבים מיוחדים בשם NPUs (יחידות עיבוד עצביות) ו-TPUs (יחידות עיבוד טנזוריות) הופכים מכשירים יומיומיים לעוזרים חכמים שמסוגלים לזיהוי פנים, פקודות קוליות, תרגום בזמן אמת, תכונות נהיגה אוטונומית ועוד. מהפכת ה-AI על המכשיר מבטיחה תגובות מהירות במיוחד, פרטיות טובה יותר ותכונות חדשות שחשבנו שאפשריות רק עם מחשבי-על. בדוח זה נפשט את המושגים NPU ו-TPU, נראה במה הם שונים מ-CPU/GPU, ונחקור מדוע ענקיות טכנולוגיה כמו אפל, גוגל, קוואלקום ואינטל ממהרות לשלב את "מוחות ה-AI" הללו בכל דבר – מטלפונים ועד רכבים. נציג גם את פריצות הדרך האחרונות ל-2024–2025, תובנות מומחים, תקני תעשייה ומה צופן העתיד ל-AI על המכשיר.

מהם NPUs ו-TPUs? (הכירו את מוח ה-AI של המכשיר שלכם)

יחידות עיבוד עצבי (NPUs) הן מעבדים ייעודיים שנועדו להאיץ רשתות עצביות מלאכותיות – האלגוריתמים שמניעים משימות בינה מלאכותית מודרניות כמו זיהוי תמונה, עיבוד דיבור ועוד. בניגוד למעבדי CPU כלליים, NPUs הן מעגלים משולבים ייעודיים ליישום (ASICs) המותאמים למתמטיקת מטריצות ולעומסי עבודה מקבילים כבדים של רשתות עצביות techtarget.com. NPU "מדמה את הרשתות העצביות של מוח אנושי כדי להאיץ משימות בינה מלאכותית", ופועל למעשה כמוח סיליקון בתוך המכשיר שלך techtarget.com. NPUs מצטיינים בהרצת אינפרנס (ביצוע חיזויים) עבור מודלים של בינה מלאכותית ביעילות על גבי המכשיר, לעיתים קרובות תוך שימוש בדיוק נומרי נמוך יותר (למשל, מספרים שלמים בני 8 ביט) כדי לחסוך באנרגיה ועדיין לספק ביצועים גבוהים backblaze.com. המונח "NPU" משמש לעיתים בהרחבה לכל מאיץ בינה מלאכותית, אך לרוב מתייחס לאלו שבמכשירים ניידים ובקצה הרשת backblaze.com. לדוגמה, ה-"Neural Engine" של אפל באייפונים ומנוע הבינה המלאכותית של סמסונג במובייל הם NPUs המשולבים בעיצובי ה-System-on-Chip (SoC) שלהם.

יחידות עיבוד טנזור (TPUs), לעומת זאת, פותחו על ידי גוגל כשבבים ייעודיים להאצת למידת מכונה, במיוחד עבור מסגרת TensorFlow. TPU הוא סוג של ASIC שמותאם לפעולות טנזור (כפל מטריצות וכו') שהן בלב אימון והסקה של רשתות נוירונים backblaze.com. גוגל פרסה לראשונה TPUs במרכזי הנתונים שלה ב-2015 כדי להאיץ חישובי רשתות נוירונים, ובהמשך הפכה אותם לזמינים דרך Google Cloud backblaze.com. TPUs משתמשים בארכיטקטורה ייחודית בשם מערך סיסטולי, שמקשרת הרבה יחידות עיבוד קטנות ברשת שמעבירה נתונים בשרשרת של יחידות כפל מטריצות backblaze.com. עיצוב זה משיג קצב עיבוד קיצוני במשימות למידה עמוקה. ה-TPUs של גוגל במכוון מקריבים מעט דיוק (משתמשים בחישוב 8-ביט או 16-ביט במקום נקודה צפה 32-ביט) עבור שיפור עצום במהירות וביעילות backblaze.com, מכיוון שרבות ממשימות ה-AI אינן דורשות דיוק גבוה כדי לקבל תוצאות מדויקות. למרות ש-"TPU" מתייחס טכנית לשבבים של גוגל, המונח משמש לעיתים גם באופן כללי לכל מאיץ "טנזור". ראוי לציין שגוגל גם מייצרת Edge TPU כמאבדים נלווים ל-AI על גבי מכשירים, במוצרים כמו Coral Dev Board, שמספקים 4 טריליון פעולות בשנייה בכמה וואטים בלבד coral.ai.

בקצרה: גם NPUs וגם TPUs הם מאיצי סיליקון ל-AI, אך NPUs משולבים לרוב במכשירים ניידים/קצה להסקה יעילה על גבי המכשיר, בעוד ש-TPUs (במובן הצר) הם שבבים (וכיום גם מודולים) עתירי ביצועים בעיקר מגוגל, במקור עבור משימות אימון והסקה בענן/מרכז נתונים. שניהם שונים מעיצובים מסורתיים של CPU/GPU כדי להעדיף פעולות מתמטיות מקבילות עבור רשתות נוירונים. כפי שניסח זאת עורך טכנולוגיה אחד, "TPUs לוקחים את ההתמחות רחוק יותר, מתמקדים בפעולות טנזור כדי להשיג מהירויות ויעילות אנרגטית גבוהות יותר… NPUs נפוצים במכשירים עם AI כמו סמארטפונים וגאדג'טים של IoT" backblaze.com.

כיצד NPUs ו-TPUs שונים מ-CPUs ו-GPUs?

מעבדי CPU (יחידות עיבוד מרכזיות) הם "המוח" של המחשוב הכללי – מותאמים לגמישות כדי להתמודד עם כל סוגי המשימות, מהפעלת מערכת ההפעלה שלך ועד לגלישה באינטרנט. יש להם כמה ליבות חזקות שמצטיינות בלוגיקה סדרתית ובהוראות מגוונות, אך הן אינן טובות במיוחד בחישובים מתמטיים מקביליים בהיקף רחב הנדרשים ללמידה עמוקה techtarget.com. כאשר מבקשים מ-CPU לעבד רשת נוירונים גדולה, הוא לעיתים קרובות הופך לצוואר בקבוק, בניסיון לבצע מיליוני כפל וחיבור ברצף או באצוות מקבילות מוגבלות. זה מוביל להשהיה גבוהה ולצריכת חשמל גבוהה (מה שנקרא צוואר הבקבוק של פון נוימן – העברת כמויות גדולות של נתונים בין ה-CPU לזיכרון) backblaze.com. CPUs יכולים לבצע חלק מעבודת ה-AI (במיוחד מודלים פשוטים או קטנים יותר, או לוגיקת בקרה עבור תוכניות AI techtarget.com), אך ככלל, הם מתקשים להתרחב ביעילות לדרישות המודרניות של AI לאלגברה ליניארית מקבילית מסיבית.

מעבדי GPU (יחידות עיבוד גרפיות) הביאו את המחשוב המקבילי לקדמת הבמה. במקור נוצרו לעיבוד תמונות על ידי ביצוע פעולות פשוטות רבות במקביל על פיקסלים וקודקודים, התברר כי GPUs מתאימים מאוד לאימון רשתות נוירונים, שגם הן כוללות יישום אותן פעולות מתמטיות (מכפלות סקלריות וכו') על כמויות גדולות של נתונים בו-זמנית techtarget.com. ל-GPU יש מאות או אלפי ליבות קטנות שיכולות לבצע חישובים במקביל. זה הופך את ה-GPU למצוינים ל-AI בקנה מידה גדול, ובמהלך שנות ה-2010 GPUs (במיוחד של NVIDIA עם תוכנת CUDA) הפכו לסוס העבודה של מחקר הלמידה העמוקה. עם זאת, GPUs עדיין די כלליים – הם צריכים להתמודד עם משימות גרפיות מגוונות ולשמור על גמישות, ולכן הם לא מותאמים ב-100% לרשתות נוירונים. הם גם צורכים הרבה חשמל ודורשים תכנות קפדני כדי לנצל אותם במלואם (הם לא אוהבים קוד עם הסתעפויות מורכבות ומצטיינים במשימות מקביליות וזורמות) techtarget.com.

מעבדי NPU ו-TPU לוקחים את ההתמחות אפילו רחוק יותר. הם נבנו במיוחד עבור רק עומסי עבודה של רשתות נוירונים. המשמעות היא שהארכיטקטורה שלהם יכולה להוציא כל דבר שאינו נחוץ למתמטיקה של בינה מלאכותית ולהקדיש יותר סיליקון לדברים כמו יחידות כפל מטריצות, מחברי צבירה, וזיכרון על-שבבי להעברת נתונים במהירות פנימה והחוצה מאותן יחידות מתמטיות. לדוגמה, TPU של Google Cloud הוא למעשה מערך דו-ממדי ענק של יחידות MAC (כפל-צבירה) עם ארכיטקטורת זרימת נתונים חכמה (מערך סיסטולי) שמזינה אותן באופרנדים במהירות גבוהה backblaze.com. הוא לא מתעסק בזיכרונות מטמון, ביצוע ספקולטיבי או תכונות אחרות של CPU – הוא ממוטב במיוחד למתמטיקת מטריצות. גם NPUs בשבבים ניידים משלבים ליבות ייעודיות של מנוע נוירוני לצד ה-CPU/GPU. ליבות אלו משתמשות לעיתים קרובות באריתמטיקה בדיוק נמוך (למשל, מספרים שלמים בני 8 ביט כמו ב-TPU) ומבצעות חישובים מקביליים מאוד "שכבה אחר שכבה" עבור רשתות נוירונים קונבולוציוניות. NPU עשוי להשתמש בארכיטקטורה "מאוחדת" המשלבת יחידות סקלריות, וקטוריות וטנזוריות (כמו ב-Hexagon NPU של קוואלקום) כדי לטפל ביעילות בפעולות שונות של רשתות נוירונים futurumgroup.com.

ההבדלים המרכזיים מסתכמים ב:

  • סט פקודות וגמישות: ל-CPU יש סט פקודות רחב וכללי (יכול לעשות הרבה דברים, אך לא את כולם בו-זמנית). ל-GPU יש סט פקודות מוגבל יותר אך עדיין גמיש, שמותאם לתפוקה גבוהה במתמטיקה. ל-NPU/TPU יש סט פקודות צר מאוד – למעשה רק את הפעולות הנדרשות לרשתות נוירונים (כפל מטריצות, קונבולוציה, פונקציות הפעלה), שלעיתים ממומשות כצינורות קבועים או מערכים fuse.wikichip.org. לדוגמה, ל-NPU של טסלה לרכב אוטונומי יש רק 8 פקודות ב-ISA שלו, שממוקדות בקריאות/כתיבות DMA ומכפלות נקודתיות fuse.wikichip.org.
  • מקביליות וליבות: מעבדי CPU = כמה ליבות חזקות; מעבדי GPU = אלפי ליבות פשוטות; NPU/TPU = במובן מסוים, עשרות אלפי יחידות ALU פשוטות מאוד (יחידות MAC) המסודרות במבנה מטריצה או רשת עצבית. שבב NPU יחיד עשוי לבצע עשרות טריליוני פעולות בשנייה – ה-NPU של טסלה ברכב פועל בתדר 2 גיגה-הרץ עם 9,216 יחידות MAC, ומשיג כ-37 טרה-אופרטיות לשנייה (TOPS) לכל ליבה, ולכל שבב FSD יש שני NPU לכ-74 TOPS fuse.wikichip.org, ts2.tech. לשם השוואה, מעבד CPU מתקדם עשוי להגיע רק לכמה מאות מיליארדי פעולות בשנייה במשימות AI, ו-GPU אולי לכמה TOPS אם לא משתמשים בליבות טנזור מיוחדות.
  • ארכיטקטורת זיכרון: NPU/TPU מסתמכים על זיכרון מהיר על השבב וזרימת נתונים. TPU נמנעים מצוואר הבקבוק הקלאסי של זיכרון באמצעות זרימת נתונים סיסטולית – כל יחידה קטנה מעבירה נתונים לבאה אחריה בסנכרון, וממזערת קריאות/כתיבות לזיכרון הראשי backblaze.com. רבים מה-NPU כוללים מקטע SRAM על השבב עבור משקלים/אקטיבציות (למשל, ליבות NPU של טסלה כוללות 32 מגה-בייט SRAM כל אחת לאחסון נתוני רשת עצבית מקומית) semianalysis.com. זאת בניגוד ל-GPU/CPU המשתמשים רבות ב-DRAM חיצוני.
  • דיוק חישוב: CPU/GPU מבצעים לרוב חישובי נקודה צפה 32-ביט או 64-ביט. מאיצי AI משתמשים לעיתים קרובות במספרים שלמים 16-ביט או 8-ביט (וכיום יש ניסיונות גם עם 4-ביט ואפילו 2-ביט) כי רשתות עצביות סובלות דיוק נמוך יותר. מהנדסי TPU של גוגל ציינו במפורש שאין צורך בדיוק נקודה צפה מלא עבור אינפרנס, בדומה ל"אתה לא צריך לדעת בדיוק כמה טיפות גשם יורדות כדי לדעת שיורד גשם חזק" backblaze.com. זה מאפשר ל-NPU/TPU לבצע יותר פעולות במקביל ולצרוך פחות אנרגיה לכל פעולה.
  • שימושים: GPU עדיין נפוצים מאוד עבור אימון מודלים גדולים ועבור חישוב גמיש (והם נפוצים במרכזי נתונים ובמחשבים אישיים מתקדמים). TPU (ענן) מיועדים לאימון ואינפרנס בקנה מידה גדול באקוסיסטם של גוגל. NPU נמצאים לרוב במכשירי קצה – סמארטפונים, מצלמות, מכשירי חשמל – ומבצעים אינפרנס על מודלים שכבר אומנו. הם מצטיינים במשימות כמו הפעלת מודל ראייה על פריים ממצלמה בזמן אמת, או הרצת זיהוי מילת הפעלה לעוזר קולי ברציפות ובצריכת חשמל נמוכה. כפי ש-TechTarget ציינו: "GPU נבחרים בשל זמינותם ועלותם בפרויקטי ML רבים; TPU בדרך כלל מהירים יותר ופחות מדויקים, בשימוש עסקים בענן של גוגל; NPU נפוצים במכשירי קצה/ניידים לעיבוד מקומי מהיר בהרבה" techtarget.com.

לסיכום, מעבדי CPU = מארגנים רב-שימושיים, מעבדי GPU = סוסי עבודה מקביליים, מעבדי TPU/NPU = מומחים לרשתות עצביות. כולם יכולים לשתף פעולה – למעשה, במכשיר מודרני עם יכולות בינה מלאכותית, ה-CPU לעיתים קרובות מתאם משימות ומעביר את החלקים הכבדים חישובית ל-NPU/GPU לפי הצורך techtarget.com. מגמת ההתמחות הזו קיימת כי פתרון אחד כבר לא מתאים לכולם במחשוב: כפי שאמר עורך אחד, "הוספת מיליוני טרנזיסטורים לכל צורך לא הייתה יעילה… המעצבים אימצו מעבדים ייעודיים" techtarget.com. מעבדי NPU ו-TPU ייעודיים מאיצים משמעותית חישובי בינה מלאכותית תוך שמירה על צריכת חשמל נמוכה – איזון קריטי למכשירים עם סוללה ולשרתים בצפיפות גבוהה כאחד.

למה בינה מלאכותית על המכשיר? (קצה לעומת ענן)

למה בכלל להריץ בינה מלאכותית על הטלפון או הרכב שלך – למה לא פשוט לשלוח הכל לענן, שם שרתים ענקיים (עם GPU/TPU) יכולים לעשות את העבודה הכבדה? יש כמה סיבות משכנעות שמניעות את המעבר ל-בינה מלאכותית על המכשיר, והן מסתכמות במהירות, פרטיות, עלות ואמינות nimbleedge.com:

  • תגובה מיידית (שהיית נמוכה): NPU על המכשיר יכול לעבד נתונים בזמן אמת ללא עיכוב של שליחת נתונים לשרת ענן. זה קריטי למשימות בינה מלאכותית אינטראקטיביות או קריטיות לבטיחות. לדוגמה, מערכת נהיגה אוטונומית של רכב המשתמשת ב-NPU מובנה יכולה לזהות הולך רגל ולבלום מיידית, תוך אלפיות שנייה, במקום להמתין לחישוב בענן. מצלמה חכמה עם NPU יכולה לזהות פורץ ברגע שהוא מופיע בפריים. בטלפון שלך, בינה מלאכותית על המכשיר פירושה שהעוזר הקולי שלך יכול להגיב מהר יותר ובאופן טבעי יותר כי הוא לא "מתקשר הביתה" כל הזמן. שהייה נמוכה מאפשרת קבלת החלטות בזמן אמת אמיתי וחוויית משתמש חלקה יותר nimbleedge.com.
  • פרטיות ואבטחת נתונים: בינה מלאכותית על גבי המכשיר שומרת את הנתונים שלך מקומיים. במקום להזרים את שמע המיקרופון או את הזנת המצלמה לענן לניתוח, העיבוד מתבצע בתוך המכשיר. זה מפחית משמעותית את החשיפה של נתונים רגישים. לדוגמה, סמארטפונים מודרניים מבצעים זיהוי פנים (Face ID וכו') כולו על גבי המכשיר – מפת הביומטריה של פניך לעולם אינה עוזבת את האזור המאובטח של הטלפון. באופן דומה, מכשיר שמיעה חכם או לבישת בריאות עם בינה מלאכותית יכולים לנתח נתונים ביומטריים מבלי להעלות אותם לשרת כלשהו, ובכך לשמור על פרטיות. לאור הדאגות והרגולציות הגוברות של המשתמשים לגבי ריבונות נתונים, זהו יתרון משמעותי. כפי שנכתב בבלוג Edge AI, עיבוד על גבי המכשיר אומר "אין צורך לשלוח את נתוני המשתמש לענן", ומספק יתרון פרטיות בסיסי nimbleedge.com. (כמובן, הפרטיות אינה אוטומטית – מפתחים עדיין חייבים לטפל בזהירות בנתונים המאוחסנים – אך קל יותר לסמוך על מכשירים שאינם שולחים את המידע שלך החוצה כל הזמן.) מנכ"לי טכנולוגיה מדגישים לעיתים קרובות את ההיבט הזה. מנכ"ל קוואלקום, קריסטיאנו אמון, ציין ששילוב של ענן ובינה מלאכותית על גבי המכשיר יכול לשפר את ההתאמה האישית תוך שמירה על אבטחת הנתונים במכשיר – הוא מכנה זאת "עתיד היברידי" שבו בינה מלאכותית על גבי המכשיר משתפת פעולה עם בינה מלאכותית בענן לטובת שני העולמות moomoo.com.
  • זמינות ואמינות לא מקוונת: מכשירים עם NPU/TPU אינם תלויים בחיבוריות. הם יכולים לפעול במנהרת רכבת תחתית, במטוס, באזורים כפריים מרוחקים או במהלך הפסקות רשת. זה קריטי לאמינות. תכונת הכתבה קולית על גבי המכשיר תעבוד גם ללא קליטה. רחפן עם בינה מלאכותית לראייה ממוחשבת על הסיפון יוכל להימנע ממכשולים גם מחוץ לרשת. עצמאות זו קריטית גם עבור מערכות קריטיות למשימה: לדוג' רובוטי חילוץ באסון או מכשירים רפואיים שאינם יכולים להניח שיש חיבור אינטרנט חי. "פונקציונליות לא מקוונת" היא יתרון מרכזי של בינה מלאכותית על גבי המכשיר nimbleedge.com – זה מבטיח שתכונת הבינה המלאכותית זמינה בכל זמן ובכל מקום שצריך.
  • יעילות עלות בקנה מידה: שליחה מתמדת של נתונים גולמיים לענן לעיבוד בינה מלאכותית יכולה להיות יקרה מאוד (עיבוד בענן אינו חינמי) ולדרוש רוחב פס רב. ככל שתכונות הבינה המלאכותית מתרבות, חברות יצטרכו לשלם חשבונות עיבוד ענן עצומים אם כל משימה קטנה תגיע לשרת. על ידי ביצוע יותר עיבוד בקצה, הן מפחיתות את העומס על שרתי הענן ואת השימוש ברשת. לעיתים קרובות יעיל יותר להשקיע עוד כמה דולרים בשבב טוב יותר במכשיר מאשר לשלם על ג'יגה-בייטים של עיבוד ענן לאורך חיי המכשיר. ניתוח תעשייתי של Futurum ציין שעיבוד על גבי המכשיר מסייע בהתמודדות עם בעיות קנה מידה ועלות של בינה מלאכותית גנרטיבית – הוא "מפזר" את העומס כך שמרכזי הנתונים לא יוצפו (והמשתמשים/מפתחים לא ישלמו הון על זמן GPU בענן) futurumgroup.com.
  • התאמה אישית והקשר: סיבה מתפתחת: בינה מלאכותית על גבי המכשיר יכולה ללמוד ולהסתגל להקשר מקומי בצורה שבינה מלאכותית בענן לא תמיד יכולה. הסמארטפון שלך יכול להחזיק מודל מקומי קטן שלומד את סגנון ההקלדה שלך לשיפור תיקון אוטומטי, מבלי לשתף את מודל השפה האישי הזה לענן. מכשירים יכולים לשלב נתונים ממספר חיישנים בזמן אמת (משהו שקל יותר לעשות מקומית מאשר להזרים הרבה נתוני חיישנים לענן). זה מאפשר חוויה מותאמת אישית ומודעת להקשר. תכונות מסוימות כמו למידה מבוזרת אף מאפשרות למכשירים לשפר מודלים של בינה מלאכותית בשיתוף פעולה מבלי להעלות נתונים גולמיים (רק לשלוח עדכוני משקל קטנים).
  • רגולציה וריבונות נתונים: חוקים כמו ה-GDPR האירופי ודרישות לוקליזציה שונות מחייבים יותר ויותר שלא לשלוח נתונים מסוימים (במיוחד נתונים אישיים או רגישים) לחו"ל או לצדדים שלישיים ללא הסכמה. בינה מלאכותית על גבי המכשיר מציעה דרך לעמוד בדרישות אלו על ידי עיבוד הנתונים במקור. לדוגמה, כלי בינה מלאכותית לדימות רפואי יכולים לפעול על חומרה של בית החולים (שרתי קצה עם NPU) כך שפרטי המטופלים לא עוזבים את המקום, ובכך לעמוד בתקנות הפרטיות. דוח 2025 של NimbleEdge מציין שממשלות דוחפות ליותר הסקת מסקנות מקומית מסיבות של ריבונות וציות nimbleedge.com.

כל הגורמים הללו מובילים לשינוי פרדיגמה: במקום לחשוב "קודם ענן" עבור בינה מלאכותית, חברות כיום מעצבות תכונות בינה מלאכותית "קודם מכשיר" כאשר ניתן. כפי שסיכם סגן נשיא הבינה המלאכותית של קוואלקום, דורגה מאלדי: "כדי להרחיב ביעילות את הבינה המלאכותית הגנרטיבית למיינסטרים, הבינה המלאכותית תצטרך לפעול גם בענן וגם במכשירים בקצה… כמו סמארטפונים, מחשבים ניידים, רכבים ומכשירי IoT" iconnect007.com. אנו עוברים לעולם בינה מלאכותית היברידית שבו אימון כבד ומודלים גדולים יישארו בענן, אך משימות הסקה רבות וחוויות בינה מלאכותית אישיות ירוצו מקומית על ה-NPU/TPU שבידיים ובבתים שלכם. למעשה, אמון מכנה זאת "נקודת מפנה בבינה מלאכותית" – הסקת מסקנות על גבי המכשיר ללא השהיה, כאשר "העתיד של הבינה המלאכותית הוא אישי" כי היא פועלת בדיוק איפה שאתה נמצא x.com.

בינה מלאכותית על גבי המכשיר בפעולה: מסמארטפונים ועד רכבים אוטונומיים

שבבי בינה מלאכותית ייעודיים כבר משולבים במגוון רחב של מכשירים סביבך, לעיתים קרובות באופן בלתי נראה, והופכים אותם לחכמים יותר. הנה כמה תחומים עיקריים שבהם NPUs ו-TPUs בקצה נמצאים בשימוש:

  • סמארטפונים וטאבלטים: כמעט כל הטלפונים המובילים המודרניים (ואפילו רבים מהטלפונים הבינוניים) כוללים כיום NPU או מנוע AI ייעודי. אפל החלה את המגמה ב-2017 עם Apple Neural Engine בשבב A11 של האייפון, שאיפשר Face ID ו-Animoji במכשיר עצמו על ידי ביצוע עד 600 מיליארד פעולות לשנייה apple.fandom.com. כיום, שבב A17 Pro של אפל (2023) כולל מנוע נוירוני בעל 16 ליבות המסוגל לבצע 35 טריליון פעולות בשנייה apple.fandom.com. זה מניע תכונות כמו זיהוי סצנות מתקדם במצלמה, סגנונות צילום, פקודות קוליות של Siri המעובדות ללא חיבור לאינטרנט, תיקון אוטומטי, תמלול חי, ואפילו הרצת מודלים של טרנספורמר לתרגום במכשיר עצמו. גם הטלפונים של גוגל פיקסל כוללים סיליקון ייעודי ("Google Tensor" SoCs) עם NPU: ה-Tensor G3 החדש בפיקסל 8 "עוצב במיוחד להריץ את מודלי ה-AI של גוגל", ושודרג בכל חלקי השבב (CPU, GPU, ISP) כדי לסלול את הדרך לAI גנרטיבי במכשיר עצמו blog.google. פיקסל 8 יכול להריץ את מודלי הטקסט לדיבור והתרגום המתקדמים של גוגל מקומית, אותם מודלים שבעבר היו מוגבלים לשרתים מרכזיים blog.google. הוא גם מבצע טריקים מורכבים במצלמה כמו "Best Take" לאיחוד תמונות קבוצתיות ו-Audio Magic Eraser באמצעות מערך מודלי AI במכשיר עצמו blog.google. סמסונג ויצרניות אנדרואיד אחרות משתמשות בשבבי Snapdragon של קוואלקום, ש-NPU העדכני שלהם (Hexagon AI engine) מסוגל אפילו להריץ מודלים שפתיים גדולים בטלפון – קוואלקום הדגימה הרצה של מודל LLM עם 10 מיליארד פרמטרים ואפילו יצירת תמונות עם Stable Diffusion בטלפון עם Snapdragon 8 Gen 3 futurumgroup.com. מנוע ה-AI של השבב הזה מהיר ב-98% מהדור הקודם ותומך בדיוק INT4 ליעילות futurumgroup.com. המשמעות המעשית: הטלפון שלך ב-2024 יכול לעשות דברים כמו סיכום מאמרים, מענה על שאלות או עריכת תמונות עם AI בלי צורך בענן. אפילו תכונות של נגישות מרוויחות: לדוג' טלפוני פיקסל כוללים כיום הקלדה קולית במכשיר, כתוביות חיות, ותכונה עתידית לתיאור תמונות לעיוורים באמצעות מודל מקומי.
  • מצלמות חכמות ומערכות אבטחה: מצלמות מבוססות בינה מלאכותית משתמשות ב-NPU מובנה כדי לזהות אנשים, פנים, בעלי חיים או התנהגות חשודה באופן מיידי. לדוגמה, מצלמות האבטחה החדשות של EnGenius כוללות NPU מובנה שמבצע זיהוי אובייקטים וממיר וידאו למטא-דאטה ישירות במצלמה, ובכך מבטל את הצורך במקליט וידאו נפרד ומגביר את האבטחה (מכיוון שניתן לנתח ולאחסן את הווידאו מקומית) engeniustech.com. המשמעות היא שמצלמת האבטחה שלך יכולה להחליט "יש אדם נוכח" או "החבילה נמסרה" ולשלוח רק את ההתראה הזו, במקום להזרים שעות של וידאו לשירות ענן. באופן דומה, מכשירים לצרכן כמו Google Nest Cam IQ כללו שבב עיבוד תמונה במכשיר (Google Edge TPU) כדי לזהות פנים מוכרות ולהבדיל בין בני אדם לבעלי חיים בשדה הראייה שלה. גם מצלמות DSLR ומצלמות מירורלס מוסיפות מעבדי בינה מלאכותית לדברים כמו מעקב אחר נושא, פוקוס אוטומטי לעיניים ואופטימיזציה של סצנה בזמן אמת. ברחפנים, שבבי בינה מלאכותית מובנים מסייעים בהימנעות ממכשולים וניווט חזותי ללא צורך בשליטה מרחוק. ראוי לציין כי Google’s Edge TPU (מודול ASIC זעיר) הפך לתוספת פופולרית למצלמות IoT תעשייתיות ו-DIY – הוא מספק 4 TOPS של עיבוד תמונה למשימות כמו זיהוי אנשים או קריאת לוחיות רישוי, תוך שימוש בכ-2 וואט בלבד coral.ai.
  • בית חכם ומכשירי IoT: מעבר לטלפונים, גאדג'טים רבים לבית החכם כוללים NPU קטן. רמקולים עם הפעלה קולית (Amazon Echo, Google Nest Hub וכו') כוללים כיום לעיתים קרובות שבבי זיהוי דיבור מקומי. אמזון פיתחה את AZ1 Neural Edge processor עבור מכשירי Echo כדי להאיץ את זיהוי מילת ההפעלה של Alexa ואת התגובות במכשיר עצמו, ובכך חותכת את זמן ההשהיה בחצי embedl.com. ה-AZ1 (שפותח עם MediaTek) מריץ רשת נוירונים שמזהה "Alexa" ומעבד פקודות פשוטות מבלי להגיע לענן embedl.com. זה לא רק גורם ל-Alexa להרגיש מהירה יותר, אלא גם שומר על פרטיות רבה יותר של נתוני הקול. באותו אופן, טלוויזיות חדשות רבות, מכשירי חשמל ואפילו צעצועים כוללים בינה מלאכותית בקצה – לדוגמה, מצלמה במקרר חכם יכולה לזהות מזון ותאריכי תפוגה באופן מקומי. לבישים ראויים גם הם לאזכור: שבב S9 של Apple Watch הוסיף מנוע נוירונים בעל 4 ליבות כדי להתמודד טוב יותר עם אלגוריתמים של בריאות ובקשות Siri על השעון apple.fandom.com. ובצד התעשייתי, חיישני IoT עם NPU יכולים לבצע זיהוי אנומליות בנתוני ציוד ישירות בקצה, ולסמן רק את האירועים הרלוונטיים למעלה (חוסך רוחב פס ומגיב מהר יותר לבעיות).
  • רכב (ADAS ואוטונומיה): מכוניות הפכו למרכזי בינה מלאכותית על גלגלים. מערכות סיוע מתקדמות לנהג (ADAS) ותכונות נהיגה אוטונומית מסתמכות על מערך מאיצי בינה מלאכותית מובנים כדי לפרש נתוני מצלמות, LiDAR, רדאר, ולקבל החלטות נהיגה בשבריר שנייה. טסלה פיתחה בעצמה את מחשב FSD (נהיגה אוטונומית מלאה) עם שני שבבי NPU. שבב ה-FSD של טסלה (HW3, הוצג ב-2019) סיפק 144 TOPS (שני NPU של 72 TOPS כל אחד); הדגם החדש יותר HW4 (2023) מעלה זאת לכ-200–250 TOPS בסך הכול (שני NPU ב-7nm עם מעל 100 TOPS כל אחד) ts2.tech. זה מאפשר לרכב לעבד וידאו ברזולוציה מלאה מ-8 מצלמות, סונאר ועוד, בו-זמנית דרך רשתות נוירונים לתפיסה ואפילו להריץ מודלים שפתיים לפקודות קוליות – הכל מקומית בתוך מודול הרכב. פלטפורמות מתחרות כמו NVIDIA Drive ו-Qualcomm Snapdragon Ride גם משלבות NPU. שבב הסופר-מחשב לרכב החדש ביותר של NVIDIA, Drive Thor, המתוכנן לרכבים של 2025, מתהדר בעד 1,000 TOPS על שבב אחד (ו-2,000 TOPS כאשר שניים מחוברים יחד) כדי לתמוך באוטונומיה רמה 4 ts2.tech. הוא משלב GPU, CPU ומאיצי למידה עמוקה ייעודיים כך שהוא יכול להתמודד עם הכל – מזיהוי תמרורים ועד ניטור נהג – על השבב עצמו ts2.tech. ה-NPU האלו מצילי חיים ממש: רכב אוטונומי לא יכול להמתין לשרתים בענן אם ילד רץ לכביש. הבינה המלאכותית המובנית חייבת לראות ולפעול תוך עשרות מילישניות. מעבר למכוניות פרטיות, יש גם שימוש נרחב בבינה מלאכותית בקצה ב-רחפנים אוטונומיים, רובוטי משלוחים ורכבים תעשייתיים שמנווטים ומקבלים החלטות עם NPU/TPU מובנים (למשל, רובוטי המשלוחים של Nuro ומערכות משאיות אוטונומיות רבות משתמשות בשבבי AI של NVIDIA או Huawei על גבי המכשיר).
  • מחשוב קצה ותעשייה: במפעלים ובסביבות ארגוניות, בינה מלאכותית על גבי המכשיר לרוב מתבצעת באמצעות שרתי קצה או שערי קצה עם מאיצי בינה מלאכותית. במקום לשלוח צילומי מצלמות או נתוני חיישנים לענן מרכזי, חברות מתקינות קופסאות קצה (לעיתים מבוססות GPU, לעיתים NPU/FPGA) באתר. אלה מטפלות במשימות כמו ניתוח וידאו בזמן אמת לבקרת איכות בקו ייצור, זיהוי פגמים באמצעות ראיית מכונה תוך אלפיות שנייה. מכשירים רפואיים הם דוגמה נוספת: אולטרסאונד נייד או MRI עשויים לכלול NPU לניתוח תמונה מבוסס בינה מלאכותית על גבי המכשיר, כך שרופאים מקבלים עזרה אבחנתית מיידית ללא צורך בחיבור לאינטרנט (מה שגם טוב יותר לפרטיות נתוני המטופל). קמעונאות וערים מפעילות גם הן בינה מלאכותית בקצה – לדוג' מצלמות תנועה חכמות עם NPU לניתוח עומסי תנועה והתאמת רמזורים, או מצלמות מדף בחנויות למעקב אחר מלאי. רבות מהן משתמשות ב-NPU ייעודיים כמו Movidius Myriad של אינטל, Edge TPU של גוגל, או שחקנים חדשים כמו Hailo-8 (NPU ישראלי שמספק 26 TOPS בכמה וואטים למצלמות). המכנה המשותף הוא שמאיצים אלה מאפשרים ניתוח מקומי, השגת תוצאות בזמן אמת והעברת תובנות ברמה גבוהה בלבד (ולא נתונים גולמיים) ברשתות.

הגמישות של NPU/TPU במגוון סוגי מכשירים מרשימה. רגע אחד הם מאפשרים לטלפון שלך לטשטש את הרקע בתמונה באמצעות בינה מלאכותית, וברגע הבא הם מנווטים רחפן או סורקים תמונות רפואיות. מצלמות סמארטפון משתמשות כיום ב-NPU לפיצ'רים כמו מצב לילה (איגום חכם של מספר פריימים), מצב פורטרט (bokeh), זיהוי סצנה (הטלפון מזהה שאתה מצלם "שקיעה" ומשפר צבעים באמצעות בינה מלאכותית), ואפילו לאפקטים AR מהנים (אנימוג'י שממפה את פניך, או פילטרים של סנאפצ'ט שעוקבים אחרי תנועותיך – הכל בזכות רשתות עצביות על גבי המכשיר). ביומטריה עושה שימוש ב-NPU: סורקי טביעות אצבע עם בינה מלאכותית לזיהוי חיות, פתיחת נעילה באמצעות פנים עם חיישני עומק ובינה מלאכותית. אודיו גם הוא משתמש בהם: ביטול רעשים באוזניות ובטלפונים כיום לרוב מונע בינה מלאכותית, כאשר NPU מפריד בין קול לרעש רקע בזמן אמת.

דוגמה קונקרטית לחדשנות ב-2024: Oppo (יצרנית הסמארטפונים), בשיתוף עם MediaTek, הודיעה כי יישמה מודל בינה מלאכותית מסוג Mixture-of-Experts (MoE) ישירות על גבי המכשיר בסוף 2024 – ככל הנראה הראשונה שעשתה זאת בטלפון grandviewresearch.com. ארכיטקטורת רשת עצבית מתקדמת זו (MoE) יכולה לשפר ביצועים על ידי הפעלת תת-רשתות "מומחים" רלוונטיות לכל משימה, וביצוע זאת על גבי המכשיר מאפשר לטלפונים של Oppo להשיג עיבוד בינה מלאכותית מהיר יותר ויעילות אנרגטית טובה יותר למשימות מורכבות, ללא צורך בענן grandviewresearch.com. זה מדגיש כיצד גם מחקרי בינה מלאכותית מתקדמים עושים את דרכם במהירות למכשירים הניידים שלנו בזכות NPU משופרים.

בתוך שבבי הבינה המלאכותית של 2025: ההתפתחויות האחרונות מאפל, גוגל, קוואלקום ועוד

המרוץ לבניית חומרת בינה מלאכותית טובה יותר על גבי המכשיר התגבר במהירות. הנה מבט על מה שחברות גדולות השיקו לאחרונה (2024–2025) בתחום NPU/TPU ושבבי בינה מלאכותית:

  • Apple: אסטרטגיית השבבים הייעודיים של אפל שמה דגש רב על למידת מכונה במכשיר עצמו. מדי שנה, מנוע ה-Neural של אפל הולך ומתחזק. באייפון 15 פרו של 2023, מנוע ה-Neural של שבב A17 Pro הגיע ל-35 TOPS (טריליון פעולות בשנייה) עם 16 ליבות apple.fandom.com. זה היה כפול מהתפוקה הגולמית של ה-NPU של ה-A16, ואפל השתמשה בכך כדי לאפשר תכונות כמו זיהוי דיבור במכשיר עבור סירי (סוף סוף עיבוד של בקשות רבות של סירי ללא אינטרנט) ויכולות מצלמה חדשות (כמו מצב פורטרט שמצולם אוטומטית, ותרגום טקסט חי דרך המצלמה). השבבים של אפל ב-2024 המשיכו את המגמה: משפחת M3 למחשבי מק (סוף 2023) קיבלה מנוע Neural מעודכן (אם כי מכוון ל-18 TOPS בשבב M3 הבסיסי, עם דגש על יעילות) apple.fandom.com. ב-2024, אפל הציגה את שבב M4 (לאייפדים/מקים מתקדמים, אמצע 2024) שלפי הדיווחים העלה את מנוע ה-Neural ל-38 TOPS בתהליך 3 ננומטר משופר apple.fandom.com. מעבר למספרים, אפל משתמשת ב-NPU הזה: תכונות כמו Personal Voice (שיוצרת שיבוט של קול המשתמש לאחר 15 דקות של אימון) רצות באופן פרטי על מנוע ה-Neural באייפונים, ו-תמלול Live Voicemail מתבצע מקומית. אפל גם שילבה NPU בכל קטגוריות המכשירים שלה – אפילו ב-AirPods Pro יש שבב Neural קטן עבור Adaptive Audio. מנהלי אפל מדגישים לעיתים קרובות את זווית הפרטיות: "למידת מכונה על המכשיר שלך" משמעה שהנתונים שלך נשארים אצלך. עד 2025, אנו מצפים שמנוע ה-Neural של אפל יתרחב עוד או יהפוך לזמין לאפליקציות צד שלישי בדרכים חדשות (כבר היום Core ML מאפשר למפתחים להשתמש בו, אך אפל עשויה לפתוח גישה רחבה יותר ל-API הנוירלי). יש גם שמועות שאפל מעצבת מאיץ AI עצמאי למשקפיים או רכבים עתידיים, אך המוצרים הנוכחיים מראים שהם מעדיפים NPU משולב ב-SoC מסדרת A ו-M.
  • Google: גוגל לא רק הייתה חלוצה בתחום ה-TPU בענן, אלא גם השקיעה רבות ב-בינה מלאכותית על גבי המכשיר עבור טלפוני פיקסל ומכשירי צריכה. ה-Google Tensor SoC (שהוצג לראשונה ב-2021 ב-Pixel 6) היה ייחודי בכך שגוגל, הידועה בענן, יצרה שבב טלפון להרצת בינה מלאכותית על גבי המכשיר. ב-Tensor G3 (ב-Pixel 8 של 2023), גוגל הדגישה שדרוגים שמאפשרים בינה מלאכותית גנרטיבית על גבי המכשיר. גוגל אף אמרה במפורש ששבב ה-Pixel 8 מביא "את מחקר הבינה המלאכותית של גוגל ישירות לטלפונים החדשים ביותר שלנו" blog.google. ה-TPU מהדור הבא של Tensor G3 (גוגל עדיין מכנה את ליבת הבינה המלאכותית "TPU" פנימית) מאפשר ל-Pixel להריץ מודלים מתקדמים כמו Palm 2 או Gemini Nano (גרסאות רזות של מודלי השפה הגדולים של גוגל) על גבי המכשיר, עבור תכונות כמו סיכום אתרים או שיפור הקלדה קולית reddit.com. תכונה בולטת: Pixel 8 יכול להריץ את מודל ההמרה מטקסט לדיבור הטוב ביותר של גוגל (זה שבשימוש במרכזי הנתונים) באופן מקומי, מה שמאפשר לטלפון להקריא דפי אינטרנט בקולות טבעיים ואפילו לתרגם אותם בזמן אמת, הכל ללא חיבור לאינטרנט blog.google. גוגל גם עושה שימוש ב-TPU ב-Pixel לצילום ("HDR+" עיבוד תמונה מרובה פריימים, מחיקת אובייקטים Magic Eraser באמצעות השלמת תמונה בינה מלאכותית blog.google), לאבטחה (זיהוי פנים על גבי המכשיר באמצעות בינה מלאכותית, שנחשב כעת חזק מספיק לתשלומים blog.google), ולדיבור (ה-Assistant שלא מפריע לו שתגיד "אממ"). מעבר לטלפונים, גוגל מציעה את Coral Dev Board ומקל USB לחובבים ועסקים להוספת Edge TPU לפרויקטים שלהם, כל אחד מהם מכיל את Edge TPU של גוגל שמספק 4 TOPS למשימות ראייה בהספק נמוך מאוד coral.ai. הוא נמצא בשימוש גם בחלק ממוצרי גוגל עצמה, כמו Nest Hub Max לזיהוי מחוות. עבור גוגל, שילוב TPU בקצה הוא חלק מאסטרטגיה רחבה יותר: סונדר פיצ'אי (מנכ"ל גוגל) אמר שעתיד הבינה המלאכותית הוא להעצים כל חוויה, וברור שגוגל רואה ש-"כדי להביא את הכוח הטרנספורמטיבי של בינה מלאכותית לחיי היומיום, צריך לגשת אליו מהמכשיר שבו אתה משתמש כל יום" blog.google – ומכאן שבבי Tensor. אפשר לצפות ל-Tensor G4 בסוף 2024 בטלפוני Pixel, אולי על בסיס תהליך ייצור חדש של סמסונג או TSMC, שישפר עוד את ביצועי ויעילות הבינה המלאכותית, ואולי אף יאפשר בינה מלאכותית מולטימודלית על גבי המכשיר (שילוב מודלי ראייה+שפה).קוולקום: ספקית השבבים המובילה לטלפונים מבוססי אנדרואיד דחפה באגרסיביות את AI Engine שלה בסדרת Snapdragon. ה-Snapdragon 8 Gen 2 (סוף 2022) הציג תמיכה ייעודית ב-INT4 והדגים יצירת תמונות Stable Diffusion בזמן אמת על טלפון. ה-Snapdragon 8 Gen 3 (הוכרז בסוף 2023, במכשירי הדגל של 2024) הוא קפיצה משמעותית: קוולקום טוענת ש-Hexagon NPU שלה מהיר ב-98% מזה של Gen 2 ויעיל ב-40% יותר בצריכת חשמל futurumgroup.com. שבב זה מסוגל להריץ מודלים שפתיים גדולים עם עד 10 מיליארד פרמטרים – כולו על המכשיר, בעיבוד של כ-20 טוקנים לשנייה – מספיק לשיחות פשוטות עם עוזר בינה מלאכותית ללא ענן futurumgroup.com. הוא גם השיג את "ה- Stable Diffusion המהיר בעולם" ליצירת תמונות על מכשיר נייד בהדגמות futurumgroup.com. קוולקום מדגישה שבינה גנרטיבית על המכשיר היא נקודת מכירה מרכזית לטלפונים חדשים. לדוגמה, הם שיתפו פעולה עם Meta לאופטימיזציה של מודל השפה הפתוח Llama 2 עבור Snapdragon, במטרה לאפשר הרצת צ'אטבוט בינה מלאכותית על הטלפון עד 2024 iconnect007.com. (בכיר בקוולקום אמר: "אנו מברכים על הגישה הפתוחה של Meta… כדי להרחיב את הבינה הגנרטיבית, היא חייבת לרוץ גם בענן וגם בקצה", מחזק את פילוסופיית ה-edge AI iconnect007.com.) מעבר לטלפונים, קוולקום משלבת NPU גם בשבבי מחשבים ניידים (פלטפורמות Snapdragon למחשבי Windows על ARM) – ופלטפורמת הרכב שלהם Snapdragon Ride משתמשת באותם ליבות בינה מלאכותית כדי להציע עד 30 TOPS ל-ADAS, עם מפת דרכים למאות TOPS. ב-2025, קוולקום אף הכריזה על מעבד Snapdragon X Elite חדש למחשבים אישיים הכולל NPU חזק, מה שמאותת על כוונה לאתגר את אפל ואינטל בביצועי בינה מלאכותית במחשבים אישיים. עם עליית הבינה המלאכותית על המכשיר, קוולקום אף ממותגת חלק מהטלפונים כ"טלפונים עם בינה מלאכותית". הם צופים שרבות מהאפליקציות (מצילום ועד מסרים ופרודוקטיביות) ינצלו את ה-NPU. בצד התוכנה, קוולקום שחררה את Qualcomm AI Stack כדי לאחד תמיכה במסגרות פופולריות (TensorFlow Lite, PyTorch, ONNX) על גבי ה-NPU שלהם iconnect007.com – במטרה להקל על מפתחים להשתמש בחומרת הבינה המלאכותית מבלי להידרש לידע עמוק בשבבים.MediaTek: יצרנית השבבים הסלולריים מספר 2 (מוכרת מסדרת Dimensity) שדרגה גם היא את יחידות ה-NPU שלה. MediaTek מכנה את מנועי ה-AI שלה "APU" (יחידת עיבוד בינה מלאכותית). לדוגמה, ה-Dimensity 9200+ (2023) כולל APU מהדור השישי עם שיפור ביצועים משמעותי לעומת השבב הקודם, מה שמאפשר תכונות כמו stable diffusion על המכשיר והפחתת רעשי AI בווידאו. בשנת 2024, MediaTek הכריזה על Dimensity 9400, ובשיתוף פעולה עם Oppo, השתמשה בארכיטקטורת ה-NPU המתקדמת שלה כדי להציג תכונות AI חדשות (כפי שצוין, שיחזור תמונות AI של Oppo Find X8 עם הסרת השתקפויות ו-חידוד תמונה מטושטשת מופעל על ידי ה-NPU של MediaTek) mediatek.com. בכירים ב-MediaTek מציבים את עצמם במפורש בחזית ה-AI על גבי המכשיר. כפי שאמר וויל צ'ן מ-MediaTek, "העתיד של הבינה המלאכותית חורג מהענן; הוא מונע על ידי מחשוב קצה היישר מכף ידך." לדעתם, AI בטלפונים חייב להיות מהיר, פרטי, מאובטח ונגיש תמיד mediatek.com. MediaTek אף יצרה שיתוף פעולה "APU-centric" עם Meta לתמיכה במסגרת Llama ועם יצרניות מכשירים כמו Oppo ו-Xiaomi המתמקדות בתכונות מצלמת AI ו-AI קולית. עד 2025, MediaTek מתכננת להטמיע את יחידות ה-NPU הללו לא רק בטלפונים, אלא גם ב-טלוויזיות חכמות (לשיפור תמונה והגדלת רזולוציה באמצעות AI), מכשירי IoT, ואפילו ברכבים (ל-MediaTek פלטפורמת AI לרכב והיא שיתפה פעולה עם Nvidia לשילוב טכנולוגיית GPU של Nvidia ברכבים, תוך הנחה שהיא מספקת את ה-NPU שלה ל-AI של חיישנים).אינטל: 2024 סימנה את כניסתה של אינטל למאיצי בינה מלאכותית במחשבים אישיים מהזרם המרכזי. הדור ה-14 של מעבדי Core של אינטל (Meteor Lake, הושק בדצמבר 2023 ומותג מחדש כ-Core Ultra ב-2024) הוא מעבד ה-x86 הראשון למחשבים אישיים עם יחידת עיבוד עצבי (NPU) מובנית. ה-NPU של Meteor Lake (המכונה לעיתים VPU – Vision Processing Unit – המבוסס על טכנולוגיית Movidius של אינטל) מספק כ-8–12 TOPS של ביצועי בינה מלאכותית pcworld.com. זה משמש להאצת תכונות הבינה המלאכותית של Windows 11 כמו טשטוש רקע, יצירת קשר עין בשיחות וידאו, ויכול לשמש אפליקציות לדברים כמו תמלול מקומי, סינון רעשים, או אפילו עוזרים חכמים קטנים. מיקרוסופט ואינטל דוחפות יחד את רעיון "מחשב הבינה המלאכותית". אינטל טוענת ש-NPU כאלה יישלחו בעשרות מיליוני מחשבים ניידים ב-2024 pcworld.com. לאחר Meteor Lake, מפת הדרכים של אינטל מזכירה את Arrow Lake (למחשבים שולחניים ב-2024) שגם הוא כולל NPU (כ-13 TOPS, שיפור קל) pcworld.com. מעניין לציין שניסיון הבכורה של אינטל ב-NPU שולחני למעשה הושג על ידי AMD (ראו בהמשך), ואינטל בחרה בעיצוב NPU צנוע כדי לא להקריב שטח GPU/CPU בשבבים לחובבים pcworld.com. אך בסוף 2024, אינטל רמזה כי שבבי Lunar Lake העתידיים יכללו NPU חזק בהרבה (~45 TOPS) כדי לעמוד בדרישות "Copilot" של מיקרוסופט pcworld.com. כל זה מצביע על כך שאינטל רואה בבינה מלאכותית מרכיב הכרחי במחשבים אישיים בעתיד – לא לאימון מודלים ענקיים, אלא להאצת חוויות יומיומיות מבוססות בינה מלאכותית (משיפורים בחבילת האופיס ועד כלים יצירתיים המשתמשים בבינה מלאכותית מקומית). אינטל גם מוכרת מאיצי בינה מלאכותית לקצה כמו שבבי Intel Movidius Myriad (המשמשים ברחפנים, מצלמות מסוימות) ואת מאיצי Habana לשרתים, אך ה-NPU המשולב של Meteor Lake הוא אבן דרך שמביאה בינה מלאכותית למכשיר הצרכני הממוצע.AMD: AMD נכנסה לתחום ה-AI על גבי המכשיר בערך באותו הזמן. מעבדי הלפטופ מסדרת Ryzen 7040 (Phoenix) שהושקו ב-2023 כללו את Ryzen AI Engine הראשון – למעשה NPU משולב מסוג XDNA (טכנולוגיה שנרכשה עם Xilinx של AMD). ה-NPU הזה סיפק עד 10 TOPS בשבב הנייד en.wikipedia.org. AMD הציגה מקרי שימוש כמו שיחות וידאו משופרות ב-AI, אפליקציות פרודוקטיביות ועוד, בדומה למטרות של אינטל. לאחר מכן השיקה AMD לזמן קצר סדרת דסקטופ Ryzen 8000 (תחילת 2024) עם NPU שהגיע ל-39 TOPS – מספר גבוה מאוד ליחידת AI במעבד כללי, ואפילו עוקף את התוכניות של אינטל pcworld.com. עם זאת, AMD שינתה כיוון במהירות ודילגה על דור, תוך התמקדות בארכיטקטורה הבאה שלה (ה-Ryzen 9000 הבא בסוף 2024 ויתר על ה-NPU לטובת שדרוגי ליבות) pcworld.com. למרות זאת, מצפים ש-AMD תחזיר את ה-NPU בשבבי PC עתידיים (ככל הנראה מדובר בנסיגה זמנית בזמן שהם עובדים על שילוב מנוע AI חזק מבלי לפגוע בביצועים אחרים). בצד המוצר, ה-NPU של AMD עשוי לאפשר דברים מעניינים שכן ל-AMD יש גם כרטיסי מסך חזקים – השילוב יכול להתמודד עם עומסי עבודה של AI בשיתוף פעולה (חלק על ה-NPU, חלק על ה-GPU). AMD גם משלבת ליבות AI ב-SoC אדפטיביים (מבוססי FPGA) ובשבבים לרכב. לסיכום, עד 2025 כל יצרניות שבבי ה-x86 למחשבים אימצו NPU, בדומה למה שסמארטפונים עשו כמה שנים קודם לכן, מה שמצביע על כך ש-האצת AI הופכת לתכונה סטנדרטית בכל התחום.
  • אחרים: מגוון חברות שבבים מתמחות וחברות טכנולוגיה נוספות מחדשות גם הן בתחום ה-NPU. NVIDIA, הידועה ב-GPU שלה, כוללת כיום Tensor Cores ייעודיים ב-GPU שלה ומציעה עיצוב NVDLA פתוח (מאיץ למידת עומק) לשילוב במוצרי System-on-Chip. במכשירי קצה כמו סדרת NVIDIA Jetson (בשימוש ברובוטים, רחפנים, מערכות משובצות), יש גם GPU וגם “DLA” ייעודיים – שהם למעשה NPU – שמבצעים חלק מהסקת המסקנות של רשתות נוירונים במקום ה-GPU. לדוגמה, מודול Orin של NVIDIA כולל 2 DLA בנוסף ל-GPU, ותורם ל-254 TOPS של ביצועי AI לרכבים ts2.tech. Apple על פי שמועות עובדת על קו-מעבדי AI מתקדמים אף יותר או מנועי נוירונים גדולים יותר למשקפי AR או פרויקטים עתידיים, אך הפרטים חסויים. Huawei (למרות אתגרים גיאופוליטיים) ממשיכה לעצב שבבי Kirin עם NPU (ארכיטקטורת ה-NPU “DaVinci” שלהם) וגם NPU ברמת שרת בשבבי Ascend AI – שבב Kirin 9000S שלהם מ-2023 כולל לפי הדיווחים NPU חזק למשימות תמונה ושפה בטלפונים שלהם. אנו רואים גם סטארטאפים כמו Hailo, Mythic, Graphcore ואחרים שמציעים שבבי AI לקצה משלהם: למשל Hailo-8 שהוזכר (26 TOPS בכרטיס mini PCIe למצלמות AI), ה-IPU של Graphcore למרכזי נתונים (לא בדיוק על המכשיר, אך ארכיטקטורה חדשה לרשתות נוירונים), Mythic שעובדת על NPU אנלוגי, ועוד. ARM, שעיצוביה מהווים את הבסיס לרוב שבבי המובייל, מציעה את סדרת Ethos NPU (כמו Ethos-U, Ethos-N78) שחברות שבבים יכולות לשלב כדי לקבל מאיץ AI מוכן ל-IoT או SoC בטווח הביניים. זה איפשר גם לשחקנים קטנים יחסית לכלול NPU בשבבים שלהם על ידי רישוי העיצוב של ARM.

בשורה התחתונה, מהחברות הגדולות ועד הסטארטאפים, כולם משקיעים בסיליקון AI על המכשיר. כתוצאה מכך, אנו רואים שיפורים מהירים: שבבים חדשים עם TOPS גבוה יותר, יעילות טובה יותר (TOPS לוואט), ותמיכה בסוגי נתונים חדשים (כמו קוונטיזציה של 4 ביט למודלים גדולים יותר). לדוגמה, השבבים האחרונים של Qualcomm ו-MediaTek יכולים להריץ דיוק INT4, שמתאים במיוחד למודלי AI גנרטיביים שבהם רוחב הפס של הזיכרון הוא מגביל androidauthority.com. החידושים האלו מתורגמים ישירות לתועלת למשתמש – למשל עריכת וידאו AI בזמן אמת במובייל (הסרת אובייקטים מווידאו 4K תוך כדי תנועה, כפי ש-Snapdragon 8 Gen 3 יודע לעשות עם תכונת ה-AI “Video Object Eraser” futurumgroup.com), או קופרסורים של AI ברכבים שמאפשרים עוזרי קול שפועלים ללא רשת ומגיבים במהירות שיחה אנושית.

חדשות מרכזיות מ-2024–2025: השקות, מדדים ושותפויות

כדי להמחיש עד כמה הדברים מתקדמים במהירות, הנה כמה אירועים מרכזיים בעולם ה-NPU/TPU ו-AI על המכשיר מסוף 2024 ועד 2025:

  • ההשקות של Apple M3 ו-M4 (אוקטובר 2023 ומאי 2024): הביאו מנועי ניורון מהדור הבא. מנוע הניורון של M3 מבצע 18 TOPS (16 ליבות), וה-M4 קפץ ל-38 TOPS (עדיין 16 ליבות אך עם תדר/יעילות גבוהים יותר) apple.fandom.com. אפל הדגימה את השבבים הללו מבצעים משימות אינטנסיביות כמו יצירת תמונות Stable Diffusion על המכשיר ב-macOS (עם Core ML Stable Diffusion, מפתחים הראו כ-15 שניות ליצירת תמונה על M2 – אפילו מהר יותר על M3/M4).
  • השקת Google Pixel 8 (אוקטובר 2023): הדגישה בינה מלאכותית "בכל מקום" במכשיר. באירוע של גוגל הודגם סיכום דפי אינטרנט ותרגום חי של מאמרים על המכשיר באמצעות Tensor G3 NPU. הוצג גם "Assistant with Bard" שעתיד להריץ חלק מהאינטראקציות על המכשיר. גוגל הדגישה כי Pixel 8 מסוגל להריץ פי 2 יותר מודלים על המכשיר לעומת Pixel 6, ומודלים מתקדמים בהרבה blog.google. במילים אחרות, קפיצה ענקית בשנתיים בלבד של פיתוח שבבי Tensor.
  • שיתוף פעולה Qualcomm–Meta (יולי 2023): קוואלקום ומטה הודיעו כי הן ממטבות את מודל השפה הגדול Llama 2 של Meta לריצה מלאה על Snapdragon NPUs עד 2024 iconnect007.com. המטרה היא לאפשר למפתחים להפעיל צ'אטבוטים ואפליקציות ג'נרטיב AI על טלפונים, משקפי VR, מחשבים ועוד – ללא ענן. זה היה אישור משמעותי ל-AI על המכשיר מצד בעלת מודל AI גדולה (Meta) ויצרנית שבבים גדולה. בסוף 2024, הן המשיכו עם תוכניות למיטוב Llama 3 גם כן qualcomm.com.
  • מחשבי Microsoft Windows 11 "Copilot" (2024): מיקרוסופט קבעה רף לפיו מחשבים עם יותר מ-40 TOPS של האצת AI מקומית ייחשבו "מחשבי AI" הזכאים לתכונות AI מתקדמות (כמו אינטגרציית העוזר הדיגיטלי Copilot). זה דחף יצרניות כמו לנובו, דל ואחרות לאמץ שבבים עם NPU (אינטל, AMD או קוואלקום) כדי לעמוד בדרישה. התוצאה היא גל של מחשבים ניידים עם יכולות AI הצפוי ב-2024, כאשר מיקרוסופט טוענת לעשרות דגמים בדרך ומעריכה מעל 40 מיליון משלוחים של מחשבי AI ב-2024 pcworld.com.
  • NPU של AMD בסדרת Ryzen 8000 (ינואר 2024): AMD הכריזה על מעבד שולחני עם NPU עוצמתי של 39 TOPS (הפתעה, כי לרוב למעבדי שולחן עבודה אין מאיצים כאלה) pcworld.com. למרות שמוצר זה הוחלף במהירות, הוא הראה שגם למעבדי שולחן עבודה יכולים להיות רכיבי AI שמגיעים לביצועים של שבבים ניידים ב-TOPS. זה גם היה מעבד ה-x86 השולחני הראשון עם NPU (והקדים במעט את Intel Arrow Lake).
  • הדגמות Tesla FSD Beta v12 (סוף 2023): אילון מאסק הציג נהיגה מבוססת AI מקצה-לקצה (ללא רדאר, רק רשתות ראייה) שרצה על NPU של HW3/HW4 של טסלה. היה בולט שהרשת העצבית ניהלה את הנהיגה באמצעות עיבוד וידאו בזמן אמת על מחשב הרכב בלבד. משקיפים ציינו ש-FSD v12 ניצל במלואו את שני ה-NPU של 100 TOPS לראייה, וטסלה רמזה על שדרוג עתידי (HW5) שמכוון ל-2000 TOPS שעשוי להיות בפיתוח כדי להתמודד עם מודלים גדולים אף יותר (היו שמועות ש-HW5 של טסלה עשוי לכוון ל-2 petaFLOPS = 2000 TOPS) notateslaapp.com.
  • NVIDIA Drive Thor נחשף (GTC 2024): NVIDIA חשפה פרטים על שבב הרכב הבא שלה, Drive Thor, שמספק פי 2 עוצמת AI מהדור הקודם Orin – עד 2000 TOPS כאשר מחברים שני שבבים ts2.tech. באופן משמעותי, Thor מיועד לא רק למשימות נהיגה אלא גם ל-AI בתא הנוסעים (כמו זיהוי קול ומעקב אחרי נוסעים) בפלטפורמה אחת, ומדגים כיצד NPU ו-GPU יחד יכולים לאחד פונקציות AI רבות ברכב ts2.tech. מספר יצרניות רכב (Xpeng, BYD, Volvo) הודיעו שישתמשו ב-Thor מ-2025 ts2.tech.
  • מודל MoE של Oppo על המכשיר (אוקטובר 2024): כפי שצוין, Oppo יישמה מודל Mixture-of-Experts על מכשיר Find X8 grandviewresearch.com. זה ראוי לציון כי מודלים כאלה בדרך כלל גדולים ונחשבו לכאלה שרצים רק בשרתים בשל המורכבות. הרצה של MoE על המכשיר מרמזת על טכניקות חדשות בדחיסת מודלים ו-NPU חזק במיוחד (כנראה MediaTek Dimensity 9400 במכשיר הזה).
  • משקפי ה-AI של Ray-Ban מבית Meta (2025): (צפוי) Meta הציגה אבות-טיפוס של משקפיים חכמים שיכולים לזהות מה שאתה רואה ולדבר איתך על כך – כנראה באמצעות מאיץ ייעודי מובנה (Meta מפתחת סיליקון ייעודי ל-AR). למרות שהפרטים דלים, זה מדגיש את הדחיפה להכניס AI למכשירים מאוד מוגבלים (משקפיים, אוזניות עם סוללה) – מה שמצריך NPU-ים יעילים במיוחד.
  • מדדי MLPerf Mobile Inference (2023–24): MLCommons פרסמה תוצאות שמראות את עוצמת ה-AI של הסמארטפונים העדכניים. לדוגמה, ב-MLPerf Inference v3.0 (אוקטובר 2023), ערכו בדיקות ל-Apple A16, Google Tensor G2 ו-Qualcomm Gen 2 במשימות כמו סיווג תמונות וזיהוי עצמים. המספרים הראו ש-Apple ו-Qualcomm מחליפות ניצחונות, אך באופן כללי ה-NPU-ים במובייל מצמצמים פערים מול מאיצים ברמת לפטופ/דסקטופ למשימות אלו – והכול על סוללה. זה גם הדגיש הבדלים בתוכנה (למשל, Qualcomm’s AI SDK לעומת Apple Core ML). ה-שיפורים המתמשכים בכל שנה (עלייה באחוזים דו-ספרתיים) במדדים אלו מדגימים את התחרות הבריאה וההתקדמות המהירה ב-AI על המכשיר.
  • שיתופי פעולה אסטרטגיים: נוצרו שיתופי פעולה חוצי-תעשייה רבים. לדוגמה, NVIDIA ו-MediaTek (מאי 2023) הודיעו על שיתוף פעולה לשילוב טכנולוגיית GPU של Nvidia ואקוסיסטם התוכנה שלה בשבבים עתידיים של MediaTek לסמארטפונים ולרכב, ובכך מחברים את חוזקות ה-AI של Nvidia עם המומחיות של MediaTek ב-SoC למובייל. בנוסף, חברות כמו Qualcomm משתפות פעולה עם יצרניות רכב (מרצדס, BMW) לשילוב פלטפורמות Snapdragon Cockpit ו-Ride (עם NPU-ים) ברכבים חדשים עבור תכונות AI. Arm משתפת פעולה עם Fujitsu ואחרים לעיצובי שבבי AI חדשים (כמו מחיצת ה-AI של הסופר-מחשב Fugaku, אם כי זה קצה עליון). אפילו IBM וסמסונג רמזו על טכנולוגיות שבבים חדשות (כמו מחשוב נוירומורפי וזיכרון AI) שעשויות בעתיד לשנות את תחום ה-NPU – עדיין לא כאן, אבל מראות שצינור המחקר מלא.

בסך הכול, השנה האחרונה הייתה עמוסה בהתפתחויות, ומדגישה ש-AI על המכשיר הוא אחד התחומים החמים בטכנולוגיה. כפי שאמר אנליסט תעשייה: "היכולות האלו על המכשיר פותחות אופקים חדשים לגמרי… הרצת LLM-ים על מובייל עוזרת להתמודד עם קנה מידה ועלות, שומרת על פרטיות הנתונים, ומבטיחה ש-AI יעבוד גם עם קישוריות מוגבלת" futurumgroup.com. זה די מסכם למה כל חברת טכנולוגיה גדולה משקיעה כאן.

תובנות מומחים: מה אומרים מובילי טכנולוגיה על AI על המכשיר

המומנטום מאחורי NPU ו-TPU לא מתבטא רק במוצרים אלא גם בדברי מובילי התעשייה. הנה כמה ציטוטים ונקודות מבט שממחישים את חשיבות ה-AI על המכשיר:

  • קריסטיאנו אמון (מנכ"ל קוואלקום): "אם הבינה המלאכותית עומדת להגיע להיקפים גדולים, תראו אותה פועלת על מכשירים… זהו רגע מפנה בבינה המלאכותית: בלי בעיות השהיה — רק הסקה חלקה, מאובטחת, משלימה את הענן ומבוססת מכשיר. עתיד הבינה המלאכותית הוא אישי, והוא מתחיל במכשיר שלך." (ראיון ל-Bloomberg ופוסט ב-X, 2023) x.com. אמון מדמיין עולם בינה מלאכותית היברידי שבו הטלפון/מחשב שלך מבצע הרבה בעצמו על גבי NPU, ועובד עם הענן כשצריך. הוא מדגיש שהרצת בינה מלאכותית מקומית היא המפתח להפיכתה לנפוצה (אי אפשר להסתמך רק על GPU בענן – אין מספיק מהם בעולם למיליארדי מכשירים).
  • דורגה מאלדי (סגן נשיא בכיר, קוואלקום): "אנחנו משבחים את הגישה של מטא לבינה מלאכותית פתוחה ואחראית… כדי להרחיב את הבינה המלאכותית הגנרטיבית למיינסטרים, היא תצטרך לפעול גם בענן וגם על מכשירים בקצה." iconnect007.com מאלדי אמר זאת בהקשר לשותפות עם מטא. זה מדגיש תפיסה רווחת: הרחבת הבינה המלאכותית = ענן + קצה עובדים יחד. כיום מבינים שבינה מלאכותית מבוססת ענן בלבד לא תספיק (מסיבות של עלות, פרטיות והשהיה), ולכן בינה מלאכותית בקצה חייבת לחלוק את העומס.
  • וויל צ'ן (סגן מנכ"ל, מדיה-טק): "עתיד הבינה המלאכותית חורג מהענן; הוא מונע על ידי מחשוב קצה היישר מכף ידך… OPPO ומדיה-טק פורצות דרך בבינה מלאכותית על גבי מכשיר, ומבטיחות יכולות חכמות שהן עוצמתיות, מהירות, פרטיות, מאובטחות ונגישות תמיד." (MediaTek Exec Talk, 2025) mediatek.com. הציטוט הזה מסכם היטב את הערך של בינה מלאכותית על גבי מכשיר – מקבלים ביצועים ונגישות פלוס פרטיות ואבטחה. זה גם מראה שגם חברות שפחות מוכרות במערב (כמו מדיה-טק) חושבות בחזית החדשנות של פריסת בינה מלאכותית.
  • ד"ר נורמן וונג (מומחה חומרה לבינה מלאכותית, מנכ"ל סטארט-אפ שבבים): "בחומרת בינה מלאכותית, ככל שתוכל לקרב את החישוב למקור הנתונים – כך טוב יותר. זה עניין של הפחתת תנועת נתונים. NPU ליד חיישן התמונה שלך אומר שאתה לא שולח מגה-פיקסלים לענן – אתה מפיק תובנות ממש בקצה. זה משנה משחק מבחינת השהיה וצריכת חשמל." (פאנל ב-HotChips 2024 – מנוסח מחדש). התובנה הטכנית הזו מסבירה מדוע NPU יושב לעיתים קרובות על אותו סיליקון עם רכיבים אחרים: למשל, ב-SoC של טלפון, ה-NPU יכול לגשת ישירות לנתוני המצלמה מה-ISP. מזעור תנועת נתונים הוא חלק עצום מיעילות בינה מלאכותית, ובינה מלאכותית בקצה משיגה זאת על ידי עיבוד במקור של הנתונים.
  • שינז'ו וו (סגן נשיא תחום רכב, NVIDIA): "מחשוב מואץ הוביל לפריצות דרך מהפכניות, כולל בינה מלאכותית גנרטיבית, שמגדירה מחדש את האוטונומיה ואת תעשיית התחבורה." (נאום מרכזי, GTC 2024) ts2.tech. הוא דיבר על כך שמחשבים עוצמתיים ברכב (עם NPU/‏GPU) מאפשרים למכוניות לא רק לנהוג, אלא גם לשלב בינה מלאכותית מתקדמת כמו מודלים גנרטיביים לדברים כמו ממשקי שפה טבעית ברכב או הבנה טובה יותר של מצבים. זה מדגיש שגם תחומים כמו רכב רואים בינה מלאכותית על גבי המכשיר לא רק כפונקציונליות ליבה אלא גם לשיפור חוויית המשתמש (למשל, עוזרי קול ברכב שיכולים לנהל שיחה בזכות LLMs על גבי הרכב).
  • סונדר פיצ'אי (מנכ"ל גוגל): "העתיד של הבינה המלאכותית הוא להפוך אותה לעוזרת לכולם. זה אומר להביא בינה מלאכותית לכל המכשירים בהם אנו משתמשים – טלפונים, מכשירי חשמל, מכוניות – כדי שתהיה שם כשצריך. אנחנו רוצים לפגוש את המשתמשים היכן שהם נמצאים, עם בינה מלאכותית שפועלת בזמן אמת, במקום, ושומרת על פרטיות." (מנוסח מחדש ממספר ראיונות/נאומים). פיצ'אי מדבר לעיתים קרובות על "בינה מלאכותית אמביינטית" – הרעיון שבינה מלאכותית תהיה מסביבנו, משולבת בדברים. הדחיפה של גוגל עם שבבי Tensor בפיקסל היא יישום ישיר של הפילוסופיה הזו.
  • נתוני תעשייה: אנליסטים זיהו את המגמה במספרים. דוח של Grand View Research מ-2024 ציין: "התקדמות אחרונה בשבבי בינה מלאכותית ייעודיים ו-NPU אפשרה להריץ אלגוריתמים מורכבים של בינה מלאכותית ישירות על המכשיר, מה ששיפר משמעותית את הביצועים ויעילות האנרגיה… אנו מתקרבים למעבר מכריע לעבר בינה מלאכותית על גבי המכשיר." grandviewresearch.com. אותו דוח צופה ש-שוק הבינה המלאכותית על גבי המכשיר יתפוצץ בשנים הקרובות, כאשר תחום החומרה (NPU וכו') יהווה מעל 60% מנתח ההכנסות ב-2024 ויגדל ככל שכמעט כל מכשיר IoT או מובייל חדש יאמצו יכולות בינה מלאכותית grandviewresearch.com. תחזית נוספת של IDC ואחרים מצביעה על כך שעד אמצע שנות ה-2020, כמעט כל הסמארטפונים המתקדמים ורוב המכשירים הבינוניים יכללו מאיצי בינה מלאכותית, ועד 2030, מיליארדי שבבי בינה מלאכותית בקצה יהיו בשימוש ממוצרי צריכה ועד תשתיות חכמות.

הקונצנזוס בקרב מומחים הוא ש-בינה מלאכותית על גבי המכשיר אינה רק "נחמד שיהיה" – היא חיונית לגל הבא של הטכנולוגיה. חלוץ הבינה המלאכותית אנדרו נג' ציין לא פעם ש-"בינה מלאכותית זעירה" ו-AI בקצה יאפשרו לאינטליגנציה לחדור לכל חפץ, בדומה לחשמל או לאינטרנט בעבר. על ידי התגברות על מגבלות של בינה מלאכותית מבוססת ענן בלבד, NPU ו-TPU מאפשרים את החדירה הזו.

האתגר של ריבוי תקנים (ומאמצים לפשט)

בעוד שהחומרה התקדמה במהירות, האקוסיסטם של תוכנה וסטנדרטים ל-AI על גבי המכשיר עדיין מדביק את הפער. מפתחים נתקלים בג'ונגל של כלים ו-SDKs כאשר הם מנסים לנצל NPU-ים במכשירים שונים nimbleedge.com. נקודות עיקריות:
  • לכל פלטפורמה יש API או SDK משלה: לאפל יש את Core ML (עם APIs שמכוונים ל-Neural Engine), לאנדרואיד יש את Neural Networks API (NNAPI) (אם כי גוגל הודיעה על תוכניות לפתח אותו מעבר לאנדרואיד 14) threads.com, קוואלקום מציעה את SNPE (Snapdragon Neural Processing Engine) או באופן רחב יותר את Qualcomm AI Stack, ל-NVIDIA יש את TensorRT ו-CUDA עבור המכשירים שלה, וכן הלאה. יש גם את ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI ואחרים. ל-SDKs השונים הללו יש לעיתים קרובות יכולות שונות ודורשים התאמת מודלים כדי לפעול בצורה מיטבית על כל יעד. כפי שדוח AI על גבי המכשיר לשנת 2025 ציין, "מספר SDKs לא תואמים (למשל, Core ML, LiteRT, ONNX Runtime) עם תמיכה שונה באופרטורים ובביצועים" מאלצים מפתחים לבצע עבודה נוספת nimbleedge.com.
  • בעיות פיצול: מודל שרץ בצורה מושלמת על GPU של מחשב שולחני לא בהכרח ירוץ בקלות על NPU של טלפון – ייתכן שאופרטורים (פונקציות מתמטיות) לא נתמכים או שיש לקוונט אותם אחרת. לעיתים מפתחים צריכים לתחזק בניות נפרדות או לבצע אופטימיזציה ידנית של מודלים לכל חומרה. זו תלונת ה-"אקוסיסטם מפוצל, ברמת נמוכה" nimbleedge.com. גם כלי הדיבאגינג דלים – פרופיילינג של NPU כדי להבין מדוע מודל איטי יכול להיות קשה, במיוחד בהשוואה לכלים המתקדמים ל-CPU/GPUs nimbleedge.com.
  • מאמצי תקינה: כדי להתמודד עם זה, יש כמה דברים שמתרחשים. ONNX (Open Neural Network Exchange) הופיע כפורמט משותף כך שאפשר לאמן מודל ב-PyTorch או TensorFlow ואז לייצא ל-ONNX לצורך פריסה. הרבה מנועי ריצה (כולל כאלה על המכשיר כמו של Qualcomm ו-MediaTek) תומכים בקליטת מודלים של ONNX וינסו לקמפל אותם לחומרה. זה עוזר להימנע מהינעלות על מסגרת אחת. Android NNAPI הייתה ניסיון של גוגל לספק ממשק אוניברסלי – אפליקציה יכולה לבקש "הרץ את הרשת הנוירונית הזו" דרך NNAPI והמערכת תשתמש בכל מאיץ שקיים (GPU, DSP, או NPU) כדי להריץ אותה. NNAPI אומצה בהרבה מכשירי אנדרואיד, אבל היו לה מגבלות ולא כל היצרנים סיפקו דרייברים חזקים, מה שהוביל את גוגל להצביע על אסטרטגיה חדשה (אולי תוך הישענות על WebNN או אינטגרציות ישירות עם יצרנים) מעבר ל-2024 threads.com. במחשבים אישיים, מיקרוסופט הציגה את DirectML ו- Windows ML APIs כדי להפשיט בצורה דומה את ההבדלים בחומרה (מאפשר למפתח להשתמש באותו API עבור NVIDIA, Intel, AMD NPUs).
  • שרשראות כלים מאוחדות:
  • חברות גם בונות שרשראות כלים כדי לייעל את הפריסה. ראינו את AI Stack של Qualcomm שמאגד את הקומפיילר שלהם (AI Model Efficiency Toolkit) ומנועי הריצה כך שמפתחים יוכלו לייעד בקלות רבה יותר את ה-Hexagon NPU שלהם iconnect007.com. TensorRT של NVIDIA ו-SDKs קשורים עושים משהו דומה עבור מכשירי Jetson, ומבצעים אופטימיזציה למודלים עבור GPU+NVDLA. Intel OpenVINO הוא עוד דוגמה – הוא מאפשר לקחת מודל ולבצע לו אופטימיזציה עבור מעבדי Intel, iGPU ו-VPU (NPU) לפריסות קצה. מסגרות אלה כוללות לעיתים קרובות אופטימיזטורים למודלים שממירים מודלים (גיזום, קוונטיזציה) כדי להתאים למכשירים קטנים יותר.
  • אינטרופרביליות:
יש תנועה לכיוון הפיכת NPU שונים לעבודה עם מסגרות משותפות. לדוגמה, TensorFlow Lite של גוגל כולל "delegetes" לחומרה – אחד עבור NNAPI (מכסה מכשירי אנדרואיד באופן כללי), אחד עבור Core ML (מכשירי iOS), אחד עבור Edge TPU, וכו'. הרעיון הוא שאתה כותב את מודל ה-TFLite שלך והוא ירוץ באמצעות המאיץ הטוב ביותר הזמין דרך ה-delegate. באופן דומה, PyTorch מוסיף תמיכה ל-backends ניידים ואפילו לדברים כמו Apple Metal Performance Shaders (כדי להשתמש ב-GPU/NPU ב-iOS). ONNX Runtime גם יכול לייעד מאיצים שונים דרך תוספים (למשל, אפשר לחבר את TensorRT של NVIDIA או את Compute Library של ARM או אחרים מאחורי הקלעים).
  • תקנים מתהווים: Khronos Group (מאחורי OpenGL/Vulkan) עבדו על NNEF (Neural Network Exchange Format) ויש WebNN API בדיון עבור דפדפנים כדי לאפשר גישה להאצת AI מקומית. אף אחד מהם לא אומץ באופן אוניברסלי עדיין. אבל התפתחות מעניינת: בסוף 2024, מספר חברות יצרו ברית לקידום תקני “AI Hardware Common Layer” – בעצם, בודקים האם אפשר ליצור ממשק נמוך משותף ל-NPU (בדומה למה ש-OpenCL עשה לחישוב על GPU). זה עדיין בשלבים מוקדמים.
  • חוויית מפתחים: זהו פער מוכר. כפי שנאמר בבלוג של NimbleEdge, "פיתוח ל-AI על גבי המכשיר כיום דורש ניווט במערכת אקולוגית מפוצלת ונמוכה… מה שמאלץ מפתחים להתאים מימושים לכל יעד חומרה" nimbleedge.com. התעשייה יודעת שזה חייב להשתפר כדי ש-AI על גבי המכשיר יהפוך למיינסטרים אמיתי. ייתכן שנראה איחוד – למשל, אם גוגל, אפל וקוואלקום יוכלו להסכים על סט בסיסי של פעולות ו-API (אולי משאלת לב). או, סביר יותר, שמסגרות כמו PyTorch ו-TensorFlow יסתירו את המורכבות על ידי שילוב כל ספריות הספקים ובחירת הנכונה בזמן ריצה.
  • בעיקרו של דבר, בעוד ש-NPU/TPU מספקים את הכוח, הקהילה עובדת על כלים ידידותיים למוח כדי להשתמש בכוח הזה. החדשות הטובות הן שביחס, למשל, ללפני חמש שנים, יש הרבה יותר אפשרויות לפרוס מודל על גבי המכשיר מבלי להיות מומחה שבבים. אבל יש עוד לאן להתקדם – במיוחד בדיבאג, פרופיילינג ותמיכה בריבוי חומרות.

    מגמות שוק ותחזית לעתיד

    ההתפשטות של NPU ו-TPU במכשירים מניעה מגמה רחבה יותר: AI בכל מקום. הנה כמה מגמות עיקריות ומה לצפות בהמשך:

    • צמיחת שוק Edge AI: מחקרי שוק מצביעים על צמיחה מתפוצצת בחומרת Edge AI. שוק ה-AI על גבי המכשיר (כולל שבבים ותוכנה) צפוי לצמוח בקצב שנתי של כ-29% בעשור הקרוב nimbleedge.com. דוח אחד העריך אותו בכ-233 מיליארד דולר ב-2024, בדרך ליותר מ-1.7 טריליון דולר עד 2032 nimbleedge.com – הרבה מהצמיחה הזו נשענת על פריסות Edge. ניתוח נוסף של IDTechEx חזה כי שוק שבבי ה-AI למכשירי Edge יגיע ל-22 מיליארד דולר עד 2034, כאשר אלקטרוניקה צרכנית, רכב ותעשייה הם המגזרים הגדולים ביותר idtechex.com. המשמעות היא מאות מיליוני מכשירים בשנה שישלחו עם NPU כרכיב סטנדרטי.
    • אימוץ נרחב:
    • בדומה לכך שלכל סמארטפון כיום יש GPU (גם אם קטן), אנחנו מגיעים לנקודה שבה לכל סמארטפון חדש יהיה מאיץ AI. לטלפונים יוקרתיים יש אותם כבר עכשיו; טלפונים בטווח הביניים הם הבאים בתור. למעשה, שבבים בטווח הביניים של קוואלקום (למשל Snapdragon 7 series) ומדיה-טק (Dimensity 700/800 series) כוללים כיום NPU מוקטנים כך שתכונות כמו שיפורי מצלמה מבוססי AI ועוזר קולי יעבדו גם במכשירים זולים יותר. מעבר לטלפונים, NPUs מתפשטים גם ל-מחשבים אישיים (סטנדרט במחשבי Windows חדשים של יצרנים שונים), מכוניות (כמעט כל רכב חדש עם ADAS Level 2+ כולל סוג כלשהו של שבב AI), ו-IoT. אפילו מכשירי חשמל כמו מקררים ומכונות כביסה מתחילים להציג תכונות “AI” (חלקן מבוססות ענן, אך חלקן מקומיות כמו מחזורי עבודה אדפטיביים על בסיס חיישנים). המגמה ברורה: אם למכשיר יש שבב עיבוד, יהיה לו איזשהו האצה של ML על אותו שבב.
    • מגמת ביצועים: ביצועי AI על המכשיר מכפילים את עצמם בערך כל 1–2 שנים (שילוב של ארכיטקטורה טובה יותר ומעבר לצמתי ייצור מתקדמים כמו 5nm, 4nm, 3nm). מנוע ה-Neural של אפל עלה מ-600 מיליארד פעולות לשנייה ב-2017 ל-35 טריליון ב-2023 – כמעט פי 60 תוך שש שנים apple.fandom.com. גם הדגמים המובילים של קוואלקום קפצו מכמה TOPS ב-2018 ליותר מ-27 TOPS ב-2023 (סך כל עיבוד ה-AI ב-SD 8 Gen 3, כולל כל הליבות). ניתן לצפות שב-2025–2026 NPUs בסלולר יגיעו ל-100+ TOPS, ומאיצים במחשבים אף יותר, וייתכן שמספרים אלו יהפכו לפחות רלוונטיים ככל שהפוקוס יעבור ל-ביצועים שימושיים במשימות AI מסוימות (למשל, איזה גודל LLM אפשר להריץ בצורה חלקה, או האם ניתן לבצע וידאו AI ב-4K בזמן אמת). הפער בין הענן לקצה צפוי להצטמצם במשימות הסקה. עם זאת, הקצה עדיין יפגר אחרי הענן במודלים הגדולים והמתקדמים ביותר בשל מגבלות הספק וזיכרון.
    • שיפורי יעילות אנרגטית: היבט לא מוערך מספיק הוא עד כמה ה-NPUs הללו הופכים ליעילים. ה-NPU של טסלה ברכב מגיע לכ-4.9 TOPS/וואט fuse.wikichip.org שהיה מהמתקדמים ביותר לפני כמה שנים; כיום יש NPUs סלולריים שטוענים ליעילות דומה או טובה יותר. NPUs יעילים משמעותם חיי סוללה ארוכים יותר גם כשמשתמשים יותר בתכונות AI. זה גם אומר שאפשר להכניס AI למכשירים קטנים על סוללות (למשל, מכשירי שמיעה חכמים, חיישנים חכמים על סוללות כפתור שמבצעים זיהוי חריגות). הקונספט של TinyML – למידת מכונה בקנה מידה זעיר על מיקרו-בקרים – הוא הרחבה של זה, תוך שימוש ב-“NPUs” פשוטים או הוראות אופטימליות על מיקרו-בקרים כדי לבצע AI בחיישנים. ה-ARM Ethos-U NPU מיועד למגזר הזה (למשל, זיהוי מילת מפתח תמידי על כמה מיליוואט). צפו לעוד שבבי AI זעירים ייעודיים שניתן להטמיע בחיישנים, לבישים וחפצים יומיומיים (מברשת שיניים חכמה? גלאי עשן מבוסס AI? זה בדרך).
    • פתרונות היברידיים של ענן-קצה: במקום שהקצה יחליף לחלוטין את הענן, העתיד הוא שיתוף פעולה. המכשירים יבצעו מקומית את מה שהם יכולים, ויפנו לענן רק עבור מה שאינם יכולים. לדוגמה, משקפי AR שלך עשויים להריץ זיהוי סצנה מקומי כדי לדעת על מה אתה מסתכל, אך אם תשאל שאלה מורכבת במיוחד (כמו הסבר מעמיק), הם עשויים לפנות ל-AI בענן לניתוח חזק יותר ואז להציג אותו. גישה היברידית זו מספקת את האיזון הטוב ביותר בין תגובתיות ליכולת. חברות מעצבות כיום חוויות סביב זה: Copilot של מיקרוסופט ב-Windows עשוי להשתמש ב-NPU המקומי להמרת דיבור לטקסט מהירה ולפענוח פקודות, אך להשתמש בענן למשימות כבדות (אלא אם כן יש לך NPU חזק במחשב שיכול להתמודד עם זה). אידיאלית, המשתמש לא אמור לדעת או להתעניין מה משמש, מלבד העובדה שהכול מהיר יותר ושומר על פרטיות. נראה גם את למידה מבוזרת (federated learning) הופכת לנפוצה יותר – מודלים מתאמנים בענן אך בעזרת נתונים מוצפנים או מעובדים על המכשירים, ולהפך.
    • מקרי שימוש מתפתחים: ככל ש-NPU הופכים חזקים יותר, נפתחות אפליקציות חדשות. בינה מלאכותית גנרטיבית על המכשיר היא דוגמה בולטת – דמיין יצירת תמונות ב-AI, עריכת וידאו ב-AI, וצ'אטבוטים אישיים – הכל בטלפון או במחשב הנייד שלך. עד 2025, ייתכן שנראה גרסאות ראשוניות של עוזרים אישיים לא מקוונים שיכולים לסכם מיילים או לנסח הודעות ללא ענן. תרגום שפה בזמן אמת בשיחה (שני אנשים מדברים בשפות שונות, והטלפונים או האוזניות מתרגמים כמעט בזמן אמת) ישתפר מאוד בזכות עיבוד מקומי (ללא השהיה ועובד בכל מקום). בינה מלאכותית לבריאות עשויה לפעול על מכשירים לבישים – השעון החכם שלך מזהה פרפור פרוזדורים או מנתח דפוסי דום נשימה בשינה באמצעות ה-NPU שלו. אבטחה: מכשירים עשויים להריץ AI מקומי לזיהוי נוזקות או פישינג בזמן אמת (למשל, אנטי-וירוס שמריץ מודל AI על המכשיר במקום סריקות בענן). וברכבים, מעבר לנהיגה, AI יוכל להתאים אישית את חוויית הנסיעה (למשל, התאמת בקרת האקלים לפי מצב הרוח שלך באמצעות AI של מצלמה הפונה לנהג, וכו'). רבים ממקרי השימוש הללו דורשים איטרציה מהירה ופרטיות, מה שמתאים לעיבוד מקומי.
    • תחרות ודמוקרטיזציה: השחקנים הגדולים ימשיכו להתחרות, וזה טוב לצרכנים – צפה לשיווק בסגנון "השבב AI שלנו עושה X TOPS או מאפשר תכונה Y שאחרים לא יכולים". אבל גם, הטכנולוגיה מתדמוקרטת – NPU לא נמצאים רק בטלפונים של $1000; הם מגיעים גם לטלפונים של $300, ללוחות IoT של $50 (Coral, Arduino Portenta וכו'), וקהילות קוד פתוח יוצרות מודלים קטנים של AI שחובבים יכולים להריץ על Raspberry Pi או מיקרו-בקר עם מאיץ בסיסי. זמינות רחבה זו מאפשרת חדשנות מכל מקום. מפתח בודד יכול כעת לבנות אפליקציה שמשתמשת ב-AI מקומי כדי לעשות משהו חכם – בלי צורך בחוות שרתים – מה שמוריד את רף הכניסה לתוכנה מבוססת AI.
    • טכנולוגיות עתידיות: במבט לעתיד הרחוק יותר, מחקר בתחום מחשוב נוירומורפי (שבבים בהשראת המוח כמו Intel Loihi) ושבבי בינה מלאכותית אנלוגיים עשויים יום אחד לחולל מהפכה ב-NPU, ולהציע שיפורי יעילות בסדרי גודל. חברות כמו IBM ו-BrainChip עובדות על כך. אם יצליחו, שבב נוירומורפי עשוי לאפשר להריץ בינה מלאכותית מורכבת על מכשירים זעירים עם סוללה, באופן רציף. ייתכן שנראה גם הערמה תלת-ממדית וטכנולוגיות זיכרון חדשות משתלבות ב-NPU כדי להתגבר על צווארי בקבוק בזיכרון (חלק מהשבבים של 2025 ואילך עשויים להשתמש בזיכרון HBM או בזיכרון לא נדיף חדש על השבב כדי להזין את ליבות הבינה המלאכותית מהר יותר). בנוסף, צפו ליותר התמחות בתוך שבבי בינה מלאכותית: למשל, מאיצים נפרדים לראייה, לדיבור, למודלים של המלצות וכו', כל אחד מכוון לתחומו. חלק מה-SoC כבר כוללים שני NPU (אחד "גדול" למשימות כבדות, ואחד מיקרו NPU ב-hub של חיישנים למשימות קלות ותמיד פעילות).

    לסיכום, המגמה ברורה: NPU ו-TPU הופכים לסטנדרטיים ולבלתי נפרדים מה-CPU במחשוב המודרני. הם מאפשרים למכשירים להיות חכמים יותר, מגיבים יותר, ומתחשבים יותר בפרטיות שלנו. כפי שנאמר בדו"ח אחד, "יחידות עיבוד עתירות ביצועים במכשירים אחראיות במידה רבה לביצוע פונקציות בינה מלאכותית מורכבות כמו זיהוי תמונה, עיבוד שפה טבעית, וקבלת החלטות בזמן אמת", וזה דוחף טכנולוגיה חכמה ומגיבה יותר בכל התחומים grandviewresearch.com.

    אנחנו נכנסים לעידן שבו פשוט תצפה מהמכשיר שלך להבין ולצפות את הצרכים שלך – הטלפון שלך עורך תמונות וכותב הודעות בסגנון שלך, הרכב שלך נמנע מתאונות ומבדר אותך עם בינה מלאכותית, הגאדג'טים בבית לומדים את ההעדפות שלך – וכל זה מתאפשר בזכות המעבדים העצביים השקטים שבתוכם. בינה מלאכותית על המכשיר אינה מדע בדיוני; היא כאן ועכשיו ומשתפרת במהירות. השילוב של NPU ו-TPU עם הגאדג'טים היומיומיים שלנו הופך את הבינה המלאכותית לאישית, חודרת לכל מקום ופרטית – ומביא באמת את עוצמת הענן אל הקרקע (או לפחות, אל הכיס שלך).

    מקורות:

    • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27 באוגוסט 2024 techtarget.com. מתאר את התפקידים וההבדלים בין CPU, GPU, TPU ו-NPU בעומסי עבודה של בינה מלאכותית.
    • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. הסבר על עיצוב ה-TPU של גוגל (מערכים סיסטוליים, דיוק נמוך) ושימוש ב-NPU במכשירים ניידים.
    • TechTarget WhatIs. "יחידת עיבוד טנזור (TPU)." whatis.techtarget.com, 2023 techtarget.com. מציין ש-TPUs מתמחות במשימות מתמטיקה מטריציונית ו-NPUs מחקות רשתות עצביות במוח להאצה techtarget.com.
    • NimbleEdge Blog (Neeraj Poddar). "מצב ה-AI על המכשיר: מה חסר בנוף של היום." 26 ביוני, 2025 nimbleedge.com. מתאר יתרונות של AI על המכשיר (השהיה, עבודה לא מקוונת, פרטיות, עלות) ואתגרים כמו SDKs מפוצלים.
    • Qualcomm (OnQ Blog). "בלומברג וכריסטיאנו אמון מדברים על AI על המכשיר." יולי 2023 x.com. מנכ"ל קוואלקום על חשיבות האינפרנס על המכשיר לעתיד ה-AI (ציטוט ציוץ על נקודת מפנה ב-AI).
    • MediaTek Blog (Exec Talk by Will Chen). "מעצבים את עתיד חוויות ה-AI במובייל." 3 במרץ, 2025 mediatek.com. שיתוף פעולה של MediaTek ו-Oppo ב-NPUs; ציטוט על מחשוב קצה בכף ידך ודוגמה לשחזור תמונה ב-AI באמצעות ה-NPU.
    • I-Connect007 / Qualcomm Press. "קוואלקום עובדת עם Meta לאפשר AI על המכשיר (Llama 2)." 24 ביולי, 2023 iconnect007.com. הודעה לעיתונות עם ציטוט מסגן נשיא קוואלקום דורגה מאלדי על הרחבת AI גנרטיבי באמצעות מכשירי קצה וענן.
    • PCWorld (Mark Hachman). "ה-CPU Core Ultra של אינטל שומרים על AI פשוט…." 24 באוקטובר, 2024 pcworld.com. דן בשימוש של אינטל Arrow Lake ב-NPU של Meteor Lake (13 TOPS) ומציין את NPU של AMD Ryzen 8000 עם 39 TOPS ואת דרישת ה-40 TOPS של "Copilot" של מיקרוסופט.
    • Ts2 (העצמת טכנולוגיה). "עימות מחשבי-על לרכב אוטונומי: NVIDIA Thor מול Tesla HW4 מול Qualcomm Ride." ספט' 2023 ts2.tech. מספק הערכות TOPS: Tesla HW3 לעומת HW4 (72→100 TOPS לשבב) ts2.tech, NVIDIA Thor כ-1000 TOPS (או 2000 בזוגי) ts2.tech ומצטט סגן נשיא NVIDIA על בינה גנרטיבית ברכבים ts2.tech.
    • Grand View Research. "דוח שוק בינה מלאכותית על-גבי מכשיר, 2030." 2024 grandviewresearch.com. מציין את עליית שבבי הבינה הייעודיים (NPU) המאפשרים בינה מורכבת על מכשירים, וכי החומרה היוותה 60.4% משוק ה-AI על-גבי מכשיר ב-2024, בהובלת סמארטפונים, IoT, NPU וכו'.
    • Google Blog. "Google Tensor G3: המעבד AI-First של Pixel 8." אוק' 2023 blog.google. מתאר את השדרוגים של Tensor G3 ל-AI גנרטיבי על-גבי מכשיר, עיצוב TPU חדש, ומודל TTS על-גבי מכשיר באיכות מרכז נתונים.
    • Techspot. "Snapdragon 8 Gen 3 מביא בינה גנרטיבית לסמארטפונים." אוק' 2023 futurumgroup.com. ניתוח Futurum Group המפרט את מנוע ה-AI של SD8Gen3: מודל LLM של 10B פרמטרים על-גבי מכשיר, NPU מהיר ב-98%, Stable Diffusion המהיר בעולם בטלפון, ועוד, לצד יתרונות LLM על-גבי מכשיר לעלות/פרטיות/עבודה לא מקוונת futurumgroup.com.
    • ויקי של אפל (Fandom). "Neural Engine." עודכן 2025 apple.fandom.com. היסטוריית גרסאות של Neural Engine עם A17 Pro ב-35 TOPS ב-2023, וכו'. מציג את ההתפתחות מ-0.6 TOPS (A11) ל-35 TOPS (A17) apple.fandom.com ו-M4 ב-38 TOPS apple.fandom.com.
    • EnGenius Tech. "Cloud Edge Camera AI Surveillance." 2023 engeniustech.com. דוגמה למצלמת אבטחה עם NPU מובנה המאפשר עיבוד בינה מלאכותית על גבי המצלמה ואחסון מקומי (ללא צורך ב-NVR).
    • EmbedL. "אמזון משיקה את מעבד AZ1 Neural Edge." אוקטובר 2020 embedl.com. דן ב-NPU AZ1 edge של אמזון עבור מכשירי Echo, שנבנה עם MediaTek, ומיועד לאינפרנס דיבור על גבי המכשיר כדי לצמצם השהיה ותלות בענן embedl.com.
    NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

    Latest Posts

    Don't Miss

    Small Modular Reactors: Tiny Nukes, Big Revolution in Clean Energy

    כורים מודולריים קטנים: גרעין זעיר, מהפכה גדולה באנרגיה נקייה

    כורים מודולריים קטנים (SMRs) הם כורים בהספק עד 300 מגה-ואט
    CO₂ Capture Breakthroughs: Advanced Materials and Mega-Projects to Pull Carbon from Air and Industry

    פריצות דרך בלכידת CO₂: חומרים מתקדמים ומגה-פרויקטים לשאיבת פחמן מהאוויר ומהתעשייה

    <liבשנת 2024 הגיע ריכוז ה-CO₂ באטמוספירה לכ-426 חלקים למיליון, בערך