NPU εναντίον TPU: Πώς η Ενσωματωμένη Τεχνητή Νοημοσύνη Απογειώνει τις Συσκευές σας το 2025

6 Σεπτεμβρίου, 2025
NPUs vs. TPUs: How On-Device AI Is Supercharging Your Gadgets in 2025
NPUs vs. TPUs
  • Η Apple ξεκίνησε την ενσωμάτωση AI στη συσκευή το 2017 με τη Neural Engine του iPhone A11, επιτρέποντας το Face ID και τα Animoji με έως και 600 δισεκατομμύρια λειτουργίες/δευτερόλεπτο.
  • Το 2023, η 16-πύρηνη Neural Engine του iPhone A17 Pro παρείχε περίπου 35 TOPS, υποστηρίζοντας λειτουργίες ομιλίας, φωτογραφίας και μετάφρασης στη συσκευή.
  • Το Google Pixel 8 (2023) χρησιμοποιεί το Tensor G3 NPU για να τρέχει μοντέλα AI στη συσκευή, όπως το Palm 2 για μετάφραση και σύνοψη χωρίς σύνδεση.
  • Το Edge TPU της Google στο Coral Dev Board προσφέρει 4 TOPS επεξεργασίας εικόνας με λίγα watt.
  • Το υλικό Full Self-Driving της Tesla διαθέτει δύο NPUs: το HW3 (2019) προσέφερε περίπου 144 TOPS, και το HW4 (2023) περίπου 200–250 TOPS.
  • Το NVIDIA Drive Thor (παρουσιάστηκε το 2024) μπορεί να φτάσει έως και 2000 TOPS όταν δύο chips συνδέονται για εργασίες AI στην αυτοκινητοβιομηχανία.
  • Το Hexagon NPU του Snapdragon 8 Gen 3 (2023) της Qualcomm είναι 98% ταχύτερο από το Gen 2, μπορεί να τρέξει LLMs έως 10 δισεκατομμύρια παραμέτρους στη συσκευή και πέτυχε το ταχύτερο mobile Stable Diffusion στον κόσμο σε επιδείξεις.
  • Το Dimensity 9400 (2024) της MediaTek με έκτης γενιάς APU τροφοδοτεί το AI photo remastering του Oppo Find X8, σηματοδοτώντας την επέκταση των NPUs σε τηλεοράσεις, IoT και αυτοκίνητα έως το 2025.
  • Το Meteor Lake της Intel, ο 14ης γενιάς Core (κυκλοφόρησε το 2023· μετονομάστηκε σε Core Ultra το 2024), περιλαμβάνει ενσωματωμένο NPU με απόδοση περίπου 8–12 TOPS, με το Arrow Lake στα ~13 TOPS και το Lunar Lake να φημολογείται γύρω στα 45 TOPS.
  • Το Ryzen 7040 Phoenix (2023) της AMD εισήγαγε τη μηχανή Ryzen AI με έως 10 TOPS, ενώ το Ryzen 8000 desktop (αρχές 2024) προσέφερε 39 TOPS πριν η AMD διακόψει τα NPUs σε εκείνη τη γενιά.

Με λίγα λόγια: Το smartphone, η κάμερα και ακόμα και το αυτοκίνητό σας αποκτούν ενσωματωμένους εγκεφάλους AI – χωρίς να απαιτείται cloud. Ειδικά chips που ονομάζονται NPUs (Μονάδες Νευρωνικής Επεξεργασίας) και TPUs (Μονάδες Επεξεργασίας Τανυστών) μεταμορφώνουν τις καθημερινές συσκευές σε έξυπνους βοηθούς ικανούς για αναγνώριση προσώπου, φωνητικές εντολές, μετάφραση σε πραγματικό χρόνο, αυτόνομη οδήγηση και πολλά άλλα. Αυτή η επανάσταση του AI στη συσκευή υπόσχεται αστραπιαίες αποκρίσεις, καλύτερο απόρρητο και νέες δυνατότητες που κάποτε θεωρούσαμε εφικτές μόνο με υπερυπολογιστές. Σε αυτή την αναφορά, θα απομυθοποιήσουμε τα NPUs και TPUs, θα δούμε πώς διαφέρουν από CPUs/GPUs και θα εξερευνήσουμε γιατί τεχνολογικοί κολοσσοί όπως η Apple, η Google, η Qualcomm και η Intel αγωνίζονται να βάλουν αυτούς τους «εγκεφάλους AI» σε όλα, από τηλέφωνα μέχρι αυτοκίνητα. Θα αναδείξουμε επίσης τις τελευταίες εξελίξεις 2024–2025, απόψεις ειδικών, βιομηχανικά πρότυπα και τι επιφυλάσσει το μέλλον για το AI στη συσκευή.

Τι είναι τα NPUs και TPUs; (Γνωρίστε τον AI Εγκέφαλο της Συσκευής σας)

Οι

Μονάδες Νευρωνικής Επεξεργασίας (NPUs) είναι εξειδικευμένοι επεξεργαστές σχεδιασμένοι να επιταχύνουν τα τεχνητά νευρωνικά δίκτυα – τους αλγόριθμους που τροφοδοτούν σύγχρονες εργασίες ΤΝ όπως η αναγνώριση εικόνας, η επεξεργασία ομιλίας και άλλα. Σε αντίθεση με τους γενικής χρήσης επεξεργαστές (CPUs), οι NPUs είναι κυκλώματα ολοκληρωμένης εφαρμογής (ASICs) προσαρμοσμένα για μαθηματικά πινάκων και τα βαριά παράλληλα φορτία εργασίας των νευρωνικών δικτύων techtarget.com. Μια NPU «μιμείται τα νευρωνικά δίκτυα του ανθρώπινου εγκεφάλου για να επιταχύνει εργασίες ΤΝ», λειτουργώντας ουσιαστικά ως εγκεφαλικό τσιπ πυριτίου μέσα στη συσκευή σας techtarget.com. Οι NPUs διαπρέπουν στην εκτέλεση inference (λήψη προβλέψεων) για μοντέλα ΤΝ αποδοτικά στη συσκευή, συχνά χρησιμοποιώντας χαμηλότερη αριθμητική ακρίβεια (π.χ. 8-bit ακέραιοι) για εξοικονόμηση ενέργειας διατηρώντας υψηλές επιδόσεις backblaze.com. Ο όρος «NPU» μερικές φορές χρησιμοποιείται ευρέως για κάθε επιταχυντή ΤΝ, αλλά πιο συχνά αναφέρεται σε αυτούς που βρίσκονται σε κινητές και edge συσκευές backblaze.com. Για παράδειγμα, το «Neural Engine» της Apple στα iPhone και η μηχανή ΤΝ της Samsung για κινητά είναι NPUs ενσωματωμένες στα συστήματα-σε-τσιπ (SoC) τους.

Μονάδες Επεξεργασίας Τανσόρων (TPUs), από την άλλη πλευρά, δημιουργήθηκαν από την Google ως εξειδικευμένα τσιπ για την επιτάχυνση της μηχανικής μάθησης, ειδικά για το πλαίσιο TensorFlow. Μια TPU είναι ένας τύπος ASIC που έχει βελτιστοποιηθεί για τις τελεστικές πράξεις τανσόρων (πολλαπλασιασμοί μητρώων, κ.λπ.) που βρίσκονται στον πυρήνα της εκπαίδευσης και της εξαγωγής συμπερασμάτων των νευρωνικών δικτύων backblaze.com. Η Google ανέπτυξε για πρώτη φορά TPUs στα κέντρα δεδομένων της το 2015 για να επιταχύνει τους υπολογισμούς νευρωνικών δικτύων και αργότερα τις διέθεσε μέσω του Google Cloud backblaze.com. Οι TPUs χρησιμοποιούν μια ξεχωριστή αρχιτεκτονική που ονομάζεται systolic array, η οποία συνδέει πολλές μικρές μονάδες επεξεργασίας σε ένα πλέγμα που διοχετεύει δεδομένα μέσα από μια αλυσίδα μονάδων πολλαπλασιασμού μητρώων backblaze.com. Αυτός ο σχεδιασμός επιτυγχάνει εξαιρετικά υψηλή απόδοση σε εργασίες βαθιάς μάθησης. Οι TPUs της Google σκόπιμα θυσιάζουν λίγη ακρίβεια (χρησιμοποιώντας μαθηματικά 8-bit ή 16-bit αντί για 32-bit floats) για τεράστια κέρδη σε ταχύτητα και αποδοτικότητα backblaze.com, καθώς πολλές εργασίες AI δεν απαιτούν υψηλή ακρίβεια για να δώσουν ακριβή αποτελέσματα. Ενώ ο όρος “TPU” αναφέρεται τεχνικά στα τσιπ της Google, μερικές φορές χρησιμοποιείται πιο γενικά για οποιονδήποτε “επιταχυντή τανσόρων”. Αξιοσημείωτο είναι ότι η Google παράγει επίσης Edge TPU συνεπεξεργαστές για AI σε συσκευές, όπως το Coral Dev Board, προσφέροντας 4 τρισεκατομμύρια λειτουργίες ανά δευτερόλεπτο με λίγα watt coral.ai.

Εν συντομία: Οι NPUs και οι TPUs είναι και οι δύο επιταχυντές πυριτίου για AI, αλλά οι NPUs ενσωματώνονται συνήθως σε φορητές/edge συσκευές για αποδοτική εξαγωγή συμπερασμάτων στη συσκευή, ενώ οι TPUs (με τη στενή έννοια) είναι υψηλής απόδοσης τσιπ (και πλέον modules) κυρίως από την Google, αρχικά για εκπαίδευση και εξαγωγή συμπερασμάτων σε cloud/datacenter. Και οι δύο αποκλίνουν από τα παραδοσιακά σχέδια CPU/GPU για να δώσουν προτεραιότητα στις παράλληλες μαθηματικές πράξεις για νευρωνικά δίκτυα. Όπως το έθεσε ένας τεχνολογικός συντάκτης, “Οι TPUs εξειδικεύονται ακόμη περισσότερο, εστιάζοντας στις πράξεις τανσόρων για να επιτύχουν μεγαλύτερες ταχύτητες και ενεργειακή απόδοση… Οι NPUs είναι διαδεδομένες σε συσκευές με AI, όπως smartphones και IoT gadgets” backblaze.com.

Πώς διαφέρουν οι NPUs και οι TPUs από τις CPUs και τις GPUs;

Οι παραδοσιακοί επεξεργαστές (CPUs) (κεντρικές μονάδες επεξεργασίας) είναι ο «εγκέφαλος» της γενικής πληροφορικής – βελτιστοποιημένοι για ευελιξία ώστε να χειρίζονται κάθε είδους εργασίες, από την εκτέλεση του λειτουργικού σας συστήματος μέχρι την περιήγηση στο διαδίκτυο. Διαθέτουν μερικούς ισχυρούς πυρήνες που διαπρέπουν στη διαδοχική λογική και στις ποικίλες εντολές, αλλά δεν είναι κατάλληλοι για τους εξαιρετικά παράλληλους μαθηματικούς υπολογισμούς που απαιτούνται για το deep learning techtarget.com. Όταν ένας επεξεργαστής καλείται να επεξεργαστεί ένα μεγάλο νευρωνικό δίκτυο, συχνά γίνεται σημείο συμφόρησης, προσπαθώντας να εκτελέσει εκατομμύρια πολλαπλασιασμούς και προσθέσεις διαδοχικά ή σε περιορισμένες παράλληλες παρτίδες. Αυτό οδηγεί σε υψηλή καθυστέρηση και κατανάλωση ενέργειας (το λεγόμενο Von Neumann bottleneck της μεταφοράς μεγάλου όγκου δεδομένων μεταξύ CPU και μνήμης) backblaze.com. Οι επεξεργαστές μπορούν να κάνουν κάποια εργασία AI (ειδικά απλούστερα ή μικρότερα μοντέλα, ή λογική ελέγχου για προγράμματα AI techtarget.com), αλλά κατά κανόνα δυσκολεύονται να κλιμακωθούν αποδοτικά στις απαιτήσεις της σύγχρονης AI για μαζική παράλληλη γραμμική άλγεβρα.

Οι κάρτες γραφικών (GPUs) έφεραν την παράλληλη υπολογιστική στο προσκήνιο. Αρχικά σχεδιασμένες για την απόδοση εικόνων εκτελώντας πολλές απλές λειτουργίες παράλληλα σε pixels και κορυφές, οι GPUs αποδείχθηκαν κατάλληλες και για την εκπαίδευση νευρωνικών δικτύων, που επίσης περιλαμβάνει την εφαρμογή των ίδιων μαθηματικών πράξεων (εσωτερικά γινόμενα, κ.λπ.) σε πολλά δεδομένα ταυτόχρονα techtarget.com. Μια GPU περιέχει εκατοντάδες ή χιλιάδες μικρούς πυρήνες που μπορούν να εκτελούν μαθηματικές πράξεις παράλληλα. Αυτό καθιστά τις GPUs εξαιρετικές για AI μεγάλης κλίμακας, και σε όλη τη δεκαετία του 2010 οι GPUs (ειδικά της NVIDIA με το λογισμικό CUDA) έγιναν το βασικό εργαλείο της έρευνας στο deep learning. Ωστόσο, οι GPUs παραμένουν κάπως γενικής χρήσης – πρέπει να διαχειρίζονται διάφορες εργασίες γραφικών και να διατηρούν ευελιξία, οπότε δεν είναι 100% βελτιστοποιημένες για νευρωνικά δίκτυα. Επίσης καταναλώνουν πολύ ρεύμα και απαιτούν προσεκτικό προγραμματισμό για πλήρη αξιοποίηση (δεν «αγαπούν» τον πολύπλοκο διακλαδισμένο κώδικα και αποδίδουν καλύτερα σε απλοποιημένες, παράλληλες ως προς τα δεδομένα εργασίες) techtarget.com.

Οι NPU και TPU προχωρούν την εξειδίκευση ακόμα περισσότερο. Είναι κατασκευασμένες ειδικά για μόνο το φόρτο εργασίας των νευρωνικών δικτύων. Αυτό σημαίνει ότι η αρχιτεκτονική τους μπορεί να αφαιρέσει οτιδήποτε δεν χρειάζεται για τα μαθηματικά της ΤΝ και να αφιερώσει περισσότερο πυρίτιο σε πράγματα όπως μονάδες πολλαπλασιασμού πινάκων, συσσωρευτές πρόσθεσης και ενσωματωμένη μνήμη για ταχεία μεταφορά δεδομένων μέσα και έξω από αυτές τις μαθηματικές μονάδες. Μια Google Cloud TPU, για παράδειγμα, είναι ουσιαστικά μια τεράστια δισδιάστατη διάταξη μονάδων MAC (multiply-accumulate) με μια έξυπνη αρχιτεκτονική ροής δεδομένων (το systolic array) που τις τροφοδοτεί με τελεστέους σε υψηλή ταχύτητα backblaze.com. Δεν ασχολείται με cache, speculative execution ή άλλα χαρακτηριστικά CPU – είναι βελτιστοποιημένη για μαθηματικά πινάκων. Οι NPU σε mobile chips ενσωματώνουν παρόμοια ειδικούς πυρήνες νευρωνικής μηχανής δίπλα στη CPU/GPU. Αυτοί οι πυρήνες συχνά χρησιμοποιούν αριθμητική χαμηλής ακρίβειας (π.χ. 8-bit ακέραιοι όπως οι TPU) και εκτελούν ιδιαίτερα παράλληλους υπολογισμούς “layer by layer” για πράγματα όπως τα συνελικτικά νευρωνικά δίκτυα. Μια NPU μπορεί να χρησιμοποιεί μια “συγχωνευμένη” αρχιτεκτονική που συνδυάζει scalar, vector και tensor units (η Hexagon NPU της Qualcomm το κάνει αυτό) για να διαχειρίζεται διαφορετικές λειτουργίες νευρωνικών δικτύων αποδοτικά futurumgroup.com.

Οι βασικές διαφορές συνοψίζονται σε:

  • Instruction set και ευελιξία: Οι CPU έχουν ένα ευρύ, γενικό instruction set (μπορούν να κάνουν πολλά πράγματα, αλλά όχι όλα ταυτόχρονα). Οι GPU έχουν ένα πιο περιορισμένο αλλά ακόμα ευέλικτο instruction set βελτιστοποιημένο για απόδοση στα μαθηματικά. Οι NPU/TPU έχουν ένα πολύ στενό instruction set – ουσιαστικά μόνο τις λειτουργίες που χρειάζονται για τα νευρωνικά δίκτυα (πολλαπλασιασμός πινάκων, συνελίξεις, συναρτήσεις ενεργοποίησης), συχνά υλοποιημένες ως σταθεροί αγωγοί ή πίνακες fuse.wikichip.org. Για παράδειγμα, η NPU της Tesla για αυτόνομη οδήγηση έχει μόνο 8 εντολές στο ISA της, εστιασμένες σε DMA reads/writes και dot products fuse.wikichip.org.
  • Παραλληλισμός και πυρήνες: Οι CPU = λίγοι ισχυροί πυρήνες· οι GPU = χιλιάδες απλοί πυρήνες· οι NPU/TPU = κατά μία έννοια, δεκάδες χιλιάδες πολύ απλές ALU (οι μονάδες MAC) δομημένες σε μορφή μήτρας ή νευρωνικού δικτύου. Ένα μόνο τσιπ NPU μπορεί να εκτελεί δεκάδες τρισεκατομμύρια λειτουργίες ανά δευτερόλεπτο – η NPU του αυτοκινήτου της Tesla λειτουργεί στα 2 GHz με 9.216 MACs, επιτυγχάνοντας ~37 tera-λειτουργίες ανά δευτερόλεπτο (TOPS) ανά πυρήνα, και κάθε τσιπ FSD έχει δύο NPU για ~74 TOPS fuse.wikichip.org, ts2.tech. Αντίθετα, μια high-end CPU μπορεί να φτάσει μόνο μερικές εκατοντάδες δισεκατομμύρια λειτουργίες/δευτ. σε εργασίες AI, και μια GPU ίσως μερικά TOPS αν δεν χρησιμοποιεί ειδικούς tensor πυρήνες.
  • Αρχιτεκτονική μνήμης: Οι NPU/TPU βασίζονται σε γρήγορη ενσωματωμένη μνήμη και ροή δεδομένων. Οι TPU αποφεύγουν το κλασικό bottleneck μνήμης χρησιμοποιώντας systolic dataflow – κάθε μικρή μονάδα περνά τα δεδομένα στην επόμενη συγχρονισμένα, ελαχιστοποιώντας τις αναγνώσεις/εγγραφές στην κύρια μνήμη backblaze.com. Πολλές NPU περιλαμβάνουν κομμάτι SRAM εντός του τσιπ για weights/activations (π.χ. οι NPU πυρήνες της Tesla έχουν 32 MB SRAM ο καθένας για τοπική αποθήκευση δεδομένων νευρωνικού δικτύου) semianalysis.com. Αυτό έρχεται σε αντίθεση με τις GPU/CPU που χρησιμοποιούν εκτενώς εξωτερική DRAM.
  • Ακρίβεια: Οι CPU/GPU συνήθως χρησιμοποιούν 32-bit ή 64-bit floats για υπολογισμούς. Οι επιταχυντές AI συχνά χρησιμοποιούν 16-bit ή 8-bit ακέραιους (και κάποιοι πλέον εξερευνούν 4-bit ή ακόμα και 2-bit) επειδή τα νευρωνικά δίκτυα ανέχονται χαμηλότερη ακρίβεια. Οι σχεδιαστές της TPU της Google σημείωσαν ρητά ότι δεν χρειάζεται πλήρης float ακρίβεια για inference, παρομοιάζοντας το με το “δεν χρειάζεται να ξέρεις ακριβώς πόσες σταγόνες βροχής πέφτουν για να καταλάβεις ότι βρέχει δυνατά” backblaze.com. Αυτό επιτρέπει στις NPU/TPU να εκτελούν περισσότερες λειτουργίες παράλληλα και να καταναλώνουν λιγότερη ενέργεια ανά λειτουργία.
  • Περιοχές χρήσης: Οι GPU εξακολουθούν να χρησιμοποιούνται ευρέως για εκπαίδευση μεγάλων μοντέλων και για ευέλικτους υπολογισμούς (και είναι συνηθισμένες σε data centers και high-end PCs). Οι TPU (cloud) στοχεύουν σε μεγάλης κλίμακας εκπαίδευση και inference στο οικοσύστημα της Google. Οι NPU βρίσκονται συχνότερα σε edge συσκευές – smartphones, κάμερες, οικιακές συσκευές – εκτελώντας inference σε ήδη εκπαιδευμένα μοντέλα. Διαπρέπουν σε εργασίες όπως η εφαρμογή ενός vision μοντέλου σε καρέ κάμερας σε πραγματικό χρόνο ή η συνεχής ανίχνευση λέξης-ενεργοποίησης φωνητικού βοηθού με χαμηλή κατανάλωση. Όπως σημείωσε το TechTarget: “Οι GPU επιλέγονται για διαθεσιμότητα και οικονομία σε πολλά ML projects· οι TPU είναι συνήθως ταχύτερες και λιγότερο ακριβείς, χρησιμοποιούνται από επιχειρήσεις στο Google Cloud· οι NPU βρίσκονται συνήθως σε edge/mobile συσκευές για σημαντικά ταχύτερη τοπική επεξεργασία” techtarget.com.

Συνοψίζοντας, οι CPU = ευέλικτοι οργανωτές, οι GPU = παράλληλα άλογα εργασίας, οι TPU/NPU = ειδικοί στα νευρωνικά δίκτυα. Όλα μπορούν να συνεργαστούν – στην πραγματικότητα, σε μια σύγχρονη συσκευή με δυνατότητες AI, η CPU συχνά συντονίζει τα καθήκοντα και εκχωρεί τα μαθηματικά-βαριά μέρη στην NPU/GPU όταν χρειάζεται techtarget.com. Αυτή η τάση εξειδίκευσης υπάρχει επειδή πλέον μια λύση δεν ταιριάζει σε όλα στην πληροφορική: όπως είπε ένας συντάκτης, «η προσθήκη εκατομμυρίων περισσότερων τρανζίστορ για κάθε ανάγκη δεν ήταν καλή για την αποδοτικότητα… οι σχεδιαστές υιοθέτησαν επεξεργαστές ειδικού σκοπού» techtarget.com. Οι επεξεργαστές ειδικού σκοπού NPU και TPU επιταχύνουν δραστικά τους υπολογισμούς AI διατηρώντας χαμηλή την κατανάλωση ενέργειας – μια κρίσιμη ισορροπία τόσο για συσκευές με μπαταρία όσο και για servers υψηλής πυκνότητας.

Γιατί AI στη συσκευή; (Edge vs. Cloud)

Γιατί να τρέχεις AI στο κινητό ή το αυτοκίνητό σου – γιατί να μην στέλνεις τα πάντα στο cloud όπου τεράστιοι servers (με GPU/TPU) μπορούν να κάνουν τη βαριά δουλειά; Υπάρχουν αρκετοί ισχυροί λόγοι που οδηγούν στη μετάβαση στο AI στη συσκευή, και συνοψίζονται σε ταχύτητα, ιδιωτικότητα, κόστος και αξιοπιστία nimbleedge.com:

  • Άμεση Απόκριση (Χαμηλή Καθυστέρηση): Μια NPU στη συσκευή μπορεί να επεξεργαστεί δεδομένα σε πραγματικό χρόνο χωρίς την καθυστέρηση αποστολής δεδομένων σε server στο cloud. Αυτό είναι κρίσιμο για διαδραστικά ή ζωτικής σημασίας AI tasks. Για παράδειγμα, το αυτόνομο σύστημα οδήγησης ενός αυτοκινήτου με ενσωματωμένες NPU μπορεί να εντοπίσει έναν πεζό και να πατήσει φρένο αμέσως, μέσα σε χιλιοστά του δευτερολέπτου, αντί να περιμένει υπολογισμό από το cloud. Μια έξυπνη κάμερα με NPU μπορεί να ανιχνεύσει έναν εισβολέα τη στιγμή που εμφανίζεται στο κάδρο. Στο κινητό σου, το AI στη συσκευή σημαίνει ότι ο φωνητικός βοηθός σου μπορεί να απαντήσει πιο γρήγορα και φυσικά επειδή δεν «καλεί» συνεχώς το cloud. Η μειωμένη καθυστέρηση επιτρέπει πραγματική λήψη αποφάσεων σε πραγματικό χρόνο και πιο ομαλή εμπειρία χρήστη nimbleedge.com.
  • Απόρρητο και Ασφάλεια Δεδομένων: Η AI στη συσκευή διατηρεί τα δεδομένα σας τοπικά. Αντί να μεταδίδεται ο ήχος του μικροφώνου ή η ροή της κάμερας στο cloud για ανάλυση, η επεξεργασία γίνεται μέσα στη συσκευή. Αυτό μειώνει σημαντικά την έκθεση ευαίσθητων δεδομένων. Για παράδειγμα, τα σύγχρονα smartphones εκτελούν αναγνώριση προσώπου (Face ID, κ.λπ.) εξ ολοκλήρου στη συσκευή – ο βιομετρικός χάρτης του προσώπου σας δεν φεύγει ποτέ από το ασφαλές περιβάλλον του τηλεφώνου. Παρομοίως, ένα ακουστικό βαρηκοΐας με AI ή ένα wearable υγείας μπορεί να αναλύει βιομετρικά δεδομένα χωρίς να τα ανεβάζει σε κάποιον server, διατηρώντας το απόρρητο. Δεδομένων των αυξανόμενων ανησυχιών των χρηστών και των κανονισμών για την κυριαρχία των δεδομένων, αυτό αποτελεί σημαντικό πλεονέκτημα. Όπως το έθεσε ένα blog για το edge AI, η επεξεργασία στη συσκευή σημαίνει ότι «τα δεδομένα του χρήστη δεν χρειάζεται να μεταδοθούν στο cloud», προσφέροντας ένα βασικό όφελος απορρήτου nimbleedge.com. (Φυσικά, το απόρρητο δεν είναι αυτόματο – οι προγραμματιστές πρέπει και πάλι να διαχειρίζονται προσεκτικά τα αποθηκευμένα δεδομένα – αλλά είναι πιο εύκολο να εμπιστευτεί κανείς συσκευές που δεν στέλνουν συνεχώς τα στοιχεία σας εκτός.) Οι CEO της τεχνολογίας συχνά τονίζουν αυτή την πτυχή. Ο CEO της Qualcomm, Cristiano Amon, σημείωσε ότι ο συνδυασμός cloud και νοημοσύνης στη συσκευή μπορεί να ενισχύσει την εξατομίκευση διατηρώντας τα δεδομένα ασφαλή στη συσκευή – το αποκαλεί «υβριδικό μέλλον» όπου η AI στη συσκευή συνεργάζεται με την AI στο cloud για το καλύτερο και των δύο moomoo.com.
  • Διαθεσιμότητα εκτός σύνδεσης & Αξιοπιστία: Οι συσκευές με NPU/TPU δεν εξαρτώνται από τη συνδεσιμότητα. Μπορούν να λειτουργούν σε τούνελ μετρό, σε αεροπλάνο, σε απομακρυσμένες αγροτικές περιοχές ή κατά τη διάρκεια διακοπών δικτύου. Αυτό είναι τεράστιο για την αξιοπιστία. Μια λειτουργία φωνητικής υπαγόρευσης στη συσκευή θα λειτουργεί ακόμα και χωρίς σήμα. Ένα drone με ενσωματωμένη AI όρασης μπορεί να αποφεύγει εμπόδια ακόμα και εκτός δικτύου. Αυτή η ανεξαρτησία είναι επίσης κρίσιμη για συστήματα κρίσιμης αποστολής: π.χ. ρομπότ αποκατάστασης καταστροφών ή ιατρικές συσκευές που δεν μπορούν να υποθέσουν ζωντανή σύνδεση στο διαδίκτυο. Η «λειτουργικότητα εκτός σύνδεσης» είναι βασικό πλεονέκτημα της AI στη συσκευή nimbleedge.com – διασφαλίζει ότι η λειτουργία AI είναι διαθέσιμη όποτε και όπου χρειάζεται.
  • Αποδοτικότητα Κόστους σε Κλίμακα: Η συνεχής αποστολή ακατέργαστων δεδομένων στο cloud για επεξεργασία AI μπορεί να είναι πολύ δαπανηρή (οι υπολογισμοί στο cloud δεν είναι δωρεάν) και απαιτεί μεγάλο εύρος ζώνης. Καθώς οι λειτουργίες AI πολλαπλασιάζονται, οι εταιρείες θα έπρεπε να πληρώνουν τεράστιους λογαριασμούς για cloud processing αν κάθε μικρή εργασία πήγαινε σε server. Κάνοντας περισσότερα στην άκρη (edge), μειώνουν τα φορτία στους cloud servers και τη χρήση του δικτύου. Συχνά είναι πιο αποδοτικό να ξοδέψεις λίγα παραπάνω για ένα καλύτερο chip στη συσκευή παρά να πληρώνεις για gigabytes cloud computing στη διάρκεια ζωής της συσκευής. Μια ανάλυση της Futurum για τη βιομηχανία σημείωσε ότι η επεξεργασία στη συσκευή βοηθά στην αντιμετώπιση των προβλημάτων κλίμακας και κόστους της γενετικής AI – «μοιράζει» το φορτίο ώστε τα data centers να μην υπερφορτώνονται (και οι χρήστες/προγραμματιστές να μην πληρώνουν υπέρογκα ποσά για χρόνο GPU στο cloud) futurumgroup.com.
  • Εξατομίκευση & Πλαίσιο: Ένας αναδυόμενος λόγος: η AI στη συσκευή μπορεί να μαθαίνει και να προσαρμόζεται στο τοπικό πλαίσιο με τρόπο που η AI στο cloud ίσως να μην μπορεί. Το smartphone σας μπορεί να διατηρεί ένα μικρό τοπικό μοντέλο που μαθαίνει το στυλ γραφής σας για καλύτερη αυτόματη διόρθωση, χωρίς να μοιράζεται αυτό το προσωπικό γλωσσικό μοντέλο στο cloud. Οι συσκευές μπορούν να συνδυάζουν δεδομένα από πολλαπλούς αισθητήρες σε πραγματικό χρόνο (κάτι που είναι πιο εύκολο τοπικά παρά να μεταδίδονται πολλά δεδομένα αισθητήρων στο cloud). Αυτό μπορεί να επιτρέψει μια πιο εξατομικευμένη και ευαισθητοποιημένη στο πλαίσιο εμπειρία. Κάποιες λειτουργίες όπως η ομοσπονδιακή μάθηση επιτρέπουν ακόμη και στις συσκευές να βελτιώνουν τα μοντέλα AI συνεργατικά χωρίς να ανεβάζουν ακατέργαστα δεδομένα (αποστέλλοντας μόνο μικρές ενημερώσεις βαρών).
  • Κανονισμοί και Κυριαρχία Δεδομένων: Νόμοι όπως το GDPR της Ευρώπης και διάφορες απαιτήσεις τοπικής αποθήκευσης δεδομένων απαιτούν όλο και περισσότερο ορισμένα δεδομένα (ειδικά προσωπικά ή ευαίσθητα δεδομένα) να μην αποστέλλονται εκτός χώρας ή σε τρίτους χωρίς συγκατάθεση. Η AI στη συσκευή προσφέρει έναν τρόπο συμμόρφωσης επεξεργαζόμενη τα δεδομένα στην πηγή. Για παράδειγμα, εργαλεία AI ιατρικής απεικόνισης μπορούν να λειτουργούν σε υλικό νοσοκομείου (edge servers με NPUs) ώστε τα δεδομένα των ασθενών να μην φεύγουν ποτέ από τον χώρο, καλύπτοντας κανονισμούς απορρήτου. Η έκθεση της NimbleEdge για το 2025 επισημαίνει κυβερνήσεις που προωθούν περισσότερη τοπική επεξεργασία για λόγους κυριαρχίας και συμμόρφωσης nimbleedge.com.

Όλοι αυτοί οι παράγοντες οδηγούν σε μια αλλαγή παραδείγματος: αντί να σκεφτόμαστε “cloud-first” για την AI, οι εταιρείες πλέον σχεδιάζουν λειτουργίες AI “device-first” όπου είναι δυνατόν. Όπως το συνόψισε ο Αντιπρόεδρος AI της Qualcomm, Durga Malladi: «Για να κλιμακωθεί αποτελεσματικά η γενετική AI στο ευρύ κοινό, η AI θα πρέπει να λειτουργεί τόσο στο cloud όσο και στις συσκευές στο edge… όπως smartphones, laptops, οχήματα και συσκευές IoT» iconnect007.com. Μεταβαίνουμε σε έναν υβριδικό κόσμο AI όπου η βαριά εκπαίδευση και τα μεγάλα μοντέλα ίσως βρίσκονται στο cloud, αλλά πολλές εργασίες inference και προσωπικές εμπειρίες AI τρέχουν τοπικά στα NPUs/TPUs στα χέρια και τα σπίτια σας. Μάλιστα, ο Amon το αποκαλεί «σημείο καμπής στην AI» – inference στη συσκευή χωρίς καθυστέρηση, όπου «το μέλλον της AI είναι προσωπικό» επειδή τρέχει ακριβώς εκεί που βρίσκεστε x.com.

AI στη Συσκευή στην Πράξη: Από Smartphones μέχρι Αυτοκίνητα Χωρίς Οδηγό

Εξειδικευμένα chips AI είναι ήδη ενσωματωμένα σε μια ευρεία γκάμα συσκευών γύρω σας, συχνά αόρατα, κάνοντάς τες εξυπνότερες. Ακολουθούν μερικοί βασικοί τομείς όπου τα NPUs και edge TPUs χρησιμοποιούνται:

    Smartphones & Tablets: Σχεδόν όλα τα σύγχρονα flagship τηλέφωνα (και ακόμη και πολλά μεσαίας κατηγορίας) πλέον περιλαμβάνουν NPU ή ειδική μηχανή AI. Η Apple ξεκίνησε την τάση το 2017 με το Apple Neural Engine στο chip A11 του iPhone, επιτρέποντας το Face ID και τα Animoji στη συσκευή εκτελώντας έως και 600 δισεκατομμύρια λειτουργίες/δευτερόλεπτο apple.fandom.com. Σήμερα, το chip A17 Pro της Apple (2023) διαθέτει 16-πύρηνο Neural Engine ικανό για 35 τρισεκατομμύρια λειτουργίες ανά δευτερόλεπτο apple.fandom.com. Αυτό τροφοδοτεί λειτουργίες όπως ανίχνευση σκηνής κάμερας, στυλ φωτογραφίας, φωνητικές εντολές Siri που επεξεργάζονται εκτός σύνδεσης, αυτόματη διόρθωση, ζωντανή μεταγραφή και ακόμη και εκτέλεση μοντέλων transformer για μετάφραση στη συσκευή. Τα τηλέφωνα Pixel της Google διαθέτουν επίσης custom silicon (“Google Tensor” SoCs) με NPUs: το τελευταίο Tensor G3 στο Pixel 8 ήταν «σχεδιασμένο ειδικά για να τρέχει τα AI μοντέλα της Google», αναβαθμίζοντας κάθε μέρος του chip (CPU, GPU, ISP) για να ανοίξει το δρόμο για γενετική AI στη συσκευή blog.google. Το Pixel 8 μπορεί να τρέξει τα πιο προηγμένα μοντέλα μετατροπής κειμένου σε ομιλία και μετάφρασης της Google τοπικά, τα ίδια που προηγουμένως περιορίζονταν σε data centers blog.google. Εκτελεί επίσης πολύπλοκα κόλπα κάμερας όπως το «Best Take» για συγχώνευση ομαδικών φωτογραφιών και το Audio Magic Eraser χρησιμοποιώντας μια σειρά από AI μοντέλα στη συσκευή blog.google. Η Samsung και άλλοι κατασκευαστές Android χρησιμοποιούν chipsets Snapdragon της Qualcomm, των οποίων τα τελευταία NPUs (Hexagon AI engine) μπορούν ακόμη και να τρέξουν μεγάλα γλωσσικά μοντέλα στο τηλέφωνο – η Qualcomm έδειξε την εκτέλεση ενός LLM 10 δισεκατομμυρίων παραμέτρων και ακόμη και τη δημιουργία εικόνων Stable Diffusion σε τηλέφωνο με Snapdragon 8 Gen 3 futurumgroup.com. Η AI μηχανή αυτού του chip είναι 98% ταχύτερη από την προηγούμενη γενιά και υποστηρίζει ακρίβεια INT4 για αποδοτικότητα futurumgroup.com. Πρακτικό αποτέλεσμα: το τηλέφωνό σας του 2024 μπορεί να κάνει πράγματα όπως να συνοψίζει άρθρα, να απαντά σε ερωτήσεις ή να επεξεργάζεται φωτογραφίες με AI χωρίς να χρειάζεται το cloud. Ακόμη και τα χαρακτηριστικά προσβασιμότητας επωφελούνται: π.χ. τα Pixel τηλέφωνα έχουν πλέον φωνητική πληκτρολόγηση στη συσκευή, ζωντανές λεζάντες και μια επερχόμενη λειτουργία για περιγραφή εικόνων σε τυφλούς χρήστες χρησιμοποιώντας τοπικό μοντέλο.Έξυπνες Κάμερες & Συστήματα Ασφαλείας: Οι κάμερες με δυνατότητες AI χρησιμοποιούν ενσωματωμένες NPU για να ανιχνεύουν άτομα, πρόσωπα, ζώα ή ύποπτη συμπεριφορά άμεσα. Για παράδειγμα, οι πιο πρόσφατες κάμερες ασφαλείας της EnGenius περιλαμβάνουν ενσωματωμένη NPU που διαχειρίζεται την ανίχνευση αντικειμένων και μετατρέπει το βίντεο σε μεταδεδομένα απευθείας στην κάμερα, εξαλείφοντας την ανάγκη για ξεχωριστό καταγραφέα βίντεο και ενισχύοντας την ασφάλεια (καθώς το βίντεο μπορεί να αναλυθεί και να αποθηκευτεί τοπικά) engeniustech.com. Αυτό σημαίνει ότι η κάμερα ασφαλείας σας μπορεί να αποφασίσει “παρουσία ατόμου” ή “πακέτο παραδόθηκε” και να στείλει μόνο αυτή την ειδοποίηση, αντί να μεταδίδει ώρες υλικού σε μια υπηρεσία cloud. Παρομοίως, συσκευές καταναλωτή όπως η Google Nest Cam IQ διέθεταν τσιπ όρασης στη συσκευή (Google Edge TPU) για να αναγνωρίζουν οικεία πρόσωπα και να διακρίνουν ανθρώπους από κατοικίδια στο οπτικό τους πεδίο. Οι DSLR και mirrorless κάμερες προσθέτουν επίσης επεξεργαστές AI για λειτουργίες όπως παρακολούθηση θέματος, αυτόματη εστίαση στα μάτια και βελτιστοποίηση σκηνής σε πραγματικό χρόνο. Στα drones, τα ενσωματωμένα τσιπ AI βοηθούν στην αποφυγή εμποδίων και στην οπτική πλοήγηση χωρίς να απαιτείται τηλεχειρισμός. Αξιοσημείωτα, το Google’s Edge TPU (ένα μικροσκοπικό ASIC module) έχει γίνει δημοφιλές πρόσθετο για DIY και βιομηχανικές IoT κάμερες – παρέχει 4 TOPS επεξεργαστικής ισχύος όρασης για εργασίες όπως ανίχνευση ατόμων ή ανάγνωση πινακίδων κυκλοφορίας, χρησιμοποιώντας μόνο ~2 watt coral.ai.
  • Έξυπνο Σπίτι & IoT Συσκευές: Πέρα από τα τηλέφωνα, πολλές έξυπνες οικιακές συσκευές διαθέτουν μικρές NPU. Τα ηχεία με φωνητική ενεργοποίηση (Amazon Echo, Google Nest Hub, κ.λπ.) συχνά πλέον περιλαμβάνουν τοπικά τσιπ αναγνώρισης ομιλίας. Η Amazon ανέπτυξε τον AZ1 Neural Edge processor για τις συσκευές Echo ώστε να επιταχύνει την ανίχνευση της λέξης αφύπνισης της Alexa και τις απαντήσεις στη συσκευή, μειώνοντας τη χρονοκαθυστέρηση στο μισό embedl.com. Ο AZ1 (σε συνεργασία με τη MediaTek) εκτελεί ένα νευρωνικό δίκτυο που αναγνωρίζει το “Alexa” και επεξεργάζεται απλές εντολές χωρίς να φτάνει στο cloud embedl.com. Αυτό όχι μόνο κάνει την Alexa να φαίνεται ταχύτερη αλλά διατηρεί και περισσότερα φωνητικά δεδομένα ιδιωτικά. Ομοίως, πολλές νέες τηλεοράσεις, οικιακές συσκευές και ακόμη και παιχνίδια διαθέτουν κάποια AI στο edge – π.χ. η κάμερα ενός έξυπνου ψυγείου μπορεί να αναγνωρίζει τρόφιμα και ημερομηνίες λήξης τοπικά. Wearables αξίζουν επίσης αναφορά: το S9 chip του Apple Watch πρόσθεσε έναν Neural Engine 4 πυρήνων για καλύτερη διαχείριση αλγορίθμων υγείας AI και αιτημάτων Siri στο ρολόι apple.fandom.com. Και στη βιομηχανία, οι IoT αισθητήρες με NPU μπορούν να εκτελούν ανίχνευση ανωμαλιών σε δεδομένα εξοπλισμού απευθείας στο edge, σηματοδοτώντας μόνο τα σχετικά συμβάντα ανάντη (εξοικονομώντας εύρος ζώνης και ανταποκρινόμενοι ταχύτερα σε προβλήματα).
  • Αυτοκίνητα (ADAS και Αυτονομία): Τα αυτοκίνητα έχουν μετατραπεί σε κόμβους τεχνητής νοημοσύνης πάνω σε ρόδες. Τα προηγμένα συστήματα υποβοήθησης οδηγού (ADAS) και τα χαρακτηριστικά αυτόνομης οδήγησης βασίζονται σε μια σειρά από ενσωματωμένους επιταχυντές AI για να ερμηνεύουν εικόνες από κάμερες, LiDAR, ραντάρ και να λαμβάνουν αποφάσεις οδήγησης σε κλάσματα του δευτερολέπτου. Η Tesla σχεδίασε διάσημα τον δικό της FSD (Full Self-Driving) Υπολογιστή με διπλούς NPU επεξεργαστές. Το FSD chip της Tesla (HW3, παρουσιάστηκε το 2019) παρείχε 144 TOPS (δύο NPU στα 72 TOPS το καθένα)· το νεότερο HW4 (2023) αυξάνει αυτό το νούμερο περίπου στα 200–250 TOPS συνολικά (δύο NPU στα 7nm με πάνω από 100 TOPS το καθένα) ts2.tech. Αυτό επιτρέπει στο αυτοκίνητο να επεξεργάζεται ταυτόχρονα βίντεο πλήρους ανάλυσης από 8 κάμερες, σόναρ κ.λπ., μέσω νευρωνικών δικτύων για αντίληψη και να τρέχει ακόμη και κάποια γλωσσικά μοντέλα για φωνητικές εντολές – όλα τοπικά μέσα στη μονάδα του αυτοκινήτου. Ανταγωνιστικές πλατφόρμες όπως το NVIDIA Drive και το Qualcomm Snapdragon Ride ενσωματώνουν επίσης NPU. Το πιο πρόσφατο chip υπερυπολογιστή αυτοκινήτου της NVIDIA, το Drive Thor, που προορίζεται για αυτοκίνητα του 2025, υπερηφανεύεται για έως και 1.000 TOPS σε ένα μόνο chip (και 2.000 TOPS όταν συνδυάζονται δύο) για να υποστηρίξει αυτονομία Επιπέδου 4 ts2.tech. Συνδυάζει GPU, CPU και ειδικούς επιταχυντές βαθιάς μάθησης ώστε να μπορεί να διαχειριστεί τα πάντα, από αναγνώριση πινακίδων κυκλοφορίας μέχρι AI παρακολούθησης οδηγού πάνω στο chip ts2.tech. Αυτά τα NPU κυριολεκτικά σώζουν ζωές: ένα αυτόνομο αυτοκίνητο δεν μπορεί να περιμένει τους cloud servers αν ένα παιδί τρέξει στον δρόμο. Η ενσωματωμένη AI πρέπει να δει και να αντιδράσει μέσα σε δεκάδες χιλιοστά του δευτερολέπτου. Εκτός από τα επιβατικά αυτοκίνητα, βρίσκουμε επίσης εκτεταμένη χρήση edge AI σε αυτόνομα drones, ρομπότ παράδοσης και βιομηχανικά οχήματα που πλοηγούνται και λαμβάνουν αποφάσεις με ενσωματωμένα NPU/TPU (για παράδειγμα, τα ρομπότ παράδοσης της Nuro και πολλά συστήματα αυτόνομων φορτηγών χρησιμοποιούν AI chips της NVIDIA ή της Huawei πάνω στη συσκευή).
  • Edge Computing & Βιομηχανία: Σε εργοστάσια και επιχειρησιακά περιβάλλοντα, η AI στη συσκευή συχνά παίρνει τη μορφή edge servers ή gateways με AI accelerators. Αντί να στέλνουν τα δεδομένα από κάμερες ή αισθητήρες σε ένα κεντρικό cloud, οι εταιρείες εγκαθιστούν edge boxes (μερικές φορές με βάση GPU, άλλες φορές με βάση NPU/FPGA) στις εγκαταστάσεις τους. Αυτά διαχειρίζονται εργασίες όπως ανάλυση βίντεο σε πραγματικό χρόνο για έλεγχο ποιότητας σε γραμμή παραγωγής, ανίχνευση ελαττωμάτων με AI vision σε μικροδευτερόλεπτα. Οι ιατρικές συσκευές είναι ένα άλλο παράδειγμα: ένα φορητό υπερηχογράφημα ή MRI μπορεί να έχει NPU για ανάλυση εικόνας με AI στη συσκευή, ώστε οι γιατροί να λαμβάνουν άμεση διαγνωστική βοήθεια χωρίς να χρειάζεται σύνδεση στο διαδίκτυο (που είναι επίσης καλύτερο για το απόρρητο των δεδομένων ασθενών). Το λιανικό εμπόριο και οι πόλεις εφαρμόζουν επίσης AI στο edge – π.χ. έξυπνες κάμερες κυκλοφορίας με NPUs για ανάλυση συμφόρησης και ρύθμιση φαναριών, ή κάμερες ραφιών λιανικής που παρακολουθούν το απόθεμα. Πολλές από αυτές χρησιμοποιούν εξειδικευμένα NPUs όπως τα Intel Movidius Myriad chips ή το Edge TPU της Google ή νέους παίκτες όπως το Hailo-8 (ένα ισραηλινό NPU που προσφέρει 26 TOPS με λίγα watt για κάμερες). Το κοινό στοιχείο είναι ότι αυτοί οι accelerators επιτρέπουν την ανάλυση τοπικά, επιτυγχάνοντας αποτελέσματα σε πραγματικό χρόνο και διατηρώντας μόνο τα υψηλού επιπέδου ευρήματα (αντί για ακατέργαστα δεδομένα) να μεταφέρονται μέσω δικτύων.

Η ευελιξία των NPUs/TPUs σε διάφορους τύπους συσκευών είναι εντυπωσιακή. Τη μια στιγμή επιτρέπουν στο τηλέφωνό σας να θολώνει το φόντο σε μια φωτογραφία με AI και την επόμενη καθοδηγούν ένα drone ή σαρώνουν ιατρικές εικόνες. Οι κάμερες των smartphones χρησιμοποιούν πλέον NPUs για λειτουργίες όπως Night Mode (συνδυάζοντας πολλαπλά καρέ έξυπνα), Portrait mode bokeh, αναγνώριση σκηνής (το τηλέφωνό σας καταλαβαίνει ότι φωτογραφίζετε “ηλιοβασίλεμα” και βελτιστοποιεί τα χρώματα μέσω AI), και ακόμη και για διασκεδαστικά AR εφέ (Animoji που χαρτογραφεί το πρόσωπό σας, ή Snapchat φίλτρα που παρακολουθούν τις κινήσεις σας – όλα χάρη σε νευρωνικά δίκτυα στη συσκευή). Τα βιομετρικά χρησιμοποιούν NPUs: σαρωτές δακτυλικών αποτυπωμάτων με AI για ανίχνευση ζωντάνιας, ξεκλείδωμα προσώπου με αισθητήρες βάθους και AI. Ο ήχος τα χρησιμοποιεί επίσης: η ακύρωση θορύβου σε ακουστικά και τηλέφωνα είναι πλέον συχνά AI-driven, με NPUs να διαχωρίζουν τη φωνή από τον θόρυβο του περιβάλλοντος σε πραγματικό χρόνο.

Ένα συγκεκριμένο παράδειγμα καινοτομίας του 2024: Η Oppo (ο κατασκευαστής smartphone), σε συνεργασία με τη MediaTek, ανακοίνωσε ότι υλοποίησε ένα Mixture-of-Experts (MoE) AI μοντέλο απευθείας στη συσκευή στα τέλη του 2024 – φέρεται να είναι η πρώτη που το κάνει σε τηλέφωνο grandviewresearch.com. Αυτή η προηγμένη αρχιτεκτονική νευρωνικού δικτύου (MoE) μπορεί να ενισχύσει την απόδοση ενεργοποιώντας μόνο τα σχετικά “expert” υποδίκτυα ανά εργασία, και το να γίνεται αυτό στη συσκευή σημαίνει ότι τα τηλέφωνα Oppo μπορούν να επιτυγχάνουν ταχύτερη AI επεξεργασία και καλύτερη ενεργειακή απόδοση για σύνθετες εργασίες, χωρίς να χρειάζονται βοήθεια από το cloud grandviewresearch.com. Αυτό υπογραμμίζει πώς ακόμη και η αιχμή της AI έρευνας φτάνει γρήγορα στις φορητές συσκευές μας μέσω βελτιωμένων NPUs.

Μέσα στα AI Chips του 2025: Τελευταίες Εξελίξεις από Apple, Google, Qualcomm και άλλους

Η κούρσα για την κατασκευή καλύτερου hardware AI στη συσκευή έχει ενταθεί ραγδαία. Δείτε τι έχουν παρουσιάσει πρόσφατα (2024–2025) οι μεγάλες εταιρείες όσον αφορά NPUs/TPUs και AI silicon:

Apple: Η στρατηγική της Apple για custom silicon έχει εδώ και καιρό δώσει έμφαση στη μηχανική μάθηση στη συσκευή. Κάθε χρόνο, η Neural Engine της Apple γίνεται πιο ισχυρή. Στο iPhone 15 Pro του 2023, το chip A17 Pro είχε Neural Engine που έφτασε τα 35 TOPS (τρισεκατομμύρια λειτουργίες ανά δευτερόλεπτο) με τους 16 πυρήνες του apple.fandom.com. Αυτό ήταν διπλάσια ακατέργαστη απόδοση από το NPU του A16, και η Apple το χρησιμοποίησε για να ενεργοποιήσει λειτουργίες όπως αναγνώριση ομιλίας στη συσκευή για τη Siri (επιτέλους επεξεργασία πολλών αιτημάτων Siri χωρίς internet) και νέες δυνατότητες κάμερας (όπως αυτόματη λήψη Portrait mode και ζωντανή μετάφραση κειμένου μέσω της κάμερας). Τα chips της Apple για το 2024 συνέχισαν την τάση: η οικογένεια M3 για Mac (τέλη 2023) απέκτησε ανανεωμένη Neural Engine (αν και ενδιαφέρον είναι ότι ρυθμίστηκε για 18 TOPS στο βασικό chip M3, με έμφαση στην αποδοτικότητα) apple.fandom.com. Το 2024, η Apple παρουσίασε το M4 chip (για high-end iPad/Mac, μέσα 2024) που φέρεται να ανέβασε τη Neural Engine στα 38 TOPS σε βελτιωμένη διαδικασία 3nm apple.fandom.com. Πέρα από τους αριθμούς, η Apple χρησιμοποιεί αυτό το NPU: λειτουργίες όπως το Personal Voice (που δημιουργεί ένα κλώνο της φωνής του χρήστη μετά από 15 λεπτά εκπαίδευσης) τρέχουν ιδιωτικά στη Neural Engine των iPhone, και οι μεταγραφές Live Voicemail γίνονται τοπικά. Η Apple έχει επίσης ενσωματώσει NPU σε όλες τις κατηγορίες συσκευών της – ακόμα και τα AirPods Pro έχουν ένα μικρό neural chip για το Adaptive Audio. Τα στελέχη της Apple συχνά τονίζουν τη διάσταση της ιδιωτικότητας: «μηχανική μάθηση στη συσκευή σας» σημαίνει ότι τα δεδομένα σας μένουν σε εσάς. Μέχρι το 2025, αναμένουμε η Neural Engine της Apple να επεκταθεί περαιτέρω ή να γίνει διαθέσιμη σε εφαρμογές τρίτων με νέους τρόπους (ήδη το Core ML επιτρέπει στους developers να τη χρησιμοποιούν, αλλά η Apple θα μπορούσε να ανοίξει περισσότερη neural API πρόσβαση). Υπάρχει επίσης φήμη ότι η Apple σχεδιάζει έναν αυτόνομο AI accelerator για μελλοντικά γυαλιά ή αυτοκίνητα, αλλά τα τρέχοντα προϊόντα δείχνουν ότι προτιμούν ενσωματωμένα NPU στα SoC των σειρών A και M.
  • Google: Η Google όχι μόνο πρωτοστάτησε στο cloud TPU αλλά επένδυσε διπλά στην AI στη συσκευή για τα τηλέφωνα Pixel και τις καταναλωτικές συσκευές. Το Google Tensor SoC (που παρουσιάστηκε για πρώτη φορά το 2021 στο Pixel 6) ήταν μοναδικό καθώς η Google, γνωστή για το cloud, δημιούργησε ένα chip τηλεφώνου για να τρέχει AI στη συσκευή. Μέχρι το Tensor G3 (στο Pixel 8 του 2023), η Google τόνισε αναβαθμίσεις που επιτρέπουν γενετική AI στη συσκευή. Η Google δήλωσε ρητά ότι το chip του Pixel 8 φέρνει “την έρευνα AI της Google απευθείας στα νεότερα τηλέφωνά μας” blog.google. Το επόμενης γενιάς TPU του Tensor G3 (η Google εξακολουθεί να αποκαλεί τον πυρήνα AI “TPU” εσωτερικά) επιτρέπει στο Pixel να τρέχει προηγμένα μοντέλα όπως το Palm 2 ή το Gemini Nano (ελαφριές εκδόσεις των μεγάλων γλωσσικών μοντέλων της Google) στη συσκευή για λειτουργίες όπως περίληψη ιστοσελίδων ή βελτιώσεις στη φωνητική πληκτρολόγηση reddit.com. Ένα βασικό χαρακτηριστικό: το Pixel 8 μπορεί να τρέξει το καλύτερο μοντέλο μετατροπής κειμένου σε ομιλία της Google (αυτό που χρησιμοποιείται στο data center) τοπικά, επιτρέποντας στο τηλέφωνο να διαβάζει ιστοσελίδες δυνατά με φυσικές φωνές και ακόμη και να τις μεταφράζει σε πραγματικό χρόνο, όλα offline blog.google. Η Google χρησιμοποιεί επίσης το TPU στο Pixel για φωτογραφία (“HDR+” πολυκαρέ απεικόνιση, Magic Eraser αφαίρεση αντικειμένων με AI inpainting blog.google), για ασφάλεια (ξεκλείδωμα προσώπου στη συσκευή μέσω AI που πλέον θεωρείται αρκετά ισχυρό για πληρωμές blog.google), και για ομιλία (ο Βοηθός που δεν τον πειράζει να πείτε “εεε”). Πέρα από τα τηλέφωνα, η Google προσφέρει το Coral Dev Board και USB stick για hobbyists και επιχειρήσεις ώστε να προσθέσουν Edge TPUs στα έργα τους, το καθένα περιέχει το Edge TPU της Google που παρέχει 4 TOPS για εργασίες όρασης με πολύ χαμηλή κατανάλωση ενέργειας coral.ai. Χρησιμοποιείται σε ορισμένα από τα δικά της προϊόντα της Google όπως το Nest Hub Max για αναγνώριση χειρονομιών. Για την Google, η ενσωμάτωση TPUs στο edge είναι μέρος μιας ευρύτερης στρατηγικής: ο Sundar Pichai (CEO της Google) έχει πει ότι το μέλλον της AI αφορά την ενίσχυση κάθε εμπειρίας, και είναι σαφές ότι η Google πιστεύει πως “για να φέρεις τη μεταμορφωτική δύναμη της AI στην καθημερινή ζωή, πρέπει να έχεις πρόσβαση σε αυτή από τη συσκευή που χρησιμοποιείς κάθε μέρα” blog.google – εξ ου και τα chips Tensor. Μπορούμε να αναμένουμε ένα Tensor G4 στα Pixel τηλέφωνα στα τέλη του 2024, πιθανώς κατασκευασμένο στη νεότερη διαδικασία της Samsung ή της TSMC, βελτιώνοντας περαιτέρω την απόδοση και την αποδοτικότητα της AI, ίσως ακόμη και επιτρέποντας πολυτροπική AI στη συσκευή (συνδυάζοντας μοντέλα όρασης+γλώσσας).
  • Qualcomm: Ο κορυφαίος προμηθευτής mobile chip για Android τηλέφωνα έχει προωθήσει επιθετικά τη δική του AI Engine στη σειρά Snapdragon. Το Snapdragon 8 Gen 2 (τέλη 2022) εισήγαγε υποστήριξη για INT4 και παρουσίασε δημιουργία εικόνων με real-time stable diffusion σε τηλέφωνο. Το Snapdragon 8 Gen 3 (ανακοινώθηκε στα τέλη του 2023, στα flagship τηλέφωνα του 2024) είναι ένα μεγάλο άλμα: Η Qualcomm λέει ότι το Hexagon NPU είναι 98% ταχύτερο από του Gen 2 και 40% πιο αποδοτικό σε ενέργεια futurumgroup.com. Αυτό το chip μπορεί να τρέξει μεγάλα γλωσσικά μοντέλα με έως και 10 δισεκατομμύρια παραμέτρους εξ ολοκλήρου στη συσκευή, επεξεργαζόμενο περίπου 20 tokens ανά δευτερόλεπτο – αρκετά για απλές συνομιλίες με έναν AI βοηθό χωρίς το cloud futurumgroup.com. Επίσης πέτυχε τη “γρηγορότερη Stable Diffusion στον κόσμο” για δημιουργία εικόνων σε κινητή συσκευή σε demos futurumgroup.com. Η Qualcomm έχει δηλώσει ανοιχτά ότι το on-device generative AI είναι βασικό πλεονέκτημα για τα νέα τηλέφωνα. Για παράδειγμα, συνεργάστηκαν με τη Meta για να βελτιστοποιήσουν το open-source Llama 2 LLM για Snapdragon, με στόχο να μπορείτε να τρέχετε AI chatbot στο τηλέφωνό σας μέχρι το 2024 iconnect007.com. (Ένα στέλεχος της Qualcomm είπε: «χειροκροτούμε την ανοιχτή προσέγγιση της Meta… για να κλιμακωθεί το generative AI, πρέπει να τρέχει τόσο στο cloud όσο και στο edge», ενισχύοντας τη φιλοσοφία του edge AI iconnect007.com.) Πέρα από τα τηλέφωνα, η Qualcomm τοποθετεί NPU και σε chips για laptops (τις πλατφόρμες Snapdragon compute για Windows on ARM) – και η αυτοκινητιστική της πλατφόρμα Snapdragon Ride χρησιμοποιεί τους ίδιους AI πυρήνες για να προσφέρει έως και 30 TOPS για ADAS, με πλάνο για εκατοντάδες TOPS. Το 2025, η Qualcomm ανακοίνωσε ακόμη και νέο Snapdragon X Elite CPU για PCs που περιλαμβάνει ισχυρό NPU, σηματοδοτώντας στόχο να ανταγωνιστεί Apple και Intel στην AI απόδοση στους προσωπικούς υπολογιστές. Με την άνοδο του on-device AI, η Qualcomm δίνει μάλιστα σε κάποια τηλέφωνα το brand “AI phones.” Προβλέπουν ότι πολλές εφαρμογές (από φωτογραφία μέχρι μηνύματα και παραγωγικότητα) θα αξιοποιούν το NPU. Στο λογισμικό, η Qualcomm κυκλοφόρησε το Qualcomm AI Stack για να ενοποιήσει την υποστήριξη για δημοφιλή frameworks (TensorFlow Lite, PyTorch, ONNX) στα NPU της iconnect007.com – προσπαθώντας να διευκολύνει τους developers να χρησιμοποιούν το AI hardware χωρίς βαθιά γνώση chip.
  • MediaTek: Ο #2 κατασκευαστής mobile chip (γνωστός για τη σειρά Dimensity) έχει επίσης αναβαθμίσει τα NPU του. Η MediaTek ονομάζει τις AI μηχανές της “APU” (AI Processing Unit). Για παράδειγμα, το Dimensity 9200+ (2023) διαθέτει έκτης γενιάς APU με σημαντική αύξηση απόδοσης σε σχέση με το προηγούμενο chip, επιτρέποντας λειτουργίες όπως on-device stable diffusion και AI μείωση θορύβου σε βίντεο. Το 2024, η MediaTek ανακοίνωσε το Dimensity 9400, και σε συνεργασία με την Oppo, αξιοποίησαν την προηγμένη αρχιτεκτονική NPU για να εισάγουν νέες AI λειτουργίες (όπως αναφέρθηκε, το AI photo remastering του Oppo Find X8 με αφαίρεση αντανακλάσεων και αποθάμπωμα υποστηρίζεται από το NPU της MediaTek) mediatek.com. Στελέχη της MediaTek έχουν τοποθετηθεί ξεκάθαρα ως πρωτοπόροι στο on-device AI. Όπως το έθεσε ο Will Chen της MediaTek, «το μέλλον της AI υπερβαίνει το cloud· καθοδηγείται από το edge computing απευθείας από την παλάμη του χεριού σας.» Κατά τη γνώμη τους, η AI στα τηλέφωνα πρέπει να είναι γρήγορη, ιδιωτική, ασφαλής και σταθερά προσβάσιμη mediatek.com. Η MediaTek δημιούργησε ακόμη και μια “APU-centric” συνεργασία με τη Meta για υποστήριξη των Llama frameworks και με κατασκευαστές συσκευών όπως η Oppo και η Xiaomi με έμφαση σε AI κάμερα και AI φωνητικές λειτουργίες. Μέχρι το 2025, η MediaTek σχεδιάζει να διαθέσει αυτά τα NPU όχι μόνο σε τηλέφωνα, αλλά και σε έξυπνες τηλεοράσεις (για AI upscaling και βελτίωση εικόνας), IoT συσκευές, και ακόμη και σε αυτοκίνητα (η MediaTek διαθέτει πλατφόρμα automotive AI και έχει συνεργαστεί με τη Nvidia για ενσωμάτωση Nvidia GPU IP για αυτοκίνητα, ενώ προφανώς παρέχει το δικό της NPU για AI αισθητήρων).
  • Intel: Το 2024 σηματοδότησε την είσοδο της Intel στους επιταχυντές AI σε mainstream υπολογιστές. Ο 14ης γενιάς επεξεργαστής Core της Intel (Meteor Lake, κυκλοφόρησε τον Δεκέμβριο του 2023 και μετονομάστηκε σε Core Ultra το 2024) είναι ο πρώτος επεξεργαστής PC x86 με ενσωματωμένη μονάδα νευρωνικής επεξεργασίας (NPU). Η NPU του Meteor Lake (μερικές φορές αποκαλείται VPU – Vision Processing Unit – βασισμένη στην τεχνολογία Movidius της Intel) προσφέρει περίπου 8–12 TOPS απόδοση AI pcworld.com. Αυτό χρησιμοποιείται για την επιτάχυνση των λειτουργιών AI των Windows 11, όπως το θόλωμα φόντου, η επαφή ματιών σε βιντεοκλήσεις, και θα μπορούσε να χρησιμοποιηθεί από εφαρμογές για τοπική μεταγραφή, καταστολή θορύβου ή ακόμα και μικρούς βοηθούς AI. Η Microsoft και η Intel προωθούν μαζί την έννοια του “AI PC.” Η Intel ισχυρίζεται ότι αυτές οι NPU θα ενσωματωθούν σε δεκάδες εκατομμύρια φορητούς υπολογιστές το 2024 pcworld.com. Μετά το Meteor Lake, ο οδικός χάρτης της Intel αναφέρει το Arrow Lake (για desktops το 2024) που επίσης περιλαμβάνει NPU (περίπου 13 TOPS, ελαφρώς βελτιωμένη) pcworld.com. Ενδιαφέρον είναι ότι η πρώτη προσπάθεια της Intel για NPU σε desktop ξεπεράστηκε στην πραγματικότητα από την AMD (βλ. παρακάτω), και η Intel επέλεξε να χρησιμοποιήσει μια μετριοπαθή σχεδίαση NPU για να μην θυσιάσει χώρο GPU/CPU στα chips για ενθουσιώδεις χρήστες pcworld.com. Όμως μέχρι τα τέλη του 2024, η Intel έδειξε ότι τα μελλοντικά chips Lunar Lake θα έχουν πολύ ισχυρότερη NPU (~45 TOPS) για να καλύψουν τις απαιτήσεις “Copilot” της Microsoft pcworld.com. Όλα αυτά δείχνουν ότι η Intel βλέπει την AI ως απαραίτητη για τους υπολογιστές στο μέλλον – όχι για την εκπαίδευση τεράστιων μοντέλων, αλλά για την επιτάχυνση καθημερινών εμπειριών με AI (από βελτιώσεις σε office suites μέχρι δημιουργικά εργαλεία με τοπική AI). Η Intel επίσης πουλά επιταχυντές edge AI όπως τα chips Intel Movidius Myriad (χρησιμοποιούνται σε μερικά drones, κάμερες) και τους επιταχυντές Habana για servers, αλλά η ενσωματωμένη NPU του Meteor Lake είναι ένα ορόσημο που φέρνει την AI στη συσκευή του μέσου καταναλωτή.
  • AMD: Η AMD μπήκε στον χώρο του AI στη συσκευή περίπου την ίδια περίοδο. Οι επεξεργαστές laptop Ryzen 7040 series (Phoenix) που κυκλοφόρησαν το 2023 διέθεταν τον πρώτο Ryzen AI Engine – ουσιαστικά ένα ενσωματωμένο XDNA NPU (τεχνολογία από την εξαγορά της Xilinx από την AMD). Αυτό το NPU παρείχε έως και 10 TOPS στο mobile chip en.wikipedia.org. Η AMD προέβαλε περιπτώσεις χρήσης όπως βιντεοκλήσεις με ενίσχυση AI, εφαρμογές παραγωγικότητας κ.λπ., παρόμοια με τους στόχους της Intel. Στη συνέχεια, η AMD κυκλοφόρησε για λίγο μια σειρά Ryzen 8000 για desktop (αρχές 2024) με NPU που έφτανε τα 39 TOPS – ένας πολύ υψηλός αριθμός για μονάδα AI σε CPU γενικής χρήσης, ξεπερνώντας ακόμη και τα σχέδια της Intel pcworld.com. Ωστόσο, η AMD άλλαξε γρήγορα πορεία και παρέλειψε μια γενιά, εστιάζοντας στην επόμενη αρχιτεκτονική της (ο επόμενος Ryzen 9000 στα τέλη του 2024 αφαίρεσε το NPU για να δοθεί προτεραιότητα στις αναβαθμίσεις των πυρήνων) pcworld.com. Παρ’ όλα αυτά, αναμένεται η AMD να επαναφέρει τα NPUs σε μελλοντικά PC chips (πιθανότατα πρόκειται για προσωρινή υποχώρηση καθώς εργάζονται στην ενσωμάτωση μιας ισχυρής AI μηχανής χωρίς να θυσιάσουν άλλες επιδόσεις). Από πλευράς προϊόντων, τα NPUs της AMD θα μπορούσαν να επιτρέψουν ενδιαφέροντα πράγματα, καθώς η AMD διαθέτει επίσης ισχυρές GPUs – ένας συνδυασμός που θα μπορούσε να διαχειριστεί AI εργασίες συνεργατικά (κάποια μέρη στο NPU, κάποια στη GPU). Η AMD έχει επίσης ενσωματώσει AI πυρήνες στα adaptive (FPGA-based) SoCs και στα chips για αυτοκίνητα. Συνοψίζοντας, μέχρι το 2025 όλοι οι κατασκευαστές x86 PC chips έχουν υιοθετήσει τα NPUs, ευθυγραμμιζόμενοι με ό,τι έκαναν τα smartphones μερικά χρόνια νωρίτερα, υποδεικνύοντας ότι η επιτάχυνση AI γίνεται πλέον βασικό χαρακτηριστικό σε όλες τις συσκευές.
  • Άλλοι: Μια ποικιλία εξειδικευμένων εταιρειών chip και άλλων τεχνολογικών εταιρειών καινοτομούν επίσης στα NPU. Η NVIDIA, γνωστή για τις GPU, πλέον περιλαμβάνει ειδικούς Tensor Cores στις GPU της και προσφέρει ένα open NVDLA (deep learning accelerator) σχέδιο για ενσωμάτωση σε προϊόντα System-on-Chip. Σε edge συσκευές όπως η σειρά NVIDIA Jetson (που χρησιμοποιείται σε ρομπότ, drones, ενσωματωμένα συστήματα), υπάρχουν τόσο η GPU όσο και σταθερής λειτουργίας “DLA” – ουσιαστικά NPU – που αποφορτίζουν μέρος της εκτέλεσης νευρωνικών δικτύων από την GPU. Το module Orin της NVIDIA, για παράδειγμα, έχει 2 DLA επιπλέον της GPU του, συμβάλλοντας στα 254 TOPS απόδοσης AI για αυτοκίνητα ts2.tech. Η Apple φημολογείται ότι εργάζεται σε ακόμα πιο προηγμένους AI συνεπεξεργαστές ή μεγαλύτερες neural engines για τα AR γυαλιά της ή μελλοντικά projects, αν και οι λεπτομέρειες παραμένουν μυστικές. Η Huawei (παρά τις γεωπολιτικές προκλήσεις) συνεχίζει να σχεδιάζει mobile chips Kirin με NPU (η αρχιτεκτονική “DaVinci” NPU τους) και επίσης server-class NPU στα Ascend AI chips της – το chip Kirin 9000S του 2023 φέρεται να διατηρεί ισχυρό NPU για εργασίες εικόνας και γλώσσας στα τηλέφωνά τους. Βλέπουμε επίσης startups όπως οι Hailo, Mythic, Graphcore και άλλες να προσφέρουν τα δικά τους edge AI chips: π.χ. Hailo-8 όπως αναφέρθηκε (26 TOPS σε mini PCIe κάρτα για AI κάμερες), το IPU της Graphcore για datacenters (όχι ακριβώς on-device, αλλά νέα αρχιτεκτονική για neural nets), η Mythic που εργάζεται σε αναλογικά NPU, κ.λπ. Η ARM, της οποίας τα σχέδια αποτελούν τη βάση των περισσότερων mobile chips, προσφέρει τη σειρά Ethos NPU (όπως Ethos-U, Ethos-N78) που οι κατασκευαστές chip μπορούν να ενσωματώσουν για να αποκτήσουν έναν έτοιμο AI επιταχυντή σε IoT ή mid-range SoCs. Αυτό επέτρεψε ακόμα και σε σχετικά μικρότερους παίκτες να συμπεριλάβουν NPU στα chip τους αδειοδοτώντας το σχέδιο της ARM.Το συμπέρασμα είναι ότι από τις μεγάλες τεχνολογικές εταιρείες μέχρι τα startups, όλοι επενδύουν σε on-device AI silicon. Ως αποτέλεσμα, βλέπουμε ταχείες βελτιώσεις: νέα chips με υψηλότερα TOPS, καλύτερη αποδοτικότητα (TOPS ανά watt) και υποστήριξη για νέους τύπους δεδομένων (όπως 4-bit quantization για μεγαλύτερα μοντέλα). Για παράδειγμα, τα τελευταία της Qualcomm και MediaTek μπορούν να τρέξουν INT4 precision, κάτι που είναι εξαιρετικό για generative AI μοντέλα όπου το memory bandwidth είναι περιοριστικός παράγοντας androidauthority.com. Αυτές οι καινοτομίες μεταφράζονται άμεσα σε οφέλη για τον χρήστη – π.χ. real-time mobile AI video editing (αφαίρεση αντικειμένων από 4K video σε πραγματικό χρόνο, όπως μπορεί να κάνει το Snapdragon 8 Gen 3 με το “Video Object Eraser” AI feature futurumgroup.com), ή AI συνεπεξεργαστές σε αυτοκίνητα που επιτρέπουν φωνητικούς βοηθούς να λειτουργούν χωρίς δίκτυο και να απαντούν τόσο γρήγορα όσο μια ανθρώπινη συνομιλία.Κύρια Νέα από το 2024–2025: Κυκλοφορίες, Benchmarks και ΣυνεργασίεςΓια να δείξουμε πόσο γρήγορα κινούνται τα πράγματα, εδώ είναι μερικά headline events στον κόσμο των NPU/TPU και του on-device AI από τα τέλη του 2024 έως το 2025:
  • Αποκαλύψεις Apple M3 και M4 (Οκτ 2023 & Μάιος 2024): Έφεραν νεότερης γενιάς Neural Engines. Το Neural Engine του M3 φτάνει τα 18 TOPS (16 πυρήνες), και το M4 ανέβηκε στα 38 TOPS (ακόμα 16 πυρήνες αλλά με υψηλότερη συχνότητα/αποδοτικότητα) apple.fandom.com. Η Apple έδειξε αυτά τα chips να διαχειρίζονται απαιτητικές εργασίες όπως η δημιουργία εικόνων stable diffusion στη συσκευή σε macOS (με το Core ML Stable Diffusion, οι developers έδειξαν ~15 δευτερόλεπτα για να παραχθεί μια εικόνα σε M2 – ακόμα πιο γρήγορα σε M3/M4).
  • Λανσάρισμα Google Pixel 8 (Οκτ 2023): Τόνισε την τεχνητή νοημοσύνη «παντού» στη συσκευή. Η εκδήλωση της Google έδειξε το Pixel 8 να συνοψίζει ιστοσελίδες και να μεταφράζει ζωντανά άρθρα στη συσκευή χρησιμοποιώντας το Tensor G3 NPU. Παρουσιάστηκε επίσης το “Assistant with Bard” που τελικά θα εκτελεί κάποιες αλληλεπιδράσεις στη συσκευή. Η Google τόνισε ότι το Pixel 8 μπορεί να τρέξει 2× περισσότερα μοντέλα στη συσκευή από ό,τι το Pixel 6, και μοντέλα πολύ πιο εξελιγμένα blog.google. Με άλλα λόγια, τεράστιο άλμα σε μόλις δύο χρόνια ανάπτυξης των chip Tensor.
  • Συνεργασία Qualcomm–Meta (Ιούλιος 2023): Η Qualcomm και η Meta ανακοίνωσαν ότι βελτιστοποιούν το μεγάλο γλωσσικό μοντέλο Llama 2 της Meta ώστε να τρέχει εξ ολοκλήρου σε Snapdragon NPUs μέχρι το 2024 iconnect007.com. Στόχος είναι να επιτρέψουν στους developers να αναπτύσσουν chatbots και εφαρμογές γενετικής AI σε τηλέφωνα, VR headsets, PCs, κ.λπ., χωρίς cloud. Αυτή ήταν μια σημαντική επιβεβαίωση της AI στη συσκευή από έναν μεγάλο κάτοχο μοντέλου AI (Meta) και έναν μεγάλο κατασκευαστή chips. Στα τέλη του 2024, ακολούθησαν με σχέδια για βελτιστοποίηση και του Llama 3 qualcomm.com.
  • Microsoft Windows 11 “Copilot” PCs (2024): Η Microsoft έθεσε ένα σημείο αναφοράς ορίζοντας τα PCs με >40 TOPS τοπικής AI επιτάχυνσης ως “AI PCs” που πληρούν τις προϋποθέσεις για ενισχυμένες AI λειτουργίες (όπως η ενσωμάτωση του ψηφιακού βοηθού Copilot). Αυτό ώθησε τους OEMs – Lenovo, Dell, κ.ά. – να υιοθετήσουν chips με NPUs (είτε Intel, AMD, είτε Qualcomm) για να καλύψουν τις προδιαγραφές. Το αποτέλεσμα είναι ένα αναμενόμενο κύμα φορητών υπολογιστών με δυνατότητες AI το 2024, με τη Microsoft να δηλώνει δεκάδες μοντέλα καθ’ οδόν και να προβλέπει πάνω από 40 εκατομμύρια αποστολές AI PCs το 2024 pcworld.com.
  • Η σύντομη παρουσίαση της AMD για το Ryzen 8000 NPU (Ιαν 2024): Η AMD ανακοίνωσε έναν επιτραπέζιο επεξεργαστή με εντυπωσιακό NPU 39 TOPS (έκπληξη, καθώς οι desktop επεξεργαστές συνήθως δεν διαθέτουν τέτοιους επιταχυντές) pcworld.com. Αν και το συγκεκριμένο προϊόν αντικαταστάθηκε γρήγορα, έδειξε ότι ακόμα και οι desktop CPU μπορούν να έχουν AI πυρίτιο που ανταγωνίζεται τα mobile chips σε TOPS. Ήταν επίσης ο πρώτος desktop x86 επεξεργαστής που διέθετε NPU (μόλις πρόλαβε τον Intel Arrow Lake).
  • Επιδείξεις Tesla FSD Beta v12 (τέλη 2023): Ο Elon Musk παρουσίασε end-to-end AI οδήγηση (χωρίς ραντάρ, μόνο vision nets) που τρέχει στα NPU των Tesla HW3/HW4. Αξιοσημείωτο ήταν ότι το νευρωνικό δίκτυο οδηγούσε το αυτοκίνητο χρησιμοποιώντας video feeds που επεξεργάζονταν εξ ολοκλήρου στον υπολογιστή του αυτοκινήτου σε πραγματικό χρόνο. Παρατηρητές σημείωσαν ότι το FSD v12 αξιοποιούσε πλήρως τα 2× 100 TOPS NPU για vision, και η Tesla υπαινίχθηκε ότι μελλοντικές αναβαθμίσεις (HW5) με στόχο τα 2000 TOPS ίσως αναπτύσσονται για να διαχειριστούν ακόμα μεγαλύτερα μοντέλα (υπήρχαν φήμες ότι το HW5 της Tesla θα μπορούσε να στοχεύει τα 2 petaFLOPS = 2000 TOPS) notateslaapp.com.
  • Αποκάλυψη NVIDIA Drive Thor (2024 GTC): Η NVIDIA αποκάλυψε λεπτομέρειες για το επόμενο αυτοκινητιστικό της chip, το Drive Thor, που προσφέρει το ισοδύναμο 2× της AI υπολογιστικής ισχύος του προκατόχου του Orin – έως 2000 TOPS όταν συνδέονται δύο chips ts2.tech. Σημαντικό είναι ότι το Thor προορίζεται όχι μόνο για καθήκοντα οδήγησης αλλά και για in-cabin AI (όπως φωνητικές εντολές και παρακολούθηση επιβατών) σε μία πλατφόρμα, δείχνοντας πώς τα NPU και GPU μαζί μπορούν να ενοποιήσουν πολλές AI λειτουργίες στα αυτοκίνητα ts2.tech. Αρκετοί κατασκευαστές αυτοκινήτων (Xpeng, BYD, Volvo) ανακοίνωσαν ότι θα χρησιμοποιήσουν το Thor από το 2025 ts2.tech.
  • On-device MoE AI της Oppo (Οκτ 2024): Όπως αναφέρθηκε, η Oppo υλοποίησε ένα μοντέλο Mixture-of-Experts στη συσκευή Find X8 grandviewresearch.com. Αυτό είναι αξιοσημείωτο επειδή τα MoE μοντέλα είναι συνήθως μεγάλα και θεωρούνταν server-side λόγω της πολυπλοκότητάς τους. Η εκτέλεση MoE στη συσκευή υποδηλώνει νέες τεχνικές συμπίεσης μοντέλων και ένα πολύ ικανό NPU (πιθανότατα το MediaTek Dimensity 9400 σε αυτή τη συσκευή).
  • Γυαλιά AI Ray-Ban της Meta (2025): (Αναμενόμενο) Η Meta παρουσίασε πρωτότυπα έξυπνων γυαλιών που μπορούν να αναγνωρίζουν τι βλέπετε και να σας μιλούν σχετικά – πιθανότατα χρησιμοποιώντας έναν ενσωματωμένο προσαρμοσμένο επιταχυντή (η Meta έχει δημιουργήσει πρωτότυπα προσαρμοσμένης σιλικόνης για AR). Αν και οι λεπτομέρειες είναι ελάχιστες, αυτό υπογραμμίζει την ώθηση για ενσωμάτωση AI σε πολύ περιορισμένες συσκευές (γυαλιά, ασύρματα ακουστικά) που θα απαιτούσαν εξαιρετικά αποδοτικές NPU.
  • Δοκιμές MLPerf Mobile Inference (2023–24): Η MLCommons δημοσίευσε αποτελέσματα που δείχνουν τις δυνατότητες AI των πιο πρόσφατων smartphones. Για παράδειγμα, στο MLPerf Inference v3.0 (Οκτ 2023), τα Apple A16, Google Tensor G2 και Qualcomm Gen 2 αξιολογήθηκαν σε εργασίες όπως ταξινόμηση εικόνων και ανίχνευση αντικειμένων. Τα αποτελέσματα έδειξαν ότι η Apple και η Qualcomm εναλλάσσονται στις νίκες, αλλά γενικά οι mobile NPU πλησιάζουν την απόδοση ορισμένων επιταχυντών επιπέδου laptop/desktop για αυτές τις εργασίες – και όλα αυτά με μπαταρία. Τονίστηκαν επίσης οι διαφορές στο λογισμικό (π.χ. το AI SDK της Qualcomm έναντι του Apple Core ML). Οι συνεχείς βελτιώσεις κάθε χρόνο (διψήφια ποσοστιαία αύξηση) σε αυτά τα benchmarks δείχνουν τον υγιή ανταγωνισμό και την ταχεία πρόοδο στο AI επί της συσκευής.
  • Στρατηγικές συνεργασίες: Πολλές διακλαδικές συνεργασίες σχηματίστηκαν. Π.χ., η NVIDIA και η MediaTek (Μάιος 2023) ανακοίνωσαν συνεργασία για να ενσωματώσουν το GPU IP και το οικοσύστημα λογισμικού της Nvidia στα μελλοντικά chips smartphone και αυτοκινήτου της MediaTek, συνδυάζοντας ουσιαστικά τα πλεονεκτήματα της Nvidia στο AI με την τεχνογνωσία της MediaTek στα mobile SoC. Επίσης, εταιρείες όπως η Qualcomm συνεργάζονται με αυτοκινητοβιομηχανίες (Mercedes, BMW) για να ενσωματώσουν τις πλατφόρμες Snapdragon Cockpit και Ride (με NPU) σε νέα οχήματα για λειτουργίες AI. Η Arm συνεργάζεται με τη Fujitsu και άλλους για νέα σχέδια chip AI (όπως το AI partition του υπερυπολογιστή Fugaku, αν και αυτό είναι υψηλού επιπέδου). Ακόμα και οι IBM και Samsung παρουσίασαν νέες τεχνολογίες chip (όπως neuromorphic computing και AI memory) που ίσως μια μέρα φέρουν επανάσταση στις NPU – δεν είναι ακόμα εδώ, αλλά δείχνουν ότι οι ερευνητικοί αγωγοί είναι γεμάτοι.
  • Συνολικά, το περασμένο έτος ήταν γεμάτο με εξελίξεις, υπογραμμίζοντας ότι το AI επί της συσκευής είναι ένας από τους πιο καυτούς τομείς στην τεχνολογία. Όπως σημείωσε ένας αναλυτής του κλάδου, «αυτές οι δυνατότητες επί της συσκευής ανοίγουν εντελώς νέους ορίζοντες… η εκτέλεση LLM σε κινητά βοηθά στην αντιμετώπιση της κλίμακας και του κόστους, διατηρεί τα δεδομένα ιδιωτικά και διασφαλίζει ότι το AI λειτουργεί ακόμα και με περιορισμένη συνδεσιμότητα» futurumgroup.com. Αυτό συνοψίζει γιατί κάθε μεγάλη τεχνολογική εταιρεία επενδύει εδώ.

    Εμπειρογνωμοσύνη: Τι λένε οι ηγέτες της τεχνολογίας για το AI επί της συσκευής

    Η δυναμική πίσω από τις NPU και TPU δεν είναι εμφανής μόνο στα προϊόντα αλλά και στα λόγια των ηγετών του κλάδου. Ακολουθούν μερικά χαρακτηριστικά αποσπάσματα και οπτικές που φωτίζουν τη σημασία του AI επί της συσκευής:

    • Κριστιάνο Αμόν (CEO της Qualcomm): «Αν η ΤΝ πρόκειται να κλιμακωθεί, θα τη δείτε να τρέχει σε συσκευές… Αυτό σηματοδοτεί ένα σημείο καμπής στην ΤΝ: χωρίς προβλήματα καθυστέρησης — απλώς απρόσκοπτη, ασφαλής, συμπληρωματική με το cloud επεξεργασία πάνω στη συσκευή. Το μέλλον της ΤΝ είναι προσωπικό, και ξεκινά από τη δική σας συσκευή.» (Συνέντευξη στο Bloomberg και ανάρτηση στο X, 2023) x.com. Ο Αμόν οραματίζεται έναν υβριδικό κόσμο ΤΝ όπου το τηλέφωνο/PC σας διαχειρίζεται πολλά μόνο του με τα δικά του NPU, συνεργαζόμενο με το cloud όταν χρειάζεται. Τονίζει ότι η τοπική εκτέλεση ΤΝ είναι το κλειδί για να γίνει πανταχού παρούσα (δεν γίνεται όλα να βασίζονται σε cloud GPU – δεν υπάρχουν αρκετά στον κόσμο για δισεκατομμύρια συσκευές).
    • Ντούργκα Μαλαδί (SVP, Qualcomm): «Χαιρετίζουμε την προσέγγιση της Meta για ανοιχτή και υπεύθυνη ΤΝ… Για να κλιμακωθεί αποτελεσματικά η γενετική ΤΝ στο ευρύ κοινό, η ΤΝ θα πρέπει να τρέχει τόσο στο cloud όσο και σε συσκευές στην άκρη του δικτύου.» iconnect007.com Ο Μαλαδί το είπε αυτό στο πλαίσιο της συνεργασίας με τη Meta. Τονίζει μια κοινή άποψη: κλιμάκωση ΤΝ = cloud + edge που συνεργάζονται. Πλέον υπάρχει η κατανόηση ότι η αποκλειστικά cloud ΤΝ δεν θα επαρκεί (λόγω κόστους, ιδιωτικότητας και καθυστέρησης), οπότε η edge ΤΝ πρέπει να μοιραστεί το φορτίο.
    • Γουίλ Τσεν (Αναπλ. Γεν. Διευθυντής, MediaTek): «Το μέλλον της ΤΝ υπερβαίνει το cloud· καθοδηγείται από το edge computing απευθείας από την παλάμη του χεριού σας… Η OPPO και η MediaTek πρωτοπορούν στην ΤΝ πάνω στη συσκευή, διασφαλίζοντας ότι οι έξυπνες δυνατότητες είναι ισχυρές, γρήγορες, ιδιωτικές, ασφαλείς και σταθερά προσβάσιμες.» (MediaTek Exec Talk, 2025) mediatek.com. Αυτό το απόσπασμα συνοψίζει εύστοχα την αξία της ΤΝ πάνω στη συσκευή – έχετε απόδοση και προσβασιμότητα συν ιδιωτικότητα και ασφάλεια. Δείχνει επίσης ότι ακόμη και εταιρείες παραδοσιακά λιγότερο ορατές στη Δύση (όπως η MediaTek) σκέφτονται στην αιχμή της ανάπτυξης της ΤΝ.
    • Δρ. Νόρμαν Γουάνγκ (ειδικός σε hardware ΤΝ, CEO startup μικροτσίπ): «Στο hardware ΤΝ, όσο πιο κοντά μπορείς να βάλεις την υπολογιστική ισχύ στην πηγή των δεδομένων, τόσο το καλύτερο. Είναι θέμα μείωσης της μετακίνησης δεδομένων. Ένα NPU δίπλα στον αισθητήρα εικόνας σημαίνει ότι δεν στέλνεις megapixel στο cloud – αντλείς συμπεράσματα απευθείας στην άκρη. Αυτό αλλάζει το παιχνίδι για την καθυστέρηση και την κατανάλωση ενέργειας.» (Πάνελ στο HotChips 2024 – παραφρασμένο). Αυτή η τεχνική παρατήρηση εξηγεί γιατί τα NPU συχνά βρίσκονται στο ίδιο chip με άλλα εξαρτήματα: π.χ., στο SoC ενός τηλεφώνου, το NPU μπορεί να πάρει απευθείας δεδομένα κάμερας από το ISP. Η ελαχιστοποίηση της μετακίνησης δεδομένων είναι τεράστιο μέρος της αποδοτικής ΤΝ, και η edge ΤΝ το πετυχαίνει επεξεργαζόμενη στην πηγή των δεδομένων.
    • Xinzhou Wu (Αντιπρόεδρος Αυτοκινητοβιομηχανίας, NVIDIA): «Ο επιταχυνόμενος υπολογισμός έχει οδηγήσει σε μεταμορφωτικές ανακαλύψεις, συμπεριλαμβανομένης της γενετικής τεχνητής νοημοσύνης, η οποία επαναπροσδιορίζει την αυτονομία και τη βιομηχανία μεταφορών.» (GTC 2024 Keynote) ts2.tech. Συζητούσε πώς οι ισχυροί ενσωματωμένοι υπολογιστές (με NPU/GPUs) επιτρέπουν στα αυτοκίνητα όχι μόνο να οδηγούν, αλλά και να ενσωματώνουν προηγμένη τεχνητή νοημοσύνη όπως γενετικά μοντέλα για λειτουργίες όπως διεπαφές φυσικής γλώσσας στο αυτοκίνητο ή καλύτερη κατανόηση καταστάσεων. Αυτό υπογραμμίζει ότι ακόμη και τομείς όπως η αυτοκινητοβιομηχανία βλέπουν την τεχνητή νοημοσύνη στη συσκευή όχι μόνο ως βασική λειτουργικότητα αλλά και για τη βελτίωση της εμπειρίας χρήστη (π.χ. φωνητικοί βοηθοί στα αυτοκίνητα που μπορούν να συνομιλούν χάρη στα ενσωματωμένα LLMs).
    • Sundar Pichai (Διευθύνων Σύμβουλος της Google): «Το μέλλον της τεχνητής νοημοσύνης είναι να γίνει χρήσιμη για όλους. Αυτό σημαίνει να φέρουμε την τεχνητή νοημοσύνη σε όλες τις συσκευές που χρησιμοποιούμε – τηλέφωνα, οικιακές συσκευές, αυτοκίνητα – ώστε να είναι εκεί όταν τη χρειάζεστε. Θέλουμε να συναντήσουμε τους χρήστες εκεί που βρίσκονται, με τεχνητή νοημοσύνη που λειτουργεί σε πραγματικό χρόνο, τοπικά και διατηρεί το απόρρητο.» (Παραφρασμένο από πολλαπλές συνεντεύξεις/ομιλίες). Ο Pichai συχνά μιλά για την «περιβάλλουσα τεχνητή νοημοσύνη» – την ιδέα ότι η τεχνητή νοημοσύνη θα είναι παντού γύρω μας, ενσωματωμένη στα πράγματα. Η προώθηση της Google με τα τσιπ Tensor στα Pixel είναι άμεση εφαρμογή αυτής της φιλοσοφίας.
    • Στατιστικά του κλάδου: Οι αναλυτές έχουν παρατηρήσει την τάση με αριθμούς. Μια έκθεση της Grand View Research το 2024 ανέφερε: «Οι πρόσφατες εξελίξεις σε εξειδικευμένα τσιπ τεχνητής νοημοσύνης και NPU έχουν επιτρέψει τη λειτουργία σύνθετων αλγορίθμων τεχνητής νοημοσύνης απευθείας στις συσκευές, ενισχύοντας σημαντικά την απόδοση και την ενεργειακή απόδοση… πλησιάζουμε σε μια καθοριστική μετάβαση προς την τεχνητή νοημοσύνη στη συσκευή.» grandviewresearch.com. Η ίδια έκθεση προβλέπει ότι η αγορά τεχνητής νοημοσύνης στη συσκευή θα εκραγεί τα επόμενα χρόνια, με το τμήμα υλικού (NPU κ.λπ.) να αποτελεί πάνω από το 60% του μεριδίου εσόδων το 2024 και να αυξάνεται καθώς σχεδόν κάθε νέα συσκευή IoT ή κινητή υιοθετεί δυνατότητες τεχνητής νοημοσύνης grandviewresearch.com. Μια άλλη πρόβλεψη από την IDC και άλλους υποδηλώνει ότι μέχρι τα μέσα της δεκαετίας του 2020, σχεδόν όλα τα high-end smartphones και η πλειοψηφία των mid-range θα διαθέτουν επιταχυντές τεχνητής νοημοσύνης, και ότι μέχρι το 2030, δισεκατομμύρια τσιπ edge AI θα χρησιμοποιούνται από τα καταναλωτικά ηλεκτρονικά έως τις έξυπνες υποδομές.

    Η συναίνεση μεταξύ των ειδικών είναι ότι η τεχνητή νοημοσύνη στη συσκευή δεν είναι απλώς ένα ωραίο πρόσθετο – είναι απαραίτητη για το επόμενο κύμα τεχνολογίας. Ο πρωτοπόρος της τεχνητής νοημοσύνης Andrew Ng έχει αναφέρει συχνά ότι η «μικροσκοπική τεχνητή νοημοσύνη» και η edge AI θα επιτρέψουν στη νοημοσύνη να διεισδύσει σε κάθε αντικείμενο, παρόμοια με το πώς το ηλεκτρικό ρεύμα ή το διαδίκτυο το έκαναν σε προηγούμενες εποχές. Ξεπερνώντας τους περιορισμούς της τεχνητής νοημοσύνης μόνο στο cloud, τα NPU και TPU επιτρέπουν αυτή τη διείσδυση.

    Η Πρόκληση των Πολλών Προτύπων (και οι Προσπάθειες Απλοποίησης)

    Ενώ το hardware έχει εξελιχθεί γρήγορα, το οικοσύστημα του λογισμικού και των προτύπων για AI στη συσκευή ακόμα προσπαθεί να συμβαδίσει. Οι προγραμματιστές αντιμετωπίζουν μια ζούγκλα από εργαλεία και SDKs όταν προσπαθούν να αξιοποιήσουν τα NPUs σε διαφορετικές συσκευές nimbleedge.com. Βασικά σημεία:
    • Κάθε πλατφόρμα έχει το δικό της API ή SDK: Η Apple έχει το Core ML (με APIs για στόχευση του Neural Engine), το Android έχει το Neural Networks API (NNAPI) (αν και η Google ανακοίνωσε σχέδια να το εξελίξει πέρα από το Android 14) threads.com, η Qualcomm προσφέρει το SNPE (Snapdragon Neural Processing Engine) ή ευρύτερα το Qualcomm AI Stack, η NVIDIA έχει το TensorRT και CUDA για τις συσκευές της, κ.ο.κ. Υπάρχουν επίσης τα ONNX Runtime, TensorFlow Lite, PyTorch Mobile, MediaTek NeuroPilot, Huawei HiAI και άλλα. Αυτά τα διαφορετικά SDKs συχνά έχουν διαφορετικές δυνατότητες και απαιτούν προσαρμογή του μοντέλου για να τρέχουν βέλτιστα σε κάθε στόχο. Όπως σημείωσε μια αναφορά για AI στη συσκευή το 2025, «Πολλαπλά, μη συμβατά SDKs (π.χ. Core ML, LiteRT, ONNX Runtime) με διαφορετική υποστήριξη operators και απόδοση» αναγκάζουν τους προγραμματιστές να κάνουν επιπλέον δουλειά nimbleedge.com.
    • Θέματα κατακερματισμού: Ένα μοντέλο που τρέχει τέλεια σε desktop GPU μπορεί να μην τρέχει άμεσα σε NPU κινητού – οι operators (οι μαθηματικές συναρτήσεις) μπορεί να μην υποστηρίζονται ή να χρειάζονται διαφορετική ποσοτικοποίηση. Οι προγραμματιστές μερικές φορές πρέπει να διατηρούν ξεχωριστά builds ή να βελτιστοποιούν χειροκίνητα τα μοντέλα για κάθε hardware. Αυτή είναι η «χαμηλού επιπέδου, κατακερματισμένη οικοσυστημική κατάσταση» καταγγελία nimbleedge.com. Τα εργαλεία εντοπισμού σφαλμάτων είναι επίσης λίγα – το profiling ενός NPU για να δεις γιατί ένα μοντέλο είναι αργό μπορεί να είναι δύσκολο, ειδικά σε σύγκριση με τα πλούσια εργαλεία για CPUs/GPUs nimbleedge.com.
    • Προσπάθειες τυποποίησης: Για να αντιμετωπιστεί αυτό, υπάρχουν μερικές ενέργειες σε εξέλιξη. Το ONNX (Open Neural Network Exchange) έχει αναδειχθεί ως μια κοινή μορφή ώστε να μπορείτε να εκπαιδεύετε ένα μοντέλο σε PyTorch ή TensorFlow και στη συνέχεια να το εξάγετε σε ONNX για ανάπτυξη. Πολλά runtimes (συμπεριλαμβανομένων αυτών που τρέχουν στη συσκευή, όπως της Qualcomm και της MediaTek) υποστηρίζουν την εισαγωγή μοντέλων ONNX και θα προσπαθήσουν να τα μεταγλωττίσουν για το υλικό. Αυτό βοηθά στην αποφυγή εγκλωβισμού σε ένα μόνο framework. Το Android NNAPI ήταν μια προσπάθεια της Google να παρέχει μια καθολική διεπαφή – μια εφαρμογή μπορεί να ζητήσει «τρέξε αυτό το νευρωνικό δίκτυο» μέσω του NNAPI και το λειτουργικό σύστημα θα χρησιμοποιήσει όποιον επιταχυντή είναι διαθέσιμος (GPU, DSP ή NPU) για να το εκτελέσει. Το NNAPI υιοθετήθηκε σε πολλές συσκευές Android, αλλά είχε περιορισμούς και δεν παρείχαν όλοι οι κατασκευαστές ισχυρούς drivers, οδηγώντας τη Google να υποδείξει μια νέα στρατηγική (ίσως βασιζόμενη στο WebNN ή σε άμεσες ενσωματώσεις κατασκευαστών) μετά το 2024 threads.com. Στους υπολογιστές, η Microsoft εισήγαγε τα DirectML και Windows ML APIs για να αφαιρέσει με παρόμοιο τρόπο τις διαφορές υλικού (επιτρέποντας σε έναν προγραμματιστή να χρησιμοποιεί το ίδιο API για NVIDIA, Intel, AMD NPUs).Ενοποιημένες αλυσίδες εργαλείων: Οι εταιρείες δημιουργούν επίσης toolchains για να απλοποιήσουν την ανάπτυξη. Είδαμε το AI Stack της Qualcomm που συνδυάζει τον μεταγλωττιστή τους (AI Model Efficiency Toolkit) και τα runtimes ώστε οι προγραμματιστές να μπορούν να στοχεύουν πιο εύκολα το Hexagon NPU τους iconnect007.com. Τα TensorRT της NVIDIA και τα σχετικά SDKs κάνουν κάτι παρόμοιο για τις συσκευές Jetson, βελτιστοποιώντας μοντέλα για GPU+NVDLA. Το Intel OpenVINO είναι ένα άλλο – σας επιτρέπει να πάρετε ένα μοντέλο και να το βελτιστοποιήσετε για Intel CPUs, iGPUs και VPUs (NPUs) για ανάπτυξη στο edge. Αυτά τα frameworks συχνά περιλαμβάνουν βελτιστοποιητές μοντέλων που μετατρέπουν τα μοντέλα (pruning, quantizing) ώστε να χωρούν σε μικρότερες συσκευές.Διαλειτουργικότητα: Υπάρχει κίνηση προς το να λειτουργούν διαφορετικά NPUs με κοινά frameworks. Για παράδειγμα, το TensorFlow Lite της Google έχει hardware delegates – ένα για το NNAPI (καλύπτει γενικά συσκευές Android), ένα για το Core ML (συσκευές iOS), ένα για το Edge TPU, κ.λπ. Η ιδέα είναι να γράφετε το μοντέλο σας σε TFLite και να εκτελείται χρησιμοποιώντας τον καλύτερο διαθέσιμο επιταχυντή μέσω του delegate. Παρομοίως, το PyTorch έχει προσθέσει υποστήριξη για mobile backends και ακόμη και για πράγματα όπως τα Metal Performance Shaders της Apple (για χρήση GPU/NPU σε iOS). Το ONNX Runtime μπορεί επίσης να στοχεύσει διαφορετικούς επιταχυντές μέσω plugins (π.χ., μπορεί να συνδεθεί το TensorRT της NVIDIA ή το Compute Library της ARM ή άλλα στο παρασκήνιο).Αναδυόμενα πρότυπα: Η Khronos Group (πίσω από τα OpenGL/Vulkan) εργάστηκε στο NNEF (Neural Network Exchange Format) και συζητείται το WebNN API για να έχουν τα προγράμματα περιήγησης πρόσβαση σε τοπική επιτάχυνση AI. Κανένα δεν έχει υιοθετηθεί καθολικά ακόμα. Αλλά μια ενδιαφέρουσα εξέλιξη: στα τέλη του 2024, αρκετές εταιρείες σχημάτισαν μια συμμαχία για να προωθήσουν πρότυπα “AI Hardware Common Layer” – ουσιαστικά, εξετάζοντας αν μπορεί να δημιουργηθεί μια κοινή διεπαφή χαμηλού επιπέδου για NPUs (ανάλογη με το πώς το OpenCL λειτούργησε για το compute σε GPUs). Είναι νωρίς ακόμα.
    • Εμπειρία προγραμματιστή: Είναι ένα αναγνωρισμένο κενό. Όπως ανέφερε το blog της NimbleEdge, «η ανάπτυξη για AI στη συσκευή απαιτεί προς το παρόν πλοήγηση σε ένα κατακερματισμένο και χαμηλού επιπέδου οικοσύστημα… αναγκάζοντας τους προγραμματιστές να προσαρμόζουν υλοποιήσεις για κάθε στόχο υλικού» nimbleedge.com. Η βιομηχανία γνωρίζει ότι αυτό πρέπει να βελτιωθεί ώστε το AI στη συσκευή να γίνει πραγματικά mainstream. Ίσως δούμε ενοποίηση – για παράδειγμα, αν Google, Apple και Qualcomm μπορούσαν να συμφωνήσουν σε ένα βασικό σύνολο λειτουργιών και API (ίσως ευσεβής πόθος). Πιο πιθανό όμως είναι ότι frameworks όπως τα PyTorch και TensorFlow θα κρύψουν την πολυπλοκότητα ενσωματώνοντας όλες αυτές τις βιβλιοθήκες των κατασκευαστών και επιλέγοντας τη σωστή κατά το runtime.

    Στην ουσία, ενώ τα NPUs/TPUs παρέχουν τη δύναμη, η κοινότητα εργάζεται πάνω σε εργαλεία φιλικά προς τον χρήστη για να αξιοποιήσει αυτή τη δύναμη. Τα καλά νέα είναι ότι σε σύγκριση με πριν πέντε χρόνια, υπάρχουν πολύ περισσότερες επιλογές για να αναπτύξει κανείς ένα μοντέλο στη συσκευή χωρίς να είναι ειδικός στα chips. Υπάρχει όμως περιθώριο βελτίωσης – ειδικά στο debugging, το profiling και την υποστήριξη πολλαπλού υλικού.

    Τάσεις της αγοράς και μελλοντική προοπτική

    Η εξάπλωση των NPUs και TPUs στις συσκευές οδηγεί μια μεγαλύτερη τάση: AI παντού. Ακολουθούν μερικές γενικές τάσεις και τι να περιμένουμε στο μέλλον:

    • Ανάπτυξη της αγοράς Edge AI: Η έρευνα αγοράς δείχνει εκρηκτική ανάπτυξη στο hardware edge AI. Η αγορά AI στη συσκευή (συμπεριλαμβανομένων chips και λογισμικού) προβλέπεται να αυξηθεί με ~29% CAGR μέσα στη δεκαετία nimbleedge.com. Μια αναφορά την αποτιμά στα ~$233 δισεκατομμύρια το 2024, με πρόβλεψη να ξεπεράσει τα $1,7 τρισεκατομμύρια μέχρι το 2032 nimbleedge.com – μεγάλο μέρος αυτής της ανάπτυξης βασίζεται σε edge deployments. Μια άλλη ανάλυση της IDTechEx προβλέπει ότι η αγορά AI chips για edge συσκευές θα φτάσει τα $22 δισεκατομμύρια μέχρι το 2034, με τα καταναλωτικά ηλεκτρονικά, την αυτοκινητοβιομηχανία και τη βιομηχανία να είναι τα μεγαλύτερα τμήματα idtechex.com. Αυτό συνεπάγεται ότι εκατοντάδες εκατομμύρια συσκευές το χρόνο θα αποστέλλονται με NPUs ως βασικό εξάρτημα.
    • Καθολική Υιοθέτηση: Όπως κάθε smartphone σήμερα έχει GPU (έστω και μικρή), φτάνουμε στο σημείο όπου κάθε νέο smartphone θα έχει επιταχυντή AI. Τα high-end τηλέφωνα τα έχουν ήδη· τα μεσαίας κατηγορίας ακολουθούν. Πράγματι, τα mid-tier chips από την Qualcomm (π.χ. Snapdragon 7 series) και τη MediaTek (σειρά Dimensity 700/800) πλέον περιλαμβάνουν μικρότερες NPUs ώστε λειτουργίες όπως AI βελτιώσεις κάμερας και φωνητικός βοηθός να λειτουργούν και σε φθηνότερες συσκευές. Πέρα από τα τηλέφωνα, οι NPUs εξαπλώνονται σε PCs (στάνταρ στα νέα Windows laptops από πολλούς κατασκευαστές), αυτοκίνητα (σχεδόν όλα τα νέα αυτοκίνητα με ADAS Level 2+ έχουν κάποιο είδος AI chip), και IoT. Ακόμα και συσκευές όπως ψυγεία και πλυντήρια αρχίζουν να διαφημίζουν “AI” λειτουργίες (μερικές βασίζονται στο cloud, αλλά κάποιες τοπικά όπως προσαρμοσμένοι κύκλοι με βάση αισθητήρες). Η τάση είναι ξεκάθαρη: αν μια συσκευή έχει chip επεξεργασίας, θα έχει κάποια επιτάχυνση ML σε αυτό το chip.
    • Πορεία Απόδοσης: Η απόδοση AI στη συσκευή διπλασιάζεται περίπου κάθε 1–2 χρόνια (συνδυασμός καλύτερης αρχιτεκτονικής και μετάβασης σε προηγμένους ημιαγωγούς όπως 5nm, 4nm, 3nm). Η Neural Engine της Apple πήγε από 600 δισεκατομμύρια ops/sec το 2017 σε 35 τρισεκατομμύρια το 2023 – σχεδόν 60× αύξηση σε έξι χρόνια apple.fandom.com. Τα flagships της Qualcomm αντίστοιχα πήγαν από λίγα TOPS το 2018 σε πάνω από 27 TOPS το 2023 (συνολική AI υπολογιστική ισχύς του SD 8 Gen 3, μετρώντας όλους τους πυρήνες). Μπορούμε να περιμένουμε μέχρι το 2025–2026 τα mobile NPUs να προσφέρουν 100+ TOPS, και οι επιταχυντές PC ακόμα περισσότερα, και αυτά τα νούμερα ίσως γίνουν λιγότερο σχετικά καθώς η εστίαση μετατοπίζεται στην χρήσιμη απόδοση σε συγκεκριμένες εργασίες AI (π.χ. πόσο μεγάλο LLM μπορείς να τρέξεις ομαλά, ή αν μπορείς να κάνεις 4K AI video σε πραγματικό χρόνο). Το χάσμα μεταξύ cloud και edge πιθανότατα θα μικρύνει για εργασίες inference. Ωστόσο, το edge θα υστερεί ακόμα σε σχέση με το cloud για τα απολύτως αιχμής μεγάλα μοντέλα λόγω περιορισμών ισχύος και μνήμης.
    • Κέρδη Ενεργειακής Αποδοτικότητας: Ένα υποτιμημένο στοιχείο είναι το πόσο αποδοτικές γίνονται αυτές οι NPUs. Η NPU του αυτοκινήτου της Tesla πετυχαίνει ~4.9 TOPS/Watt fuse.wikichip.org που ήταν αιχμής πριν λίγα χρόνια· τώρα κάποιες mobile NPUs ισχυρίζονται παρόμοια ή και καλύτερα. Αποδοτικές NPUs σημαίνουν μεγαλύτερη διάρκεια μπαταρίας ακόμα και με αυξημένη χρήση AI λειτουργιών. Επίσης σημαίνει ότι γίνεται εφικτή η ενσωμάτωση AI σε μικροσυσκευές με μπαταρία (π.χ. AI ακουστικά βαρηκοΐας, έξυπνοι αισθητήρες με μπαταρίες τύπου κέρματος που κάνουν ανίχνευση ανωμαλιών). Η έννοια του TinyML – εξαιρετικά μικρής κλίμακας machine learning σε μικροελεγκτές – είναι επέκταση αυτού, χρησιμοποιώντας απλοποιημένες “NPUs” ή βελτιστοποιημένες εντολές σε μικροελεγκτές για AI σε αισθητήρες. Η Ethos-U NPU της ARM στοχεύει σε αυτό το τμήμα (π.χ. always-on ανίχνευση λέξεων με λίγα milliwatts). Περιμένετε περισσότερα tiny chips ειδικά για AI που θα ενσωματώνονται σε αισθητήρες, wearables και καθημερινά αντικείμενα (Έξυπνη οδοντόβουρτσα; Ανιχνευτής καπνού με AI; Έρχεται).
    • Υβριδικές Λύσεις Cloud-Edge: Αντί το edge να αντικαταστήσει πλήρως το cloud, το μέλλον είναι η συνεργασία. Οι συσκευές θα κάνουν ό,τι μπορούν τοπικά και θα απευθύνονται στο cloud μόνο για ό,τι δεν μπορούν να διαχειριστούν. Για παράδειγμα, τα AR γυαλιά σου μπορεί να εκτελούν τοπικά αναγνώριση σκηνής για να ξέρουν τι κοιτάς, αλλά αν κάνεις μια πολύπλοκη ερώτηση (όπως μια λεπτομερή εξήγηση), μπορεί να απευθυνθούν σε ένα cloud AI για πιο ισχυρή ανάλυση και μετά να την παρουσιάσουν. Αυτή η υβριδική προσέγγιση προσφέρει την καλύτερη ισορροπία μεταξύ απόκρισης και δυνατοτήτων. Οι εταιρείες σχεδιάζουν ενεργά εμπειρίες γύρω από αυτό: Το Copilot της Microsoft στα Windows μπορεί να χρησιμοποιεί το τοπικό NPU για γρήγορη μετατροπή φωνής σε κείμενο και ανάλυση εντολών, αλλά μετά να χρησιμοποιεί το cloud για πιο απαιτητικές εργασίες (εκτός αν έχεις έναν ισχυρό NPU στον υπολογιστή που μπορεί να το διαχειριστεί). Ιδανικά, ο χρήστης δεν θα πρέπει να ξέρει ή να τον νοιάζει ποιο χρησιμοποιείται, εκτός από το ότι τα πράγματα είναι πιο γρήγορα και σέβονται το απόρρητο. Θα δούμε επίσης το federated learning να γίνεται πιο συνηθισμένο – τα μοντέλα εκπαιδεύονται στο cloud αλλά με τη βοήθεια δεδομένων που είναι κρυπτογραφημένα ή επεξεργασμένα στις συσκευές, και το αντίστροφο.
    • Νέες Εφαρμογές: Καθώς τα NPU γίνονται πιο ισχυρά, ανοίγουν νέες εφαρμογές. Generative AI στη συσκευή είναι μια μεγάλη εξέλιξη – φαντάσου δημιουργία εικόνων με AI, επεξεργασία βίντεο με AI και προσωπικά chatbots όλα στο κινητό ή το laptop σου. Μέχρι το 2025, μπορεί να δούμε πρώιμες εκδόσεις offline προσωπικών βοηθών που μπορούν να συνοψίζουν τα email σου ή να συντάσσουν μηνύματα χωρίς cloud. Μετάφραση γλώσσας σε πραγματικό χρόνο σε συνομιλία (δύο άτομα που μιλούν διαφορετικές γλώσσες, με κινητά ή ακουστικά να μεταφράζουν σχεδόν σε πραγματικό χρόνο) θα βελτιωθεί σημαντικά με την επεξεργασία στη συσκευή (χωρίς καθυστέρηση και λειτουργεί παντού). Health AI μπορεί να ζει σε wearables – το smartwatch σου να ανιχνεύει κολπική μαρμαρυγή ή να αναλύει μοτίβα άπνοιας ύπνου χρησιμοποιώντας το NPU του. Ασφάλεια: οι συσκευές μπορεί να εκτελούν τοπικά AI για ανίχνευση κακόβουλου λογισμικού ή phishing σε πραγματικό χρόνο (π.χ. antivirus που χρησιμοποιεί AI μοντέλο στη συσκευή αντί για cloud scans). Και στα οχήματα, εκτός από την οδήγηση, το AI θα μπορούσε να εξατομικεύει την εμπειρία στο αυτοκίνητο (να ρυθμίζει τον κλιματισμό με βάση τη διάθεσή σου μέσω AI κάμερας που κοιτά τον οδηγό, κ.λπ.). Πολλές από αυτές τις εφαρμογές απαιτούν γρήγορη προσαρμογή και απόρρητο, κάτι που ταιριάζει στην επεξεργασία στη συσκευή.
    • Ανταγωνισμός και Δημοκρατικοποίηση: Οι μεγάλοι παίκτες θα συνεχίσουν να ανταγωνίζονται, κάτι που είναι καλό για τους καταναλωτές – περίμενε marketing του τύπου «το AI chip μας κάνει Χ TOPS ή ενεργοποιεί το Υ χαρακτηριστικό που οι άλλοι δεν μπορούν». Αλλά επίσης, η τεχνολογία δημοκρατικοποιείται – τα NPU δεν βρίσκονται μόνο σε τηλέφωνα των $1000· έρχονται σε τηλέφωνα των $300, σε IoT boards των $50 (Coral, Arduino Portenta, κ.λπ.), και οι open-source κοινότητες δημιουργούν μικροσκοπικά AI μοντέλα που hobbyists μπορούν να τρέξουν σε Raspberry Pi ή microcontroller με έναν βασικό επιταχυντή. Αυτή η ευρεία διαθεσιμότητα σημαίνει ότι η καινοτομία μπορεί να έρθει από παντού. Ένας μόνος προγραμματιστής μπορεί πλέον να φτιάξει μια εφαρμογή που χρησιμοποιεί AI στη συσκευή για να κάνει κάτι έξυπνο χωρίς να χρειάζεται server farm – μειώνοντας το εμπόδιο εισόδου για λογισμικό που βασίζεται σε AI.
    • Μελλοντική Τεχνολογία: Κοιτάζοντας πιο μακριά, η έρευνα στην νευρομορφική υπολογιστική (τσιπ εμπνευσμένα από τον εγκέφαλο όπως το Intel Loihi) και τα αναλογικά AI chips θα μπορούσαν κάποια μέρα να φέρουν επανάσταση στα NPU, προσφέροντας τεράστια κέρδη αποδοτικότητας. Εταιρείες όπως η IBM και η BrainChip εργάζονται πάνω σε αυτά. Αν πετύχουν, ένα νευρομορφικό τσιπ ίσως επιτρέψει σε πολύπλοκη AI να λειτουργεί συνεχώς σε μικροσκοπικές συσκευές με μπαταρία. Ίσως δούμε επίσης 3D στοίβαξη και νέα τεχνολογία μνήμης ενσωματωμένη στα NPU για να ξεπεραστούν τα bottlenecks μνήμης (ορισμένα τσιπ μετά το 2025 ίσως χρησιμοποιούν HBM μνήμη ή νέα ενσωματωμένη μη πτητική μνήμη για ταχύτερη τροφοδοσία των AI πυρήνων). Επίσης, αναμένεται περισσότερη εξειδίκευση εντός των AI chips: π.χ., ξεχωριστοί επιταχυντές για όραση, για ομιλία, για recommendation models κ.λπ., καθένας προσαρμοσμένος στον τομέα του. Κάποια SoC έχουν ήδη διπλά NPU (ένα “μεγάλο” NPU για βαριές εργασίες, ένα micro NPU στο sensor hub για συνεχώς ενεργές ελαφριές εργασίες).

    Συμπερασματικά, η πορεία είναι ξεκάθαρη: τα NPU και TPU γίνονται τόσο στάνταρ και απαραίτητα όσο οι CPU στη σύγχρονη πληροφορική. Ενδυναμώνουν τις συσκευές να είναι πιο έξυπνες, πιο άμεσες και πιο προσεκτικές με το απόρρητό μας. Όπως ανέφερε μια έκθεση, «οι μονάδες επεξεργασίας υψηλής απόδοσης στις συσκευές είναι σε μεγάλο βαθμό υπεύθυνες για την εκτέλεση σύνθετων λειτουργιών AI όπως αναγνώριση εικόνας, NLP και λήψη αποφάσεων σε πραγματικό χρόνο», και αυτό οδηγεί σε πιο έξυπνη, άμεση τεχνολογία σε όλους τους τομείς grandviewresearch.com.

    Μπαίνουμε σε μια εποχή όπου απλά θα περιμένεις η συσκευή σου να καταλαβαίνει και να προβλέπει τις ανάγκες σου – το τηλέφωνό σου επεξεργάζεται φωτογραφίες και γράφει μηνύματα με το στυλ σου, το αυτοκίνητό σου αποφεύγει ατυχήματα και σε διασκεδάζει με AI, οι οικιακές συσκευές μαθαίνουν τις προτιμήσεις σου – όλα αυτά χάρη στους αθόρυβους νευρωνικούς επεξεργαστές μέσα τους. Το on-device AI δεν είναι επιστημονική φαντασία· είναι εδώ τώρα και βελτιώνεται ραγδαία. Ο συνδυασμός NPU και TPU με τις καθημερινές μας συσκευές κάνει την AI προσωπική, πανταχού παρούσα και ιδιωτική – φέρνοντας πραγματικά τη δύναμη της νοημοσύνης του cloud στη γη (ή τουλάχιστον, στην τσέπη σου).

    Πηγές:

    • Bigelow, Stephen. “GPUs vs. TPUs vs. NPUs: Comparing AI hardware options.” TechTarget, 27 Αυγ. 2024 techtarget.com. Περιγράφει τους ρόλους και τις διαφορές των CPU, GPU, TPU και NPU σε AI workloads.
    • Backblaze Blog. “AI 101: GPU vs. TPU vs. NPU.” Backblaze, 2023 backblaze.com. Επεξήγηση του σχεδιασμού TPU της Google (systolic arrays, χαμηλή ακρίβεια) και της χρήσης NPU σε φορητές συσκευές.
    • TechTarget WhatIs. «Μονάδα επεξεργασίας τανυστών (TPU).» whatis.techtarget.com, 2023 techtarget.com. Αναφέρει ότι οι TPU εξειδικεύονται σε εργασίες μαθηματικών πινάκων και οι NPU μιμούνται τα νευρωνικά δίκτυα του εγκεφάλου για επιτάχυνση techtarget.com.
    • NimbleEdge Blog (Neeraj Poddar). «Η κατάσταση της AI στη συσκευή: Τι λείπει από το σημερινό τοπίο.» 26 Ιουνίου 2025 nimbleedge.com. Περιγράφει τα πλεονεκτήματα της AI στη συσκευή (καθυστέρηση, εκτός σύνδεσης, ιδιωτικότητα, κόστος) και προκλήσεις όπως τα κατακερματισμένα SDKs.
    • Qualcomm (OnQ Blog). «Bloomberg και Cristiano Amon συζητούν για AI στη συσκευή.» Ιούλιος 2023 x.com. Ο CEO της Qualcomm για τη σημασία της εξαγωγής συμπερασμάτων στη συσκευή για το μέλλον της AI (απόσπασμα tweet για το σημείο καμπής στην AI).
    • MediaTek Blog (Exec Talk by Will Chen). «Διαμορφώνοντας το μέλλον των εμπειριών AI σε κινητά.» 3 Μαρτίου 2025 mediatek.com. Συνεργασία MediaTek και Oppo σε NPUs· απόσπασμα για το edge computing στο χέρι σου και παράδειγμα ανακατασκευής φωτογραφίας με AI χρησιμοποιώντας το NPU.
    • I-Connect007 / Qualcomm Press. «Η Qualcomm συνεργάζεται με τη Meta για να επιτρέψει AI στη συσκευή (Llama 2).» 24 Ιουλίου 2023 iconnect007.com. Δελτίο τύπου με απόσπασμα από τον Αντιπρόεδρο της Qualcomm Durga Malladi για την κλιμάκωση της γενετικής AI μέσω συσκευών edge και cloud.
    • PCWorld (Mark Hachman). «Οι Core Ultra CPUs της Intel κρατούν την AI απλή….» 24 Οκτωβρίου 2024 pcworld.com. Συζητά τη χρήση του NPU Meteor Lake (13 TOPS) από το Intel Arrow Lake και αναφέρει το NPU Ryzen 8000 της AMD με 39 TOPS και την απαίτηση “Copilot” των 40 TOPS της Microsoft.
    • Ts2 (Tech Empowerment). «Αναμέτρηση Υπερυπολογιστών Αυτοοδήγησης: NVIDIA Thor vs Tesla HW4 vs Qualcomm Ride.» Σεπτ. 2023 ts2.tech. Παρέχει εκτιμήσεις TOPS: Tesla HW3 vs HW4 (72→100 TOPS ανά chip) ts2.tech, NVIDIA Thor ~1000 TOPS (ή 2000 με διπλό) ts2.tech και παραθέτει δήλωση του αντιπροέδρου της NVIDIA για τη γενετική AI στα οχήματα ts2.tech.
    • Grand View Research. «On-Device AI Market Report, 2030.» 2024 grandviewresearch.com. Αναφέρει την άνοδο των εξειδικευμένων chip AI (NPU) που επιτρέπουν σύνθετη AI σε συσκευές, και ότι το hardware αντιστοιχούσε στο 60,4% της αγοράς on-device AI το 2024, με ώθηση από smartphones, IoT, NPU κ.ά.
    • Google Blog. «Google Tensor G3: Ο AI-first επεξεργαστής του Pixel 8.» Οκτ. 2023 blog.google. Περιγράφει τις αναβαθμίσεις του Tensor G3 για γενετική AI στη συσκευή, νέο σχεδιασμό TPU και μοντέλο TTS στη συσκευή ισάξιο με ποιότητα data center.
    • Techspot. «Το Snapdragon 8 Gen 3 φέρνει γενετική AI στα smartphones.» Οκτ. 2023 futurumgroup.com. Ανάλυση Futurum Group με λεπτομέρειες για τη μηχανή AI του SD8Gen3: 10B παραμέτρων LLM στη συσκευή, 98% ταχύτερο NPU, το ταχύτερο Stable Diffusion στον κόσμο σε τηλέφωνο κ.ά., καθώς και τα οφέλη των LLM στη συσκευή για κόστος/απόρρητο/λειτουργία offline futurumgroup.com.
    • Apple Wiki (Fandom). «Neural Engine.» Ενημερώθηκε 2025 apple.fandom.com. Ιστορικό εκδόσεων Neural Engine με 35 TOPS στο A17 Pro το 2023, κ.λπ. Δείχνει την εξέλιξη από 0,6 TOPS (A11) σε 35 TOPS (A17) apple.fandom.com και M4 στα 38 TOPS apple.fandom.com.
    • EnGenius Tech. «Cloud Edge Camera AI Surveillance.» 2023 engeniustech.com. Παράδειγμα κάμερας ασφαλείας με ενσωματωμένο NPU που επιτρέπει επεξεργασία AI στην κάμερα και τοπική αποθήκευση (δεν απαιτείται NVR).
    • EmbedL. «Η Amazon κυκλοφορεί τον επεξεργαστή AZ1 Neural Edge.» Οκτ. 2020 embedl.com. Συζητά το AZ1 edge NPU της Amazon για συσκευές Echo, κατασκευασμένο με τη MediaTek, σχεδιασμένο για αναγνώριση ομιλίας στη συσκευή ώστε να μειώνεται η καθυστέρηση και η εξάρτηση από το cloud embedl.com.
    NPU vs. CPU vs. GPU vs. TPU: AI Hardware Compared

    Latest Posts

    Don't Miss