In diesem Sinne noch einmal der Hinweis denn Sinn und Zweck der NPUs richtig zu verstehen. Diese sind nicht für Hochlast-ML-Workloads gedacht, dafür nimmt man immer besser eine massiv-parallele, deutlich leistungsfähigere GPU.
Die NPUs sind für das hocheffiziente Verarbeiten von ML-Workloads bei niedriger bis mittlerer Last vorgesehen, mehr nicht. Beispielsweise in einem Videochat kann ML für die Geräuschunterdrückung oder Audiooptimierung genutzt werden und optional um den Bildhintergrund auszublenden/zu ersetzen. Das sind keine Hochlast-Workloads, jedoch laufen die bspw. während eines Meetings unentwegt mit und müssten diese Effekte per CPU oder GPU berechnet werden, würde dies deutlich mehr Strom ziehen (und zudem teilweise die entsprechende Komponente belasten) und das ist ein nochmal schlechteres Szenario für ein mobiles Gerät, das gerade im Akkubetrieb unterwegs ist. Dementsprechend tauchen diese NPUs nun auch vorerst präferiert in Mobil-SoCs auf ... ist ja auch nichts Neues ... die ARM-Chips haben alle schon lange NPUs ... müssten die ML-Tasks ohne spezialisierte Hardware berechnen, wären die Akkus schnell leer. ;-)
Beispielsweise eine Voice-Aktivierung/Wake-on-voice ist ebenfalls ein Niedriglast-ML-Szenario, bei dem mit dem Mikro permanent die Umgebungsgeräusche auf ein Schlüsselwort hin gefiltert werden müssen. In so einem Szenario will man das SoC weitestgehend schlafen legen, also braucht es eine kleine hocheffiziente Einheit, die einen derartigen Workload weitestgehend im Hintergrund verarbeiten kann und das sind die NPUs. Will man dagegen bspw. umfangreiche Effekte mit Premiere, Davinci oder Topaz verarbeiten, möglicherweise gar auf serien- oder spielfilmlänge, will man hier eher eine potente GPU nutzen.
Beispielsweise in der aktuellsten CPU-Gen Meteor Lake hat man nun die Möglichkeit ML an vier unterschiedlichen Stellen berechnen zu lassen (oder kann gar einige Einheiten mit dem passenden SW-Stack zusammenarbeiten lassen):
a) Die interne oder auch externe GPU, hier nun mit dem überarbeiteten Xe LP nun auch als iGPU mit XMX-Einheiten, die analog den Tensor Cores bei nVidia MMA-Operationen direkt implementieren. (Auch ohne Spezialeinheiten kann man natürlich den massiv-parallelel Shader-Aufbau der GPU "zu Fuß" nutzen, was aber ineffizienter und weniger durchsatzstark ist).
b) Via dem AVX-Subset VNNI, das vom Xeon Phi über die Server dann nun auch in die Consumer-Prozessoren hineingewandert ist, aktuell als 256bittige-Variante, da Intel eine 512 Bit-Verarbeitung zugunsten des P/E-Core-Aufbaus aus den Consumer-Produkten entfernt hat.
c) Mittels des Gaussian Neural Accelerator, der seit Ice Lake in Intel-CPUs vorhanden ist und kleine ML-Workloads prozessieren kann, so bspw. Spracherkennung, Geräuschunterdrückung, Sprecheridentifikation, Wake-on-voice. Ab v3.1 kann GNA auch visuelle Sensoren für ein Aufwecken und Authentifizieren des Anwenders nutzen.
d) Nun ganz neu über eine NPU (Intel sprach hier im Vorfeld mal auch von VPU), die den Leistungsumfang noch mal auf ein neues Level anheben, aber dabei immer noch hocheffizient sein sollen.
Entsprechend haben nun AMD und Intel AI/ML und die NPU für ihre Werbezwecke entdeckt um Anwendern einzutrichtern, dass sie doch unbedingt neue Hardware benötigen, da nun das ML-Zeitalter angebrochen ist. Auf der anderen Seite muss das einen Desktopanwender mit dedizierter GPU jedoch wenig interessieren, wenn der PC eine nVidia-GPU oder alternativ eine AMD-GPU ab RDNA3 eingebaut hat, denn kleinere GPUs übertreffen hier die 40 - 50 TOPS der NPUs.
Und da das Thema NPUs & TOPS derzeit von den beiden derart hartnäckig durch die Medien gepeitscht wird und da nVidia keine CPUs verkauft und dieses ansonsten an denen vorbeirauschen würde, hat sich deren Marketing wohl gedacht, dass es mal angebracht wäre den Finger zu heben und zu erklären, dass nVidia-GPU-Besitzer schon per se bzgl. dieses Themas gut aufgestellt sind.
Letzten Endes geht es hier darum die richtige Ausführungseinheit für den richtigen Workload zur Hand zu haben. Wohin uns das führen wird, müssen wir mal abwarten. Wenn ich da an Microsofts "Recall" denke, rollen sich mir schon wieder die Fußnägel auf aber ok, vielleicht dachte man dort, dass man die absehbaren Wogen einfacher geglättet bekommen würde und das nächste absatzfördernde Killerfeature entdeckt hätte ... ;-)