RTX 4090: KI-Wunderwaffe mit bis zu 15-fachem Geschwindigkeitsboost gegenüber Laptop-CPUs und 70% mehr Leistung durch TensorRT-LLM!

Redaktion

Artikel-Butler
Mitarbeiter
Mitglied seit
Aug 6, 2018
Beiträge
1.993
Bewertungspunkte
9.602
Punkte
1
Standort
Redaktion
In neuen Benchmarks übertrifft die GeForce RTX 40 GPU-Serie von NVIDIA sowohl Laptop-CPUs als auch dedizierte NPUs in Llama- und Mistral-AI-Benchmarks. Diese Leistungssteigerung wird durch die TensorRT-LLM-Beschleunigung von NVIDIA weiter optimiert. NVIDIAs TensorRT-LLM-Beschleunigung für Windows hat somit die Leistung auf Windows-PCs deutlich verbessert. Die RTX “AI PC”-Plattform von NVIDIA wurde um neue Funktionen erweitert und mit der GeForce RTX 4090 Flaggschiff-GPU erreicht sie neue Höhen. In einem kürzlich veröffentlichten AI-Decoded-Blog hat NVIDIA gezeigt, wie seine aktuelle GPU-Generation das gesamte NPU-Ökosystem übertrifft, welches im Jahr 2024 nur 50 TOPS erreicht. Im Gegensatz dazu bieten NVIDIAs RTX AI-GPUs mehrere 100 TOPS und […] (read full article...)
 
Hm. Wieviel TOPS hat eine RTX 6000 Ada? Und sind das nicht TFLOPS? 😁
 
In diesem Fall sind es typischerweise TOPS, also TeraOperations pro Sekunde auf Basis eines Integer-Datentyps, typischerweise INT8 für das Inferencing. TFLOPS bezeichnen dagegen Fließkommaoperationen. Die nimmt man bestenfalls beim Training eines NNs.

Beispielsweise eine RTX 4090 liefert mit INT8 rd. 661 TOPS mittels der Tensor Kerne, mit INT4 gar 1321 TOPS, also rd. 1,3 PetaOPS (beides Werte ohne Sparsity). Die RTX 4080 erreicht immer noch 390 bzw. 780 TOPS (trotz des deutlich kleineren Chips).
Die aktuelle RTX 6000 (Ada) wird mit 729 bzw. 1457 TOPS angegeben. Das alles sind jedoch nur die theoretischen Peak-Werte. In realen Anwendungen ist der verwendete SW-Stack sehr wichtig und bei größeren NNs auch der zur Verfügung stehende Speicher.
Zum Vergleiche dazu wird Hopper als H100 in SXM5-Bauform mit 1979 TOPS INT8 angegeben.
Als weiterer Vergleich dazu gibt nVidia den GB200 Superchip (1x Grace + 2x Blackwell auf einiem Board) für sowohl INT8 wie auch FP8 mit 10 PetaOPS/FLOPS an. Die Grace-CPU wird da voraussichtlich nicht allzu viel zu beitragen, d. h. vereinfacht betrachtet könnte man die Werte für einen Architekturvergleich grob halbieren.
 
Zuletzt bearbeitet :
Obwohl dieser Vergleich von Nvidia schon zeigt, wie stark die Tensor Kerne zu der INT8 Leistung beitragen können, ist auch etwas anderes interessant: die GPU (ohne die Tensor Kerne) ist hier auch schon ziemlich kräftig unterwegs. Und das ist nicht nur so bei Nvidia, oder den Ada Karten. Allgemein sind moderne GPUs aller Hersteller ja fast prädestiniert für derartige Berechnungen. Auch bei den sogenannten "AI" ("KI") APUs wie Meteor Lake und Hawk steuern die iGPUs die deutliche Mehrzahl der TOPS zur Gesamtleistung bei, zumindest bei den x86/x64 Systemen. Daher bleibt (IMHO) die Frage offen, ob das in die NPUs investierte Silizium (die mm2 im Die) nicht besser in zB größere Caches für die iGPUs investiert gewesen wäre. Denn die Caches der GPUs in den APUs sind alle ein bisschen klein, und mit ein paar kB mehr könnte man dann auch noch mehr Grafik Leistung erzielen, dh der Nutzen wäre universeller. Wobei mir klar ist, daß der Zug schon länger abgefahren ist. KI/NPU muß halt überall mit rein und auf die Packung, zumindest meinen das die Marketing Abteilungen/rant off.
 
In diesem Sinne noch einmal der Hinweis denn Sinn und Zweck der NPUs richtig zu verstehen. Diese sind nicht für Hochlast-ML-Workloads gedacht, dafür nimmt man immer besser eine massiv-parallele, deutlich leistungsfähigere GPU.
Die NPUs sind für das hocheffiziente Verarbeiten von ML-Workloads bei niedriger bis mittlerer Last vorgesehen, mehr nicht. Beispielsweise in einem Videochat kann ML für die Geräuschunterdrückung oder Audiooptimierung genutzt werden und optional um den Bildhintergrund auszublenden/zu ersetzen. Das sind keine Hochlast-Workloads, jedoch laufen die bspw. während eines Meetings unentwegt mit und müssten diese Effekte per CPU oder GPU berechnet werden, würde dies deutlich mehr Strom ziehen (und zudem teilweise die entsprechende Komponente belasten) und das ist ein nochmal schlechteres Szenario für ein mobiles Gerät, das gerade im Akkubetrieb unterwegs ist. Dementsprechend tauchen diese NPUs nun auch vorerst präferiert in Mobil-SoCs auf ... ist ja auch nichts Neues ... die ARM-Chips haben alle schon lange NPUs ... müssten die ML-Tasks ohne spezialisierte Hardware berechnen, wären die Akkus schnell leer. ;-)
Beispielsweise eine Voice-Aktivierung/Wake-on-voice ist ebenfalls ein Niedriglast-ML-Szenario, bei dem mit dem Mikro permanent die Umgebungsgeräusche auf ein Schlüsselwort hin gefiltert werden müssen. In so einem Szenario will man das SoC weitestgehend schlafen legen, also braucht es eine kleine hocheffiziente Einheit, die einen derartigen Workload weitestgehend im Hintergrund verarbeiten kann und das sind die NPUs. Will man dagegen bspw. umfangreiche Effekte mit Premiere, Davinci oder Topaz verarbeiten, möglicherweise gar auf serien- oder spielfilmlänge, will man hier eher eine potente GPU nutzen.

Beispielsweise in der aktuellsten CPU-Gen Meteor Lake hat man nun die Möglichkeit ML an vier unterschiedlichen Stellen berechnen zu lassen (oder kann gar einige Einheiten mit dem passenden SW-Stack zusammenarbeiten lassen):
a) Die interne oder auch externe GPU, hier nun mit dem überarbeiteten Xe LP nun auch als iGPU mit XMX-Einheiten, die analog den Tensor Cores bei nVidia MMA-Operationen direkt implementieren. (Auch ohne Spezialeinheiten kann man natürlich den massiv-parallelel Shader-Aufbau der GPU "zu Fuß" nutzen, was aber ineffizienter und weniger durchsatzstark ist).
b) Via dem AVX-Subset VNNI, das vom Xeon Phi über die Server dann nun auch in die Consumer-Prozessoren hineingewandert ist, aktuell als 256bittige-Variante, da Intel eine 512 Bit-Verarbeitung zugunsten des P/E-Core-Aufbaus aus den Consumer-Produkten entfernt hat.
c) Mittels des Gaussian Neural Accelerator, der seit Ice Lake in Intel-CPUs vorhanden ist und kleine ML-Workloads prozessieren kann, so bspw. Spracherkennung, Geräuschunterdrückung, Sprecheridentifikation, Wake-on-voice. Ab v3.1 kann GNA auch visuelle Sensoren für ein Aufwecken und Authentifizieren des Anwenders nutzen.
d) Nun ganz neu über eine NPU (Intel sprach hier im Vorfeld mal auch von VPU), die den Leistungsumfang noch mal auf ein neues Level anheben, aber dabei immer noch hocheffizient sein sollen.

Entsprechend haben nun AMD und Intel AI/ML und die NPU für ihre Werbezwecke entdeckt um Anwendern einzutrichtern, dass sie doch unbedingt neue Hardware benötigen, da nun das ML-Zeitalter angebrochen ist. Auf der anderen Seite muss das einen Desktopanwender mit dedizierter GPU jedoch wenig interessieren, wenn der PC eine nVidia-GPU oder alternativ eine AMD-GPU ab RDNA3 eingebaut hat, denn kleinere GPUs übertreffen hier die 40 - 50 TOPS der NPUs.
Und da das Thema NPUs & TOPS derzeit von den beiden derart hartnäckig durch die Medien gepeitscht wird und da nVidia keine CPUs verkauft und dieses ansonsten an denen vorbeirauschen würde, hat sich deren Marketing wohl gedacht, dass es mal angebracht wäre den Finger zu heben und zu erklären, dass nVidia-GPU-Besitzer schon per se bzgl. dieses Themas gut aufgestellt sind.

Letzten Endes geht es hier darum die richtige Ausführungseinheit für den richtigen Workload zur Hand zu haben. Wohin uns das führen wird, müssen wir mal abwarten. Wenn ich da an Microsofts "Recall" denke, rollen sich mir schon wieder die Fußnägel auf aber ok, vielleicht dachte man dort, dass man die absehbaren Wogen einfacher geglättet bekommen würde und das nächste absatzfördernde Killerfeature entdeckt hätte ... ;-)
 
Also, dieser Satz hat mich doch erst mal verwirrt:

NVIDIAs GeForce RTX GPUs verfügen über bis zu 24 GB VRAM, während NVIDIA RTX GPUs bis zu 48 GB VRAM bieten.

Steht aber tatsächlich so auch im gelinkten Original-Artikel:

GeForce RTX GPUs offer up to 24GB of high-speed VRAM, and NVIDIA RTX GPUs up to 48GB

Dass eine "RTX GPU" (= NVIDIA RTX AI-GPU ?) von Nvidia nicht das gleiche ist wie eine "GeForce RTX GPU", war mir nicht sofort klar. Da hätte Nvidia vielleicht doch die Namen etwas besser abgrenzen können.
 
Ich persönlich fand es nicht geschickt, von der Quadro Nomenklatur zur "A" Nomenklatur zu wechseln. Das verstehe ich bis heute nicht, bin aber auch kein Marketing Mensch.
 
Oben Unten