RTX 4090: KI-Wunderwaffe mit bis zu 15-fachem Geschwindigkeitsboost gegenüber Laptop-CPUs und 70% mehr Leistung durch TensorRT-LLM!

13. Juni 2024 10:00

In neuen Benchmarks übertrifft die GeForce RTX 40 GPU-Serie von NVIDIA sowohl Laptop-CPUs als auch dedizierte NPUs in Llama- und Mistral-AI-Benchmarks. Diese Leistungssteigerung wird durch die TensorRT-LLM-Beschleunigung von NVIDIA weiter optimiert. NVIDIAs TensorRT-LLM-Beschleunigung für Windows hat somit die Leistung auf Windows-PCs deutlich verbessert.

Die RTX “AI PC”-Plattform von NVIDIA wurde um neue Funktionen erweitert und mit der GeForce RTX 4090 Flaggschiff-GPU erreicht sie neue Höhen. In einem kürzlich veröffentlichten AI-Decoded-Blog hat NVIDIA gezeigt, wie seine aktuelle GPU-Generation das gesamte NPU-Ökosystem übertrifft, welches im Jahr 2024 nur 50 TFLOPS erreicht. Im Gegensatz dazu bieten NVIDIAs RTX AI-GPUs mehrere 100 TOPS und erreichen mit der GeForce RTX 4090 bis zu 1321 TOPS, was sie zur schnellsten Desktop-AI-Lösung für den Betrieb von LLMs und anderen Anwendungen macht. Gleichzeitig ist sie die weltweit schnellste Gaming-Grafikkarte.

NVIDIAs GeForce RTX GPUs verfügen über bis zu 24 GB VRAM, während NVIDIA RTX GPUs bis zu 48 GB VRAM bieten. Dies macht sie zu idealen Lösungen für die Arbeit mit LLMs (Large Language Models), da diese Workloads große Mengen an Videospeicher erfordern. Die RTX-Hardware von NVIDIA verfügt nicht nur über dedizierten Videospeicher, sondern auch über AI-spezifische Beschleunigung durch Tensor Cores (Hardware) und die bereits erwähnte TensorRT-LLM (Software).

Die Anzahl der generierten Tokens auf den GeForce RTX 4090 GPUs von NVIDIA ist über alle Batch-Größen hinweg hoch, wird aber durch die Aktivierung der TensorRT-LLM-Beschleunigung um mehr als das Vierfache gesteigert. NVIDIA hat neue Benchmarks veröffentlicht, die unter Verwendung der Open-Source-Plattform Jan.ai durchgeführt wurden, die kürzlich TensorRT-LLM in ihre lokale Chatbot-App integriert hat. Diese Benchmarks vergleichen die Leistung der GeForce RTX 40 GPUs von NVIDIA mit Laptop-CPUs mit dedizierten AI-NPUs.

Die NVIDIA GeForce RTX 4090 GPU bietet eine 8,7-fache Verbesserung gegenüber der AMD Ryzen 9 8945HS CPU ohne TensorRT-LLM. Mit aktivierter Beschleunigung steigt dieser Vorsprung auf das 15-fache (eine 70%ige Steigerung gegenüber der Nicht-TensorRT-LLM-Konfiguration). In diesem Szenario kann die RTX 4090 bis zu 170,63 Tokens pro Sekunde verarbeiten, während die AMD-CPU nur 11,57 Tokens/Sekunde erreicht. Selbst die NVIDIA GeForce RTX 4070 Laptop-GPU bietet eine bis zu 4,45-fache Beschleunigung.

NVIDIA hat auch Benchmarks mit einer RTX 4090 in einer eGPU-Konfiguration veröffentlicht, um zu zeigen, wie die Leistung von Laptops für AI-Workloads durch eine externe GPU weiter gesteigert werden kann. Diese Konfiguration bietet eine 9,07-fache Leistungssteigerung gegenüber derselben AMD-Laptop-CPU. NVIDIA hat erneut seinen Vorsprung im KI-Segment unter Beweis gestellt. Die GeForce RTX 40 GPUs bieten eine unübertroffene Leistung für AI-Anwendungen und sind die beste Wahl für alle, die die nächste Generation der KI-Innovationen vorantreiben möchten.

Quelle: NVIDIA

6 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

RazielNoir

Veteran

439 Kommentare 202 Likes

#1 Jun 13, 2024

Hm. Wieviel TOPS hat eine RTX 6000 Ada? Und sind das nicht TFLOPS? 😁

Antwort Gefällt mir

gerTHW84

Veteran

413 Kommentare 253 Likes

#2 Jun 13, 2024

In diesem Fall sind es typischerweise TOPS, also TeraOperations pro Sekunde auf Basis eines Integer-Datentyps, typischerweise INT8 für das Inferencing. TFLOPS bezeichnen dagegen Fließkommaoperationen. Die nimmt man bestenfalls beim Training eines NNs.

Beispielsweise eine RTX 4090 liefert mit INT8 rd. 661 TOPS mittels der Tensor Kerne, mit INT4 gar 1321 TOPS, also rd. 1,3 PetaOPS (beides Werte ohne Sparsity). Die RTX 4080 erreicht immer noch 390 bzw. 780 TOPS (trotz des deutlich kleineren Chips).
Die aktuelle RTX 6000 (Ada) wird mit 729 bzw. 1457 TOPS angegeben. Das alles sind jedoch nur die theoretischen Peak-Werte. In realen Anwendungen ist der verwendete SW-Stack sehr wichtig und bei größeren NNs auch der zur Verfügung stehende Speicher.
Zum Vergleiche dazu wird Hopper als H100 in SXM5-Bauform mit 1979 TOPS INT8 angegeben.
Als weiterer Vergleich dazu gibt nVidia den GB200 Superchip (1x Grace + 2x Blackwell auf einiem Board) für sowohl INT8 wie auch FP8 mit 10 PetaOPS/FLOPS an. Die Grace-CPU wird da voraussichtlich nicht allzu viel zu beitragen, d. h. vereinfacht betrachtet könnte man die Werte für einen Architekturvergleich grob halbieren.

Antwort 2 Likes

eastcoast_pete

Urgestein

1,698 Kommentare 1,031 Likes

#3 Jun 13, 2024

Obwohl dieser Vergleich von Nvidia schon zeigt, wie stark die Tensor Kerne zu der INT8 Leistung beitragen können, ist auch etwas anderes interessant: die GPU (ohne die Tensor Kerne) ist hier auch schon ziemlich kräftig unterwegs. Und das ist nicht nur so bei Nvidia, oder den Ada Karten. Allgemein sind moderne GPUs aller Hersteller ja fast prädestiniert für derartige Berechnungen. Auch bei den sogenannten "AI" ("KI") APUs wie Meteor Lake und Hawk steuern die iGPUs die deutliche Mehrzahl der TOPS zur Gesamtleistung bei, zumindest bei den x86/x64 Systemen. Daher bleibt (IMHO) die Frage offen, ob das in die NPUs investierte Silizium (die mm2 im Die) nicht besser in zB größere Caches für die iGPUs investiert gewesen wäre. Denn die Caches der GPUs in den APUs sind alle ein bisschen klein, und mit ein paar kB mehr könnte man dann auch noch mehr Grafik Leistung erzielen, dh der Nutzen wäre universeller. Wobei mir klar ist, daß der Zug schon länger abgefahren ist. KI/NPU muß halt überall mit rein und auf die Packung, zumindest meinen das die Marketing Abteilungen/rant off.

Antwort Gefällt mir

gerTHW84

Veteran

413 Kommentare 253 Likes

#4 Jun 13, 2024

In diesem Sinne noch einmal der Hinweis denn Sinn und Zweck der NPUs richtig zu verstehen. Diese sind nicht für Hochlast-ML-Workloads gedacht, dafür nimmt man immer besser eine massiv-parallele, deutlich leistungsfähigere GPU.
Die NPUs sind für das hocheffiziente Verarbeiten von ML-Workloads bei niedriger bis mittlerer Last vorgesehen, mehr nicht. Beispielsweise in einem Videochat kann ML für die Geräuschunterdrückung oder Audiooptimierung genutzt werden und optional um den Bildhintergrund auszublenden/zu ersetzen. Das sind keine Hochlast-Workloads, jedoch laufen die bspw. während eines Meetings unentwegt mit und müssten diese Effekte per CPU oder GPU berechnet werden, würde dies deutlich mehr Strom ziehen (und zudem teilweise die entsprechende Komponente belasten) und das ist ein nochmal schlechteres Szenario für ein mobiles Gerät, das gerade im Akkubetrieb unterwegs ist. Dementsprechend tauchen diese NPUs nun auch vorerst präferiert in Mobil-SoCs auf ... ist ja auch nichts Neues ... die ARM-Chips haben alle schon lange NPUs ... müssten die ML-Tasks ohne spezialisierte Hardware berechnen, wären die Akkus schnell leer. ;-)
Beispielsweise eine Voice-Aktivierung/Wake-on-voice ist ebenfalls ein Niedriglast-ML-Szenario, bei dem mit dem Mikro permanent die Umgebungsgeräusche auf ein Schlüsselwort hin gefiltert werden müssen. In so einem Szenario will man das SoC weitestgehend schlafen legen, also braucht es eine kleine hocheffiziente Einheit, die einen derartigen Workload weitestgehend im Hintergrund verarbeiten kann und das sind die NPUs. Will man dagegen bspw. umfangreiche Effekte mit Premiere, Davinci oder Topaz verarbeiten, möglicherweise gar auf serien- oder spielfilmlänge, will man hier eher eine potente GPU nutzen.

Beispielsweise in der aktuellsten CPU-Gen Meteor Lake hat man nun die Möglichkeit ML an vier unterschiedlichen Stellen berechnen zu lassen (oder kann gar einige Einheiten mit dem passenden SW-Stack zusammenarbeiten lassen):
a) Die interne oder auch externe GPU, hier nun mit dem überarbeiteten Xe LP nun auch als iGPU mit XMX-Einheiten, die analog den Tensor Cores bei nVidia MMA-Operationen direkt implementieren. (Auch ohne Spezialeinheiten kann man natürlich den massiv-parallelel Shader-Aufbau der GPU "zu Fuß" nutzen, was aber ineffizienter und weniger durchsatzstark ist).
b) Via dem AVX-Subset VNNI, das vom Xeon Phi über die Server dann nun auch in die Consumer-Prozessoren hineingewandert ist, aktuell als 256bittige-Variante, da Intel eine 512 Bit-Verarbeitung zugunsten des P/E-Core-Aufbaus aus den Consumer-Produkten entfernt hat.
c) Mittels des Gaussian Neural Accelerator, der seit Ice Lake in Intel-CPUs vorhanden ist und kleine ML-Workloads prozessieren kann, so bspw. Spracherkennung, Geräuschunterdrückung, Sprecheridentifikation, Wake-on-voice. Ab v3.1 kann GNA auch visuelle Sensoren für ein Aufwecken und Authentifizieren des Anwenders nutzen.
d) Nun ganz neu über eine NPU (Intel sprach hier im Vorfeld mal auch von VPU), die den Leistungsumfang noch mal auf ein neues Level anheben, aber dabei immer noch hocheffizient sein sollen.

Entsprechend haben nun AMD und Intel AI/ML und die NPU für ihre Werbezwecke entdeckt um Anwendern einzutrichtern, dass sie doch unbedingt neue Hardware benötigen, da nun das ML-Zeitalter angebrochen ist. Auf der anderen Seite muss das einen Desktopanwender mit dedizierter GPU jedoch wenig interessieren, wenn der PC eine nVidia-GPU oder alternativ eine AMD-GPU ab RDNA3 eingebaut hat, denn kleinere GPUs übertreffen hier die 40 - 50 TOPS der NPUs.
Und da das Thema NPUs & TOPS derzeit von den beiden derart hartnäckig durch die Medien gepeitscht wird und da nVidia keine CPUs verkauft und dieses ansonsten an denen vorbeirauschen würde, hat sich deren Marketing wohl gedacht, dass es mal angebracht wäre den Finger zu heben und zu erklären, dass nVidia-GPU-Besitzer schon per se bzgl. dieses Themas gut aufgestellt sind.

Letzten Endes geht es hier darum die richtige Ausführungseinheit für den richtigen Workload zur Hand zu haben. Wohin uns das führen wird, müssen wir mal abwarten. Wenn ich da an Microsofts "Recall" denke, rollen sich mir schon wieder die Fußnägel auf aber ok, vielleicht dachte man dort, dass man die absehbaren Wogen einfacher geglättet bekommen würde und das nächste absatzfördernde Killerfeature entdeckt hätte ... ;-)

Antwort Gefällt mir

Klicke zum Ausklappem

DrWandel

Mitglied

84 Kommentare 69 Likes

#5 Jun 14, 2024

Also, dieser Satz hat mich doch erst mal verwirrt:

NVIDIAs GeForce RTX GPUs verfügen über bis zu 24 GB VRAM, während NVIDIA RTX GPUs bis zu 48 GB VRAM bieten.

Steht aber tatsächlich so auch im gelinkten Original-Artikel:

GeForce RTX GPUs offer up to 24GB of high-speed VRAM, and NVIDIA RTX GPUs up to 48GB

Dass eine "RTX GPU" (= NVIDIA RTX AI-GPU ?) von Nvidia nicht das gleiche ist wie eine "GeForce RTX GPU", war mir nicht sofort klar. Da hätte Nvidia vielleicht doch die Namen etwas besser abgrenzen können.

Antwort 1 Like

Alkbert

Urgestein

959 Kommentare 747 Likes

#6 Jun 26, 2024

Ich persönlich fand es nicht geschickt, von der Quadro Nomenklatur zur "A" Nomenklatur zu wechseln. Das verstehe ich bis heute nicht, bin aber auch kein Marketing Mensch.

Antwort Gefällt mir

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.