RTX 4090: AI wonder weapon with up to 15x speed boost compared to laptop CPUs and 70% more performance thanks to TensorRT-LLM!

13. June 2024 10:00

In new benchmarks, NVIDIA ‘s GeForce RTX 40 GPU series outperforms both laptop CPUs and dedicated NPUs in Llama and Mistral AI benchmarks. This performance boost is further optimized by NVIDIA’s TensorRT-LLM acceleration. NVIDIA’s TensorRT-LLM acceleration for Windows has thus significantly improved performance on Windows PCs.

New features have been added to NVIDIA’s RTX “AI PC” platform and it’s reaching new heights with the GeForce RTX 4090 flagship GPU. In a recent AI Decoded blog, NVIDIA showed how its current generation GPU outperforms the entire NPU ecosystem, which only reaches 50 TOPS in 2024. In contrast, NVIDIA’s RTX AI GPUs offer several 100 TOPS, reaching up to 1321 TOPS with the GeForce RTX 4090, making it the fastest desktop AI solution for running LLMs and other applications. At the same time, it is the world’s fastest gaming graphics card.

NVIDIA’s GeForce RTX GPUs have up to 24 GB of VRAM, while NVIDIA RTX GPUs offer up to 48 GB of VRAM. This makes them ideal solutions for working with LLMs (Large Language Models), as these workloads require large amounts of video memory. NVIDIA’s RTX hardware not only features dedicated video memory, but also AI-specific acceleration through Tensor Cores (hardware) and the aforementioned TensorRT-LLM (software).

The number of tokens generated on NVIDIA’s GeForce RTX 4090 GPUs is high across all batch sizes, but is more than quadrupled when TensorRT-LLM acceleration is enabled. NVIDIA has released new benchmarks conducted using the open-source Jan.ai platform, which recently integrated TensorRT-LLM into its local chatbot app. These benchmarks compare the performance of NVIDIA’s GeForce RTX 40 GPUs to laptop CPUs with dedicated AI NPUs.

The NVIDIA GeForce RTX 4090 GPU offers an 8.7x improvement over the AMD Ryzen 9 8945HS CPU without TensorRT-LLM. With acceleration enabled, this lead increases to 15x (a 70% increase over the non-TensorRT-LLM configuration). In this scenario, the RTX 4090 can process up to 170.63 tokens per second, while the AMD CPU only achieves 11.57 tokens/second. Even the NVIDIA GeForce RTX 4070 laptop GPU offers an acceleration of up to 4.45 times.

NVIDIA has also published benchmarks with an RTX 4090 in an eGPU configuration to show how laptop performance for AI workloads can be further boosted by an external GPU. This configuration offers a 9.07x performance increase over the same AMD laptop CPU. NVIDIA has once again proven its lead in the AI segment. The GeForce RTX 40 GPUs offer unrivaled performance for AI applications and are the best choice for those looking to drive the next generation of AI innovation.

Source: NVIDIA

6 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

RazielNoir

Veteran

439 Kommentare 202 Likes

#1 Jun 13, 2024

Hm. Wieviel TOPS hat eine RTX 6000 Ada? Und sind das nicht TFLOPS? 😁

Antwort Gefällt mir

gerTHW84

Veteran

413 Kommentare 253 Likes

#2 Jun 13, 2024

In diesem Fall sind es typischerweise TOPS, also TeraOperations pro Sekunde auf Basis eines Integer-Datentyps, typischerweise INT8 für das Inferencing. TFLOPS bezeichnen dagegen Fließkommaoperationen. Die nimmt man bestenfalls beim Training eines NNs.

Beispielsweise eine RTX 4090 liefert mit INT8 rd. 661 TOPS mittels der Tensor Kerne, mit INT4 gar 1321 TOPS, also rd. 1,3 PetaOPS (beides Werte ohne Sparsity). Die RTX 4080 erreicht immer noch 390 bzw. 780 TOPS (trotz des deutlich kleineren Chips).
Die aktuelle RTX 6000 (Ada) wird mit 729 bzw. 1457 TOPS angegeben. Das alles sind jedoch nur die theoretischen Peak-Werte. In realen Anwendungen ist der verwendete SW-Stack sehr wichtig und bei größeren NNs auch der zur Verfügung stehende Speicher.
Zum Vergleiche dazu wird Hopper als H100 in SXM5-Bauform mit 1979 TOPS INT8 angegeben.
Als weiterer Vergleich dazu gibt nVidia den GB200 Superchip (1x Grace + 2x Blackwell auf einiem Board) für sowohl INT8 wie auch FP8 mit 10 PetaOPS/FLOPS an. Die Grace-CPU wird da voraussichtlich nicht allzu viel zu beitragen, d. h. vereinfacht betrachtet könnte man die Werte für einen Architekturvergleich grob halbieren.

Antwort 2 Likes

eastcoast_pete

Urgestein

1,698 Kommentare 1,031 Likes

#3 Jun 13, 2024

Obwohl dieser Vergleich von Nvidia schon zeigt, wie stark die Tensor Kerne zu der INT8 Leistung beitragen können, ist auch etwas anderes interessant: die GPU (ohne die Tensor Kerne) ist hier auch schon ziemlich kräftig unterwegs. Und das ist nicht nur so bei Nvidia, oder den Ada Karten. Allgemein sind moderne GPUs aller Hersteller ja fast prädestiniert für derartige Berechnungen. Auch bei den sogenannten "AI" ("KI") APUs wie Meteor Lake und Hawk steuern die iGPUs die deutliche Mehrzahl der TOPS zur Gesamtleistung bei, zumindest bei den x86/x64 Systemen. Daher bleibt (IMHO) die Frage offen, ob das in die NPUs investierte Silizium (die mm2 im Die) nicht besser in zB größere Caches für die iGPUs investiert gewesen wäre. Denn die Caches der GPUs in den APUs sind alle ein bisschen klein, und mit ein paar kB mehr könnte man dann auch noch mehr Grafik Leistung erzielen, dh der Nutzen wäre universeller. Wobei mir klar ist, daß der Zug schon länger abgefahren ist. KI/NPU muß halt überall mit rein und auf die Packung, zumindest meinen das die Marketing Abteilungen/rant off.

Antwort Gefällt mir

gerTHW84

Veteran

413 Kommentare 253 Likes

#4 Jun 13, 2024

In diesem Sinne noch einmal der Hinweis denn Sinn und Zweck der NPUs richtig zu verstehen. Diese sind nicht für Hochlast-ML-Workloads gedacht, dafür nimmt man immer besser eine massiv-parallele, deutlich leistungsfähigere GPU.
Die NPUs sind für das hocheffiziente Verarbeiten von ML-Workloads bei niedriger bis mittlerer Last vorgesehen, mehr nicht. Beispielsweise in einem Videochat kann ML für die Geräuschunterdrückung oder Audiooptimierung genutzt werden und optional um den Bildhintergrund auszublenden/zu ersetzen. Das sind keine Hochlast-Workloads, jedoch laufen die bspw. während eines Meetings unentwegt mit und müssten diese Effekte per CPU oder GPU berechnet werden, würde dies deutlich mehr Strom ziehen (und zudem teilweise die entsprechende Komponente belasten) und das ist ein nochmal schlechteres Szenario für ein mobiles Gerät, das gerade im Akkubetrieb unterwegs ist. Dementsprechend tauchen diese NPUs nun auch vorerst präferiert in Mobil-SoCs auf ... ist ja auch nichts Neues ... die ARM-Chips haben alle schon lange NPUs ... müssten die ML-Tasks ohne spezialisierte Hardware berechnen, wären die Akkus schnell leer. ;-)
Beispielsweise eine Voice-Aktivierung/Wake-on-voice ist ebenfalls ein Niedriglast-ML-Szenario, bei dem mit dem Mikro permanent die Umgebungsgeräusche auf ein Schlüsselwort hin gefiltert werden müssen. In so einem Szenario will man das SoC weitestgehend schlafen legen, also braucht es eine kleine hocheffiziente Einheit, die einen derartigen Workload weitestgehend im Hintergrund verarbeiten kann und das sind die NPUs. Will man dagegen bspw. umfangreiche Effekte mit Premiere, Davinci oder Topaz verarbeiten, möglicherweise gar auf serien- oder spielfilmlänge, will man hier eher eine potente GPU nutzen.

Beispielsweise in der aktuellsten CPU-Gen Meteor Lake hat man nun die Möglichkeit ML an vier unterschiedlichen Stellen berechnen zu lassen (oder kann gar einige Einheiten mit dem passenden SW-Stack zusammenarbeiten lassen):
a) Die interne oder auch externe GPU, hier nun mit dem überarbeiteten Xe LP nun auch als iGPU mit XMX-Einheiten, die analog den Tensor Cores bei nVidia MMA-Operationen direkt implementieren. (Auch ohne Spezialeinheiten kann man natürlich den massiv-parallelel Shader-Aufbau der GPU "zu Fuß" nutzen, was aber ineffizienter und weniger durchsatzstark ist).
b) Via dem AVX-Subset VNNI, das vom Xeon Phi über die Server dann nun auch in die Consumer-Prozessoren hineingewandert ist, aktuell als 256bittige-Variante, da Intel eine 512 Bit-Verarbeitung zugunsten des P/E-Core-Aufbaus aus den Consumer-Produkten entfernt hat.
c) Mittels des Gaussian Neural Accelerator, der seit Ice Lake in Intel-CPUs vorhanden ist und kleine ML-Workloads prozessieren kann, so bspw. Spracherkennung, Geräuschunterdrückung, Sprecheridentifikation, Wake-on-voice. Ab v3.1 kann GNA auch visuelle Sensoren für ein Aufwecken und Authentifizieren des Anwenders nutzen.
d) Nun ganz neu über eine NPU (Intel sprach hier im Vorfeld mal auch von VPU), die den Leistungsumfang noch mal auf ein neues Level anheben, aber dabei immer noch hocheffizient sein sollen.

Entsprechend haben nun AMD und Intel AI/ML und die NPU für ihre Werbezwecke entdeckt um Anwendern einzutrichtern, dass sie doch unbedingt neue Hardware benötigen, da nun das ML-Zeitalter angebrochen ist. Auf der anderen Seite muss das einen Desktopanwender mit dedizierter GPU jedoch wenig interessieren, wenn der PC eine nVidia-GPU oder alternativ eine AMD-GPU ab RDNA3 eingebaut hat, denn kleinere GPUs übertreffen hier die 40 - 50 TOPS der NPUs.
Und da das Thema NPUs & TOPS derzeit von den beiden derart hartnäckig durch die Medien gepeitscht wird und da nVidia keine CPUs verkauft und dieses ansonsten an denen vorbeirauschen würde, hat sich deren Marketing wohl gedacht, dass es mal angebracht wäre den Finger zu heben und zu erklären, dass nVidia-GPU-Besitzer schon per se bzgl. dieses Themas gut aufgestellt sind.

Letzten Endes geht es hier darum die richtige Ausführungseinheit für den richtigen Workload zur Hand zu haben. Wohin uns das führen wird, müssen wir mal abwarten. Wenn ich da an Microsofts "Recall" denke, rollen sich mir schon wieder die Fußnägel auf aber ok, vielleicht dachte man dort, dass man die absehbaren Wogen einfacher geglättet bekommen würde und das nächste absatzfördernde Killerfeature entdeckt hätte ... ;-)

Antwort Gefällt mir

Klicke zum Ausklappem

DrWandel

Mitglied

84 Kommentare 69 Likes

#5 Jun 14, 2024

Also, dieser Satz hat mich doch erst mal verwirrt:

NVIDIAs GeForce RTX GPUs verfügen über bis zu 24 GB VRAM, während NVIDIA RTX GPUs bis zu 48 GB VRAM bieten.

Steht aber tatsächlich so auch im gelinkten Original-Artikel:

GeForce RTX GPUs offer up to 24GB of high-speed VRAM, and NVIDIA RTX GPUs up to 48GB

Dass eine "RTX GPU" (= NVIDIA RTX AI-GPU ?) von Nvidia nicht das gleiche ist wie eine "GeForce RTX GPU", war mir nicht sofort klar. Da hätte Nvidia vielleicht doch die Namen etwas besser abgrenzen können.

Antwort 1 Like

Alkbert

Urgestein

959 Kommentare 747 Likes

#6 Jun 26, 2024

Ich persönlich fand es nicht geschickt, von der Quadro Nomenklatur zur "A" Nomenklatur zu wechseln. Das verstehe ich bis heute nicht, bin aber auch kein Marketing Mensch.

Antwort Gefällt mir

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.