AI/KI Professional Testberichte

NVIDIA vs. AMD und Workstation vs. Consumer: Wer hat die Nase bei den KI-Grafikkarten-Benchmarks vorn?

ResNet-50 ist eine weit verbreitete tiefneuronale Netzwerkarchitektur, die für die Bildklassifikation und andere Computer-Vision-Aufgaben verwendet wird. Die Architektur ist bekannt für ihre Tiefe und die Verwendung von Residual-Blöcken, die das Training sehr tiefer Netzwerke erleichtern und die Anwendung stellt einen wichtigen Meilenstein in der Entwicklung tiefer neuronaler Netzwerke dar. Die Einführung von Residual-Blöcken und anderen fortschrittlichen Techniken hat es ermöglicht, sehr tiefe Netzwerke effektiv zu trainieren und dabei eine hohe Genauigkeit zu erreichen. Die Vielseitigkeit und Robustheit von ResNet-50 machen es zu einer idealen Wahl für eine Vielzahl von Computer-Vision-Anwendungen.

Architekturmerkmale

  1. Residual Blocks:
    • ResNet-50 verwendet Residual-Blöcke, die es ermöglichen, sehr tiefe Netzwerke zu trainieren, indem sie die Identität der Eingaben über Skiplayers beibehalten. Diese Blöcke verhindern das Verschwinden des Gradienten und erleichtern das Training.
  2. 50 Layers Deep:
    • Wie der Name andeutet, besteht ResNet-50 aus 50 Schichten, die in mehreren Stufen organisiert sind. Diese Tiefe ermöglicht eine sehr detaillierte und genaue Merkmalsextraktion.
  3. Bottleneck Layers:
    • ResNet-50 verwendet Bottleneck-Layer, um die Effizienz zu verbessern. Diese Layer bestehen aus 1×1, 3×3 und wieder 1×1 Convolutions, die die Rechenlast reduzieren und gleichzeitig die Fähigkeit zur Merkmalsextraktion beibehalten.

Technische Innovationen

  1. Identity Mapping:
    • Eine der Hauptinnovationen von ResNet ist das Identity Mapping durch Skiplayers. Diese Technik hilft dabei, Informationen ohne Veränderung durch das Netzwerk zu leiten und somit den Informationsverlust zu minimieren.
  2. He Initialization:
    • ResNet-50 verwendet He-Initialization für die Gewichtsinitialisierung, was speziell für tiefere Netzwerke entwickelt wurde. Dies hilft, den Gradientenzustrom während des Trainings stabil zu halten.
  3. Batch Normalization:
    • Batch-Normalisierung ist ein integraler Bestandteil von ResNet-50 und trägt dazu bei, die Trainingszeiten zu verkürzen und die Stabilität des Netzwerks zu erhöhen.

Anwendungen und Einsatzbereiche

ResNet-50 ist aufgrund seiner Genauigkeit und Robustheit in vielen Anwendungsbereichen beliebt:

  1. Bild- und Videoerkennung:
    • ResNet-50 wird häufig in Anwendungen eingesetzt, die eine hohe Genauigkeit bei der Bild- und Videoerkennung erfordern, wie z.B. in der medizinischen Bildanalyse oder in autonomen Systemen.
  2. Objekterkennung:
    • Die Architektur eignet sich hervorragend für Objekterkennungsaufgaben, die in der Überwachung, im Einzelhandel und in industriellen Anwendungen benötigt werden.
  3. Feature Extraction:
    • ResNet-50 wird oft als Basisnetzwerk für andere Aufgaben der Computer Vision verwendet, wie z.B. die Extraktion von Merkmalen für die Bildähnlichkeitssuche oder für Transfer Learning.

Benchmarks

Die durchschnittliche Inferenzzeit ist ein kritischer Leistungsindikator für Deep Learning-Modelle, insbesondere in Echtzeit-Anwendungen. Die scheinbar langsamere GPU kann in der Praxis schneller sein, wenn sie für die spezifischen Workloads besser optimiert ist, niedrigere Latenzzeiten bietet, effizienter mit bestimmten Datenformaten arbeitet oder durch bessere Treiber- und Software-Unterstützung profitiert. Bei kurzen Rechenzeiten kann die Latenz, die durch die Initialisierung und Kommunikation zwischen GPU und CPU entsteht, einen größeren Einfluss haben als die reine Rechenleistung. GPUs, die besser darin sind, diese Latenzen zu minimieren, können somit effektiver arbeiten. Manche GPUs sind zudem thermisch und energetisch effizienter, was bedeutet, dass sie ihre maximale Leistung über längere Zeiträume aufrechterhalten können, ohne dass es zu Drosselungen kommt.

Kommentar

Lade neue Kommentare

echolot

Urgestein

1,118 Kommentare 875 Likes

Das war sehr umfangreich. Also mit einer 4070 Ti super ist man schon gut bedient und ich bereue es nach wie vor, dass ich Nvidia nicht schon 2015 ins Portfolio genommen habe. Dieses Unternehmen kennt gerade keine Grenzen.
Nachtrag:

View image at the forums

Antwort 2 Likes

l
letauch

Mitglied

12 Kommentare 9 Likes

Ahoi,

an der Börse gilt wie immer: hinterher ist man immer schlauer.

Grüße
letauch

Antwort 1 Like

e
eastcoast_pete

Urgestein

1,698 Kommentare 1,031 Likes

Ja, momentan ist Nvidia hier dominant, keine Frage. Da ja jetzt die viel beworbenen NPUs/AI ASICs auch ihren Einzug in Notebooks feiern (die Snapdragon X mit Windows-on-ARM sind ja gerade überall zu sehen), wär es auch spannend, diese SoCs mit (laut Microsoft) starken, dedizierten NPU Kernen durch einige der Test Parkours hier zu schicken, auch um die KI Leistung dieser SoCs einordnen zu können (gilt mE ebenso für Phoenix/Hawks). Und, zumindest theoretisch, sollten hier Anwendungen, die besonders auf schnelle Kommunikation zwischen CPU und GPU bzw NPU Kernen angewiesen sind, besonders profitieren.

Antwort 2 Likes

R
RazielNoir

Veteran

439 Kommentare 202 Likes

Die RTX 4000 ADA SFF mit TensorRT ist ziemlich das effizienteste Modell, wenn ich den Overallscore richtig sehe. Auf Niveau einer 4070ti bzw. 7900XT bei 70w!

Antwort Gefällt mir

8j0ern

Urgestein

2,756 Kommentare 854 Likes

Sehr interessant, wie soll das Unabhängig Funktionieren, wenn der Tensor Code nur von einem Hardware Hersteller Supportet wird ?

Anders herum gefragt, warum sollte ich als Unabhängiger Coder auf Tensor Cores gehen ?

Davon mal ab, Bilder Generieren in 1024p ?

Warten wir besser auf die NPUs ;)

Antwort Gefällt mir

Igor Wallossek

1

10,485 Kommentare 19,651 Likes

Warum wohl habe ich die NV-Karten wohl auch mit alternativem Code gemessen? Bei der Bildgenerierung gabs dann für NV alternativ Intels OpenVINO. Ich kenne keinen Benchmark, der mehr APIs unterstützt und vor allem in der Pro Version vom Tester auch gescriptet werden kann. Insofern ist Dein Einwurf etwas am Thema vorbei. Heute gings auch nur um Grafikkarten und keine NPUs. Das ist wieder ein anderes Thema und längst in Vorbereitung. Nur ist es so, dass nicht mal AMD irgendeinen vergleichbaren Absatz bietet.

Du arbeitest lokal, nicht auf einer Serverfarm. Und es sind viele, nicht nur eins. :D

Die werden gegen jede noch so kleine NV Karte mit Tensor Cores erst mal gehörig abstinken. Aber für einfache LM wirds schon reichen. Ich versuche gerade, passende Hardware zu beschaffen, aber fast alle mauern noch.

Antwort 1 Like

8j0ern

Urgestein

2,756 Kommentare 854 Likes

Ich meinte jetzt nicht deine Vergleich hier, daher habe ich auch die Homepage des Benchmarks verlinkt.

Falls es doch noch Nvidia unabhängige Coder gibt: https://www.amd.com/en/products/sof... including open frameworks, models, and tools.

Antwort Gefällt mir

echolot

Urgestein

1,118 Kommentare 875 Likes

Tensor Cores und Frame Generation. War da was? Solange AMD da nicht nachziehen kann, wird Nvidia immer davonziehen.

Antwort 1 Like

Igor Wallossek

1

10,485 Kommentare 19,651 Likes

ROCm... Naja, da muss schon noch mehr kommen. AMDs Software bietet eine Reihe von Optimierungen für KI-Workloads, aber das wars dann auch schon.

Aktuell sind Microsofts Windows ML, Qualcomms SNPE, Intels OpenVINO, Apples Core ML und halt NVIDIAs TensorRT das Maß der Dinge.

Antwort Gefällt mir

Y
Yumiko

Urgestein

546 Kommentare 247 Likes

Ist das so?
Beispielsweise für den Preis einer 4090 bekommt man 3x 7900xt welche zusammen deutlich schneller sind nach obigen Benchmarks (KI Anwendungen sind massiv parallel).
Beim Verbrauch (je nach Stromkosten) kann sich das natürlich irgendwann drehen.

Antwort Gefällt mir

Igor Wallossek

1

10,485 Kommentare 19,651 Likes

Je nach Anwendung. Wenn TensorRT genutzt werden kann, ist AMD mit RDNA3 fast komplett hilflos. Nicht alles lässt sich über veile Devices hin parallelisieren und dann braucht man immer noch ein performantes API. Da sehe ich meist ein Software-Problem bei AMD, zumindest im Desktop-Bereich.

Antwort 3 Likes

echolot

Urgestein

1,118 Kommentare 875 Likes

Und ein performantes Netzteil für 3x 7900XT

Antwort 1 Like

R
RazielNoir

Veteran

439 Kommentare 202 Likes

Oder die Passende Plattform

Antwort Gefällt mir

8j0ern

Urgestein

2,756 Kommentare 854 Likes
ipat66

Urgestein

1,422 Kommentare 1,436 Likes

Stand heute bekommt man eine 4090 für 1730 Euro.
Eine 7900XTX bekommt man für ab 950 Euro...
Das sind also eher knapp zwei 7900 XTX für den Preis einer 4090.
Edit: Bei den 7900 XT für 700 Euro wären wir bei 2100 Euro, bei 3 Stück

Zudem braucht es im KI-Produktivbereich nur eine 4070 TI Super, um die gleiche bzw. teils viel bessere Leistung im Vergleich zu einer 7900 XTX zu erreichen.
Eine 4070 TI Super bekommt man ab 850 Euro....
Also: 100 Euro gespart mit im Vergleich weniger Energieverbrauch .

Das erkenne ich zumindest aus Igor's Diagrammen... :)

Antwort 2 Likes

8j0ern

Urgestein

2,756 Kommentare 854 Likes

Auf den Benchmark bezogen stimmt das auch.
Die Frage ist, welche Relevanz hat z.B. ein Mobile Benchmark auf einer 4070 TI ?

Kommt jetzt wieder: Liebling, ich habe die Kinder geschrumpft ?

Antwort Gefällt mir

echolot

Urgestein

1,118 Kommentare 875 Likes

Ist auch mein Denkansatz. Da muss AMD bei der nächsten Generation noch ein, zwei Schippen drauflegen.

Antwort Gefällt mir

8j0ern

Urgestein

2,756 Kommentare 854 Likes

Dann will ich dich sehen, wie du ein, zwei Geldbeutel mehr drauflegst. ;)

Antwort Gefällt mir

echolot

Urgestein

1,118 Kommentare 875 Likes

Der Markt bestimmt den Preis. Siehe Nvidia. Soviele 4090 Besitzer gibbet nicht.

Antwort 1 Like

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube   Facebook    Instagram Twitter

Werbung

Werbung