Overall Score: Zusammenfasssung der Einzelbenchmarks
Begonnen wir mit den Floating-Point-Benchmarks. Hier ist NVIDIA das Maß der Dinge und wenn dann noch die Tensor-Cores mit ins Spiel kommen, sehen alle Karten ohne dieses Feature sowieso kein Land mehr. Man erkennt übrigens auch, dass NVIDIA-Karten bei FP16 deutlich stärker abschneiden, als bei FP32, wenn es um den Vergleich mit den AMD-Karten geht. Auch wenn die GeForce RTX 4090 meist gegen den Vollausbau auf der RTX 6000 Ada leicht gewinnt – die Workstation-Karte liegt bei der Effizienz mit maximal 300 Watt gegenüber den bis zu 450 Watt bei der Consumer-Karte weit vorn. Cache und Speichergröße und ein paar mehr Rechenwerke sorgen dafür, dass die niedrig taktendere Karte nicht deutlicher hinten liegt. Bei AMDs Consumer-Karten liegen die RX 7900XT und XTX beide fast gleichauf, was eingermaßen verblüfft, in der Summe aber reproduzierbar ist, weil es Einzelbenchmarks gibt, die der XT offebar etwas besser liegen, warum auch immer. Allerdings könnte AMD sicher noch von weiter optimierten Treibern profitieren.
Integer Score
Die Art der Berechnungen in KI-Anwendungen kann stark variieren. Integer-Operationen werden oft in Quantized Neural Networks (QNNs) verwendet, während Floating-Point-Operationen in Standard-Neural-Networks (NNs) häufiger sind. Diese unterschiedlichen Arbeitslasten können zu unterschiedlichen Leistungsanforderungen und Benchmarkergebnissen führen, auch unterhalb der Grafikkarten eines Herstellers. Integer-Operationen sind oft weniger rechenintensiv und benötigen weniger Speicherbandbreite im Vergleich zu Floating-Point-Operationen, was sich ebenfalls in den Benchmarkergebnissen widerspiegeln kann.
Unterschiedliche Caching-Strategien und Cache-Größen können sich auf Integer- und Floating-Point-Operationen unterschiedlich auswirken. Integer-Daten können besser in den Cache passen und effizienter genutzt werden als Floating-Point-Daten. In einigen KI-Modellen werden Floating-Point-Operationen durch Quantisierung auf Integer-Werte reduziert, was zu Leistungssteigerungen führen kann. Die Performance-Unterschiede in Benchmarks können daher auf die Effizienz der Quantisierung zurückzuführen sein.
Zusammenfassung und Fazit
Unterm Strich kommen alle Karten oft genug an ihr Leistungslimit, auch meistens elektrisch. Und alle Benchmarks ohne die Tensor Cores spiegeln den aktuellen Ist-Stand der Architekturen ohne KI-Beschleuniger wider. Das ist dann quasi die Rastergrafik in der KI-Welt ohne Raytracing. Und selbst dort hat NVIDIA immer noch die Nase deutlich vorn. Natürlich standen mir nur normale Workstation- und Consumer-Karten zur Verfügung und keine speziellen KI-Beschleuniger. Aber das wäre dann ja eh wieder etwas völlig anderes und es funktioniert in dieser Form auch nicht unter Windows. Kleine Randnotitz: Da ich stets mehrere Iterationen mache, schafft man am Tag ganz zwei, maximal drei Karten (dann ohne TensorRT). Genau deshalb müssen auch die 12 Karten vorerst reichen, denn das hat auch so schon fast eine Woche lang gerödelt. Aber wir sehen immerhin, dass auch Consumer-Karten gut mithalten können, bis auf kleinere Ausnahmen.
35 Antworten
Kommentar
Lade neue Kommentare
Urgestein
Mitglied
Urgestein
Veteran
Urgestein
1
Urgestein
Urgestein
1
Urgestein
1
Urgestein
Veteran
Urgestein
Urgestein
Urgestein
Urgestein
Urgestein
Urgestein
Alle Kommentare lesen unter igor´sLAB Community →