NVIDIA RTX 5090: Technische Daten geleakt? 512-Bit-Speicherinterface, 16 GDDR7 Speichermodule und neues PCB-Design

Wobei mich das Gefühl beschleicht, dass es bei Grakas nicht ganz so "einfach" ist. Aber ich bin nicht vom Fach, vielleicht irre ich mich auch (schön wär's).
Das Problem ist, das die Info`s verwirrend sind. Eigentlich hatte ich gehofft, das der techniche Vorsprung Seitens AMD dazu führen würde, jetzt mal so richtig was rauszuhauen. Aber nun bauen sie wohl wieder einer Monolithen? Das verstehe wer will. Aber AMD als ernsthafter Herausforderer hab ich erstmal abgeschrieben. Was so ziemlich das schlimmst für alle Beteiligten, ausser NVIDIA ist.
 
Ich vermute, dass es eben (gute) Gründe gibt, warum man Dinge auf einen Chip gepackt hat. Vermutlich nicht umsonst sind verschiedene Komponenten (erinnert sich noch jemand an Co-Prozessoren? ;)) mit der Zeit in die CPU gewandert, z.B. auch der RAM-Controller. Für CPUs hat AMD einen guten Weg gefunden, aber GPUs sind m.E. deutlich komplexer, wenn es denn hoch-performant werden soll.
 
Ich vermute, dass es eben (gute) Gründe gibt, warum man Dinge auf einen Chip gepackt hat. Vermutlich nicht umsonst sind verschiedene Komponenten (erinnert sich noch jemand an Co-Prozessoren? ;)) mit der Zeit in die CPU gewandert, z.B. auch der RAM-Controller. Für CPUs hat AMD einen guten Weg gefunden, aber GPUs sind m.E. deutlich komplexer, wenn es denn hoch-performant werden soll.
Das ist ja der Punkt. NVIDIA baut keine Monolithen mehr.
 
Ich vermute, dass es eben (gute) Gründe gibt, warum man Dinge auf einen Chip gepackt hat. Vermutlich nicht umsonst sind verschiedene Komponenten (erinnert sich noch jemand an Co-Prozessoren? ;)) mit der Zeit in die CPU gewandert, z.B. auch der RAM-Controller. Für CPUs hat AMD einen guten Weg gefunden, aber GPUs sind m.E. deutlich komplexer, wenn es denn hoch-performant werden soll.
Annahme: GPUs Dies haben sehr viele identische Elemente, so daß es deutlich unwahrscheinlicher ist, daß ein Die einen fatalen Fehler (fatal flaw) hat, und ganz in die Recycling Tonne kommt. Bei Nvidia sieht man zB teilinaktivierte (teildefekte) Dies in den 4070ern, bei denen man auch beschnittene 103 Dies (statt den 104) findet. Jetzt benutzen eigentlich alle Firmen (AMD, Nvidia, Intel, Apple, Qualcomm usw) auch Software, die schon im Design hohe Fehlertoleranz mit einbezieht, aber bei CPUs ist es aber trotzdem wahrscheinlicher, daß ein Die auch stark beschnitten nicht mehr einsatzfähig ist bzw an den Kunden verkloppt werden kann. Bei Kacheln (Tiles, Chiplets) verliert man im Fall eines fatalen Fehlers halt nur diese Kachel, und nimmt einfach eine andere stattdessen. Bei größeren CPUs ist das am Ende einfach wirtschaftlicher, trotz des Aufwands mit Substrat (Base Die) und Packaging. Die Kachelei kostet natürlich auch (Substrat, Packaging) und die Effizienz ist bei vergleichbaren Monolithen immer noch deutlich besser. Die extra Energie fürs transportieren von Informationen zwischen Kacheln (die extra picoJoules pro Bit) addieren sich halt auf. Auch deshalb wird sich zB AMD bei ihren mobilen 7840/8840 Zen 4 APUs für monolithische Bauweise entschieden haben. Die sind (IMHO) die eigentlichen Superstars in AMDs Konsumer Lineup, v.a. die -u Varianten.

Unabhängig von alledem finde ich es absolut erstaunlich, wie gering die Ausschussraten bei großen Chips sind. Milliarden von Transistoren, dutzende von Layern, und die Ausschussraten sind trotzdem meist weit unter 50%.
 
Zuletzt bearbeitet :
Das ist ja der Punkt. NVIDIA baut keine Monolithen mehr.
Als Zusatz zu meiner auch etwas längeren Antwort an @Besterino (sorry daß es etwas ausführlicher wurde 😀): obwohl GPUs mit ihren sehr vielen, auch redundanten Funktionsblöcken bauartbedingt sehr viel toleranter gegenüber Fabrikationsfehler sind (kleineres Risiko eines fatal flaw pro Milliarden Transistoren oder mm2) holt einen auch hier die Statistik ein. Ada 102 hat ja um die 76 Milliarden Transistoren, und da ist's wie im Lotto, nur negativ: je mehr Transistoren im Die, je größer die Chance für einen fatalen Treffer. Da helfen einem auch das beste Design und der ausgereifteste Fertigungsknoten nur so weit. Wie viele Ada 102 sich weder für Beschleuniger, Quadros (6000, dann 5000) und am Ende 4090 eignen und wie viel Prozent ganz im Recycling landen sind gut gehütete Geheimnisse, die Nvidia und TSMC nicht rauslassen werden. Ich nehme an, daß sich Nvidia aus 4 Gründen entschieden hat, jetzt den Sprung auf Kachel (Tiles) Architektur zu wagen:
1. Die nächste Generation (Blackwell) soll und muß noch viel mehr Transistoren haben als Ada, Ausschuss wird also ein immer größeres Problem. Auch weil man ja in noch kleineren Strukturen fertigen will ("bleeding edge" heißt aus gutem Grund so).
2. Moderne KI Beschleuniger sind so oder so sehr aufwendig im Packaging (mit HBM3/3e eng beisammen auf Base Substrat, ditto die CPUs die mit bei sind; d.h. der Aufwand in der Fertigung durch Kachel Bauweise der "GPU" statt als Monolith wird uU verhältnismäßig kleiner.
3. Es wird viel einfacher, die Anzahl der Funktionsblöcke zu variieren; will man mehr, gibt's ein oder mehrere Kacheln extra, will man weniger, lässt man welche weg. Je nachdem wie Nvidia sich entschließt, könnten sie zB auch Kacheln mit mehr oder nur Tensor Kernen haben, die gerade für KI Beschleuniger sehr interessant wären.
4. Sie sind in der nächsten Zeit v.a.bei großen GPUs alleine auf weiter Flur. AMD hat sich aus dem Wettrennen zumindest bei High End GPUs erst mal verabschiedet, und Intel hinkt zumindest bis dato deutlich hinterher. Daher ist das Risiko, hier von der Konkurrenz in den Schatten gestellt zu werden während man die Kinderkrankheiten der neuen Architektur auskuriert, viel geringer.

Punkt 3 wird aber auch für dGPUs interessant sein, weil Nvidia so ihre 5090, 5080 usw im Baukasten Verfahren zusammensetzen kann (wird?). TSMC fertigt dann halt 1-2 Standard Compute "Kacheln" und je nach Modell wird die Zahl geändert. Spart ein Haufen Zeit und Geld beim fabbing , kostet allerdings auch etwas beim Packaging. Aber da bauen TSMC , Intel, Samsung usw ja mit Volldampf aus. Jensen Huang kriegt seine Kacheln gepackt😁, da bin ich mir sicher.
 
Zuletzt bearbeitet :
@eastcoast_pete Du meinst die neuen Wandkacheln der Kochnische im Hause Huang?!😉
 
Ich glaube, dass NVIDIA einfach inzwischen genug Erfahrungen mit Interconnects (auch an anderer Stelle - incl. Mellanox-Zukauf) gesammelt haben, dass sie es sich zutrauen, auch etwas Performantes mit mehreren „Dies“ auf einer Graka hinzuzaubern.
 
kans mir leider mit 512bit nicht vorstellen auser es kommen zwei große karten raus und die ti /super/titan oder wie auch immer kostet über 3000€ euro weil warum sollte Nvidia das machen ohne konkurenz schön wärs trozdem mit gddr 7 wär der durchsatz an speicher schon intersant wie viel man da aber im gaming merkt weis ich nicht.
 
Vorschlag. Man nehme 4Gb Module. Dann sind es 64GB und es wird ein Schuh draus. :D
Nein, dann wären es nur 8 G(i)B an einem 512 Bit-SI, denn 4 Gb(it)-BGAs sind nochmals kleiner ... wenn Hersteller von "Gb" mit kleinem "b" sprechen, sind das typischerweise Bits ... nicht selten geben die manchmal so auch eine Geschwindigkeitsangabe an und haben das anzuhängende "/s" nur weggelassen ... ok, genug der Spalterei. ;-)

Randbemerkung: Für die Datacenter-Karten, also ML-Wokloads, so etwas wie bspw. einen nVidia L40-Nachfolger, könnte nVidia mit den angekündigten 24 Gb-BGAs an 512 Bit problemlos 48 GiB anbieten, mit einer Clamshell-Anbindung der BGAs gar 96 GiB Speicher, was bei den steigenden Anforderungen auch durchaus gewünscht sein dürfte.
Der große HPC-Chip dagegen hat 192 GiB HMB3e auf dem Interposer bzw. im primär beworbenen neuen Design sind es eigentlich 2x192 = 384 GiB HBM3e, da es sich hier um ein vorkonfektioniertes Board mit zwei Chips und einer Grace-CPU mit einem schnellen Interconnect handelt und das ganze als kohärente Einheit arbeiten können soll.
 
Nein, dann wären es nur 8 G(i)B an einem 512 Bit-SI, denn 4 Gb(it)-BGAs sind nochmals kleiner ... wenn Hersteller von "Gb" mit kleinem "b" sprechen, sind das typischerweise Bits ... nicht selten geben die manchmal so auch eine Geschwindigkeitsangabe an und haben das anzuhängende "/s" nur weggelassen ... ok, genug der Spalterei. ;-)

Randbemerkung: Für die Datacenter-Karten, also ML-Wokloads, so etwas wie bspw. einen nVidia L40-Nachfolger, könnte nVidia mit den angekündigten 24 Gb-BGAs an 512 Bit problemlos 48 GiB anbieten, mit einer Clamshell-Anbindung der BGAs gar 96 GiB Speicher, was bei den steigenden Anforderungen auch durchaus gewünscht sein dürfte.
Der große HPC-Chip dagegen hat 192 GiB HMB3e auf dem Interposer bzw. im primär beworbenen neuen Design sind es eigentlich 2x192 = 384 GiB HBM3e, da es sich hier um ein vorkonfektioniertes Board mit zwei Chips und einer Grace-CPU mit einem schnellen Interconnect handelt und das ganze als kohärente Einheit arbeiten können soll.
Heute schon Korinthen gekackt?
 
Seasonic leakt den Verbrauch der RTX 50XX GPU's …. :)
Viel ändert sich nicht zu den Vorgänger-Generation.
Die 5090 ist bei 500 Watt, die 5080 bei 350.
Die 5060 legt kräftig zu ...
Den Rest seht ihr im Link ...

 
Zuletzt bearbeitet :
Seasonic leakt den Verbrauch der RTX 50XX GPU's …. :)
Viel ändert sich nicht zu den Vorgänger-Generation.
Die 5090 ist bei 500 Watt, die 5080 bei 350.
Den Rest seht ihr im Link ...

Naja, aber was sagt das unterm Strich aus. Die 4090 war mit 600 Watt angeben, die meisten können nur aufgrund ihres Anschlusses max 450 Watt aufnehmen und meine 4090 kommt selten deutlich über 300 Watt. Wir werden es erst wirklich bei den ersten Tests erfahren. Aber immerhin, ein erster Anhaltspunkt.
 
Hmpf, hatte bei der 5080 auf weniger gehofft. Vllt schaue ich mich dann bei der 5070 Ti Super Black Titan mal um.

Aber dann ist wieder die RAM Frage...
 
Oben Unten