Natürlich halten sie Leistung zurück. Sie könnten was schnelleres als die 2080ti bringen wenn gewollt.
Das haben sie doch bereits getan, siehe Titan RTX. Dass Du jetzt jedoch vielleicht nur bereit bist, für eine solche Karte bestenfalls +200 € mehr zu bezahlen (im Vergleich zu einer RTX 2080 Ti) ist dagegen ein völlig anderes Thema.
Dazu gab es mal Gerüchte, aber AMD CPUs ... (Ryzen 6-Kerner mit 8C/16T)
Hierbei handelte es sich ganz offensichtlich um einen Fertigungsfehler, wie auch in dem verlinktem Artikel zu erkennen war, denn die konkreten CPUs entstammten aller einer bestimmten Produktionswoche. Natürlich nimmt auch AMD
bei Bedarf voll funktionsfähige Chiplets und deaktiviert ein oder zwei Kerne um kleinere Prozessoren fertigen zu können.
Bedeutet das, bei der Herstellung der Chips werden bewusst nur 46 von 48 möglichen SM's "angebracht"? / klingt trotzdem irgendwie falsch
Nein, bedeutet es nicht,
vereinfacht:
nVidia hat drei Turing-Desings auf dem Reißbrett entwickelt, in CAD mit den entsprechenden Tools und Libs zum 12nm-Node gebaut, sodass entsprechende Belichtungen der Wafer vorgenommen werden können, die die zugehörigen Chips hervorbringen:
- der größte: TU102, 72 SMs, 96 ROPs (ermöglicht ein bis zu 384 Bit-Speicherinterface)
- der mittlere: TU104, 48 SMs, 64 ROPs (nur noch bestenfalls 256 Bit-Speicherinterface)
- der kleine: TU106, 36 SMs, 64 ROPs
(
Tensor Cores und RT Cores sind in festen Verhältnis bestandteil der SMs, bspw. RT Cores 1:1, d. h. ein Chip der 48 SMs hat, hat auch 48 RT Cores; Tensor Cores 1:8.)
Auf den Wafern werden immer komplette Chips (Die) belichtet. Die Fertigung ist jedoch hochkomplex und fehleranfällig, sodass man niemals eine 100%ige Ausbeute (Yield) erreicht, d. h. es gibt immer Totalausfälle, Chips mit kompensierbaren Fehlern, sodass entsprechende Funktionsbereiche einfach abgeschaltet werden können und/oder Chips, die bspw. die Spec/Toleranzwerte bzgl. dem Taktverhaten, etc. nicht schaffen. Je mehr Chips auf einem solchen Wafer nicht (oder nur eingeschränkt) verwertbar sind, desto teuerer wird die Fertigung eines Wafers. (Genaugenommen kostet der Wafer selbst in Relation gesetzt nicht viel; der Fertigunsprozess ist der kostspielige Teil.)
Parallel zur Entwicklung auf dem Reißbrett hat man sich markttechnisch Gedanken gemacht welche Produkte man anbieten möchte und welche Märkte man beliefern möchte. Technisches Design und Produktentwicklung wechselwirken hierbei.
Der größte Chip ist der teuerste in der Fertigung. Auf dem Wafer können vergleichsweise nur wenige Dies belichtet werden für den 754 mm2 großen TU102. Aufgrund der Größe ist dieser auch am anfälligsten für Fehler. Der Vollausbau, der nur in mäßig hoher Zahl pro Wafer herauskommt, wird den teuersten und leistungsstärksten Produkten vorbehalten, wo man viel Geld verlagen kann, um die teure Fertigung zu kompensieren (Titan RTX, Quadro 6000 und Quadro 8000). Fertigungsfehler gibt es immer und so muss man nicht ganz so optimale Chips anderweitig "verwursten". Somit überlegt man sich (bzw. testet in einer Vorproduktion), was ein wahrscheinlicher Yield sein würde und wo der Großteil der teildefekten Chips wohl landen würde und spezifiziert eine RTX 2080 Ti mit 68 SMs. Das heißt, man kann eine beliebige Zahl an Fertigungsfehlern in einem Die kompensieren, solange sich diese auf/in insgesamt nur 4 SMs in dem jeweiligen Die beschränken. In diesem Fall schaltet man diese SMs komplett ab und kann den Chip, wenn er ansonsten keine Einschränkungen aufweist, für die RTX 2080 Ti verwenden. *) Neben den offensichtlichen Vorteilen ist hierbei auch zu berücksichten, dass der Vertrieb im Cosnumer-Segment in Form der teildefekten TU102's die Fertigungskosten des TU102 insgesamt senkt. Hätte man diese Optimierung nicht, wären die Profikarten ggf. noch ein klein wenig teuerer.
Man veröffentlicht nun die Quadro 6000 und 8000 mit 24 bzw. 48 GiB GDDR6 und ECC-Unterstützung (ab 3600 € / 6300 €), sowie die RTX 2080 Ti im Consumer-Segment mit ein paar SMs weniger, sowie mit nur einem 352 Bit-Speicherunterfache für 11 GiB GDDR6 (anfänglich 1200 €). Bei den Quadro-Karten ist zu berücksichtigen, dass man nicht nur die Hardware, sondern auch hochgradig optimierte, zertifizierte Treiber bezahlt (ganz abgesehen von der im Hintergrund eh noch laufenden Entwickung um den gesamten Software-Stack wie CUDA, etc.).
Nun stellt man fest (bzw. das Marketing hat das schon zuvor herausgearbeitet), dass zwischen den beiden Bereichen durchaus eine beträchtliche Lücke klafft. Es gibt Interessenten die mehr bezahlen würden und auch eine sehr hohe Leistung benötigen, die aber nicht die hohen Preise der Quadro-Top-Modelle bereit sind zu bezahlen und die auch gar nicht den vollen Funktionsumfang benötigen.
Man nimmt also nun den gleichen Chip, den TU102 im Vollausbau, und bietet ihn als RTX Titan für 2600 € an. Funktionstechnisch muss sich dieses Produkt aber nun nach oben und unten hin abgrenzen, denn es ist einerseits günstiger und teuerer.
Das Speicherinterface belässt man bei 384 Bit mit 24 GiB, entfernt jedoch den ECC-Support. Trotz dem Profi-Light-Anspruch stehen der Titan die hochgradig optimierten, zertifizierten Treiber nur in eingeschränkter Form zur Verfügung und
zusätzlich beschränkt man die Genauigkeit der Tensor Cores auf 16/16-Bit-Operationen ***). Mit der maximalen Zahl an SMs/Tensor Cores und dem schnelleren Speicher ist sie dennoch leistungsfähiger als die 2080 Ti. Der Hauptmarkt für diese Karte übrigens das geschäftliche Umfeld inkl. Universitäten und Forschungsaeinrichtungen, primär für DNNs und das Inferencing. (Daneben gibt es natürlich auch noch einige verrückte Gamer in vernachlässigbarer Zahl, die sich auch eine solche Karte kaufen (würden). Das nimmt man augenzwinkernd mit, ist aber nur das Sahnehäubchen oben drauf.)
Schlussendlich wird die gesamte Fertigung des TU102 für nVidia damit aber überhaupt erst kalkulatorisch machbar, es ist schlicht eine Mischkalkulation, bei der man eine sehr aufwendige und teuere Fertigung über diverse Produkte und Marktsegmente verteilt, sodass eine entsprechende Fertigung überhaupt erst in Frage kommt. (
Den Punkt, dass nVidia ohne entsprechende Konkurrenz hier durchaus noch einmal ein klein wenig auf seine Marge draufschlägt, lasse ich mal außen vor; das ist nun mal ein bekannter Nebeneffekt der freien Marktwirtschaft, wenn ein Unternehmen eine marktbeherrschende Stellung inne hat.)
*) Fertigungsfehler im Bus, der die SMs verbindet oder im Speicher- oder PCIe-Subsystem kann man voraussichtlich nicht durch redundante Funktionseinheiten kompensieren, sodass es hier nichts zum Abschalten gibt, sodass solche Chips Totalausfälle sind. Das ist aber nicht so problematisch, da die SMs mit ihren Funktionseinheiten und lokalen Caches flächenmäßig den größten Anteil am Chip haben, sodass die Fehlerwahrscheinlichkeit hier am größten ist. (Zudem kann man in den anfänglich benannten Bereich ggf. auch mit etwas höheren Toleranzen designen, um die Fehlerwahrscheinlichkeit hier zusätzlich zu senken.)
Btw ... bei Intel ist es nicht anders, bspw. in der Server-Fertigung: Bei dem Xeon-Server Skylake-SP (Platinum 8180 & Co) wird das LCC-Die mit bis zu 10 CPU-Kernen mit einer Chipfläche von 322 mm2 gefertig (
Low Core Count), das HCC-Die mit bis zu 18 Kernen (484 mm2) und das XCC-Die mit bis zu 28 Kernen (698 mm2) inkl. 38,5 MiB L3-Cache (
eXtreme Core Count). Intel fertigt hier schlussendlich also nur drei unterschiedliche Chipdesigns **) und davon werden alle Xeons abgeleitet, inkl. den 1-Sockel-Xeon-W's sowie den vom Xeon abgeleiteten X-Prozessoren der Consumer-HEDT-Platform (Basin Falls). Das Vorgehen ermöglicht überhaupt erst eine effiziente Produktion mit den im Markt ersichtlichen Preisen.
**) Beispielsweise bei Broadwell-EP hatte das MCC 15 Kerne auf dem Die. Es gab aber niemals einen Xeon-15-Kerner. Hier hat man grundsätzlich einen "Spare-Core" eingeplant, sodass man den Yield mit Blick auf die zu bestückenden Produktlinien besser im Griff hatte.
***) Hier habe ich mich vertan. Bei den Tensor Cores bzgl. FP16 mit FP32-Accumulate ist die Titan RTX nicht beschnitten und sollte analog der Quadro 6000/8000 rd. 130 TFlops mixed-precision erreichen. Das FP32-Accumulate gewährt eine höhere Präzision und sollte zumindest beim Training verwendet werden, während man das Inferencing zumeist auch gut mit FP16-Accumulate betreiben kann. Die Consumer-Karten (inkl. einer RTX 2080 Ti) werden hierbei jedoch alle auf etwa 50 % Durchsatz beschränkt und bieten den vollen Durchsatz nur bei FP16 mit FP16-Accumulate.
Darüber hinaus ist der wesentliche Unterschied (abseits vom fehlenden ECC) der GeForce-Treiber, d. h. es fehlen die zertifizierten Treiber der Quadro's. Allerdings hat nVidia auf Druck von AMD bereits ab etwa der Titan Xp zumindest einige ausgewählte Profifunktion auch für die Titan's in den GeForce-Treiber übernommen. Zudem gibt es auch noch den NVLink für einen Dual-GPU-Betrieb. Wenn die Applikation diese Funktion explizit unterstützt, erscheint das Tandem wie eine einzige Karte mit 144 CUDA Cores und zusammenhängendem 48 GiB Speicher. (Die FP64-Performance ist bei Turing grundsätzlich auf 1/32 beschränkt; für entsprechende Anwendungen bieten sich nur Volta, ein GP100 oder AMD an.)