Das “Geheimnis” hinter NVIDIAs ausgefeilter Telemetrie: die Rolle von Buckets, Speedo und Continuous Virtual Binning (CVB)

Die Telemetrie aktueller NVIDIA-Grafikkarten und die Voltage Frequency Engine (VFE)

Jetzt will ich NVIDIAs Boost (und in gröberer Form auch AMDs Power Tune) beschreiben und das gerade Gelesene etwas allgemeinverständlicher in einen Zusammenhang bringen, auch wenn ich mich dabei sicher etwas wiederholen muss (Schema unten). Die Aufgabe der sogenannten Telemetrie ist es, die maximale Grafikperformance bei möglichst minimaler Leistungsaufnahme und der entstehenden Nebenwirkungen wie z.B. die Abwärme zu erreichen und die ganzen Überwachungsdaten dafür heranzuziehen. Das Hauptanliegen besteht darin, die Kernspannung der GPU in Echtzeit möglichst so anzupassen, dass nur so viel Leistung zugeführt wird, wie man für die aktuelle Auslastung der GPU und das Erreichen der optimalen Taktrate auch wirklich benötigt.

Nennen wir es zunächst erst einmal ganz einfach Spannungskurve (das hat sicher jeder schon einmal gehört), auch wenn ich später noch weiter ins Detail gehen muss. Um es einmal gebrauchsfertig zu formulieren: Es wurden die einzelnen Boost-Steps samt Vorgabespannung hinterlegt, wobei der Takt der untersten Boost-Stufe durch einen sogenannten Offset verschoben bzw. festgelegt wird und sich der Rest dann aus den Berechnungen des Arbitrators (Mittlers) ergibt. Bei AMD legt man die Taktraten und Spannungen für einige vorgegebene DPM-States fest, was deutlich ungenauer (granulärer) ist, aber am Ende so ähnlich funktioniert.

Die Firmware schätzt in sehr kurzen Intervallen ständig den Energieverbrauch (quasi in Echtzeit), fragt gleichzeitig die ganzen Sensoren sowie die GPU-Vorhersage ab und bezieht die Telemetrie-Daten des Spannungsreglers bzw. der Eingangsüberwachung (Shunts, Bild unten) mit ein. Diese Werte werden an das vorprogrammierten DPM (digitales Power-Management), also den Arbitrator (Mittler) gesendet. Dieser Regelkomplex kennt auch die Power-, thermischen und Stromstärken-Limits der GPU (BIOS, Treiber), die er aus den jeweiligen Registern auslesen kann. Innerhalb dieser Grenzen kontrolliert er nun also die Temperaturen, alle Spannungen, Taktfrequenzen sowie die Lüftergeschwindigkeiten und versucht dabei stets, die maximale Performance aus der Karte herauszuholen. Wenn auch nur eine der Eingangsgrößen überschritten wird, kann der Mittler Spannung oder Takt zurücknehmen.

Überwachung der 12V-Rail auf einer GeForce RTX 4070 mittels Shunts

Das Nachteilige an so einer öffentlich sichtbaren (und mit geeigneter Software auch anpassbarer) “Frequenz-/Spannungskurve” ist, dass man sie eigentlich gar nicht so einfach pauschal festlegen kann. Das, was der Endanwender in Wirklichkeit nur modifizieren kann, ist eine gewisse partielle Verschiebung auf der Basis von zuvor errechneten, individuellen Grenz- und Richtwerten eines jeden einzelnen Chips unter den aktuellen Bedingungen! Hier kommt nun die sogenannte VFE ( Voltage Frequency Engine) ins Spiel, die einen flexiblen Rahmen bietet, um die Beziehung zwischen den Taktfrequenzen zu spezifizieren bzw. zu bewerten, die normalerweise eine Funktion von Spannung, Speedo und Temperatur ist. Oder um es kurz auf den Punkt zu bringen: Die ermittelte Spannung für jeden dieser Frequenzpunkte einer solchen Kurve ist eigentlich eine Funktion des Speedos der GPU, der durch das “Continuous Virtual Binning” bestimmt wird.

Ihr ahnt es schon, jetzt wird es etwas kniffliger. Wir erinnern uns gern an die ersten Absätze zum Binning und dem ATE-Fluss: Continuous Virtual Binning (CVB) nutzt statistische Modelle und Algorithmen, um die Leistung von Halbleiterbauteilen kontinuierlich und virtuell zu analysieren, anstatt sie tatsächlich physisch zu testen. “Continuous Virtual Binning” bedeutet in unserem Fall der GPU also, dass die Spannung bei einer Erhöhung des Speedos um denselben Betrag um 10 mV (reguläre Schrittgröße) abnimmt (basierend auf einer linearen oder quadratischen Gleichung). Die Spannung für jeden Frequenzpunkt ist eine Funktion der Temperatur der GPU.

Die Taktfrequenz und damit auch die Spannungen der GPU hängen von der Temperatur ab. Halbleiter (p-Typ und n-Typ) können entweder einen positiven oder negativen Temperaturkoeffizienten aufweisen und bei steigender Temperatur kann die Bewegung in MOS-Transistoren abnehmen. Diese Abnahme erhöht die Schwellenspannung (Threshold Voltage, Vt). Dies macht den Transistor langsamer. Daher wird eine Erhöhung der Temperatur die Taktfrequenz verringern und umgekehrt. Diese Temperaturabhängigkeit wird in derselben quadratischen Gleichung erfasst, die auch den Speedo des Chips nutzt. Da die in den Stufen vorgegebene Frequenz logischerweise gesperrt bleiben muss, erhöht sich die Spannung bei steigender Temperatur, um die angeforderte Frequenz noch zu erreichen (bzw. umgekehrt). Diese quadratische Gleichung, die die Beziehung zwischen den Frequenzen und ihren entsprechenden Spannungen erfasst, wird vom sogenannten VFE-Rahmen erfasst, der als Teil der Konfigurationsdaten in der VBIOS-Firmware auf dem EEPROM des Chips gespeichert ist und nicht mehr überschrieben werden kann.

Die Hauptfunktion der VFE besteht also darin, die Spannung und Frequenz der Prozessoren dynamisch anzupassen, um die Leistung und Energieeffizienz zu optimieren. Die VFE arbeitet eng mit der PMU (Power Management Unit) zusammen, um die richtigen Spannungs- und Frequenzwerte für verschiedene Betriebszustände und Lastbedingungen zu liefern. Dazu komme ich dann im nächsten Absatz. Zusammengefasst kann man sagen, dass die Voltage Frequency Engine und Speedo zusammenarbeiten, um die Leistung und Energieeffizienz zu optimieren. Die VFE ist für die Anpassung der Spannung und Frequenz verantwortlich, während Speedo die PVT-Variationen überwacht und die notwendigen Informationen für die VFE liefert, um die richtigen Anpassungen vorzunehmen.

So, jetzt holen wir besser erst einmal etwas Luft. Wobei es gar nicht so kompliziert ist, wie es sich vielleicht beim ersten Mal lesen mag. Um es kurz zu machen: Den Speedo kann man weder überlisten noch überschreiben. Was man manuell ändern kann, basiert immer auf dem jeweils hinterlegten Speedo und den Werten der VFE, auf die der Endkunde ebenfalls keinen Einfluss hat. Und nun wissen wir auch, dass eine gute Kühlung oft mehr wert ist als das brutalste OC. Es ist das gefürchtete Hund-Schwanz-Prinzip bei luftgekühlten Karten, wo eine Erhöhung des Power Limits für einen höheren Takt auch zu höheren Temperaturen und damit wieder niedrigeren Taktraten führt. Man kann das ewig treiben und die Karte wird doch nicht schneller. Nur durstiger. Genau deshalb ist das gegenteilige Untervolten ja so clever, weil es durch niedrigere Temperaturen höhere Boost Steps ermöglicht. Also quasi verlustfreies OC für lau.

Pages:

22 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Legalev

Mitglied

55 Kommentare 52 Likes

#1 Dec 30, 2023

Sehr interessanter Artikel.
Liest sich sehr Aufwendig, dass alles zu Testen.

Wie lange dauert den so ein Vorgang in etwa bis entschieden ist, welche Kategorie die GPU gerecht wird bitte?

Antwort 2 Likes

Igor Wallossek

10,650 Kommentare 20,049 Likes

#2 Dec 30, 2023

Ds geht recht fix. :)

Antwort Gefällt mir

Martin Gut

Urgestein

8,034 Kommentare 3,742 Likes

#3 Dec 30, 2023

Interessant. Mich erstaunt etwas, dass bei so genau getesteten Chips von den Herstellern immer noch eine Reserve von 0.08 bis 0.10 Volt einprogrammiert ist, die man dann mit Untervolten weg schnippseln kann. Wenn die Spannung von Anfang an ein bisschen tiefer eingestellt wäre, wären die Karten doch deutlich sparsamer. Da will man vermutlich einfach keine Risiken eingehen dass mal ein Chip nicht stabil läuft. Da gibt lieber etwas mehr Spannung und nimmt den höheren Verbrauch in Kauf.

Antwort 2 Likes

stch

Mitglied

28 Kommentare 8 Likes

#4 Dec 30, 2023

In der Massenproduktion reden wir typischerweise über Taktzeiten im Bereich von einigen Sekunden.

Antwort Gefällt mir

stch

Mitglied

28 Kommentare 8 Likes

#5 Dec 30, 2023

Ökonomisch nachvollziehbar. Feldrückläufer sind sauteuer, Mehrverbrauch beim Kunden bzw. etwas weniger Leistung kostet den Hersteller nichts.

Antwort Gefällt mir

grimm

Urgestein

3,205 Kommentare 2,139 Likes

#6 Dec 30, 2023

Speedo ist ja nicht so meins - einen guten Rutsch euch allen!

View image at the forums

Antwort 1 Like

Igor Wallossek

10,650 Kommentare 20,049 Likes

#7 Dec 30, 2023

Maturing und Elektromigration. Was heute noch geht, kann übermorgen schon instabil sein. Da plant man lieber Reserven für 2 Jahre mit ein. :D

Antwort Gefällt mir

Guest

#8 Dec 30, 2023

Super Lesestoff!
( ich hab das Whitepaper von Nvidia gelesen.. ggg... Transkriptionslexicon und tech uni Leipzig und MIT old 2019-22.. mit dabei.. molto caffee)1300 Seiten..
Neuer Arbeits-Leicht-Rechner im Testbetrieb.
Die new ada A 4500.. ( 2900 Euro für 192er Schnittstelle is halt.schon halbheftig.dafür bekommt man den vollen Ram der 4090ger bei fix 180-200 Watt..)
Was Nvidia einfach kann, wenn sie wollen, ist das Leistungs Paket mit Energieverbrauch zu verknüpfen.
Und immer der gezielte Kontext der zu erwartenden Anwendung. da gehen die relativ konservativ vor, wenn man Quellcodices liest, oder die Ki macht, da
geht das über ganze Generationen hoch. Und den Vorteil haben die. Und die Alchemy der neuen Lithographen, die man behütet. Da sollen nur relativ
wenige Menschen alles wissen, und dann hat man noch die singuläre Denk-techrichtung von Nvidia, die sich net so weit spreaden wie AMD.
In Formel 1 würde man sagen, der Vatikan ( Ferrari) hat genug Spielgeld, Red Bull noch mehr und MC Laren wird 2024 Weltenmeister, weil sie voll in gehen.
Könnte AMD machen, wenn sie wüssten was sie lassen. Dazu kommt der Hype um KI.. die uns nette neue Waffen, Bomber, Digitalen warfare, Robotik und
so weiter bringt, New BANK POWER.. das Geld wird so schnell und komplex wie nie. Medizin ( nur für die die GELD haben) ( der ELYSIUM Effekt unserer
Gesellschaft zeichnet sich ab. Autokrate Geld Demokratien..) Und ein bisserl Viel ÜBERWACHUNG.. und der neue DIGITALE STÄNDESTAAT.**
In dem Bereich verkauft NVIDIA derzeit 39% strigend seiner HX-100 200 und 300+..

Da bleibt für Hollywood nur noch 15% und GAMEN unter 8%.. Das der Blick ins Jahr nach 24 um 2030.
** das sozial roolo ashole 3.0 wird ausgerollt.. da gibt es keine Menschen mehr. Nur noch digitale Leichen mit Heiligenschein.
Gut..
das MSI bootet ( 400 Euro für das AM5--weil ich als ASUS mensch ASUS mis traue.Heizen wir ein?.) der 16 Core wacht auf.. Ram. Pyn ist da.. yes.. ( rein Linux first..
die Eingeweide liegen Rum.. GEKÜHLT mit oufpassen GROSSER VENTILLATOR ( 3 Noktua hängen dran..) es ist alles schwarz. lol.. und WAKÜ.. lang steht Rom net mehr.. ( Kraken) ( schwarz) ( beQ Big Rock lauert..)(

kreativ schwarz oder st Gotthard dunkelweiss :) peace :)

GUTES GUTES RÜBER KOMMEN IN EIN GESUNDES NEUES JAHR ! und nur das gute Zeug in Maßen trinken. :)

Antwort Gefällt mir

Klicke zum Ausklappem

Guest

#9 Dec 30, 2023

Antwort Gefällt mir

Guest

#10 Dec 30, 2023

OpenAI und Axel Springer kooperieren.. !

zum Ersten mal gehen Dünnschiss und Klopapier einen gemeinsamen Weg.
angeblich gibt es 20 Millionen Abonnenten..
Ich werd das nie verstehen. 20 Millionen Hirntote lesen ihren eigen Stuhl..
es kann nur beseer werden 2024 :)

Antwort 1 Like

Daves085

Neuling

9 Kommentare 14 Likes

#11 Dec 30, 2023

Gibt es eigentlich ein Grundlagenartikel wie MikroChips überhaupt unterschiedlich gut sein können?
Wie kann ich mir das vorstellen als Technik Laie? Schaltung ist doch Schaltung? Ich verstehe dass es in den Chips mal defekte Bereiche geben kann , die deaktiviert werden, aber warum führt dass dann dazu dass ich den Chips mit höheren Voltzahlen betreiben muss?

Antwort 1 Like

Pfannenwender

Veteran

302 Kommentare 196 Likes

#12 Dec 30, 2023

Soweit zu dem, was ich verstanden habe. :unsure:

Dir auch nen Guten. 👍

Antwort 1 Like

Igor Wallossek

10,650 Kommentare 20,049 Likes

#13 Dec 30, 2023

Waferqualität, Lithografie... Da reichen schon klitzekleinste Abweichungen und Unschärfen. Außerdem nehmen nach außen hin die guten Chips ab, der Edelstoff kommt fast immer direkt aus der Mitte :)

Antwort Gefällt mir

Guest

#14 Dec 30, 2023

Und deswegen heißt die rtx 4090 D.. DIESEL ? soory..
( diese diplomatische Verrenkung hat was von Habsburger und Wallenstein und so weiter.. chschinna)

Frage : hat SCHWERKRAFT einen Einfluss auf den Lithographen? ich würde das ja in der Raumstation bauen.
Dazu ein Extra Zuschlag von Nvidia..oder?

Antwort Gefällt mir

Guest

#15 Dec 30, 2023

offtopic info :
AM5 INFO : 16 core + pyn a 4500 2 m2 2 ssd

Board : MSI MPG X670E Carbon WIFI ( 430 euro..26.11.23)

gut:

-Kein Spulen fiepen mit dedizierter GraKa und ohne is auch nix ( also Audisection leise)
-6 SATA-Ports ohne Lane Sharing mit den 4 M2-Ports.. bisserl verbaut
-PCI-E Gen 5 Unterstützung

schlecht :

-Bootverhalten & Neustarts dauern nach Einstellungen ewig. Teils Soft-Resets erforderlich. Für häufige Bios-EinstellungenOC nicht geeignet. Mach ich eher eh nicht.
Das Board wird mit DDR 6000 betrieben und hier gibt es leider noch das typische Problem mit den Bootzeiten, sobald man Expo nutzt und Max Speed von den Rams fordert
-MSI Center & Apps hängen sich häufig auf oder starten nicht. ( schauen was man nicht br)
- Beleuchtungsklimbim is ma wurscht ( abgezwickt)

- Bootzeiten, Bios, Neustart : das dauert nach dem ersten kalten Einstellen viel länger.
-kann die 5 Minuten erreichen ( sobald OS treiber etz gehen wir auf unter 45 sec..)
- bei Soft-Reset startet das Board aber ohne Probleme und bootet in Windows. supa!
-MSI-Center Software ist mir eh sch egal..nur was nötig. und weiter

CPU : Ryzen 9 7950x CPU

zu dem ist net viel zu sagen. ich find den lauwarm ( wenn man vom gen2- Threadripper kommt)

Kühlung : erstmals macht der Inschdallatuer WAKÜ. die KRAKE. Das Gedärm hat im Cosair500
Platz... Bis jetzt sind Temps ( Cpu ist auf Test temp gestellt- 30% unter Vmax) mittel.
45 bis 68..72 Grad ( cb 2023 hier schon bei 30.000+)

Ram : übliche 2 x Corsair DDR5 6000er Riegel. 64gbt..vorerst.
Keine Kollision mit letzer Agesa.. ( ich hab da nette Sammlung)

- PCI: der 1 Slot ist echt etwas bescheuert unterm CPU Feld und tiefer..wegen des der M2-slots

- M2: da ich lieber lauwarm habe sind die Samsung 990P die Grenze ( interesssante temps
beim Starten der Corrona Render Engine ..)

- Nivea Pyn A 4500. Ereignislos normal. Der Stecker hat nix zum tun.
- Das neue SEASONIC 1000 er reicht ( es konnte seit Nov aus stinken..)
- 8 Noctua 14er grau drehen mit 480 bis 800.. Das reicht.
_ die Pyn wird nach der Probezeit zersägt und der fitzelPropeller wird ausgebaut und verbrannt.
Noctua. lol ( i lern in dem Alter net mehr um)

--- Des ganze im Cosair 500 drin. 2 weiter normal ssd 4 tbt Datas.. Platzt rdeicht noch.
------------------------------------------------

2h22 speciale ( einige Migrationen aus dem W11 sind im 10er implantiert.. dazu gehört
das aus operieren aller unnötigen Teile. Ein Script.weil wenn die UNREAL-5-4-1 zum ersten mal
drauf gesp wird windooof 2 Stunden Zeit hat alles zu versauen--dazu gibt es einen sog
Scratch- Windosen-10-Container wo datt alles landet = nachher sichten und löschen..etz)
----------------------------------------------
Jetzt nach 2 Stunden is der fertig.
bootet nromal schnell. keine blue Sc. keine Verkutzer.
Ur5
maya
c4d2023
zbrush
3dCoat ( ich empfehle das bad sister of z-brush)
Arnold
Redhift
Corrona ( Bier)
1200 PLugins
audiokrempel

10 bit Monitor Nachbesserung ( nein gerader 4k LG oder BenQ )

mach mal 3ds max mit gebogen Samsung.. zum speiben gehen..::)
----------------------------------------
1 Stund sinnlos Test C4d r2023 Corrona CPU + GPU = 2 gbt datei.
Auslastung CPU 94 % +- GPU 86%-90% ( ich hab gerne etwas Spatzi = wir fackeln später ab)

TEMPS PPO ist immer noch auf sachte. Untervolten kannst beim 16er vergessen = Throtteling wh.
Raum : 19 Grad. normale Luftfeuchte. ( Gösserbier Bock in der Flasche..kalt)
Prügelt die 180 Watt an. also Normal. Temps net über 78 Grad. ( also Wakü richtig herum?)
GPU geht mit dem Minipropeller voll und wird hier sehr heiß ( Corrona mag das)
2te M2 kann sau heiss werden.. bis data in load ende--dann normal.
RESUME : stabil. im Temps Fenster.
---------------------------------geht.

Und nun der zweite : I9 13900 K.. 250 watt und ..) Adobe Bomber.. Asus brett Biege Kit..etz

Lg Peace :) und nun nur noch faul und relax

Antwort Gefällt mir

Klicke zum Ausklappem

LurkingInShadows

Urgestein

1,390 Kommentare 588 Likes

#16 Dec 30, 2023

Wie Igor schon schrieb, es gibt IMMER leichte Abweichungen. Wenn dann an einer Stelle zB der Leitungsdurchmesser nicht ganz passt muss man das ausgleichen, nacharbeiten geht ja nicht bei 5 nm.

Antwort Gefällt mir

eastcoast_pete

Urgestein

1,765 Kommentare 1,096 Likes

#17 Dec 30, 2023

Der höhere Verbrauch wird allerdings auch vom Kunden bezahlt, während eine schlechter gebinnte GPU, die es mit 100 mV weniger nicht mehr packt, hier Nvidia (oder, bei Navi, AMD) Geld kosten würde.

Antwort Gefällt mir

eastcoast_pete

Urgestein

1,765 Kommentare 1,096 Likes

#18 Dec 30, 2023

@Igor Wallossek : Danke, sehr interessant!
Und jetzt etwas, das uU auch mein Unwissen zeigt: Allgemein bin ich im Moment auch von den "KI" Fähigkeiten gerade im Bereich Power Management noch enttäuscht. Eine Steuerung, die die individuellen Eigenschaften der GPU (oder auch APU) lernen kann, sollte damit doch eine noch bessere Feinabstimmung mit entsprechend niedrigerem Verbrauch ermöglichen, oder liege ich da ganz daneben? In der Hinsicht war auch Intels "KI optimierter Thread Director" für Meteor Lake ja auch eher schwach; die ganze "KI" dafür wurde und wird ja bei Intel im Werk gemacht und fließt dann in die Firmware ein, und eben nicht direkt live von der NPU im SoC. Eine wirklich per-Chip individuelle Optimierung wäre (IMHO) wirklich ein großer Schritt nach vorne. Und sowas könnte dann lernen, welche Anwendungen man wann und wie zusammen benutzt, und somit (bei CPUs) Kerne tief schlafen legen und wecken, und bei GPUs und CPUs Taktfrequenz und Spannung noch feiner und antizipatorisch
einstellen. Alles für bessere Effizienz und (!) Schwupdizität.

Frage: Wie ändert sich denn der Stromverbrauch je nach Situation bei Spielen wie Cyperpunk? Gibt's da Artikel zum Nachlesen darüber? (Und ich weiß, ich frag manchmal komische Sachen 😁). Wenn eine KI hier in die Steuerung mit reinkommt, könnte sie auch hier mit Verbrauch und Leistung schneller und feiner anpassen und optimieren.

Antwort Gefällt mir

Klicke zum Ausklappem

LurkingInShadows

Urgestein

1,390 Kommentare 588 Likes

#19 Dec 30, 2023

und das interessiert welche Firma? Gerne auch Nennungen weltweit.....

Antwort 1 Like

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Das NVIDIA RTX 4xxx Super-Portfolio ist komplett: schnellerer RAM, etwas mehr Takt und Spekulation über die Preise

MSI und Gigabyte geben einen ersten Blick auf die NVIDIA GeForce RTX 4080 SUPER, 4070 Ti SUPER und 4070 SUPER Custom-Modelle (LEAK)

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter