Frage Haltbarkeit von Wärmeleitpasten bei Render/Miningfarmen

LightWaveGuru

Mitglied
Mitglied seit
Jun 14, 2022
Beiträge
81
Bewertungspunkte
34
Punkte
18
Standort
Waldbröl
@Igor Wallossek

Hallo Igor,

da Du ja WLP-Experte bist bitte ich Dich um deine Meinung bzgl. WLP bei AIO und luftgekühlten Grafikkarten.

Nehmen wir folgenden Fall an.

Du hast eine GPU-Renderfarm. Je nach Auftragslage brennt diese 24/7 bis die Jobs gerendert sind. Nehmen wir an das also die Farm zum Teil tagelang durchrendert.
Nehmen wir desweiteren an das die Farm ein open rig ist. Die Abwärme kann also maximal gut entweichen, das Rig staut also keine Wärme, der Raum indem diese steht ist klimatisiert.

Was meinst Du. Wie lange hält die von den Herstellern der Karten verwendete WLP unter diesen Bedingungen und ab wann (Betriebsstunden) macht es Sinn den GPU`s neue WLP zu spendieren, oder diese einer Wartung zu unterziehen? (Lüfter sauberhalten ist eh Pflicht, das meine ich hier als Massnahme nicht. Die Hardware muss mundgepflegt sein!)

Der Hintergrund ist natürlich ein betriebswirtschaftlicher. Die GPU`s werden gewerblich benutzt. Das heisst diese sollen Gewinn erwirtschaften. Das heisst je länger diese rendern um so mehr Gewinn im Vergleich zur Investition. Das heisst sobald die GPU`s sich durch Jobs selbst refinanziert haben (via Gewinn/Abschreibung etc.pp) sollen diese noch möglichst lange laufen um max. Gewinn abzuwerfen.

Insofern.

Gibt es diesbzgl. Erfahrungen der GFX-Hersteller, oder bei Dir, wie lange unter diesen Bedingungen die WLP hält, bevor Sie zu Beton zerbröselt.
Ich spiele ergo mit dem Gedanken meine GFX mal einer "Wartung" diesbzgl. zu unterziehen. Wie ist da deine Einschätzung.

Grüsse LWGURU
 
Bei den aktuellen NVIDIA-Karten sind meist sehr gute Phase Changer drin, die AMD Referenzkarten nutzen die auch, aber andere (Fujitsu u.ä.)

Normalerweise nutzen die Boardpartner mittlerweile alle sehr viskose Materialien, das wird sicher halten. Bei den weichen Pads auf VRM und RAM mache ich mir da eher Sorgen, auch wenn manche Hersteller nach meiner Kritik da schon nachgebessert haben (MSI, Asus, Palit/Gainward, Galax/KFA2)
 
@Igor Wallossek

Danke für die Antwort. Gut zu hören. Ich muss also nicht befürchten das die WLP meiner 6x 2080ti sich nach 4 Jahren "Brathähnchen-Service" in Beton verwandelt hat? Immerhin erreichen diese unter Volllast ca. 76-78 Grad. Und das nicht als Spitze sondern halt permanent für die Dauer des Renderns. Bzgl. der Pads werde ich mir diese mal am WE ansehen bzgl. Zustand.

Grüsse LWGURU
 
Das sind doch für Volllast sehr korrekte Temperaturen...
Ist das auch die Temperatur des Hotspots?

Ich würde an Deiner Stelle nichts daran machen,bis die Temps anfangen zu steigen.
Wenn es denn dann mal „plötzlich“ hin zu 85/90 (immer noch harmlos) geht,wäre das eine Aufforderung Deiner Karte vielleicht mal die WLP zu tauschen.
Gegebenenfalls dann auch die Pads.....
 
Das sind doch für Volllast sehr korrekte Temperaturen...
Ist das auch die Temperatur des Hotspots?

Ich würde an Deiner Stelle nichts daran machen,bis die Temps anfangen zu steigen.
Wenn es denn dann mal „plötzlich“ hin zu 85/90 (immer noch harmlos) geht,wäre das eine Aufforderung Deiner Karte vielleicht mal die WLP zu tauschen.
Gegebenenfalls dann auch die Pads.....

Hallo ipat66,

Ich denke der hotspot wird höher sein, denn Firestorm zeigt den vermutlich nicht an. (Firestorm ist das Tweaktool für OC und Lüftersteuerung bei den Zotac-Karten). Sind halt "billige" Blower-Versionen. Die waren eine der wenigen die mit 2 Höheneinheiten so schmal waren das Sie noch ein bischen Platz liessen damit die Lüfter wenigstens ein bischen Luft ziehen können. (Nvidia-Referenzdesign) Wenn man da pro MB 4 Stück drauf hat wird das ziemlich eng.

Deshalb bin ich im übrigen auch angepisst zwecks 4090 und Freunde. Von den Klopfern bekommt man nur noch 2 auf die Bretter. Das nervt.
Ich hoffe da kommen dann auch AIO und/oder Lüfterversionen von raus mit max. 2 Höheneinheiten, sonst bin ich kein Kunde.
Ich ersetze doch nicht meine gesamte Farm-Hardware für ein bischen mehr Renderleistung. Das rechnet sich einfach nicht.

Anyway...sonstig sind mir 76 Grad eigentlich schon zu warm. Die backplates der Karten kann man auf jeden Fall so nach 30. min nicht mehr anfassen. Eier braten mal anders. Daher auch meine Frage. Ich habe da zwar jetzt zusätzliche Lüfter installiert die noch zusätzlich zwischen die Karten Luft schaufeln (zur Unterstützung) aber Vorsicht ist die Mutter der Porzellankiste. (Anbinden via Riser will ich die aber eher nicht (als Lösung) weil die dann zwar kühler laufen, aber die Signalverbindung dadurch nicht besser wird. Nichts nervt nämlich mehr als abgebrochene Render-Jobs) Ich weiss Gamer die das hier lesen werden sich die Augen reiben was der Typ da erzählt....grins :)

ps. Die EVGA AIO`s laufen im Vergleich unter Vollast wesentlich kühler. So bei ca. 65 Grad.

Nun gut, genug aus dem Nähkästchen geplaudert. Danke für die Antwort.

Grüsse LWGURU
 
Zuletzt bearbeitet :
Ich werfe auch mal meine dezente Erfahrung aus dem Mining und dem Ankauf ehemaliger Mining-Karten in den Raum. Pauschalisieren kann man das jedenfallls nicht, da man Hersteller, Modell und teils sogar Charge kennen muss, um halbwegs sagen zu können was denn drunter ist. Am besten macht man eine Karte auf und schaut wie die aussieht. Wenn man denn gleiche Modelle hat. Desweiteren muss man unterscheiden zwischen WLP auf der GPU und den Pads, die überall verteilt sind. Die GPU wird kaum belastet, entsprechend hat es thermisch keine intensiveren Auswirkungen als ein ständiger Kalt-Heiß-Kalt-Wechsel im gleichen Zeitraum. Das gilt auch, wenn GPU und Speicher grundsätzlich von derselben Kontaktfläche gekühlt werden. So weit überträgt sich das nicht. Eine gute WLP kann also ohne Probleme auch nach 2 Jahren 24/7-Betrieb noch zufriedenstellend arbeiten. Indikator wäre das Delta zwischen GPU-Temp und der Hotspot-Temp. Wenn das >20 Kelvin ist, muss ein Wechsel her (gilt nur für Nvidia).

Die Pads sind der größte Risikofaktor. Rein äußerlich und auf den ersten Blick kann man an dem typischen "Ausbluten" der Pads sehen, dass hier ein Wechsel notwendig sein könnte, bzw. die Qualität der Pads von vornherein schlecht war. Hier ist es umso schlauer den "Miner" zu befragen, wie er die Karten hat laufen lassen. Den größtem Fehler, den er hätte machen können, war die Lüfter weiterhin an die GPU-Temperatur zu koppeln. Typischerweise erwärmt sich aber gerade der Speicher deutlich intensiver als es bei einer gleichmäßigen Belastung von GPU und Speicher der Fall wäre. Eben aber danach ist die Lüftersteuerung typischerweise ab Werk konfiguriert. Es ist daher vorteilhaft, wenn derjenige die Lüfter manuell entsprechend hochdrehend hat laufen lassen.

Und dann muss man bei einem Wechsel natürlich die richtigen Padgrößen zur Hand haben. Das ist nicht ohne und viele Karten sind bei diesem Wechsel gestorben. Typischerweise der VRAM oder umliegende Bauteile, die durch die zu hohen Anpressdruck gecracked sind. Kann man reparieren lassen, aber wirtschaftlich ist das schon weniger. ;)
 
Ich werfe auch mal meine dezente Erfahrung aus dem Mining und dem Ankauf ehemaliger Mining-Karten in den Raum. Pauschalisieren kann man das jedenfallls nicht, da man Hersteller, Modell und teils sogar Charge kennen muss, um halbwegs sagen zu können was denn drunter ist. Am besten macht man eine Karte auf und schaut wie die aussieht. Wenn man denn gleiche Modelle hat. Desweiteren muss man unterscheiden zwischen WLP auf der GPU und den Pads, die überall verteilt sind. Die GPU wird kaum belastet, entsprechend hat es thermisch keine intensiveren Auswirkungen als ein ständiger Kalt-Heiß-Kalt-Wechsel im gleichen Zeitraum. Das gilt auch, wenn GPU und Speicher grundsätzlich von derselben Kontaktfläche gekühlt werden. So weit überträgt sich das nicht. Eine gute WLP kann also ohne Probleme auch nach 2 Jahren 24/7-Betrieb noch zufriedenstellend arbeiten. Indikator wäre das Delta zwischen GPU-Temp und der Hotspot-Temp. Wenn das >20 Kelvin ist, muss ein Wechsel her (gilt nur für Nvidia).

Die Pads sind der größte Risikofaktor. Rein äußerlich und auf den ersten Blick kann man an dem typischen "Ausbluten" der Pads sehen, dass hier ein Wechsel notwendig sein könnte, bzw. die Qualität der Pads von vornherein schlecht war. Hier ist es umso schlauer den "Miner" zu befragen, wie er die Karten hat laufen lassen. Den größtem Fehler, den er hätte machen können, war die Lüfter weiterhin an die GPU-Temperatur zu koppeln. Typischerweise erwärmt sich aber gerade der Speicher deutlich intensiver als es bei einer gleichmäßigen Belastung von GPU und Speicher der Fall wäre. Eben aber danach ist die Lüftersteuerung typischerweise ab Werk konfiguriert. Es ist daher vorteilhaft, wenn derjenige die Lüfter manuell entsprechend hochdrehend hat laufen lassen.

Und dann muss man bei einem Wechsel natürlich die richtigen Padgrößen zur Hand haben. Das ist nicht ohne und viele Karten sind bei diesem Wechsel gestorben. Typischerweise der VRAM oder umliegende Bauteile, die durch die zu hohen Anpressdruck gecracked sind. Kann man reparieren lassen, aber wirtschaftlich ist das schon weniger. ;)

Hallo Pokerclock,

da bei mir alle Modelle baugleich sind die ich prüfen will, und ungefähr im gleichen Zeitraum produziert wurden, (Dez. 2018-Februar 2019) und immer zusammen in dem Rig aktiv waren, wird es wohl reichen mal eine der Karten zu zerlegen um zu schauen wie die Pads aussehen.

Bzgl. ausbluten.

Ja das hatte ich z.b. bei einer Phoenix GS. Da waren die Pads definitiv am sabbern, also in chemischer Auflösung. Wurden ersetzt. Hat funktioniert. Insofern. Ich mache mir daher eher keine Sorgen bzgl. Austausch. Ok wir werden sehen. Ich nehme mal eine der Karten auseinander und berichte dann.

Grüsse LWGURU
 
Gern auch als Erfahrungsbericht. Da könnte man sogar einen kleinen Praxisartikel für die Frontseite draus basteln
 
Sind in den SpeicherChips und Spannungsreglern auch TemperaturSensoren verbaut. Damit würde sich ja auch das TemperaturDelta zwischen Kühlkörper und per Wärmeleitpad angebundenen Komponenten kontinuierlich überwachen lassen.
 
Bei der RTX 2000er Reihe wird mein ich nur GPU und Hotspot angezeigt.
VRAM Temp konnte ich bei der Palit 2080 nicht auslesen.
 
Gern auch als Erfahrungsbericht. Da könnte man sogar einen kleinen Praxisartikel für die Frontseite draus basteln

Hallo Igor,

Oh Nein, bitte nicht! :)

btw

Gestern kam die neue WLP an (GC-Extreme). Die aktuellen Rendering-Jobs sind durch.
Insofern sollte deiner/eurer Idee nichts im Wege stehen.

Da ich hier das nötige Equip habe kann ich dieses "unboxing der besonderen Art" in 4k oder full hd (je nach Bedarf)
dokumentieren (Video/Still). Wird wohl am WE passieren. Muss jetzt erstmal die Renderings an meinen Kunden ausliefern.
Melde mich dann ergo, wenn das "unboxing" erledigt und dokumentiert ist.

Grüsse

LWGURU
 
Sind in den SpeicherChips und Spannungsreglern auch TemperaturSensoren verbaut. Damit würde sich ja auch das TemperaturDelta zwischen Kühlkörper und per Wärmeleitpad angebundenen Komponenten kontinuierlich überwachen lassen.

Hallo S.Nase,

das Problem bei Renderfarmen ist besonderer Art. Die Karten stecken auf den PCIe-Steckplätzen so nah beieinander das diese sich gegenseitig aufheizen. Ich vertraue daher den Sensoren der einzelnen Karten keinen Millimeter.

Was aber als Hinweis für mich zu beobachten ist das die Karten beim Rendern nach ca. 30 min wenn die ergo so richtig schön durchgebraten wurden anfangen niedriger zu takten bzgl. ihres Boost. Sprich am Anfang treibt die Firestorm im Boost auf bis zu 2 GHZ, später dann nur noch bis 1850 MHZ. Das ist ein Hinweis darauf das die Karten runtertakten weil es zu warm ist. Und das ist mir quasi Hinweis genug, denn das heisst längere Renderzeiten bei langen Imagesequenzen die man rendern lässt. Die Render-Performance lässt halt über die Zeit leicht nach.

Gruss

LWGURU
 
Bei der RTX 2000er Reihe wird mein ich nur GPU und Hotspot angezeigt.
VRAM Temp konnte ich bei der Palit 2080 nicht auslesen.

Hallo Ghoster52,

will meinen dass eher die Temperaturen auf dem PCB das Problem sind, weniger die der GPU`s. Zu beobachten ist wie gesagt das die Karten wenn Sie dann erstmal durchgebraten sind (so nach ca. 30 min) der Boosttakt der Karten gedrosselt wird. So von ca. 2 GHZ auf 1800-1850 MHZ. Und das ist ein zuverlässiger Hinweis das die Karten besser gekühlt werden sollten. Ist halt Performane-Verlust.

Grüsse

LWGURU
 
das Problem bei Renderfarmen ist besonderer Art. Die Karten stecken auf den PCIe-Steckplätzen so nah beieinander das diese sich gegenseitig aufheizen. Ich vertraue daher den Sensoren der einzelnen Karten keinen Millimeter.

Auch da habe ich so einige Kunden aus dem Bereich, die kurzzeitig eine Menge Rechenleistung brauchen und alles dann 24/7 läuft. Mein letztes Erlebnis war eine Workstation mit zwei 3090er mit NVLink. Es war hier unmöglich zwei 3-Slot-Karten zu verwenden, weil die obere nach ein paar Minuten komplett überhitzt war. Waren halt nur ein, zwei Millimeter Abstand zum Atmen. Zwei Dual-Slot 3090er lösten das Problem. So hatte man immerhin einen ganzen Slot zum Atmen.

Gern auch als Erfahrungsbericht. Da könnte man sogar einen kleinen Praxisartikel für die Frontseite draus basteln

Wenn grundsätzlich daran Interesse besteht, ich habe sicherlich irgendwo halbwegs frische Karten und kann denen ziemlich ausgelutschte baugleiche Modelle gegenüberstellen, wo mal dringend gewechselt werden müsste.
 
Ich muss also nicht befürchten das die WLP meiner 6x 2080ti sich nach 4 Jahren "Brathähnchen-Service" in Beton verwandelt hat?
Von welchen Hersteller sind die Karten ???
Ich habe Dez. 2020 alle verfügbaren GPUs neu bepastet (Gigabyte)
Die 1080 (vom Sohnemann) ist ständig ins Temp Limit gelaufen, das war der erste Kandidat
Meine olle 970 unter Last gesetzt, selbe Problem, die Reserve Karte (670) wurde dann gleich mit bepastet, wenn man schon mal dabei ist...
Bei allen Karten waren die Pads noch gut, wurden somit nicht getauscht, aber GPU Temp ging um min. 10°C runter.
will meinen dass eher die Temperaturen auf dem PCB das Problem sind, weniger die der GPU`s.
Kenne ich von der 3090 FE, unter Last (zocken) GPU nur 70° aber die Karte taktet runter... :confused:
In HW Info die VRAM Temp ausgelesen 105-110°C (WtF)
Die Karte zerlegt, alle Pads waren bereits am ausbluten, die Karte sollte eh auf WaKü umgebaut werden.
Nach Umbau läuft das Biest wie es soll (GPU 50° und VRAM 70°C)
 
Von welchen Hersteller sind die Karten ???
Ich habe Dez. 2020 alle verfügbaren GPUs neu bepastet (Gigabyte)
Die 1080 (vom Sohnemann) ist ständig ins Temp Limit gelaufen, das war der erste Kandidat
Meine olle 970 unter Last gesetzt, selbe Problem, die Reserve Karte (670) wurde dann gleich mit bepastet, wenn man schon mal dabei ist...
Bei allen Karten waren die Pads noch gut, wurden somit nicht getauscht, aber GPU Temp ging um min. 10°C runter.

Kenne ich von der 3090 FE, unter Last (zocken) GPU nur 70° aber die Karte taktet runter... :confused:
In HW Info die VRAM Temp ausgelesen 105-110°C (WtF)
Die Karte zerlegt, alle Pads waren bereits am ausbluten, die Karte sollte eh auf WaKü umgebaut werden.
Nach Umbau läuft das Biest wie es soll (GPU 50° und VRAM 70°C)

Hallo Ghoster52,

das sind RTX 2080ti blower von Zotac. btw. Ich habe hier auch eine kleine Renderfarm nur mit EVGA`s Hybrid (TITAN X 12 GB) die machen keine Probleme, obwohl die auch nebeneinander in den Slots hocken. Das ist also ein typisches Problem von luftgekühlten Karten. Hat man davon mehrere auf einem Brett brauchst Du keinen Grill mehr! :) Klar damit haben die Hersteller sicher auch nicht gerechnet das sich die Leute davon 4 auf ein Brett stopfen.

Gruss

LWGURU
 
Auch da habe ich so einige Kunden aus dem Bereich, die kurzzeitig eine Menge Rechenleistung brauchen und alles dann 24/7 läuft. Mein letztes Erlebnis war eine Workstation mit zwei 3090er mit NVLink. Es war hier unmöglich zwei 3-Slot-Karten zu verwenden, weil die obere nach ein paar Minuten komplett überhitzt war. Waren halt nur ein, zwei Millimeter Abstand zum Atmen. Zwei Dual-Slot 3090er lösten das Problem. So hatte man immerhin einen ganzen Slot zum Atmen.

Wenn grundsätzlich daran Interesse besteht, ich habe sicherlich irgendwo halbwegs frische Karten und kann denen ziemlich ausgelutschte baugleiche Modelle gegenüberstellen, wo mal dringend gewechselt werden müsste.

@Pokerclock

you name it! Ich habe hier z.b. eine externe Renderbox (Netstor) wo 4 Karten a 2 Slot Bauhöhe verbaut sind mit PCIe-Splitter Hardware.
Wird vom Hauptrechner aus gesteuert, da sind dann zwei weitere Karten verbaut, also total 6 Stück für die Config.
Die externe Büchs ist permanent an einer Seite offen, denn geschlossen kann man die nicht betreiben.

Die Abwärme kann nicht raus egal welche Art Lüfter man da verbaut. Vor den Karten an der offenen Seite ist derzeit ein 300 mm Lüfter verbaut (via MC Giver Konstruktion) damit in die schmalen Schlitze die zwischen den Karten bleiben wenigstens ein bischen kalte Luft zu den Blowern der Karten gelangen. Sprich dein beschriebenes Problem ist ein ECHTES Problem aus dem real life.

Gruss

LWGURU
 
Gesund kann das nicht sein, wenn die Grafikkarten zwangsherrunter takten, also ständig an ihrer MaximalTemperaturSchwelle arbeiten müssen. Da wäre es meine Meinung nach sinnvoller, die Abwärme durch Undervolting soweit zu reduzieren, das die Kühlsituation ausreicht, die Karten bei moderaten Betriebstemperaturen zu betreiben.

Mach Mal ein Foto von deiner "McGiver" Konstruktion (Zu- & Abluftwege). Vieleicht fällt mir dann ein Lösung ein, wie du deine Brathähnchen effektiver luftgekühlt bekommst.
 
Gesund kann das nicht sein, wenn die Grafikkarten zwangsherrunter takten, also ständig an ihrer MaximalTemperaturSchwelle arbeiten müssen. Da wäre es meine Meinung nach sinnvoller, die Abwärme durch Undervolting soweit zu reduzieren, das die Kühlsituation ausreicht, die Karten bei moderaten Betriebstemperaturen zu betreiben.

Mach Mal ein Foto von deiner "McGiver" Konstruktion (Zu- & Abluftwege). Vieleicht fällt mir dann ein Lösung ein, wie du deine Brathähnchen effektiver luftgekühlt bekommst.


Hallo S.nase,

Video folgt. Wird gerade geschnitten und fliegt dann auf meine Cloud. Link werfe ich dann hier ab.
Vorab folgendes. Die Zotac 2080 ti Blower haben keine Wärmeleitpads. Und zwar ab Werk nicht.

Gruss LWGURU
 
Oben Unten