AMD Ryzen 9 5900X: Abstürze in Verbindung mit 6900 XT (Cache Hierarchy Error)

Semmel

Neuling
Mitglied seit
Mrz 7, 2021
Beiträge
8
Bewertungspunkte
1
Punkte
2
Hallo zusammen,

ich habe ein mysteriöses Problem, an dem ich langsam verzweifle, weil ich bereits seit vielen Tagen rumteste und nicht weiterkomme.

Problem:
Ich habe ständig, in unregelmäßigen Abständen, Abstürze mit Neustart, die immer den selben Fehler WHEA-Fehler in der Ereignisanzeige zu Folge haben:
Gemeldet von Komponente: Prozessorkern
Fehlerquelle: Machine Check Exception
Fehlertyp: Cache Hierarchy Error
Prozessor-APIC-ID: 26

Die Detailansicht dieses Eintrags beinhaltet weitere Informationen.

Die APIC-IDs weichen allerdings bei jedem Absturz ab.
Hier die IDs der letzten Abstürze: 26, 0, 1, 11, 7, 27, 19, 3, 26, 8, 27, 26, 20, 1, 3, 27, 7, 0, 19, 8, 4, 0, 0, 2, 19, 0, 1

Die Abstürze treten vor allem unter CPU-Volllast auf. Im Leerlauf hatte ich bisher keine nennenswerten Probleme.

Mein System:
AMD Ryzen 9 5900X
Noctua NH-D15 SE-AM4
MSI B550 Gaming Carbon WIFI
32 GB (2x16) Corsair Vengeance RGB 3600 (CMR64GX4M4K3600C18, DR, Samsung B-Die)
XFX Radeon RX 6900 XT Merc 319 Black
Creative Soundblaster AE-9
1 TB WD Black SN850 PCIe 4.0
Corsair AX850 80+ Titanium 850 W
be quiet! Dark Base Pro 900 Rev. 2
Windows 10 Pro 20H2


Zweit-PC: (der läuft STABIL, aber dessen Komponenten habe ich zum Testen im Austausch genutzt)
AMD Ryzen 5 3500X
Boxed-Kühler
MSI B550 Tomahawk
32 GB (2x16) Corsair Vengeance RGB 3600 (CMR64GX4M4K3600C18, DR, Samsung B-Die)
Radeon R9 Nano
1 TB WD Black SN850 PCIe 4.0
be quiet! Straight Power Platinum 650 W
Windows 10 Pro 20H2

Für die Stabilitätstests habe ich immer Prime95 mit „Blend“ laufen gelassen. Der Crash erfolgte dann immer im Zeitraum von 10 Minuten bis maximal 4 Stunden. (meistens ca. 1h)
Die u.g. Maßnahmen habe ich alle einzeln getestet. Lediglich die BIOS-Defaults waren zur Sicherheit praktisch immer aktiv.

Folgendes habe ich bereits versucht:
1. BIOS-Reset und System mit Default-Settings laufen lassen (RAM@2133) -> Crash
2. PBO deaktiviert -> Crash
3. CPU auf 65 W laufen lassen -> Crash
4. RAM mit Zweit-PC getauscht -> Crash
5. CPU mit Zweit-PC getauscht -> Crash
6. Mainbord mit Zweit-PC getauscht -> Crash
7. Netzteil mit Zweit-PC getauscht -> Crash
8. Unwichtige Hardware abgesteckt/entfernt (Soundkarte, BD-Laufwerk, Gehäuselüfter, LEDs, Peripherie) -> Crash
9. Verschiedene BIOS-Versionen getestet: 7C90v15 mit AGESA 1.2.0.0, 7C90v152 mit AGESA 1.1.9.0, 7C90v162 mit AGESA 1.2.0.1 -> Crash
10. Grafikkarte mit R9 Nano getauscht -> stabil! (14h Prime95 Blend gelaufen)

Jetzt dachte ich, dass die Grafikkarte kaputt ist, also ging das Testen weiter.
11. Referenz 6900 XT ausgeliehen und eingebaut -> Crash!
12. Grafiktreiber mit DDU komplett entfernt und neu installiert (21.2.3) -> Crash
13. 6900 XT auf PCIE 3.0 limitiert -> Crash
14. Radeon VII ausgeliehen -> läuft derzeit noch, aber sieht stabil aus (bisher 3,5h)


Ich verstehe es nicht. Die Fehlermeldungen deuten eigentlich auf ein CPU-Problem hin, aber es funktionieren nur bestimmte Komponenten in Kombination nicht zusammen.
Wie kann eine Grafikkarte überhaupt einen Crash bei Prime95 verursachen? Vielleicht indirekt wegen irgendwelchen Schwankungen beim Stromverbrauch? Aber Ich habe bereits zwei verschiedene Netzteile getestet.
Die Grafikkarten sind aber auch nicht kaputt, denn in anderen Rechnern funktionieren sie ja. Jemand noch eine Idee, bevor ich wahnsinnig werde? :cry:

Danke vorab.
 
Hallo Semmel

Zuerst hätte ich auch auf eine instabile CPU getippt. Aber dann komme ich auf den gleichen Schluss wie du.

Ja, die neuen Grafikkarten erzeugen so hohe Lastspitzen, dass teilweise auch Netzteile mit 850 Watt die Spannung nicht genug stabil halten können. Igor hat das mal getestet und festgestellt, dass die kurzen Lastspitzen von GPU und CPU je 100 - 150 Watt über der angegebenen Dauerleistung liegen können. Bei ihm hat sogar ein Netzteil mit 1300 Watt abgeschaltet.

Was du noch versuchen kannst ist die Grafikkarte zu undervolten. man kann damit den Strombedarf deutlich senken ohne viel Leistung zu verlieren.

Im Bios würde ich Game-Boost und Precision Boost Overdrive ausschalten. Diese beiden Übertaktungsmöglichkeiten machen die CPU gerne instabil und bringen kaum mehr Leistung. Sonst kannst du alles normal lassen. Ich würde das neuste BIOS verwenden. Dazu gehört natürlich der neuste Chipsatztreiber und Grafikartentreiber.

Nimm von Prime95 eine ältere Version (27.9) oder schlte bei den neueren AVX aus. Der Test mit AVX erzeugt eine extrem hohe Last die in praktisch keiner Situation vorkommt aber die CPU sehr gerne abstürzen lässt.

Endlose Stabilitätstests bringen in der Situation auch wenig. Games erzeugen viel mehr Leistungsschwankungen un führen dadurch häufiger zu solchen Abstürzen. Es kann sogar im leerlauf passieren, wenn kurzfristig etwas Leistung gebraucht wird. Auch dann schraubt der Prozessor und die Grafikkarte kurz auf die volle Taktrate hinauf.

viele Grüsse Martin
 
Hallo Martin,

danke schonmal für deine Hilfe.
Prime95 habe ich eh nur als ältere Version am Laufen (v29.8), welche FMA3 nutzt.
Aber auch wenn es was anderes wäre, von einem so teuren System erwarte ich eigentlich schon volle Stabilität in jeder Lastsituation.

Die Lastsituation ist denke ich nicht das Problem, nachdem ich die CPU schonmal auf 65W gedrosselt hatte. Während Prime95 läuft, langweilt sich außerdem die Grafikkarte. Kann die Grafikkarte im Leerlauf denn auch solche Lastspitzen verursachen?

Neueste Treiber samt neuestem BIOS sind drauf.

Übrigens habe ich die Abstürze als erstes in Spielen bemerkt. Ich zocke zur Zeit Cyberpunk, da hatte ich alle paar Stunden dann auch einen Crash mit Neustart.

Als nächsten Testversuch werde ich mal meinen Zweit-PC (der aktuell in allen Einzelteilen herumliegt) wieder zusammenbauen und dort die 6900 XT einbaun.
 
Prime Blend ist der Ram Test.
XMP Laden und von Hand auf 3200MHz stellen.
Was passiert?
Grafikkarte hat 2 Strompabel oder nur Eins mit Y Stecker?
Wo wurde die Komponenten am Netzteil angestöpselt?
 
Prime Blend ist der Ram Test.
Prime Blend testet die CPU schon auch. Die läuft jedenfalls auch auf Volllast.

XMP Laden und von Hand auf 3200MHz stellen.
Was passiert?
Das habe ich schon hinter mir, stürzt genauso ab.
Ich lasse es meistens sogar nur mit 2133 MHz zur Sicherheit laufen.


Grafikkarte hat 2 Strompabel oder nur Eins mit Y Stecker?
Wo wurde die Komponenten am Netzteil angestöpselt?
Am AX850 (eigentliches Netzteil) ist ein Y-Stecker dabei und das Kabel ist im Netzteil am zweiten PCIe-Port angesteckt. Das Netzeil ist aber eh Single-Rail.

Am Straight Power 650W (vom Zweit-PC) sind es zwei getrennte Kabel, aber da ist es genauso abgestürzt.
 
Prime Blend testet die CPU schon auch. Die läuft jedenfalls auch auf Volllast.


Das habe ich schon hinter mir, stürzt genauso ab.
Ich lasse es meistens sogar nur mit 2133 MHz zur Sicherheit laufen.



Am AX850 (eigentliches Netzteil) ist ein Y-Stecker dabei und das Kabel ist im Netzteil am zweiten PCIe-Port angesteckt. Das Netzeil ist aber eh Single-Rail.

Am Straight Power 650W (vom Zweit-PC) sind es zwei getrennte Kabel, aber da ist es genauso abgestürzt.
Blend ist aber kein CPU Test wie du in den Screens sehen kann.
2021.03.07-16.16.png
Du musst für den CPU Test diesen Laufen lassen.
2021.03.07-16.17.png
2021.03.07-16.17_01.png
Du bist Sicher das du XMP Geladen hast und dann auf 3200MHz runter gestellt hast?
Oder hast nur 3200MHz eingestellt?
Ob Single oder Multi spielt keine Rolle,die Anschlüsse sind nicht direkt auf der 12V Leitung Gelötet.
Wo ist der Rest angeschlossen?
Ein Bild wäre Hilfreich.
 
HWInfo auf neuste Version Updaten. Gab abstürze mit Radeon 6000.
 
Lösung
Das ist doch was :)
Die neueste Version soll das Problem behoben haben, wie RedF schon anmerkte. Nimm die mal und beobachte erneut.
 
Die Kiste ist die ganze Nacht über stabil gelaufen, mit HWInfo64 v6.43-4385 Beta.
Wahnsinn, das war's. Schade um die viele verschwendete Zeit, aber besser so, als dass irgendwas kaputt ist. :D
 
Zuletzt bearbeitet :
Ich glaube die Aquacomputer Aquasuite hat das selbe problem. Bin mir noch nicht 100% sicher aber seit ich die GraKa Hardware überwachung aus gemacht habe hatte ich keine abstürze mehr.

Das dumme ist ich kann den fehler nicht Provozieren.
 
Oben Unten