Was Intel auf Reddit nicht schrieb aber intern meint – Die Suche nach der Lösung für die Raptor-Lake-S Instabilitäten geht weiter (Leak)

24. Juli 2024 06:00

Ich hatte ja bereits gestern in einer News gepostet und kurz kommentiert, was Intel in der Nacht am 22.07.2024 offiziell über Reddit als eine Art Zwischenbericht veröffentlichte. Das Ganze fällt aber, so auch die einhellige Meinung aller Kollegen und Leser, unbefriedigend kurz aus und enthält außer der Ankündigung eines weiteren Microcode-Updates für Mitte August 2024 nichts Substantielles und lässt zudem mehr Fragen offen, als es beantwortet. Etwas später scheint aber auch die interne Kommunikation in Gang gekommen zu sein, so dass ich auszugsweise für unsere Leser jetzt das aus einem internen Statement ergänzen möchte, was Intel, aus welchen Gründen auch immer, (noch) nicht öffentlich geschrieben hat.

Darin ist auch nichts extrem Geheimes oder Verwerfliches enthalten, allerdings zeigt der Inhalt auch eine gewisse Ratlosigkeit und die fortgesetzten Bemühungen Intels, doch noch eine finale Klärung zu finden. Und weil ich es diesmal vermeiden möchte, dass Inhalte vielleicht missinterpretiert und Überschriften ignoriert werden, habe ich mir etwas mehr Mühe gegeben und die jeweiligen Passagen auskommentiert, um nicht wieder Raum für zu viele, teils auch konträre Interpretationen zu schaffen.

Das ist bisher öffentlich geschrieben worden…

Zur Erinnerung stelle ich den offiziellen Post auf Reddit noch einmal als Vollzitat voran. Ich habe alle Passagen, so auch den Reddit-Post, bewusst nicht übersetzt, damit die Nuancen des Originals nicht verloren gehen. Die für mich wichtigen Elemente habe ich fett hervorgehoben, diese Markierung ist jedoch nicht Bestandteil der originalen Texte, sondern dient lediglich dem besseren Verständnis.

Based on extensive analysis of Intel Core 13th/14th Gen desktop processors returned to us due to instability issues, we have determined that elevated operating voltage is causing instability issues in some 13th/14th Gen desktop processors. Our analysis of returned processors confirms that the elevated operating voltage is stemming from a microcode algorithm resulting in incorrect voltage requests to the processor.
Intel is delivering a microcode patch which addresses the root cause of exposure to elevated voltages. We are continuing validation to ensure that scenarios of instability reported to Intel regarding its Core 13th/14th Gen desktop processors are addressed. Intel is currently targeting mid-August for patch release to partners following full validation.
Intel is committed to making this right with our customers, and we continue asking any customers currently experiencing instability issues on their Intel Core 13th/14th Gen desktop processors reach out to Intel Customer Support for further assistance.
Thomas Hannaford (Reddit via community.intel)

Auch das Gerücht über eine mögliche Oxidation wurde im Nachgang auf Reddit noch aufgenommen und als Ursache ausgeschlossen

We can confirm that the via Oxidation manufacturing issue affected some early Intel Core 13th Gen desktop processors. However, the issue was root caused and addressed with manufacturing improvements and screens in 2023. We have also looked at it from the instability reports on Intel Core 13th Gen desktop processors and the analysis to-date has determined that only a small number of instability reports can be connected to the manufacturing issue.
For the Instability issue, we are delivering a microcode patch which addresses exposure to elevated voltages which is a key element of the Instability issue. We are currently validating the microcode patch to ensure the instability issues for 13th/14th Gen are addressed.
LexHoyos42 (Reddit via community.intel)

… und das leider nicht

Kommen wir nun zu dem, was bisher leider nicht zu lesen war. Das sogenannte “Problem Statement” fasst die Lage erst einmal kurz zusammen, wonach man sich überwiegend auf Rückmeldungen von Endanwendern auf Boardpartener-Hardware und die Core i7 sowie i9 Prozessoren von Raptor Lake S und dem Refresh bezieht, jedoch den Serverbereich, Embedded- und mobile Systeme wie z.B. Notebooks ausklammert. Auch das ist erst einmal nicht neu, aber man spricht hier auch nicht mehr explizit nur von K-Modellen, wie noch beim eTVB-Bug, sondern dem kompletten Lineup oberhalb der Core i5. Zu diesen wiederum findet sich in der internen Meldung nichts, wobei ja die Core i5 (bis auf das K-Modell) noch auf den sowieso nicht betroffenen Alder Lake S (C0) basieren.

• Intel customers have reported recurring OS and application hangs and errors on 13th and 14th Generation Intel desktop processors, particularly Core i7 and Core i9 SKUs.
• Reports to date have come primarily from end user enthusiast/gaming systems with commercial ODM motherboards, and OEM workstations.
—Intel—

Das ist alles noch relativ unspannend, bis zum sogenannten “Debug Status”. Intel soll mittlerweile eingeschickte Prozessoren aus RMA-Fällen analysiert haben und dabei einen signifikanten Anstieg von Vmin, also der Untergrenze der Betriebsspannungen gemessen haben. Auch über die sich kumulierenden und aufschaukelnden Effekte, die am Ende zu einer viel zu hohen Vmin führen, schreibt Intel interessante Details. Diese kurz beschriebene Analyse von Intel zeigt aber auch, dass die vom Prozessor angeforderte maximale Spannung definitiv reduziert werden muss, um die kumulierte Exposition gegenüber Spannungen, die zu einem Anstieg von Vmin führen können, zu verringern oder zu beseitigen.

Das ist so weit also bestätigt, aber man wird die Untersuchung fortsetzen, um die Grundursache (hier spricht Intel dann doch wieder vom “Root Cause”) vollständig zu verstehen und auch andere potenzielle Aspekte dieses Problems anzugehen. Auch hier finde ich eigentlich nichts, was man der Öffentlichkeit nicht auch auf Reddit hätte mitteilen können. Außer dem Umstand, dass man zwar Symptome gefunden hat, aber immer noch nach den Ursachen sucht. Natürlich wäre die vollständige Beschreibung besser gewesen, aber in Anbetracht des nächste Woche folgenden Ryzen-Launches, ist die nun vorgezogene Kurzfassung zumindest einigermaßen nachvollziehbar.

• Intel observes a significant increase to the minimum operating voltage (Vmin) across multiple cores on returned affected processors from customers.
• This increase is similar in outcome to parts subjected to elevated voltage and temperature conditions for reliability testing.
• Factors contributing to this Vmin increase include elevated voltage, high frequency, and elevated temperature.
• Even under idle conditions at relatively cool temperatures, sporadic elevated voltages are observed when the processor is resumed from low power states in order to service background operations before entering a low power state again.
• At a sufficiently high voltage, these short-duration events can accumulate over time, contributing to the increase in Vmin.
• Intel analysis indicates a need to reduce the maximum voltage requested by the processor in order to reduce or eliminate accumulated exposure to voltages which may result in an increase to Vmin.
• While Intel has confirmed elevated voltages impact the increase in Vmin, investigation continues in order to fully understand root cause and address other potential aspects of this issue.
—Intel—

Allerdings sollen ja auch Lösungen her und wenn es erst einmal eine Präventivmaßnahme bzw. eine Art Workaround ist. Oder aber ein kompletter Austausch. Auch die Schlussfolgerung sind durchaus bemerkenswert, denn der im August für die offiziellen (NDA) Boardpartner bereitzustellende Microcode (der dann über das jeweilige UEFI der Mainboardhersteller zu verteilen ist) adressiert nur das Problem mit der minimalen Betriebsspannung Vmin. Das beinhaltet auch ein VID-Limit von 1.55 Volt als mögliche Lösung, welches dann durch keinen Automatismus ausgehebelt werden darf.

Man will zudem in einer kleinen Anzahl von Benchmarks minimale Leistungseinbußen gemessen haben und auch hier hat die zeitliche Platzierung des verantwortlichen Microcodes auf die Zeit nach dem Ryzen-Launch einen kleinen Beigeschmack. Oder es ist einfach der Zeit geschuldet, die man sich noch nehmen muss. Aber man betont erneut, dass weitere Untersuchungen notwendig sind, um sicherzugehen, dass man damit wirklich alle möglichen Umstände abgedeckt hat. Intel erklärt zudem, dass dieses Microcode-Update unter Umständen nicht alle Systeme fixen kann, die die bekannten Symptome zeigen. Dann wiederum sollte ein Austausch der SKU über einen RMA-Prozess erfolgen.

• Intel is validating a microcode update to limit VID requests above 1.55V as a potential future corrective action, targeted for production release in mid-August to NDA customers.
• Early testing by Intel on a small number of benchmarks indicates minimal performance impact due to this microcode change.
• While this microcode update addresses the elevated voltage aspect of this issue, further analysis is required to understand if this proposed mitigation addresses all scenarios.
• This microcode update, once validated and released, may not address existing systems in the field with instability symptoms.
• Systems which continue to exhibit symptoms associated with this issue should have the processor returned to Intel for RMA.
—Intel—

Noch einmal: Es ist eigentlich nichts enthalten, was man hätte nicht auch schreiben können, außer vielleicht der Tatsache, dass man sich immer noch nicht sicher ist, wo die Ursache liegt, dies aber mit Bestimmtheit.

Source: eigene (Intel)

23 Antworten

Zeige alle Kommentare an

Kommentar

Lade neue Kommentare

Robofighter

Mitglied

92 Kommentare 33 Likes

#1 vor 2 Tagen

Ich denke Intel kennt den Fehler immer noch nicht genau und fischt da erst mal im Trüben. Besser Vermutungen als gar nichts zu sagen. Mein 14700KF boostet mit TVB+2 so bis 5,8Ghz. Wenn ich auf meinem Asus MB auf Auto stelle boostet er bis 6,1Ghz und fast 1,5V. In Spielen super stabil aber bei Wechsel auf Win11 Oberfläche regelmäßig abgestürzt. Kein Asus OC Mode! Unter Volllast benötigt er bei 125/251W 307A nur 1,16V. Für wenige Mhz mehr muss er aber die Spannung stark anheben. Im Bios hinterlegt sind 1,38V. Habe aber schon oft über 1,4V gesehen. Ziemlich überreizt die CPU aber man will ja hohe Zahlen sehen. Das Fertigungsverfahren ist sicherlich schon lange ausgereizt gewesen aber solange alles gut geht und nur wenige Reklamationen kommen wird es hingenommen. Wenig Aufwand aber viel Geld verdienen. Intel halt.

Antwort Gefällt mir

RedF

Urgestein

4,911 Kommentare 2,739 Likes

#2 vor 2 Tagen

Dieses rumgedrücke ist mmn der PR Abteilung oder Ignoranz dem Kunden gegenüber geschuldet.

Beide Möglichkeiten unschön.

Antwort 2 Likes

arcDaniel

Urgestein

1,672 Kommentare 936 Likes

#3 vor 2 Tagen

Meine Meinung:
-Die CPU's welche das Korrosionsproblem haben müssen identifiziert werden und getauscht werden (könnte bitter werden, wenn auch hier Laptop CPU drunter fallen...)
-CPU's welche durch zu hohe Spannungen einen nachhaltigen Schaden haben, müssen getauscht werden
-Wenn die CPUs durch das Microcode Update nicht mehr die Beworbene Leistung bringen, muss eine Rückerstattung möglich sein oder ein Gratis-Update auf das nächstbessere Modell. Der Kunde hat ja nicht nur die CPU sondern eine Plattform und sollte mindestens die Leistung bekommen, welche ihm beworben wurde und für welche er gezahlt hat
-Ein Teilerstattung, wegen der verminderten Leistung würde auch in Frage kommen, solange der Kunde die Wahl bekommt

Sehr unschön ist im Moment, dass das Update erst nach dem Zen5 launch kommt und so Reale vergleiche Intel gegen AMD unmöglich sind. Eigentlich müssten alle Raptor Lakes zum jetzigen Moment aus allen Wertungen rausgenommen werden.

Ich sehe aber auch etwas Positives; die hohen Leistungen von Raptor Lake wurden mit der Brechstange realisiert, wenn jetzt geringere Spannungen gefahren werden, auch wenn die minimale Leistung kostet, so können es aber bessere CPUs werden, da sicher die Effizienz verbessert wird.

Man, sieht hier eigentlich, dass die Leistungskrone durch die Brechstange nicht der richtige Weg ist.

Antwort 7 Likes

Klicke zum Ausklappem

Tom42

Mitglied

40 Kommentare 24 Likes

#4 vor 2 Tagen

Das war mein erster Gedanke.

Durch den neuen µCode werden die Prozessoren wohl deutlich langsamer, intel wird in einigen Benchmarks und auch Anwendungen mehrere Plätze nach unten durchgereicht.

Antwort 1 Like

Techniker Freak

Mitglied

54 Kommentare 7 Likes

#5 vor 2 Tagen

@Igor Wallossek
Können die Microcode-Updates aufgrund der unklaren Ursache das Problem auch verschlimmern?
Oder ist davon auszugehen das sie für den Moment nur an den "sicheren" Schrauben drehen um es einzudämmen.

Antwort Gefällt mir

Lieblingsbesuch

Veteran

475 Kommentare 87 Likes

#6 vor 2 Tagen

Nein, davon wird nicht ausgegangen im Gegenteil könnte die niedrige Spannung und damit geringere Temperaturen sich positiv auf den Boosttakt auswirken.

Antwort Gefällt mir

AkShen

Mitglied

29 Kommentare 2 Likes

#7 vor 2 Tagen

Ich nehme an, wenn die Ausfallraten wirklich so hoch sind und teilweise nach wenigen Wochen auftreten, ist Intel dem Problem schon länger ausgesetzt als der jetzige Hype. Die werden bei den Ausfallraten auch relativ früh, sehr viel Personal für die Analysen abgestellt haben. Ergo, weiß Intel inzwischen woran es liegt.

Ich würde das also so interpretieren, dass die Lösung starke bis sehr starke Leistungseinbußen mit sich bringen würde, was bei dem weiterhin hohen Verbrauch zu Umsatzeinbrüchen in dramatischem Ausmaß führen würde. Vor allem wenn, wie von Igor herausgestellt, quasi alle Modelle betroffen sind.

Daher versucht Intel derzeit eine Lösung zu finden, mit der Sie die Symptome in Zaum halten, ohne das Problem zu beheben und die entsprechende Leistungseinbuße hinnehmen zu müssen.

Die sind keine Heiligen, da geht es nur ums Geld.

Antwort 1 Like

LencoX2

Neuling

9 Kommentare 6 Likes

#8 vor 2 Tagen

Die Vielzahl der verschiedenen Fehlerbilder erinnert doch sehr an grenzwertiges CPU OC in Kombination mit Einstellungen an Spannung und RAM OC.
Das kann ich festhalten mit Jahrzehnten an OC Erfahrung.
All die Fehler kann man mit jeder CPU reproduzieren:
CPU Takt zu hoch, Spannung niedrig,
RAM Takt zu hoch, Spannung niedrig,
CPU Takt OK, Spannung zu klein:

Antwort Gefällt mir

bitracer

Mitglied

49 Kommentare 31 Likes

#9 vor 2 Tagen

...und gerade letzteres: öffentliches Zugeben von Unsicherheit ist etwas, das sich kein Unternehmen in der heutigen Zeit jemals ans Revers heften wird. Ist leider so. Auch wenn es "nach alter Schule" absolut ehrbar wäre in einem Fall wie diesem genau dies zu tun.

Die Marketing-Fuzzies werden schon wachsam den Rotstift zücken, sollte irgendein Lichtchen (ob klein oder ganz groß und ‘spitz’ spielt hier keine Rolle) auch nur dieser Idee nahe rücken so etwas nach außen hin zuzugeben!

Antwort 3 Likes

Yumiko

Urgestein

578 Kommentare 274 Likes

#10 vor 1 Tag

Aber die Benchmarks sind ja schon gemacht und in allen Datenbanken drinnen.
Dazu kommen noch zukünftige Änderungen - ist ja nur eins der Symptome die behandelt werden.

Antwort 1 Like

eastcoast_pete

Urgestein

1,730 Kommentare 1,062 Likes

#11 vor 1 Tag

Wenn ich das richtig verstehe, ist die Hauptneuigkeit daß Intel mittlerweile einräumt, daß das Problem nicht (nicht primär) bei übermäßig aggressiven BIOS Settings liegt, sondern in der Firmware bzw Microcode der CPUs selbst, die zuviel Spannung für zu lange zulassen können. Stimmt das jetzt so?
Und, Fuß vom Gas ist in jedem Fall eine gute Idee.

Antwort Gefällt mir

Yumiko

Urgestein

578 Kommentare 274 Likes

#12 vor 1 Tag

Komisch das dies bei Nvidia keiner geschrieben hat, als die Dinger wegen zu viel Strom abgefackelt sind - da war auch erst der Kunde Schuld, dann der Lieferant des Kabels, dann das Spezifikationskommitee, ... die Dinger von Nvidia haben unterm Strich zu viel Strom gezogen als Auslöser der ganzen Kette.

Antwort 1 Like

lilux

Mitglied

59 Kommentare 42 Likes

#13 vor 1 Tag

Wenn ich Intel nach der Lektüre richtig verstanden habe, sagen die im Grunde folgendes: "Nichts genaues weiß man nicht!"
Oder habe ich da was mißverstanden?o_O

Antwort Gefällt mir

bitracer

Mitglied

49 Kommentare 31 Likes

#14 vor 1 Tag

Wie Igor schon richtig darstellt, sie halten sich hier sehr bedeckt und deuten nur an, daß da etwas sein könnte, was sie intern gerade untersuchen und (einem nich näher benannten, bestimmten Kreis von) betroffenen Kunden eventuell Abhilfe für Datum x in Aussicht stellen, sollte sich Verdacht y bestätigen.

Und interne Informationshäppchen, die Igor vorliegen suggerieren, daß da entweder Abteilung a nichts von Erkenntnissen aus Abteilung b weiß / wissen will - oder eben noch kein Konsens darüber herrscht, ob die von dritten kolportierten Häufungen an kaputt-benutzten Prozessoren irgendwie herstellungs- bzw. konstruktionsbedingt sind und eben nicht "user-error".

Es geht um Chips, die "out of the box" betrieben werden, hohe Dauerbeanspruchung sehen (power-user, gameserver mit hoher single-thread last, teilweise in workstation-boards ohne eingebaute Übertaktungs-Steuerungen) - sprich durch einen Hersteller-Fehler einfach so hops gehen und auf einmal abstürzen, da die erhöhte Elektronenmigration die Dinger im Zeitraffer verbraucht.
Siehe dazu:
level1techs, GamersNexus, FrameChasers, Buildzoid, Techyescity und andere.

Antwort 1 Like

Igor Wallossek

10,561 Kommentare 19,820 Likes

#15 vor 1 Tag

AMD ist da vorsichtiger....

Ihr solltet heute Nacht mal den X-Account von AMD checken... Ich habe erst mal weniger Stress und nichts gesagt :p

Antwort 1 Like

Besterino

Urgestein

6,932 Kommentare 3,507 Likes

#16 vor 1 Tag

Kann das hier mal einer reinkopieren / verlinken? Habe keinen X-Account…

Antwort 2 Likes

ipat66

Urgestein

1,433 Kommentare 1,461 Likes

#17 vor 1 Tag

Kann man auch ohne Abo lesen (und ohne Cookies zu akzeptieren) ....

x.com

View image at the forums

x.com

Antwort Gefällt mir

Steffdeff

Urgestein

790 Kommentare 736 Likes

#18 vor 1 Tag

Intel soll ja schon seit einem Jahr von dem Problem wissen, wobei es erst in den letzten 6 Monaten immer weiter in den Focus gerückt ist.
Und dann so eine halbherzige Erklärung?
Da hat die Rechtsabteilung sicher mit formuliert.😉

Und ja, auch AMD hatte eine „spannende“ Zeit mit den durchgebrannten X3D CPUs.

Das Intel das Problem aber nicht so schnell lösen kann, deutet dann schon auf einen konstruktiven Mangel hin.
Ziemlich bedauerlich für die Anwender die sich nicht in Hardware Foren rumtreiben und für die ein BIOS höchstens eine neue ÖKO Marke ist, die sind nämlich auf „out of the Box“ angewiesen.

Antwort Gefällt mir

eastcoast_pete

Urgestein

1,730 Kommentare 1,062 Likes

#19 vor 1 Tag

Ich finde es auch faszinierend, daß Alder Lake CPUs ja scheinbar keine derartigen Probleme gezeigt haben. Da Intel Raptor Lake im gleichen Knoten in denselben Foundries fertigt bzw fertigte wie Alder Lake, liegt ein ziemlicher Teil des Problems wohl irgendwo im Design und/oder Microcode von RL. Wie das dann allerdings die auch kolportierten Oxidationsprobleme verursachen könnte - keine Ahnung.
@Igor Wallossek : Wenn ich das richtig verstehe, sind die umbenannten Alder Lakes, die als Raptors geführt werden, auch nicht von den Problemen betroffen? Stimmt das so?

Antwort Gefällt mir

Alle Kommentare lesen unter igor´sLAB Community →

Danke für die Spende

Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

Kreativität trifft KI: Intel stellt seinen neuen AI Playground vor

Intel will jetzt eine Lösung für die Probleme der Raptor Lake CPUs der 13. und 14. Generation gefunden haben. Wirklich?

About the author

View All Posts

Igor Wallossek

Chefredakteur und Namensgeber von igor'sLAB als inhaltlichem Nachfolger von Tom's Hardware Deutschland, deren Lizenz im Juni 2019 zurückgegeben wurde, um den qualitativen Ansprüchen der Webinhalte und Herausforderungen der neuen Medien wie z.B. YouTube mit einem eigenen Kanal besser gerecht werden zu können.

Computer-Nerd seit 1983, Audio-Freak seit 1979 und seit über 50 Jahren so ziemlich offen für alles, was einen Stecker oder einen Akku hat.

Folge Igor auf:
YouTube Facebook Instagram Twitter