CPU Editor's Desk Latest news

What Intel didn’t write on Reddit but thinks internally – The search for the solution to the Raptor Lake S instabilities continues (Leak)

I already posted yesterday in a news item and briefly commented on what Intel officially published on the night of 22 July 2024 via Reddit as a kind of interim report. However, according to the unanimous opinion of all colleagues and readers, the whole thing is unsatisfactorily short and contains nothing substantial apart from the announcement of another microcode update for mid-August 2024 and also leaves more questions unanswered than it answers. Somewhat later, however, internal communication seems to have got underway, so I would now like to add excerpts from an internal statement for our readers, which Intel, for whatever reason, has not (yet) written publicly.

There is nothing extremely secret or reprehensible in it, but the content also shows a certain perplexity and Intel’s continuing efforts to find a final clarification. And because I want to avoid misinterpreting content and ignoring headlines this time, I have made a little more effort and commented out the relevant passages so as not to create room for too many interpretations, some of them contrary.

This has been written publicly so far…

As a reminder, I will quote the official post on Reddit once again in full. I have deliberately not translated all passages in the German article, including the Reddit post, so that the nuances of the original are not lost. I have highlighted the elements that are important to me in bold, but this highlighting is not part of the original texts, but merely serves to improve understanding.

Based on extensive analysis of Intel Core 13th/14th Gen desktop processors returned to us due to instability issues, we have determined that elevated operating voltage is causing instability issues in some 13th/14th Gen desktop processors. Our analysis of returned processors confirms that the elevated operating voltage is stemming from a microcode algorithm resulting in incorrect voltage requests to the processor.

Intel is delivering a microcode patch which addresses the root cause of exposure to elevated voltages. We are continuing validation to ensure that scenarios of instability reported to Intel regarding its Core 13th/14th Gen desktop processors are addressed.Intel is currently targeting mid-August for patch release to partners following full validation.

Intel is committed to making this right with our customers, and we continue asking any customers currently experiencing instability issues on their Intel Core 13th/14th Gen desktop processors reach out to Intel Customer Support for further assistance.

Thomas Hannaford (Reddit via community.intel)

 

The rumour about possible oxidation was also subsequently picked up on Reddit and ruled out as the cause:

We can confirm that the via Oxidation manufacturing issue affected some early Intel Core 13th Gen desktop processors. However, the issue was root caused and addressed with manufacturing improvements and screens in 2023. We have also looked at it from the instability reports on Intel Core 13th Gen desktop processors and the analysis to-date has determined that only a small number of instability reports can be connected to the manufacturing issue.
For the Instability issue, we are delivering a microcode patch which addresses exposure to elevated voltages which is a key element of the Instability issue. We are currently validating the microcode patch to ensure the instability issues for 13th/14th Gen are addressed.
LexHoyos42 (Reddit via community.intel)

 

… and this unfortunately not

Now let’s move on to what we unfortunately haven’t been able to read yet. The so-called “Problem Statement” briefly summarizes the situation, according to which it mainly refers to feedback from end users on board hardware and the Core i7 and i9 processors of Raptor Lake S and the refresh, but excludes the server area, embedded and mobile systems such as notebooks. This is also nothing new at first, but we are no longer talking explicitly only about K models, as was the case with the eTVB bug, but the entire lineup above the Core i5. There is nothing about these in the internal report, although the Core i5 (apart from the K model) are still based on the Alder Lake S (C0), which is not affected anyway.

– Intel customers have reported recurring OS and application hangs and errors on 13th and 14th Generation Intel desktop processors, particularly Core i7 and Core i9 SKUs.
– Reports to date have come primarily from end user enthusiast/gaming systems with commercial ODM motherboards, and OEM workstations.

–Intel—

 

This is all still relatively unexciting until the so-called “debug status”. Intel is said to have analyzed processors sent in from RMA cases and measured a significant increase in Vmin, i.e. the lower limit of the operating voltages. Intel also writes interesting details about the cumulative and accumulating effects that ultimately lead to a much too high Vmin. However, this briefly described analysis by Intel also shows that the maximum voltage requested by the processor must definitely be reduced in order to reduce or eliminate the cumulative exposure to voltages that can lead to an increase in Vmin.

So that’s confirmed so far, but they will continue the investigation to fully understand the root cause (again, Intel refers to this as a kind of “root cause”, but not THE root cause) and also address other potential aspects of this problem. Again, I can’t really find anything that couldn’t have been shared with the public on Reddit. Except for the fact that they have found symptoms but are still looking for root causes. Of course, the full description would have been better, but in view of the Ryzen launch next week, the short version that has now been brought forward is at least somewhat comprehensible.

– Intel observes a significant increase to the minimum operating voltage (Vmin) across multiple cores on returned affected processors from customers.
– This increase is similar in outcome to parts subjected to elevated voltage and temperature conditions for reliability testing.
– Factors contributing to this Vmin increase include elevated voltage, high frequency, and elevated temperature.
– Even under idle conditions at relatively cool temperatures, sporadic elevated voltages are observed when the processor is resumed from low power states in order to service background operations before entering a low power state again.
– At a sufficiently high voltage, these short-duration events can accumulate over time, contributing to the increase in Vmin.
– Intel analysis indicates a need to reduce the maximum voltage requested by the processor in order to reduce or eliminate accumulated exposure to voltages which may result in an increase to Vmin.
While Intel has confirmed elevated voltages impact the increase in Vmin, investigation continues in order to fully understand root cause and address other potential aspects of this issue.
–Intel—

 

However, solutions should also be found, even if it is only a preventive measure or a kind of workaround. Or a complete replacement. The conclusions are also quite remarkable, because the microcode to be provided in August for the official (NDA) board partners (which is then to be distributed via the respective UEFI of the mainboard manufacturers) only addresses the problem with the minimum operating voltage Vmin. This also includes a VID limit of 1.55 volts as a possible solution, which must not be overridden by any automatic mechanism.

In addition, a small number of benchmarks are said to have measured minimal performance losses and the timing of the responsible microcode to the time after the Ryzen launch also has a slight aftertaste here. Or it is simply due to the time that still needs to be taken. But it is again emphasized that further investigations are necessary to ensure that all possible circumstances have been covered. Intel also explains that this microcode update may not fix all systems that show the known symptoms. In this case, the SKU should be replaced via an RMA process.

– Intel is validating a microcode update to limit VID requests above 1.55V as a potential future corrective action, targeted for production release in mid-August to NDA customers.
Early testing by Intel on a small number of benchmarks indicates minimal performance impact due to this microcode change.
– While this microcode update addresses the elevated voltage aspect of this issue, further analysis is required to understand if this proposed mitigation addresses all scenarios.
This microcode update, once validated and released, may not address existing systems in the field with instability symptoms.
Systems which continue to exhibit symptoms associated with this issue should have the processor returned to Intel for RMA.
–Intel—

 

Once again: There is actually nothing in it that could not have been written, except perhaps the fact that they are still not sure where the cause lies, but they are certain of it.

Source: own (Intel)

Kommentar

Lade neue Kommentare

R
Robofighter

Mitglied

92 Kommentare 33 Likes

Ich denke Intel kennt den Fehler immer noch nicht genau und fischt da erst mal im Trüben. Besser Vermutungen als gar nichts zu sagen. Mein 14700KF boostet mit TVB+2 so bis 5,8Ghz. Wenn ich auf meinem Asus MB auf Auto stelle boostet er bis 6,1Ghz und fast 1,5V. In Spielen super stabil aber bei Wechsel auf Win11 Oberfläche regelmäßig abgestürzt. Kein Asus OC Mode! Unter Volllast benötigt er bei 125/251W 307A nur 1,16V. Für wenige Mhz mehr muss er aber die Spannung stark anheben. Im Bios hinterlegt sind 1,38V. Habe aber schon oft über 1,4V gesehen. Ziemlich überreizt die CPU aber man will ja hohe Zahlen sehen. Das Fertigungsverfahren ist sicherlich schon lange ausgereizt gewesen aber solange alles gut geht und nur wenige Reklamationen kommen wird es hingenommen. Wenig Aufwand aber viel Geld verdienen. Intel halt.

Antwort Gefällt mir

RedF

Urgestein

4,911 Kommentare 2,739 Likes

Dieses rumgedrücke ist mmn der PR Abteilung oder Ignoranz dem Kunden gegenüber geschuldet.

Beide Möglichkeiten unschön.

Antwort 2 Likes

arcDaniel

Urgestein

1,672 Kommentare 936 Likes

Meine Meinung:
-Die CPU's welche das Korrosionsproblem haben müssen identifiziert werden und getauscht werden (könnte bitter werden, wenn auch hier Laptop CPU drunter fallen...)
-CPU's welche durch zu hohe Spannungen einen nachhaltigen Schaden haben, müssen getauscht werden
-Wenn die CPUs durch das Microcode Update nicht mehr die Beworbene Leistung bringen, muss eine Rückerstattung möglich sein oder ein Gratis-Update auf das nächstbessere Modell. Der Kunde hat ja nicht nur die CPU sondern eine Plattform und sollte mindestens die Leistung bekommen, welche ihm beworben wurde und für welche er gezahlt hat
-Ein Teilerstattung, wegen der verminderten Leistung würde auch in Frage kommen, solange der Kunde die Wahl bekommt

Sehr unschön ist im Moment, dass das Update erst nach dem Zen5 launch kommt und so Reale vergleiche Intel gegen AMD unmöglich sind. Eigentlich müssten alle Raptor Lakes zum jetzigen Moment aus allen Wertungen rausgenommen werden.

Ich sehe aber auch etwas Positives; die hohen Leistungen von Raptor Lake wurden mit der Brechstange realisiert, wenn jetzt geringere Spannungen gefahren werden, auch wenn die minimale Leistung kostet, so können es aber bessere CPUs werden, da sicher die Effizienz verbessert wird.

Man, sieht hier eigentlich, dass die Leistungskrone durch die Brechstange nicht der richtige Weg ist.

Antwort 7 Likes

Klicke zum Ausklappem
T
Tom42

Mitglied

40 Kommentare 24 Likes

Das war mein erster Gedanke.

Durch den neuen µCode werden die Prozessoren wohl deutlich langsamer, intel wird in einigen Benchmarks und auch Anwendungen mehrere Plätze nach unten durchgereicht.

Antwort 1 Like

T
Techniker Freak

Mitglied

54 Kommentare 7 Likes

@Igor Wallossek
Können die Microcode-Updates aufgrund der unklaren Ursache das Problem auch verschlimmern?
Oder ist davon auszugehen das sie für den Moment nur an den "sicheren" Schrauben drehen um es einzudämmen.

Antwort Gefällt mir

Lieblingsbesuch

Veteran

475 Kommentare 87 Likes

Nein, davon wird nicht ausgegangen im Gegenteil könnte die niedrige Spannung und damit geringere Temperaturen sich positiv auf den Boosttakt auswirken.

Antwort Gefällt mir

A
AkShen

Mitglied

29 Kommentare 2 Likes

Ich nehme an, wenn die Ausfallraten wirklich so hoch sind und teilweise nach wenigen Wochen auftreten, ist Intel dem Problem schon länger ausgesetzt als der jetzige Hype. Die werden bei den Ausfallraten auch relativ früh, sehr viel Personal für die Analysen abgestellt haben. Ergo, weiß Intel inzwischen woran es liegt.

Ich würde das also so interpretieren, dass die Lösung starke bis sehr starke Leistungseinbußen mit sich bringen würde, was bei dem weiterhin hohen Verbrauch zu Umsatzeinbrüchen in dramatischem Ausmaß führen würde. Vor allem wenn, wie von Igor herausgestellt, quasi alle Modelle betroffen sind.

Daher versucht Intel derzeit eine Lösung zu finden, mit der Sie die Symptome in Zaum halten, ohne das Problem zu beheben und die entsprechende Leistungseinbuße hinnehmen zu müssen.

Die sind keine Heiligen, da geht es nur ums Geld.

Antwort 1 Like

LencoX2

Neuling

9 Kommentare 6 Likes

Die Vielzahl der verschiedenen Fehlerbilder erinnert doch sehr an grenzwertiges CPU OC in Kombination mit Einstellungen an Spannung und RAM OC.
Das kann ich festhalten mit Jahrzehnten an OC Erfahrung.
All die Fehler kann man mit jeder CPU reproduzieren:
CPU Takt zu hoch, Spannung niedrig,
RAM Takt zu hoch, Spannung niedrig,
CPU Takt OK, Spannung zu klein:

Antwort Gefällt mir

b
bitracer

Mitglied

46 Kommentare 31 Likes

...und gerade letzteres: öffentliches Zugeben von Unsicherheit ist etwas, das sich kein Unternehmen in der heutigen Zeit jemals ans Revers heften wird. Ist leider so. Auch wenn es "nach alter Schule" absolut ehrbar wäre in einem Fall wie diesem genau dies zu tun.

Die Marketing-Fuzzies werden schon wachsam den Rotstift zücken, sollte irgendein Lichtchen (ob klein oder ganz groß und ‘spitz’ spielt hier keine Rolle) auch nur dieser Idee nahe rücken so etwas nach außen hin zuzugeben!

Antwort 3 Likes

Y
Yumiko

Urgestein

578 Kommentare 273 Likes

Aber die Benchmarks sind ja schon gemacht und in allen Datenbanken drinnen.
Dazu kommen noch zukünftige Änderungen - ist ja nur eins der Symptome die behandelt werden.

Antwort 1 Like

e
eastcoast_pete

Urgestein

1,728 Kommentare 1,062 Likes

Wenn ich das richtig verstehe, ist die Hauptneuigkeit daß Intel mittlerweile einräumt, daß das Problem nicht (nicht primär) bei übermäßig aggressiven BIOS Settings liegt, sondern in der Firmware bzw Microcode der CPUs selbst, die zuviel Spannung für zu lange zulassen können. Stimmt das jetzt so?
Und, Fuß vom Gas ist in jedem Fall eine gute Idee.

Antwort Gefällt mir

Y
Yumiko

Urgestein

578 Kommentare 273 Likes

Komisch das dies bei Nvidia keiner geschrieben hat, als die Dinger wegen zu viel Strom abgefackelt sind - da war auch erst der Kunde Schuld, dann der Lieferant des Kabels, dann das Spezifikationskommitee, ... die Dinger von Nvidia haben unterm Strich zu viel Strom gezogen als Auslöser der ganzen Kette.

Antwort 1 Like

lilux

Mitglied

59 Kommentare 42 Likes

Wenn ich Intel nach der Lektüre richtig verstanden habe, sagen die im Grunde folgendes: "Nichts genaues weiß man nicht!"
Oder habe ich da was mißverstanden?o_O

Antwort Gefällt mir

b
bitracer

Mitglied

46 Kommentare 31 Likes

Wie Igor schon richtig darstellt, sie halten sich hier sehr bedeckt und deuten nur an, daß da etwas sein könnte, was sie intern gerade untersuchen und (einem nich näher benannten, bestimmten Kreis von) betroffenen Kunden eventuell Abhilfe für Datum x in Aussicht stellen, sollte sich Verdacht y bestätigen.

Und interne Informationshäppchen, die Igor vorliegen suggerieren, daß da entweder Abteilung a nichts von Erkenntnissen aus Abteilung b weiß / wissen will - oder eben noch kein Konsens darüber herrscht, ob die von dritten kolportierten Häufungen an kaputt-benutzten Prozessoren irgendwie herstellungs- bzw. konstruktionsbedingt sind und eben nicht "user-error".

Es geht um Chips, die "out of the box" betrieben werden, hohe Dauerbeanspruchung sehen (power-user, gameserver mit hoher single-thread last, teilweise in workstation-boards ohne eingebaute Übertaktungs-Steuerungen) - sprich durch einen Hersteller-Fehler einfach so hops gehen und auf einmal abstürzen, da die erhöhte Elektronenmigration die Dinger im Zeitraffer verbraucht.
Siehe dazu:
level1techs, GamersNexus, FrameChasers, Buildzoid, Techyescity und andere.

Antwort 1 Like

Igor Wallossek

1

10,559 Kommentare 19,818 Likes

AMD ist da vorsichtiger....

Ihr solltet heute Nacht mal den X-Account von AMD checken... Ich habe erst mal weniger Stress und nichts gesagt :p

Antwort 1 Like

B
Besterino

Urgestein

6,931 Kommentare 3,507 Likes

Kann das hier mal einer reinkopieren / verlinken? Habe keinen X-Account…

Antwort 2 Likes

ipat66

Urgestein

1,433 Kommentare 1,461 Likes

Kann man auch ohne Abo lesen (und ohne Cookies zu akzeptieren) ....

Antwort Gefällt mir

Steffdeff

Urgestein

790 Kommentare 736 Likes

Intel soll ja schon seit einem Jahr von dem Problem wissen, wobei es erst in den letzten 6 Monaten immer weiter in den Focus gerückt ist.
Und dann so eine halbherzige Erklärung?
Da hat die Rechtsabteilung sicher mit formuliert.😉

Und ja, auch AMD hatte eine „spannende“ Zeit mit den durchgebrannten X3D CPUs.

Das Intel das Problem aber nicht so schnell lösen kann, deutet dann schon auf einen konstruktiven Mangel hin.
Ziemlich bedauerlich für die Anwender die sich nicht in Hardware Foren rumtreiben und für die ein BIOS höchstens eine neue ÖKO Marke ist, die sind nämlich auf „out of the Box“ angewiesen.

Antwort Gefällt mir

e
eastcoast_pete

Urgestein

1,728 Kommentare 1,062 Likes

Ich finde es auch faszinierend, daß Alder Lake CPUs ja scheinbar keine derartigen Probleme gezeigt haben. Da Intel Raptor Lake im gleichen Knoten in denselben Foundries fertigt bzw fertigte wie Alder Lake, liegt ein ziemlicher Teil des Problems wohl irgendwo im Design und/oder Microcode von RL. Wie das dann allerdings die auch kolportierten Oxidationsprobleme verursachen könnte - keine Ahnung.
@Igor Wallossek : Wenn ich das richtig verstehe, sind die umbenannten Alder Lakes, die als Raptors geführt werden, auch nicht von den Problemen betroffen? Stimmt das so?

Antwort Gefällt mir

Danke für die Spende



Du fandest, der Beitrag war interessant und möchtest uns unterstützen? Klasse!

Hier erfährst Du, wie: Hier spenden.

Hier kannst Du per PayPal spenden.

About the author

Igor Wallossek

Editor-in-chief and name-giver of igor'sLAB as the content successor of Tom's Hardware Germany, whose license was returned in June 2019 in order to better meet the qualitative demands of web content and challenges of new media such as YouTube with its own channel.

Computer nerd since 1983, audio freak since 1979 and pretty much open to anything with a plug or battery for over 50 years.

Follow Igor:
YouTube Facebook Instagram Twitter

Werbung

Werbung