Da muss ich dich leider enttäuschen, Fehler sind Menschlich ganz klar, aber eine Prüfsumme kann keiner erraten.
Meinst du evt. die "Silent Data Corruption" im Stromlosen Zustand ?
Nein, wir reden von fehlberechnungen, einfach Schaltfehler.
CPUs werden nicht nur schneller und sparsamer, sondern auch immer unzuverlässiger. Zu diesem Ergebnis kommen Statistiken aus den großen Rechenzentren Googles und Facebooks, in denen riesige Mengen an Prozessorkernen belastbare Daten hervorbringen.
"Unser Abenteuer begann, als aufmerksame Teams zunehmend beklagten, dass wiederholt Daten von den Maschinen korrumpiert wurden", berichtete Google-Entwickler Peter Hochschild nun auf der Konferenz Hot Topics in Operating Systems (HotOS). Hellhörig wurde man vor allem, weil auf den fraglichen Systemen Applikationen liefen, bei denen der Code als besonders stabil und fehlerbereinigt angesehen werden konnte. Fehlermeldungen kamen hier von verschiedenen Seiten und mit herkömmlicher Diagnostik war auch kein Bug zu finden.
Tiefergehende Untersuchungen hätten dann zu der Erkenntnis geführt, dass das Problem eher in der Hardware zu finden sein dürfte. Und ganz abwegig war dies ohnehin nicht, da im Grundsatz bekannt ist, dass CPUs auch nicht fehlerfrei arbeiten. In der Vergangenheit gab es immer wieder Berichte über spektakuläre Bugs in den Architekturen, darüber hinaus kann es aber schlicht auch zu fehlerhaften Berechnungen kommen, wenn sich eine Schaltung aufgrund von ungünstigen Umweltbedingungen zufällig etwas anders verhält. Ein gewisser Basis-Satz an falschen Berechnungen wird daher einkalkuliert und in besonders kritischen Applikationen durch zusätzliche Prüfungen auch abgefangen.
Die nun entdeckten Probleme passten aber nicht in dieses Bild, da sie nicht relativ gleichmäßig verteilt vorkamen, wie aus einem Bericht von The Register hervorgeht. Für Rätselraten sorgt die Tatsache, dass es häufiger zu falschen Ergebnissen kommt, als aufgrund der Hochrechnungen zu erwarten wäre - und die Bugs trotzdem höchst sporadisch, teils erst lange nach der Installation und nicht in bestimmten Baugruppen, sondern eher in individuellen Cores vorkommen.
Die Google-Entwickler, die nach den Ursachen des Problems forschten, fanden schließlich bei ihren Kollegen von Facebook ganz ähnliche Erfahrungen. Letztlich kam man zu dem Schluss, dass es sich um Bugs handelt, die aus den immer kleiner und komplexer werdenden Designs resultieren und die sich mit den herkömmlichen Prüfungen im Fertigungsprozess gar nicht mehr entdecken lassen.
Das macht es letztlich schwierig, Gegenmaßnahmen zu entwickeln. Und solche Fehler in den Berechnungen können gravierende Probleme verursachen - nicht einfach nur, wenn Daten ausgewertet werden müssen. Wenn sie beispielsweise während der Verschlüsselung auftreten, können Informationen unwiederbringlich verloren gehen. Daher wollen die Unternehmen nun weitergehende Forschung in das Problemfeld stecken.
Mittlerweile weiß man, das es an den extrem kleinen Designs liegt, die extrem anfällig für Kriechströme sind und aufgrund der extrem kleinen Bauweise macht die Thermische Materialausdehnung ein Problem, so daß es zum Teil zu temporärer Unterbrechung gewisser Leiterbahnen kommen kann usw.
Alles Probleme die schon lange klar sind und die bei kleiner werdenden Strukturgrößen absehbar waren, aber von denen man dachte, man würde sie nicht bekommen.
Lustigerweise hat man ebenso herausgefunden, dass diese Probleme wieder seltener auftreten, sobald man die Temperaturen auf einem möglichst gleichbleibenden Level halten kann, schnelle Temp Anstiege und Schwankungen hingehen vergrößern das Problem wieder.