News AMDs RYZEN- und EPYC-CPUs mit Zen 4 in 5 nm und mit über 25 % mehr IPC und 40 % mehr Gesamtleistung als Zen 3?

Redaktion · Feb 10, 2021

Nachdem Zen 3 nunmehr seit einiger Zeit auf dem Markt ist, fragt man sich natürlich nach AMDs CPU-Architektur der nächsten Generation für die Ryzen- und EPYC-CPUs, also Zen 4 trägt. Neueste Gerüchte besagen nun, dass es einen weiteren enormen IPC-Sprung und einen massiven Leistungszuwachs gegenüber den aktuellen Prozessoren geben wird. Das s neueste Gerücht zu […]

Hier den ganzen Artikel lesen

Javeran · Feb 10, 2021

Die Sprünge braucht es auch. Apple wird auch Jahr für Jahr grosse Sprünge mit den M1 Nachfolgern machen, da gilt es mithalten zu können. (Unglaublich aber wahr, dass man das tatsächlich so sehen kann)

BudSpencer · Feb 10, 2021

Apple M1 ist nur deswegen so gut, weil er halt eben in TSMC 5nm gefertigt wird.

Betabot · Feb 10, 2021

BudSpencer hat gesagt. :
Apple M1 ist nur deswegen so gut, weil er halt eben in TSMC 5nm gefertigt wird.

Die stärken des M1 liegen im 192kB+128kB L1 Cache und im 8-wide decoder.
Einen so breiten decoder werden weder AMD (4-wide) noch Intel (5-wide) hinkriegen. x86 hat einfach variable Instuctions Größen im Gegensatz zu ARM.
Der L1 Cache ist deswegen eigentlich die spannende Neuentwicklung. Ich bin mir sicher das sowohl bei Intel und bei AMD viele Leute die viel klüger sind als ich hart darüber nachdenken wie Apple einen so großen L1 Cache gebastelt hat ohne das die Zugriffszeiten drunter gelitten haben.

BudSpencer · Feb 10, 2021

Betabot hat gesagt. :
Die stärken des M1 liegen im 192kB+128kB L1 Cache und im 8-wide decoder.
Einen so breiten decoder werden weder AMD (4-wide) noch Intel (5-wide) hinkriegen. x86 hat einfach variable Instuctions Größen im Gegensatz zu ARM.
Der L1 Cache ist deswegen eigentlich die spannende Neuentwicklung. Ich bin mir sicher das sowohl bei Intel und bei AMD viele Leute die viel klüger sind als ich hart darüber nachdenken wie Apple einen so großen L1 Cache gebastelt hat ohne das die Zugriffszeiten drunter gelitten haben.

Ja, das stimme ich Dir teilweise zu. Danke für die Ausführung. Aber wie bekommt man wohl so einen großen Cache - z.B. Strukturverkleinerung

gerTHW84 · Feb 10, 2021

"Es wird erwartet, dass Zen 3+ in TSMCs N7-Prozess gefertigt wird, der aber dann 5 Schichten EUV verwenden wird."
In dem Falle wäre es der N6 und nicht der N7, also TSMCs dritte 7nm-Prozessgeneration.

Capsaicin · Feb 10, 2021

@Betabot Sehe ich auch so, dass der L1 einen Vorteil geben dürfte. Apple hat bestimmt noch ein paar andere Tricks angewandt, die vielleicht eher ungewöhnlich anmuten. Zum Beispiel hab ich was von bestimmten Hardware-Implementierungen für eine performante x86-Emulation gelesen. Die Frage ist aber auch, ob ein so großer L1 unter x86 genauso einen Vorteil verschafft.

gerTHW84 · Feb 10, 2021

Capsaicin hat gesagt. :
[...] Die Frage ist aber auch, ob ein so großer L1 unter x86 genauso einen Vorteil verschafft.

Das ist immer eine Frage der Gewichtung und Austarierung der Vor- und Nachteile. Beispielsweise Zen2's großer L3 hat durch die höhere Kapazität Vorteile, führt aber auch etwas höhere Latenzen ein und zieht grundsätzlich mehr. Neben einer Platztersparnis wurde der Cache in Renoir nicht ohne Grund auf ein Viertel verkleinert. Mit den weiteren Leistungssteigerungen hat man den Cache dann in Cezanne wieder vergößert, belässt ihn bei den APUs aber dennoch bei der Hälfte des Zen2/3-Chiplets. Und auch Intel werkelt regelmäßig am Cache als Bestandteil einer Leistungssteigerung rum.

Alder Lake (Golden Cove & Gracemont Kern-Architekturen) wird vermutlich min. das Cache-Layout von Willow Cove übernehmen. Wie es im Gesamtsetup bei den Hybrid Technology-CPU-Varianten aussehen wird, wird man abwarten müssen, da die bisherigen Atom's aktuell ohne L3 arbeiten. (Im Idealfall könnten die hier auch den L3 nutzen, im LowPerf/MaxEff-Mode könnte der L3 aber idealerweise dennoch stillgelegt werden.)

Capsaicin · Feb 10, 2021

gerTHW84 hat gesagt. :
Das ist immer eine Frage der Gewichtung und Austarierung der Vor- und Nachteile. Beispielsweise Zen2's großer L3 hat durch die höhere Kapazität Vorteile, führt aber auch etwas höhere Latenzen ein und zieht grundsätzlich mehr. Neben einer Platztersparnis wurde der Cache in Renoir nicht ohne Grund auf ein Viertel verkleinert. Mit den weiteren Leistungssteigerungen hat man den Cache dann in Cezanne wieder vergößert, belässt ihn bei den APUs aber dennoch bei der Hälfte des Zen2/3-Chiplets. Und auch Intel werkelt regelmäßig am Cache als Bestandteil einer Leistungssteigerung rum.

Anhang anzeigen 11061

Alder Lake (Golden Cove & Gracemont Kern-Architekturen) wird vermutlich min. das Cache-Layout von Willow Cove übernehmen. Wie es im Gesamtsetup bei den Hybrid Technology-CPU-Varianten aussehen wird, wird man abwarten müssen, da die bisherigen Atom's aktuell ohne L3 arbeiten. (Im Idealfall könnten die hier auch den L3 nutzen, im LowPerf/MaxEff-Mode könnte der L3 aber idealerweise dennoch stillgelegt werden.)

Ich wollte damit eigentlich sagen, dass ich es nicht als gegeben annehmen würde, dass größere Caches bei allen ISAs die gleiche Wirkung haben. Möglicherweise profitiert eine ARM-CPU davon mehr als eine x86-CPU. Wie deine Tabelle ja schön zeigt, sind die L2/L3-Caches ja durchaus etwas gewachsen bei Intel-CPUs (vor allem pro Kern), wohingegen der L1I nach wie vor 32KB groß ist (und nach wie vor 8-way).

gerTHW84 · Feb 10, 2021

Wie zu sehen ist, hat Intel in seinen aktuelleren Architekturen den L1-Data-Cache ebenfalls bereits vergrößert, konkret um +50 % und das bereits in 2018/19 (Sunny Cove ist effektiv bereits aus 2018). Ob man mit Alder Lake weitere Vergrößerungen zu sehen bekommen wird, wird man abwarten müssen, jedoch sind Größenänderungen längst nicht alles, was man am Cache/Speichersubsystem optimieren kann.
Mit Blick auf Zen2/3 ist der L3 bspw. voraussichtlich nur wegen Epyc und der Chiplet-Bauweise so groß geworden, denn andernfalls hätte man mit den bis zu acht Chiplets mit mehr Latenzen beim Speicherzugriff zu kämpfen. Die L1/L2-Größen sind unverändert geblieben (32/32 KiB und 512 KiB), dennoch hat AMD auch bei Zen3 weiter am Cache optimiert, zusätzlich zum unified L3, der nun alle acht Kerne abdeckt, dafür jedoch auch mit etwas höheren Latenzen auskommen muss.
Derart extrem große Caches, wie sie bspw. beim M1 zu sehen sind, sind voraussichtlich auf x86 nicht sinnvoll übertragbar, weil bspw. ein wesentlicher Unterschied ist, dass die bisherigen ARM-Kerne typischerweise darauf ausgelegt waren ohne einen L3 zu arbeiten und entsprechend müssen ihre anderen Caches zwangsweise etwas größer ausfallen. Beim M1 ging Apple mit den 12 MiB L2 für die vier großen Firestorm-Kerne und die 16 MiB shared L3 des gesammten SoCs jedoch in die Vollen. **)
Ähnliches sieht man auch bei Intel's Atom's. Beispielsweise die aktuellen Tremont-Kerne wurden auf 32/32 KiB L1 belassen/vergrößert (Goldmont Plus verwendete noch 24 KiB L1-Data), was dem Effizienzziel geschuldet ist. Der L2 dagegen kann bei Tremont je nach konkretem Verwendungszweck zwischen 1,5 - 4,5 MiB pro Modul ausfallen und ein Modul kann bis zu vier Kerne enthalten, d. h. es kann Designs mit 4,5 MiB L2 für einen einzelnen Kern geben oder auch bspw. Designs mit 1,5 MiB L2 für vier Kerne. Ein L3 ist für Atom's ebenfalls nicht vorgesehen. Mit dem umfangreichen Überarbeitungen, die die neue Generation Gracemont (Stand-alone und auch als Bestandteil von Adler Lake) erfahren soll, dürfte es interessant zu sehen sein, ob Intel hier nennenswert an die Cache-Struktur der neuen Atom's Hand anlegt, denn dem entgegen stehen die zu erreichenden Effizienzziele (aber vielleicht kann hier das 10nm Enhanced SuperFin etwas mehr Spielraum verschaffen?). Man darf gespannt sein.

*) Bspw. in (vergleichsweise) leistungsstarken CPUs für Base Stations (Atom P, Snow Ridge) verwendet Intel 4,5 MiB pro Vierermodul, so bspw. im 24-Kerner P5962B. Dagegen in der Embedded-Version 6425E (Atom X, Elkhart Lake) kombiniert Intel die vier Kerne mit nur 1,5 MiB L2, vewendet also die kleinstmögliche Kombination.

**) Apple hat beim M1 aus den Vollen geschöpft, was wahrscheinlich zum Teil dem verwendetem N5 von TSMC zuzuschreiben ist, denn die großén Caches kosten einiges an Effizienz, die jedoch durch den modernen Prozess vermutlich besser ausgeglichen werden konnten. Dagegen die topaktuellen SoCs der Konkurrenz, die ARMs Cortex-X1 für den schnellen Kern verwenden, sind auf 1024 bzw. gar 512 KiB L2 beschränkt (zzgl. 64+64 KiB L1) und verwenden für die CPU nur 4 MiB shared L3, was möglicherweise daran liegt, dass der Snapdragon 888 und Exynos 2100 nur Samsungs 5LPE verwenden, das eher mit TSMCs NextGen-7nm-Prozessen vergleichbar ist bzgl. Performance und Effizienz. Das ARM-Design sieht beim X1 grundsätzlich nicht mehr als maximal 1 MiB L2 vor, aber für den shared L3 hätte man bei diesen SoCs auch bis zu 8 MiB implementiert können, wovon jedoch beide Hersteller absahen. Möglicherweise hätte das zu sehr auf die Effizienz geschlagen?

***) Zudem mit Blick auf Performance und Effizienz ist bei architektonischen Lösungen auch die Frage ob die jeweiligen Hersteller, so bspw. Intel und AMD mit x86 ggf. patentrechtlichen Beschränkungen unterliegen, die es ihnen verwehren einige (mittlerweile allgemein bekannte) Bauweisen zu verwenden, die vielleicht noch von ARM als Patente gehalten werden?

Letzten Endes ist ARM zudem bzgl. Effizienz augenscheinlich noch längst nicht der Weisheit letzter Schluss, weil mittlerweile anscheinend noch einiges mehr geht.
Micro Magic, Inc. stellte Ende letzten Jahres den bis dahin schnellsten RISC-V-Kern vor. Mit 0,8 V soll ein einzelner Kern rund 11.000 CoreMark-Punkte erreichen bei 4,25 GHz und gerade mal 200 mW. Ein Raspberry Pi 3 B mit seinen vier Cortex-A53 erreicht bei 1,2 GHz gerade mal 13717 Punkte und zieht netzseitig rd. 4,7 W (2,0 W im Leerlauf). (Mit 1,1 V erreichte ein solcher Kern gar 5,0 GHz und 13.000 CoreMark Punkte. Micro Magic stellt die Erreichung von bis zu 110000 CoreMark Punkten pro Watt in Aussicht, jedoch muss man hier abwarten, wann die Entwicklung zu ersten, echten Produkten führen wird.)
Zur besseren Einordnung: Der EEMBC CoreMark ist ein im Embedded-Bereich genutzter Benchmark und bildet vorrangig einfache Integer-Operationen ab.

News AMDs RYZEN- und EPYC-CPUs mit Zen 4 in 5 nm und mit über 25 % mehr IPC und 40 % mehr Gesamtleistung als Zen 3?

Redaktion

Artikel-Butler

Javeran

Mitglied

BudSpencer

Mitglied

Betabot

Neuling

BudSpencer

Mitglied

gerTHW84

Veteran

Capsaicin

Veteran

gerTHW84

Veteran

Capsaicin

Veteran

gerTHW84

Veteran