Lunar Lake mit Core Ultra der 2. Generation vorgestellt - Neue Notebooks mit KI, schneller, sparsamer und mit einem V im Suffix

Intel hat heute im Rahmen der IFA 2024 in Berlin die neuen Core Ultra-Prozessoren für Notebooks vorgestellt, die auf der Lunar-Lake-Architektur basieren. Sie stellen eine bedeutende Weiterentwicklung ihrer CPU-Reihe dar, wobei der Fokus stark auf KI-Fähigkeiten, Energieeffizienz und einer integrierten System-on-Chip (SoC)-Architektur liegt.

Hier sind für alle, die den Live-Stream gerade nicht verfolgen, verfolgt haben oder noch einmal nachlesen möchten, die wichtigsten technischen Details als übersichtliche Zusammenfassung. Allerdings habe ich auch noch die neuesten Performance-Daten und am Schluss auch die beliebte Foliensammlung für Euch, es lohnt sich also.

Architektonische Innovationen

Lunar Lake führt ein vollständig integriertes SoC-Design ein, das den Bedarf an separatem Systemspeicher oder einem traditionellen Chipsatz eliminiert, was es zu einer hochkompakten und effizienten Lösung macht. Die Prozessoren verfügen dabei über eine hybride Architektur, die Performance-Kerne (P-Kerne) und Effizienz-Kerne (E-Kerne) kombiniert, um die Leistung pro Watt für verschiedene Arbeitslasten zu optimieren. Dieses Design nutzt Intels aktualisierten Thread Director, um Aufgaben dynamisch den entsprechenden Kernen zuzuweisen und so sowohl die Leistung als auch die Energieeffizienz zu verbessern.

Intels “Lion Cove”-Kerne, die als P-Kerne in den neuen Lunar Lake-Prozessoren integriert sind, bringen mehrere technologische Verbesserungen mit sich, die auf eine höhere Leistung und Effizienz abzielen. Die wichtigste Verbesserung ist eine 14%ige Steigerung der Instructions per Cycle (IPC) im Vergleich zur Vorgängergeneration Redwood Cove, die in Meteor Lake verwendet wurde. Diese Leistungssteigerung resultiert aus einer Reihe von Architekturänderungen, darunter eine erheblich vergrößerte Cache-Hierarchie und optimierte Vorhersagemechanismen.

Die “Lion Cove”-Kerne haben eine neu gestaltete Cache-Struktur eingeführt, die ein neues L0-Cache-Level umfasst, das zwischen dem bestehenden L1- und L2-Cache liegt. Dieser neue L0-Cache, der 192 KB groß ist, hilft, die durchschnittliche Latenzzeit für Speicherzugriffe zu verringern, was die Effizienz und Reaktionsfähigkeit der Kerne erhöht. Gleichzeitig wurde der L2-Cache auf 2,5 MB erhöht, was eine größere Datenmenge speichern kann und somit die Gesamtleistung verbessert.

Eine weitere wichtige Entwicklung ist die Verbesserung der Vorhersage- und Ausführungsarchitektur. Intel hat die Bandbreite der Anweisungen, die vom Cache zur L2-Cache-Ebene geleitet werden, verdreifacht und die Anweisungsabrufbandbreite von 64 auf 128 Bytes pro Sekunde verdoppelt. Darüber hinaus wurde die Bandbreite für das Dekodieren von Anweisungen erhöht, was zu einer schnelleren und effizienteren Verarbeitung führt. Diese Änderungen tragen zu einer besseren Leistung der “Lion Cove”-Kerne bei, insbesondere bei Single-Threaded-Anwendungen.

Ein bemerkenswerter Schritt war die Entfernung von Hyper-Threading (HT) bei den “Lion Cove”-Kernen. Diese Entscheidung wurde getroffen, um die Energieeffizienz zu verbessern und das Wärmemanagement zu vereinfachen, was besonders für den Einsatz in ultradünnen Notebooks von Vorteil ist. Ohne HT kann Intel eine einfachere und energieeffizientere Architektur bereitstellen, die dennoch hohe Leistung in Single-Threaded-Anwendungen bietet.

Zusätzlich wurde die Stromverwaltung durch den Einsatz von KI-basierten Controllern verfeinert, die sich dynamisch an die Betriebsbedingungen anpassen. Diese Anpassung ermöglicht es den Kernen, die Taktraten feiner zu steuern und damit eine genauere Energieverwaltung zu gewährleisten. Die Kombination dieser Verbesserungen führt zu einer signifikanten Erhöhung der Effizienz und Leistung der “Lion Cove”-Kerne in den Lunar Lake-Prozessoren und stärkt Intels Position im Wettbewerb mit anderen Herstellern wie Apple, AMD und Qualcomm im Markt für mobile Prozessoren.

Die “Skymont” E-Kerne in Intels Lunar Lake-Prozessoren stellen eine bedeutende Weiterentwicklung in der Architektur dar, die auf Effizienz und Leistung abzielt. Diese E-Kerne bieten eine erhebliche Steigerung der Anweisungen pro Zyklus (IPC) im Vergleich zu den vorherigen “Crestmont” E-Kernen, die in Meteor Lake verwendet wurden. Die “Skymont”-Kerne erreichen eine bis zu 68% höhere IPC-Leistung für Gleitkommaoperationen und eine 38% höhere Leistung für ganzzahlige Berechnungen. Dies macht sie besonders effizient für energieintensive Anwendungen, während sie gleichzeitig weniger Strom verbrauchen als ihre Vorgänger.

Die Verbesserungen der “Skymont”-E-Kerne resultieren aus mehreren architektonischen Änderungen. Zu den wichtigsten Neuerungen gehören eine erweiterte 9-fache Dekodiereinheit im Vergleich zur vorherigen 6-fachen Einheit und eine verbesserte Verzweigungsvorhersage, die die Effizienz der Befehlsausführung erheblich steigert. Zudem wurde die Breite der Integer-ALUs auf 80 erhöht, was die Parallelität und Verarbeitungsgeschwindigkeit weiter erhöht. Diese E-Kerne verfügen außerdem über eine erhöhte Bandbreite innerhalb des Caches und der Registerdateien, was die Gesamtleistung und die Effizienz der Datenverarbeitung verbessert.

Darüber hinaus teilen sich die vier “Skymont”-E-Kerne einen 4 MB großen L2-Cache, wobei die L2-Bandbreite verdoppelt wurde, um schnellere Datenzugriffe zu ermöglichen. Dies trägt dazu bei, den Stromverbrauch zu senken und gleichzeitig die Leistung bei Mehrkern-Anwendungen zu maximieren. Diese Kerne sind auch darauf ausgelegt, in einer “Compute Island” Konfiguration zu arbeiten, die eine effiziente Nutzung von Rechenressourcen ermöglicht und die Notwendigkeit für Hyper-Threading reduziert, was zu weiteren Energieeinsparungen führt.

Verbesserungen bei KI und Grafik

Ein herausragendes Merkmal von Lunar Lake ist der Fokus auf die gerade so gehypten KI-Fähigkeiten. Der neue NPU 4 (Neural Processing Unit) erreicht bis zu 48 TOPS (Trillionen Operationen pro Sekunde) bei INT8-Leistung und ist speziell für die Bewältigung von KI-Aufgaben wie denen, die für Microsoft Copilot+ erforderlich sind, ausgelegt.

Ein Hauptmerkmal der NPU 4 ist auch ihre verbesserte Fähigkeit, mit verschiedenen Präzisionen wie FP16 (Floating Point 16-bit) zu arbeiten, was zu genaueren und effizienteren Berechnungen führt. Zudem bietet die NPU 4 eine viermal höhere Vektorrechenleistung im Vergleich zu ihrem Vorgänger, der NPU 3, und verbessert die Leistung bei Transformationsmodellen und großen Sprachmodellen (LLMs) erheblich. Dies ermöglicht eine schnellere und energieeffizientere Verarbeitung komplexer neuronaler Netzwerke.

Die Architektur von NPU 4 enthält zudem auch eine optimierte Pipeline für Inferenzaufgaben, die komplexere und differenziertere neuronale Netzwerkmodelle mit höherer Geschwindigkeit und Genauigkeit unterstützt. Diese Verbesserungen, zusammen mit einer erhöhten IP-Bandbreite und fortschrittlichen Datenkonvertierungstechniken, machen die NPU 4 zu einer interessanten Lösung für anspruchsvolle KI-Workloads auf mobilen Plattformen.

Darüber hinaus hat Intel die Frequenz- und Spannungskurven der NPU durch den Einsatz von KI-Techniken optimiert, was zu einer zusätzlichen Senkung des Energieverbrauchs um bis zu 20 % führt. Dies ist besonders relevant, da moderne Anwendungen immer mehr Leistung bei gleichzeitig niedrigerem Stromverbrauch erfordern.

Die Xe2-GPU von Intel, die in den neuen Lunar Lake-Prozessoren integriert ist, stellt einen erheblichen Fortschritt in der Grafikleistung und Effizienz dar. Die Xe2-GPU basiert auf der “Battlemage”-Architektur und bietet gegenüber der vorherigen Generation eine um 1,5-mal höhere Leistung bei gleichem Energieverbrauch. Diese GPU enthält acht zweite Generation Xe-Kerne, 64 Vektoreinheiten, zwei Geometrie-Pipelines und acht Raytracing-Einheiten, was zu einer verbesserten Grafik- und KI-Leistung führt.

Sie unterstützt moderne Funktionen wie Raytracing und die XeSS-Technologie (Xe Super Sampling), die die Bildqualität bei geringerer Rechenlast verbessert. Die GPU bietet auch eine breite Unterstützung für Ausgabestandards, einschließlich HDMI 2.1, DisplayPort 2.1 und eDP 1.5, und kann bis zu drei 4K60-HDR-Displays oder ein 8K60-HDR-Display ansteuern.

Für KI-Anwendungen leistet die Xe2-GPU ebenfalls einen wichtigen Beitrag, indem sie zusätzliche Rechenleistung für maschinelles Lernen und andere KI-Workloads bereitstellt. In Kombination mit der NPU 4 (Neural Processing Unit) kann das System insgesamt bis zu 120 TOPS (Tera-Operationen pro Sekunde) erreichen, was es ideal für moderne AI-PCs und anspruchsvolle Anwendungen macht. Die GPU kann allein bis zu 67 TOPS verarbeiten, was eine deutliche Leistungssteigerung im Vergleich zur vorherigen Generation darstellt. Darüber hinaus bietet sie auch eine Hardwarebeschleunigung für Matrixoperationen, was die KI-Verarbeitungskapazitäten im Vergleich zu früheren Generationen erheblich steigert.

Die GPU bietet auch eine verbesserte Medienengine, die eine 8K60-HDR-Dekodierung und -Kodierung unterstützt, sowie den neuen H.266/VVC-Codec für die Dekodierung. Diese Verbesserungen machen die Xe2-GPU sicherlich zu einer leistungsfähigen Komponente für Multimedia-Anwendungen und intensives Gaming in dünnen und leichten Laptops.

Leistung und Effizienz

Die architektonischen Verbesserungen von Lunar Lake führen zu erheblichen Leistungs- und Effizienzgewinnen. Die E-Kerne verzeichnen eine Verbesserung der Anweisungen pro Zyklus (IPC) um 68 %, während die P-Kerne einen IPC-Zuwachs von 14 % im Vergleich zur Meteor-Lake-Architektur erreichen. Diese Effizienz wird durch einen neuen ‘Side Cache’ unterstützt, der den Datenfluss und den Energieverbrauch über das SoC reduziert.

Dieser Side Cache ist eine zusätzliche Caching-Schicht, die zwischen den traditionellen Level-1 (L1) und Level-2 (L2) Caches eingefügt wird, um die Effizienz der Speicherzugriffe zu verbessern. Er besteht aus einem 8 MB großen, gemeinsam genutzten Cache, der als eine Art L4-Cache fungiert, obwohl er technisch gesehen keiner ist, da er zwischen allen Verarbeitungseinheiten geteilt wird. Dieser Cache ist so konzipiert, dass er die Datenlokalität verbessert und die Datenbewegung zwischen den verschiedenen Recheneinheiten auf dem Chip reduziert, was zu einer Einsparung beim Energieverbrauch führt.

Die Einführung des Side Cache ermöglicht eine effizientere Nutzung des Cachespeichers, indem er sicherstellt, dass häufiger verwendete Daten schneller verfügbar sind, ohne dass sie durch die verschiedenen Ebenen des Cachesystems gehen müssen. Dies verbessert die Gesamtleistung, insbesondere bei Anwendungen, die eine hohe Speicherbandbreite erfordern.

Zusätzlich zu diesem Side Cache unterstützt Lunar Lake auch direkt auf dem Chip befindlichen LPDDR5X-Speicher, der ebenfalls zu einer Reduzierung des Energieverbrauchs beiträgt und die Gesamteffizienz des Systems weiter steigert. Diese Konfiguration reduziert nicht nur die Latenz, sondern senkt auch den Stromverbrauch um bis zu 40 % im Vergleich zu herkömmlichen Designs. Diese Änderungen in der Speicherarchitektur sind Teil von Intels Strategie, die Leistung und Energieeffizienz ihrer Prozessoren zu verbessern, um mit Konkurrenzprodukten wie Apples M-Serie und den Snapdragon-Chips von Qualcomm zu konkurrieren.

Performance und erste Benchmarks

Natürlich überlässt Intel nichts dem Zufall und bis auf eine Ausnahme waren alle Live-Benchmarks nur auf den passenden Intel-Systemen zu sehen, wobei es sich allesamt um Geräte handelt, die ab heute vorbestellt und nach der IFA auch gekauft werden können.

Doch es gibt natürlich auch in der unten angehängten Filensammlung noch mehr vergleichende Benchmarks in Folienform, die ich Euch im Rahmen der Präsentation natürlich nicht vorenthalten möchte:

IFA 2024 Press Deck

Herstellung und Prozessknoten

Intels Lunar Lake-Prozessoren werden unter Verwendung eines optimierten Herstellungsprozesses produziert, der auf der Zusammenarbeit mit TSMC, der weltweit größten Halbleiterfertigungsfirma, basiert. Die wichtigsten Komponenten, die als “Tiles” oder Kacheln bezeichnet werden, werden auf den modernsten Fertigungsprozessen von TSMC hergestellt, insbesondere auf dem N3B-Knoten für die Compute-Tile, die die CPU-Kerne, die GPU und die NPU enthält. Die Plattform-Controller-Tile wird auf TSMCs N6-Knoten gefertigt, was eine feinere Struktur und eine höhere Dichte der Schaltungen ermöglicht. Nur die Basiskachel, die als Verbindung zwischen den verschiedenen Kacheln dient, wird von Intel selbst auf ihrem 22FFL-Prozess gefertigt.

Der Grund für die Entscheidung, TSMCs Fertigungstechnologie zu nutzen, liegt in deren überlegener Technologie zur Zeit der Produktion. Intel entschied sich dafür, um die beste Mischung aus Leistung, Skalierbarkeit und Effizienz zu erreichen, die mit den eigenen Prozessknoten von Intel (Intel 4 oder Intel 3) nicht erreichbar war. Dies ermöglicht es den Lunar Lake-Prozessoren, eine höhere Energieeffizienz und eine verbesserte Gesamtleistung zu bieten, was besonders wichtig für mobile und stromsparende Anwendungen ist.

Zusätzlich zu den modernen Fertigungstechniken verwendet Intel auch seine Foveros-Packaging-Technologie, um die verschiedenen Kacheln des SoCs zu verbinden. Diese Technologie ermöglicht eine enge Integration der Komponenten, was zu einer verbesserten Leistung und reduzierten Latenzzeiten beiträgt. Die Verwendung einer kleineren Bump-Pitch (25 Mikrometer im Vergleich zu 36 Mikrometer bei Meteor Lake) ermöglicht eine dichtere Kommunikation zwischen den Einheiten und trägt zur Reduzierung des Stromverbrauchs bei.

Zielmarkt und Verfügbarkeit

Intel positioniert die Lunar-Lake-Prozessoren in erster Linie für den mobilen Markt, mit einem Schwerpunkt auf dünnen und leichten Geräten, die eine hohe Leistung und effiziente KI-Fähigkeiten erfordern. Die Prozessoren sollen im dritten Quartal 2024 auf den Markt kommen und sich voraussichtlich stark gegen die Angebote von Qualcomm und Apples M-Serie behaupten

Die Lunar-Lake-Prozessoren von Intel signalisieren einen starken Vorstoß in Richtung KI-zentriertes Computing und verbesserte Energieeffizienz, mit dem Ziel, erstklassige Leistung in einem kompakten, integrierten Paket zu liefern, das den Anforderungen des modernen mobilen Computings gerecht wird. Was der Endkunde davon in der Praxis merkt und für sich nutzen kann, werden dann passende Tests zeigen müssen.

Intel Core Ultra 200V Series - Product Brief

Die Informationen wurden von Intel im Rahmen eines Events unter NDA zur Verfügung gestellt. Einzige Bedingung war die Einhaltung des Veröffentlichungszeitraums. Die Kosten für Unterkunft und Verpflegung im Rahmen der Veranstaltung wurden von Intel getragen.