Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Intel Xeon Sapphire Rapids: How To Go Monolithic with Tiles

En av de kritiska bristerna som Intel har för sina konkurrenter på sin serverplattform är antalet kärnor – andra företag möjliggör fler kärnor på en av två vägar: mindre kärnor eller enskilda chiplets anslutna tillsammans. På sin arkitekturdag 2021 har Intel avslöjat funktioner om sin nästa generations Xeon Scalable-plattform, varav en är övergången till en kaklad arkitektur. Intel är inställd på att kombinera fyra brickor/chiplets genom sina snabba inbäddade bryggor, vilket leder till bättre CPU-skalbarhet vid högre antal kärnor. Som en del av avslöjandet utökade Intel också sin nya Advanced Matrix Extension (AMX)-teknik, CXL 1.1-stöd, DDR5, PCIe 5.0 och en Accelerator Interface Architecture som kan leda till anpassade Xeon-processorer i framtiden.

Vad är Sapphire Rapids?

Byggd på en Intel 7-process kommer Sapphire Rapids (SPR) att vara Intels nästa generations Xeon Scalable-serverprocessor för sin Eagle Stream-plattform. Med hjälp av sina senaste Golden Cove-processorkärnor som vi beskrev förra veckan kommer Sapphire Rapids att sammanföra ett antal nyckelteknologier för Intel: Acceleration Engines, inbyggt halvprecisionsstöd för FP16, DDR5, 300-serien Optane DC Persistent Memory, PCIe 5.0, CXL 1.1, en bredare och snabbare UPI, dess senaste bryggteknik (EMIB), nya QoS och telemetri, HBM, och arbetsbelastningsspecialiserad acceleration.

Sapphire Rapids kommer att lanseras 2022 och kommer att vara Intels första moderna CPU-produkt som drar fördel av en multi-die-arkitektur som syftar till att minimera latens och maximera bandbredden tack vare sin Embedded Multi-Die Interconnect Bridge-teknologi. Detta möjliggör fler högpresterande kärnor (Intel har inte sagt hur många ännu), med fokus på “mått som har betydelse för dess kundbas, såsom nodprestanda och datacenterprestanda”. Intel kallar SPR det “största språnget i DC-kapacitet på ett decennium”.

Rubrikfördelarna är lätta att skramla bort. PCIe 5.0 är en uppgradering jämfört med föregående generation Ice Lake PCIe 4.0, och vi går från sex 64-bitars minneskontroller av DDR4 till åtta 64-bitars minneskontroller av DDR5. Men de större förbättringarna finns i kärnorna, acceleratorerna och förpackningen.

Golden Cove: En högpresterande kärna med AMX och AIA

Genom att använda samma kärndesign på sin företagsplattform Sapphire Rapids och konsumentplattformen Alder Lake, finns det några av samma synergier som vi såg i början av 2000-talet när Intel gjorde samma sak. Vi täckte Golden Cove i detalj i vår Alder Lake-arkitektur djupdykning, men här är en snabb sammanfattning:

Den nya kärnan, enligt Intel, kommer över en IPC-ökning på +19% i enkeltråds arbetsbelastning jämfört med Cypress Cove, som var Intels backport för Ice Lake. Detta beror på några stora kärnförändringar, inklusive:

  • 16B → 32B längdavkodning
  • 4-wide → 6-wide avkodning
  • 5K → 12K grenmål
  • 2,25K → 4K μop cache
  • 5 → 6 bred tilldelning
  • 10 → 12 exekveringsportar
  • 352 → 512-post omordningsbuffert

Målet med vilken kärna som helst är att bearbeta fler saker snabbare, och den senaste generationen försöker göra det bättre än tidigare. Många av Intels förändringar är vettiga, och de som vill ha djupare detaljer uppmuntras att läsa vår djupdykning.

Det finns några stora skillnader mellan konsumentversionen av denna kärna i Alder Lake och serverversionen i Sapphire Rapids. Den mest uppenbara är att konsumentversionen inte har AVX-512, medan SPR kommer att ha den aktiverad. SPR har också en 2 MB privat L2-cache per kärna, medan konsumentmodellen har 1,25 MB. Utöver detta pratar vi om Advanced Matrix Extensions (AMX) och en ny Accelerator Interface Architecture (AIA).

Hittills har vi i Intels CPU-kärnor skalär drift (normal) och vektordrift (AVX, AVX2, AVX-512). Nästa steg upp från det är en dedikerad matrislösare, eller något som liknar en tensorkärna i en GPU. Detta är vad AMX gör, genom att lägga till en ny expanderbar registerfil med dedikerade AMX-instruktioner i form av TMUL-instruktioner.

AMX använder åtta 1024-bitars register för grundläggande dataoperatörer, och genom minnesreferenser kommer TMUL-instruktionerna att fungera på brickor av data som använder dessa brickregister. TMUL stöds av en dedikerad Engine Coprocessor inbyggd i kärnan (av vilken varje kärna har en), och grunden bakom AMX är att TMUL bara är en sådan co-processor. Intel har designat AMX för att vara bredare än bara detta – i händelse av att Intel går djupare med sin kisel-multi-die-strategi kan vi någon gång se anpassade acceleratorer aktiveras genom AMX.

Intel bekräftade att vi inte borde se några frekvensfall som är värre än AVX – det finns nya finkorniga kraftkontroller per kärna för när vektor- och matrisinstruktioner anropas.

Detta ger en ganska bra utgångspunkt i diskussionen om AIA, det nya acceleratorgränssnittet. Vanligtvis när du använder tilläggsacceleratorkort måste kommandon navigera mellan kärnan och användarutrymmet, konfigurera minne och styra eventuell virtualisering mellan flera värdar. Sättet som Intel beskriver sitt nya Acceleration Engine-gränssnitt liknar att prata med en PCIe-enhet som om den helt enkelt vore en accelerator ombord på CPU:n, även om den är ansluten via PCIe.

Till en början kommer Intel att ha två kapabla AIA-bitar av hårdvara.

Intel Quick Assist Technology (QAT) är en vi har sett tidigare, eftersom den visades inuti speciella varianter av Skylake Xeons chipset (som krävde en PCIe 3.0 x16-länk) samt ett tilläggs-PCIe-kort – den här versionen kommer att stödja upp till 400 Gb/s symmetrisk kryptografi, eller upp till 160 Gb/s komprimering plus 160 Gb/s dekompression samtidigt, dubbelt så mycket som tidigare version.

Den andra är Intels Data Streaming Accelerator (DSA). Intel har haft dokumentation om DSA på webben sedan 2019, med angivande av att det är en högpresterande datakopierings- och transformationsaccelerator för att strömma data från lagring och minne eller till andra delar av systemet genom en DMA-ommappningshårdvaruenhet/IOMMU. DSA har varit en förfrågan från specifika hyperscalerkunder, som funderar på att distribuera den inom sin egen interna molninfrastruktur, och Intel vill gärna påpeka att vissa kunder kommer att använda DSA, vissa kommer att använda Intels nya Infrastructure Processing Unit, medan vissa kommer att använda båda, beroende på vilken nivå av integration eller abstraktion de är intresserade av. Intel berättade för oss att DSA är en uppgradering över Crystal Beach DMA-motorn som fanns på Purley (SKL+CLX)-plattformarna.

Utöver allt detta stöder Sapphire Rapids även AVX512_FP16-instruktioner för halvprecision, mestadels för AI-arbetsbelastningar som en del av sin DLBoost-strategi (Intel var ganska tyst på DLBoost under evenemanget). Dessa FP16-kommandon kan också användas som en del av AMX, tillsammans med INT8- och BF16-stöd. Intel stöder nu även CLDEMOTE för cache-linjehantering.

Ett sidoord om CXL

Under presentationerna av Sapphire Rapids har Intel varit angelägen om att betona att det kommer att stödja CXL 1.1 vid lanseringen. CXL är en anslutningsstandard utformad för att hantera mycket mer än vad PCIe gör – förutom att helt enkelt fungera som en dataöverföring från värd till enhet, har CXL tre grenar att stödja, kända som IO, Cache och Memory. Enligt definitionen i CXL 1.0- och 1.1-standarderna utgör dessa tre grunden för ett nytt sätt att ansluta en värd till en enhet.

Naturligtvis var det vår förväntning att alla CXL 1.1-enheter skulle stödja alla tre av dessa standarder. Det var inte förrän Hot Chips, flera dagar senare, som vi fick veta att Sapphire Rapids bara stöder en del av CXL-standarden, specifikt CXL.io och CXL.cache, men CXL.memory skulle inte vara en del av SPR. Vi är inte säkra på i vilken utsträckning detta betyder att SPR inte är CXL 1.1-kompatibel, eller vad det betyder för CXL 1.1-enheter – utan CXL.mem, enligt diagrammet ovan, är allt Intel förlorar Typ-2-stöd. Kanske är detta mer en indikation på att marknaden kring CXL betjänas bättre av CXL 2.0, som utan tvekan kommer i en senare produkt.

På nästa sida tittar vi på Intels nya kaklade arkitektur för Sapphire Rapids.