Som en del av dagens International Supercomputing 2021 (ISC) tillkännagivanden visar Intel att de kommer att lansera en version av sin kommande Sapphire Rapids (SPR) Xeon Scalable-processor med högbandsminne (HBM). Den här versionen av SPR-HBM kommer senare under 2022, efter huvudlanseringen av Sapphire Rapids, och Intel har uttalat att den kommer att vara en del av dess allmänna tillgänglighetserbjudande för alla, snarare än en leverantörsspecifik implementering.
Att nå en minnesbandbreddsgräns
Eftersom antalet kärnor har ökat i serverns processorutrymme, måste konstruktörerna av dessa processorer se till att det finns tillräckligt med data för kärnorna för att möjliggöra toppprestanda. Detta innebär att man utvecklar stora snabba cacher per kärna så att det finns tillräckligt med data i närheten med hög hastighet, det finns högbandbreddsanslutningar inuti processorn för att överföra data runt, och det finns tillräckligt med huvudminnesbandbredd från datalagren utanför processorn.
Vårt Ice Lake Xeon Review-system med 32 DDR4-3200-platser
Här på AnandTech har vi frågat processorleverantörer om den här sista punkten, om huvudminnet, ett tag. Det finns bara så mycket bandbredd som kan uppnås genom att kontinuerligt lägga till DDR4 (och snart DDR5) minneskanaler. Nuvarande åtta-kanals DDR4-3200-minnesdesigner har till exempel ett teoretiskt maximum på 204,8 gigabyte per sekund, vilket bleknar i jämförelse med GPU:er som citerar 1000 gigabyte per sekund eller mer. GPU:er kan uppnå högre bandbredder eftersom de använder GDDR, lödd på kortet, vilket möjliggör snävare toleranser på bekostnad av en modulär design. Mycket få huvudprocessorer för servrar har någonsin haft huvudminnet integrerat på en sådan nivå.
Intel Xeon Phi ‘KNL’ med 8 MCDRAM-kuddar 2015
En av de processorer som tidigare byggdes med integrerat minne var Intels Xeon Phi, en produkt som lades ner för ett par år sedan. Grunden för Xeon Phi-designen var massor av vektorberäkningar, styrda av upp till 72 grundläggande kärnor, men ihopkopplad med 8-16 GB inbyggt ‘MCDRAM’, anslutet via 4-8 inbyggda chiplets i paketet. Detta tillät 400 gigabyte per sekund cache eller adresserbart minne, ihopkopplat med 384 GB huvudminne med 102 gigabyte per sekund. Men sedan Xeon Phi lades ner har ingen huvudserverprocessor (åtminstone för x86) som annonserats för allmänheten haft denna typ av konfiguration.
Nya Sapphire Rapids med minne för hög bandbredd
Tills nästa år, alltså. Intels nya Sapphire Rapids Xeon Scalable with High-Bandwidth Memory (SPR-HBM) kommer på marknaden. Istället för att gömma undan det för användning med en viss hyperscaler, har Intel sagt till AnandTech att de har åtagit sig att göra HBM-aktiverade Sapphire Rapids tillgängliga även för alla företagskunder och serverleverantörer. Dessa versioner kommer ut efter den huvudsakliga lanseringen av Sapphire Rapids och har några intressanta konfigurationer. Vi förstår att detta innebär att SPR-HBM kommer att vara tillgänglig i en socket-konfiguration.
Intel uppger att SPR-HBM kan användas med standard DDR5, vilket erbjuder en extra nivå i minnescache. HBM kan adresseras direkt eller lämnas som en automatisk cache vi förstår, vilket skulle vara väldigt likt hur Intels Xeon Phi-processorer kunde komma åt deras höga bandbreddsminne.
Alternativt kan SPR-HBM fungera utan någon DDR5 alls. Detta minskar det fysiska fotavtrycket för processorn, vilket möjliggör en tätare design i datortäta servrar som inte förlitar sig mycket på minneskapacitet (dessa kunder frågade redan efter fyrkanalsdesignoptimeringar ändå).
Mängden minne avslöjades inte, inte heller bandbredden eller tekniken. Åtminstone förväntar vi oss motsvarande upp till 8-Hi-stackar av HBM2e, upp till 16 GB vardera, med 1-4 stackar ombord som leder till 64 GB HBM. Vid en teoretisk topphastighet på 460 GB/s per stack skulle detta innebära 1840 GB/s bandbredd, även om vi kan föreställa oss något mer likt 1 TB/s för avkastning och kraft som ändå skulle ge en rejäl höjning. Beroende på efterfrågan kan Intel fylla i olika versioner av minnet i olika processoralternativ.
En av nyckelelementen att överväga här är att minnet i paketet kommer att ha en associerad energikostnad i paketet. Så för varje watt som HBM kräver inuti paketet, är det en watt mindre för beräkningsprestanda på CPU-kärnorna. Som sagt, serverprocessorer tänjer ofta inte på gränserna för toppfrekvenser, utan väljer istället en mer effektiv effekt-/frekvenspunkt och skalar kärnorna. Men HBM i detta avseende är en avvägning – om HBM skulle ta 10-20W per stack, skulle fyra stackar lätt tära på energibudgeten för processorn (och den effektbudgeten måste hanteras med ytterligare kontroller och strömleverans, vilket ökar komplexiteten och kostnad).
En sak som var förvirrande med Intels presentation, och jag frågade om detta men min fråga ignorerades under den virtuella genomgången, är att Intel fortsätter att lägga ut olika paketbilder av Sapphire Rapids. I informationsdäcket för detta tillkännagivande fanns det redan två varianter. Den ovan (som faktiskt ser ut som ett avlångt Xe-HP-paket som någon satt en logotyp på) och den här (som är mer fyrkantig och har olika skåror):
Det har förekommit några obekräftade läckor online som visar upp SPR i ett tredje paket, vilket gör det hela förvirrande.
Sapphire Rapids: Vad vi vet
Intel har retat Sapphire Rapids i nästan två år som efterträdare till sin Ice Lake Xeon Scalable-familj av processorer. Byggd på 10nm Enhanced SuperFin kommer SPR att vara Intels första processorer som använder DDR5-minne, har PCIe 5-anslutning och stöder CXL 1.1 för nästa generations anslutningar. Även på minnet har Intel uppgett att Sapphire Rapids kommer att stödja Crow Pass, nästa generations Intel Optane-minne.
För kärnteknologi bekräftade Intel (åter) att Sapphire Rapids kommer att använda Golden Cove-kärnor som en del av sin design. Golden Cove kommer att vara central för Intels Alder Lake-konsumentprocessor senare i år, men Intel var snabba med att påpeka att Sapphire Rapids kommer att erbjuda en “serveroptimerad” konfiguration av kärnan. Intel har gjort detta tidigare med både sina Skylake Xeon- och Ice Lake Xeon-processorer där servervarianten ofta har en annan L2/L3-cachestruktur än konsumentprocessorerna, samt en annan sammankoppling (ring vs mesh, mesh på servrar) .
Sapphire Rapids kommer att vara kärnprocessorn i hjärtat av Aurora-superdatorn vid Argonne National Labs, där två SPR-processorer kommer att paras ihop med sex Intel Ponte Vecchio-acceleratorer, som också kommer att vara nya på marknaden. Dagens tillkännagivande bekräftar att Aurora kommer att använda SPR-HBM-versionen av Sapphire Rapids.
Som en del av detta tillkännagivande idag, uppgav Intel också att Ponte Vecchio kommer att vara allmänt tillgänglig, i OAM och 4x täta formfaktorer:
Sapphire Rapids kommer också att vara de första Intel-processorerna som stöder Advanced Matrix Extensions (AMX), som vi förstår hjälper till att accelerera matristunga arbetsflöden som maskininlärning samtidigt som de har BFloat16-stöd. Detta kommer att kopplas ihop med uppdateringar av Intels DL Boost-programvara och OneAPI-stöd. Eftersom Intel-processorer fortfarande är mycket populära för maskininlärning, särskilt utbildning, vill Intel dra nytta av eventuell framtida tillväxt på denna marknad med Sapphire Rapids. SPR kommer också att uppdateras med Intels senaste hårdvarubaserade säkerhet.
Det är mycket förväntat att Sapphire Rapids också kommer att vara Intels första multidator-Xeon där kisel är designat för att integreras (vi räknar inte Cascade Lake-AP Hybrids), och det finns obekräftade läckor som tyder på att så är fallet, dock ingenting som Intel ännu har verifierat.
Superdatorn Aurora förväntas levereras i slutet av 2021 och förväntas inte bara vara den första officiella utplaceringen av Sapphire Rapids, utan även SPR-HBM. Vi förväntar oss en fullständig lansering av plattformen någon gång under första halvåret 2022, med allmän tillgänglighet strax efter. Den exakta lanseringen av SPR-HBM utöver HPC-arbetsbelastningen är okänd, men med tanke på dessa tidsramar verkar Q4 2022 ganska rimligt beroende på hur aggressiv Intel vill attackera lanseringen i ljuset av eventuell konkurrens från andra x86-leverantörer eller Arm-leverantörer. Även när SPR-HBM erbjuds till alla, kan Intel besluta sig för att prioritera viktiga HPC-kunder framför allmän tillgänglighet.
