Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Intel HPC-uppdateringar för ISC 2023: Aurora nästan klar, fler Falcon Shores och framtiden för XPU:er

Med den årliga ISC High Performance supercomputing-konferensen som startar denna vecka är Intel en av flera leverantörer som gör tillkännagivanden tidsinställda med showen. Eftersom kronjuvelerna i företagets HPC-produktportfölj har lanserats under de senaste månaderna, har företaget inga större nya kiselmeddelanden att göra vid sidan av årets show – och tyvärr är Aurora inte igång ännu för att ta ett försök på topp 500-listan. Så, efter ett tumultartat år hittills som har sett betydande förändringar i framför allt Intels GPU-färdplan, använder företaget ISC för att komponera sig själv och använda bakgrunden av showen för att lägga ut en ny färdplan för HPC-kunder.

Framför allt använder Intel denna möjlighet för att bättre förklara några av de beslut om hårdvaruutveckling som företaget har fattat i år. Det inkluderar Intels pivot på Falcon Shores, som förvandlar den från XPU till en ren GPU-design, samt några fler detaljer på hög nivå om vad som så småningom kommer att bli Intels nästa HPC-klass GPU. Även om Intel helt klart skulle vara mycket glad över att fortsätta sälja processorer, har företaget (och fortsätter att) anpassa sig till en diversifierad marknad där deras högpresterande kunder behöver mer än bara processorer.

CPU-färdplan: Emerald Rapids och Granite Rapids Xeons in the Works

Som nämnts tidigare tillkännager inte Intel något nytt kisel idag över någon del av deras HPC-portfölj. Så Intels senaste HPC-färdplan är i huvudsak en komprimerad version av deras senaste datacenter-färdplan, som först lades ut för investerare i slutet av mars. HPC är trots allt en delmängd av datacentermarknaden, så HPC-färdplanen speglar detta.

Jag kommer inte att gå in på Intels CPU-färdplan för mycket här, eftersom vi bara täckte det för ett par månader sedan, men företaget upprepar återigen den snabba körning som de har för avsikt att göra genom sina Xeon-produkter under de kommande 18 månaderna. Sapphire Rapids är bara några månader kvar i leveransen, men Intel har för avsikt att ha sin efterträdare på samma plattform, Emerald Rapids, klar för leverans under fjärde kvartalet. Samtidigt kommer Granite Rapids, Intels första P-Core Xeon på Intel 3-processen, att lanseras med sin nya plattform 2024. Granite kommer också att vara Intels första produkt som stöder MCR DIMM-minne med högre bandbredd, vilket på liknande sätt demonstrerades redan i mars.

Särskilt här, trots HPC-publiken i ISC, har Intel fortfarande inte tillkännagett en efterträdare till den nuvarande generationens HBM-utrustade Sapphire Rapids Xeon med HBM – som företaget märker som Xeon Max-serien. Intel är ganska stolta över delen – och påpekar att det är den enda x86-processorn med HBM när de får chansen – och det är en central del av Aurora superdator. Vi hade förväntat oss att dess efterträdare skulle falla på plats med Falcon Shores redan när det var en XPU, men sedan Falcon gick över till att vara en GPU, har det inte funnits några ytterligare tecken på var en annan HBM Xeon kommer att landa på Intels färdplan.

Under tiden är Intel ivriga att visa för ISC-publiken prestandafördelarna med att ha så mycket minne med hög bandbredd på paketet med CPU-kärnorna – och speciellt innan AMD lanserar sina EPYC Genoa-X-processorer med deras superstora, 1GB+ L3-cacher. För detta ändamål har Intel publicerat flera nya riktmärken som jämför Xeon Max Series-processorer med EPYC 7000- och 9000-seriekretsar, som jag inte kommer in på här, eftersom de är riktmärken för leverantörer, men du kan hitta i galleriet nedan.

GPU-färdplan idag: Ponte Vecchio skickas nu, ytterligare SKU:er att lanseras under de kommande månaderna

GPU-motsvarigheten till Sapphire Rapids med HBM för HPC-publiken är Intels Data Center GPU Max-serie, även känd som Ponte Vecchio. Det massivt kaklade chippet är fortfarande olikt någon annan GPU på marknaden, och Intels IFS-gjuteriarm är ganska stolta över att påpeka för potentiella kunder att de på ett tillförlitligt sätt kan sätta ihop ett av de mest avancerade chipsen på marknaden, med nästan fyra dussin chiplets till en perfekt plats för att få ihop det hela.

Ponte Vecchio har haft en lång och utmattande utvecklingscykel för både Intel och dess kunder, så de tar ett litet segervarv på ISC för att fira den prestationen. Naturligtvis är Ponte Vecchio bara början på Intels HPC GPU-satsningar, och inte slutet. Så de håller fortfarande på att bygga upp OneAPI-mjukvaran och verktygsekosystemet för att stödja hårdvaran – samtidigt som de är medvetna om det faktum att de behöver ett starkt mjukvaruekosystem för att matcha rivalen NVIDIA, och för att dra nytta av AMD:s nuvarande brister.

Trots att Intel är nästan en generation försenad har Intel överraskande nog några riktmärken som jämför Ponte Vecchio med NVIDIAs nya Hopper-arkitekturbaserade H100-acceleratorer. Med det sagt är dessa för Intels toppklassiga OAM-baserade moduler mot H100 PCIe-kort; så körsbärsplockning åsido, det återstår att se hur bra saker och ting skulle se ut med en mer hårdvarujämförelse mellan äpplen och äpplen.

På tal om OAM-moduler använder Intel programmet för att tillkännage en ny 8-vägs Universal Baseboard (UBB) för Ponte Vecchio. Genom att ansluta sig till Intels befintliga 4-vägs UBB kommer x8 UBB att tillåta 8 Data Center Max GPU-moduler att placeras på ett enda serverkort, liknande vad NVIDIA gör med sina HGX-bärarkort. Om Intel ska gå tå till tå med NVIDIA och ta del av HPC GPU-marknaden, så är detta ytterligare ett område där de kommer att behöva matcha NVIDIAs hårdvaruerbjudanden. Än så länge är Supermicro och Inspur registrerade för att distribuera servrar med den nya x8 UBB, och om det går som de vill borde dessa inte vara Intels enda kunder.

Tillsammans med UBB-meddelandet tillhandahåller Intel också för första gången en detaljerad, månad för månad färdplan för Data Center Max GPU-produkttillgänglighet. Nu när Intel nästan har tillfredsställt sin Aurora-order har de första delarna varit vagt tillgängliga för utvalda kunder, men nu får vi se var saker och ting står lite mer detaljerat. Enligt den färdplanen borde OEM-tillverkare vara redo att börja leverera 4-vägs GPU-system i juni, medan 8-vägssystem kommer att vara en månad efter det i juli. Samtidigt kommer OEM-system som använder PCIe-versionen av Ponte Vecchio, Data Center GPU Max 1100, att finnas tillgängliga i juli. Slutligen kommer en avstämd version av Ponte Vecchio för “olika marknader” (läs: Kina) att finnas tillgänglig under fjärde kvartalet i år. Detaljer om denna del är fortfarande tunna, men den kommer att ha minskad I/O-bandbredd för att möta USA:s exportkrav.

GPU Roadmap Tomorrow: Alla vägar leder till Falcon Shores

Ser man förbi den nuvarande versionen av Data Center GPU Max-serien och Ponte Vecchio, är nästa GPU i pipelinen för Intels HPC-kunder Falcon Shores. Som vi berättade i mars kommer Falcon Shores att ta på sig en väsentligt annorlunda roll i livet än vad Intel först tänkt sig, efter att Rialto Bridge, Ponte Vecchios direkta ättling, avbröts. Istället för att vara Intels första kombinerade CPU + GPU-produkt – en flexibel XPU som kan använda en blandning av CPU- och GPU-plattor – kommer Falcon nu att bli en ren GPU-produkt. Tyvärr plockar den också upp ett års försening i processen, vilket driver den till 2025, vilket betyder att Intels HPC GPU-sortiment är rent Ponte-baserad för de kommande åren.

Avstängningen av Rialto Bridge och de-XPUing av Falcon Shores skapade en hel del bestörtning inom media och HPC-gemenskapen, så Intel använder det här ögonblicket för att få ordning på sina meddelanden, både när det gäller varför de svängde på Falcon Shores, och precis vad det kommer att innebära.

Det långa och korta i historien där är att Intel har bestämt sig för att de misstimede marknaden för sin första XPU, och att Falcon Shores som XPU skulle ha slutat vara för tidigt. I Intels kollektiva sinne, eftersom dessa produkter erbjuder ett fast förhållande mellan CPU-kärnor och GPU-kärnor (med hänsyn till antalet använda brickor), är de bäst lämpade för arbetsbelastningar som nära matchar dessa hårdvarutilldelningar.

Och vilka arbetsbelastningar är det? Tja, det slutar med att bli 100B-transistorfrågan. Intel förväntade sig att marknaden skulle vara mer stabil än den faktiskt har varit – det vill säga, den har varit mer dynamisk än Intel förväntade sig – vilket Intel tror gör en XPU med sina fasta förhållanden svårare att matcha arbetsbelastningen och svårare att sälja till kunder. Som ett resultat har Intel backat på sina integrationsplaner, vilket leder till Falcon Shores med helt GPU.

Nu med det sagt, gör Intel klart att de inte avbryter idén om en XPU helt och hållet; bara att Falcon Shores 2024/2025 inte är rätt tidpunkt för det. Så, Intel bekräftar också att de kommer att utveckla en kakelbaserad XPU som en framtida, post-Falcon Shores-produkt (möjligen som Falcon Shores efterträdare?). Det finns inga ytterligare detaljer om den framtida XPU:n än så här, men för närvarande vill Intel fortfarande komma till CPU/GPU-integration när de anser att arbetsbelastningen och marknaden är redo. Detta innebär också att Intel i praktiken överlåter marknaden för blandade CPU-GPU-acceleratorer till AMD (och i mindre utsträckning, NVIDIA) under åtminstone några år till, så gör av det vad du vill med Intels officiella motivering för att fördröja sin egen XPU .

När det gäller Falcon Shores med helt GPU, delar Intel bara lite mer om designen och kapaciteten hos deras nästa generations PC GPU. Som du kan förvänta dig av en design som började som en kaklad produkt, förblir Falcon en chiplet-baserad design. Även om det är oklart exakt vilka typer av chiplets Intel kommer att använda (om de kommer att vara homogena GPU-block eller inte), kommer de att paras ihop med HBM3-minne och vad Intel kallar “I/O designad för att skala.” I ljuset av Intels beslut att fördröja XPU:er kommer det att vara så de levererar ett flexibelt CPU-till-GPU-förhållande för sina HPC-kunder på det beprövade sättet: lägg till så många GPU:er till ditt system som du behöver.

Falcon Shores kommer också att stödja Ethernet-switch som en standardfunktion, vilket kommer att vara en viktig komponent för att stödja den typ av mycket stora mesh som kunder bygger med sina superdatorer idag. Och eftersom dessa delar kommer att vara diskreta GPU:er kommer Intel att anamma CXL för att leverera ytterligare funktionalitet till systemdesigners och programmerare. Med tanke på timingen är CXL 3.0-funktionalitet ett säkert kort, med saker som P2P DMA och avancerad tygstöd som går hand i hand med vad HPC-marknaden har byggt mot.

Och med några års erfarenhet bakom sig vid den tidpunkten, förväntar sig Intel att kunna utnyttja OneAPI ännu hårdare. Speciellt som de kommer att behöva hjälp av mjukvara för att abstrahera CPU-GPU I/O-gapet som Falcon Shores XPU annars skulle kunna stänga i hårdvara.

Aurora-uppdatering: 10K+ blad levererade, ytterligare specifikationer avslöjade

Slutligen erbjuder Intel också en uppdatering av Aurora, deras Sapphire Rapids med HBM + Ponte Vecchio-baserad superdator för Argonne National Laboratory. En produkt av två fördröjda processorer, Aurora är i sig ett fördröjt system som Intel har arbetat för att komma ikapp med. När det gäller själva hårdvaran är ljuset i sikte i slutet av tunneln, eftersom Intel håller på att avsluta leveransen av Auroras datorblad.

Från och med idag har Intel levererat över 10 000 blad för Aurora, mycket nära den slutliga förväntade siffran för systemet med 10 624 noder. Tyvärr är levererade och installerade inte riktigt samma saker här; så även om Argonne har mycket av hårdvaran i handen, är Aurora inte redo att ta sig till topp500-listan över superdatorer, vilket gör att det AMD-baserade Frontier-systemet kommer att hålla topplatsen i ytterligare 6 månader.

På plussidan, med Auroras hårdvaruleveranser nästan klara, avslöjar Intel äntligen en mer detaljerad sammanfattning av Auroras hårdvaruspecifikationer. Detta inkluderar inte bara antalet noder och CPU:er och GPU:er inom dem, utan också de olika mängderna minne och lagring som är tillgängliga för superdatorn.

Med 2 CPU:er och 6 GPU:er i varje nod kommer den färdigmonterade Aurora att bestå av 21 248 Sapphire Rapids CPU:er och 63 744 Ponte Vecchio GPU:er, och som tidigare avslöjats förväntas systemets toppprestanda vara över 2 ExaFLOPS av FP64 beräkna. Förutom 128 GB HBM på varje GPU och 64 GB HBM på varje CPU, finns det ytterligare 1 TB DDR5-minne installerat på varje nod. Toppbandbredden kommer från HBM för GPU:erna, på 208,9 PB/sekund, även om även den “långsamma” DDR5 fortfarande är sammanlagda 5,95 PB/sekund.

Och eftersom inget tillkännagivande om superdatorer skulle vara komplett utan något omnämnande av AI, utvecklar Intel och Argonne en generativ/storspråkig modell AI för användning på Aurora, som de nu efterlyser Generative AI for Science. Modellen kommer att utvecklas specifikt för vetenskapligt bruk, och Intel förväntar sig att den ska vara en 1 biljon parametermodell (vilket skulle placera den mellan GPT-3 och GPT-4 i storlek). Förväntningen är att de kommer att använda Aurora för både träning och slutledning av denna modell, men i fallet med den senare, skulle det förmodligen bara vara en bråkdel av systemet med tanke på de mycket lägre systemkraven för slutledning.

Vid det här laget ligger Aurora enligt schemat för en lansering i år. Förutom att börja använda produktionen, förväntar sig Intel att Aurora kommer att kunna placera sig på Top500-listan för sin novemberuppdatering, då den förväntas bli den kraftfullaste superdatorn i världen.