▷ Intel: Sapphire Rapids med 64 GB HBM2e, Ponte Vecchio med 408 MB L2-cache ✅

Denna vecka har vi den årliga Superdatorer evenemang där alla stora High Performance Computing-spelare lägger sina kort på bordet när det kommer till hårdvara, installationer och designvinster. Som en del av evenemanget håller Intel en presentation om sina hårdvaruerbjudanden, som avslöjar ytterligare detaljer om nästa generations hårdvara som går in i Aurora Exascale superdator.

Aurora är ett kontrakt som Intel har haft under en tid – syftet var ursprungligen att ha ett 10nm Xeon Phi-baserat system, för vilket idén låg i malpåse när Xeon Phi skrotades, och har varit ett ständigt föränderligt landskap på grund av Intels hårdvaruerbjudanden. Det slutfördes för ett par år sedan att systemet nu skulle använda Intels Sapphire Rapids-processorer (de som kommer med High Bandwidth Memory) kombinerat med nya Ponte Vecchio Xe-HPC-baserade GPU-acceleratorer och ökat från flera hundra PetaFLOPs till en ExaFLOP på beräkna. Senast har Intels vd Pat Gelsinger avslöjat att Ponte Vecchio-acceleratorn uppnår dubbel prestanda, över förväntningarna från de ursprungliga avslöjandena, och att Aurora kommer att vara en 2+EF-superdator när den byggs. Intel förväntar sig att leverera den första satsen hårdvara till Argonne National Laboratory i slutet av året, men detta kommer med $300 miljoner avskrivningar på Intels ekonomi för fjärde kvartalet. Intel förväntar sig att leverera resten av maskinen till och med 2022 samt öka produktionen av hårdvaran för vanlig användning genom Q1 för en bredare lansering under första halvåret.

Idag har vi ytterligare detaljer om hårdvaran.

På processorsidan vet vi att varje Aurora-enhet kommer att ha två av Intels nyaste Sapphire Rapids-processorer (SPR), med fyra beräkningsplattor, DDR5, PCIe 5.0, CXL 1.1 (inte CXL.mem), och kommer att använda EMIB flitigt. anslutning mellan plattorna. Aurora kommer också att använda SPR med inbyggt High Bandwidth Memory (SPR+HBM), och huvudupplysningen är att SPR+HBM kommer att erbjuda upp till 64 GB HBM2e med 8-Hi-stackar.

Baserat på representationerna har Intel för avsikt att använda fyra stackar på 16 GB HBM2e för totalt 64 GB. Intel har en relation med Micron, och Micron HBM2e fysiska dimensioner är i linje med representationerna som ges i Intels material (jämfört med att säga Samsung eller SKHynix). Micron erbjuder för närvarande två versioner av 16 GB HBM2E med ECC hårdvara: en med 2,8 Gbps per pin (358 GB/s per stack) och en med 3,2 Gbps per pin (410 GB/s per stack). Sammantaget tittar vi på en toppbandbredd på mellan 1.432 TB/s till 1.640 TB/s beroende på vilken version Intel använder. Versioner med HBM kommer att använda ytterligare fyra brickor för att ansluta varje HBM-stack till en av SPR:s chiplets.

Baserat på detta diagram från Intel, trots att Intel säger att SPR+HBM kommer att dela en socket med traditionell SPR, är det klart att det kommer att finnas versioner som inte är kompatibla. Detta kan vara ett fall där Aurora-versionerna av SPR+HBM är inställda specifikt för den maskinen.

På Ponte Vecchio (PVC)-sidan av ekvationen har Intel redan avslöjat att en enda server inuti Aurora kommer att ha sex PVC-acceleratorer per två SPR-processorer. Var och en av acceleratorerna kommer att anslutas i en allt-till-alla-topologi till varandra med det nya Xe-Link-protokollet inbyggt i varje PVC – Xe-Link stöder 8 i fullt anslutet läge, så att Aurora bara behöver sex av dem sparar mer ström för hårdvaran. Det har inte avslöjats hur de är anslutna till SPR-processorerna – Intel har uppgett att det kommer att finnas en enhetlig minnesarkitektur mellan CPU och GPU.

Insikten som Intel lagt till idag är att varje Ponte Vecchio dubbelstack-implementering (diagrammet som Intel har visat upprepade gånger är två stackar sida vid sida) kommer att innehålla totalt 64 MB L1-cache och 408 MB L2-cache, uppbackad av HBM2e.

408 MB L2-cache över två stackar betyder 204 MB per stack. Om vi jämför det med annan hårdvara:

NVIDIA A100 har 40 MB L2-cache

AMDs Navi 21 har 128 MB Infinity Cache (en effektiv L3)

AMD:s CNDA2 MI250X i Frontier har 8 MB L2 per ‘stack’, eller totalt 16 MB

Oavsett hur du delar upp det så satsar Intel hårt på att ha rätt hierarki av cache för PVC. Diagram över PVC visar också 4 HBM2e-chips per halva, vilket tyder på att varje PVC-design med dubbla stackar kan ha 128 GB HBM2e. Det är troligt att ingen av dem är “reserv” för avkastningsändamål, eftersom en chipletbaserad design gör det möjligt för Intel att bygga PVC genom att använda känd bra form från början.

Utöver detta får vi också en officiell siffra på skalan på hur många Ponte Vecchio GPU:er och Sapphire Rapids (+HBM)-processorer vi behöver för Aurora. Tillbaka i november 2019, när Aurora bara listades som en 1EF-superdator, slog jag några grova siffror baserat på att Intel sa att Aurora var 200 rack och gjorde välgrundade gissningar om layouten – jag fick 5 000 CPU:er och 15 000 GPU:er, med varje PVC som behövde ca. 66.6TF prestanda. Vid den tiden visade Intel redan upp 40 TF prestanda per kort på tidigt kisel. Intels officiella nummer för Aurora 2EF-maskinen är:

18 000+ processorer och 54 000+ GPU:er är mycket hårdvara. Men att dividera 2 Exaflops med 54 000 PVC-acceleratorer kommer bara till 37 TeraFlops per PVC som en övre gräns, och den siffran antar att noll prestanda kommer från CPU:erna.

För att lägga till i mixen: Intels vd Pat Gelsinger sa för bara ett par veckor sedan att PVC kommer in med dubbelt så hög prestanda som ursprungligen förväntats, vilket gör att Aurora kan vara en 2EF-maskin. Betyder det att det ursprungliga prestandamålet för PVC var ~20 TF för FP64? Apropos ingenting, AMD:s senaste meddelande om MI250X förra veckan visade upp ett dual-GPU-chip med 47,9 TF FP64-vektorprestanda, som flyttade till 95,7 TF i FP64-matrisprestanda. Slutresultatet här kan vara att AMD:s MI250X faktiskt har högre råprestanda än PVC, men AMD kräver 560 W för det kortet, medan Intels effektnummer inte har avslöjats. Vi skulle kunna göra lite servettmatte här också.

Frontier använder 560 W MI250X-kort och är klassad för 1,5 ExaFlops FP64 Vector vid 30 MW effekt. Detta innebär att Frontier behöver 31300 kort (1,5 EF / 49,7 TF) för att uppfylla prestandamålen, och för varje 560 W MI250X-kort har Frontier tilldelat 958 watt effekt (30 MW / 31300 kort). Detta är en overhead på 71 % för varje kort (vilket innebär kylning, lagringssystem, annan beräkning/hantering etc).

Aurora använder PVC med en okänd effekt, är klassad för 2 ExaFlops av FP64 Vector vid 60 MW effekt. Vi vet att PVC har 54 000+ kort för att uppfylla prestandamålen, vilket innebär att systemet har allokerat 1053 W (det är 60 MW / 54 000) per kort för att inkludera PVC-acceleratorn och andra omkostnader som krävs. Om vi skulle anta (ett stort antagande jag vet) att Frontier och Aurora har liknande omkostnader, så tittar vi på 615 W per PVC.

Detta skulle sluta med PVC på 615 W för 37 TF, mot MI250X vid 560 W för 47,9 TF.

Denna råa diskussion misslyckas med att diskutera specifika funktioner som varje kort har för sitt användningsfall.

Beräkna GPU-acceleratorjämförelse Bekräftade nummer
AnandTech	Intel	AMD	NVIDIA
Produkt	Ponte Vecchio	MI250X	A100 80GB
Arkitektur	Xe-HPC	CDNA2	Ampere
Transistorer	100 f.Kr	58,2 B	54,2 B
Kakel (inkl HBM)	47	10	6 + 1 reserv
Beräkna enheter	128	2 x 110	108
Matriskärnor	128	2 x 440	432
INT8 Tensor	?	383 TOPP	624 TOPP
FP16-matris	?	383 TOPP	312 TOPP
FP64 vektor	?	47,9 TFLOPS	9,5 TFLOPS
FP64-matris	?	95,7 TFLOPs	19,5 TFLOPS
L2 / L3	2 x 204 MB	2 x 8 MB	40 MB
VRAM Kapacitet	128 GB (?)	128 GB	80 GB
VRAM typ	8 x HBM2e	8 x HBM2e	5 x HBM2e
VRAM-bredd	?	8192-bitar	5120-bitar
VRAM-bandbredd	?	3,2 TB/s	2,0 TB/s
Chip-to-Chip Total BW	8	8 x 100 GB/s	12 x 50 GB/s
CPU-koherens	Ja	Med IF	Med NVLink 3
Tillverkning	Intel 7 TSMC N7 TSMC N5	TSMC N6	TSMC N7
Formfaktorer	OAM	OAM (560 W)	SXM4 (400W*) PCIe (300W)
Utgivningsdatum	2022	11/2021	11/2020
*Vissa anpassade distributioner går upp till 600W

Intel avslöjade också att de kommer att samarbeta med SiPearl för att distribuera PVC-hårdvara i det europeiska HPC-arbetet. SiPearl bygger för närvarande en armbaserad CPU som heter Rhea byggd på TSMC N7.

Framåt släppte Intel också en mini-färdplan. Inget förvånande här – Intel har planer för design bortom Ponte Vecchio, och att framtida Xeon Scalable-processorer också kommer att ha alternativ aktiverade med HBM.

Relaterad läsning

Intel: Sapphire Rapids med 64 GB HBM2e, Ponte Vecchio med 408 MB L2-cache

Relaterad läsning

Rekommenderad: