tredje generationen Xeon skalbar för 4P / 8P-servrar

Vi har känt till Intels Cooper Lake-plattform i ett antal kvartal. Vad som ursprungligen planerades, så vitt vi förstår, som en anpassad kiselvariant av Cascade Lake för sina högt profilerade kunder, tillverkades den senare och syftade till att införas i en fördröjning i Intels färdplan orsakad av utvecklingen av 10 nm för Xeon. För att vara en fullständig uppdatering av produktstacken, förra kvartalet, förklarade Intel att dess Cooper Lake-plattform skulle hamna enbart i händerna på sina prioriterade kunder, bara som en fyruttag eller högre plattform. Idag lanserar Intel Cooper Lake och bekräftar att Ice Lake kommer att komma ut senare i år, riktat mot 1P / 2P-marknaderna.
Räkna dina coopers: BFloat16 Support
Cooper Lake Xeon Scalable utses officiellt som Intels tredje generation av Xeon Scalable för högsockelräknarservrar. Ice Lake Xeon Scalable, när den lanseras senare i år, kommer också att kallas 3rd Generation of Xeon Scalable, förutom servrar med låg kärnantal.
För Cooper Lake har Intel gjort tre viktiga tillägg till plattformen. Först är tillägget av AVX512-baserade BF16-instruktioner, så att användare kan dra nytta av BF16-nummerformatet. Ett antal viktiga AI-arbetsbelastningar, vanligtvis utförda i FP32 eller FP16, kan nu utföras i BF16 för att få nästan samma genomströmning som FP16 för nästan samma intervall av FP32. Facebook gjorde en stor sak om BF16 i sin presentation förra året på Hot Chips, där den utgör en kritisk del av sin Zion-plattform. När presentationen gjordes fanns det ingen processor på marknaden som stödde BF16, vilket ledde till detta underhållande utbyte vid konferensen:
BF16 (bfloat16) är ett sätt att koda ett nummer i binär som försöker dra nytta av intervallet för ett 32-bitars nummer, men i ett 16-bitarsformat så att dubbla beräkningen kan packas i samma antal bitar. Det enkla bordet ser lite ut så här:
Representationer för datatyp | ||||||
Typ | Bits | Exponent | Fraktion | Precision | Räckvidd | Hastighet |
float32 | 32 | 8 | 23 | Hög | Hög | Långsam |
flyta16 | 16 | 5 | 10 | Låg | Låg | 2x snabbt |
bfloat16 | 16 | 8 | 7 | Lägre | Hög | 2x snabbt |
Genom att använda BF16-nummer snarare än FP32-nummer skulle det också betyda att minnesbandbreddskraven såväl som system-till-system-nätverkskrav kan halveras. På skalan av en Facebook, en Amazon eller en Tencent skulle detta tilltala dem. Vid tidpunkten för presentationen på Hot Chips förra året bekräftade Facebook att det redan hade kisel som arbetar med sina datamängder.
Fördubbling Socket-till-Socket-anslutningsbandbredd
Den andra uppgraderingen som Intel har gjort till Cooper Lake över Cascade Lake är i uttag-till-uttag-sammankoppling. Traditionellt har Intels Xeon-processorer litat på en form av QPI / UPI (Ultra Path Interconnect) för att ansluta flera processorer tillsammans för att fungera som ett system. I Cascade Lake Xeon Scalable hade processorerna i toppänden vardera tre UPI-länkar med 10,4 GT / s. För Cooper Lake har vi sex UPI-länkar som också körs med 10,4 GT / s, men dessa länkar har fortfarande bara tre styrenheter bakom sig så att varje processor bara kan ansluta till tre andra processorer, men bandbredden kan fördubblas.
Detta innebär att i Cooper Lake innefattar varje CPU-till-CPU-anslutning två UPI-länkar, var och en körs med 10,4 GT / s, totalt 20,8 GT / s. Eftersom antalet länkar fördubblas, snarare än en utveckling av standarden, finns det inga effektivitetsförbättringar utöver vad Intel har gjort för tillverkningsprocessen. Observera att dubbel bandbredd mellan socklarna fortfarande är bra, även om latens och effekt per bit fortfarande är densamma.
Intel använder fortfarande den dubbla svänghjulstopologin för sina åtta sockelkonstruktioner, vilket garanterar max två humle till vilken processor som helst i satsen. Åtta socklar är gränsen för ett limfritt nätverk – vi har redan sett företag som Microsoft bygga servrar med 32 socklar med ytterligare limlogik.
Minne och andra generationens Optane
Den tredje uppgraderingen för Cooper Lake är minnesstödet. Intel stöder nu DDR4-3200 med Cooper Xeon Platinum-delar, dock bara i ett 1 DIMM per kanal (1 DPC) -scenario. 2 DPC stöds, men endast vid DDR4-2933. Stöd för DDR4-3200 ger tekniskt en ökning från 23,46 GB / s per kanal till 25,60 GB / s, en ökning med 9,1%.
Basmodellerna för Cooper Lake kommer också att uppdateras för att stödja 1,125 TiB minne, upp från 1 TB. Detta möjliggör ett 12 DIMM-scenario där sex moduler är 64 GB och sex moduler är 128 GB. Ett av klagomålen om Cascade Xeons var att det i 1 TB-läge inte skulle möjliggöra en jämn kapacitet per minneskanal när den var fylld med minne, så Intel har rättat till denna situation. I det här scenariot betyder det att de sex 128 GB-modulerna också kan vara Optane. Varför Intel inte gick för hela 12 * 128 GB-scenariot får vi aldrig veta.
Processorer med högre minneskapacitet kommer att stödja 4,5 TB minne och listas som ‘HL’ -processorer.
Cooper Lake kommer också att stödja Intels andra generationens 200-serie Optane DC Persistent Memory, kodnamnet Barlow Pass. 200-serie Optane DCPMM kommer fortfarande att finnas i 128 GB, 256 GB och 512 GB moduler, samma som den första generationen, och kommer också att köras med samma DDR4-2666-minneshastighet. Intel hävdar att den här nya generationen Optane erbjuder 25% högre minnesbandbredd än den föregående generationen, vilket vi antar kommer till en ny generation Optane-kontroller för minne och mjukvaruoptimering på systemnivå.
Intel uppger att prestandahöjningen på 25% är när de jämför första generationens Optane DCPMM med andra generationens Optane DCPMM vid 15 W, båda fungerar på DDR4-2666. Observera att den första generationen kunde fungera i olika energilägen, från 12 W till 18 W. Vi frågade Intel om andra generationen var densamma, och de uppgav att 15 W är det maximala effektläget som erbjuds i den nya generationen.