Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

NVIDIA Hopper GPU-arkitektur och H100 Accelerator tillkännagav: Arbetar smartare och hårdare

Beroende på din synvinkel har de senaste två åren antingen gått väldigt långsamt eller väldigt snabbt. Medan covid-pandemin aldrig verkade ta slut – och tekniskt sett fortfarande inte har gjort det – har de senaste två åren gått förbi för teknikindustrin, och särskilt för NVIIDA. Företaget lanserade sin Ampere GPU-arkitektur för bara två år sedan på GTC 2020, och efter att ha sålt mer av sina chips än någonsin tidigare är det nu 2022 dags att introducera nästa arkitektur. Så utan vidare, låt oss prata om Hopper-arkitekturen, som kommer att underbygga nästa generation av NVIDIA-server GPU:er.

Som har blivit en ritual nu för NVIDIA, använder företaget sitt Spring GTC-evenemang för att lansera sin nästa generations GPU-arkitektur. Ampere introducerades för bara två år sedan och har varit NVIDIAs mest framgångsrika GPU-serverarkitektur hittills, med över 10 miljarder USD i datacenterförsäljning bara det senaste året. Och ändå har NVIDIA lite tid att vila på sina lagrar, eftersom tillväxten och lönsamheten på marknaden för serveracceleratorer gör att det finns fler konkurrenter än någonsin som vill ta en del av NVIDIAs marknad för sig själva. För det ändamålet är NVIDIA redo (och ivriga) att använda sin största show för året för att prata om sin nästa generations arkitektur, såväl som de första produkterna som kommer att implementera den.

Hopper-arkitekturen tar med NVIDIA till nästa generations server-GPU:er. Uppkallad efter datavetenskapspionjären Grace Hopper, är Hopper-arkitekturen en mycket betydelsefull, men också mycket NVIDIA-uppdatering till företagets pågående familj av GPU-arkitekturer. Med företagets ansträngningar nu fast splittrade i server- och konsument-GPU-konfigurationer, gör Hopper att NVIDIA fördubblar allt företaget gör bra och bygger det sedan ännu större än någonsin tidigare.

Bortsett från hyperbolen, under de senaste åren har NVIDIA utvecklat en mycket solid spelbok för hur man tacklar server-GPU-industrin. På hårdvarusidan av saker som i huvudsak handlar om att korrekt identifiera nuvarande och framtida trender samt kundbehov i högpresterande acceleratorer, investera i den hårdvara som behövs för att hantera dessa arbetsbelastningar i höga hastigheter, och sedan optimera det hela . Och för NVIDIA kan det sista steget mycket väl vara det viktigaste: NVIDIA lägger ner mycket arbete på att ta sig ur arbetet.

Den mentaliteten är i sin tur fronten och centrum för NVIDIAs Hopper-arkitektur. Medan NVIDIA har gjort investeringar över hela linjen för att förbättra prestanda, från minnesbandbredd och I/O till maskininlärning och konfidentiell datoranvändning, är de största prestandahöjningarna med Hopper inom de områden där NVIDIA har kommit på hur man kan göra mindre arbete, vilket gör deras processorer desto snabbare.

Kickstarten för Hopper-generationen är H100, NVIDIAs flaggskeppsserveraccelerator. Baserat på GH100 GPU, är GH100 en traditionell NVIDIA-server-första lansering, där företaget börjar i den avancerade delen för att utveckla acceleratorkort för sina största och djupaste server- och företagskunder.

NVIDIA Accelerator Specifikation Jämförelse
H100 A100 (80 GB) V100
FP32 CUDA-kärnor 16896 6912 5120
Tensor kärnor 528 432 640
Boost klocka ~1,78 GHz
(Ej slutförd)
1,41 GHz 1,53 GHz
Minnes klocka 4,8 Gbps HBM3 3,2 Gbps HBM2e 1,75 Gbps HBM2
Minnesbussbredd 5120-bitar 5120-bitar 4096-bitar
minnesbandbredd 3TB/sek 2TB/sek 900 GB/sek
VRAM 80 GB 80 GB 16GB/32GB
FP32 vektor 60 TFLOPS 19,5 TFLOPS 15,7 TFLOPS
FP64 vektor 30 TFLOPS 9.7 TFLOPS
(1/2 FP32-hastighet)
7.8 TFLOPS
(1/2 FP32-hastighet)
INT8 Tensor 2000 TOPP 624 TOPPAR N/A
FP16 Tensor 1000 TFLOPS 312 TFLOPS 125 TFLOPS
TF32 Tensor 500 TFLOPS 156 TFLOPS N/A
FP64 Tensor 60 TFLOPS 19,5 TFLOPS N/A
Sammankoppling NVLink 4
18 länkar (900 GB/sek)
NVLink 3
12 länkar (600 GB/sek)
NVLink 2
6 länkar (300 GB/sek)
GPU GH100
(814 mm2)
GA100
(826 mm2)
GV100
(815 mm2)
Transistorräkning 80B 54,2B 21.1B
TDP 700W 400W 300W/350W
Tillverkningsprocess TSMC 4N TSMC 7N TSMC 12nm FFN
Gränssnitt SXM5 SXM4 SXM2/SXM3
Arkitektur Ficka Ampere Volta

Inför dagens keynote-presentation – som när den här artikeln går upp, fortfarande pågår – erbjöd NVIDIA en pressförhandsinformation om Hopper. På traditionellt NVIDIA-sätt har företaget varit mycket selektivt när det gäller detaljerna som släppts hittills (åtminstone läcker det ut före Jensen Huangs keynote). Så vi kan inte göra en helt äpple-till-äpple-jämförelse med A100 ännu, eftersom vi inte har de fullständiga specifikationerna. Men baserat på denna förbriefing kan vi verkligen reta ut några intressanta höjdpunkter om NVIDIAs arkitektur.

Först och främst bygger NVIDIA återigen stort för sin flaggskepps-GPU. GH100 GPU består av 80 miljarder transistorer och byggs på vad NVIDIA kallar en “anpassad” version av TSMC:s 4N-processnod, en uppdaterad version av TSMC:s N5-teknik som erbjuder bättre effekt-/prestandaegenskaper och en mycket blygsam förbättring av densitet . Så till och med bara två år efter Ampere gör NVIDIA ett helt nodhopp och lite till för GH100. För närvarande avslöjar inte NVIDIA formstorlekar, så vi har inga exakta siffror att dela. Men med tanke på de kända densitetsförbättringarna av TSMC:s processnoder bör GH100 vara nära 826 mm2 GA100 i storlek. Och det är det verkligen, på 814 mm2.

Liksom NVIDIAs tidigare serveracceleratorer levereras inte H100-kortet med en fullt aktiverad GPU. Så siffrorna NVIDIA tillhandahåller är baserade på H100 som implementerat, med hur många funktionella enheter (och minnesstackar) som är aktiverade.

När det gäller prestanda, citerar NVIDIA inga siffror för standard vektorprestanda i förväg. De citerar dock tensorprestanda, som beroende på formatet är antingen 3x eller 6x snabbare än A100-acceleratorn. Vi får se hur detta bryter ihop mellan klockhastighetsökningar och antingen större eller ytterligare tensorkärnor, men helt klart kastar NVIDIA återigen ännu mer hårdvara på tensorprestanda, en strategi som har fungerat bra för dem hittills.

Officiellt tycker NVIDIA om att citera siffror med sparsity aktiverad, men för vårt specifikationsblad använder jag de icke-glesa siffrorna för en mer äpple-till-äpple-jämförelse med tidigare NVIDIA-hårdvara, såväl som konkurrerande hårdvara. Med sparsity aktiverad kan TF32-prestanda och nedåt fördubblas.

Minnesbandbredden förbättras också avsevärt jämfört med föregående generation, med H100 som erbjuder 3TB/sekund bandbredd där. Ökningen av bandbredd den här gången kommer tack vare användningen av HBM3, där NVIDIA blev den första acceleratorleverantören att använda den senaste generationens version av högbandbreddsminnet. H100 kommer med 6 st 16GB minne, med 1 stack inaktiverad. Nettoresultatet är 80 GB HBM3 som körs med en datahastighet på 4,8 Gbps/stift och kopplas till en 5120-bitars minnesbuss.

NVIDIA kommer att erbjuda H100 i sina vanliga två formfaktorer: SXM-mezzanin för högpresterande servrar och ett PCIe-kort för mer vanliga servrar. Effektkraven för båda formfaktorerna har ökat betydligt jämfört med föregående generation. NVIDIA citerar en iögonfallande 700 Watt TDP för SXM-versionen av kortet, 75 % högre än den officiella 400W TDP för A100. På gott och ont, NVIDIA håller ingenting tillbaka här, även om den pågående nedgången i transistoreffektskalning inte gör NVIDIA någon tjänst heller.

Att kyla en så het GPU kommer att vara en intressant uppgift, men inte utöver nuvarande teknik. Vid dessa effektnivåer tittar vi nästan säkert på vätskekylning, något som SXM-formfaktorn är väl lämpad för. Ändå är det värt att notera att den rivaliserande OAM-formfaktorn – i huvudsak Open Compute Projects syn på SXM för användning i acceleratorer – är designad för att toppa på 700W. Så NVIDIA verkar närma sig de övre gränserna för vad även ett mezzanine-kort kan hantera, förutsatt att flera leverantörer inte tar till exotiska kylningsmetoder.

Samtidigt kommer H100 PCie-kortet att se sin TDP höjas till 350W, från 300W idag. Med tanke på att 300W är den traditionella gränsen för PCIe-kort kommer det att bli intressant att se hur NVIDIA och deras partners håller dessa kort coola. Annars, med bara hälften av SXM-kortets TDP, förväntar vi oss att PCIe-versionen ska klockas/konfigureras märkbart långsammare för att dämpa kortets strömförbrukning.

Hopper Tensor Cores: Nu med transformatormotorer

Vi går vidare till de stora arkitektoniska egenskaperna hos Hopper-arkitekturen, vi börjar med NVIDIAs Transformer Engines. Transformatormotorerna lever upp till sitt namn och är en ny, högspecialiserad typ av tensorkärna, som är designade för att ytterligare accelerera transformator ML-modeller.

I linje med NVIDIAs fokus på maskininlärning har företaget för Hopper-arkitekturen tagit en ny titt på sammansättningen av ML-marknaden och vilka arbetsbelastningar som är populära och/eller mest krävande på befintlig hårdvara. Vinnaren i detta avseende har blivit transformatorer, en typ av djupinlärningsmodell som har ökat i popularitet ganska snabbt på grund av deras användbarhet i naturlig språkbehandling och datorseende. De senaste framstegen inom transformatorteknik, såsom GPT-3 modell, tillsammans med efterfrågan från tjänsteoperatörer på bättre naturlig språkbehandling, har gjort transformatorer till det senaste stora genombrottet inom ML.

Men samtidigt försvårar processkraven för transformatorer utvecklingen av ännu bättre modeller. Kort sagt, bättre modeller kräver ett allt större antal parametrar, och med över 175 miljarder parametrar enbart för GPT-3 blir träningstiderna för transformatorer svårhanterliga, även på stora GPU-kluster.

För det ändamålet har NVIDIA utvecklat en variant av tensorkärnan specifikt för att påskynda transformatorträning och slutledning, som de har kallat Transformer Engine. NVIDIA har optimerat den här nya enheten genom att ta bort den till att bara bearbeta de dataformat med lägre precision som används av de flesta transformatorer (FP16), och sedan skala ner saker och ting ännu mer med introduktionen av ett FP8-format också. Målet med de nya enheterna är i korthet att använda den minsta precision som krävs vid varje steg för att träna transformatorer utan att förlora noggrannhet. Med andra ord att slippa göra mer arbete än nödvändigt.

Med det sagt, till skillnad från mer traditionella neurala nätverksmodeller som tränas med en fast precision genomgående, är NVIDIAs senaste hack för transformatorer att variera precisionen, eftersom FP8 inte kan användas genom hela en modell. Som ett resultat kan Hoppers transformatormotorer växla mellan FP16 och FP8-träning på lager för lager, med hjälp av NVIDIA-tillhandahållen heuristik som fungerar för att välja den lägsta precision som behövs. Nettovinsten är att varje lager som kan bearbetas vid FP8 kan bearbetas dubbelt så snabbt, eftersom transformatormotorerna kan packa och bearbeta FP8-data dubbelt så snabbt som FP16.

Kombinerat med det extra minnet på H100 och den snabbare NVLink 4 I/O, och NVIDIA hävdar att ett stort kluster av GPU:er kan träna en transformator upp till 9 gånger snabbare, vilket skulle få ner träningstiderna på dagens största modeller till en mer rimlig period tid och göra ännu större modeller mer praktiska att ta itu med.

Samtidigt kan Hopper också omedelbart konsumera sina egna FP8-tränade modeller för slutledningsanvändning. Detta är en viktig distinktion för Hopper, eftersom den tillåter kunder att på annat sätt hoppa över att konvertera och optimera en tränad transformatormodell ner till INT8. NVIDIA hävdar inte några specifika prestandafördelar med att hålla fast vid FP8 över INT8, men det betyder att utvecklare kan njuta av samma prestanda- och minnesanvändningsfördelar som att köra slutledning på en INT8-modell utan det tidigare krävda konverteringssteget.

Slutligen hävdar NVIDIA någonstans mellan en 16x och 30x ökning av transformatorns slutledningsprestanda på H100 jämfört med A100. Precis som deras träningspåståenden är detta ett H100-kluster kontra ett A100-kluster, så minnes- och I/O-förbättringar spelar också en roll här, men det understryker ändå att H100:s transformatormotorer inte bara är till för att påskynda träningen.

DPX-instruktioner: Dynamisk programmering för GPU:er

NVIDIAs andra stora smarta och lata förbättring för Hopper-arkitekturen kommer med tillstånd från området dynamisk programmering. För sin senaste generation av teknik lägger NVIDIA till stöd för programmeringsmodellen genom att lägga till en ny uppsättning instruktioner bara för dynamisk programmering. Företaget kallar dessa DPX-instruktioner.

Dynamisk programmering, i ett nötskal, är ett sätt att bryta ner komplexa problem i mindre, enklare problem på ett rekursivt sätt, och sedan lösa de mindre problemen först. Nyckelegenskapen med dynamisk programmering är att om några av dessa delproblem är identiska, så kan dessa redundanser identifieras och elimineras – vilket innebär att ett delproblem kan lösas en gång och dess resultat sparas för framtida användning inom det större problemet.

Allt detta är att säga att, precis som Sparsity och Transformer Engines, implementerar NVIDIA dynamisk programmering för att göra det möjligt för deras GPU:er att slippa göra mer arbete. Genom att eliminera de överflödiga delarna av arbetsbelastningar som kan delas upp enligt reglerna för dynamisk programmering, är det så mycket mindre arbete som NVIDIAs GPU:er behöver göra, och så mycket snabbare de kan producera resultat.

Även om till skillnad från Transformer Engines, att lägga till dynamiskt programmeringsstöd via DPX-instruktionerna handlar inte så mycket om att påskynda befintliga arbetsbelastningar på GPU:er som det möjliggör nya arbetsbelastningar på GPU:er. Hopper är den första NVIDIA-arkitekturen som stöder dynamisk programmering, så arbetsbelastningar som kan lösas med dynamisk programmering körs normalt på CPU:er och FPGA:er. I det avseendet är detta NVIDIA som hittar ytterligare en arbetsbelastning de kan stjäla från CPU:er och köra på en GPU istället.

Sammantaget hävdar NVIDIA en 7x förbättring av prestanda för dynamisk programmeringsalgoritm på en enda H100 jämfört med naiv exekvering på en A100.

När det gäller de verkliga konsekvenserna av DPX-instruktioner, citerar NVIDIA ruttplanering, datavetenskap, robotik och biologi som alla potentiella förmånstagare av den nya tekniken. Dessa fält använder redan flera välkända dynamiska programmeringsalgoritmer, såsom Smith-Waterman och Flyod-Warshall, som ger genetisk sekvensanpassning och hittar de kortaste avstånden mellan par av destinationer.

Sammantaget är dynamisk programmering ett av de mer nischade områdena bland högpresterande arbetsbelastningar. Men det är en som NVIDIA tror kan passa bra för GPU:er när rätt hårdvarustöd är tillgängligt.

Konfidentiell datoranvändning: Skyddar GPU-data från nyfikna ögon

NVIDIA:s andra stora satsning med Hopper-arkitekturen är på säkerhetsfronten när man flyttar bort från prestandafokuserade funktioner. Med expansionen av GPU-användning i molnmiljöer – och särskilt delade VM-miljöer – tar företaget ett nytt fokus på säkerhetsproblem som medför, och hur man säkrar delade system.

Slutresultatet av dessa ansträngningar är att Hopper introducerar hårdvarustöd för betrodda exekveringsmiljöer. Specifikt stöder Hopper skapandet av vad NVIDIA kallar en konfidentiell virtuell maskin, där all data i VM-miljön är säker och all data som kommer in i (och lämnar) miljön är krypterad.

NVIDIA gick inte över för många av de tekniska detaljerna som ligger till grund för deras nya säkerhetsfunktioner i vår förbriefing, men enligt företaget är det en produkt av en blandning av nya hårdvaru- och mjukvarufunktioner. Särskilt anmärkningsvärt är att datakryptering/dekryptering när man flyttar till och från GPU:n är tillräckligt snabb för att göras med PCIe-linjehastigheten (64GB/sek), vilket innebär att det inte blir någon avmattning när det gäller praktisk värd-till-GPU-bandbredd när man använder denna säkerhet funktion.

Denna pålitliga exekveringsmiljö är i sin tur designad för att motstå alla former av manipulering. Minnesinnehållet i själva GPU:n är säkrat av vad NVIDIA kallar en “hårdvarubrandvägg”, som förhindrar externa processer från att röra dem, och samma skydd utökas även till data under flygning i SM:erna. Den betrodda miljön sägs också vara säkrad mot att operativsystemet eller hypervisorn kommer åt innehållet i GPU:n ovanifrån, vilket begränsar åtkomsten till endast ägaren av den virtuella datorn. Vilket vill säga att även med fysisk åtkomst till GPU:n borde det inte vara möjligt att komma åt data i en säker VM på hopper.

I slutändan verkar NVIDIAs mål här vara att göra/hålla sina kunder bekväma med att använda GPU:er för att bearbeta känslig data genom att göra dem mycket hårdvara att bryta sig in i när de arbetar i ett säkert läge. Detta i sin tur är inte bara för att skydda traditionellt känslig data, såsom medicinsk data, utan också för att skydda den typ av högvärdiga AI-modeller som några av NVIDIAs kunder nu skapar. Med tanke på allt arbete som kan gå till att skapa och träna en modell, vill kunderna inte att deras modeller ska kopieras, vare sig det är i en delad molnmiljö eller att de dras ut från en fysiskt osäker edge-enhet.

Multi-Instance GPU v2: Nu med isolering

Som en förlängning av NVIDIAs säkerhetssatsningar med konfidentiell datoranvändning har företaget även utökat dessa skydd till sin Multi-Instance GPU-miljö (MIG). MIG-instanser kan nu isoleras helt, med I/O mellan instansen och värden helt virtualiserad och säkrad, vilket i huvudsak ger MIG-instanser samma säkerhetsfunktioner som H100 överlag. Sammantaget flyttar detta MIG närmare CPU-virtualiseringsmiljöer, där de olika virtuella datorerna antar att de inte litar på varandra och hålls isolerade.

NVLink 4: Utöka Chip I/O-bandbredden till 900 GB/sek

Med Hopper-arkitekturen kommer också en ny version av NVIDIAs NVLink-högbandsförbindelse för att koppla ihop GPU:er (och snart processorer) för bättre prestanda i arbetsbelastningar som kan skalas ut över flera GPU:er. NVIDIA har itererat på NVLink med varje generation av deras flaggskepps-GPU, och den här gången är inte annorlunda, med introduktionen av NVLink 4.

Medan vi väntar på ett fullständigt avslöjande av tekniska specifikationer från NVIDIA, har företaget bekräftat att NVLink-bandbredden per chip har ökats från 600 GB/sekund på A100 till 900 GB/sekund för H100. Observera att detta är summan av all uppströms och nedströms bandbredd över alla individuella länkar som NVLink stöder, så halvera dessa siffror för att få specifika sändnings-/mottagningshastigheter.

Jämförelse av NVLink-specifikationer
NVLink 4 NVLink 3 NVLink 2
Signaleringshastighet 100 Gbps 50 Gbps 25 Gbps
Banor/länk 2 4 8
Bandbredd/Riktning/Länk 25 GB/sek 25 GB/sek 25 GB/sek
Total bandbredd/länk 50 GB/sek 50 GB/sek 50 GB/sek
Länkar/chip 18
(GH100)
12
(GA100)
6
(GV100)
Bandbredd/chip 900 GB/sek 600 GB/sek 300 GB/sek

900 GB/sek representerar en 50 % ökning av I/O-bandbredden för H100. Vilket inte är en lika stor ökning som H100:s totala bearbetningsgenomströmning, utan en realistisk förbättring med tanke på den ständigt eskalerande komplexiteten i att implementera snabbare nätverkshastigheter.

Med tanke på att NVLink 3 redan kördes med en signaleringshastighet på 50 Gbit/sek, är det inte klart om den extra bandbredden är tack vare en ännu snabbare signaleringshastighet, eller om NVIDIA återigen har justerat antalet länkar som kommer från GPU:n. NVIDIA har tidigare ändrat NVLink-filkonfigurationen för A100, då de halverade körfältsbredden och fördubblade antalet körfält, allt samtidigt som signaleringshastigheten fördubblades. Att lägga till körfält utöver det innebär att man inte behöver ta reda på hur man kan förbättra signaleringshastigheten med ännu mer, men det innebär också en 50 % ökning av antalet stift som behövs för NVLink I/O.

På det sättet är det också värt att notera att NVIDIA lägger till PCIe 5.0-stöd med Hopper. Eftersom PCIe fortfarande används för värd-till-GPU-kommunikation (åtminstone tills Grace är redo), betyder det att NVIDIA har fördubblat sin CPU-GPU-bandbredd, vilket låter dem hålla H100 så mycket bättre matad. Även om det kommer att krävas en värdprocessor med PCIe 5.0-stöd för att använda PCIe 5.0, vilket inte är något AMD eller Intel tillhandahåller ännu. Förmodligen kommer någon att ha hårdvara redo och levererad när NVIDIA skickar H100 i Q3, särskilt eftersom NVIDIA är förtjust i homogenisering för sina DGX förbyggda servrar.

Slutligen, med lanseringen av H100/NVLink 4, använder NVIDIA också denna tid för att tillkännage en ny, extern NVLink-switch. Denna externa switch sträcker sig bortom NVIDIAs nuvarande inbyggda NVSwitch-funktionalitet, som används för att hjälpa till att bygga mer komplexa GPU-topologier inom en enda nod, och tillåter H100 GPU:er att direkt kommunicera med varandra över flera noder. I huvudsak är det en ersättning för att låta NVIDIA GPU:er gå genom Infiniband-nätverk för att kommunicera över noder.

Den externa NVLInk-switchen gör att upp till 256 GPU:er kan kopplas samman inom en enda domän, vilket fungerar till 32 8-vägs GPU-noder. Enligt NVIDIA erbjuder en enda 1U NVLink-switch 128 banor med NVLink via 32 Octal SFP (OSFP)-sändtagare. Den fullständiga switchen erbjuder i sin tur en total halveringsbandbredd på 70,4 TB/sekund.

Det är dock värt att notera att NVLink Switch inte är en grossistersättning för Infiniband – vilket NVIDIA naturligtvis också säljer genom sin nätverkshårdvaruavdelning. Infiniband-anslutningar mellan noder behövs fortfarande för andra typer av kommunikation (t.ex. CPU till CPU), så externa NVLink-nätverk är ett komplement till Infiniband, vilket gör att H100 GPU:er kan chatta sinsemellan direkt.

NVIDIA HGX rider igen: HGX för H100

Sist, men inte minst, har NVIDIA bekräftat att de uppdaterar sitt HGX baskortekosystem för H100 också. En stapelvara i NVIDIAs multi-GPU-designer sedan de först började använda SXM-formfaktorn för GPU:er, HGX-baskort är NVIDIA-producerade GPU-baskort för systembyggare att använda för att designa kompletta multi-GPU-system. HGX-korten tillhandahåller den fullständiga anslutnings- och monteringsmiljön för NVIDIAs SXM-formfaktor-GPU:er, och sedan kan leverantörer av flera leverantörer dirigera ström- och PCIe-data (bland annat) från sina moderkort till HGX-baskortet. För den nuvarande A100-generationen har NVIDIA sålt 4-vägs-, 8-vägs- och 16-vägsdesigner.

I förhållande till själva GPU:erna är HGX ganska ospännande. Men det är en viktig del av NVIDIAs ekosystem. Serverpartners kan hämta ett HGX-kort och GPU:er och sedan snabbt integrera det i en serverdesign, snarare än att behöva designa sin egen server från grunden. Vilket i fallet med H100 innebär att status quo (till stor del) kommer att råda, och att NVIDIAs serverpartners kommer att kunna montera system på samma sätt som tidigare.

Hopper H100 Acceleratorer: Leverans under tredje kvartalet 2022

När allt kommer omkring planerar NVIDIA att ha H100-utrustade system tillgängliga under tredje kvartalet i år. Detta kommer att inkludera NVIDIAs kompletta svit av självbyggda system, inklusive DGX- och DGX SuperPod-servrar, samt servrar från OEM-partner som använder HGX-baskort och PCIe-kort. Även om på ett typiskt sätt, tillkännager inte NVIDIA individuella H100-priser, med hänvisning till det faktum att de säljer denna hårdvara genom serverpartners. Vi kommer att ha lite mer insikt när NVIDIA tillkännager priserna på sina egna DGX-system, men det räcker med att säga, förvänta dig inte att H100-kort kommer att bli billiga.