Varför det är viktigt: Det generativa AI-loppet visar inga tecken på att sakta ner, och Nvidia vill dra nytta av det fullt ut med introduktionen av ett nytt AI-superchip, H200 Tensor Core GPU. Den största förbättringen jämfört med sin föregångare är användningen av HBM3e-minne, som möjliggör större densitet och högre minnesbandbredd, båda avgörande faktorer för att förbättra hastigheten på tjänster som ChatGPT och Google Bard.
Nvidia den här veckan infördes en ny monsterbehandlingsenhet för AI-arbetsbelastningar, HGX H200. Som namnet antyder är det nya chippet efterföljaren till den omåttligt populära H100 Tensor Core GPU som debuterade 2022 när det generativa AI-hypetåget började ta fart.
Team Green tillkännagav den nya plattformen under Supercomputing 2023-konferensen i Denver, Colorado. Baserat på Hopper-arkitekturen förväntas H200 leverera nästan dubbelt så hög slutledningshastighet som H100 på Llama 2, som är en stor språkmodell (LLM) med 70 miljarder parametrar. H200 ger också cirka 1,6 gånger slutledningshastigheten när man använder GPT-3-modellen, som har 175 miljarder parametrar.
En del av dessa prestandaförbättringar kom från arkitektoniska förbättringar, men Nvidia säger att det också har gjort ett omfattande optimeringsarbete på mjukvarufronten. Detta återspeglas i den senaste utgåvan av mjukvarubibliotek med öppen källkod som TensorRT-LLM som kan leverera upp till åtta gånger högre prestanda och upp till sex gånger lägre energiförbrukning vid användning av de senaste LLM:erna för generativ AI.
En annan höjdpunkt på H200-plattformen är att den är den första som använder sig av fester spec, HBM3e-minne. Den nya Tensor Core GPU:s totala minnesbandbredd är hela 4,8 terabyte per sekund, en bra bit snabbare än de 3,35 terabyte per sekund som H100:s minnesdelsystem uppnår. Den totala minneskapaciteten har också ökat från 80 GB på H100 till 141 GB på H200-plattformen.
Nvidia säger att H200 är designad för att vara kompatibel med samma system som stöder H100 GPU. Som sagt, H200 kommer att finnas tillgänglig i flera formfaktorer som HGX H200-serverkort med fyra eller åttavägskonfigurationer eller som ett GH200 Grace Hopper Superchip där den kommer att paras ihop med en kraftfull 72-kärnig Arm-baserad CPU på samma styrelse. GH200 kommer att tillåta upp till 1,1 terabyte sammanlagt högbandsminne och 32 petaflops FP8-prestanda för djupinlärningsapplikationer.
Precis som H100 GPU kommer det nya Hopper-superchipet att vara mycket efterfrågat och få ett iögonfallande pris. En enda H100 säljs för en beräknad $25 000 till $40 000 beroende på ordervolym, och många företag inom AI-området köper dem i tusental. Detta tvingar mindre företag att partner upp bara för att få begränsad tillgång till Nvidias AI GPU:er, och ledtiderna verkar inte bli kortare ju längre tiden går.
På tal om ledtider, så gör Nvidia en enorm vinst på varje såld H100, så det har till och med flyttat en del av produktionen från RTX 40-serien till att göra fler Hopper GPU:er. Nvidias Kristin Uchiyama säger att utbudet inte kommer att vara ett problem eftersom företaget ständigt arbetar med att lägga till mer produktionskapacitet, men avböjde att ge mer information om saken.
En sak är säker – Team Green är mycket mer intresserade av att sälja AI-fokuserade GPU:er, eftersom försäljningen av Hopper-chips utgör en allt större del av dess intäkter. Det går till och med långt i att utveckla och tillverka nedskärningar av sina A100- och H100-chips bara för att kringgå USA:s exportkontroller och skicka dem till kinesiska teknikjättar. Detta gör det svårt att bli för exalterad över de kommande RTX 4000 Super-grafikkorten, eftersom tillgänglighet kommer att vara en stor bidragande faktor till deras återförsäljningspris.
Microsoft Azure, Google Cloud, Amazon Web Services och Oracle Cloud Infrastructure kommer att vara de första molnleverantörerna att erbjuda åtkomst till H200-baserade instanser från och med andra kvartalet 2024.