Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Hot Chips 2023 Live Blog: Machine Learning (Graphcore, Cerebras, SambaNova, Anton)

14:28 EDT – Välkommen till Hot Chips! Detta är den årliga konferensen om det senaste, bästa och kommande stora kisel som gör oss alla upphetsade. Håll utkik under måndag och tisdag för våra vanliga AnandTech Live-bloggar.

14:30 EDT – Börja här om ett par minuter

14:30 EDT – ATs vän, David Kanter, är ordförande för denna session

02:32 EDT – “ML är inte det enda spelet i stan”

14:33 EDT – Första föredraget är medgrundare, CTO, Graphcore, Simon Knowles. Colossus MK2

02:34 PM EDT – Designad för AI

02:34 PM EDT – Ny strukturell typ av processor – IPU

02:34 PM EDT – “Varför behöver vi nytt kisel för AI”

02:35 PM EDT – Omfamna grafdata genom AI

02:36 PM EDT – Klassisk skalning har avslutats

02:36 PM EDT – Skapa hårdvara för att lösa grafer

02:37 PM EDT – Styrprogram kan styra grafberäkningen på bästa sätt för att köras på specialiserad hårdvara

02:37 PM EDT – Hårdvaruabstraktion – brickor med processorer och minne med en IO-interconnect

02:37 PM EDT – bulk synkron parallell beräkning

14:38 EDT – trådstängsel för kommunikation

02:38 PM EDT – “rekord för riktiga transistorer på ett chip”

02:38PM EDT – Detta chip har fler transistorer på sig än något annat N7-chip från TSMC

02:38 PM EDT – inom ett hårkors

14:39 EDT – 896 MiB SRAM på N7

02:40 EDT – 4 IPU:er i en 1U

02:40 PM EDT – Lättviktsproxyvärd

02:41 PM EDT – 1,2 Tb/s utanför chassit IO

02:41 EDT – 800-1200 W typisk, 1500W topp

02:41 PM EDT – Kan använda Pytorch, tensorflow, ONNX, men egen Poplar-mjukvara stack är att föredra

02:43 PM EDT – Halva tärningen är minne

02:43 PM EDT – 24 brickor, 23 används för att ge redundans

14:43 EDT – 25 GHz global klocka

14:43 EDT – 823 mm2, TSMC N7

02:44 PM EDT – 32 bitars instruktioner, enkel eller dubbel fråga

02:44 PM EDT – 6 exekveringstrådar, starta arbetartrådar för att göra det tunga lyftet

14:45 EDT – Sikta på lastbalansering

02:45 EDT – 1,325 GHz* global klocka

02:46 PM EDT – 47 TB/s datasida SRAM-åtkomst

02:46 EDT – FP16 och FP32 MatMul och faltningar

02:47 PM EDT – TPU förlitar sig för mycket på stora matriser för hög prestanda

02:48 PM EDT – Varje bricka kan generera 128 slumpmässiga bitar per cykel

02:48 PM EDT – kan runda ned stokastiskt

02:48 EDT – i full fart

02:48 PM EDT – Undvik FP32-data med stokastisk avrundning. Hjälper till att minimera avrundning och energianvändning

14:49 EDT – Spåra för program

02:49 EDT – 60 % cykler i beräkning, 30 % i utbyte, 10 % i synkronisering. Beror på algoritmen

02:50 PM EDT – Kompilatorbelastning balanserar processorerna

14:50 EDT – Byt ryggrad

14:50 EDT – 3 cyklers drift över chipet

02:51 PM EDT – Chipkraft

14:51 EDT – pJ/flopp

02:52 EDT – 60/30/10 i cirkeldiagrammet

02:52 EDT – aritmetisk energi dominerar

02:52 EDT – IPU effektivare i TFLOP/Watt

02:53 PM EDT – Använder inte HBM – på SRAM, låg bandbredd DRAM

02:53 PM EDT – DDR för modellkapacitet

02:53 PM EDT – HBM har ett kostnadsproblem – IPU tillåter DRAM

02:54 PM EDT – 40 GB HBM tredubblar kostnaden för en processor

02:54 PM EDT – Tillagd kostnad för CoWoS

02:54 PM EDT – VEndor lägger till marginal med CoWoS

02:54 PM EDT – Inga sådana overhead med DDR

02:55 PM EDT – Off-chip DDR-bandbredd räcker för strömmande vikttillstånd för stora modeller

02:56 PM EDT – Mer SRAM på chip betyder mindre DRAM-bandbredd behövs

14:58 EDT – Frågor och svar

15:00 EDT – F: Klockning är mesokronisk men statisk mesh – anta värsta tänkbara klockningsförseningar, eller något annat? S: Uppträder som om det är synkront. I praktiken jagar klockor och data varandra. Fishbone layout av utbyte det för att göra det enkelt

15:00 EDT – F: Är resultaten deterministiska? S: Ja eftersom varje tråd och varje bricka har sitt eget frö. Kan manuellt sätta frön

15:05 EDT – Next Talk är Cerebras

15:05 EDT – WSE-2 nya systemkonfigurationer

15:06 EDT – 2016 startade, 2019 WSE-1

15:06 EDT – 2,6 biljoner transistorer

15:06 EDT – 850 000 kärnor

15:07 EDT – CS-2-system till försäljning idag

15:07 EDT – det kostar några miljoner

15:07 EDT – Traditionella metoder kan inte hänga med

15:08 EDT – Kommande modeller med flera biljoner parametrar

15:08 EDT – något måste förändras i kisel – behöver ett bättre tillvägagångssätt

03:08 PM EDT – men stora modeller är svåra att stödja

03:08 PM EDT – Massivt minne, massiv beräkning, massiv IO

03:09 PM EDT – Mer partitionering av modellen över fler chips

15:09 EDT – Mer synkronisering

15:09 EDT – Blir ett distributionskomplexitetsproblem snarare än ett NN-problem

15:09 EDT – Hur man löser detta problem Cerebras stil

15:09 EDT – Cerebras for Extreme Scale – ny stil av utförande, stöd för upp till 120 biljoner parametrar

15:09 EDT – samma som synapser i hjärnan

03:10 PM EDT – måste också springa snabbt

15:10 EDT – upp till 192 WSE-2 med nära linjär perf-skalning

03:10 PM EDT – 10x viktsnålhet snabbare

03:10 PM EDT – skalas lätt med en knapptryckning

03:10 PM EDT – Använd viktströmning snarare än dataströmning

03:11 PM EDT – disaggregera modellminne från beräkning från datauppsättning

03:11 PM EDT – kan skala minne eller beräkna efter behov

03:12 PM EDT – Basberäkningsenheten är en enda CS-2, 850 000 kärnor, 14 kW, 1,6 TB/s bandbredd

03:12 PM EDT – Lägg till minneslagring för att hålla parametrar, vikter

15:12 EDT – MemoryX Technology

03:12 PM EDT – anpassad minnesbutik för vikter

03:12 PM EDT – oberoende av det, SwarmX sammankoppling för kontroll

03:13 PM EDT – Designad för att skala NN-träning med nära linjär skalning

15:13 EDT – Enkelt exekveringsflöde med Cerebras mjukvarustack

15:13 EDT – Programmera kluster på samma sätt som ett enda system

15:13 EDT – “Easy as Pie”

03:13 PM EDT – Tänk om exekveringsmodellen

03:14 PM EDT – Alla modellvikter lagras externt, streamas till CS2-systemet efter behov

03:14 PM EDT – När de strömmar igenom utför CS-2 beräkningen

15:14 EDT – bakåtpassering, gradienter streamas. Viktuppdatering sker på MemoryX, men swarmX kan hjälpa

15:16 EDT – Löser latensproblemet

03:16 PM EDT – viktströmning har inga back-to-back-beroenden

03:16 EDT – se till att viktminnet inte är latenskänsligt

15:16 EDT – grovkornig pipeline – en pipeline av lager

15:17 EDT – Strömma ut vikter när nästa ström kommer in

03:17 PM EDT – dölj den extra latensen från extra vikter

15:17 EDT – samma prestanda som om vikterna var lokala

15:17 EDT – nu kapacitet

15:18 EDT – två huvudsakliga kapacitetsproblem

15:18 EDT – lagra den gigantiska modellen

03:18 PM EDT – Alla parametrar i MemoryX upp till 2,4 PB kapacitet

15:18 EDT – 120 biljoner vikter. DRAM och flash-hybridlagring

03:18 PM EDT – Intern beräkning för viktuppdatering/optimerare

15:19 EDT – MemoryX gör den intelligenta pipeline-skalningen

03:19 PM EDT – Flexibel kapacitet med MemoryX

03:20 PM EDT – Inget behov av partitionering med WSE2

03:21 PM EDT – Stöd för 100kx100k MatMuls

15:22 EDT – Klustra flera CS-2 genom SwarmX

15:22 EDT – SwarmX är imdenpdent av CS-2 och MemoryX

03:23 PM EDT – Gradienter minskas på vägen tillbaka, vikter sänds på vägen framåt

15:23 EDT – modulärt och uppdelat

15:23 EDT – Projektera nästan linjärt till 192 CS-2-system

15:25 EDT – “Är det här tillräckligt?” Nej, behöver smartare modeller

15:25 EDT – Överträffar Moores lag med en storleksordning

15:25 EDT – Kommer att behöva en fotbollsplan av kisel för att köra en modell

15:25 EDT – Behöver glesa modeller för att få samma svar med mindre beräkning

15:25 EDT – Skapar gleshet i täta modeller

15:26 EDT – Ingen hårdvara att lösa för denna sparsamhet, förutom Cerebras

03:26 PM EDT – Hårdvarudatakontroll för databeräkning som inte är noll

15:26 EDT – accelererar alla typer av sparsamhet

15:26 EDT – Full prestanda på alla BLAS-nivåer

15:28 EDT – Sparsity introduceras i MemoryX-enheten. Glesa vikter streamas, SwarmX sänder till CS-2. CS-2 beräknar. Glesa gradienter produceras,. gradienter strömmas tillbaka ut, reduceras genom SwarmX, uppdateras på MemoryX. Allt sker naturligt, samma flöde som för tät beräkning

15:29 EDT – nära linjär hastighetsökning med gleshet

03:31 PM EDT – enormt lagerstöd för upp till 100 000 dolda dimensioner

03:32 PM EDT – Behöver inte annan programvara för att gå från 1 enhet till 192 – exekveringsmodellen är alltid densamma

15:34 EDT – Frågor och svar

15:35 EDT – F: Bandbredd MemoryX till CS-2 A: MemoryX behöver inte vara i samma rack, kan kablas. BW är över 1 Tbit – inte bara genom MemX utan även SwarmX

03:35 PM EDT – F: Sammankoppling är anpassad? S: Standard, men inte avslöjande, men inte direkt exponerad för användaren. Avsedd att integreras i systemet och sömlöst ur användarsynpunkt

03:36 PM EDT – F: Hantera aktiveringar för hoppa över anslutningar – A – alla aktiveringar hålls på wafer. Bli plockad upp i några lager vid behov

15:36 EDT – Nästa föredrag är SambaNova

15:39 EDT – Cardinal SN10 RDU

15:39 EDT – TSMC N7, 40B transistorer

15:39 EDT – BF16 fokuserade AI-chips för träning

03:40 PM EDT – basenhet för beräkning är ett 12 TB minnessystem i ett kvartsrack med 8 SN10-chips

15:40 EDT – standard rackformfaktor

03:40 PM EDT – pyTorch, Tensorflow, UserGraph eller User Kernel

03:41 PM EDT – Dataflow pipe är SambaNova mjukvarustack

15:42 EDT – grafer skriver om hur vi tänker om programvara

15:43 EDT – nuvarande system är inte lämpade för dataflöde – goldilocks-zon

15:43 EDT – använder dataflöde till max

15:44 EDT – orange rutor här är beräkna

15:44 EDT – arkitektur på hög nivå

03:45 PM EDT – fyra brickor med omkonfigurerbar dator och minne

15:45 EDT – resurser kan hanteras eller kombineras

03:45 PM EDT – Direkt åtkomst till TBs av DDR4 off-chip-minne

03:45 PM EDT – Mönsterminnesenheter, mönsterberäkningsenheter, switchar

15:46 EDT – AGU:er är före beräkning och minne

15:46 EDT – arkitektur tillåter utskalning

03:46 PM EDT – stöder systoliska exekveringslägen

15:47 EDT – Mata PCU:erna

03:47 PM EDT – stöder godtyckliga minnesåtkomstmönster

15:47 EDT – Datajusteringsenheter

03:48 PM EDT – Routern är inte bara närmaste granne – kompilatorn kan konstruera godtyckliga rutter

03:48 PM EDT – Möjliggör överföring och transparent skalning

15:49 EDT – Så här kartlägger du en operation

15:49 EDT – och kommunikation

03:49 PM EDT – Fullt pipelined softmax-drift

15:49 EDT – Här är något mer komplext – LayerNorm

03:50 PM EDT – Kan också återanvända för kompromissrum/tid

03:50 PM EDT – Kompilatorn utnyttjar

15:51 EDT – Kernel by Kernel i spatial

03:51 PM EDT – Automatisk kärnfusion – inget behov av manuell säkringsoperationer

15:52 EDT – Använd IO-bandbredd mer effektivt

03:52 PM EDT – Högpresterande högt utnyttjande

03:53 PM EDT – Kompilatorn kan gruppera glesa och täta multipler för att exekveras på chip

15:54 EDT – 1,5 TB DDR4 per chip

03:55 PM EDT – 12 TB DRAM för 8 chips per quarter rack – minsta beräkningsenhet till salu

03:55 PM EDT – Interleaving på ett finkornigt sätt för att användas i proportion

15:56 EDT – Schemalägg kompilatoroptimeringar

03:58 PM EDT – Kör flera applikationer på varje nod

15:58 EDT – Enkel skala ut

15:59 EDT – ett fjärdedels rack ersätter 416 GPU:er med 32 TB HBM i 8 rack

15:59 EDT – 1 biljoner parameter NLP-träning (Natural Language. Processing)

04:00 PM EDT – Skala upp till 50 000 x 50 000 medicinsk bildbehandling, stödjer alla storlekar modeller

16:01 EDT – Direkt analys på SambaNova

04:01 PM EDT – Första modellerna i slutet av 2019

04:02 EDT – full upplösning med RDU

16:02 EDT – väcker problem över hela linjen

16:03 EDT – höjer prestanda över hela linjen*

16:04 EDT – Frågestund

04:05 PM EDT – F: Bandbredd vid switchar A: tillräckligt för att upprätthålla hög strömningsgenomströmning – mer än vad du tror, ​​’150+ TB/s’ – 50 km tråd bara för det

16:05 EDT – Hur lång tid tar det att kompilera?

16:06 EDT – S: Snabbt. BERT Large – en minut eller två. GPT-175b, ett segment och repliker, börjar gå till samma tid

04:07 PM EDT – F: Mem bandbredd A: sex kanaler per RDU, DDR4-2666 till DDR4-3200 – 48 kanaler totalt i ett kvarts rack

16:08 EDT – F: Träna en 1T-modelluppskattning? S: Beror på datasetet. Det som är viktigt för oss är effektivitet.

16:08 EDT – Nu är det dags för Anton ASIC 3

16:09 EDT – DE Shaw Research

16:10 EDT – Eldandande monster

16:10 EDT – Molecular Dynamics simulationm

16:11 EDT – Nästan statiska ögonblicksbilder – men atomer rör sig

16:11 EDT – molekyler rör sig!

04:11 PM EDT – MD tillåter modellering

04:12 PM EDT – Kräver att känna till atompositionen för molekyler och atomer i matrisen

16:12 EDT – diskreta tidssteg på några femtosekunder

04:12 PM EDT – Kraftberäkning som beskrivs av en modell

16:13 EDT – Krafter = bindningar + vdW + elektrostatik

16:13 EDT – svårbehandlad till löjlig beräkning

16:14 EDT – proteinsimulering i millisekundskala från Anton 1

16:14 EDT – Anton 2 ökade kraftigt i prestanda

16:14 EDT – Det handlar om färgen på logotypen

16:14 EDT – Här är Anton 2, gjord på Samsung

16:14 EDT – Anpassad ASIC

16:14 EDT – Två typer av beräkningsbrickor

04:15 PM EDT – Flex kakel, hög genomströmning interaktion delsystem

04:15 PM EDT – PPIM har utrullade aritmetiska pipelines

04:16 PM EDT – Periferi är serdes för att ansluta flera chips tillsammans

16:16 EDT – För att göra det bättre måste du skala PPIM:er och geometrikärnor

04:16 PM EDT – Ta även upp prestandaflaskhalsar – som att skala av chipbandbredd

04:16 PM EDT – Ökar också stöd för simuleringsstorlek

16:17 EDT – Kontrollera design och implementering

16:17 EDT – Anton 3 kärna

16:17 EDT – Central router

16:17 EDT – Samma GC och PPIM som Anton 2 men med evolutioner

16:18 EDT – samlokalisering av specialiserade beräkningsresurser

04:18 PM EDT – Synkroniseringsfunktioner distribueras

16:19 EDT – Kalkylatorer för bindningslängd och vinkel

04:19 PM EDT – Dedikerad hårdvara

04:20 PM EDT – ANTON3 håller obligationsberäkningen borta från den kritiska vägen

04:20 PM EDT – Kraftberäkningar får hårdvara med storlek

04:21 PM EDT – Lösningen är att dela upp när- och fjärrberäkningar

04:21 PM EDT – dedikerad hårdvara för båda

16:22 EDT – Även Edge-bricka

16:22 EDT – förenkla kommunikationen

16:22 EDT – separat kantnätverk

04:22 PM EDT – MD-specifik komprimering

04:25 PM EDT – global låg skew clock mesh – konstruerad global routing

16:25 EDT – Redundans på kolumnnivå

04:25 PM EDT – Robust kraftleverans

16:25 EDT – MIMCAP

04:25 PM EDT – Toppskikt nästan exklusivt för kraft

16:26 EDT – 360 W för 451 mm2 på TSMC 7nm vid 2,8 GHz

16:26 EDT – 110 000 atomer per nod, 528 kärnor

16:26 EDT – 31,8 miljarder transistorer

16:27 EDT – Kör simuleringar inom 9 timmar efter första kisel

16:27 EDT – Nodkort

16:28 EDT – 32 nodkort i burar

16:29 EDT – 128 noder i ett rack

16:29 EDT – 512 noder i 4 rack

16:29 EDT – unikt bakplan

16:29 EDT – 16 dubbelriktade länkar

16:29 EDT – X dimension i bakplanet

16:29 EDT – 3D-torus

04:30 PM EDT – Vätskekylning med CDU och snabbkopplingar

16:30 EDT – 100 kW per rack

16:31 EDT – ASIC-effekt på 500W

16:31 EDT – Anton 3 är 20 gånger snabbare än A100 med handoptimerad NVIDIA-kod för samma simulering

16:32 EDT – en Anton 3 slår en Anton 1 med 512 noder

16:32 EDT – 100 mikrosekunder per dag

04:33 PM EDT – Flera grafikprocessorer hjälper inte, perf är lägre!

04:33 PM EDT – Det här är en galen prestation

16:35 EDT – Frågor och svar

04:36PM EDT – F: Kan du applicera hårdvaran på andra arbetsbelastningar? S: Brett uppsättning MD-relaterade arbetsbelastningar. Har inte lagt ner mycket energi utöver det, några intressanta interna projekt dock

16:37 EDT – F: Vilka numeriska format används i Anton 3? A: 32 fasta punkter i allmän pipeline – specialiserad varierar, vissa områden är 14-bitars mantissa/5bitars exponenter, vissa är logg

16:38 EDT – F: Strömhantering. Alla stift är tillgängliga för ström och jord – DVFS-kontrollmetoder? S: Ingen DVFS, gör lite ad-hoc dynamisk frekvensskalning genom rampbegränsare. Har inte behövt använda dem

16:39 EDT – F: är nätet hög effekt? S: svår avvägning kontra mesokron – vi valde att göra ett enhetligt gemensamt klockträd för fördrivare på ett delat meddelande för låg latens. Av 360W-chip är 40-50W mesh-effekt

16:40 EDT – F: Avancerad förpackning? S: Ekosystemet var inte där ännu när vi arkitekt – det tog 8 år att bygga. Nästa gång tittar vi på det

16:41 EDT – F: Kan du skala bortom 512 noder? S: Hårdvara kan skala mer än 512 i nätverk och länklager. Maskinen är designad för att köra högst 512 noder. Större installationer kan köra flera simuleringar och delad data.

16:42 EDT – Q; Vilka sammankopplingshastigheter? S: NRZ Serdez – dubbel enkelriktad – 29-30 gigabit/sek., ställs fortfarande in. Inget behov av FEC

16:45 EDT – Det är en wrap