14:28 EDT – Välkommen till Hot Chips! Detta är den årliga konferensen om det senaste, bästa och kommande stora kisel som gör oss alla upphetsade. Håll utkik under måndag och tisdag för våra vanliga AnandTech Live-bloggar.
14:30 EDT – Börja här om ett par minuter
14:30 EDT – ATs vän, David Kanter, är ordförande för denna session
02:32 EDT – “ML är inte det enda spelet i stan”
14:33 EDT – Första föredraget är medgrundare, CTO, Graphcore, Simon Knowles. Colossus MK2
02:34 PM EDT – Designad för AI
02:34 PM EDT – Ny strukturell typ av processor – IPU
02:34 PM EDT – “Varför behöver vi nytt kisel för AI”
02:35 PM EDT – Omfamna grafdata genom AI
02:36 PM EDT – Klassisk skalning har avslutats
02:36 PM EDT – Skapa hårdvara för att lösa grafer
02:37 PM EDT – Styrprogram kan styra grafberäkningen på bästa sätt för att köras på specialiserad hårdvara
02:37 PM EDT – Hårdvaruabstraktion – brickor med processorer och minne med en IO-interconnect
02:37 PM EDT – bulk synkron parallell beräkning
14:38 EDT – trådstängsel för kommunikation
02:38 PM EDT – “rekord för riktiga transistorer på ett chip”
02:38PM EDT – Detta chip har fler transistorer på sig än något annat N7-chip från TSMC
02:38 PM EDT – inom ett hårkors
14:39 EDT – 896 MiB SRAM på N7
02:40 EDT – 4 IPU:er i en 1U
02:40 PM EDT – Lättviktsproxyvärd
02:41 PM EDT – 1,2 Tb/s utanför chassit IO
02:41 EDT – 800-1200 W typisk, 1500W topp
02:41 PM EDT – Kan använda Pytorch, tensorflow, ONNX, men egen Poplar-mjukvara stack är att föredra
02:43 PM EDT – Halva tärningen är minne
02:43 PM EDT – 24 brickor, 23 används för att ge redundans
14:43 EDT – 25 GHz global klocka
14:43 EDT – 823 mm2, TSMC N7
02:44 PM EDT – 32 bitars instruktioner, enkel eller dubbel fråga
02:44 PM EDT – 6 exekveringstrådar, starta arbetartrådar för att göra det tunga lyftet
14:45 EDT – Sikta på lastbalansering
02:45 EDT – 1,325 GHz* global klocka
02:46 PM EDT – 47 TB/s datasida SRAM-åtkomst
02:46 EDT – FP16 och FP32 MatMul och faltningar
02:47 PM EDT – TPU förlitar sig för mycket på stora matriser för hög prestanda
02:48 PM EDT – Varje bricka kan generera 128 slumpmässiga bitar per cykel
02:48 PM EDT – kan runda ned stokastiskt
02:48 EDT – i full fart
02:48 PM EDT – Undvik FP32-data med stokastisk avrundning. Hjälper till att minimera avrundning och energianvändning
14:49 EDT – Spåra för program
02:49 EDT – 60 % cykler i beräkning, 30 % i utbyte, 10 % i synkronisering. Beror på algoritmen
02:50 PM EDT – Kompilatorbelastning balanserar processorerna
14:50 EDT – Byt ryggrad
14:50 EDT – 3 cyklers drift över chipet
02:51 PM EDT – Chipkraft
14:51 EDT – pJ/flopp
02:52 EDT – 60/30/10 i cirkeldiagrammet
02:52 EDT – aritmetisk energi dominerar
02:52 EDT – IPU effektivare i TFLOP/Watt
02:53 PM EDT – Använder inte HBM – på SRAM, låg bandbredd DRAM
02:53 PM EDT – DDR för modellkapacitet
02:53 PM EDT – HBM har ett kostnadsproblem – IPU tillåter DRAM
02:54 PM EDT – 40 GB HBM tredubblar kostnaden för en processor
02:54 PM EDT – Tillagd kostnad för CoWoS
02:54 PM EDT – VEndor lägger till marginal med CoWoS
02:54 PM EDT – Inga sådana overhead med DDR
02:55 PM EDT – Off-chip DDR-bandbredd räcker för strömmande vikttillstånd för stora modeller
02:56 PM EDT – Mer SRAM på chip betyder mindre DRAM-bandbredd behövs
14:58 EDT – Frågor och svar
15:00 EDT – F: Klockning är mesokronisk men statisk mesh – anta värsta tänkbara klockningsförseningar, eller något annat? S: Uppträder som om det är synkront. I praktiken jagar klockor och data varandra. Fishbone layout av utbyte det för att göra det enkelt
15:00 EDT – F: Är resultaten deterministiska? S: Ja eftersom varje tråd och varje bricka har sitt eget frö. Kan manuellt sätta frön
15:05 EDT – Next Talk är Cerebras
15:05 EDT – WSE-2 nya systemkonfigurationer
15:06 EDT – 2016 startade, 2019 WSE-1
15:06 EDT – 2,6 biljoner transistorer
15:06 EDT – 850 000 kärnor
15:07 EDT – CS-2-system till försäljning idag
15:07 EDT – det kostar några miljoner
15:07 EDT – Traditionella metoder kan inte hänga med
15:08 EDT – Kommande modeller med flera biljoner parametrar
15:08 EDT – något måste förändras i kisel – behöver ett bättre tillvägagångssätt
03:08 PM EDT – men stora modeller är svåra att stödja
03:08 PM EDT – Massivt minne, massiv beräkning, massiv IO
03:09 PM EDT – Mer partitionering av modellen över fler chips
15:09 EDT – Mer synkronisering
15:09 EDT – Blir ett distributionskomplexitetsproblem snarare än ett NN-problem
15:09 EDT – Hur man löser detta problem Cerebras stil
15:09 EDT – Cerebras for Extreme Scale – ny stil av utförande, stöd för upp till 120 biljoner parametrar
15:09 EDT – samma som synapser i hjärnan
03:10 PM EDT – måste också springa snabbt
15:10 EDT – upp till 192 WSE-2 med nära linjär perf-skalning
03:10 PM EDT – 10x viktsnålhet snabbare
03:10 PM EDT – skalas lätt med en knapptryckning
03:10 PM EDT – Använd viktströmning snarare än dataströmning
03:11 PM EDT – disaggregera modellminne från beräkning från datauppsättning
03:11 PM EDT – kan skala minne eller beräkna efter behov
03:12 PM EDT – Basberäkningsenheten är en enda CS-2, 850 000 kärnor, 14 kW, 1,6 TB/s bandbredd
03:12 PM EDT – Lägg till minneslagring för att hålla parametrar, vikter
15:12 EDT – MemoryX Technology
03:12 PM EDT – anpassad minnesbutik för vikter
03:12 PM EDT – oberoende av det, SwarmX sammankoppling för kontroll
03:13 PM EDT – Designad för att skala NN-träning med nära linjär skalning
15:13 EDT – Enkelt exekveringsflöde med Cerebras mjukvarustack
15:13 EDT – Programmera kluster på samma sätt som ett enda system
15:13 EDT – “Easy as Pie”
03:13 PM EDT – Tänk om exekveringsmodellen
03:14 PM EDT – Alla modellvikter lagras externt, streamas till CS2-systemet efter behov
03:14 PM EDT – När de strömmar igenom utför CS-2 beräkningen
15:14 EDT – bakåtpassering, gradienter streamas. Viktuppdatering sker på MemoryX, men swarmX kan hjälpa
15:16 EDT – Löser latensproblemet
03:16 PM EDT – viktströmning har inga back-to-back-beroenden
03:16 EDT – se till att viktminnet inte är latenskänsligt
15:16 EDT – grovkornig pipeline – en pipeline av lager
15:17 EDT – Strömma ut vikter när nästa ström kommer in
03:17 PM EDT – dölj den extra latensen från extra vikter
15:17 EDT – samma prestanda som om vikterna var lokala
15:17 EDT – nu kapacitet
15:18 EDT – två huvudsakliga kapacitetsproblem
15:18 EDT – lagra den gigantiska modellen
03:18 PM EDT – Alla parametrar i MemoryX upp till 2,4 PB kapacitet
15:18 EDT – 120 biljoner vikter. DRAM och flash-hybridlagring
03:18 PM EDT – Intern beräkning för viktuppdatering/optimerare
15:19 EDT – MemoryX gör den intelligenta pipeline-skalningen
03:19 PM EDT – Flexibel kapacitet med MemoryX
03:20 PM EDT – Inget behov av partitionering med WSE2
03:21 PM EDT – Stöd för 100kx100k MatMuls
15:22 EDT – Klustra flera CS-2 genom SwarmX
15:22 EDT – SwarmX är imdenpdent av CS-2 och MemoryX
03:23 PM EDT – Gradienter minskas på vägen tillbaka, vikter sänds på vägen framåt
15:23 EDT – modulärt och uppdelat
15:23 EDT – Projektera nästan linjärt till 192 CS-2-system
15:25 EDT – “Är det här tillräckligt?” Nej, behöver smartare modeller
15:25 EDT – Överträffar Moores lag med en storleksordning
15:25 EDT – Kommer att behöva en fotbollsplan av kisel för att köra en modell
15:25 EDT – Behöver glesa modeller för att få samma svar med mindre beräkning
15:25 EDT – Skapar gleshet i täta modeller
15:26 EDT – Ingen hårdvara att lösa för denna sparsamhet, förutom Cerebras
03:26 PM EDT – Hårdvarudatakontroll för databeräkning som inte är noll
15:26 EDT – accelererar alla typer av sparsamhet
15:26 EDT – Full prestanda på alla BLAS-nivåer
15:28 EDT – Sparsity introduceras i MemoryX-enheten. Glesa vikter streamas, SwarmX sänder till CS-2. CS-2 beräknar. Glesa gradienter produceras,. gradienter strömmas tillbaka ut, reduceras genom SwarmX, uppdateras på MemoryX. Allt sker naturligt, samma flöde som för tät beräkning
15:29 EDT – nära linjär hastighetsökning med gleshet
03:31 PM EDT – enormt lagerstöd för upp till 100 000 dolda dimensioner
03:32 PM EDT – Behöver inte annan programvara för att gå från 1 enhet till 192 – exekveringsmodellen är alltid densamma
15:34 EDT – Frågor och svar
15:35 EDT – F: Bandbredd MemoryX till CS-2 A: MemoryX behöver inte vara i samma rack, kan kablas. BW är över 1 Tbit – inte bara genom MemX utan även SwarmX
03:35 PM EDT – F: Sammankoppling är anpassad? S: Standard, men inte avslöjande, men inte direkt exponerad för användaren. Avsedd att integreras i systemet och sömlöst ur användarsynpunkt
03:36 PM EDT – F: Hantera aktiveringar för hoppa över anslutningar – A – alla aktiveringar hålls på wafer. Bli plockad upp i några lager vid behov
15:36 EDT – Nästa föredrag är SambaNova
15:39 EDT – Cardinal SN10 RDU
15:39 EDT – TSMC N7, 40B transistorer
15:39 EDT – BF16 fokuserade AI-chips för träning
03:40 PM EDT – basenhet för beräkning är ett 12 TB minnessystem i ett kvartsrack med 8 SN10-chips
15:40 EDT – standard rackformfaktor
03:40 PM EDT – pyTorch, Tensorflow, UserGraph eller User Kernel
03:41 PM EDT – Dataflow pipe är SambaNova mjukvarustack
15:42 EDT – grafer skriver om hur vi tänker om programvara
15:43 EDT – nuvarande system är inte lämpade för dataflöde – goldilocks-zon
15:43 EDT – använder dataflöde till max
15:44 EDT – orange rutor här är beräkna
15:44 EDT – arkitektur på hög nivå
03:45 PM EDT – fyra brickor med omkonfigurerbar dator och minne
15:45 EDT – resurser kan hanteras eller kombineras
03:45 PM EDT – Direkt åtkomst till TBs av DDR4 off-chip-minne
03:45 PM EDT – Mönsterminnesenheter, mönsterberäkningsenheter, switchar
15:46 EDT – AGU:er är före beräkning och minne
15:46 EDT – arkitektur tillåter utskalning
03:46 PM EDT – stöder systoliska exekveringslägen
15:47 EDT – Mata PCU:erna
03:47 PM EDT – stöder godtyckliga minnesåtkomstmönster
15:47 EDT – Datajusteringsenheter
03:48 PM EDT – Routern är inte bara närmaste granne – kompilatorn kan konstruera godtyckliga rutter
03:48 PM EDT – Möjliggör överföring och transparent skalning
15:49 EDT – Så här kartlägger du en operation
15:49 EDT – och kommunikation
03:49 PM EDT – Fullt pipelined softmax-drift
15:49 EDT – Här är något mer komplext – LayerNorm
03:50 PM EDT – Kan också återanvända för kompromissrum/tid
03:50 PM EDT – Kompilatorn utnyttjar
15:51 EDT – Kernel by Kernel i spatial
03:51 PM EDT – Automatisk kärnfusion – inget behov av manuell säkringsoperationer
15:52 EDT – Använd IO-bandbredd mer effektivt
03:52 PM EDT – Högpresterande högt utnyttjande
03:53 PM EDT – Kompilatorn kan gruppera glesa och täta multipler för att exekveras på chip
15:54 EDT – 1,5 TB DDR4 per chip
03:55 PM EDT – 12 TB DRAM för 8 chips per quarter rack – minsta beräkningsenhet till salu
03:55 PM EDT – Interleaving på ett finkornigt sätt för att användas i proportion
15:56 EDT – Schemalägg kompilatoroptimeringar
03:58 PM EDT – Kör flera applikationer på varje nod
15:58 EDT – Enkel skala ut
15:59 EDT – ett fjärdedels rack ersätter 416 GPU:er med 32 TB HBM i 8 rack
15:59 EDT – 1 biljoner parameter NLP-träning (Natural Language. Processing)
04:00 PM EDT – Skala upp till 50 000 x 50 000 medicinsk bildbehandling, stödjer alla storlekar modeller
16:01 EDT – Direkt analys på SambaNova
04:01 PM EDT – Första modellerna i slutet av 2019
04:02 EDT – full upplösning med RDU
16:02 EDT – väcker problem över hela linjen
16:03 EDT – höjer prestanda över hela linjen*
16:04 EDT – Frågestund
04:05 PM EDT – F: Bandbredd vid switchar A: tillräckligt för att upprätthålla hög strömningsgenomströmning – mer än vad du tror, ’150+ TB/s’ – 50 km tråd bara för det
16:05 EDT – Hur lång tid tar det att kompilera?
16:06 EDT – S: Snabbt. BERT Large – en minut eller två. GPT-175b, ett segment och repliker, börjar gå till samma tid
04:07 PM EDT – F: Mem bandbredd A: sex kanaler per RDU, DDR4-2666 till DDR4-3200 – 48 kanaler totalt i ett kvarts rack
16:08 EDT – F: Träna en 1T-modelluppskattning? S: Beror på datasetet. Det som är viktigt för oss är effektivitet.
16:08 EDT – Nu är det dags för Anton ASIC 3
16:09 EDT – DE Shaw Research
16:10 EDT – Eldandande monster
16:10 EDT – Molecular Dynamics simulationm
16:11 EDT – Nästan statiska ögonblicksbilder – men atomer rör sig
16:11 EDT – molekyler rör sig!
04:11 PM EDT – MD tillåter modellering
04:12 PM EDT – Kräver att känna till atompositionen för molekyler och atomer i matrisen
16:12 EDT – diskreta tidssteg på några femtosekunder
04:12 PM EDT – Kraftberäkning som beskrivs av en modell
16:13 EDT – Krafter = bindningar + vdW + elektrostatik
16:13 EDT – svårbehandlad till löjlig beräkning
16:14 EDT – proteinsimulering i millisekundskala från Anton 1
16:14 EDT – Anton 2 ökade kraftigt i prestanda
16:14 EDT – Det handlar om färgen på logotypen
16:14 EDT – Här är Anton 2, gjord på Samsung
16:14 EDT – Anpassad ASIC
16:14 EDT – Två typer av beräkningsbrickor
04:15 PM EDT – Flex kakel, hög genomströmning interaktion delsystem
04:15 PM EDT – PPIM har utrullade aritmetiska pipelines
04:16 PM EDT – Periferi är serdes för att ansluta flera chips tillsammans
16:16 EDT – För att göra det bättre måste du skala PPIM:er och geometrikärnor
04:16 PM EDT – Ta även upp prestandaflaskhalsar – som att skala av chipbandbredd
04:16 PM EDT – Ökar också stöd för simuleringsstorlek
16:17 EDT – Kontrollera design och implementering
16:17 EDT – Anton 3 kärna
16:17 EDT – Central router
16:17 EDT – Samma GC och PPIM som Anton 2 men med evolutioner
16:18 EDT – samlokalisering av specialiserade beräkningsresurser
04:18 PM EDT – Synkroniseringsfunktioner distribueras
16:19 EDT – Kalkylatorer för bindningslängd och vinkel
04:19 PM EDT – Dedikerad hårdvara
04:20 PM EDT – ANTON3 håller obligationsberäkningen borta från den kritiska vägen
04:20 PM EDT – Kraftberäkningar får hårdvara med storlek
04:21 PM EDT – Lösningen är att dela upp när- och fjärrberäkningar
04:21 PM EDT – dedikerad hårdvara för båda
16:22 EDT – Även Edge-bricka
16:22 EDT – förenkla kommunikationen
16:22 EDT – separat kantnätverk
04:22 PM EDT – MD-specifik komprimering
04:25 PM EDT – global låg skew clock mesh – konstruerad global routing
16:25 EDT – Redundans på kolumnnivå
04:25 PM EDT – Robust kraftleverans
16:25 EDT – MIMCAP
04:25 PM EDT – Toppskikt nästan exklusivt för kraft
16:26 EDT – 360 W för 451 mm2 på TSMC 7nm vid 2,8 GHz
16:26 EDT – 110 000 atomer per nod, 528 kärnor
16:26 EDT – 31,8 miljarder transistorer
16:27 EDT – Kör simuleringar inom 9 timmar efter första kisel
16:27 EDT – Nodkort
16:28 EDT – 32 nodkort i burar
16:29 EDT – 128 noder i ett rack
16:29 EDT – 512 noder i 4 rack
16:29 EDT – unikt bakplan
16:29 EDT – 16 dubbelriktade länkar
16:29 EDT – X dimension i bakplanet
16:29 EDT – 3D-torus
04:30 PM EDT – Vätskekylning med CDU och snabbkopplingar
16:30 EDT – 100 kW per rack
16:31 EDT – ASIC-effekt på 500W
16:31 EDT – Anton 3 är 20 gånger snabbare än A100 med handoptimerad NVIDIA-kod för samma simulering
16:32 EDT – en Anton 3 slår en Anton 1 med 512 noder
16:32 EDT – 100 mikrosekunder per dag
04:33 PM EDT – Flera grafikprocessorer hjälper inte, perf är lägre!
04:33 PM EDT – Det här är en galen prestation
16:35 EDT – Frågor och svar
04:36PM EDT – F: Kan du applicera hårdvaran på andra arbetsbelastningar? S: Brett uppsättning MD-relaterade arbetsbelastningar. Har inte lagt ner mycket energi utöver det, några intressanta interna projekt dock
16:37 EDT – F: Vilka numeriska format används i Anton 3? A: 32 fasta punkter i allmän pipeline – specialiserad varierar, vissa områden är 14-bitars mantissa/5bitars exponenter, vissa är logg
16:38 EDT – F: Strömhantering. Alla stift är tillgängliga för ström och jord – DVFS-kontrollmetoder? S: Ingen DVFS, gör lite ad-hoc dynamisk frekvensskalning genom rampbegränsare. Har inte behövt använda dem
16:39 EDT – F: är nätet hög effekt? S: svår avvägning kontra mesokron – vi valde att göra ett enhetligt gemensamt klockträd för fördrivare på ett delat meddelande för låg latens. Av 360W-chip är 40-50W mesh-effekt
16:40 EDT – F: Avancerad förpackning? S: Ekosystemet var inte där ännu när vi arkitekt – det tog 8 år att bygga. Nästa gång tittar vi på det
16:41 EDT – F: Kan du skala bortom 512 noder? S: Hårdvara kan skala mer än 512 i nätverk och länklager. Maskinen är designad för att köra högst 512 noder. Större installationer kan köra flera simuleringar och delad data.
16:42 EDT – Q; Vilka sammankopplingshastigheter? S: NRZ Serdez – dubbel enkelriktad – 29-30 gigabit/sek., ställs fortfarande in. Inget behov av FEC
16:45 EDT – Det är en wrap