Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Hot Chips 2023 Live Blog: Machine Learning (Esperanto, Enflame, Qualcomm)

11:08 EDT – Välkommen till Hot Chips! Detta är den årliga konferensen om det senaste, bästa och kommande stora kisel som gör oss alla upphetsade. Håll utkik under måndag och tisdag för våra vanliga AnandTech Live-bloggar.

11:08 EDT – Eventet börjar kl. 8:30 PT, så om cirka 22 minuter

11:25 EDT – Börjar här om cirka 5 minuter

11:30 EDT – Först ut är ett föredrag från Esperanto Technologies

11:31 EDT – AI Accelerator – 1000 RISC-V-kärnor på ett chip

11:32 EDT – 1088 RISC-V-kärnor

11:32 EDT – ET-Minion med tensorenheter

11:33 EDT – 160 miljoner byte SRAM ombord

11:33 EDT – PCIe x8 Gen 4

11:33 EDT – Upp till 200 Tera-Ops

11:33 AM EDT – Under 20 watt för slutledning

11:33 EDT – fokus på rekommendationsmodeller

11:34 EDT – körs traditionellt på x86

11:34 EDT – dessa servrar behöver tilläggskort

11:34 EDT – Låg effektbudget per kort

11:34 AM EDT – Stöd för flera datatyper

11:34 EDT – tät och gles arbetsbelastning

11:34 EDT – vara programmerbar

11:35 AM EDT – reducera minnesreferenser som inte finns kvar

11:36 AM EDT – Hårdvara med fasta funktioner kan snabbt bli föråldrad

11:37 EDT – tusentals trådar

11:38 EDT – begränsad parallellitet med enstaka stora marker

11:38 EDT – 1000-tals RISC-V-kärnor på esperanto

11:38 AM EDT – Stora marker har stor kraft

11:38 AM EDT – Esperanto delar det över marker

11:38 AM EDT – möjliggör lägre spänning, vilket ökar effektiviteten

11:38 AM EDT – Högsta rekommendationsprestanda inuti 120W i sex chips

11:40 EDT – TSMC 7nm FinFET

11:40 EDT – sänk spänningen per kärna

11:40 EDT – C-dynamik är svårt

11:41 EDT – Effektivitet vs spänning – 0,34 är bäst

11:42 EDT – Inferenser per sekund per watt

11:42 EDT – Ett chip kunde använda 275W vid topp

11:42 EDT – 0,75 volt är 164W per chip

11:43 AM EDT – Bästa effektiva punkten är vid 8,5 W – 2,5 gånger bättre prestanda än vid 0,9 volt

11:44 EDT – 64-bitars risc-v-processor, mjukvarukonfigurerbar l1-datacache

11:44 EDT – i ordning pipeline

11:44 EDT – SMT2

11:45 EDT – 300 MHz till 2 GHz

11:45 EDT – kan göra 64 ops på en tensorinstruktion

11:45 EDT – 64 000 ops

11:45 EDT – 512-bitars brett heltal per cykel, 256-bitars brett FP per cykel, per kärna

11:46 EDT – 8 kärnor på ett chip bildar en stadsdel

11:46 EDT – innan bred längd blev ett problem

11:46 EDT – 8 minions delar en enda stor instruktionscache

11:46 EDT – mycket effektivare än att ha varje kärna med sin egen I-cache

11:47 EDT – kooperativa laster

11:47 EDT – anpassade instruktioner

11:47 EDT – 4 stadsdelar gör en shire

11:47 EDT – med 4 MB delat SRAM

11:48 EDT – mesh interconnect på varje shire

11:48 EDT – SRAM-banker kan delas upp som privata L2 eller delade L3

11:48 EDT – Nätor löper över kärnorna

11:48 EDT – 16 LPDDR4X-kontroller

11:49 EDT – 256-bitars bred LPDDR4X

11:49 EDT – Sex chips och 24 LPDDR4-chips på ett PCIe-kort med en PCIe-switch

11:49 EDT – 192 GB acceleratorminne

11:49 EDT – 822 GB/s total minnesbandbredd per PCIe-kort

11:50 EDT – OCP-versioner

11:50 EDT – Hur man distribuerar i stor skala

11:50 EDT – 6 chips har en enda värmespridare

11:51 EDT – Programvara via många gränssnitt

11:52 EDT – Esperanto beräknad prestanda

11:54 EDT – Fyra högpresterande ET-Maxions

11:54 EDT – Fullständig RV64GC ISA

11:54 EDT – 24 miljarder transistorer, 570 mm2, 89 masklager

11:54 EDT – Första kisel i uppfostran

11:55 EDT – A0 kisel i test

11:55 AM EDT – Högsta prestanda kommersiella RISC-V-chip hittills

11:55 EDT – Tidig tillgång för kvalificerade kunder senare under 2021

11:56 EDT – Q*A tid

11:58 AM EDT – F: Externt minne och IO-strömtillförsel över 20 W – A: IO:er ingår. 20W inkluderar DRAM och andra komponenter

12:00 EDT – F: Varför inte BF16? S: Naturligtvis gör det det, men BF16 skulle utökas FP32 för beräkning och läggas till BF16 tillbaka i lagring. Eftersom vi gör slutledningar – kunden vill ha slutsatser, behöver inte BF16

12:01 PM EDT – F: Datacachestorlek för allmänt ändamål A: Med en yta på 1000 kärnor är det viktigt att flytta L1/L2 till flera nivåer. Specialkretsar – behåll mycket robust spänning, måste använda stor SRAM för låg spänning. 4 KB L1 gav en bra träffhastighet med L2 för prestanda

12:02 EDT – Nästa föredrag är Enflame

12:02 EDT – Första Gen

12:02 EDT – Designad 2018, lanserad 2019

12:03 EDT – DTU 1.0

12:03 EDT – 80 TF av BF16, 12nm FinFet, 14,1 miljarder transistorer, 200 GB/s sammankoppling

12:04 EDT – 16 banor PCIe 4.0

12:04 EDT – 300W

12:05 EDT – 2 HBM2 vid 512 GB/s

12:05 EDT – 32 AI-beräkningskärnor

12:05 EDT – ip nätverkj

12:05 EDT – 4 kluster med 8 tensorenheter

12:06 EDT – 40 dataöverföringsmotorer

12:06 EDT – på chip-nätverk*

12:06 EDT – VLIW programmerbar

12:06 EDT – 1024-bitars buss med

12:06 EDT – 256 KB L1-Data

12:06 EDT – DMA-motor med 1 KB-gränssnitt

12:07 EDT – GPU-Care 1.0

12:07 EDT – 256 Tensor beräkningskärnor

12:07 EDT – Varje kärna stöder 1x-32bit MAC eller 4×16-bit/8-bit MAC. Alla kärnor gör alla precisioner

12:08 EDT – Introducera sparsitet för makt

12:08 EDT – kan helt hoppa över instruktioner om nolleffektinstruktion detekteras

12:09 EDT – 2 kbit per cykel för butik, 1 kbit per cykel för belastning

12:09 EDT – Cector och Scalar stöder summa och pooling

12:10 PM EDT – hårdvara kan lägga till stoppningselement för att få bästa effektivitet kombinerad med noll effektinstruktionsdetektering

12:11 EDT – 256 kärnor stöder faltningsoperationer

12:12 PM EDT – Stöd olika tensorformer

12:12 EDT – måste ha den på en gräns med två styrkor

12:13 EDT – L0-cache med 10 TB/s bandbredd

12:13 PM EDT – Asynkroniserat dataflöde och beräkna pipeline

12:14 EDT – 4D-tensorer

12:14 PM EDT – Stöder dimensionsomformning

12:15 EDT – 200 GB/s dubbelriktad IO per kort

12:15 PM EDT – anpassat protokoll med sub-mikrosekunders latens

12:15 PM EDT – Lägg kablar till rack utan DMA

12:16 EDT – AIC och OAM

12:17 EDT – Skala upp till 2D torus pod

12:18 PM EDT – Prestanda tas upp till 160 kort kluster

12:20 EDT – Nästa produkt är snart klar

12:20 EDT – Frågor och svar

12:21 EDT – F: Finns det en målinriktad träningsbelastning? S: Utbildning, stödd syn och bearbetning av maskinspråk. Första kunden använde MLP

12:21 PM EDT – F: Varför designa ditt eget chip-to-chip-protokoll? Är det cachekoherent A: Det är inte cachekoherent, datasynkroniseringsbrevlåda. vi ville ha ett lättare protokoll med bättre latens

12:22 EDT – F: Sälja till väster? S: Kunderna är för närvarande Asien, men om du är intresserad, kom till Enflame

12:22 EDT – Nästa föredrag är Qualcomm Cloud AI 100

12:23 EDT – 12 TOPS/watt

12:23 PM EDT – hög prestanda och effektiv accelerator

12:23 PM EDT – Ännu ett introduktion till vad som driver AI

12:24 EDT – Qualcomm i framkanten av AI-forskning, för närvarande på 6:e generationen

12:25 PM EDT – två formfaktorer – hög prestanda i PCIe HHHL och en mer krafteffektiv dubbel M.2

12:25 EDT – SoC-slide på toppnivå

12:26 EDT – skräddarsydd högpresterande arkitektur

12:26 EDT – 400+ Int8 TOPs

12:26 EDT – 8 banor av PCIe 4.0

12:26 EDT – 16 GB/sof LPDDR4

12:26 PM EDT – lagra alla vikter på SoC med 144 MB on-chip minne

12:27 EDT – Dual M.2 är för ström

12:27 EDT – styrenhet för energihantering

12:27 EDT – 4-vägs VLIW

12:27 EDT – 1800+ instruktioner

12:27 EDT – SMT skalär kärna

12:27 EDT – FP32/FP16 och INT16/INT8

12:28 EDT – 1 MB L2-cache

12:28 EDT – Vektorenhet, Tensorenhet

12:28 PM EDT – Vector Tightly Coupled Memory 8 MB mellan alla enheter

12:28 EDT – nästan alla

12:29 EDT – Kan köras på olika effektnivåer

12:29 EDT – 12W för edge, 20W för ADAS, 70W High Perf-läge

12:29 EDT – 7nm

12:30 PM EDT – Tensor-enheten är 5 gånger effektivare än Vecotr-enheten

12:30 EDT – 16 AI-kärnor

12:30 EDT – 5 TOP/W med hög prestanda

12:31 PM EDT – Full stack för slutledning

12:33 PM EDT – Kompilator stöder blandad precision

12:36 PM EDT – Optimering för låg effekt

12:36 PM EDT – minimera DDR-åtkomst och förbättra prestanda

12:36 PM EDT – Återanvänd data så mycket du kan för att börja innan du skaffar mer

12:39 EDT – Dela ett nätverk över flera AI100-kort

12:39 EDT – upp till 16 kort per system

12:39 EDT – PCIe-switch för peer-to-peer

12:41 PM EDT – Prestanda på INT8 och Mixed, all inferens

12:42 EDT – “branschledande prestandasiffror”

12:42 EDT – Prestanda vs batchstorlek

12:44 PM EDT – AIMET kan göra infight-komprimering för slutledning

12:44 EDT – 15 % ökning av ResNET50-perf för endast 1,1 % minskning av noggrannheten

12:45 PM EDT – Edge-distribution kontra serverdistribution

12:45 EDT – DM.2e = dubbel M.2

12:45 EDT – 15W TDP i den dubbla M.2

12:46 EDT – Skalbar lösning för 5G, ADAS, infrastruktur

12:46 EDT – Frågestund

12:47 EDT – F: Är kraftpunkterna statiska eller automatisk justering A: Chipet har DVFS – baserat på effekt kan ändra DVFS. För TDP, baserat på lösning kan du ställa in TDP i firmware

12:47 EDT – F: 12 TOPS/W-baserad kortnivå eller chipnivå? A: Chip

12:49 EDT – F: Vilka är de viktigaste drivkrafterna för att uppnå Tops/WA: Bra byggstenar – 6:e gen. Har varit i branschen länge. Har gjort det i mobiltelefoner länge, speciellt slutsatser. Grundblocket är effektivt. VLIW – kompilatorn gör en hel del lyft och håller hårdvaran enklare. Samma process för SoC-nivå. Inte cachekoherent, aktiverat via kompilatorn

12:51 EDT – F: Avvägningar mellan VLIW vs RISC A: ML passar väldigt bra på VLIW, har insikter. Vi vet hur man gör mycket effektiva VLIW-kärnor. Men arbetsbelastningen är väl lämpad för VLIW. Utvärderade, men fann att detta var det bästa sättet.

12:51 PM EDT – F: NOC-detaljer? Mesh, tvärstång? S: Hybrid, mer linjär med routrar

12:53 PM EDT – F: Systolisk array? Ett nej

12:53 PM EDT – F: Skalär kärna är RISCV A: Proprietär VLIW

12:55 PM EDT – Det är en wrap