Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Google TPU Performance Analysis Live Blog (15:00 PT, 22:00 UTC)

18:00 EDT – Ännu ett Hot Chips-samtal, nu pratar Google TPU.

06:00 PM EDT – TPU första generationen är enbart inferensaccelerator

06:00 PM EDT – ‘Batchstorlek är ett enkelt sätt att få prestanda och effektivitet

18:02 EDT – TPU var en framtida produkt: 2013, om alla ville prata med sin telefon 2-3 minuter om dagen, skulle det ta 2-3 gånger nuvarande totala CPU-prestanda

06:02 EDT – “TPU-projekt är en investering för när prestanda behövs”

18:04 EDT – Utveckla maskininlärning i termer av Tensor Flow, tanken är att göra TPU enkelt

18:05 EDT – Efter att ha distribuerat konvolutionerande neurala nätverk är det intressant hur liten av vår totala arbetsbelastning det är

06:05 PM EDT – TPU är ett accelkort över PCIe, det fungerar som en flyttalsenhet

06:06 EDT – Beräkningscentralen är en 256×256 matrisenhet på 700 MHz

06:06 EDT – 8-bitars MAC-enheter

18:06 EDT – Topp på 92 T ops/sek

06:06 EDT – DDR3-gränssnitt råkar vara en bandbreddsgräns för den ursprungliga TPU:n

18:06 EDT – Inte ett idealiskt balanserat system, men massor av MAC

06:07 EDT – Chipstorlek, 30 % för buffert, 24 % för matrisenhet

18:07 EDT – Mjukvaruinstruktionsuppsättningen har 11 kommandon, varav fem är de som används mest

18:07 EDT – I genomsnitt 10 klockcykler per instruktion

18:08 EDT – Skicka 2000 arbetscykler i en instruktion

18:08 EDT – I ordning, ingen förgrening

18:08 EDT – SW-kontrollerade buffertar

06:08 EDT – Hårdvaran utvecklades snabbt, svårigheten flyttades till mjukvara för att kompensera

18:09 EDT – Problem: energi/tid för upprepade SRAM-åtkomster av Mat mul

06:09 PM EDT – När varje ingång rör sig över arrayen, multipliceras den och läggs sedan till när den flyttas ner i arrayen

18:09 EDT – Jaga tider, så systoliska

06:10 PM EDT – Kan ignorera pipeline-förseningar genom design

18:10 EDT – Första chips i datacenter 2015, jämfört med Haswell och K80s

18:10 EDT – TPU:ns storlek var mindre, TDP var mindre

18:10 EDT – 2 gränser för prestanda: toppberäkning och toppminne (takmodell)

06:11 PM EDT – Aritmetisk intensitet (FLOPs per byte) avgör vilken gräns du når

06:12 EDT – TPU är nära toppanvändning i taklinjen, men bara två tester träffade taklinjen. Andra tester når minnesgränsen

18:12 EDT – Vi trodde att användare skulle vara i slutledningscykelgränsen när första generationen utvecklades

06:12 EDT – CPU:er och GPU:er är bättre balanserade, men prestandan är mycket lägre

18:12 EDT – Vi byggde en genomströmningsmaskin, men den används på ett latensdrivet sätt

18:15 EDT – Perf/watt 80x jämfört med Haswell, 30x jämfört med K80

18:15 EDT – Taklinjeplanen säger att minnet är begränsat

18:15 EDT – Så förbättrad TPU: flytta nockpunkten

06:15 PM EDT – Ändra 2x DDR3-minne till GDDR5 till exempel på grund av minnesbegränsning. Förbättrar prestandan för vissa tester

18:15 EDT – Slutar 200x perf/W över Haswell, 70x över K80

06:17 PM EDT – På toppnivå lyckas TPU:n på grund av träningen i applikationsspecifik design

06:18 PM EDT – På toppnivå lyckas TPU:n på grund av träningen i applikationsspecifik design

06:18 PM EDT – När TPU:er går framåt kommer vi också att få göra bakåtkompatibilitet för att se hur en maskin åldras

18:18 EDT – Flexibilitet att matcha NNs 2017 vs 2013

06:18 PM EDT – Enkelgängad deterministisk exekturionsmodell bra matchning med 99:e percentilens svarstid

06:18 PM EDT – Appar i Tensor Flow, så lätt att porta med hastighet

18:18 EDT – När du har en stor 92 TOP-hammare ser allt ut som en NN-spik

06:18 PM EDT – Kör hela slutledningsmodellen på TPU

06:18 PM EDT – Lätt att programmera på grund av enkel trådkontroll, medan 18-kärnig CPU är svår att tänka på

06:19 PM EDT – Gör det enkelt att mentalt kartlägga problem till en gängad miljö, t.ex. AlphaGo

06:20 PM EDT – I efterhand, slutledning föredrar latens över genomströmning – K80 dålig på slutledning kontra förmåga i träning

06:21 PM EDT – I DRAM förbättrar en liten omdesign TPU:n mycket (löst i TPUv2

06:21PM EDT – 65546 TPU MAC är billigare än CPU/GPU MAC

18:21 EDT – Dags för frågor och svar

06:22 EDT – F: Vad är problemet med minsta storlek för att få bra effektivitet på TPU:n – vad är det rätta sättet att tänka på det

18:23 EDT – S: Jag har inte ett fullständigt svar, men kollegor har kartlagt enskiktsmatmuler och fått en bra utdelning, men målet är neurala nätverk med många vikter

06:23 PM EDT – F: Besluter systemet dynamiskt att köra på TPU över CPU

18:23 EDT – S: Inte just nu

18:24 EDT – F: Precision av matmul?

06:24 PM EDT – A: 8-bitars gånger 8-bitars heltal, osignerat och osignerat

18:24 EDT – A: 8-bitars gånger 8-bitars heltal, osignerat och signerat

06:24 PM EDT – A: 8-bitars gånger 8-bitars heltal, osignerat och signerat*

18:26 EDT – F: Ser google gleshet och allt lägre precision

18:27 EDT – A: 1:a generationen gör inte mycket för gleshet. Framtida produkter avslöjas inte i detta. Minskad precision är grundläggande. Vi skulle gärna vilja veta var gränsen för träning och slutledning går i lägre precision

18:27 EDT – F: TPU 1 hade DDR3, och GDDR5-studien fick mycket prestanda, byggde du en GDDR5-version?

18:28 EDT – S: Nej, men den nya TPU:n använder HBM

18:30 EDT – F: Hur portar du faltning till GEMM? S: Diskuteras i tidningar och patent! Det finns två lager av hårdvara för att förbättra effektiviteten

18:32 EDT – Det är allt för frågor och svar. Det var ett TPU2-föredrag tidigare som jag missade som jag måste titta igenom bilderna på och skriva upp senare.

18:32 EDT – .