IBMs nästa generation z14 CPU Mainframe Live Blog (17:00 PT, 12:00 UTC)

19:56 EDT – Sitter, redo att gå
20:01 EDT – Detta är den sista uppsättningen samtal på Hot Chips. Börjar med IBM, sedan Intel Xeon, AMD EPYC och Qualcomm Centriq
08:02 EDT – Vi har täckt Xeon, EPYC och Centriq i de senaste artiklarna, och inget nytt tillkännages för showen för dem förutom några mindre saker som vi kommer att sammanfatta i ett nyhetsinlägg
20:02 EDT – Men IBM z14 kommer att bli intressant
08:02 EDT – För att förtydliga är z-serien IBMs stordatorproduktlinje
20:02 EDT – Så det här är inte POWER8 eller POWER9
08:04 EDT – IBMs z-serie har centrala processorer och systemkontrollchips med integrerat tyg och off-compute chipcacher
08:05 PM EDT – Detta är under en “stordator”-inställning, snarare än en standard CPU/co-processor-inställning.
20:05 EDT – Dr Christian Jacobi till scenen, chefsarkitekt
20:06 EDT – z14 tillkännagavs tekniskt för några veckor sedan
08:06 EDT – Många stordatorer finns fortfarande
08:06 EDT – Används fortfarande i stora företag för transaktionsdata, t.ex. kreditkort har en stordator inblandad. 90 % av flygbolagens bokningssystem involverar stordatorer
08:07 EDT – Kör stora databaser och stort virtualiserat linux
20:07 EDT – Måste fatta designbeslut som är skräddarsydda för dessa arbetsbelastningar
08:07 EDT – z10 hade hög frekvens, z196 hade OoO, z13 hade SMT och nu z14
08:08 EDT – Stordatorn använder två olika chips – CP (kärnor och delad L3) och SCP (stor L4 och sammankopplingslogik)
08:08 EDT – Bilden är en djup låda med DRAM, PCIe och sex CP-chips under kalla plattor och en SC (SCP)
08:08 EDT – Två kluster av CP-chips ansluts till SC. Kan koppla ihop fyra lådor
08:09 EDT – CP och SC är stora chips, 17 lager metall i 14nm SOI
20:09 EDT – 10 kärnor har privat 2MB L2-i och 4MB L2-D och 128 MB delad L3
20:09 EDT – SC-chipet har 672 MB L4 och koherenslogik
08:10 EDT – Upp till 24 uttag i systemet, 32 TB RAIM-skyddat minne, 40 PCIe lane fanouts, 320 IO-kort
20:10 EDT – Ny översättning och TLB-design över z13, och allmänna pipeline-optimeringar. Ändringar i instruktionsuppsättningen också
08:10 PM EDT – Pauslös sophämtning för Java, enkel- och fyrvektorprecision för krypto
08:11 PM EDT – Registrera dig för att registrera aritmatisk
08:11 EDT – Optimering för COBOL-prestanda (……..)
20:11 EDT – T.ex. gazillioner rader av COBOL i onlinebokningssystem
08:11 PM EDT – Kompressionsacceleration
08:11 EDT – Detta är pipelinediagrammet
08:12 EDT – 5,2 GHz, superlång pipeline
08:12 EDT – 6 instruktionsanalys och avkodning, CISC-instruktionssprickning
08:12 EDT – 4-taktsladdning/användning
08:12 EDT – Katalog- och TLB-pipelineändringar
08:13 EDT – De flesta designs använder logiskt indexerad, absolut taggad katalog
08:13 PM EDT – Användning av partial compare set-predict array minskar latensen för dataretur från L1 cache – TLB och L1 katalogåtkomst sker parallellt med L1 cache läsning
20:13 EDT – (låter det inte som en förutsägelse?)
08:14 EDT – Mycket associativ TLB är yt- och kraftineffektivitet, för att begränsa TLB L1-storlek
08:14 EDT – Förlåt, jag läste fel bilden, så här ser L1-cachen ut idag
20:14 EDT – Den här nya bilden visar hur IBM använder den i z14
20:15 EDT – I-cache och D-cache är nu logiskt taggade, och kombinerar TLB1 och cachekatalog till en enda struktur
20:15 EDT – Betydande area- och effektminskning för L1-träff
20:15 EDT – Nu en superstor L2 TLB
08:16 EDT – L2 och TLB2 kan vara stora – 2MB L2I och 4MB L2D, 6k poster TLB2 för 4KB sidor
20:16 EDT – 8 cykel L2 träff latens (det är bara 1,5 ns) …
20:17 EDT – Nu krypto
08:17 EDT – Nu omdesignad för 4-7x bandbredd
08:17 PM EDT – gör det enkelt och tillräckligt snabbt för att kunna kryptera all data
08:17 EDT – kombination av operativsystem, firmware och hårdvaruimplementering
20:18 EDT – Kör 2 AES i 3 cykler
20:18 EDT – Kopiera upp till 256B per instruktion från D-cache till samprocessor
08:18 PM EDT – kan köra flera AES samtidigt, flera motorer på matrisen
08:19 EDT – 13,2 GB/sek per kärna (alltså 132 GB/s per CP och cirka 1 TB/s per 6-socket server)
08:19 EDT – Använd nya instruktioner för att mata kryptomotorn för att undvika grenar
20:19 EDT – Undvik pipelinebubblor med hjälp av nya instruktioner
20:19 EDT – Betydande ansträngning även med förhämtning
20:20 EDT – Ny GCM-instruktion
08:20 PM EDT – Algoritm som gör kryptering och signaturautentisering
08:20 EDT – Använd AES- och GHASH-motorer
08:20 EDT – de 2 motorerna som används tillsammans snarare än oberoende
08:21 PM EDT – Nu nyckelskydd – de flesta CPU:er fungerar med nycklar i minnet. CryptoExpress6S är en manipuleringssvarande PCIe-krypteringsaccelerator. Huvudnyckeln finns i ett fysiskt skyddat minne på kortet
20:21 EDT – “Rensa nyckelkryptering”
08:22 EDT – Rotnyckelåtkomst innebär vanligtvis att man kan stjäla nyckel genom memåtkomst eller kärndump. Denna metod innebär att nyckeln är skyddad av manipuleringsskydd
08:23 PM EDT – Secure Key är ett annat läge som leder all krypto från CPU:n till kortet istället
08:23 PM EDT – På så sätt ser applikationen aldrig nyckeln, bara den krypterade informationen
08:24 PM EDT – Skapar en nyckeltoken från data, som finns kvar i manipuleringssäkert minne, och när data dekrypteras slängs nyckeln och ny nyckel genereras
08:24 EDT – Datakompressionsaccelerator
08:24 EDT – Ordboksbaserad datakomprimering
08:25 PM EDT – Minskar bandbreddsbehovet mellan minne och diskar, ökar effektiviteten, implementerad som irmware och specialiserad co-processor hårdvara
20:25 EDT – *firmware
20:25 EDT – z14-prestanda vid maximal genomströmning och startfördröjning. Optimerad komprimeringsstatus återgår till firmware
08:26 PM EDT – Ordningsbevarande komprimering: Tillåter att data fortfarande jämförs när de komprimeras
08:26 EDT – Tillåter komprimerade katalog-/trädstrukturer att göra jämförelser mellan element utan dekomprimering
08:27 EDT – CP har 7b transistorer, SC har 10b transistorer
20:27 EDT – vattenkyld
08:28 EDT – av 240 processorer i ett komplett system, 170 kan kundkonfigureras
08:28 EDT – +35 % kapacitet, +10 enkelgänga, +25 % SMT2 perf över z13
20:29 EDT – Nu för frågor och svar
20:29 EDT – F: Vänligen generera arbetsstationer. Jag vill byta ut x86 med z14
20:29 EDT – (till samma pris, infoga skratt)
20:29 EDT – Ingen seriös fråga
20:30 EDT – F: Vilken effekt har chipsen?
20:31 EDT – S: Du kan få markerna att köra med vilken kraft du behöver. Skulle kunna gå 400-500W på hög arbetsbelastning. Vi siktar på runt 300-350W. Vi soppar inte – det finns bara en produkt och vi håller oss inom lådans makt
20:31 EDT – Chipsen i sig är vattenkylda, men kunder kan köra ett luftkylt system, eller så kan du ansluta datacentervatten
08:32 EDT – F: Att inte gå över PCI-kortet orsakar extra latens
08:32 EDT – S: Kortet har bara huvudnyckeln – data har en nyckelbricka, som inte behöver gå fram och tillbaka
20:32 EDT – F: Har du funderat på något som SGX?
20:33 EDT – S: Det är inte en jämförelse mellan äpplen och äpplen. Vi anser att det manipulationssäkra elementet är en nyckelfunktion i våra produkter.
08:34 PM EDT – F: Men SGX hindrar någon med en logisk analysator att gå in
08:34 EDT – S: Vår lösning behöver inte omkodas – våra kunder använder äldre mjukvara och den är transparent
20:34 EDT – F: Vad skulle du göra för att få COBOL att springa snabbare?
20:35 EDT – S: COBOL gör mycket tid på BCD-arithmetik, men det finns traditionella problemköbegränsningar, så vi använder packad BCD-beräkning för att minska den flaskhalsen
08:36 EDT – F: Vad betydde +35 % kapacitet och +25 % SMT2
20:37 EDT – S: +35 % är instruktioner för ett helt system. Den enkla tråden på +10 % är en stor skala för riktmärken för kapacitetsplanering. +25 % SMT2 från justering och justeringar i vår implementering på grund av mognad
20:37 EDT – Det verkar vara en wrap. Det här är vår sista liveblogg om Hot Chips – jag kommer att skriva upp några av dessa föredrag på mitt flyg hem imorgon. Hoppas du gillade dem 🙂