IBMs nästa generation z14 CPU Mainframe Live Blog (17:00 PT, 12:00 UTC)

IBMs nästa generation z14 CPU Mainframe Live Blog (17:00 PT, 12:00 UTC)

19:56 EDT – Sitter, redo att gå

20:01 EDT – Detta är den sista uppsättningen samtal på Hot Chips. Börjar med IBM, sedan Intel Xeon, AMD EPYC och Qualcomm Centriq

08:02 EDT – Vi har täckt Xeon, EPYC och Centriq i de senaste artiklarna, och inget nytt tillkännages för showen för dem förutom några mindre saker som vi kommer att sammanfatta i ett nyhetsinlägg

20:02 EDT – Men IBM z14 kommer att bli intressant

08:02 EDT – För att förtydliga är z-serien IBMs stordatorproduktlinje

20:02 EDT – Så det här är inte POWER8 eller POWER9

08:04 EDT – IBMs z-serie har centrala processorer och systemkontrollchips med integrerat tyg och off-compute chipcacher

08:05 PM EDT – Detta är under en “stordator”-inställning, snarare än en standard CPU/co-processor-inställning.

20:05 EDT – Dr Christian Jacobi till scenen, chefsarkitekt

20:06 EDT – z14 tillkännagavs tekniskt för några veckor sedan

08:06 EDT – Många stordatorer finns fortfarande

08:06 EDT – Används fortfarande i stora företag för transaktionsdata, t.ex. kreditkort har en stordator inblandad. 90 % av flygbolagens bokningssystem involverar stordatorer

08:07 EDT – Kör stora databaser och stort virtualiserat linux

20:07 EDT – Måste fatta designbeslut som är skräddarsydda för dessa arbetsbelastningar

08:07 EDT – z10 hade hög frekvens, z196 hade OoO, z13 hade SMT och nu z14

08:08 EDT – Stordatorn använder två olika chips – CP (kärnor och delad L3) och SCP (stor L4 och sammankopplingslogik)

08:08 EDT – Bilden är en djup låda med DRAM, PCIe och sex CP-chips under kalla plattor och en SC (SCP)

08:08 EDT – Två kluster av CP-chips ansluts till SC. Kan koppla ihop fyra lådor

08:09 EDT – CP och SC är stora chips, 17 lager metall i 14nm SOI

20:09 EDT – 10 kärnor har privat 2MB L2-i och 4MB L2-D och 128 MB delad L3

20:09 EDT – SC-chipet har 672 MB L4 och koherenslogik

08:10 EDT – Upp till 24 uttag i systemet, 32 TB RAIM-skyddat minne, 40 PCIe lane fanouts, 320 IO-kort

20:10 EDT – Ny översättning och TLB-design över z13, och allmänna pipeline-optimeringar. Ändringar i instruktionsuppsättningen också

08:10 PM EDT – Pauslös sophämtning för Java, enkel- och fyrvektorprecision för krypto

08:11 PM EDT – Registrera dig för att registrera aritmatisk

08:11 EDT – Optimering för COBOL-prestanda (……..)

20:11 EDT – T.ex. gazillioner rader av COBOL i onlinebokningssystem

08:11 PM EDT – Kompressionsacceleration

08:11 EDT – Detta är pipelinediagrammet

08:12 EDT – 5,2 GHz, superlång pipeline

08:12 EDT – 6 instruktionsanalys och avkodning, CISC-instruktionssprickning

08:12 EDT – 4-taktsladdning/användning

08:12 EDT – Katalog- och TLB-pipelineändringar

08:13 EDT – De flesta designs använder logiskt indexerad, absolut taggad katalog

08:13 PM EDT – Användning av partial compare set-predict array minskar latensen för dataretur från L1 cache – TLB och L1 katalogåtkomst sker parallellt med L1 cache läsning

20:13 EDT – (låter det inte som en förutsägelse?)

08:14 EDT – Mycket associativ TLB är yt- och kraftineffektivitet, för att begränsa TLB L1-storlek

08:14 EDT – Förlåt, jag läste fel bilden, så här ser L1-cachen ut idag

20:14 EDT – Den här nya bilden visar hur IBM använder den i z14

20:15 EDT – I-cache och D-cache är nu logiskt taggade, och kombinerar TLB1 och cachekatalog till en enda struktur

20:15 EDT – Betydande area- och effektminskning för L1-träff

20:15 EDT – Nu en superstor L2 TLB

08:16 EDT – L2 och TLB2 kan vara stora – 2MB L2I och 4MB L2D, 6k poster TLB2 för 4KB sidor

20:16 EDT – 8 cykel L2 träff latens (det är bara 1,5 ns) …

20:17 EDT – Nu krypto

08:17 EDT – Nu omdesignad för 4-7x bandbredd

08:17 PM EDT – gör det enkelt och tillräckligt snabbt för att kunna kryptera all data

08:17 EDT – kombination av operativsystem, firmware och hårdvaruimplementering

20:18 EDT – Kör 2 AES i 3 cykler

20:18 EDT – Kopiera upp till 256B per instruktion från D-cache till samprocessor

08:18 PM EDT – kan köra flera AES samtidigt, flera motorer på matrisen

08:19 EDT – 13,2 GB/sek per kärna (alltså 132 GB/s per CP och cirka 1 TB/s per 6-socket server)

08:19 EDT – Använd nya instruktioner för att mata kryptomotorn för att undvika grenar

20:19 EDT – Undvik pipelinebubblor med hjälp av nya instruktioner

20:19 EDT – Betydande ansträngning även med förhämtning

20:20 EDT – Ny GCM-instruktion

08:20 PM EDT – Algoritm som gör kryptering och signaturautentisering

08:20 EDT – Använd AES- och GHASH-motorer

08:20 EDT – de 2 motorerna som används tillsammans snarare än oberoende

08:21 PM EDT – Nu nyckelskydd – de flesta CPU:er fungerar med nycklar i minnet. CryptoExpress6S är en manipuleringssvarande PCIe-krypteringsaccelerator. Huvudnyckeln finns i ett fysiskt skyddat minne på kortet

20:21 EDT – “Rensa nyckelkryptering”

08:22 EDT – Rotnyckelåtkomst innebär vanligtvis att man kan stjäla nyckel genom memåtkomst eller kärndump. Denna metod innebär att nyckeln är skyddad av manipuleringsskydd

08:23 PM EDT – Secure Key är ett annat läge som leder all krypto från CPU:n till kortet istället

08:23 PM EDT – På så sätt ser applikationen aldrig nyckeln, bara den krypterade informationen

08:24 PM EDT – Skapar en nyckeltoken från data, som finns kvar i manipuleringssäkert minne, och när data dekrypteras slängs nyckeln och ny nyckel genereras

08:24 EDT – Datakompressionsaccelerator

08:24 EDT – Ordboksbaserad datakomprimering

08:25 PM EDT – Minskar bandbreddsbehovet mellan minne och diskar, ökar effektiviteten, implementerad som irmware och specialiserad co-processor hårdvara

20:25 EDT – *firmware

20:25 EDT – z14-prestanda vid maximal genomströmning och startfördröjning. Optimerad komprimeringsstatus återgår till firmware

08:26 PM EDT – Ordningsbevarande komprimering: Tillåter att data fortfarande jämförs när de komprimeras

08:26 EDT – Tillåter komprimerade katalog-/trädstrukturer att göra jämförelser mellan element utan dekomprimering

08:27 EDT – CP har 7b transistorer, SC har 10b transistorer

20:27 EDT – vattenkyld

08:28 EDT – av 240 processorer i ett komplett system, 170 kan kundkonfigureras

08:28 EDT – +35 % kapacitet, +10 enkelgänga, +25 % SMT2 perf över z13

20:29 EDT – Nu för frågor och svar

20:29 EDT – F: Vänligen generera arbetsstationer. Jag vill byta ut x86 med z14

20:29 EDT – (till samma pris, infoga skratt)

20:29 EDT – Ingen seriös fråga

20:30 EDT – F: Vilken effekt har chipsen?

20:31 EDT – S: Du kan få markerna att köra med vilken kraft du behöver. Skulle kunna gå 400-500W på hög arbetsbelastning. Vi siktar på runt 300-350W. Vi soppar inte – det finns bara en produkt och vi håller oss inom lådans makt

20:31 EDT – Chipsen i sig är vattenkylda, men kunder kan köra ett luftkylt system, eller så kan du ansluta datacentervatten

08:32 EDT – F: Att inte gå över PCI-kortet orsakar extra latens

08:32 EDT – S: Kortet har bara huvudnyckeln – data har en nyckelbricka, som inte behöver gå fram och tillbaka

20:32 EDT – F: Har du funderat på något som SGX?

20:33 EDT – S: Det är inte en jämförelse mellan äpplen och äpplen. Vi anser att det manipulationssäkra elementet är en nyckelfunktion i våra produkter.

08:34 PM EDT – F: Men SGX hindrar någon med en logisk analysator att gå in

08:34 EDT – S: Vår lösning behöver inte omkodas – våra kunder använder äldre mjukvara och den är transparent

20:34 EDT – F: Vad skulle du göra för att få COBOL att springa snabbare?

20:35 EDT – S: COBOL gör mycket tid på BCD-arithmetik, men det finns traditionella problemköbegränsningar, så vi använder packad BCD-beräkning för att minska den flaskhalsen

08:36 EDT – F: Vad betydde +35 % kapacitet och +25 % SMT2

20:37 EDT – S: +35 % är instruktioner för ett helt system. Den enkla tråden på +10 % är en stor skala för riktmärken för kapacitetsplanering. +25 % SMT2 från justering och justeringar i vår implementering på grund av mognad

20:37 EDT – Det verkar vara en wrap. Det här är vår sista liveblogg om Hot Chips – jag kommer att skriva upp några av dessa föredrag på mitt flyg hem imorgon. Hoppas du gillade dem 🙂

Relaterade Artiklar

Back to top button