Arm’s New Cortex-A77 CPU Micro-architecture: Evolving Performance

2018 var ett spännande år för Arms egna CPU-design. Förra året i maj såg vi lanseringen av Cortex-A76 och det efterföljande resulterande kislet i form av Kirin 980 samt Snapdragon 855 SoC. Vi blev väldigt imponerade av IP: n, och Arm lyckades leverera alla dess prestanda, effektivitet och områdeslöften, vilket resulterade i några utmärkta SoC och enheter som driver de flesta av 2019: s flaggskeppsenheter.
I år följer vi upp med ytterligare ett TechDay-avslöjande, och den här gången avslöjar vi Arms uppföljning av Cortex-A76: den nya Cortex-A77. Den nya generationen är en direkt utveckling av förra årets stora introduktion av mikroarkitektur och representerar den andra instansen av Arms helt nya Austin-kärnfamilj. Idag analyserar vi hur Arm har drivit IPC för sin nya mikroarkitektur och hur detta kommer att översättas till verklig prestanda för kommande SoC och enheter i slutet av 2019 / början av 2020.
Deimos vänder sig till Cortex-A77
Tillkännagivandet av Cortex-A77 kommer inte som en överraskning när Arm fortsätter med sin traditionella årliga IP-release-kadens. I själva verket är idag inte första gången som Arm har pratat om A77: I augusti förra året hade Arm plågat CPU-kärnan när den släppte sin färdplan till 2020:
Kodnamnet “Deimos”, den nya Cortex-A77 fortsätter där Cortex-A76 slutade och följer Arms beräknade väg att leverera en fortsatt solid 20-25% CAGR av prestandahöjning med varje generation av Arms nya Austin-familj av CPU: er.
Innan vi går in i den nya Cortex-A77 bör vi titta tillbaka på hur prestandan på A76 har utvecklats för Arm:
A76 har verkligen varit en mycket framgångsrik kärna för Arm och dess licensinnehavare. Kombinationen av den helt nya mikroarkitekturen tillsammans med de stora förbättringarna som 7nm TSMC-processnoden har gett några av de största prestations- och effektivitetshopp som vi någonsin har sett i branschen.
Resultaten är att både Kirin 980 och Snapdragon 855 representerade stora hopp över sina föregångare. Qualcomm har utropat ett 45-procentigt steg i CPU-prestanda jämfört med föregående generation Snapdragon 845 med Cortex-A75-kärnor, det största generationens språng någonsin.
Medan prestationsökningen var anmärkningsvärd, var de energieffektivitetsvinster som vi såg denna generation ännu mer imponerande och resulterade direkt i förbättrad batterilivslängd för enheter som drivs av nya Kirin och Snapdragon SoCS.
Medan A76 presterade bra bör vi komma ihåg att den har konkurrens. Medan Samsungs egen mikroarkitektur i år med M4 har minskat prestations- / effektivitetsgapet ligger Exynos CPU fortfarande i stor utsträckning efter en generation, även om denna skillnad förstärks av en processnodskillnad i år (8 nm vs 7 nm). Den verkliga tävlingen för Arm här ligger hos Apples CPU-designteam: För närvarande har A11 och A12 fortfarande en stor prestations- och effektivitetsledning som uppgår till ungefär två generationer av mikroarkitektur.
Die shot-kredit: ChipRebel – Blockmärkning: AnandTech
En av Arms fortes är dock fortfarande att leverera den bästa PPA i branschen. Trots att A76s prestanda inte riktigt matchade Apples, lyckades den uppnå enastående effektivitet med otroligt små formar. I själva verket är detta ett medvetet designbeslut av Arm eftersom energieffektivitet och areaeffektivitet är bland de främsta prioriteringarna för Arms licenstagare.
Cortex-A77: En översikt på toppnivå
Cortex-A77 är en direkt mikroarkitektonisk efterträdare till A76 innebär att den nya kärnan i stort sett håller sig i linje med föregångarens funktioner. Arm säger att kärnan byggdes i åtanke med att leverantörer helt enkelt kunde uppgradera SoC IP utan mycket ansträngning.
I praktiken betyder detta att A77 är arkitektoniskt anpassad till sin föregångare och fortfarande är en ARMv8.2 CPU-kärna som är avsedd att paras ihop med en Cortex-A55 liten CPU inuti ett DynamIQ Shared Unit (DSU) -kluster.
Grundläggande konfigurationsfunktioner som A77-cachestorlekarna har inte heller förändrats jämfört med sin föregångare: Vi ser fortfarande 64KB L1-instruktioner och datacacher, tillsammans med en 256 eller 512KB L2-cache. Det är intressant här att Arm designade alternativet för en 1MB L2-cache för infrastrukturen Neoverse N1 CPU-kärna (som i sig är härledd från A76 µarch), men väljer att hålla sig till de mindre konfigurationsalternativen på klientens (mobila) CPU-IP.
Som en utveckling av A76 kommer A77-prestandahoppet som förväntat inte att vara lika imponerande, både ur mikroarkitekturperspektiv men också ur absolut prestationssynpunkt eftersom vi inte förväntar oss stora processnodförbättringar för den kommande SoC-generationen.
Här planeras A77 att fortfarande produceras på 7nm-processnoder för de flesta kunder, och Arm utropar en liknande 3GHz toppmålfrekvens som sin föregångare. Eftersom frekvensen inte förväntas förändras mycket betyder det naturligtvis att kärnans riktade + 20% prestandahöjning enbart kan tillskrivas IP: s mikroarkitektoniska förändringar.
För att uppnå IPC-vinsterna (Instruktioner per klocka) har Arm omarbetat mikroarkitekturen och introducerat smarta nya funktioner, vilket i allmänhet förbättrar CPU-IP: n till vad som resulterar i en bredare och mer utförande design.