Som en del av Apples vårens produktevenemang “Peek Performance” i morse, presenterade Apple den fjärde och sista medlemmen i M1-familjen av Apple Silicon SoCs, M1 Ultra. Riktat rakt mot stationära datorer – närmare bestämt Apples nya Mac Studio – finner M1 Ultra att Apple återigen höjer föreställningen när det gäller SoC-prestanda för både CPU- och GPU-arbetsbelastningar. Och i processen har Apple kastat branschen en ny kurva genom att inte bara kombinera två M1 Max-matriser i ett enda chippaket, utan genom att få de två diesna att presentera sig som en enda, monolitisk GPU, vilket markerar ännu en första för chiptillverkningsindustrin .
När Apple tillkännagav M1 Pro och den löjligt kraftfulla M1 Max förra hösten, trodde vi att Apple var klara med M1-chips. När allt kommer omkring, hur skulle du ens toppa ett enda 432 mm2-chip som redan tänjer på gränserna för tillverkningsbarhet på TSMC:s N5-process? Tja, som svaret visar sig vara, kan Apple göra en bättre. Eller kanske det vore mer korrekt att säga dubbelt så bättre. När det gäller företagets slutliga och ultimata M1-chipdesign, M1 Ultra, har Apple sammanfogat två M1 Max-matriser till ett enda chip, med alla prestandafördelar som en fördubbling av deras hårdvara skulle innebära.
Nettoresultatet är ett chip som utan tvekan lyckas vara en av de mest intressanta designerna jag någonsin sett för en konsument SoC. Som vi kommer att beröra i vår analys är M1 Ultra inte riktigt som alla andra konsumentchips som finns på marknaden för närvarande. Och medan strategin med dubbla tärningar gynnar utbredda flertrådiga CPU- och GPU-arbetsbelastningar mycket mer än den gör fler enkeltrådade uppgifter – ett område där Apple redan börjar hamna på efterkälken – bryter de i processen ny mark på GPU-fronten. Genom att göra det möjligt för M1 Ultras två dies att transparent presentera sig själva som en enda GPU, har Apple startat en ny tekniktävling för att placera multi-die GPU:er i high-end konsument- och arbetsstationshårdvara.
M1 Max + M1 Max = M1 Ultra
I hjärtat av nya M1 Ultra finns något lite äldre: M1 Max. Specifikt använder Apple två M1 Max-matriser här och binder dem sedan samman för att bilda en massiv sammanslagning av 114B-transistorer.
Eftersom M1 Max själv har skickat de senaste 5 månaderna är den grundläggande arkitekturen för chippet (och dess underliggande block) vid denna tidpunkt en känd kvantitet. M1 Ultra introducerar inget nytt i team av slutanvändarfunktioner i det avseendet, och istället handlar chippet om att skala upp Apples M1-arkitektur ett steg längre genom att placera en andra kiselmatris på ett enda chip.
Från och med hastigheter och flöden, genom att placera två M1 Max-matriser på ett enda paket, har Apple fördubblat mängden hårdvara till deras förfogande på praktiskt taget alla sätt. Det betyder dubbelt så många CPU-kärnor, dubbelt så många GPU-kärnor, dubbelt så många neurala motorkärnor, dubbelt så många LPDDR5-minneskanaler och dubbelt så mycket I/O för kringutrustning.
På CPU-fronten innebär detta att Apple nu erbjuder totalt 20 CPU-kärnor. Detta består av 16 av deras prestationsfokuserade Firestorm-kärnor och 4 av deras effektivitetsfokuserade Icestorm-kärnor. Med tanke på att M1 Ultra enbart riktar sig till stationära datorer (till skillnad från M1 Max) har effektivitetskärnorna inte lika stor roll att spela här eftersom Apple inte behöver spara energi ner till sista joulen. Ändå, som vi har sett, är de ganska potenta kärnor på egen hand, och kommer att bidra till att öka CPU-genomströmningen i chippet i kraftigt gängade scenarier.
Som är typiskt för ett Apple-produktmeddelande avslöjar företaget inte klockhastigheter här. Den skrivbordsfokuserade karaktären hos chippet innebär att Apple, om de vill, kan pressa klockhastigheterna lite högre än de gjorde på M1 Max, men de skulle behöva lämna sin energieffektivitet för att göra det.
I praktiken kommer jag att bli förvånad om M1 Ultra CPU-kärnorna klockas mycket högre än på M1 Max. Vilket för Apples CPU-prestanda är blandade välsignelser. För flertrådade arbetsbelastningar kommer 16 Firestorm-kärnor att ge tillräckligt med genomströmning för att toppa vissa prestandatabeller. Men för enkel-/lätttrådade arbetsbelastningar har Firestorm redan överträffats av nyare arkitekturer som Intels Golden Cove CPU-arkitektur. Så förvänta dig inte att se Apple återta ledningen för entrådig prestanda här; istället handlar det om MT och särskilt energieffektivitet.
Samtidigt innebär en fördubbling av antalet M1 Max dies på chipet att Apple kan fördubbla antalet minneskanaler på chipet, och därmed deras totala minnesbandbredd. Medan M1 Max hade 16 LPDDR5-6400-kanaler för totalt 408 GB/sekund minnesbandbredd, fördubblar M1 Ultra det till 32 LPDDR5-kanaler och 800 GB/sekund minnesbandbredd. Och som med M1 Max åstadkommes detta genom att löda LPDDR5-chipsen direkt till chippaketet, för totalt 8 chips på M1 Ultra.
De fördubblade minneskretsarna gör också att Apple kan fördubbla den totala mängden tillgängligt minne i sin hårdvara. Medan M1 Max toppade på 64 GB, toppar M1 Ultra på 128 GB. Det här är fortfarande mindre minne än vad som kan hittas på en riktig avancerad arbetsstation (som en Mac Pro), men det sätter Apple före alla utom de mest avancerade PC-datorerna och borde vara tillräckligt mycket för deras innehållsskapare.
Som vi såg med lanseringen av M1 Max ger Apple redan mer bandbredd till sina SoCs än vad CPU-kärnorna ensamma kan förbruka, så den fördubblade bandbredden kommer sannolikt inte att ha någon större inverkan där än att annars se till att CPU-kärnorna är lika välmatade som de är på M1 Max. Istället är all denna extra minnesbandbredd tänkt att hålla jämna steg med det växande antalet GPU-kärnor.
Vilket tar oss till den mest intressanta aspekten av M1 Ultra: GPU:n. Med 32 GPU-kärnor satte M1 Max redan rekord för en monolitisk, integrerad GPU. Och nu har Apple fördubblat saker till 64 GPU-kärnor på ett enda chip.
Till skillnad från multi-die/multi-chip CPU-konfigurationer, som har varit vanliga på arbetsstationer i decennier, är multi-die GPU-konfigurationer en helt annan best. Mängden intern bandbredd som GPU:er förbrukar, vilket för avancerade delar är långt över 1 TB/sekund, har alltid gjort det tekniskt oöverkomligt att koppla ihop dem. Som ett resultat, i ett traditionellt multi-GPU-system (som Mac Pro), presenteras varje GPU som en separat enhet för systemet, och det är upp till programvaruleverantörer att hitta innovativa sätt att använda dem tillsammans. I praktiken har detta inneburit att flera GPU:er fungerar på olika uppgifter, eftersom bristen på bandbredd innebar att de inte effektivt kan arbeta tillsammans på en enda grafikuppgift.
Men om du på något sätt kunde länka ihop flera GPU:er med en löjlig mängd die-to-die-bandbredd – tillräckligt för att replikera deras interna bandbredd – så kanske du bara kan använda dem tillsammans i en enda uppgift. Detta har gjort att kombinera flera GPU:er på ett transparent sätt till något av en helig gral av multi-GPU-design. Det är ett problem som flera företag har arbetat med i över ett decennium, och det verkar som att Apple kartlägger ny mark genom att vara det första företaget att lyckas med det.
UltraFusion: Apples Take On 2.5 Chip-förpackning
Den hemliga ingrediensen som gör allt detta möjligt – och som Apple har hållit hemligt fram till idag – är att M1 Max har ett mycket höghastighetsgränssnitt längs en av dess kanter. Ett gränssnitt som med hjälp av en kiselmellanläggare gör att två M1 Max-matriser kan kopplas ihop.
Apple kallar denna förpackningsarkitektur för UltraFusion, och det är det senaste exemplet i branschen på 2.5D-chipförpackningar. Även om detaljerna från implementering till implementering, är grunderna för tekniken desamma. I alla fall placeras någon form av kiselmellanlägg under två chips, och sedan leds signaler mellan de två chipsen genom mellanlägget. De ultrafina tillverkningsmöjligheterna hos kisel gör att ett enormt antal spår kan dirigeras mellan de två chipsen – i Apples fall över 10 000 – vilket möjliggör en ultrabred, ultrahög bandbreddsanslutning mellan de två chipsen.
Officiellt uppger Apple bara att de använder en kiselmellanläggare här, vilket är den generiska termen för denna teknik. Men med Apples reklamfilmer och mockup-animationer ser det ut som att de använder en liten kiselbrygga av något slag. Vilket skulle göra detta likt Intels EMIB-teknik eller EFB-teknik (Elevated Fanout Bridge) i implementeringen. Båda dessa finns redan på marknaden och har använts i flera år, så Apple är långt ifrån den första leverantören som använder tekniken. Men vad de använder det till är ganska intressant.
Med UltraFusion kan Apple erbjuda en otrolig bandbredd på 2,5 TB/sekund mellan de två M1 Max-matriserna. Även om vi antar att detta är en aggregerad siffra – att lägga ihop båda riktningarna samtidigt – skulle det fortfarande innebära att de har 1,25 TB/sekund i bandbredd i varje riktning. Allt detta närmar sig hur mycket intern bandbredd vissa chips använder och överstiger Apples sammanlagda DRAM-bandbredd på 800 GB/sekund.
Vi kommer att gå mer in på detta i den obligatoriska uppföljningsartikeln, men den viktiga punkten att ta bort här är att Apple har blivit den första leverantören som binder samman två GPU:er med en så enorm mängd bandbredd. Detta är vad som gör det möjligt för dem att ta ett grepp om att presentera de två GPU:erna som en enda enhet för OS och applikationer, eftersom det gör att de snabbt kan blanda data mellan GPU:erna vid behov.
Men det bör också noteras att det finns massor av detaljer som kan göra eller bryta användbarheten av detta tillvägagångssätt. Räcker till exempel 2,5 TB/sekund med tanke på GPU:ernas höga prestanda? Och vad är prestandapåverkan av den extra latensen när man går från GPU till GPU? Bara för att Apple har fördubblat antalet GPU-kärnor genom att limma ihop dem betyder det inte att Apple har fördubblat deras GPU-prestanda. Men i slutändan, om det fungerar till och med på distans, kommer konsekvenserna för GPU-designer framöver att bli enorma.
GPU-prestanda: Överträffar GeForce RTX 3090
Tack vare UltraFusion har Apple blivit den första leverantören som levererar ett chip som transparent kombinerar två annars separata GPU:er. Och även om vi måste vänta på recensioner för att ta reda på hur bra det här fungerar i den verkliga världen, är Apple förståeligt nog entusiastiska över deras prestation och dess prestandakonsekvenser.
Speciellt hävdar företaget att M1 Ultras GPU-prestanda överträffar NVIDIAs GeForce RTX 3090, som för tillfället är det enskilt snabbaste grafikkortet på marknaden. Och dessutom att de kan göra det samtidigt som de förbrukar lite över 100 watt, eller 200 watt mindre än RTX 3090.
Ur prestandasynpunkt ser Apples påståenden rimliga ut, förutsatt att deras multi-GPU-teknik fungerar som annonserat. För lika snabb som RTX 3090 är kan det inte överskattas hur många fler transistorer Apple kastar på saken än NVIDIA är; GA102 GPU som används av NVIDIA har 28,3 miljarder transistorer, medan den kombinerade M1 Ultra är 114 miljarder. Inte alla som används för grafik på M1 Ultra, naturligtvis, men med så många transistorer behöver Apple inte vara blyg för att kasta mer kisel på problemet.
Mängden kisel Apple har till sitt förfogande är också en av nycklarna till deras låga strömförbrukning. Som vi redan har sett med M1 Max har Apple byggt en tillräckligt bred GPU för att de kan hålla klockfrekvenserna bra och låga på spännings-/frekvenskurvan, vilket håller den totala strömförbrukningen nere. RTX 3090, däremot, är designad för att jaga prestanda utan hänsyn till strömförbrukning, vilket gör att NVIDIA kan få bra prestanda ur den, men bara genom att åka högt på spänningsfrekvenskurvan. Och naturligtvis har Apple en enorm tillverkningsprocessfördel här, genom att använda TSMC:s N5-process kontra Samsungs 8nm-process.
Ändå, med tanke på den banbrytande karaktären hos vad Apple försöker åstadkomma med sin transparenta multi-GPU-design, måste det betonas att Apples prestandakrav bör tas med en nypa salt, åtminstone för nu. Apple gör vanligtvis inte saker halvfärdigt, men eftersom det ännu inte är bevisat att kombinera två GPU:er på det här sättet, är lite skepsis sunt här.
Första tankar
Medan Apple har telegraferat sin avsikt att skala upp sina chipdesigner sedan de första dagarna av deras Apple Silicon-drivna Mac-datorer, tror jag att det är säkert att säga att M1 Ultra överträffar de flesta förväntningar. Efter att ha nått de praktiska gränserna för hur stora de kan göra en enda tärning, har Apple tagit det logiska nästa steget och börjat placera flera tärningar på ett enda chip för att bygga en processor av arbetsstationsklass. Ett steg som är nödvändigt, med tanke på begränsningarna, men också ett steg som historiskt sett är mer banbrytande än vad som är typiskt även för Apple.
Nettoresultatet är att Apple har tillkännagett en SoC som inte har någon peer i branschen på flera nivåer. Att använda multi-die/multi-chip i en arbetsstation är en beprövad strategi för processorer, men att göra det med GPU:er kommer potentiellt att sätta Apple på en helt egen nivå. Om deras transparenta multi-GPU-teknik fungerar så bra som företaget hävdar, kommer Apple att ligga ännu längre före sina konkurrenter både vad gäller prestanda och utveckling av den banbrytande tekniken som behövs för att bygga ett sådant chip. I det avseendet, medan Apple släpar efter branschen lite med sin UltraFusion 2.5D-chippackningsteknik, är vad de försöker göra med den mer än att ta igen förlorad tid.
Allt detta är att säga att vi är väldigt angelägna om att se hur M1 Ultra presterar i den verkliga världen. Apple har redan satt en ganska hög ribba med M1 Max, och nu siktar de på att överträffa den med M1 Ultra. Och om de kan uppnå dessa mål kommer de två gånger att ha satt en ny höjdpunkt för SoC-design inom loppet av bara 6 månader. Det är verkligen spännande tider.