Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Ponte Vecchio, Rambo Cache och Gelato

Det har gått ett par veckor sedan Intel formellt gav några detaljer på hög nivå om sin nya diskreta grafikstrategi. Anledningen till tillkännagivandena och avslöjandena handlade om Intels kontrakt med Department of Energy om att bygga Aurora, en superdator i exaskala vid Argonne National Laboratory. DoE och Argonne vill att utvecklare ska vara förtjusta i hårdvaran tidigt, så när superdatorn kan användas kan den användas med så lite “inlärningstid” som möjligt. Detta innebär att Intel var tvungen att ta fram en del av sin strategi, samt lyfta locket på sin första tillkännagivna diskreta GPU-produkt. Endast tiden kommer att visa om det är en bro för långt eller över oroligt vatten, men idag känner vi det som Ponte Vecchio.

Intel On Discrete Graphics: A Quick Recap

Medan Intel har haft en grafikportfölj i några decennier har dessa grafiklösningar begränsats till inbäddad grafik och integrerade grafiklösningar. Det gjordes ett litet försök att flytta in i grafikutrymmet och spela med de stora pojkarna, med Intel i740, men det var länge sedan. Intels nuvarande grafikarkitektur, kallad ‘Gen’, används för närvarande i hundratals miljoner mobila enheter och finns i ett stort antal stationära processorer, även om en diskret GPU används istället.

Intel har haft stora förhoppningar om grafikutrymmet tidigare. Känd som ‘Larrabee’, Intel försökte konstruera vad som i huvudsak var x86-baserad grafik: med breda vektormotorer baserade på samma kodsökväg som Intel-processorer var tanken att tillhandahålla avancerad grafikprestanda med enkel programmering i vanlig CPU-kod . Medan den produkten faktiskt körde ett antal grafiska demonstrationer genom åren, slutade hårdvaran att användas på den högpresterande datormarknaden, där vissa utvecklare såg användningen av fem dussin 512-bitars breda vektorenheter helt fantastiskt för deras simuleringar. Detta var födelsen av AVX-512, som har bott på och nu i Intels Xeon skalbara processorer samt konsumentkvalitet Ice Lake bärbara processorer. Produkten som “Larrabee” slutade som, Xeon Phi, fick ett antal superdatorvinster och ursprungligen var Xeon Phi “Knights Hill” -produkten avsedd att läggas in i Aurora 2020. Men Xeon Phi-programmet varade bara några generationer, med den slutliga ‘Knights Mill’ hårdvaran som inte används i stor utsträckning och därefter läggs på betesmark.

Snabbspolning framåt flera år, och vissa justeringar av ledningen, och Intel har än en gång beslutat att gå in på den stora grafikmarknaden. Den här gången går de med något mer konventionellt, något som ser mer ut som en traditionell grafisk design. Medan projektet startade någonstans för cirka tre år sedan var det stora tillkännagivandet att Intel var seriöst när företaget anställde Raja Koduri, AMD: s grafiska chef i december 2017, och sedan Jim Keller, den kända SoC Guru. Raja Koduris titel, Chief Architect, och hans två decenniers erfarenhet av att bygga grafiklösningar hos AMD och Apple visade hur seriös Intel var med detta.

Sedan december 2017 har Intel inte sagt så mycket om sina nya grafikplaner. Under Ari Rauch anställdes anmärkningsvärda marknadsföringspersoner och analytiker för att vara en del av teamet. Intel avslöjade vid sin Arkitekturdag i december 2018 att grafiklösningarna de skulle erbjuda skulle vara en fullständig topp-till-botten-implementering, som täcker lågeffektsintegrerad grafik hela vägen till high-end. Vid den tidpunkten Intel uppgav att det skulle finnas två huvudsakliga GPU-mikroarkitekturer, alla byggda från “Xe” -arkitekturen. Xe är tänkt att stå för ‘eXascale for Everyone’ (snarare än x ^ 2.718), med marknadsföringsmeddelandet att Intel vill ge avancerad prestanda och effektivitet var som helst det kan.

Som en del av HPC DevCon och Intels tillkännagivande med DoE / Argonne lyfts slöjan och vi fick veta lite mer än bara informationen på hög nivå. Vi hade turen att prata med Raja Koduri i en världsomspännande exklusiv för evenemanget, som hans första officiella 1-mot-1-intervju sedan han gick med i Intel. Det är värt att läsa och ger hans perspektiv på många idéer, liksom några av de beslut han har tagit.

https://www.anandtech.com/show/15130/anandtech-exclusive-an-interview-with-intels-raja-koduri-about-xe

Den här artikeln kommer att dyka in i Intels HPC DevCon-information om deras grafikstrategi. Här kommer vi att täcka några av blurb om Intels stora planer, den nya “tredje” mikroarkitekturen i Xe som heter Xe-HPC, den nya GPU-produkten “Ponte Vecchio”, Intels nya Memory Fabric, en uppdelning av oneAPI-programvarustacken som presenteras och vad allt detta betyder för resten av Intels grafikplattform.

Exscale för alla

Intel säger att det är svårt att inte märka det ‘omättliga’ kravet på snabbare, mer energieffektiv beräkning. Inte bara det, men vissa människor vill ha den beräkningen i stor skala, särskilt i ‘exascale’. (Det avslöjades trots allt vid en högpresterande superdatorhändelse). För 2020 och därefter har Intel utsetts till “Exascale” -åldern inom datorer, där ingen mängd beräkning är tillräckligt bra för ledande forskning.

Utöver detta pekar Intel på antalet anslutna enheter på marknaden. För några år sedan förutspådde analytiker 50 B IoT-enheter 2020-2023, och i denna presentation säger Intel att i mitten av 2020 och därefter kommer det att finnas 100 miljarder enheter som kräver någon form av intelligent beräkning. Övergången till att implementera AI, både när det gäller utbildning och inferens, innebär att prestanda och beräkningsförmåga måste vara allestädes närvarande: bortom nätverket, bortom den mobila enheten, bortom molnet. Det här är Intels vision om vart marknaden ska gå.

Intel delar upp detta i fyra specifika kategorier av beräkning: Scalar, Vector, Matrix och Spatial. Det här är verkligen en del av presentationen som jag kan säga att jag håller med, efter att ha gjort högpresterande programmering under en tidigare karriär. Scalar Compute, är den vanliga dagliga beräkningen som de flesta system körs på. Vektorberäkning går till parallella instruktioner, medan matrisberäkning är samtalspunkten för tillfället, med saker som tensorkärnor och AI-chips som alla arbetar för att optimera matrisgenomströmningen. Den andra delen av ekvationen är rumslig beräkning, som härrör från FPGA-marknaden: för gles beräkning som är komplex och kan optimeras med sin egen icke-standardiserade beräkningsmotor, sedan löser en FPGA det. Uppenbarligen Intels mål här är att täcka vart och ett av dessa fyra hörn med dedikerad hårdvara: CPU för Scalar, GPU för Vector, AI för Matrix och FPGA för Spatial.

Ett av problemen med hårdvara, när du flyttar från CPU till FPGA, är att den blir mer och mer specialiserad. En CPU kan till exempel göra Scalar, Vector, Matrix och Spatial, i en nypa. Det kommer inte att vara mycket bra på några av dessa, och energieffektiviteten kan vara dålig, men det kan åtminstone göra dem som en startpunkt för andra saker. Med GPU, AI och FPGA kommer dessa hårdvaruspecialiseringar med olika mängder av komplexitet och en högre inträdesbarriär, men för de som kan utnyttja hårdvaran är stora hastigheter möjliga. I ett försök att göra beräkningen mer allestädes närvarande driver Intel sin oneAPI-plan med en enda fokalresurs för alla fyra typer av hårdvara. Mer om detta senare.

Intels Xe-arkitektur kommer att ligga till grund för all sin GPU-hårdvara. Det representerar en ny grundläggande redesign från sin nuvarande grafiska arkitektur, kallad ‘Gen’, och drar in vad företaget har lärt sig från produkter som Larrabee / Xeon Phi, Atom, Core, Gen och till och med Itanium (!). Intel avslöjade officiellt att det har sin första Xe-kisel tillbaka från fabrikerna, och har utfört kraftcykling och grundläggande funktionstestning med det, angelägna om att marknadsföra att det är en verklig sak.

Hittills är den senaste “Gen” -grafiken som vi har sett är Gen11-grafiklösningen, som finns på de senaste Ice Lake-datorerna. Dessa finns ute på marknaden, färdiga att köpa idag och har prestanda 2x jämfört med tidigare Gen9 / Gen9.5-mönster. (Jag bör påpeka att Gen10 levererades i Cannon Lake men var inaktiverat: det här är den enda grafen någonsin där jag har sett Intel officiellt erkänner existensen av Gen10-grafik.) Vi har sett diagram, antingen potentiellt från Intel eller någon annanstans, som visar ‘ Gen12 ‘. Det verkar som att ‘Gen12’ bara var ett innehavsnamn för Xe, och faktiskt inte existerar som en iteration av Gen. När vi frågade Raja Koduri om framtiden för Gen sa han att alla Gen-utvecklarna nu arbetar med Xe . Det finns fortfarande grafikuppdateringar för Gen, men programvaruutvecklarna som kan överföras till Xe har redan gjorts.

Om du bara ska läsa en sak idag, så vill jag gå vidare till Rajas sista bild av vad han presenterade på HPC DevCon. Att sätta ett ganska ambitiöst mål framför publiken visade att Intel vill kunna ge en prestanda på 500 gånger per servernod i slutet av 2021 jämfört med prestanda per nod 2019.

Nu är det värt att notera att detta mål inte specifikt spikades ner: jämför vi vektorkod som körs i skalärt läge på en enda 6-kärnig Xeon Bronze 2019 med ett optimerat dubbeluttag med sex Xe-GPU 2021? 500x är en stor satsning att göra, så jag hoppas att Intel är redo.

På de närmaste sidorna kommer vi att täcka Xe, Ponte Vecchio, oneAPI och Aurora.