Dagens verk är lite av en ovanlig recension; NVIDIA: s nya Jetson AGX-inbyggda systemkit är inte riktigt en enhetsplattform som vi förväntar oss att den genomsnittliga läsaren ska tänka på, mycket mindre köp. NVIDIAs förskjutning under de senaste åren från att erbjuda Tegra-chipsets till konsumentkvalitet till mer specialiserade kiselapplikationer är inte tydligare än i den nya Tegra Xavier som driver Jetson AGX. Medan styrelsens möjligheter verkligen faller utanför de flesta konsumenters användningsfall, representerar det fortfarande en mycket intressant plattform med mycket funktionalitet och kisel-IP som vi inte hittar i någon annan enhet den här dagen. Så när NVIDIA nådde ut för att erbjuda oss ett prov, bestämde vi oss för att sätta ihop en översikt på hög nivå av vad styrelsen och det nya Xavier-chipet kan göra.
Först och främst måste vi beskriva vad detta faktiskt är. Jetson AGX är en fullfjädrad liten formfaktordator / inbäddat system, med hela enhetens form inte större än 105x105mm. AGX-modulen i sig är utformad för att vara ett komplett kommersiellt system (COTS) för användning i färdiga produkter, med NVIDIA som syftar till AI (läs: neurala nätverk) centrerade användningsfall som robotik och industriell automatisering. Jetson-kort upptar vanligtvis den lilla till mellersta volymänden på marknaden och dyker upp i engångsprodukter och artiklar med begränsade produktionskörningar, där det inte är vettigt för en tillverkare att utveckla och distribuera sin egen anpassade hårdvara.
Men naturligtvis är den bara modulen bara hälften av historien. Du kan inte utveckla mot en ren modul, och det är här NVIDIA: s kompletta Jetson AGX-utvecklingssats kommer in. AGX dev-satsen levereras med allt som behövs för att köra en enskild modul, inklusive en strömförsörjning, en kylfläns och mer viktigt av alla, en breakout styrelse. Breakout-kortet erbjuder olika I / O-headers och portar, allt från dina vanliga dubbla USB-C 3.1-portar, HDMI-kontakter och Gigabit Ethernet-portar, till mer specialiserade anslutningar som MIPI CSI-2-kontakter för kameranslutning och en rad typiska utveckling styrhuvuden som en 40-stifts GPIO-kontakt.
De mer ovanliga anslutningsalternativen för Jetson AGX är PCIe Gen4 x16-kortplatsen samt en M.2 PCIe x1-förlängningsplats som är avsedd att användas för anslutningstillägg som WiFi eller mobilmoduler, båda funktioner som inte är vanligt bland armutvecklingskort eftersom de flesta SoC inte har extra PCIe-kontroller.
Kortet levereras med många andra kontakter, och det är en fråga där den nya Jetson AGX inte alls saknar flexibilitet. Ström levereras av en extern generisk 19V-strömförsörjning – den lager som levereras av NVIDIA är en 65W LiteOn-enhet som inte verkar annorlunda än de flesta bärbara laddare.
Under den ganska tunga och solida kylflänsen i aluminium hittar vi det som faktiskt driver Jetson AGX-kortet: AGX Xavier-modulen. Detta är en systemmodul som sitter ovanpå Jetson-moderkortet – modulen har inga I / O-portar i sig och fungerar bara som hjärnan i systemet och integrerar kärnkomponenterna som omger Xavier-chipet, till exempel 16 GB LPDDR4x-minne , ett litet 32 GB eMMC-lagringschip samt alla strömförsörjningskretsar för att driva de olika strömskenorna i DRAM samt IP-block i Xavier SoC.
Xavier-chipet är som sagt plattformens hjärna och representerar NVIDIAs största och mest komplexa SoC hittills. Med 9 miljarder transistorer på en matrisstorlek på 350 mm², är det en av de tunga vikterna i Arm-ekosystemet, men mellan de första tillkännagivandena och idag har Apple en NVIDIA med en uppgradering när det gäller transistorräkning eftersom den nya A12X är ett 10B-chip – in en mycket mindre tillverkningsnod.
Kommer från den traditionella PC-industrin, skjuter NVIDIA sig inte från att visa döda bilder av sina produkter, vilket är något som idag är ganska sällsynt bland Arm SoC-leverantörerna. Xavier SoC domineras huvudsakligen av två stora IP-block som består av majoriteten av det utrymme som tilldelats på matrisen: 8-kärnan “Carmel” CPU-komplex samt en fyra-kluster Volta GPU.
På hög nivå innehåller CPU-komplexet 8 Carmel CPU-kärnor konfigurerade i fyra kluster, var och en med ett par Carmel CPU-kärnor. Varje kluster har ett oberoende klockplan och delar en 2 MB cache mellan två CPU-kärnor. På högre CPU-komplexnivå hittar vi en 4MB L3-cache som serverar alla kluster. Vi vet inte för mycket om mikroarkitekturen för de nya Carmel-kärnorna – det verkar som om det här är en efterträdare till NVIDIAs Denver µarch, en design som kännetecknades av dess dynamiska kodoptimeringsförmåga. Det enda som NVIDIA annonserar är att det här är en 10-bred superscalar maskin (10 exekveringsportar i det här fallet, inte 10-bred avkodning) och har stöd för ARMv8.2 + RAS instruktionsuppsättning. Vi kommer tillbaka till CPU-kärnan senare i artikeln.
GPU i Xavier har sina rötter i Volta-arkitekturen. Här hittar vi GPU konfigurerad i fyra TPC (Texture Processing Clusters), vardera med två SM (Stream multiprocessorer), för totalt 8 SM eller 512 ALU-banor / CUDA-kärnor. En mycket intressant aspekt av GPU är att eftersom den är baserad på Volta ärver den också Tensor-behandlingsenheterna från sina större bröder. Detta ökar den totala processorkraften för GPU med upp till 22,6 8-bitars TOP eller 11,3 FP16 TOPS från Tensor-kärnorna, ovanpå respektive 2,8 respektive 1,4 TFLOP för FP16- och FP32 CUDA-operationer som tillhandahålls av SM.
Tillsammans med CPU och GPU finns det många andra viktiga block, varav många NVIDIA redan hade täckt vid sin HotChips 2018-presentation förra sommaren. Det enda blocket som verkligen förstärker Xavier SoC är det nya DLA IP-blocket: det här är väldigt mycket en ny typ av block som följer den trend vi har sett i det mobila SoC-utrymmet – en dedikerad maskininferensaccelereringsenhet som inte skiljer sig från den som vi har sett från sådana som HiSilicon eller Apple. NVIDIA: s DLA lovar prestanda på upp till 11,4 int8 TOPS och kan också FP16-drift i halv hastighet vid 5,7 TOPS. På SoC implementeras enheten som en dual-core-instans.
Vid sidan av DLA är den programmerbara visionacceleratorn återigen en nyckelkomponent i Xavier-systemet som gör att den kan fokusera på vision och i synnerhet robotik, inbäddad AI och fordonsanvändningsfall. PVA är ett mer traditionellt IP-block med vision som hanterar mer rudimentära uppgifter som objektdetekteringar på ett mycket mer effektivt sätt än det skulle kunna hanteras av GPU eller maskininferensalgoritmer. Här kommer PVA att vara det första IP-blocket efter ISP i vision pipeline som tjänar till att segmentera delar av en bild i objekt som sedan vidarebefordras till andra algoritmer som då skulle hända på GPU eller DLA.