Idag på IEEE IEDM-konferensen presenterar TSMC en uppsats som ger en översikt över de initiala resultat som den har uppnått på sin 5nm-process. Denna process kommer att bli nästa steg för alla kunder som för närvarande är på N7- eller N7P-processerna, eftersom den delar ett antal designregler mellan de två. Den nya N5-processen är inställd på att erbjuda en fullständig nodökning över 7 nm-varianterna och använder EUV-teknik i stor utsträckning över 10+ lager, vilket minskar de totala produktionsstegen över 7 nm. Den nya 5nm-processen implementerar också TSMCs nästa generation (5: e generationen) av FinFET-teknik.
Rubriknumren
Om du bara är här för att läsa nyckeln, så är de här. I avslöjandet säger TSMC att deras 5nm EUV-process ger en övergripande med en ~ 1,84x logisk densitetsökning, en 15% effektförstärkning eller en 30% effektreduktion. Det nuvarande testchipet, med 256 Mb SRAM och viss logik, ger i genomsnitt 80% och 90% + i topp, även om det minskas till storleken på ett modernt mobilchip, är avkastningen mycket lägre. Tekniken är för närvarande i riskproduktion, med högvolymsproduktion planerad till första halvåret 2020. Detta innebär att chips byggda på 5nm ska vara färdiga under senare hälften av 2020.
Från WikiChip
TSMC: s 7 nm-process ger för närvarande bara blyg av 100 miljoner transistorer per kvadratmillimeter (mTr / mm2) när man använder täta bibliotek, cirka 96,27 mTr / mm2. Detta innebär att den nya 5nm-processen ska vara runt 177,14 mTr / mm2.
Detaljerna om avkastning
Som en del av varje riskproduktion producerar ett gjuteri ett antal testchips för att verifiera att processen fungerar förväntat. I 5 nm avslöjar TSMC två sådana marker: en byggd på SRAM och en annan kamning av SRAM, logik och IO.
För SRAM-chipet visar TSMC att det har både SRAM-celler med hög ström (HC) och hög densitet (HD), i en storlek av 25000 nm2 respektive 21000 nm2. TSMC marknadsför aktivt sina HD SRAM-celler som de minsta som någonsin rapporterats.
För det kombinerade chipet anger TSMC att chipet består av 30% SRAM, 60% Logic (CPU / GPU) och 10% IO. I det chipet finns 256 megabitar SRAM, vilket betyder att vi kan beräkna en storlek. En 256 Mbit SRAM-cell vid 21000 nm2 ger en matrisarea på 5,376 mm2. TSMC säger att detta chip inte innehåller självreparationskretsar, vilket innebär att vi inte behöver lägga till extra transistorer för att möjliggöra det. Om SRAM är 30% av chipet ska hela chipet vara cirka 17,92 mm2.
För detta chip har TSMC publicerat ett genomsnittligt utbyte på ~ 80%, med ett maximalt utbyte per skiva på> 90%. Genom att känna till avkastningen och formstorleken kan vi gå till en vanlig räknemaskin för wafer per dör online för att extrapolera defekthastigheten. För att göra det enkelt antar vi att chipet är kvadratiskt, vi kan justera defektgraden för att motsvara ett avkastning på 80%. Med hjälp av räknaren skulle en 300 mm skiva med en 17,92 mm2 skiva producera 3252 stansar per skiva. Ett utbyte på 80% skulle innebära 2602 bra matriser per skiva, och detta motsvarar en defekthastighet på 1,271 per kvm.
Så en 17,92 mm2 matris är inte särskilt ett tecken på ett modernt chip på en högpresterande process. De första chipsen på en ny process är ofta mobila processorer, särskilt högpresterande mobilprocessorer som kan amortera de höga kostnaderna för att flytta in i en ny process. Dessa marker har ökat i storlek de senaste åren, beroende på modemstödet. Till exempel är Kirin 990 5G byggd på 7nm EUV över 100 mm2, närmare 110 mm2. Man kan peka på AMD: s Zen 2-chiplet som mer tillämpligt chip, eftersom det kommer från en icke-EUV-process som är mer mottaglig för att flytta till 5nm EUV, men något liknande kommer senare och kommer att använda högpresterande bibliotek för att inte vara lika täta .
Låt oss i så fall ta 100 mm2-formen som ett exempel på de första mobila processorerna som kommer ut ur TSMC: s process. Återigen, om matrisen tas som kvadrat, skulle en defekthastighet på 1,271 per cm2 ge ett utbyte på 32,0%. Detta är ganska bra för en process mitt i riskproduktionen. En avkastningshastighet på 32,0% för ett 100 mm2 chip skulle till och med vara tillräckligt för vissa tidiga personer som vill komma före spelet.
(För den som vill jämföra denna defektdensitet med storleken på Zen 2-chiplet vid 10,35×7,37mm, motsvarar det 41,0% utbyte.)
(Observera initialt när jag läste det första gången såg jag detta bara i samband med 5,176 mm2 SRAM-enbart matris. Att göra matematik skulle ha gett en defekt på 4,26 eller ett 100 mm2 utbyte på 5,40%. Detta Papperet är lite tvetydigt om vilket testchip avkastningen syftar på, och därför är min första oro endast 5,4%. I samtal med David Schor från Wikichip säger han att även 32,0% avkastning för 100 mm2 beräknad är lite låg för riskproduktion, såvida du inte är nöjd med att ta mycket risk.)
TSMC: s testchip: CPU- och GPU-frekvens
Naturligtvis kan ett testchip som ger upphov till betyda vad som helst. Ett framgångsrikt chip kan bara “tändas” och felhastigheten tar inte hänsyn till hur väl processen kan driva kraft och frekvens. Som en del av avslöjandet gav TSMC också några “shmoo” -diagram över spänning mot frekvens för deras exempel på testchip.
För CPU visar handlingen en frekvens på 1,5 GHz vid 0,7 volt, helt upp till 3,25 GHz vid 1,2 volt.
För GPU visar plottet en frekvens på 0,66 GHz vid 0,65 volt, hela vägen upp till 1,43 GHz vid 1,2 volt.
Man kan argumentera för att dessa inte är särskilt användbara: designen av CPU: er och GPU: er är mycket olika och en djupt integrerad GPU kan få en mycket lägre frekvens vid samma spänning baserat på dess design. Tyvärr avslöjar inte TSMC vad de använder som exempel på CPU / GPU, även om CPU-delen vanligtvis förväntas vara en Arm-kärna (även om det bara kan vara en enda kärna på ett chip av denna storlek). Det beror ofta på vem den ledande partnern är för processnoden.
IO-demonstration: PAM4
Ett av nyckelelementen i framtida marker är förmågan att stödja flera kommunikationstekniker, och i testchipet inkluderade TSMC också en sändtagare utformad för att möjliggöra höghastighets PAM-4.
Vi har redan sett 112 Gb / s-sändtagare på andra processer, och TSMC kunde göra 112 Gb / s här med en energieffektivitet på 0,76 pJ / bit. Genom att skjuta bandbredden ytterligare kunde TSMC få 130 Gb / s fortfarande inom toleranserna i ögondiagrammet, men med en effektivitet på 0,96 pJ / bit. Detta är bra för alla PAM-4-baserade tekniker, till exempel PCIe 6.0.
Använda EUV: En minskning av maskantalet
Efter att ha spenderat ett antal processer byggda på 193 nm-baserad ArF-nedsänkningslitografi har maskeringen för dessa mer och mer komplexa processorer varit ballong. Det som brukade vara 30-40 masker vid 28 nm går nu över 70 masker på 14nm / 10nm, med rapporter om att vissa avancerade processtekniker redan ligger över 100 masker. Med detta dokument säger TSMC att omfattande användning av EUV i över 10 lager av designen faktiskt, för första gången, kommer att minska antalet processmasker med en ny processnod.
Fördelen med EUV är möjligheten att ersätta fyra eller fem vanliga maskeringssteg som inte är EUV med ett EUV-steg. Detta kommer ner till den större definition som tillhandahålls på kiselnivå av EUV-tekniken. Baksidan är att genomströmningen av en enda EUV-maskin (175 skivor per timme per mask) är mycket långsammare än en icke-EUV-maskin (300 skivor per timme per mask), men EUV: s hastighet bör multipliceras med 4-5 till få en jämförelse genomströmning. Man borde argumentera för att TSMCs omfattande användning skulle minska antalet masker betydligt. I slutändan är det bara en liten droppe.
Om vi antar cirka 60 masker för 16FFC-processen är 10FF-processen cirka 80-85 masker och 7FF är mer 90-95. Med 5FF och EUV går antalet tillbaka till 75-80-talet, jämfört med de 110+ som det kan ha varit utan EUV. Detta förenklar saker, förutsatt att det finns tillräckligt med EUV-maskiner för att gå runt. Nya rapporter säger att ASML ligger bakom leveransen av sina order från 2019 och planerar att bygga ytterligare 25-27 år 2020 med efterfrågan på minst 50 maskiner.
Transistortyper vid 5 nm
En del av IEDM-dokumentet beskriver sju olika typer av transistor som kunder kan använda. Vi har redan nämnt de nya typerna, eVT i high end och SVT-LL i low end, men här är en rad alternativ att använda beroende på läckage och prestanda som krävs.
De tre huvudtyperna är uLVT, LVT och SVT, som alla tre har lågt läckage (LL) -varianter. Då sitter eLVT på toppen, med ett ganska stort hopp från uLVT till eLVT.
Effekten av designteknikens samoptimering (DTCO)
En av funktionerna som blir mycket tydliga i år på IEDM är användningen av DTCO. I ett nötskal är DTCO i huvudsak en processoptimeringsarm som sker som ett resultat av chipdesign – dvs det kan vara väldigt enkelt att designa ett helhetschip och sätta det på kisel, men för att få bästa prestanda / effekt / område måste den optimeras för processnoden för kislet i fråga. Effekterna av denna samoptimering kan vara dramatiska: motsvarigheten till en annan processnodhoppning i PPA är inte något att sniffa på, och det betyder också att det tar tid att implementera.
En nackdel med DTCO är att när den tillämpas på en viss process eller design betyder det att varje första generation av en framtida processnod är tekniskt sämre än den holistiska bästa versionen av föregående generation, eller i bästa fall på paritet, men mycket mer dyr. Så för att förbättra den tidigare procestekniken måste minst en generation DTCO appliceras på den nya noden innan den ens kan göras livskraftig, vilket gör att dess utbyggnad tar ännu längre tid.
Detta är en ihållande artefakt av den värld vi nu lever i. Intel, TSMC och till viss del Samsung måste tillämpa någon form av DTCO för varje ny process (och varje processvariant) för specifika produkter. För TSMC åtminstone kan vissa företag dra nytta av exklusiva rättigheter till vissa DTCO-förbättringar för att hjälpa dessa företag att få ytterligare prestandafördelar. Men det faktum att DTCO behövs bara för att dra paritet innebär att vi får en ytterligare förlängning av meddelanden om processnoder: om den inte kommer med en form av DTCO är det inte värt att meddela eftersom ingen kropp vill ha det.
Tack och lov i TSMC: s 5nm-papper på IEDM behandlas ämnet DTCO direkt. 5nm-testchipet har ett element av DTCO tillämpat snarare än att tvinga designreglerna, vilket har möjliggjort skalning av designreglerna för en total 40% -chipstorleksreduktion. Så att det totala testchipet, 17,92 mm2, skulle ha varit mer som 25,1 mm2, med ett utbyte på 73% snarare än 80%. Det låter inte så mycket, men i det här fallet hjälper varje lilla: med detta element av DTCO gör det TSMC att citera 1,84 gånger ökningen i densitet för 15 +% hastighetsökning / 30% effektreduktion.
Tyvärr har vi inte ompubliceringsrättigheterna för hela tidningen. Sök efter de som har tillgång till IEDM-papper
36,7 5nm CMOS-produktionsteknologiplattform med fullfjädrad EUV och FinFETs med hög mobilitetskanal med tätaste 0,021 µm2 SRAM-celler för mobila SoC- och högpresterande datorapplikationer, IEEE IEDM 2019
En uppenbar datapunkt som TSMC inte har avslöjat är de exakta detaljerna om dess finstigningsstorlekar eller kontaktad poly pitch (cpp), som ofta citeras när riskproduktion av nya processnoder avslöjas. Vi hoppas att TSMC publicerar dessa uppgifter i sinom tid.