Det var mindre än tre år sedan som Intel släppte Pentium II Xeon-processorn. Baserat på samma kärna som Pentium II och Celerons för dagen, introducerades Pentium II Xeon för att erbjuda en avancerad arbetsstation/serverprocessor som kunde fortsätta där Pentium Pro slutade.
Ett av huvudmålen bakom Xeon var att erbjuda en processor som var tillräckligt kraftfull för att hantera de mest CPU-intensiva arbetsstations- och serveruppgifterna samtidigt som den behöll funktionerna i P6-kärnan som gjorde det möjligt för den att fungera bra även på hem- och kontorsuppgifter. Tanken på att ha en specialiserad dator för arbetet men att inte kunna använda den för dina hem-/spelapplikationer bekämpades av lanseringen av Pentium II Xeon. Pentium II Xeon hjälpte också till att vinna ytterligare mark på marknaden för flerprocessorarbetsstationer som tidigare dominerats av icke-x86-erbjudanden.
Den allra första Pentium II Xeon hade en fullhastighets L2-cache på upp till 2MB. Men eftersom 0,25-mikron Pentium II-matrisen redan var ganska stor, var L2-cachen inte på die, utan den fanns i ett separat chip som var anslutet till CPU-kärnan med en extern buss. Xeon-familjen har definitivt kommit långt sedan de första dagarna 1998. Med Pentium III Xeons krympning till en process på 0,18 mikron kunde processorkärnan hysa en on-die L2-cache på upp till 2MB, vilket ökade cachen enormt. plattformens prestanda.
Idag fortsätter Intel sin trend att segmentera sina flaggskeppsprocessorer genom att introducera nästa generations Xeon-processor, baserad på Pentium 4:s Willamette-kärna. Denna processor, märkt precis som Intel Xeon-processorn, lanseras på 1,4 GHz, 1,5 GHz och 1,7 GHz och har en kärna som är nästan identisk med den nuvarande stationära Pentium 4 med några mindre ändringar.
Arkitekturen för Intel Xeon
Intel Xeon-processorn delar exakt samma kärna som den stationära Pentium 4, vilket innebär att samma funktioner som Pentium 4 kan skryta med, Xeon kan göra detsamma. Detta betyder också tyvärr att samma brister som påverkade Pentium 4 också kommer att påverka Xeon.
Vi har förklarat arkitekturen bakom Pentium 4 många gånger, så här är en kort sammanfattning av alla de viktigaste funktionerna bakom Pentium 4 och Xeon:
Hyper Pipelined Technology – Xeon har en mycket längre pipeline än antingen Pentium III eller Athlon. Detta betyder tyvärr att Xeon åstadkommer mindre per klocka, men det banar väg för Xeon att uppnå mycket högre klockhastigheter. Teorin bakom detta är att aktiveringen av mycket högre klockhastigheter kommer att tillåta Xeon att erbjuda en större prestandafördel jämfört med sina föregångare eftersom att kunna göra mindre per klocka spelar ingen roll om du kan slå otroligt höga klockhastigheter. Ett exempel skulle vara att Pentium III bara kunde nå 1GHz på sin 0,18-mikron-process medan Xeon för närvarande är på 1,7GHz på samma 0,18-mikron-process. Och som du snart ska se finns det en tydlig prestandaskillnad mellan de två.
Förbättrad Branch Prediction – Uppenbarligen med en så lång pipeline är det nödvändigt att ha en förbättrad Branch Prediction Unit som Xeon kan skryta med. BPU:n är utan tvekan den mest avancerade i denna sektor, vilket är något som har hållit tillbaka Athlons prestanda något. I vilket fall som helst måste Xeons BPU vara solid, annars skulle påföljderna förknippade med dess Hyper Pipelined Architecture lamslå P4:an så att den inte kan gottgöras.
Motor för snabb exekvering – Två av Xeons ALU:er (Aritmetic Logic Units: de hanterar heltalsoperationer) är dubbelpumpade, vilket innebär att de överför dubbelt så mycket data per klocka som effektivt ger dem en genomströmning identisk med den för ALU:er som arbetar med dubbelt så mycket kärnfrekvens. I fallet med 1,7 GHz Xeon betyder detta att ALU:erna fungerar som om de vore normala ALU:er (inte dubbelpumpade) klockade till 3,4GHz. Som vi har upptäckt tidigare är detta nödvändigt för att ge Xeon respektabel prestanda när den körs heltalskod. Heltalskod är i allmänhet mycket mer mottaglig för felförutspådda grenar, de lägre latensen/högre effektiva klockade ALU:erna gör att grenfelsförutsägelserna som är förknippade med Xeon:s extremt långa pipeline kan minimeras när man hanterar heltalsoperationer.
12K mikro-op-spårningscache – Denna speciella cache ersätter och förbättrar den traditionella L1-instruktionscachen. Den associativa 8-vägsuppsättningen Execution Trace Cache cachelagrar mikrooperationer efter att de har avkodats och de cachelagras också i den förutsagda vägen för exekvering. Detta hjälper till att dölja några av prestationspåföljderna som orsakas av en så lång pipeline.
256KB avancerad överföringscache – Xeons L2-cacheundersystem är minst sagt ganska otroligt. Processorn har inte bara en 256-bitars intern väg till sin L2-cache, den kan också överföra data från cachen en gång varje klocka, vilket innebär att den har de högsta cachebandbreddssiffrorna av alla processorer i sin klass. Vid 1,7 GHz har Xeon maximalt 54,4 GB/s bandbredd till/från sin L2-cache. I jämförelse kan en Pentium III på 1,0 GHz bara erbjuda 16 GB/s bandbredd för L2-dataöverföringar och på samma sätt kan en Athlon på 1,33 GHz bara erbjuda 10 GB/s toppbandbredd (Athlon har bara en 64-bitars dataväg till sin L2) .
Hårdvaruförhämtning – Xeon kan förutsäga vilken data den kommer att behöva innan den faktiskt begärs att hämta den från huvudminnet och den kommer att hämta den direkt till cachen, så när den efterfrågas finns data redan i dess cache. I händelse av att data inte behövs blir detta ett slöseri med cacheutrymme och även FSB/minnesbandbredd. I båda fallen är Hardware Prefetch en FSB/minnesbandbreddssvin som tur är hjälper denna nästa funktion i Xeon-arkitekturen att undvika att det blir ett problem.
Quad pumpad 100MHz FSB + Dual Channel RDRAM – Xeon har en 100MHz FSB som är quad-pumpad för att erbjuda databandbredd motsvarande den för en 400MHz FSB, vilket innebär att den kan överföra högst 3,2 GB/s data till Xeon. Den här bussen körs synkront med i850:s (P4-kretsuppsättning) dubbelkanals RDRAM-inställning som körs på 400MHz över en 2 x 16-bitars breda bussar, för totalt 3,2 GB/s toppminnesbandbredd. Även om RDRAM inte var nödvändigt på Pentium III-plattformen, i kombination med Xeon, är den bandbredd som RDRAM erbjuder mycket uppskattad.
SSE2 – Xeon erbjuder en förbättring jämfört med de ursprungliga 70 SSE-instruktionerna med sina 144 nya SSE2-instruktioner, men även under SPEC CPU2000, antas prestandaförbättringen som erbjuds av SSE2-optimeringar enbart vara runt 5 %. Eftersom SPEC CPU2000 är ett mycket syntetiskt riktmärke, är det osannolikt att SSE2 skulle omvandlas till några verkliga prestandavinster i dagens applikationer. En sak som inte tas med i beräkningen här är SSE2:s förmåga att hantera två 64-bitars SIMD-Int och SIMD-FP (Single Instruction Multiple Data; klicka här för en förklaring) operationer. Denna förmåga utnyttjas inte i SPEC CPU2000 och kan visa sig vara en av SSE2:s största tillgångar.