Anslut till Senaste Tekniska Nyheter, Bloggar, Recensioner

Intel Xeon 5570: Slår SAP-rekord (scoop!)

“Core i7:s allmänna prestanda är solid, du ser på en 5 – 10% ökning av allmän applikationsprestanda vid samma klockhastigheter som Penryn”


och titta nu på grafen nedan.

Intel har tydligen tillåtit HP och Fujitsu-Siemens att bryta NDA på Xeon 5570-processorn av PR-skäl eftersom båda företagen har publicerat SAP-nummer på en Dual Xeon 5570. Xeon 5570 är baserad på samma arkitektur som Core i7. Det är en 2,93 GHz quadcore CPU med 4 gånger en 256 KB L2-cache och en enorm delad 8 MB L3.

SAP-siffrorna är helt häpnadsväckande, eftersom Intels dubbla socket kan överträffa opteronmaskiner med fyrsockel. Baserat på Barcelonas skalning, spekulerar vi att en fyrhjuling Shanghai vid 2,7 GHz skulle få prestanda för Dual Xeon 5570 utan HT.Den nya Xeon 5570 överträffar den “gamla” 5450 med 119%!!!

Dessa siffror är så höga att vi kollade och kollade igen. Databasen som används är densamma (SQL Server 2005), så om det inte finns någon otrolig inställningsparameter som HP och FS har upptäckt och som vi ännu inte har hört talas om, så är det inte det.

Vid det här laget har vi ingen aning om hur det är möjligt att en 3 GHz Nehalem överträffar den senaste Opteron med en marginal så hög som 80 % och mer. Men vi kan ge det ett försök. I en tidigare serverorienterad artikelsammanfattade vi en grov profil av SAP S&D:

• Mycket parallell vilket resulterar i utmärkt skalning
• Låg till medelhög IPC, mestadels på grund av “branchy”-kod
• Egentligen inte begränsat av minnesbandbredd
• Gillar stora cacher
• Känslig för synkroniseringsfördröjning (“cachekoherens”)

En av de största flaskhalsarna för Intel har varit synkroniseringsfördröjningen. Det är möjligt att när väl “sync”-flaskhalsen togs bort, kan Intel-arkitekturen visa sin verkliga heltalsknäckande kraft tack vare ur funktion (minnesdisambiguation) och bättre grenförutsägelse. Det är två områden där opteron-arkitekturen är fortfarande svag.

Den något lägre latensen hos Nehalems L3-cache hjälper också. Denna typ av mjukvara gör också att buffertarna fylls upp på grund av de långa beroendekedjorna. Dessa OOO-buffertar har utökats och beroendekedjorna har förkortats av en L2-cache med mycket låg latens och relativt snabb L3.

Ändå är vi helt förvånade över att skillnaden är så stor. Vi hade förväntat oss att Nehalem skulle överträffa Shanghai med lägre marginaler. Även om vi fortfarande är lite skeptiska till att skillnaden är så här stor (“för bra för att vara sant”-syndrom), ser vi inte hur man på konstgjord väg skulle kunna blåsa upp ett SAP-riktmärke. Det är säkert inte lika lätt som SPECJBB eller SPECfp/int.

Uppdatering (några timmar senare): Det verkar som att SAP-sidan hade fel om HT. Den rapporterade 8 trådar på 8 kärnor på Fujitsu Siemens Primergy Server. Certifieringssidan säger något annat: 16 trådar på 8 kärnor. Så Hyper Threading (SMT) spelar förmodligen en viktig roll i detta riktmärke då SAP-applikationen har mycket låg IPC och är väldigt parallell. Så denna fullständigt utplånande prestanda kommer från att kombinera en bred superskalär CPU med en utmärkt simultan multithreading-implementering. Hatten av för Intels ingenjörer…