Vyberte stránku

Testovali jsme Bulldozer: FX-8150 a tři základní desky 990FX na testovací lavici

Testovali jsme Bulldozer: FX-8150 a tři základní desky 990FX na testovací lavici

Technológia

Čipy jsou vyráběny na uzlu SHP společnosti GlobalFoundries s 32 nm. U buldozerů byl dříve představený SOI kombinován s Intel HKMG (High-K Metal Gate), který může pomoci v boji proti svodovému proudu. Architektura je dobře navržena tak, aby dosahovala vysokých taktovacích rychlostí („Speed ​​racer“), takže je pravděpodobné, že modelová řada zcela postrádá produkty pod 3 GHz. Všechny centrální jednotky ve starém jazyce jsou Black Edition, proto nyní nejsou konkrétně označeny.

V tomto okamžiku pojďme trochu odbočit a podívejme se také na druhou stranu mince. Nejrychlejší čtyřjádrový procesor Phenom II tiká na 3,7 GHz a 1100T na základě šestijádrového čipu Thuban tiká na 3,3 GHz. Ve srovnání je základní záběr 32nm AMD FX-8150 téměř neuspokojivě nízký a přijatelná je pouze „úroveň“ 4,2 GHz Turbo Core, která okamžitě slibuje 10–15% přebytek energie (ne). XbitLabs před rokem ventiloval, že Bulldozer překračuje hodiny 3,5 GHz, které se spojily, ale navzdory sérii skluzů. Zdá se být správné předpokládat, že stále existují vážné problémy s výrobou a výstupem nového děla, což má významný dopad na výkon.

amd_bulldozer_šestirychlostní
Druhé celé číslo pouze zvětší velikost modulu o 12 procent. [+]

Na základě mnohaletých zkušeností se zrodil i základní koncept, který byl založen na následujícím: centrální jednotky provádějí operace s pevným bodem průměrnou rychlostí přes 80 procent. Z toho je patrné, že výpočty s plovoucí desetinnou čárkou jsou v životech „stonožek“ mnohem méně přítomné. V návrhu jsou následně připojena dvě celočíselná jádra, která mají vlastní mezipaměť první úrovně, ale již musí sdílet mezipaměť druhé úrovně a jednotku s plovoucí desetinnou čárkou. AMD jednotku pojmenovala jako modul.

amd_bulldozer_one_module
Jeden modul [+]

Podle interních měření druhé celé číslo v zásadě zvětšuje velikost modulu v zanedbatelné míře, na rozdíl od toho může v ideálním případě způsobit zvýšení výkonu až o 80%. Část primární mezipaměti odpovědná za data je přímo připojena k procesorům (velikost 16 Kbyte, zpoždění 4 hodiny), ale 64 Kbyte mezipaměť určená k ukládání pokynů je již sdílena mezi integrály.

1_module_what_which
Hlouběji kopat [+]

Na základě výsledků testu je datová mezipaměť L1 nejen příliš malá, ale dokonce pomalá, což dohromady není příliš dobrá kombinace. Velikost úložiště druhé úrovně sdílené v modulu je uspokojivá, ale jeho latence je vysoká, 25–27 cyklů. Je snadné si představit, že větší mezipaměť L1 a rychlejší L2 (12-15 cyklů) by zlepšily výkon procesoru o 10-20%.

Není divu, že dosažení 8 MB L3 není ani při rychlosti světla (65 cyklů). Stručně řečeno, systém mezipaměti Bulldozer nebude osmým divem světa.

instrukce
V bludišti instrukční sady [+]

Bulldozer má v současné době nejširší sadu podpory instrukčních sad: MMX, SSE, SSE2, SSE3, SSE4A, SSSE3, SSE4.1, SSE4.2, AVX, AES, FMA4, XOP, PCLMULQDQ a samozřejmě 64bitové rozšíření. Ze dvou novinek (FMA4, XOP) má FMA4 na trhu HPC velký význam a XOP nabízí oproti multimediálním aplikacím malou výhodu. Pokud víme, nejnovější verze x264 již podporuje nové sady instrukcí. Zastaralé 3DNow! podpora byla ukončena, myslím, že to nezpůsobí mnoho čtenářů bezesných nocí.

Je známo, že se používá Intel VT pro přístup k virtuální paměti x86. IOMMU výrazně zvyšuje výkon virtualizace systému, překvapivě však špičková řešení Intel (Core i5-2600K, i7-2600K) tuto technologii nepodporují a tento „černý kruh“ zahrnuje aktuální řešení Sandy Bridge E. Opět služba navíc ve srovnání s přímou konkurencí, i když její užitečnost pro průměrného uživatele je sporná.

40
Teoreticky turbo jádro [+]

Vylepšeno bylo také jádro Turbo, které pracuje s více hodinami a ještě lépe se přizpůsobuje různým úrovním využití. Pokud jsou všechna jádra aktivní, ale jednotky s plovoucí desetinnou čárkou se aktuálně nepoužívají, projeví se hodiny Turbo Core 2.0. Postup dynamicky mění hodinové signály jader v závislosti na zátěži, neaktivní zdroje, moduly a komponenty uvnitř modulu lze odpojit, takže v této oblasti byste nerozuměli stížnosti na přední část domu. Softwarová stránka věci vás bohužel důkladně hodí do polévky.

v praxi
Praktická implementace [+]

Plánovač Windows 7 není, mírně řečeno, nejefektivnější způsob přidělování úkolů, protože často střídá přidělování úkolů mezi jádra. Další verze operačního systému problém vyřeší a brzy bude provedena oprava tohoto systému, takže - v extrémních případech to může být 15–25 procent - brzy získáme o 2–10% vyšší výkon. Další velmi příjemnou výhodou bude, že spotřebu při nečinnosti lze snížit o 4 až 5 wattů, protože moduly mohou zůstat „za chodu“ déle.

buldozerwin8_and_bf3
„Nedívej se na zuby jako dar výkonu“ [+]

buldozerbf3betafx

„Transformace“ během Battlefield 3 [+]

Battlefield 3 také dobře ukazuje, jak moc nějaká optimalizace pomáhá procesoru. V této hře může aktuálně nejvýkonnější procesor řady FX dosáhnout výkonu Core i7-2600k.

Procesory řady FX přicházejí s krytem Socket AM3 + a jsou umístěny na základních deskách čipové sady AMD řady 9. Orientaci usnadňuje také barva zásuvky, která je většinou černá. K implementaci nekonečně zvukové platformy Scorpius potřebujeme procesor řady FX, základní desku s čipovou sadou řady 9 a grafickou kartu řady Radeon HD 6000. Bulldozer má dvoukanálový řadič paměti DDR1866, který podporuje moduly 3 MHz.

phenomu_folulk

AMD FX-8150 s Phenom II X4 970 BE - shora [+]

Na závěr bychom chtěli přidat další zajímavý přírůstek. Vážná kontroverze vzbudila skutečnost, že práce odvedená za hodinu (pokyny za cyklus) u procesorů založených na buldozeru se v porovnání s předchůdcem v průměru poněkud snížila. Někteří si okamžitě představují pád architektury, jiní uvádějí podobné příklady z minulosti. V tomto ohledu se jako vždy omezme na fakta. Programátoři si dnes stále více uvědomují výhody vícejádrové optimalizace. S 8válcovým motorem, který v zásadě poskytuje dobrý výkon, málokdy přijde na mysl, co dokáže s 1 válcem.

phenomualulk

AMD FX-8150 s procesorem Phenom II X4 970 BE - spodní [+]

Příklad není nejlepší, ale může osvětlit bod. Netvrdíme, že budeme optimálně využívat osm celočíselných jader hustě, ale Turbo Core 2.0 se zaměřuje na nejvyšší možný hodinový signál (4,2 GHz). To, co je k dispozici pouze v případě K10.5 za cenu „krvavého potu“, se zde považuje za „základní hodiny“. Není pochyb o tom, že implementace AVX, FMA a XOP stála významnou sadu tranzistorů. Základy architektury se používají v několika segmentech (server, stolní počítač), takže se to zdálo jako povinný krok, ale dnes vidíme ještě méně jeho výhod (zejména v desktopovém prostředí).

socket_2k

Ležet v posteli [+]

V ideálním případě (FMA4 + AVX) se Bulldozer opravdu cítí velmi elementárně, přináší překvapivý výkon a hned staví věci do jiného světla. Podle měření z německého HT4U, během aplikace pro vykreslování C-Ray 1.1, AMD FX-8150 pracuje za stejných 15 sekund jako Intel Core i7 990X. To je přesně polovina času, který této práci zabral procesor AMD Phenom II X6 1100T. V závorkách bychom si všimli, že jsme zvážili i druhý extrém, Super PI.