Vyberte stránku

Vyzkoušeno: AMD GCN - Představujeme Radeon HD 7970 a HD 7950

Nadešel čas, abychom konečně představili architekturu AMD GCN (Graphics Core Next) a její dva nejsilnější zástupce, Radeon HD 7970 a Radeon HD 7950.

Loga článků GCN

Z HD 7950 jsme okamžitě vzdali hold dvěma z nich, takže jsme měli také možnost otestovat CrossFireX a také jsme provedli vyladěná měření s oběma kartami. Samozřejmě jsme také poslali několik jezdců proti dvěma novým kanónům, abychom zjistili, jak moc se karty zrychlily ve srovnání s předchozí generací GeForces a Radeonů. 


Než se dostaneme k účastníkům a testům, podíváme se blíže na architekturu GCN a převezmeme funkce HD 7970 a HD 7950.

 allcardsboxes 2k

 Další grafické jádro

V květnu 2007 společnost AMD představila grafickou kartu Radeon HD 2900 XT, která již byla postavena na jednotné architektuře shaderu. Jak se ukázalo, design měl řadu nedostatků, ale problémy byly téměř úplně odstraněny v době řady Radeon HD 4000, což společnosti poskytlo oporu na trhu stolních grafických karet. V tomto okamžiku bylo vidět, že nyní jsou nutné radikální změny. Série HD 6900 „Cayman“ je považována za první krok. Zde byly předchozí 5cestné superskalární procesory (VLIW5) nahrazeny 4cestnými procesory (VLIW4) a Cayman byl prvním čipem, který zpracovával několik nezávislých toků instrukcí. Další velkou novinkou bylo zavedení dvou „grafických modulů“, které zdvojnásobily kapacitu nastavení trojúhelníku - zvýšení teselační síly - a počet některých prvků (Rasterizer, Hierarchical Z, Tessellator). Dnes se stal předmětem našeho testu další úrovně. Díky architektuře zvané Graphics Core Next (GCN) se shaderová pole, která pracují s dosud používanými instrukcemi VLIW, stala zastaralými a nahradila je takzvanými Compute Units (CU). GCN debutovalo v rodině Radeon HD 7900 „Tahiti“.

19 m

Je zajímavé, ale nepřekvapuje, že Tahiti GPU dosáhly vynikající hustoty tranzistorů díky 28nm výrobní technologii TSMC - obsahují 365 miliardy tranzistorů na 4,3 čtverečních milimetrů. Jedna výpočetní jednotka obsahuje čtyři SIMD a jednu skalární jednotku. Vlajková loď AMD Radeon HD 7970 „Tahiti XT“ pracuje s 32 aktivními CU za předpokladu celkem 2048 16 shaderových procesorů (čtyři 64-way SIMD, XNUMX ALU). Vzhledem k dosavadnímu pokroku generací se to na první pohled nezdá být výjimečnou hodnotou, ale kvůli lepší efektivnosti a využití je třeba poznamenat, že z tohoto technického řešení nestojí za to náhodou vyvodit dalekosáhlé závěry indikátor. Teoreticky může CU fungovat stejně jako jedna jednotka Cayman SIMD. Hlavním problémem předchozích generací je závislost na datech (postupné instrukce na sobě závisí na datech), což způsobilo značné kolísání využití. Architektura GCN je také krokem vpřed v této oblasti, protože eliminuje dříve zkušené závislosti prostřednictvím zpracování proudu. Výhody jsou pouze v nadpisech: plánování, ladění, odhad očekávaného výkonu a vývoj ovladačů se také radikálně zjednodušily a zprůhlednily. 

24

36 mCU obsahuje nejen čtyři jednotky SIMD, ale má také svůj vlastní plánovač, 340 kB vyrovnávací paměti a texturovací klastr. Toto je součet vektorového registru 4 × 64 KB, 64 kB lokálního sdílení dat, skalárního registru 4 KB a mezipaměti první úrovně s kapacitou 16 kB. Obrázek výše ukazuje další komponentu, která rozhodně stojí za zmínku, a to je takzvaná „Branch & Message Unit“, která hraje roli v efektivnějším řízení programu.
Pokud máme dosavadní informace, podívejme se znovu na klíčové parametry grafického procesoru „Tahiti XT“: 32 CU (2048 shader procesorů, 128 SIMD), 128 texturovacích jednotek, 512 jednotek Load-Store a celkem 8,2 MB mezipaměti. Takže postavení dívky bylo hned jiné, i když jsme se právě začali „svlékat“.

35 mČelní

Pokud jde o rozhraní, můžeme vidět výrazné rozdíly ve srovnání s architekturou NVIDIA GF110. Správa se v zásadě nedělá na úrovni CU. Tuto úlohu provádí příkazový procesor a Asynchronous Compute Engine (ACE). Čip dostal dva geometrické motory, které kromě Geometry-Assembler, Vertex-Assembler, obsahují také jednotky tessellatoru deváté generace. Komunikaci s CU usnadňuje Global Data Share (GDS), jejímž prostřednictvím mohou tyto jednotky také navzájem sdílet data. Část frontendu obsahuje dva rasterizéry - rozložení vidíte níže.

37

ROP a paměťové rozhraní
AMD Tahiti obsahuje 8 clusterů ROP - v tomto okamžiku jsme našli shodu s čipem Cayman. Každé takové „pole“ obsahuje čtyři jednotky ROP a 16 samplerů. Je důležité zmínit, že každý cluster dostal svou vlastní mezipaměť. Došlo k další zásadní změně: již neexistuje přímé připojení k řadiči paměti. Tento krok má zlepšit flexibilitu a použitelnost, což můžeme vidět v kontextu Pitcairnu… ROP mohou zapisovat do mezipaměti L768 2 KB, kterou lze zase číst více jednotkami. Paměťové rozhraní přijímá radostný obraz. Šest 64bitových řadičů paměti má celkovou kapacitu 384 bitů. K tomu bychom jen přidali slovo. Konečně! Výchozí velikost videopaměti je 3072 MB, ale teoreticky jsou také možné 1536 MB a 6 GB.

Doufáme, že to naši čtenáři neberou ve špatném jménu, ale v tomto okamžiku bychom vyjádřili náš osobní názor na backendovou oblast. Vztah mezi Barts, který si vedl opravdu dobře, a čipem Cayman, který vykazuje relativně skromné ​​výsledky, naznačuje, že „obecným problémem“ čipů AMD je těsná kapacita ROP. Ani na Tahiti zde nedošlo k žádnému pokroku, zatímco o novosti čipu by se dalo psát stránky s trochou nadsázky. Role ROP je zvláště prominentní během her, během úkolů a aplikací GPGPU se stávají druhými houslisty. Je také jisté, že tato část spotřebovává velké množství tranzistorů, což se samozřejmě projeví i na velikosti čipu.

 

Vylepšení AMD dosud do značné míry sloužila potřebám hráčů. Nyní došlo k obratu nejméně o 90 stupňů a stala se silnou křižovatkou pro splnění profesionálních potřeb, pro širší používání GPU. Samozřejmě to není problém, protože v zásadě mluvíme o velmi hrubé úrovni výkonu, která jistě několik let vydrží zkoušky moderních her. Podle pověstí nejen AMD, ale také NVIDIA zachází s ROPs úzce s Keplerem.

Rozšíření paměťové sběrnice byl chvályhodný krok. Ve skutečnosti neměli designéři moc na výběr. Hodiny již nelze výrazně zvýšit, ale čip po datech hladuje. Podle našeho názoru by tento krok samotný mohl zvýšit výkon během her až o 15 procent.

44DirectX 11.1 a PCI Express 3.0
Standard PCI-Express 3.0 zvyšuje rychlost z 16 GB / s na 32 GB / s, čímž zdvojnásobuje rychlost přenosu dat u PCIe 2.0. Výrobci základních desek se okamžitě „kousli do předmětu“, ale bez ohledu na to, kolik chtějí, přepínač v tuto chvíli nenabízí významnou výhodu. PCIe 3.0 je z marketingového hlediska důležitá zbraň, povinný standard pro AMD a NVIDIA a další „past na peníze“ pro uživatele.
DirectX 11.1 může začít dobývat následující operační systém Windows, který obsahuje drobné opravy a optimalizace. Podle oficiálního materiálu můžeme od nového API očekávat nativní stereofonní 3D podporu a efektivnější rasterizaci. Bohužel snad nejzajímavější bod, který pojednává o tom, jak lze zlepšit flexibilitu a širokou použitelnost grafického hardwaru, nebyl podrobně popsán.

31 m

Architektura Graphics-Core-Next vypadá zhruba takto. Čip samozřejmě neslouží pouze potřebám hráčů, ale má také prostor pro profesionální úkoly. Teoretický výpočetní špičkový výkon Tahiti (pro výpočty s dvojitou přesností) je 947 GFLOP, čtyřikrát vyšší pro operace s plovoucí desetinnou čárkou s jednou přesností. Paměti navíc podporují ECC a GPU dobře zná rozhraní API DirectCompute 11.1, OpenCL 1.2 C ++ AMP.27 Nové funkce: Zero-Core
Obecně platí, že špičkoví dravci na úrovni Radeon HD 7900 jsou zvyklí konzumovat jako tabu, ale inženýrům AMD chybí vynalézavost. Myšlenka je jednoduchá, ale skvělá, ale ne nová. Pokud necháte počítač delší dobu, ale z nějakého důvodu jej nechcete vypnout, můžete ponechat monitor pouze v pohotovostním režimu. Díky technologii ZeroCore Power lze při vypnutém displeji vypnout celý grafický řadič a v této podobě není nutné žádné aktivní chlazení. Výhody jsou přesvědčivé: nulový šum, spotřeba energie 3 watty. Pro mnohé to bude nepodstatný faktor, ale postup pro čtyřcestné systémy Crossfire vypíná jiné než primární grafické karty, což výrazně snižuje váš účet za elektřinu - i když kdokoli, kdo myslí na takovou sestavu, řeší energetickou účinnost málo.

21a

20

Eyefinity 2.0
Jednou ze zajímavých funkcí nové verze je, že vám umožňuje vést konferenční konverzace s více monitory s vícepásmovým zvukem. Oficiální název postupu je Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 lze připojit ke třem monitorům současně, které mohou přijímat osmikanálový zvukový tok. To nemusí zvlášť zajímat domácí uživatele, ale je to dobrý příklad toho, v kolika oblastech lze nové dělo použít. Vyvíjí se také jednotka Catalyst, která usnadňuje například umístění zásobníku a umožňuje kompilaci vlastních rozlišení. Stojí za zmínku, že stereofonní 3D obsah Full HD lze zobrazit také v režimu Eyefinity. 

29 m

UVD a VCE
UVD 3.0 již nabízí hardwarovou akceleraci pro obsah DivX / Xvid, MPEG-4 část 2 MVC a Video Code Engine (VCE) je prakticky ekvivalentem AMD k Intel Quick Sync Video. VCE je samostatný hardware a je navržen pouze k urychlení překódování videí H.264. Engine je pomalejší než shaderové procesory v grafickém procesoru, ale mnohem energeticky efektivnější. Uživatelé mají k dispozici dva režimy. Zpočátku funguje pouze VCE, což je samo o sobě rychlejší než většina CPU. V takovém případě zpomalení nezažijeme, můžeme bez problémů načíst grafickou kartu nebo centrální jednotku. Druhou možností je hybridní režim. Aritmeticko-logické jednotky VCE a GPU skočí na úkol společně. Toto „manželství“ má samozřejmě dobrý vliv na rychlost kódování, ale v takovém případě se nedivte, když se vaše oblíbená hra přepne do režimu „slideshow“.

32

Nyní, když jsme si vědomi teorie a čísel, pojďme se seznámit se třemi modely GCN v testu!