2
4
8
6
plików.

Demony prędkości - GeForce GTX 280 i GTX 260

data dodania: 14-07-2008
Demony prędkości - GeForce GTX 280 i GTX 260 GeForce GTX 280 i GeForce GTX 260 to na chwilę obecną dwie najszybsze karty na rynku, które pochodzą ze stajni NVIDIA. Wymagający gracz chcący sięgnąć po coś najszybszego, nie ma wyboru.

Nowe karty od NVIDIA to kolejny krok na przód w wydajności - są jeszcze szybsze, pobierają jeszcze więcej prądu i niestety kosztują dużo. Niemniej dla osoby chcącej mieć najszybszą kartę, cena nie gra roli - liczy się tylko wydajność. Warto jednak zauważyć, że dzięki agresywnej polityce AMD najszybsze karty nie kosztują już ponad 2000 zł!


Sytuacja na rynku

Od dłuższego czasu NVIDIA wiedzie prym wśród najwydajniejszych kart. AMD próbowało zdetronizować NVIDIA poprzez kartę RADEON HD 3870 X2, ale niestety bezskutecznie. GeForce 8800 Ultra długo pozostawał niepokonany, a jego następca GeForce 9800 GX2 jest szybki, ale niestety stwarza problemy.

Po premierze kart bazujących na układzie GT200 (czyli modeli GeForce GTX 280 oraz GeForce GTX 260) NVIDIA pozostała samotna w segmencie high-end. AMD nie oferuje żadnej karty, która mogłaby stanąć w szranki z GeForce GTX 280. Niemniej AMD szykuje konkurencję - dwuchipsetową kartę RADEON HD 4870 X2. Ma ona oferować nieznacznie wyższą wydajność niż GeForce GTX 280 oraz być w zbliżonej do niej cenie.


GT200

GT200 to nazwa kodowa chipsetu graficznego, który jest sercem kart GeForce GTX 280 oraz GeForce GTX 260.

Przyjrzyjmy się diagramowi budowy jednostek w rdzeniu graficznym GT200.


Diagram GT200


Schemat jest niemal identyczny, jak w przypadku poprzednich kart - G80 czy G92. NVIDIA podąża sprawdzoną dla siebie ścieżką i nie modyfikuje struktury i hierarchii w najnowszym GPU.

Najważniejszymi i największymi blokami są te, zawierające jednostki zunifikowane. Każdy z takich bloków nazwany został przez NVIDIA jako TPC (akronim ten pochodzi od słów Texture Processing Clusters lub Thread Processing Clusters - zależnie jakie obliczenia wykonywane są na GPU). Takich klastrów TPC w GT200 znajdziemy 10 (w G80 było ich 8).

Dla każdego TPC dostępna jest niedzielona pamięci cache pierwszego poziomy - L1. Zauważyć można, że TPC posiada trzy rdzenie SM (streaming multiprocessors), a te składają się z 8 jednostek zunifikowanych (SP - streaming processors). Przy każdym TPC znajdziemy też 8 jednostek TF, zajmujących się filtrowaniem tekstur. Każdy SM posiada jedną jednostką SP, która umożliwia wykonywanie obliczeń z podwójną precyzją (czyli FP64). Wszystkie TPC mają dostęp do współdzielonej pamięci cache drugiego poziomu.

Łączna liczba jednostek SP wynosi więc 240, a TF 80. Z punktu widzenia wykonywania obliczeń podwójnej precyzji (stosowanych przy GPGPU), możemy wyróżnić jeszcze 30 jednostek SP potrafiących wykonać owe obliczenia.

Na samym dole znajdują się 32 jednostki ROP, które są w stanie zwrócić 32 piksele na każdy takt zegara. U NVIDIA to jednostki ROP odpowiedzialne są za wygładzanie krawędzi (wraz z opcją wygładzania krawędzi dla tekstur z kanałem alpha). W GT200 pracują one jeszcze efektywniej, gdyż w jednym cyklu potrafią zwrócić lub zmieszać 32 piksele. Dla przykładu, G80 posiadający 24 jednostki ROP mógł zwrócić 24 piksele w jednym cyklu, ale już tylko połowę z nich zmieszać w jednym takcie.


Porównując do chipsetu RV770, GT200 ma ponad 3-krotnie mniej jednostek SP, 5 razy mniej jednostek operujących z podwójną precyzją, ale za to dwukrotnie większą liczba jednostek ROP.

Teoretycznie więc RV770 powinien być szybszy, niż GT200. Jest jednak spora różnica w pracy samych jednostek u AMD i NVIDIA. Jednostki NVIDIA operują na skalarach, natomiast u AMD na wektorach. Ta różnica powoduje, że wydajność pojedynczej jednostki u NVIDIA jest większa, niż u AMD (aczkolwiek porównanie to jest przybliżeniem, gdyż nie można wyliczyć wprost wydajności pojedynczej jednostki). Ponadto u NVIDIA pracują one z wyższym taktowaniem - asynchronicznie w stosunku do ROP.

GPU jako CPU

Od pewnego czasu NVIDIA promuje wykorzystanie GPU do obliczeń, które do tej pory wykonywane były tylko na procesorze. Jeżeli spojrzeć na powyższy schemat pod kątem GPGPU, to można zauważyć, że NVIDIA wydzieliła 10 wielojednostkowych rdzeni.

Cały układ pracuje w architekturze MIMD. Wchodzące dane są przydzielane dla pojedynczych TPC - każdy z nich pracuje już w architekturze SIMD. Ważnymi elementami są znowu pamięci L1 i L2. Jak powyżej, pamięć L1 jest niewspółdzielona i dedykowana dla każdej z TPC z osobna. Wymiana danych pomiędzy TPC odbywa się dopiero poprzez L2. Dodatkowo, dane mogą być modyfikowane przez jednostki ROP.

NVIDIA chwali się, że na rdzeniu może pojawić się nawet i 30 000 wątków, które są zarządzane przez planistę wątków. Jego zadaniem jest tak zarządzać nimi, by wszystkie rdzenie były cały czas zajęte i żaden nie oczekiwał na dane pochodzące od innego. Z pomocą przychodzi tutaj możliwość przełączania kontekstu do innego wątku, podczas gdy obecny oczekuje na dane. NVIDIA twierdzi, że przełączanie takie odbywa się sprzętowo, przez co nie jest kosztowe z punktu widzenia czasowego.

Architektura pracy MIMD nie jest popularna w komputerach domowych - jest jednak podstawą pracy superkomputerów. Wprawdzie MIMD wchodzi do desktopowych PC-tów, ale niestety dosyć wolno - co widać w ilości programów potrafiących wykorzystać wiele rdzeni.

Dlatego też obliczenia, jakie w pierwszej kolejności portowane są z CPU na GPU, to obliczenia związane z nauką. Nic dziwnego - to tam każda dodatkowa jednostka obliczeniowa jest przydatna, gdyż wykonuje się obliczenia trwające nawet i wiele miesięcy. Często jednak obliczenia te wymagają dużej precyzji. Stosuje się standard zapisu danych zgodny IEEE 754 - oznaczony także jako FP64. Do tej pory karty graficzne nie wspierały tego standardu, co powodowało utrudnienia przy przenoszeniu oprogramowania z CPU na GPU. GT200 (podobnie jak konkurencja - RV770) posiada jednostki mogące operować z precyzją FP64.


Cały artykuł przeczytasz na: NVISION.pl

Komentarze ()

Niestety ¿aden u¿ytkownik nie doda³ tutaj komentarza. Mo¿esz byæ pierwszy! ~Komenatrze

Porada dnia

Pierwszy Macintosh powstał w 1984 roku, miał 128 KB pamięci RAM, procesor Motorola 68000 taktowany 8 MHz i stację dyskietek o 400 KB.

Ankieta

Ile cali ma ekran Twojego smartfona?