Видеокарты 

Матч-реванш "красных", или Обзор графической архитектуры AMD Radeon HD 48ХХ. Тестирование видеоускорителя PowerColor HD 4850 512 MB

версия для печати послать другу 0
|| Содержание статьи

Показать одной страницей

06.10.2008 00:05 Автор: Дмитрий Трамбицкий

Серия: AMD Radeon HD 4850
Стоимость (Минск): $190
Стоимость (Москва): $170
 
Пожалуй, за два последних года дела у компании AMD/ATI на графическом фронте оставляли желать лучшего. Производитель долгое время пытался выпустить мощное графическое решение, которое бы заставило содрогнуться калифорнийского гиганта NVIDIA. Однако угнаться за конкурентом, как оказалось, не так-то просто.
 
Первые графические решения AMD/ATI на базе унифицированной архитектуры (вспомним, например, Radeon HD 2900 XT) были не столь удачными продуктами. Высокая стоимость производства и, как следствие, цена, неадекватная производительность в соответствующем ценовом сегменте, проблемы с драйверами - все это вынуждало производителя снижать (причем значительно) стоимость на свою продукцию, что являлось единственным выходом из сложившейся ситуации.
 
К сожалению, в следующем поколении видеокарт (RV670) AMD/ATI решила не учитывать все весомые архитектурные недостатки прошлого чипа, а просто выпустила cчитай тот же R600, только на новом техпроцессе. Не сказать, чтобы в итоге получилось плохо, однако для серьезной конкуренции с NVIDIA этого явно было недостаточно.
 
При создании нынешнего поколения чипов RV770, который положил начало линейке плат серии 48ХХ, инженеры AMD, конечно же, постарались проработать и устранить слабые места прошлой архитектуры. Насколько хорошо это у них получилось, без всестороннего анализа возможностей чипа сказать пока трудно. Однако уже сам факт анонса заставил действительно заволноваться NVIDIA, которая заявила о существенном снижении цен на  некоторые свои видеокарты. Значительно упала стоимость  GeForce 9800 GTX –  с $299 до $199! Пересмотру стоимости подверглись также GeForce GTX 260 и 280 (последняя сразу же упала на $100). Да, AMD действительно наступила на больной мозоль своему конкуренту, выпустив действительно нечто стоящее…
 
Сегодня, собственно говоря, мы рассмотрим возможности новинки AMD/ATI RV770, которая так напугала NVIDIA, и попутно протестируем младшего представителя семейства 48ХХ – видеокарту PowerColor HD 4850.
 
Архитектура графического чипа RV770 – основные особенности и концепция
 
Отметим сперва технические характеристики RV770 (на базе AMD Radeon HD 4850):
  • кодовое название чипа - RV770;
  • технологический процесс изготовления - 55 нм;
  • количество транзисторов - 956 млн;
  • частота работы ядра - 625 МГц;
  • 800 унифицированных процессора, работающих на частоте 625 МГц;
  • 40 блоков текстурной фильтрации с поддержкой операций с плавающей запятой FP16 и FP32;
  • 16 блоков записи в кадровый буфер (ROP);
  • ширина шины памяти - 256 бит;
  • объем видеопамяти - 512/1024 МВ типа GDDR3 с частотой 2000 МГц;
  • полоса пропускания памяти - 64 GB/s;
  • аппаратная поддержка - АРI Direct X 10.1, Shader Model 4.1, а также OpenGL 2.1;
  • поддерживаемый интерфейс шины - PCI-Express x16 rev 2.0;
  • возможность организации массива из двух видеокарт AMD CrossFire;
  • аппаратное декодирование видео;
  • интерфейсы 2x DVI Dual Link, HDMI, HDTV;
  • интегрированная в ядро поддержка TV-выхода.
Как уже упоминалось выше, архитектура чипа RV770 является полноправной "работой над ошибками" прошлого RV670.
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
В новом ядре производитель попытался не только уместить огромное количество исполнительных блоков, но и провел целый комплекс мероприятий и усовершенствований архитектуры, направленных на повышение эффективности и производительности чипа RV770.
 
a.jpg
 
Первое, что сильнее всего бросается в глаза, – огромный модуль унифицированных шейдерных блоков (или потоковых процессоров). Этот модуль выделяется на фоне таких важных составных частей любого чипа, как блоки записи в буфер кадра или текстурные блоки. Более того, AMD в первую очередь упоминает значительно возросшее относительно RV670 число потоковых процессоров – 800 (напомним вам - у прошлого поколения чипов их было только 320).
 
На фоне этого даже нынешний флагман NVIDIA GeForce GTX 280 с его 240 процессорами (Stream Processors, SP) выглядит скудновато, однако это всего лишь небольшие маркетинговые ухищрения AMD, а на самом деле с этим не все так уж гладко. Чуть позже мы попытаемся раскрыть эту магию чисел, а пока пробежимся по узловым моментам архитектуры RV770.
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Частоты ядра видеокарты составляют 625/750 МГц (для плат HD 4850/4870 соответственно), что меньше, чем у прошлого RV670. Этот факт лишь можно объяснить возросшей сложностью производства GPU, так как в "упаковку" производитель впихнул вместо 320 уже 800 потоковых процессоров.  
 
Все потоковые модули GPU работают на частоте, соответствующей ядру. Для сравнения: шейдерный домен конкурирующего чипа NVIDIA спокойно работает на частоте 1.2 ГГц, чем уже практически удваивает свою производительность по сравнению с решением AMD.
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Как видно из схемы выше, компания решила отказаться от разрекламированной технологии кольцевой структуры шины памяти (ring bus) и перешла на архитектуру с центральным концентратором (хабом). Благодаря более грамотному распределению потоков между исполнительными блоками ядра, интерфейса PCI Express, UVD2, контроллерами вывода, значительно повысился КПД полосы пропускания чипа.
 
В результате этого контроллер, обладающий поддержкой памяти GDDR5, даже с 256-битным интерфейсом демонстрирует эффективную полосу пропускания до 120 GB/s. 
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Как заявляет производитель, была улучшена эффективность работы модуля Ultra-Threaded Dispatch Processor или диспетчера потоков. Как следует из названия, этот модуль ответственен за распределение нагрузки на исполнительные блоки, в первую очередь на потоковые процессоры. Ведь унифицированная шейдерная архитектура с ее гибкостью и возможностью исполнения на одних и тех же блоках различных операций предъявляет серьезные требования к модулю распределения вычислений, которым и является диспетчер потоков. Здесь мы также видим и слабое место архитектуры – даже при заявленном количестве одновременно выполняемых потоков, составляющем тысячи, эффективность архитектуры сильно зависит от софтверной оптимизации. Чем больше на вход диспетчера поступит инструкций, выполнение которых можно распараллелить, тем быстрее будет происходить рендеринг. Таким образом, оптимизацией инструкций на уровне драйвера и самого приложения (игры) можно добиться очень и очень многого.
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Кроме того, новичок R770 обзавелся усовершенствованным блоком тесселизации, новым аппаратным видеодекодером, улучшена эффективность блоков TMU и ROP. Итак, обо всем по порядку.
 
Уже начиная с архитектуры Radeon HD 2000, AMD использует несколько иные потоковые процессоры, нежели те, что использует NVIDIA в G80/84/92/94. Если посмотреть на самую первую блок-схему архитектуры R770, то можно заметить, что шейдерные блоки сгруппированы по пять. Такая группа называется суперскалярным процессором, и именно ее следует считать основным структурным  блоком модуля обработки шейдеров. Однако в целях маркетинга AMD считает каждый отдельный ALU (арифметико-логическое устройство), входящий в суперскалярный процессор, за потоковый процессор, откуда и проистекает красивая цифра 800 потоковых процессоров. Приглядимся поближе к одному такому суперскалярному процессору.
 
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Как и у прошлого RV670, входящие в чип ALU (в дальнейшем мы будем называть потоковые процессоры AMD именно так) совсем не равнозначны. Только один из пяти ALU (он обозначен более толстым "кирпичиком") способен исполнять специальные функции, такие, как синус, логарифм, экспонента, и так далее. Остальные четыре арифметико-логических устройства предназначены для выполнения операций сложения-умножения, как и обычные ALU в центральных процессорах. Сходство дополняется также поддержкой этими ALU полной 32-битной точности вычислений и инженерного стандарта IEEE 754. Означает это, что на R770 без особого труда можно организовать ускоритель определенных видов вычислений, например, различного рода научных или экономических калькуляций. Каждый из 160 суперскалярных процессоров R600 дополнительно снабжен блоком предсказания ветвлений (еще одна архитектурная аналогия – префетч у CPU), что повышает эффективность работы на шейдерах с большим числом переходов.
  
Тестирование видеоускорителя PowerColor HD 4850 512 MB
 
Все вычислительные модули ALU архитектуры RV770 объединены в 10 SIMD ядер (по 80 штук скалярных или 16 суперскалярных в каждом). В итоге мы имеем только лишь 160 универсальных модулей по пять ALU в каждом. Ну а далее идет маркетинг – 160*5=800.
 
Напрямую сравнивать 160 суперскалярных процессора RМ770 со 240 скалярными потоковыми процессорами GT200 нельзя. Во-первых, все 240 процессоров NVIDIA умеют производить как элементарные функции (сложение-умножение), так и специальные (синус, косинус, экспонента), а также целочисленные операции, в то время как только 20% ALU в RV770 могут выполнять весь набор данных действий. Получается, что в идеальной ситуации за такт будет обрабатываться 800 операций. Но сможет ли компилятор нагрузить каждый из ALU своей операцией в реальных приложениях? В худшем случае мы получим только одну операцию на суперскалярный процессор, то есть 160 за такт против 240/192 на данный момент у NVIDIA.
 
Таким образом, мы видим, что архитектура шейдерных блоков у AMD дает нам колоссальную разбежку между пиковой и минимальной производительностью, а в реальных приложениях почти все зависит от эффективности поданного на GPU кода. К счастью, почти все обрабатываемые величины (значения цвета пикселей, положения вершин и так далее) обычно являются четырехкомпонентными, и при грамотной компиляции будут задействованы, как минимум, 80% всех ALU. NVIDIA же предлагает абсолютно стабильную производительность шейдеров, которая слабо зависит от характера исполняемого кода. В итоге подход у компаний просто разный, и назвать какой-то из них более удачным просто невозможно. Быть может, некоторые точки над "i" позволит расставить дальнейшая разработка ПО, использующего мощности GPU для неграфических нужд, но пока о прямом сравнении шейдерных архитектур говорить рано.

|| Комментарии на форуме 0
Оставить комментарий