Вы следовали слухам и игнорировали шумиху; вы ждали Комментарии и посмотрел все метрики. Наконец, вы вложили деньги и ушли с одной из последних видеокарт от AMD или Nvidia. Среди них большой графический процессор, заполненный миллиардами транзисторов, работающий на тактовых частотах, которые были немыслимы десять лет назад.

Вы действительно довольны своей покупкой и игры выглядели не лучше и играли лучше. Однако вам может быть интересно, что именно работает на вашем новом Radeon. RX 5700 а как разные в чипе GeForce RTX.

Добро пожаловать на страницу сравнения архитектуры и функций AMD и Nvidia: Navi и новейшие графические процессоры Turing.

Анатомия современного графического процессора

Прежде чем мы начнем разбирать общие структуры микросхем и систем, давайте взглянем на базовую форму, которой следуют все современные графические процессоры. По большей части, эти процессоры представляют собой калькуляторы с плавающей запятой (FP); Другими словами, они выполняют математические операции с десятичными / дробными значениями. Таким образом, по крайней мере, графический процессор должен иметь логический блок, предназначенный для этих задач, а это обычно FP ALU (устройства арифметической логики с плавающей запятой) или для краткости FPU. Не все вычисления, выполняемые графическими процессорами, находятся в значениях данных FP, поэтому также будет ALU для целого числа (целое число) может быть тем же модулем, который обрабатывает математические операции или оба типа данных.




Теперь этим логическим модулям понадобится что-то, чтобы организовать их путем декодирования и организации, чтобы они были заняты, и это будет в форме по крайней мере одной специальной группы логических модулей. В отличие от ALU, они не могут быть запрограммированы конечным пользователем; вместо этого поставщик оборудования гарантирует, что этот процесс полностью управляется графическим процессором и его драйверами.




Также должна быть какая-то структура памяти для хранения этих инструкций и данных, которые необходимо обработать. На самом простом уровне он будет в двух формах: тайник и точка локальная память. Первый будет встроен в графический процессор и ПОЗОР. Этот тип памяти быстрый, но занимает относительно большую часть схемы процессора. Локальная память ДРАМАОн немного медленнее, чем SRAM, и обычно не загружается на графический процессор. Локальная память на большинстве видеокарт, которые мы видим сегодня GDDR Модули DRAM.

Наконец, он включает дополнительные задачи настройки, такие как создание 3D-графики, создание треугольников из углов, растеризация 3D-кадра, выборка и смешивание текстур. Как и блоки команд и управления, они тоже постоянная функция в природе. То, что они делают и как они работают, полностью прозрачно для пользователей, которые программируют и используют GPU.




Давайте соберем это вместе и сделаем графический процессор:




Оранжевый блок - это блок, который обрабатывает текстуры с помощью так называемого блоки наложения текстуры (TMU'lar) - TA адресация текстуры volume - создает области памяти для использования кеш-памяти и локальной памяти - и TF не приносят текстуры собирает значения текстуры из памяти и объединяет их. Сегодня TMU практически одинаковы для всех поставщиков, потому что они могут обрабатывать, выбирать и смешивать несколько значений текстуры за такт GPU.




Блок ниже записывает значения цвета пикселей в кадре, производит их обратную выборку (PO) и смешивает (PB); этот блок также выполняет операции, используемые при применении сглаживания. Название этого блока: модуль вывода рендеринга or создать бэкэнд (Сокращенно ROP / RB). Как и TMU, они теперь становятся довольно стандартными, каждый из которых может обрабатывать несколько пикселей за такт.

Однако наш базовый графический процессор был бы ужасен даже по стандартам 13 лет назад. Зачем?

Есть только один FPU, TMU и ROP. В 2006 году графические процессоры Nvidia, такие как GeForce 8800 GTX, имели 128, 32 и 24 процессора соответственно. Итак, давайте начнем что-нибудь с этим делать ...




Как и любой хороший производитель процессоров, мы обновили графический процессор, добавив еще несколько блоков. Это означает, что чип может обрабатывать больше инструкций одновременно. Чтобы помочь с этим, мы добавили еще несколько кешей, но на этот раз рядом с логическими модулями. Чем ближе кэш к структуре калькулятора, тем быстрее он может быть инициализирован в назначенных ему транзакциях.

Проблема с нашим новым дизайном заключается в том, что для работы с нашими дополнительными ALU все еще доступен только один контроллер. Было бы лучше, если бы у нас было больше единичных блоков, каждый из которых управлялся бы своими отдельными контроллерами, поскольку это означает, что мы можем выполнять очень разные операции одновременно.

Теперь это больше! Отдельные блоки ALU, заполненные собственными TMU и ROP и подкрепленные восхитительно вкусными и быстрыми срезами кеша. Это по-прежнему всего лишь одно из всего, но базовая структура находится не на расстоянии миллиона миль от графического процессора, который мы видим сегодня на компьютерах и консолях.

Navi ve Turing: Godzilla GPU'ları

Теперь, когда мы определили базовую компоновку графического чипа, хотя и немного увеличили и обработали, чтобы выделить различные структуры, Navi vs. Начнем наше сравнение по Тьюрингу.

Слева - новейший процессор AMD. Общий дизайн микросхемы называется Navi (некоторые называются Navi 10), а графическая архитектура называется RDNA. Рядом с ним справа - полноразмерный процессор Nvidia TU102 с новейшей архитектурой Turing. Важно отметить, что эти изображения не масштабируются: площадь матрицы Navi составляет 251 мм2, а у TU102 - 752 мм2. Процессор Nvidia большой, но не в 8 раз больше, чем у AMD!

Обе колоссальный количество транзисторов (10,3 против 18,6 миллиарда), но TU102 имеет в среднем ~ 25 миллионов транзисторов на квадратный мм по сравнению с 41 миллионом у Navi на квадратный мм.

Это связано с тем, что, хотя оба чипа производятся TSMC, они производятся на разных технологических узлах: Nvidia Turing находится на зрелой производственной линии 12-нм, а AMD Navi производится на более новом 7-нм узле.

Простой просмотр изображений пресс-форм мало что говорит нам об архитектуре, поэтому давайте взглянем на блок-схемы графических процессоров, созданные обеими компаниями.

Диаграммы не являются 100% реалистичным представлением фактических макетов, но если вы повернете их на 90 градусов, можно будет определить различные блоки и центральную полосу, появляющиеся на обоих. Для начала мы видим, что два графических процессора имеют общую структуру, подобную нашей (хотя больше, чем что-либо еще!).

Оба дизайна следуют многоуровневому подходу к тому, как все устроено и сгруппировано - чтобы начать использовать Navi, графический процессор состоит из двух блоков, которые ищет AMD. Шейдерные двигатели (SE), каждый из них называется 2 блоками асинхронный Вычислительные машины (ACE). Каждый из них содержит 5 блоков в названии. Процессоры для рабочих групп (WGPs), состоящий из 2 Блоки обработки информации (Озе).

Имена и числа отличаются для дизайна Тьюринга, но иерархия очень похожа: 6 Кластеры обработки графики (GPC), по 6 шт. Кластеры обработки текстур (TPC), по 2 шт. Потоковый мультипроцессор (SM) блоки.

Если вы видите графический процессор как большую фабрику, где разные отделы производят разные продукты, используя одно и то же сырье, такая организация приобретает смысл. Генеральный директор завода отправляет бизнесу все операционные детали, а затем разделяет их на различные задачи и рабочие нагрузки. Имея более одного, независимый На фабрике повысилась производительность труда. Для графических процессоров ничем не отличается, и вот волшебное ключевое слово время.

Фронт и центр, Солдат - Время и отправка

Как мы смотрим на Упражнения по созданию 3D-игрМы видели, что графический процессор - это не что иное, как сверхбыстрый калькулятор, выполняющий серию математических операций над миллионами фрагментов данных. Нави и Тьюринг классифицируются следующим образом: Одна команда, несколько данных (SIMD), но лучшее объяснение Single Way Multi Нить (Смысл).

Современная 3D-игра создает сотни потоков, иногда тысячи, поскольку количество вершин и пикселей для рендеринга огромно. Чтобы все это было сделано всего за несколько микросекунд, важно иметь как можно больше логических модулей, не останавливая все, потому что требуемые данные находятся не в нужном месте или недостаточно места для ресурсов для работы внутри.

Когда мы взглянули на то, как работает создание 3D-игр, мы увидели, что графический процессор - это не что иное, как действительно быстрый калькулятор, и мы выполнили различные математические операции с миллионами данных. Navi и Turing классифицируются как процессоры Single Command Multiple Data (SIMD), но лучшим объяснением будет Single Command Multiple Threads (SIMT).

Navi и Turing работают аналогично, поэтому центральный блок берет все потоки, а затем начинает программировать и транслировать их. В чипе AMD эта роль Графический командный процессор; Nvidia'da, GigaThread Motoru. Потоки организованы так, что потоки с одинаковыми инструкциями сгруппированы в набор из 32 групп.

AMD эта коллекция волнатогда как Nvidia это кривизна. Для Navi вычислительный блок может обрабатывать 2 волны (или волну из 64 потоков, но этот процесс занимает в два раза больше времени), а в Turing многопроцессор Stream работает с 4 деформациями. В обоих дизайнах волна / деформация независимы, что означает, что другим не нужно заканчивать ее перед началом.

До тех пор между Navi и Turing не сильно различались - оба были разработаны для обработки большого количества потоков для создания и вычисления рабочих нагрузок. Нам нужно посмотреть, на каких процессорах должны работать эти потоки, чтобы увидеть, в чем дизайн двух гигантов GPU отличается.

Исполнительная разница - RDNA и CUDA

Хотя большая часть используемой терминологии кажется одинаковой, AMD и Nvidia используют совершенно другой подход к комбинированным шейдерным блокам. Исполнительные блоки Nvidia (ЧУДЕСА семена) цифровой в природе - это означает, что модуль выполняет математическую операцию над компонентом данных; В отличие от блоков AMD (Потоковые процессоры) работа над векторов - операция над несколькими компонентами данных. Есть только одна конкретная единица для скалярных операций.

Прежде чем мы подробно рассмотрим исполнительные блоки, давайте рассмотрим собственные модификации AMD. В течение 7 лет видеокарты Radeon следовали архитектуре под названием Graphics Core Next (GCN). Каждый новый чип изменял различные аспекты дизайна, но все они были в основном одинаковыми.

AMD представила краткую историю архитектуры GPU:

GCN был развитием TeraScale, конструкции, которая позволяет обрабатывать большие волны одновременно. Главное в TeraScale было то, что это было непросто против программистов, и для достижения наилучшего результата требовались очень специфические процедуры. GCN исправила это и предоставила гораздо более доступную платформу.

CU в Navi были значительно изменены из GCN в рамках процесса улучшения AMD. Каждый CU содержит два набора:

  • 32 SP (векторные ALU IEE754 FP32 и INT32)
  • 1 SFU
  • 1 INT32 весы ALU
  • 1 блок хронометража и доставки

Помимо этого, каждая CU содержит 4 единицы ткани. Существуют и другие устройства для выполнения операций чтения / записи данных из кеша, но они не показаны на изображении ниже:

По сравнению с GCN, настройка RDNA CU может не сильно отличаться, но все важное здесь организовано и организовано таким образом. Начнем с того, что каждый набор из 32 SP имеет свой собственный выделенный блок инструкций, GCN имела только одну программу для 4 наборов из 16 SP.

Это важное изменение, означающее, что на каждый набор SP может быть доставлена ​​одна волна из 32 потоков за такт. Архитектура RDNA также позволяет векторным модулям обрабатывать волны из 16 потоков с удвоенной скоростью и волны из 64 потоков вдвое, поэтому код, написанный для всех предыдущих видеокарт Radeon, по-прежнему поддерживается.

Эти изменения будут очень популярны среди разработчиков игр.

Для скалярных операций теперь есть два модуля, которые могут их обрабатывать; единственное сокращение количества компонентов происходит в виде SFU - это специальная функция единицывыполняет очень специфические математические операции, например. тригонометрические (синус, тангенс), обратные (1, деленная на число) и квадратные корни. В RDNA их меньше, чем в GCN, но теперь они могут работать с вдвое большими наборами данных, чем раньше.

Эти изменения будут очень популярны среди разработчиков игр. На старых видеокартах Radeon была большая потенциальная производительность, но это было очень сложно сделать. Теперь AMD сделала большой шаг в направлении уменьшения задержки при обработке инструкций и сохранения функций, чтобы обеспечить обратную совместимость для всех программ, разработанных для архитектуры GCN.

А как насчет профессиональной графики или компьютерного рынка? Для них эти изменения тоже полезны?

Краткий ответ - да (наверное). Текущая версия чипа Navi, установленная на аналогичной Radeon RX 5700 XT, имеет меньше потоковых процессоров, чем предыдущая конструкция Vega, тогда как мы выступили лучше Radeon RX Vega 56 предыдущего поколения довольно проста:

Частично этот прирост производительности будет достигнут за счет более высокой тактовой частоты RX 5700 XT, чем RX Vega 56 (так что он может записывать больше пикселей в секунду в локальную память), но упадет на целых 15% при максимальной производительности целых чисел и с плавающей запятой; тем не менее, мы обнаружили, что чип Navi работает на 18% лучше, чем Vega.

Ученые, работающие с профессиональными программами рендеринга и сложными алгоритмами, не забивают себе голову несколькими раундами Battlefield V в своей работе (т.е. может быть...) только если скалярные, векторные и матричные операции, выполняемые в игровом движке, обрабатываются быстрее корабль превратить его в компьютерный рынок. В настоящее время мы не знаем, каковы планы AMD на профессиональном рынке - они могут хорошо сочетаться с архитектурой Vega и помочь улучшить дизайн, производство, но, учитывая достижения в Navi, компания переместит все на новую архитектуру.

Дизайн графического процессора Nvidia претерпел аналогичную эволюцию с 2006 года, когда они запустили серию GeForce 8, хотя и менее радикальные изменения, чем у AMD. Этот графический процессор создал первую архитектуру Tesla, в которой использовался первый шейдерный подход в архитектуре исполнения. Ниже мы можем видеть изменения в блоках SM от преемника Теслы (Ферми) до предшественника Тьюринга (Вольта):

Как упоминалось ранее в этой статье, ядра CUDA цифровой. Они могут выполнять одну команду с плавающей запятой и одну целочисленную инструкцию за такт для компонента данных (обратите внимание, однако, что для обработки самой инструкции может потребоваться несколько тактовых циклов), но блоки синхронизации объединяют их в группы, и они могут выполнять векторные операции для программиста. Самым значительным изменением за последние годы стало не только увеличение количества единиц, но и то, как они организованы и сегментированы.

В проекте Kepler полный чип имел 5 GPC, каждый из которых содержал три SM-блока; Когда появился Pascal, GPC были разделены на отдельные разделы (TPC) с двумя SM на TPC. Как с дизайном Navi. эта фрагментация важна, поскольку позволяет использовать общий графический процессор с максимальной возможной полнотой; Множественные независимые наборы команд могут обрабатываться параллельно, что увеличивает производительность процессора и вычислительную мощность.

Давайте посмотрим на Тьюринговый эквивалент RDNA Computing Unit:

SM содержит 4 блока транзакций, каждый из которых содержит:

  • 1 блок диспетчеризации и отправки инструкций
  • 16 IEE754 FP32 весов ALU
  • 16 весов INT32 ALU
  • 2 тензорных цвета
  • 4 SFU
  • 4 Загрузка / Хранение (выполнение операций чтения / записи кеша)

Также есть 2 модуля FP64 на SM, но Nvidia больше не отображает их на блок-схемах, и каждый SM имеет 4 текстурных модуля (включая системы адресации текстур и фильтрации текстур) и 1 ядро ​​RT (Ray Tracing).

ALU FP32 и INT32 могут работать одновременно и параллельно. Это важная функция, потому что движки 3D-рендеринга часто требуют вычислений с плавающей запятой, но есть разумное количество простых целочисленных операций (например, вычисление адресов данных), которые необходимо выполнить.

Тензорные ядра - это специальные ALU, которые выполняют матричные операции. Матрицы представляют собой «квадратные» массивы данных, а ядра Tensor работают на матрице 4 x 4. FP16 предназначен для обработки компонентов данных INT8 или INT4, так что операция с плавающей запятой выполняется до 64 FMA (объединенное умножение-пост-сложение) за один такт. Такой вид расчета называется нейронные сети и умозаключение - не совсем обычное явление в 3D-играх, но активно используется пользователями Facebook в автомобилях с алгоритмами анализа социальных сетей или системами самоуправления. Navi также может выполнять матричные вычисления, но для этого требуется большое количество SP; В системе Тьюринга матричные операции могут выполняться, в то время как ядра CUDA выполняют другую математику.

RT Core - еще одно специальное устройство, уникальное для архитектуры Тьюринга, которое выполняет очень специфические математические алгоритмы, используемые для системы трассировки лучей Nvidia. Полный анализ этого выходит за рамки данной статьи, но RT Core - это две системы, которые работают отдельно от остальной части SM, поэтому, пока RT Core занят вычислениями, он может работать с пиковыми или пиксельными шейдерами. для трассировки лучей.

На базовом уровне у Navi и Turing есть исполнительные блоки, которые предлагают довольно похожий набор функций (требование, которое возникает из-за соответствия требованиям Direct3D, OpenGL и т. Д.).

На базовом уровне у Navi и Turing есть исполнительные модули, которые предлагают довольно похожий набор функций (требование, которое возникает из-за соответствия требованиям Direct3D, OpenGL и т. Д.), Но они используют совершенно другой подход к тому, как эти функции. законченный. Когда дело доходит до того, какой дизайн лучше, речь идет о том, как они используются: FP32 - программа, которая производит векторные вычисления и большое количество малоэффективных потоков, предпочтет Navi, тогда как программа с множеством целочисленных, с плавающей запятой, скалярных и векторных вычислений обеспечит гибкость Тьюринга. предпочитает и др.

Иерархия памяти

Современные графические процессоры предназначены для выполнения ряда операций с потоковыми процессорами, то есть с каждым элементом потока данных. Это делает их менее гибкими, чем ЦП общего назначения, а также требует оптимизации иерархии памяти микросхемы, чтобы получать данные и инструкции для ALU как можно быстрее и в как можно большем количестве потоков. Это означает, что у графических процессоров будет меньше кеша, чем у ЦП, поскольку большая часть чипа должна быть выделена для объема кеша, а не для доступа к кешу.

И AMD, и Nvidia прибегают к использованию нескольких кешей внутри чипов, поэтому давайте сначала посмотрим, что упаковывает Navi.

Начиная с самого нижнего уровня в иерархии, два блока потоковых процессоров используют в общей сложности 256-фунтовый векторный регистр общего назначения (обычно лог-файл) Было столько же, сколько у Веги, но между 4 блоками SP; Отсутствие регистров при попытке обработать большое количество потоков действительно снижает производительность, так что это определенно "хорошо". AMD также значительно увеличила скалярный файл записи. Если раньше было всего 4 килобайта, то теперь это 32 килограмма на скалярную единицу.

Затем два вычислительных блока совместно используют 32-фунтовый кэш L0 и 16-фунтовый кэш скалярных данных, но каждый CU получает свой 32-фунтовый векторный кэш L0; Подключение всей этой памяти к ALU представляет собой 128-фунтовый локальный общий ресурс данных.

В Navi два вычислительных ядра создают процессор рабочей группы, а пять из них образуют асинхронный вычислительный механизм (ACE). Каждый ACE имеет доступ к собственному 128-фунтовому кэшу L1, а весь графический процессор дополнительно поддерживается 4 кэшами L2 MiB, которые подключаются к кешам L1 и другим частям процессора.

Поскольку система строго используется для обработки 16 контроллеров памяти GDDR6, она является формой проприетарной архитектуры подключения AMD Infinity Fabric. Чтобы максимизировать пропускную способность памяти, Navi также использует сжатие цвета без потерь между L1, L2 и собственной памятью GDDR6.

Опять же, все это особенно приветствуется по сравнению с предыдущими чипами AMD, у которых не было достаточно низкоуровневого кеша для количества содержащихся в них блоков затенения. Короче говоря, больше кеша означает больше внутренней пропускной способности, меньше медленных инструкций (потому что они должны извлекать больше данных из памяти) и т. Д. И это просто означает лучшую производительность.

Что касается иерархии Тьюринга, следует сказать, что Nvidia застенчива, когда доходит до предоставления глубоких знаний в этой области. Ранее в этой статье мы видели, что каждый SM разделен на 4 блока транзакций - каждый имеет файл журнала размером 64 фунта меньше, чем тот, который находится в Navi, но имейте в виду, что ALU Тьюринга являются скалярами, а не векторами. , единицы.

Затем 96 кбайт общей памяти для каждой виртуальной машины можно использовать как 64 кбайт кэша данных L1 и 32 кбайт кэша тканей или дополнительного пространства для записи. В «режиме вычислений» общая память может быть разделена на разные разделы, например 32 КБ общей памяти и 64 КБ кеш-памяти L1, но всегда делится на 64 + 32 раздела.

Отсутствие подробностей о системе памяти Turning заставило нас хотеть большего, поэтому мы обратились к группе исследователей графических процессоров, работающей в Citadel Enterprise Americas. Недавно они опубликовали две статьи. Время ve Тьюринг архитектуры; На изображении выше показана фрагментация иерархии памяти в микросхеме TU104 (полный кэш L2 TU102 на 6144 кБайт).

Команда подтвердила, что пропускная способность кэша L1 составляет 64 бита за цикл, и заявила, что при тестировании эффективность кеша L1 Тьюринга была лучшей из всех графических процессоров Nvidia. Это на одном уровне с Navi, хотя чип AMD имеет более высокую скорость чтения для локального хранилища данных, но более низкую скорость для инструкций / фиксированных кешей.

Оба графических процессора используют GDDR6 для локальной памяти - это последняя версия Graphics DDR SDRAM - и оба используют 32-разрядные подключения к модулям памяти, поэтому Radeon RX 5700 XT Он имеет 256 микросхем памяти и обеспечивает максимальную пропускную способность 256 ГиБ / с и 8 ГиБ пространства. один GeForce RTX 2080 Ti С чипом TU102 он работает с 11 такими модулями с пропускной способностью 352 ГиБ / с и хранилищем 11 ГиБ.

Документация AMD иногда может показаться запутанной: на первой блок-схеме мы видим, что Navi показывает четыре 64-битных контроллера памяти, а на более позднем изображении показано 16 контроллеров. Учитывая Samsung предлагает только 32-битную GDDR6 Кажется, что второе изображение показывает, сколько соединений существует между системой Infinity Fabric и контроллерами памяти. Контроллеров памяти, вероятно, всего 4, и каждый использует по два модуля.

В целом, похоже, нет большой разницы между Navi и Turing, когда дело касается их кешей и локальной памяти. Navi немного больше приближается к стороне исполнения с его более крупными кэшами инструкций / констант и L1, но оба заполнены, оба используют сжатие цвета, где это возможно, и оба имеют множество пользовательских шаблонов графического процессора при доступе к памяти и используется для увеличения пропускной способности.

Треугольники, текстуры и пиксели

Пятнадцать лет назад производители графических процессоров много работали над тем, сколько треугольников могут обрабатывать их чипы, количество элементов текстуры, которые можно фильтровать за цикл, и возможности модулей вывода рендеринга (ROP). Эти аспекты по-прежнему важны сегодня, но основное внимание уделяется стороне выполнения, поскольку технологии 3D-рендеринга требуют большей вычислительной производительности, чем когда-либо прежде.

Однако, просто чтобы указать, что нет сразу заметной разницы между Navi и Turing в этих областях, текстурные блоки и ROP все же стоит изучить. В обеих архитектурах текстурные блоки могут обрабатывать и извлекать 4 элемента текстуры, фильтровать их неизвестно в одном элементе и кэшировать их все за один тактовый цикл (игнорируя дополнительные тактовые циклы, используемые для извлечения данных из локальной памяти).

Расположение ROP / RB немного отличается у Navi и Turing, но не слишком сильно: чип AMD имеет 4 RB на ACE, и каждый может выводить 4 смешанных пикселя за такт; В Turing каждый GPC имеет два RB, каждый из которых дает 8 пикселей в час. Количество ROP графического процессора на самом деле является мерой этой скорости вывода пикселей, поэтому полный чип Navi дает 64 пикселя в час, а полный TU102 96 (но помните, что это более крупный чип).

О треугольной стороне вещей меньше информации. Что мы действительно знаем, так это то, что Navi по-прежнему дает максимум 4 примитива за такт (1 на ACE), но больше нет ничего о том, устранила ли AMD проблему с этой проблемой. Примитивные шейдеры. Это была очень разрекламированная функция Vega, которая позволяла программистам иметь гораздо больший контроль над примитивами, так что выход примитивов можно было увеличить в 4 раза. функциональность удалена из драйверов Продукт бездействовал вскоре после запуска и с тех пор.

Пока все еще ждем дополнительной информации о Navi, было бы неразумно строить дальнейшие предположения. Тьюринг также обрабатывает 1 примитив в час на каждый GPC (т.е. до 6 для полного графического процессора TU102) в Raster Engines, но также Сетчатые шейдерыПредлагает ту же функциональность, что и примитивные шейдеры AMD; Direct3D не является набором функций OpenGL или Vulkan, но может использоваться через расширения API.

Это, кажется, дает Тьюрингу преимущество перед Navi с точки зрения обработки треугольников и примитивов, но в настоящее время в открытом доступе недостаточно точной информации.

Не все о правоохранительных органах

Есть и другие аспекты Нави и Тьюринга, которые стоит сравнить. Начнем с того, что оба графических процессора оснащены продвинутыми механизмами отображения и мультимедиа. Первый обрабатывает вывод на монитор, второй кодирует и декодирует видеопотоки.

Как и следовало ожидать от нового дизайна графического процессора 2019 года, движок дисплея Navi предлагает очень высокое разрешение при высокой частоте обновления и предлагает поддержку HDR. Просмотр сжатия потока (DSC) - это алгоритм быстрого сжатия с потерями, который позволяет передавать подобные разрешения 4K + с частотой обновления выше 60 Гц через соединение DisplayPort 1.4; К счастью, ухудшение качества изображения очень мало, до такой степени, что вы считаете DSC практически без потерь.

Turing также поддерживает DisplayPort с подключениями DSC, но поддерживаемая комбинация высокого разрешения и частоты обновления немного лучше, чем Navi: 4K HDR при 144 Гц - в остальном все то же самое.

Медиа-движок Navi так же современен, как и дисплей, и Расширенное кодирование видео (H.264) и Высокоэффективное кодирование видео (H.265), опять же с высоким разрешением и высокой скоростью передачи данных.

Видеодвижок Тьюринга примерно такой же, как у Navi, но поддержка кодирования 8K30 HDR может изменить баланс в пользу Тьюринга для некоторых людей.

Есть и другие аспекты для сравнения (например, интерфейс Navi PCI Express 4.0 или NV Link от Turing), но независимо от того, как они выглядят и продаются, они на самом деле являются крошечными частями общей архитектуры. Это связано с тем, что для подавляющего большинства потенциальных пользователей эти уникальные функции не будут важны.

Подобное сравнение

В этой статье рассматривается архитектурный дизайн, особенности и функциональность, но прямое сравнение производительности было бы хорошим способом завершить такой анализ. Однако объединение чипа Navi на Radeon RX 5700 XT в GeForce RTX 2080 Ti с процессором Turing TU102 в GeForce RTX 2080 Ti было бы не совсем справедливым, учитывая, что последний почти вдвое превышает количество объединенных шейдерных блоков. Однако есть версия чипа Тьюринга, которую можно использовать для сравнения, и это та, что есть в GeForce RTX 2070 Super.

  Radeon RX 5700 XT GeForce RTX 2070 Супер
GPU | Архитектурный Navi 10 | рДНК TU104 | Тьюринг
обработать 7 нм TSMC 12 нм TSMC
Площадь формы (мм2) 251 545
Транзисторы (миллиарды) 10.3 13.6
Заблокировать профиль 2 SE | 4 ACE | 40 ПБ 5 GPC | 20 TPC | 40 см
Комбинированные шейдерные ядра 2560 SP 2560 ЧУДЕС
TMU 160 160
ROPS 64 64
Базовое время 1605 МГц 1605 МГц
Игровые часы 1755 МГц Нет данных
Час ускорения 1905 МГц 1770 МГц
объем памяти 8 ГБ 256 бит GDDR6 8 ГБ 256 бит GDDR6
Пропускная способность памяти 448 Гбит / с 448 Гбит / с
Расчетная тепловая мощность (TDP) 225 Вт 215 Вт.

Стоит отметить, что RTX 2070 Super не является «полноценным» чипом TU104 (один из GPC отключен), поэтому все эти 13,6 транзисторы неактивны, что означает, что чипы примерно одинаковы по количеству транзисторов. На первый взгляд два графических процессора выглядят очень похоже, особенно если рассматривать только шейдерные блоки, TMU, ROP и системы основной памяти.

В процессоре Nvida SM может обрабатывать 32 одновременных деформации, и с каждой деформацией из 32 потоков полностью загруженная GeForce RTX 2070 Super может работать с 40 960 потоками по всему чипу; Для Navi один CU SIMD32 может принимать 16 волн на ALU, и каждая волна состоит из 32 нитей. Таким образом, Radeon RX 5700 XT также может иметь до 40 960 потоков. Может показаться, что это делает их именно здесь, но, учитывая, насколько по-разному организованы CU / SM и преимущество Nvidia с одновременной обработкой INT и FP, результат во многом будет зависеть от выполняемого кода.

Какое влияние это окажет на производительность различных игр, поскольку код 3D-движка будет отдавать предпочтение одной сборке над другой в зависимости от того, какие инструкции обычно отправляются на GPU. Это, протестировал две видеокарты:

Все игры, использованные в тесте, были запрограммированы для архитектуры AMD GCN непосредственно для ПК с Radeon или с помощью графических процессоров GCN, установленных на PlayStation 4 или Xbox One. Возможно, что некоторые из недавно запущенных программ подготовлены к изменениям RDNA, но различия в результатах тестов более вероятны из-за механизмов рендеринга и способа обработки инструкций и данных.

Так что же все это значит? Действительно ли одна архитектура лучше другой? Turing, безусловно, предлагает больше возможностей, чем Navi, благодаря Tensor и RT Core, но последнее определенно конкурирует с точки зрения производительности 3D-рендеринга. Различия, наблюдаемые в 12 примерах игр, недостаточно точны, чтобы сделать окончательное суждение.

И это для нас хорошие новости.

Заключительные слова

Планы AMD Navi было объявлено Они нацелились на запуск 2018 года в 2016 году, хотя и не сказали многого. Когда эта дата приходит и уходит дорожная карта изменено однако было ясно, что Navi будет построен по 7-нм техпроцессу, а дизайн будет сосредоточен на повышении производительности.

Это определенно было так, и, как мы видели в этой статье, AMD внесла архитектурные изменения, чтобы позволить Nvidia конкурировать с аналогичными предложениями. Новый дизайн выгоден не только пользователям ПК, поскольку мы знаем, что Sony и Microsoft будут использовать вариант чипа в предстоящий период. PlayStation 5 ve sonraki xbox.

Если вы вернетесь к началу этой статьи и снова посмотрите на конструкцию Shader Motors, общий размер кристалла и количество транзисторов, очевидно, что у «большого чипа Navi» есть шанс на пик. новейшая видеокарта; AMD в значительной степени подтвердила, что это должно быть частью ее текущих планов и направлено на улучшение архитектуры и производственного процесса в течение следующих двух лет.

Но каковы планы Nvidia, Turing и ее преемницы? Удивительно, но компания мало что подтвердила. В 2014 году Nvidia Обновленная дорожная карта GPU Планирование архитектуры Pascal для запуска в 2016 году (и достижение этой цели). В 2017 г. Tesla анонсировала V100Именно этот дизайн привел к появлению Тьюринга в 2018 году с использованием архитектуры Вольта.

С тех пор все было довольно тихо, и нам приходилось полагаться на слухи и отрывки новостей, которые часто говорят одно и то же: следующая архитектура Nvidia будет называться Ampere, Сделано Samsung Он использует 7-нм техпроцесс и запланирован на 2020 год. Кроме этого, больше нечего продолжать. Новый чип вряд ли нарушит традицию, сфокусировавшись на скалярных исполнительных модулях, или он вряд ли откажется от таких аспектов, как тензорные ядра, поскольку это вызовет серьезные проблемы с обратной совместимостью.

Тем не менее, мы можем сделать некоторые разумные прогнозы относительно того, как будет выглядеть следующий графический процессор Nvidia. Компания вложила значительное количество времени и денег. трассировка лучейи его поддержка только в играх увеличение; Следовательно, мы можем ожидать улучшения в ядре RT с точки зрения возможностей или количества на SM. Если один 7 нм техпроцесс Если это правда, Nvidia, скорее всего, будет стремиться к снижению энергопотребления, а не к прямому увеличению тактовой частоты, чтобы они могли увеличить количество GPC. Также можно пропустить 7 нм и запустить Nvidia. Прямо на 5 нм Чтобы получить преимущество перед AMD.

Судя по всему AMD и Nvidia, дискретная видеокарта Market от Intel, поскольку мы знаем, что они планируют снова войти в эту отрасль, Звоните 20 лет. Этот новый продукт (в настоящее время Xe's) Сможете соревноваться на одном уровне с Нави и Тьюрингом.

Между тем, Intel за эти два десятилетия выжила на рынке графических процессоров, создав интегрированную графику для своих процессоров. Последний графический процессор Intel Gen 11Она похожа на архитектуру AMD, поскольку использует векторные ALU, которые могут обрабатывать данные FP32 и INT32, но мы не знаем, будут ли новые видеокарты прямым развитием этой конструкции.

Ясно одно: следующие несколько лет будут очень интересными, поскольку три гиганта кремниевых структур продолжают бороться за наши кошельки. Новые конструкции и архитектуры графических процессоров поставят под вопрос количество транзисторов, размеры кеш-памяти и свойства шейдеров; Navi и RDNA являются новейшими из них и показали, что каждый шаг вперед может иметь небольшое значение.

Горячие клавиши для покупок:
  • GeForce RTX 2070 Super clear Amazon
  • GeForce RTX 2080 Super clear Amazon
  • GeForce RTX 2080 Ti открытая Amazon
  • Radeon RX 5700 XT включен Amazon
  • Radeon RX 5700 открытая Amazon
  • GeForce RTX 2060 Super clear Amazon
  • GeForce GTX 1660 Super clear Amazon

Эта статья была первоначально опубликована 7 августа 2019 года. В рамках нашей инициативы #ThrowbackThursday мы исправили и немного потерпели крах.