NVIDIA Pascal – Всичко, което трябва да знаете за серията GeForce 10xx

Новата архитектура NVIDIA Pascal (10-та серия) вече се наложи на пазара, заемайки мястото на изключително успешната 9-та серия, благодарение на големия скок в производителността на новите модели. За да се превърне тя в “помощен” материал и допълнение към нашите ревюта на GeForce GTX 10xx, решихме да създадем тази статия, в която ще се спрем на това, което смятаме за ключови технологии и архитектурата на наскоро пуснатите на пазара графични ядра, които са използвани при създаването на серията GeForce GTX 10xx.

Ще добавим и таблица с новите модели графични процесори от тази серия и техните спецификации.

Можете да разгледате всички версии на новите модели графични процесори заедно с цените и спецификациите и компютрите, които вървят с тях, тук:

– графични процесори и компютри с GeForce GTX 1050 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1050 Ti – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1060 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1070 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1080 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1080 Ti – цени и спецификации

Contents

Технологии

С представянето на “Pascal” NVIDIA обяви и технологиите, поддържани от тази нова архитектура. В тази статия ще ви представим по-интересните от тях.

Едновременна мултипрожекция

Simultaneous Multi-Projection (SMP) е технология, която позволява на ядрото на графичния процесор при изчисление на геометрията да пресъздаде до 16 проекции от различни ъгли от една гледна точка без значителен спад в производителността. Тази опция е хардуерно реализирана като част от новата графична подсистема PolyMorph Engine 4.0 на ядрата Pascal.

SMP може да бъде много полезна за хората, които играят на три монитора. Когато използваме няколко дисплея, виждаме една проекция в 2D изображение. Ако имаме едно 2D изображение на три монитора, то ще изглежда правилно само ако мониторите са подредени един до друг. Но ако ги поставим под ъгъл около нас, изображението ще се повреди – правите линии ще се огънат под ъгъл, както можете да видите на изображението по-долу. За да се предотврати този проблем, изображението трябва да се визуализира за всеки монитор, което води до огромна загуба на производителност.

Затова NVIDIA, заедно с Pascal, представи опция за 2D монитори, наречена Perspective Surround. Тя използва възможностите на SMP за пресъздаване на различни проекции на вече изчислената геометрия. Благодарение на това имаме различна проекция за всеки монитор (т.е. 3 проекции) в зависимост от ъгъла, под който е поставен, и това допринася за правилното изображение на сцената.

Друга характерна особеност на SMP е способността ѝ да създава геометрична проекция около а втората гледна точка, без да се налага да я изчислява два пъти.

Причината за необходимостта от генериране на две гледни точки е виртуалната реалност (VR). VR се нуждае от тях – по една за всяко око. За да бъдат създадени без SMP, геометрията трябва да бъде изчислена два пъти за лявото и дясното око. Благодарение на възможностите на SMP геометрията за тези гледни точки може да бъде изчислена едновременно с опцията на NVIDIA, наречена Single Pass Stereo.

Perspective Surround и SMP’s VR са опции, чиято поддръжка трябва да бъде осигурена от разработчиците на софтуер, преди да могат да бъдат използвани от потребителите.

Ansel

Използвайки името на виден фотограф, технологията Ansel предлага много различен начин за правене на скрийншот по време на гейминг сесия. Вместо да прави скрийншот от гледната точка на играча със стандартна резолюция, Ansel позволява на геймърите да заснемат цялата сцена чрез свободна камера с много по-висока резолюция от обичайната.

Когато се активира, Ansel поставя конкретната игра на пауза и предоставя безплатна камера, която може да заснеме снимка от различни позиции, ъгли или разстояние, докато се постигне перфектната снимка. Наличието на фотофилтри ви позволява да добавяте филтри, преди да направите снимката. Или, след като бъде направена, снимката на екрана може да бъде експортирана във формат OpenEXR и след това да бъде обработена без загуба на качество с помощта на програми за редактиране на снимки, като например Adobe Photoshop.

Благодарение на ядрата CUDA в графичните процесори NVIDIA GeForce GTX заснетата снимка може да бъде с разделителна способност до 61 440 x 34 560 пиксела и размер около 2 GB. В резултат на това то е с изключително високи нива на детайлност, което позволява изрязаните части от него да бъдат с изключително високо качество.

При запис с такава висока разделителна способност можем да се насладим на невероятните нива на детайлност на играта. Нека вземем за пример екранната снимка от играта The Witcher 3: Wild Hunt. Под Гералт от Ривия, който стои на терасата, има още една стая с книга в нея. След като увеличим изображението в тази област, можем да прочетем думите, написани в книгата.

Можете да изтеглите изображението в пълен размер 46080 x 25920, 1,7 GB от тук

.
Още снимки с висока разделителна способност можете да видите тук.

Ansel ни позволява да направим 360-градусово панорамно изображение, което може да се гледа на VR дисплей. Можете да разгледате още 360-градусови снимки от тук.

За да работи Ansel, той трябва да се поддържа от конкретната игра. За внедряването му в The Witcher 3 са били необходими само 150 реда код.

Към момента на писане на тази статия игрите, които поддържат Ansel, са: The Witness, The Witcher 3, Mirror’s Edge Catalyst, ARK: Survival Evolved, Obduction, War Thunder и Conan Exiles.

Игрите, за които е обявено, че ще поддържат Ansel в бъдеще, са: The Division на Том Кланси, Watch Dogs 2, Lawbreakers, Unreal Tournament, Paragon, Fortnite и No Man’s Sky.

VRWorks Audio

Технологията VRWorks Audio, както можете да се досетите от името, е ориентирана към света на виртуалната реалност. Тя използва NVIDIA OptiX ray-tracing за проследяване на пътя на звука, който се разпространява в околната среда в реално време, като отразява точно материалността, формата и размера на виртуалните обекти. Например, ако се намирате в стая, в която няма никакъв обект, звукът и ехото ще бъдат по-силни, отколкото в същата стая, но с обекти, които поглъщат звуковите вълни. Засега няма обявени игри, които ще използват тази технология.

NVIDIA PhysX за VR

Технологията NVIDIA PhysX for VR позволява на игровия енджин да осигурява реални визуални усещания, като следи кога ръчният контролер взаимодейства с виртуалния обект. Благодарение на това всички взаимодействия на потребителя с околната среда във виртуалния свят – независимо дали става дума за експлозия или размахване на ръка върху водна повърхност – се усещат като истинско преживяване.

NVIDIA GPU Boost 3.0

Заедно с Pascal NVIDIA обяви нова версия на технологията Boost, която позволява на графичния процесор да увеличава тактовата си честота в реално време в зависимост от капацитета, напрежението и температурата. Това води до по-добра производителност без намесата на потребителя.

Още от обявяването на Kepler NVIDIA представи използването на напрежение с конкретни стойности (точки), които определят различните работни напрежения на графичните ядра и по този начин различните му тактови честоти. Графичният процесор работи в съответствие със стойностите от получената крива (от точките на напрежението), като променя тактовата си честота въз основа на моментното напрежение, натоварването и температурата. С въвеждането на GPU Boost 3.0 вече е възможно програмиране по конкретни точки от напрежението чрез софтуер за овърклок от други производители. Следователно вече е възможно да се регулира тактовата честота на графичните ядра Pascal в зависимост от всяка точка на напрежението.

В GPU Boost 2.0 единственият начин за овърклок беше чрез увеличаване на тактовата честота за всички точки на напрежение едновременно с една и съща стойност. Това ограничава най-високия стабилен овърклок в най-ниските точки на кривата напрежение/тактова честота. Ако графичното ядро може да бъде овърклокнато до 120 MHz в най-ниската точка на напрежението и 60 MHz в най-високата точка на напрежението, тогава най-високият стабилен овърклок ще бъде само 60 MHz.

С помощта на GPU Boost 3.0 можем да коригираме стойността на всяка точка от кривата поотделно. Това означава, че можем да генерираме по-високи стойности на овърклок в точките, в които това е възможно, и по-ниски – там, където не е възможно. При всички останали еднакви обстоятелства това би трябвало да увеличи производителността на графичното ядро при овърклок, тъй като то променя тактовата си честота въз основа на различните точки на напрежението. С други думи, GPU Boost 3.0 има за цел да получи най-високия възможен овърклок по цялата крива напрежение/тактова честота.

Архитектура

В този раздел ще се съсредоточим върху самата архитектура Pascal и различните графични ядра, базирани на нея.

Всички графични ядра GeForce 10xx се основават на съвместимост с архитектурата Pascal DX12 и се произвеждат чрез 14/16-нанометров FinFET производствен процес. При конструирането им са използвани различни конфигурации на GPC (Graphics Processing Clusters), включващи специален Raster Engine и различен брой SM (Streaming Multiprocessors), както и 36-битови контролери на паметта, всеки от които е свързан с 8 ROP (Raster Operations Pipelines) и 256 KB L2 (второ ниво) кеш. Всеки SM има 128 CUDA/Shader/Stream ядра, 256 KB регистров файл, 48 KB L1 (първо ниво) кеш памет, 96 KB блок споделена памет и 8 TU (Texture Units). По-долу е представена подробна блокова схема, за да добиете ясна представа.

SM е един от най-важните хардуерни блокове в графичното ядро, като почти всички операции преминават през SM в определен момент от процеса на рендиране. Всеки SM е свързан с PolyMorph Engine, който съдържа новия модул Simultaneous Multi-Projection.

GP104-400-A1 (GeForce GTX 1080)

Започваме с най-мощната в момента графична карта от серията NVIDIA GeForce 10xx – GTX 1080. Тя е оборудвана с 8 GB GDDR5X графична памет, работеща на ефективната честота 10 000 MHz. Стандартните работни честоти на графичното ядро са 1607 MHz основна и 1733 MHz при Boost. GeForce GTX 1080 се възползва от пълния потенциал на ядрото GP104, произведено чрез 16-нанометров FinFET процес с площ 314 mm2 и състоящо се от 7,2 милиарда транзистора, чиято блок-схема ще анализираме по-долу.

GP104-400-A1 има четири GPC, осем 32-битови контролера на паметта и съответно 64 ROP. Като имаме предвид, че всеки контролер на паметта е свързан с 256 KB L2 кеш, отбелязваме наличието на 2 MB L2 кеш и 256-битова шина за памет. Всеки GPC включва пет SM. Всичко това означава, че GeForce GTX 1080 разполага с 2560 CUDA ядра, 160 Tus и 64 ROP.

Напълно функциониращото графично ядро GP104-400-А1 (GTX 1080) се състои от:
– 2560 CUDA/Shader/Stream процесора
– 160 текстурни единици
– 64 ROP единици
– 2 MB L2 кеш
– 256-битова шина на паметта

GP104-200-A1 (GeForce GTX 1070)

GeForce GTX 1070 разполага с 8 GB GDDR5 с ефективна честота 8000 MHz и графично ядро GP104, което обикновено работи на базова честота 1506 MHz и честота 1683 MHz Boost. Площта му е 314 mm2, произведен е по 16-нанометров FinFET процес и съдържа 7,2 млрд. транзистора. По-долу ще анализираме подробна блок-схема на ядрото GP104-200-А1, което се използва от GTX 1070.

На това изображение виждаме, че GP104-200-А1 има един напълно забранен GPC в сравнение с ядрото GP104-400-А1, използвано в GTX 1080, и се състои от три, вместо от четири GPC. Всеки GPC има 5 SM. Всеки SM се състои от 128 CUDA ядра и 8 TU. В резултат на това получаваме 1920 CUDA ядра и 120 TU. Останалата част от ядрото е непроменена. Налични са 64 ROPs, 2 MB L2 кеш и осем 32-битови контролера на паметта, което прави шината 256-битова.

Частично деактивирано графично ядро GP104-200-А1 (GTX 1070) се състои от:
– 1 920 CUDA/Shader/Stream процесора
– 120 текстурни единици
– 64 ROP единици
– 2 MB L2 кеш
– 256-битова шина на паметта

GP106-400/300-A1 (GeForce GTX 1060 6GB/3GB)

За разлика от GeForce GTX 1070 и по-мощния GeForce GTX 1080 – GeForce GTX 1060 има на борда си съвсем различно графично ядро GP106. NVIDIA предлага два модела GTX 1060 с различен капацитет на видеопаметта GDDR5, работеща на ефективна честота 8000 MHz, и различни версии на графичното ядро. Моделът с 6 GB памет използва GP106-400-A1, докато версията с 3 GB памет е оборудвана с GP106-300-A1, която има една SM по-малко. Площта на GP106 е 200 mm2, което е с 57% по-малко от GP104, а за конструкцията му са използвани 4,4 млрд. транзистора. GeForce GTX 1060 6GB използва пълноценно потенциала на ядрото GP106 и затова по-долу ще анализираме подробна блок-схема на този графичен чип.

Конструкцията NVIDIA GP106 има 2 GPC, всеки от които разполага с 5 SM. Знаем, че всеки SM се състои от 128 CUDA ядра и 8 TU, следователно GTX 1060 6GB (GP106-400-A1) има 1280 CUDA ядра и 80 TU, а GTX 1060 3GB (GP106-300-A1) – 1152 CUDA ядра и 72 TU. Чипът е оборудван и с 48 ROPs, 1536 KB L2 кеш и шест 32-битови контролера на паметта, което прави шината 192-битова.

Напълно функциониращото графично ядро GP106-400-А1 (GTX 1060 6GB) се състои от:
– 1280 CUDA/Shader/Stream процесора
– 80 текстурни единици
– 48 ROP единици
– 1,5 MB L2 кеш
– 192-битова шина на паметта

Частично изключеното графично ядро GP106-300-А1 (GTX 1060 3GB) се състои от:
– 1 152 CUDA/Shader/Stream процесора
– 72 текстурни единици
– 48 ROP единици
– 1,5 MB L2 кеш
– 192-битова шина на паметта

GP107-300/400-A1 (GeForce GTX 1050/Ti)

Последните обявени и най-бюджетни членове на семейството GeForce GTX 10xx са GTX 1050 и GTX 1050 Ti. И двата модела използват ново графично ядро GP107. То е произведено чрез 14-нанометров FinFET процес от 3,3 млрд. транзистора с площ 135 mm2. GTX 1050 Ti използва пълния потенциал на графичното ядро с GP107-400-A1 със стандартни работни честоти 1290 MHz основна и 1392 MHz при Boost. Тя се предлага с 4 GB DRR5 графична памет, работеща на ефективна честота 7000 MHz. От друга страна, GTX 1050 използва графично ядро GP107-300-A1, което е частично деактивирано и има 1 SM и 8 TU по-малко, но работи с повишени стандартни честоти – 1354 MHz база и 1455 MHz Boost. Тук е налична и графична памет GDDR5, работеща на ефективна честота 7000 MHz, но с намален капацитет от 2 GB. Ще анализираме подробна блок-схема на пълната версия на ядрото GP107, използвано в GTX 1050 Ti.

От изображението по-горе виждаме, че за разлика от чиповете от по-висок клас, тук имаме различна конфигурация на GPC, която се състои не от 5, а от 3 SM. Налични са 2 GPC, което ни води до заключението, че GP107-400-А1 (GTX 1050 Ti) има 768 CUDA ядра и 48 TUs. От написаното по-горе знаем, че GP107-300-А1 (GTX 1050) има един SM и 8 TU по-малко, следователно е съставен от 640 CUDA ядра и 40 TU. Останалата част от ядрата е една и съща и за двете модификации. Налични са 32 ROP, 1MB L2 кеш и четири 32-битови контролера на паметта, което прави шината 128-битова.

Напълно функциониращото графично ядро GP107-400-А1 (GTX 1050 Ti) се състои от:
– 768 CUDA/Shader/Stream процесора
– 48 текстурни единици
– 32 ROP единици
– 1 MB L2 кеш
– 128-битова шина на паметта

Частично изключеното графично ядро GP107-300-А1 (GTX 1050) се състои от:
– 640 CUDA/Shader/Stream процесора
– 40 текстурни единици
– 32 ROP единици
– 1 MB L2 кеш
– 128-битова шина на паметта

Модели и спецификации

Бихме искали да включим таблица, показваща основните технически спецификации на всички налични до момента графични карти NVIDIA GTX 10xx.

МоделGTX 1080 TiGTX 1080GTX 1070GTX 1060 6 / 3 GBGTX 1050 Ti / GTX 1050
Графично ядро GP102 GP104-400-A1 GP104-200-A1 GP106-400 / 300-A1 GP107-400 / 300-A1
АрхитектураPascalPascalПаскалПаскалПаскал
Брой транзистори12 милиарда7,2 милиарда7,2 милиарда4,4 милиарда3,3 милиарда
Производствен процес16 нанометра16 нанометра16 нанометра16 нанометра14 нанометра
Ядра CUDA3 5842 5601 9201 280 / 1 152768 / 640
SMs28201510 / 96 / 5
ROPs8864644832
Базов часовник на ядрото1 480 MHz1 607 MHz1 506 MHz1 506 MHz1 290 / 1 354 MHz
Тактова честота на ядрото Boost1 582 MHz1 733 MHz1 683 MHz1 709 MHz1 392 / 1 455 MHz
Ефективна честота на паметта11 000 MHz10 000 MHz8 000 MHz8 000 MHz7 000 MHz
Тип и размер на паметта11 GB GDDR5X8 GB GDDR5X8 GB GDDR56 / 3 GB GDDR54 / 2 GB GDDR5
Шина на паметта352-битова256-битова256-битова192-битова128-битова
Пропускателна способност на паметта484 GB/s320 GB/s256 GB/s192 GB/s112 GB/s
Изчисления с плаваща запетая11,3 TFLOPs9,0 TFLOPS6,45 TFLOPS4,61 / 4,1 TFLOPS2,2 / 1,9 TFLOPS
Максимална температура91 градуса94 градуса94 градуса94 градуса97 градуса
Максимална консумация250 W180 W150 W120 W75 W
Препоръчителен PSU600 W500 W500 W400 W300 W
ЦениПроверете ценатаПроверете ценатаПроверете ценатаПроверете ценатаПроверете цената

Може също така да прегледате всички налични в момента графични процесори, заедно с цените и спецификациите, както и компютрите, които вървят с тях, тук:

– графични процесори и компютри с GeForce GTX 1050 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1050 Ti – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1060 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1070 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1080 – цени и спецификации
– Графични процесори и компютри с GeForce GTX 1080 Ti – цени и спецификации

Абониране
Уведомяване за
guest
1 Comment
Отзиви на потребителите
Вижте всички коментари