بررسی معماری کارت گرافیک AMD Radeon RX 480
Ellesmere (همان Polaris 10) اسم رمز کارت گرافیک Radeon RX 480 است که با لیتوگرافی ۱۴ نانومتری توسط دو کارخانه Samsung و GlobalFoundries ساخته شده است. اما ویفر «Wafer» این کارت به طور ویژه ای در بخش شمالی ایالت نیویورک آمریکا طراحی شده و سپس برای بسته بندی و سهولت تولید کارت توسط دیگر تولید کنندگان به تایوان ارسال شده تا برای عرضه به نقاط مختلف جهان آماده شود. این معماری چهارمین نسل از خانواده Graphics CoreNext architecture (به اصطلاح GCN) محسوب میشود که با اسم رمز پولاریس یا ستاره قطبی «Polaris» معرفی شده است.
به گفته AMD؛ تعداد واحدهای محاسباتی «Compute Units» مبتنی بر پولاریس «Polaris» حدود ۱۵ درصد کارآمد و بهتر از همین مقدار واحد در ریز معماری Graphics CoreNext 1.2 است که در دو کارت گرافیک R9 Fury و R9 380X مورد استفاده قرار گرفته است. فقط کافی است به اعداد توجه کنید؛ کارت گرافیک Radeon RX 480 فقط یک Number-Crunching (منظور از این کلمه سخت افزاری این است که این کارت گرافیک قادر به محاسبات پیچیده و طولانی در مقیاس بسیار بزرگی از داده های عددی است) معادل ۱۵ درصد افزایش بهره وری به نسبت نسل قبل داشته که به طور کلی گفته میشود که این مقدار معادل ۲.۵ برابر جهش در بهره وری انرژی به نسبت نسل گذشته است.
در واقع AMD با تولید این کارت به دنبال بازگشت سریع سرمایه و بهبود سود تجاری خودش در بازار است و به همین دلیل است که ما بیشتر با دو فاکتور سرعت کلاک و افزایش ترانزستورها طرفیم تا بهبود و پیشرفت ماهیت معماری تراشه گرافیکی! سلسله مراتب جزئیات معماری Ellesmere (همان Polaris 10) همانی است که در سیلیکون های پیشین دیدیم و در اینجا هم تغییرات گسترده و عمیقی در معماری پولاریس دیده نمیشود.
با این حال برخی از اجزای درونی این قطعه شامل بروز رسانی های جدیدی شده اند که مهمترین آنها دو مبحث مهم زمانبندی سخت افزاری «Hardware Schedulers» به صورت زمانی و مکانی و موتور محاسباتی غیرهمگام یا «Asynchronous Compute Engines» است که در مقاله «از کپلر تا ماکسول | بررسی تخصصی مبحث زمان بندی در معماری های انویدیا» و مقالات «تحلیل | دعوای انویدیا و AMD در Ashes of the Singularity با DX12» و «بررسی Ashes of the Singularity و ماجرای DX12» توضیحات کاملی پیرامون موارد فوق داده ایم.
به طورکلی؛ هدف اصلی ACEs ها قبول کارها برای ارسال به CU برای پردازش است. (نقشی شبیه GTE یا Giga Thread Engine های انویدیا که شاید عملکرد صحیح و برنامه ریزی صحیح این واحد، میتوانست کارایی نهایی و قدرت فرمی را در محاسبات GPGPU افزایش میداد که اینگونه نشد). در واقع انویدیا در معماری جدید پاسکال تاکید زیادی در بخش تراکم هسته های Cuda با محوریت عملکرد Double-Precision داشته است و همچنین تعداد و عملکرد بخش Warp Scheduler را کاملا ارتقاء بخشیده است تا در بخش پردازش های ناهمگام کوچکترین مشکلی نداشته باشد.
این زمانبندی ها در واقع نوعی عملگر ثابت سخت افزاری محسوب میشوند که انویدیا در دو کارت گرافیک GeForce GTX 1080 و GeForce GTX 1070 از آن به عنوان GigaThread Engine نام برده و باید بگوییم سیستم بسیار مهمی است که قبلاً در مقاله «از کپلر تا ماکسول | بررسی تخصصی مبحث زمان بندی در معماری های انویدیا» به طور مفصل در موردش صحبت کردیم. انویدیا در معماری پاسکال از دو عملگرد ثابت سخت افزاری PolyMorph Engine و Raster Engine استفاده که و AMD هم با تغییراتی همین دو مورد را با اسم Raster Engine و Render Backends معرفی کرده است.
اما لازم است اشاره کنیم عملگرهای ثابت سخت افزاری در واقع موتورهای پردازش گرافیکی محسوب میشوند که به طور کلی از پنج بخش مهم Vertex Fetch، Tessellation، Iewport Transform، Attribute Setup و Stream Output تشکیل شده اند و کار این بخش ها بدین صورت است که پس از پردازش اولیه تصاویر گرافیکی، نتیجه نهایی هر بخش را به یک Streaming Multi Processor میفرستند تا پردازش نهایی روی آنها انجام شود. پس از انجام پردازش نهایی، نتیجه به عملگرهایی همچون Raster Engine ارسال میشود تا کار نهایی روی آنها صورت بگیرد.
لازم به ذکر است؛ تمامی موارد پردازشی بالا که عرض کردیم؛ تا پیش از این در معماری کارت های انویدیا و AMD توسط خط لوله ها «Pipeline» انجام میشدند که حالا برای پردازش هر کدام از روش های جدیدی مثل PolyMorph Engine در کارت های انویدیا و با روشی مشابه در کارت های AMD انجام میشود. درمورد PolyMorph Engine هم توضیحات تقریباً واضحی دادیم که میتوانید در مقاله «بررسی پایه معماری ماکسول (Maxwell)» و «بررسی کامل نسل دوم معماری ماکسول (Maxwell)» ببینید.
اشاره کنیم که Raster Engine قابلیت بسیار مهمی است و اولین شرکت بازیسازی که به سمت پردازش Classic Raster Grahgics «تصویر سازی گرافیک به صورت کلاسیک یا گرافیک شطرنجی» حر کت کرده، استدیو id Software است که از این ویژگی در بازی Doom 2016 استفاده کرده است. در واقع این قابلیت مهم در بازی برای ایجاد ساختار گرافیکی هر عکس به صورت فرمت «BitMap» است که هر نقطه در این روش، نماینده یک شبکه گسترده از پیکسل ها است.
تراشه Radeon RX 480 از چهار موتور محاسباتی غیرهمگام یا «Asynchronous Compute Engines» یا به اصطلاح «ACEs» استفاده میکند که AMD آنها را به فناوری صف پاسخ دهی سریع «Quick-Response Queue Tech» جدیدی تجهیز کرده که از نظر بهره وری به نسبت گذشته بهینه شده است. همیشه یک توجه ویژه برای یک گام جلوتر بردن طراحی و افزایش بازدهی بخش پردازش جئومتری (چند ضلعی ها) یا همان موتورپردازش هندسی وجود داشته که در بازدهی این بخش به شکل سنتی و تا به امروز انویدیا به شکل غیر قابل انکار و بی رحمانه ای برتری داشته است.
به دلیل نوع طراحی معماری؛ انویدیا مدت ها است برتری بی چون و چرایی در زمینه پردازش چند ضلعی ها «Geometry Processors» و فناوری «Tessellation» دارد؛ چند ضلعی هایی که در هر نسل بهبود های زیادی داشتند و تمامی این پیشرفت ها به خاطر استفاده زیاد این فناوری به ازای هر واحد در هر هسته SM است. در حال حاضر کارایی فناوری «Tessellation» انویدیا چندین برابر AMD است و مهندسین این کمپانی میتواند حجم عظیمی از چند ضلعی ها را برای فقط یک هسته تعریف کنند!
شتاب دهنده هایی «Discard Accelerator» که AMD در هسته تراشه Radeon RX 480 مورد استفاده قرار داده، فقط ورودی مقادری را افزایش میدهد و این یعنی همچنان مشکل AMD با استفاده حجیم از فناوری «Tessellation» باقی است. این مشکل سال ها است وجود دارد و به نظر میرسد به خاطر نوع دستور العمل های به کار رفته در ریز معماری GCN است. اما انویدیا به ازای هر یک از منابع پردازشی «Processing Resource» از یک تزریق کننده تسلیشن «Tessellation» مستقل استفاده کرده؛ در حالی که AMD برای کل منابع پردازشی از یک عدد تزریق گر تسلیشن «Tessellation» استفاده کرده است!
به همین دلیل است که در تست ها و بنچمارک های منتشر شده از تراشه Radeon RX 480 میبینیم که بازدهی این کارت در حد GTX 1060 هم نیست و در حد برخی کارت های نسل قبلی است. این به خودی خودش اصلاً مشکل زا نیست و ایرادی هم ندارد؛ چون تراشه Radeon RX 480 برای کاربرد پردازشی رزولشون ۱۰۸۰p و بازگشت سریع سرمایه از PC بازارن طراحی شده است؛ نه برای رقابت با کارت هایی نظیر GTX 1080 و GTX 1070 انویدیا! بنابراین برای قضاوت در مورد این کارت و مقایسه اش با دیگر کارت های موجود باید به هدف تولید این کارت نگاهی کنیم که در این صورت با نوعی موفقیت نسبی مواجه خواهیم شد.
برای بخشی از تراشه Polaris 10 از ۴ عدد پردازشگر هندسی مستقل استفاده شده که عملکردش به نسبت گذشته افزایش چشمگیری داشته است. موتورهای هندسی جدید AMD حالا از واحدهای کَش «Cache» کوچک جدیدی به نام «Index Cache» استفاده میکنند که به صورت کلی برای شتاب دهی پردازش هندسی موثر تر است. این موتور ها؛ نمونه هایی از چند ضلعی های کوچک را در خود قرار میدهند و جریان داده را کاهش میدهند که در نتیجه چنین امری؛ با افزایش پنهای باند موثر داخلی (براورد ادیتور) مواجه میشویم که موجب افزایش ورودی مقادیر اولیه در حین نمونه گیری است.
در واقع داشتن بخش شتاب دهنده قطع کننده مقادیر اولیه، که این بخش با دور انداختن مثلث هایی که در خط لوله «Pipeline» پردازشی موتور هندسی هیچ سطحی را اشغال نمیکنند یا شامل هیچ نمونه ای نیستند؛ عمل میکند. سیلیکون Polaris 10 از ۳۶ واحد محاسباتی «Compute Units» یا به اصطلاح (CUs) استفاده میکند که به ۴ موتور سایه زنی مختلف «Shader Engines» تقسیم شده و هر موتور از یک پردازشگر هندسی مستقل استفاده میکند که شامل یک موتور پردازشگر شطرنجی «Raster Engine» مستقل و دو موتور رندرینگ «Render Backends» جداگانه است.
همچنین هر ۴ موتور سایه زنی به طور مستقل به دو مگابایت کَش L2 بزرگ تجهیز شده اند که برای مولفه های کلیدی تراشه گرافیکی «GPU» مورد استفاده قرار میگیرد. در طراحی معماری Radeon RX 480؛ بسیاری از مولفه های کلیدی بر روی واحد محاسباتی «CU» متمرکز شده که شامل دستور العمل های واکشی اولیه سخت افزاری، دستور العمل هایی برای بافر بزرگتر و پشتیبانی از مولفه های محاسبتی Half-Precision (FP16/Int16) میشود که به صورت کلی برای کاهش مصرف زیاد حافظه در بازی های ویدئویی و افزایش بهبود عملکرد اجرای بازی ها مورد استفاده قرار گرفته است.
به هر حال؛ واحدهای محاسباتی «Compute Units» استفاده شده در معماری Radeon RX 480 (یا نسل چهارم GCN یا همان GCN 1.3 با اسم رمز Arctic Islands/Polaris) از ۱۵ درصد عملکرد بهتر به سنبت معماری GCN 1.1 به کار رفته در کارت گرافیکی همچون R9 390X استفاده میکنند. کارت گرافیک Radeon RX 480 از ۳۶ واحد پردازنده جریانی «Stream Processors» استفاده میکند که این مقدار معادل ۲۰۳۴ واحد سایه زنی «Shading Unit» است. بنابراین از نظر فیزیکی؛ تعداد واحدهای محاسباتی «Compute Units» به کار رفته Radeon RX 480 به حد اشباح رسیده وامکان افزایش آن وجود ندارد.
به طور خلاصه؛ Ellesmere (همان Polaris 10) از ۲۳۰۴ پردازنده جریانی، ۱۴۴ واحد TMU و ۳۲ واحد ROP با قدرت محاسبات خامی «Floating-point» معادل ۵.۱۶۱ گیگافلاپس برخوردار است که از این منظر قابل مقایسه با دو کارت گرافیک GeForce GTX 1080 و GeForce GTX 1070 نخواهد بود.
تراشه Polaris 10 از یک رابط حافظه ۲۵۶ بیتی GDDR5 استفاده میکند و میتواند از چیپ های حافظه ۸ گیگابیتی تا ۸ گیگابایتی را پشتیبانی کند. پهنای باند واقعی حافظه یان رابط با سرعت کلاک هایی که ذکر شده حدود ۲۵۶ گیگابایت بر ثانیه است. هر چند به لطف سیستم فشرده سازی رنگ دلتا «Delta Color Compression» یا (DCC) میتواند از پهنای باند حافظه موثر بیشتری استفاده کند. به گفته AMD؛ فناوری DCC میتواند به طور موثری تا ۳۰ درصد پهنای باند حافظه را به نسبت چیزی که اعلام شده افزایش دهد.
در بخش چند رسانه ای هم با پیشرفت های خوبی مواجه ایم؛ به طوری که شتاب دهنده های چند رسانه ای کارت های سری RX 400 با بروز رسانی عمده ای مواجه شده و از کدک مهم H.265 به صورت سخت افزاری پشتیبانی میکند. همچنین از رمز گذار HEVC هم برای کدینگ و دیکُد کردن رزولوشن ۴K به صورت ۶۰ فریم استفاده شده تا در پردازش ۴K مشکلی ایجاد نشود. از دیگر برو رسانی بزرگی که در سری RX 400 دیده میشود میتوان به استفاده از کانکتور DisplayPort 1.4 (با پشتیبانی از DP 1.3 HBR3 و DP 1.4 HDR) و کانکتور HDMI 2.0b اشاره کرد.
همچنین ویژگی FreeSync هم با پشتیبانی از هر دو کانکتور DisplayPort و HDMI بروز رسانی شده تا بتواند از رزولوشن های بالایی مثل ۵K (سرعت ۶۰ فریم)؛ ۴K (سرعت ۹۶ فریم با پشتیبانی از HDR و در حال ۱۰ بیت) و ۴K (سرعت ۱۲۰ فریم به صورت SDR) پشتیبانی کند.
این کار از ۹۷۰ هم ضعیفتره تو مرجع خبر اومده بود از ۹۸۰ هم قوی تره تبلیغات دروغ AMD دیگه کاریش نمیشه کرد
سلام خسته نباشید.
gtx 1070 ارتقای مناسبی برای gtx 980 هست به نظرشما؟
سلام متشکرم؛ جایگزین رسمی GTX 980 کارت gTX 1080 هست؛ با این حال اگر کارت گرافیک GTX 1070 هم میتونه به عنوان جایگزین استفاده بشه. تفاوت قدرت این دو کارت (GTX 1070 و ۱۰۸۰) رو در بررسی کامل هر دو کارت توضیح دادیم.