معماری های انویدیا

درود به همراهان همیشگی سایت. اول اینکه مطلب فعلی سنگین ترین بررسی فنی و تخصصی معماری انویدیا در سایت است. دوم اینکه مطمئنیم خیلی ها همین اول مطلب را که ببینند عطایش را به لقایش میسپارند! سوم اینکه مطمئن باشید با خواندن تحلیل و بررسی زیر درک عمیقی از چرایی کوچ انویدیا از معماری «کپلر» به معماری «ماکسول» پیدا خواهید کرد و در آخر هم بگوییم همانند این مطلب در وب فارسی وجود ندارد و این مطلب برای اولین بار در سایت «گارد۳دی/Guard3d.com» منتشر میشود.

اگر خبرهای سخت افزاری را دنبال کرده باشید احتمالاً نام پاسکال (Pascal) را شنیده اید. Pascal Architecture نام معماری جدید کمپانی انویدیا است که گفته میشود اواسط سال ۲۰۱۶ میلادی جانشین نسل دوم معماری ماکسول خواهد شد. معماری پاسکال در مرحله TAPE-OUT است و به گفته انویدیا از ۲ برابر بازدهی بیشتر به نسبت نسل دوم ماکسول برخوردار است. پاسکال از نسل دوم فناوری حافظه HBM استفاده میکند و میتواند از پهنای باند عظیمی معادل ۱ ترابایت بر ثانیه پشتیبانی کند.

مرحله TAPE-OUT مرحله ای است که پس از سنتزهای سنگین مداری توسط سیستم های EDA مثل پالادیوم XP2 شرکت های مطرحی همچون Cadence قرار می گیرد و وبعد از این مرحله مدار طراحی شده به شکل PHOTO MASK برای شرکت های لیتوگراف کننده ای مثل TSMC، UMC یا گلوفو فرستاده میشوند تا توسط آنها ابتدا با Yield پایین و در آینده با بهینه سازی های خود سازنده با Yieldهای قابل قبول روی ویفر های (Wafer) سیلیکونی +۱۶nm FFحک شوند. (این پروسه در آینده با توضیحات مفصل به صورت یک مقاله جدا خدمت شما عزیزان  قرار خواهد گرفت )

به گفته Jen-hsun Huang مدیر عامل انویدیا معماری پاسکال میتواند تا ۱۰ برابر سریعتر از نسل دوم معماری ماکسول در محاسباتی با نیاز به دقت محاسباتی کمتر با توجه به Mixed precision بودن تراشه عمل کند . با پشتیبانی از فن‌آوری‌های NVLink  و ۳D Memory میتواند تا ۳ برابر حافظه بیشتر به نسبت چیزی که در حال حاضر در Fury X وجود دارد  را در اختیار مخاطبش قرار دهد.  به عبارتی دیگر ۴۰۰ درصد راندمان کاری بیشتر در پردازش محاسبات اعشاری ترکیبی را در پاسکال خواهیم داشت. فن‌آوری NVLink  قرار است جای استاندارد PCI Express کنونی بگیرد و این یعنی ۵ برابر پهنای باند بیشتر در معماری پاسکال!

nvlink

با این مقدمه کوتاه برویم سر اصل مطلب. قرار طی چند مطلب مختلف به بررسی روش های طراحی معماری انویدیا بپردازیم که «مراحل ساخت پردازنده» و «آشنایی با فوتوماسک» در کنار تحلیل نسل دوم معماری ماکسول از جمله این موارد میباشند. نکته قابل ذکر این است که انویدیا بر خلاف معماری های کپلر و فرمی، اطلاعات فنی زیادی از نسل دوم ماکسول منتشر نکرده که همین مورد کار ما را در تحلیل و بررسی این معماری سخت میکند.

ما برای اینکه تحلیل درستی در مورد دومین نسل از معماری ماکسول داشته باشیم نیاز داریم تا ابتدا معماری کپلر را بررسی کنیم و ببینیم چرا در تئوری و روی کاغذ از ماکسول قویتر است، اما در عمل تا ۵۰ درصد هم از ماکسول ضعیف تر است!؟ این موارد به بهینه سازی های انویدیا و روش های این کمپانی در طراحی معماری مربوط میشود که قرار است در زیر به برسری آن بپردازیم. بنابراین در مقاله از کپلر تا ماکسول | بررسی تخصصی زمانبندی در معماری های انویدیا به بررسی این موارد میپردازیم. پس ما باشید.

شروعی بر بهینه سازی های انویدیا

نکته مشترکی که در بین معماری های انویدیا وجود دارد و بسیار هم مهم است، حرکت انویدیا از HWS به SWS و قوی تر شدن دیتا شیت های SW های موجود در معماری ماکسول دو است. «HWS» مخفف «Hardware scheduling» یا همان برنامه ریزی سخت افزاری است که از زمان معماری فرمی به بعد در تمامی کارت های انویدیا به صورتی جدی در معماری این کارت ها دیده میشود. Hardware scheduling یا همان برنامه ریزی سخت افزاری یعنی سخت افزار در داخل GPU فقط کار زمان بندی «Scheduling» را انجام میدهد که شامل خوبی ها و بدی هایی است که در ادامه مقاله ابتدا توضیح کوتاهی در باره آن میدهیم و در ادامه برای درک معماری ماکسول ابتدا کپلر را بررسی میکنیم تا در این مسیر به ماکسول برسیم.

زمانی که زمان بندی «Scheduling» دستورات درون تراشه گرافیکی (GPU) انجام شود موجب میشود Thread ها از سرعت بسیار بیشتری برخوردار شوند که البته این سرعت هم شرایطی دارد. مثلا اگر مکانیزم ترد بندی دستورات چک Ilp مخفف Instruction Level Parralisim (یا موازی گرایی/پاراللیسم) را داشته باشیم، بهتر است که برای جوگیری از تاخیرات مختلف، پردازش اطلاعات از طریق نرم افزار و پردازنده صورت گیرد، اما اگر مکانیزم رده بندی دستورات یا مبنای پردازشی آنها بر اساس تکنیک TLP مخفف «Thread Level Parallelism» باشد با شرایط بهتری مواجه میشویم، چون دیگر نیازی به روش دستورات چک Ilp نیست و همین مورد یکی از مهمترین دلایل استفاده بیشتر ابر کامپیوترهای جهان از تراشه های گرافیکی است که در آنها از HWS استفاده شده است.

Dynamic Parallelism

مثلاً در معماری فرمی «Fermi Architecture» تمام تراشه های گرافیکی (GU) از HWS استفاده میکنند و این مورد در تمامی کارت های مبتنی بر معماری GCN هم دیده میشود که البته مدل های انویدیا پیچیده تر و Catch Coherency بالاتری نسبت به GCN داشته اند. بههمین دلیل است که بسیاری از ابر کامپیوترهای جهان در حال حاضر از معماری ۷-۸ سال پیش شتاب دهنده های فرمی استفاده میکنند. اما همین مقدار برای ابر رایانه هایی که از تراشه های گرافیکی مبتنی بر GCN استفاده میکنند بسیار کمتر است. این در حالی است که کمپانی انویدیا از شتاب دهنده های کپلر و معماری GT200 تسلا هم استفاده میکند.

روش HWS ایراداتی هم دارد که شامل اشغال حجم زیادی از سطح مساحت تراشه (یعنی ترانزیستور زیادی برای این بخش ها مصرف میشود)، مصرف برق زیاد به خاطر استفاده از واحدهای پر شارژ گیت یا حتی دائم الشارژ زمانبندی، اتصالات بسیار زیاد بخش های مدیریت داده (کل بخش های زمانبندی و مدیریت) که موجب افزایش مصرف برق تراشه میشوند و همچنین طراحی پیچیده و اتصالات زیاد بین گیت ها که باعث ایجاد نشتی الکترون بیشتر ( Leakage) که نتیجه آن افزایش دما است، میباشد.

اما SWS چیست!؟ این کلمه مخفف «Software Scheduling» یا زمان بندی نرم افزاری است و همانطور که از نامش پیداست، زمان بندی برای پردازش اطلاعات به صورت نرم افزاری انجام میشود. در مورد معماری کارت های انویدیا تو پرانتز بگویم که هنوز هم بسیاری از کارت های انویدیا از روش HWS استفاده میکنند که دلایل تکنیکی خاص خودش را دارد. مثلا در معماری های چک دائم ILP حدوداً ۹۰ درصد پردازش ها توسط نرم افزار (پردازنده) انجام میشود، چون میزان تاخیر را به  توان عملیاتی «Throughput» ترجیح میدهند. مثل دو معماری VLIW-4-5 و کمتر از آن هم دو معماری کپلر «Kepler» و نسل دوم معماری ماسکول (Maxwell) که تاخیر بسیار کمی دارند.

SM-KEPLER.FERMI

در واقع نسل دوم معماری ماسکول (Maxwell) یکجور بالانس بین معماری کپلر «Kepler» و معماری فرمی «Fermi» است که البته به معماری کپلر نزدیک تر است و ما هم به همین دلیل این مبحث را شروع کردیم تا به شاهکار ماسکول (Maxwell) ای برسیم که تمامی کارت هایش بر روی کاغذ از کارت نسل قبلی ضعیف تر، امادر عمل قویتر و توان پردازشی بهتری دارند. مزایا و معایب SWS هم دقیقا معکوس روش HWS است. مثلا اگر مدیریت ترد ها تاخیر داشته باشد، بهتر است تعداد هسته ها زیاد باشد تا تاخیر جبران شود، دقیقا شبیه همان روشی که AMD روی معماری VLIW5 های خودش به طور گسترده استفاده کرده است. (مثل تراشه CYPRESS در HD5870 )

اگر بخواهیم مثالی بیاوریم میتوانیم به دو کارت HD 5870 با ۱۶۰۰ هسته و GTX 480 با فقط ۴۸۰ اشاره کنیم. در این مثال هسته های ۵۸۷۰ نیازمند چک عدم وابستگی دستورات یا همان ILP هستند و به همین دلیل با هسته های بسیار کندی مواجه ایم که تعداشان زیاد است، بنابراین نیازی نیست که دستورات خیلی سریع به هسته ها برسند، پس دستورات با سرعت کمتر و الویت بندی به هسته ها میرسند و تراشه گرافیکی هم با بازدهی خوب کارش را انجام میدهد.

در مقام مقایسه به GTX 480 میرسیم که هسته های سریع تری دارند (با دو برابر رفکانس کلی تراشه) و به چک عدم وابستگی دستورات یا همان ILP هم نیازی ندارند. بنابراین دستورات با سرعت بیشتری هسته ها را تغذیه میکنند و در صورت بیکاری،  فاکتور اشغال هسته ها یا همان عنصر کلیدی «نسبت اشغال/Occupancy Rate» کاهش میابد و این امر موجب کاهش قدرت کلی تراشه میشود که دقیقاً در کارت گرافیک HD 5870 شاهدش بودیم. در واقع درکارت HD 5870 باید حجم زیادی دستورات موازی فرستاده شود که مشکل تاخیر حل شود.

صفحه بندی

صفحه بندی 1 2 3 4 5 6
راي شما
1 Star2 Stars3 Stars4 Stars5 Stars6 Stars7 Stars8 Stars9 Stars10 Stars
Loading...

نوشته شده در Intel /Nvidia,بررسی سخت افزار,پیشنهاد سردبیر,کارت گرافیک

آخرین نقد و بررسی ها
بررسی مانیتور Samsung CFG70 27-Inch gaming

بررسی مانیتور Samsung CFG70 27-Inch gaming

تاريخ بررسي: ۲۶ آبان, ۹۶
بررسی کارت گرافیک ASUS ROG STRIX GTX 1060 OC 6GB

بررسی کارت گرافیک ASUS ROG STRIX GTX 1060 OC 6GB

۱۹ مرداد, ۹۶

9.0

بررسی کارت گرافیک Zotac GeForce GTX 1080 Ti AMP! Extreme

بررسی کارت گرافیک Zotac GeForce GTX 1080 Ti AMP! Extreme

۶ مرداد, ۹۶

9.6

بررسی کارت گرافیک Palit GTX 1080 GameRock Premium

بررسی کارت گرافیک Palit GTX 1080 GameRock Premium

۲۶ تیر, ۹۶

9.8

بررسی کارت گرافیک Sapphire Radeon RX 580 Nitro

بررسی کارت گرافیک Sapphire Radeon RX 580 Nitro

۲۳ اردیبهشت, ۹۶

9.2

روزی سگی، شیری را گفت: با من ستیز کن؛ شیر سر باز زد؛ سگ گفت: نزد تمام سگان خواهم گفت شیر از مقابله با من می هراسد. شیر گفت: سرزنش سگان را خوشتر دارم تا شماتت شیران، که گویند چون شیری باشد که با سگی پنجه در پنجه شده

×
DX11-Driver-will-be-better-than-Mantle
شاخه: AMD/ATI,Intel /Nvidia,اخبار سخت افزار

کارایی بهتر درایور DX11 اینتل در برابر درایور AMD Mantle

تــیم گارد3دی

تیم گــارد3دی (Guard3d.com) سعی بر ارائه مطالب متفاوت در زمینه سخت افزار و بازی دارد و امیدوار است در این زمینه بهترین عملکرد را داشته باشد . تیم گـــارد فعالیت خود را به صورت رسمی از تاریخ 2013-10-14 برابر با 1392-07-22 آغاز کرده و تمامی مطالب تولید شده توسط این سایت برای صاحبین آن محفوظ میباشد. کپی مطالب تنها با ذکر نام (Guard3d.com) مجاز است و ما از کپی مطالب بدون ذکر دقیق لینک منبع به صفحه مطلب راضی نیستیم. امیدواریم رضایت شما را جلب کنیم .

شبکه های اجتماعی

کپی رایت 2013 © تمامی حقوق نزد Guard3d محفوظ است | طراحی و کدنویسی توسط hosseincode

error: نمیتوانید کپی کنید!!! فقط لینک صفحه برای آدرس دهی به این مطلب قابل کپی است