انتخاب سردبیر مقالات

سیستم ماژولار مرکزداده: تکامل در اطمینان‌پذیری

آئین‌نامهٔ مهندسی مرکز داده ترجمهٔ فارسی مقالات نیل راسموسن - APC White Papers
ترجمهٔ فارسی مقالات نیل راسموسن
در APC White Papers

سیستم ماژولار مرکزداده: تکامل در اطمینان‌پذیری [1]

مقدمه

ماژولاریتی (Modularity) روشی برای سازمان‌دهی و ساده‌سازی سیستم‌های پیچیده است. مفهوم آن از سیستم‌های ساده گرفته (همچون باتری چراغ‌قوه) تا سیستم‌های پیچیده (مانند سلول‌های یک موجود زنده) همه را در بر می‌گیرد. روش ماژولار سابقه‌ای چنان طولانی دارد که ویژگی‌های دیگر نمی‌توانند به‌سادگی با آن برابری کنند. با این حال ممکن است دربارهٔ سیستم‌های ساخت دست بشر که در آستانهٔ گذار از روش به‌اصطلاح «یک‌تکه» (Monolithic) به روش ماژولار هستند تردیدهایی وجود داشته باشد، یا فراگیر شدن آن تا دستیابی به مزایای اثبات‌شده‌اش آهسته طی شود و زمان‌بر باشد. 

«زیرساخت فیزیکی مرکزداده» (DCPI)ـ[2] [مطالعهٔ بیشتر] نیز در مسیر این تحول قرار دارد. ویژگی‌های معماری قطعات ساخت که به‌لحاظ فیزیکی آشکار هستند و به‌سادگی شناخته و ادراک می‌شوند هیچ‌گاه محل اختلاف نبوده‌اند. همچون توسعه‌پذیری (Scalability)، انعطاف‌پذیری (Flexibility)، سادگی، قابلیت حمل یا به‌اصطلاح جابه‌جاپذیری. ولی یکی از ویژگی‌های طراحی ماژولار همواره موضوع حرف‌وسخن بسیار بوده و آن «اطمینان‌پذیری» (Reliability) است.

اگر ماژولاریتی را با تحلیل‌های ساده و کلاسیک از اطمینان‌پذیری بررسی کنیم که می‌گویند «قطعات بیشتر برابر است با ریسک خرابی بالاتر»، تحلیل ما در بهترین حالت ناقص و در بدترین حالت گمراه‌کننده خواهد بود. هدف اصلی ما در این مقاله آن است که با مطالعهٔ موردی نشان بدهیم ماژولاریتی علاوه بر برتری‌های ملموس و شناخته‌شده‌ای که دارد، برتری پنهان و عمیق‌تری نیز در زمینهٔ اطمینان‌پذیری دارد که کمتر شناخته شده و آن مزیت «تحمل خطا» (Fault Tolerance) است. طراحی ماژولار به‌خودی‌خود قابلیت تحمل خطا را دارد. این ویژگی برای سیستم‌های پیچیده قابلیت قدرتمند پایداری در برابر خطا را مهیا می‌کند که برای اطمینان‌پذیری راهکاری ناکافی ولی سودمند است.

مطالعهٔ موردی در طبیعت: جانداران اولیه

مقایسه تکامل ماژولار مرکز داده با زندگی ابتدایی تک‌سلولی‌های پیچیده
شکل ۱ – مقاله ۷۶

شکل ۱: زندگی ابتدایی تک‌سلولی‌های پیچیده

 پیشینهٔ ماژولاریتی به زمانی دور و بسیار پیش‌تر از پیدایش مرکزداده و باتری چراغ‌قوه باز می‌گردد. موجوداتی با روش‌های کهن غیر ماژولار (مانند جانداران تک‌سلولی) نزدیک به سه میلیارد سال پیش در روی زمین زندگی می‌کردند. فسیل‌های باقی مانده از این موجودات نشان می‌دهد این جانداران ساختارهای پیچیده‌ای همچون پوسته و شاخک و دهان و دست و پنجه را به‌مرور زمان در خود گسترش داده‌اند. بعضی از این جانداران به همین شکل تا اندازهٔ چشمگیری در حدود ۱۵ سانتی‌متر رشد کردند. این طراحی‌های پیچیدهٔ تک‌سلولی برای میلیاردها سال بخش اصلی زنجیرهٔ غذا در زمین بودند.

سپس نزدیک به ۵۰۰ میلیون سال پیش جانداران چندسلولی به‌وجود آمدند. این موجودات در طول ده‌ها میلیون سال به‌سرعت تکامل یافتند و از تکامل سه میلیارد سالهٔ تک‌سلولی‌های پیچیده نیز پیش افتادند. سرانجام طراحی آن‌ها جایگزین تک‌سلولی‌ها شد.

مزیت ماژولار بودن برای جانداران چندسلولی

چرا طراحی ماژولار چندسلولی بر طراحی یک‌تکهٔ آغازین برتری یافت؟

  • توانایی رشد کردن و بزرگ شدن: رشد سیستم چه در اندازه و چه در افزودن توانایی‌های جدید به‌سادگی امکان‌پذیر شد. این قابلیت با افزودن ماژول‌های جدید (سلول‌ها) که با استفاده از رابط‌های استاندارد در تعامل با ماژول‌های موجود عمل می‌کردند به‌دست آمد.
  • ساده بودن فرایند تکثیر: تکثیر سلول‌های کوچک‌تر که کمتر پیچیده باشند آسان‌تر و سریع‌تر و مطمئن‌تر از تکثیر یک سلول پیچیده است.
  • توانایی تخصصی کردن کارکرد ماژول‌ها: با تخصصی کردن وظایف هر سلول می‌توان به‌همان میزان بهره‌وری و اثربخشی دست یافت که از کار گروهی به‌دست می‌آید. تقسیم کار در جانداران اولیهٔ چندسلولی به این شکل بود که یک نوع سلول برای حرکت و دیگری برای حفاظت طراحی شد. سلول دیگر نیز یافتن و گرفتن غذا را برعهده داشت و تخصصی شدن بر همین روند ادامه یافت.
  • انطباق‌ سریع با محیط: با افزودن و کم کردن یا اصلاح سلول می‌توان تغییرات طراحی را پی‌درپی و با سرعت بیشتری آزمود تا سرانجام آن را پذیرفت و سلول را با آن تطبیق داد یا یکسره رد کرد.
  • تحمل خطا: با کمک افزونگی سلولی از کار افتادن یک سلول برای سیستم خطری نداشت. در نتیجه ترمیم و جایگزینی سلول هم‌زمان با کار کردن و بدون توقف سیستم (که در اینجا به‌معنی ناتوانی یا مرگ جاندار است) ممکن شد.
مقایسه تکامل ماژولار مرکز داده با زندگی اولیهٔ چند سلولی‌ها
شکل ۲ – مقاله ۷۶

شکل ۲: زندگی اولیهٔ چند سلولی‌ها

ویژگی تحمل خطا دلیل ارتقای اطمینان‌پذیری سیستم‌های ماژولار و برتری بر سیستم‌های یک‌تکه است. سیستم در طراحی ماژولار از بخش‌های کوچک‌تری تشکیل می‌شود. این کار افزونگی را در اجزای سیستم افزایش می‌دهد چنان‌که تداوم کار سیستم با نقص یا خرابی یک یا چند جزء الزاما مختل نمی‌شود. پوست انسان با هر خراش کوچک صدها سلول را از دست می‌دهد ولی بدن با آن از پا درنمی‌آید. زیرا سلول‌های دیگر هم‌زمان با ترمیم سلول‌های آسیب‌دیده به کار خود ادامه می‌دهند. در حقیقت این‌چنین نیست که ماژولاریتی را ما انسان‌ها ابداع کرده باشیم. بدن ما خود سیستمی ماژولار است، بدین معنی که ما خودمان ماژولار هستیم. نوع انسان با میلیاردها سلول (ماژول) که در بدن دارد هر روز از مزایای تحمل خطا بهره‌مند می‌شود.

مطالعهٔ موردی در فاوا (IT): هارد درایوها

تجهیزات ذخیره‌سازی در زمان مین‌فریم‌ها (Mainframe) هارد درایوهای بزرگ اختصاصی بودند که انبوهی از نوارهای ۱۴ اینچی داشتند. این هارد درایوها با مکانیسم Read/Write طراحی شده بودند و اندازهٔ آن‌ها همچون ماشین لباس‌شویی بود. شرکت IBM در سال ۱۹۷۸ ابتکار جدیدی در زمینهٔ چیدمان دیسک‌های کوچک‌تر به‌نام خود ثبت کرد، ولی آن را پیش نبرد. در آن زمان به‌نظر نمی‌آمد این ابتکار بتواند به‌اندازهٔ طراحی‌های سنتی یک‌تکه قابل اطمینان باشد. بررسی‌ها و اقدامات اجرایی در زمینهٔ تحمل خطا در مراحل ابتدایی خود بود و تنها به صنعت هوافضا محدود می‌شد. خرابی اجزای سیستم‌های الکترونیکی در صنعت هوافضا مسئلهٔ مرگ و زندگی آدم‌ها بود.

در سال ۱۹۸۷ پژوهشگران برکلی متوجه اختلاف بسیار میان سرعت رایانش و سرعت دسترسی به دادهٔ ذخیره‌شده در درایوها شدند. با پیدایش درایورهای خارجی (هارد اکسترنال) در کامپیوترهای شخصی، این امکان به‌وجود آمد تا از آن‌ها به‌عنوان قطعات ساخت در سیستم‌های با انتقال دادهٔ سریع‌تر استفاده کنند. سال بعد مقالهٔ جالبی با عنوان «نمونه‌ای از آرایهٔ چندگانهٔ دیسک‌های مستقل (RAID)» ارائه شد. هدف اصلی «آرایهٔ چندگانهٔ دیسک‌های مستقل» (RAID) پیوند دادن چند دیسک سخت جداگانه در چهارچوب یک آرایه (Array) است، برای دست یافتن به کارایی و پایایی (Availability) و گنجایش، چنان‌که از یک دیسک بزرگ و گران‌قیمت بهتر باشد. در آن مقاله طرح‌های بسیاری برای ثبت و ذخیرهٔ داده (سطوح RAID) ارائه شد که می‌توان از آن‌ها در چیدمان برای ذخیره و تغییر و بازیابی داده استفاده کرد. در سال ۱۹۹۰ تجهیزات و نظریات موجود با دیسک‌ها ۵٫۲۵ اینچی صنعت کامپیوتر‌های شخصی باهم ترکیب شدند. سرانجام این فناوری پس از تکامل و توسعهٔ بیشتر به ظرفیت و عملکرد و اطمینان‌پذیری لازم برای استفاده در اولین چیدمان‌های RAID دست یافت. این ذخیره‌سازی ماژولار جدید افزونگی را با سرعت Read/Write در کنار هم آورد و جایگزین دستگاه‌های ذخیره‌ساز مین‌فریم‌ها شد. این تجهیزات فضا کمتری نیز اشغال می‌کردند.

مزیت ماژولاریتی در آرایه‌های RAID

شکل ۳: آرایهٔ چندگانهٔ دیسک‌های مستقل (RAID)

آرایه RAID در مرکز داده
شکل ۳ – مقاله ۷۶

چرا آرایه‌های ماژولار RAID بر دستگاه‌های ذخیره‌ساز سنتی یک‌تکه برتری یافتند؟

  • توانایی توسعه و رشد: ظرفیت ذخیره‌سازی را می‌توان به‌سادگی با افزایش تعداد ماژول‌های هر آرایه یا با افزودن بر تعداد آرایه‌ها افزایش داد.
  • فرایند سادهٔ تکثیر: ساختن تعداد زیادی درایو کوچک که به‌عنوان ماژول‌های RAID عمل کنند بسیار ساده‌تر از ساختن درایوهای بزرگ و پیچیدهٔ سنتی است.
  • قابلیت تخصصی‌سازی کارکرد ماژول‌ها: بسته به سطح RAID که برای آرایه تعریف شده است، می‌توان هریک از درایو‌های آرایه را برای افزایش ظرفیت ذخیره‌سازی یا افزایش سرعت دسترسی یا برای افزونگی بیشتر به‌کار گرفت. همچنین در سطح بالاتر می‌توان خود هریک از آرایه‌های RAID را نیز به‌عنوان ماژول در نظر گرفت و به آن‌ها کاربرد ویژه‌ای اختصاص داد.
  • انطباق سریع با محیط: می‌توان درایورها را اضافه یا کم کرد و به‌آسانی سطح RAID را برای دستیابی به ظرفیت و سرعت و افزونگی دل‌خواه تغییر داد.
  • تحمل خطا: استفاده از رویهٔ افزونگی (Redundancy) در ذخیره‌سازی داده (Data) در سیستم RAID این امکان را فراهم می‌سازد که اگر یکی از درایوها خراب شد، داده بازیابی شود.

شکل ۴: سرورهای سنتی

سرورهای سنتی مرکز داده
شکل ۴ – مقاله ۷۶

برخلاف آنچه طراحان انتظار داشتند استقبال بازار از RAID بیشتر از آنکه به‌دلیل سرعت بالاتر آن باشد (که هدف اصلی طراحی محسوب می‌شد) به‌دلیل اطمینان‌پذیری بیشتری بود که از تحمل خطای آن نشئت می‌گرفت. در سال ۱۹۸۸ گروهی از نویسندگان در مقاله‌ای قابلیت تحمل خطای طراحی RAID را نشان دادند. آن‌ها در نمایش زنده یکی از درایوها را از آرایه‌ای که در حال کار کردن بود به‌سادگی حذف کردند. این پژوهش ذهنیت رایج دربارهٔ پایایی (Availability) سیستم‌های چند قسمتی در فناوری اطلاعات را تغییر داد. تا پیش از این اغلب معتقد بودند اطمینان‌پذیری سیستم‌های درایو چندگانه به‌دلیل اجزای بیشتر آن است.

مطالعهٔ موردی در فاوا: سرورهای خشابی

سرورهای خشابی (Blade Server) در مهاجرت به طراحی‌های ماژولار نقش محوری دارند که در زمان نگارش این مقاله همچنان ادامه دارد. سرورهای سنتی با گذشت سال‌ها هرچه بزرگ‌تر و سریع‌تر شدند و روزبه‌روز وظایف بیشتری را با گسترش شبکهٔ کامپیوتری برعهده گرفتند. ولی پیچیدگی شاسی آن‌ها و ضرورت کابل‌کشی برای افزودن هر سرور، سردرگمی و اشتباه را بیشتر می‌کند و از انعطاف‌پذیری در کار می‌کاهد. از سویی سرورهای جدید بر اساس نیاز و معمولا سریع و با کمترین برنامه‌ریزی و هماهنگی اضافه می‌شوند. بدین ترتیب بهره‌برداران مرکزداده دیگر تعجب نمی‌کنند اگر ببینند بدون اطلاع آنان سرور اضافه شده است.

سرورهای خشابی به‌عنوان نمونهٔ ساده و روشن از معماری ماژولار [مطالعهٔ بیشتر] برای اولین بار در سال ۲۰۰۱ به‌کار گرفته شدند. تیغه‌ها (Blade) در شاسی سرور خشابی به‌لحاظ فیزیک همانند هستند و پردازنده‌های یکسانی دارند که برای پیکربندی و استفادهٔ اهداف کاربران آماده است. با پیدایش آن‌ها برتری‌های فراوان ماژولاریتی در سرورها نمایان شد: توسعه‌پذیری، سادگی تکثیر، تخصصی کردن کارکردها، انطباق‌پذیری.

ویژگی مفهومی سیستم‌های ماژولار باعث رواج استفاده از سرورهای خشابی در مراکزداده شد. اما قابلیت‌ اجرایی نهفته در سیستم‌های دارای تحمل خطا به‌تازگی و با پیدایش سرورهای خشابی در دسترس قرار گرفته و مقرون‌به‌صرفه شده است. این سرورها قابلیت ذاتی برای بازسازی سیستم دارند. بدین شکل که در هنگام خرابی می‌توان تیغه‌های معیوب را با تیغه‌های سالم عوض کرد. سرورهای خشابی با چنین تحمل خطایی اطمینان‌پذیری بهتری از شیوه‌های کنونی (با روش نرم‌افزار جایگزین و همچنین سرورهای خوشه‌ای (Server Cluster)) دارند. بدین ترتیب استفاده از سرورهای خشابی تبدیل به معماری رایج در حوزهٔ سرورهای مرکزداده شده است. ظهور سیستم اتوماتیک تحمل خطا در پنج سال گذشته باعث جهش صنعت مرکزداده به‌سوی به‌کارگیری سرورهای خشابی شد.

مزیت ماژولار بودن سرورهای خشابی

چگونه سرورهای خشابی از سرورهای بزرگ مستقل و سنتی پیشی گرفتند؟

شکل ۵: سرور خشابی (۱۰ تیغه در یک شاسی)

سرور خشابی در مرکز داده
شکل ۵ – مقاله ۷۶
  • توانایی توسعه و رشد: می‌توان ظرفیت رایانش (Computing) را به‌آسانی با افزودن ماژول‌های بیشتر یعنی تیغه‌های سرور افزایش داد.
  • فرایند سادهٔ تکثیر: ساختن چند تیغهٔ کوچک از ساختن کل سرور بسیار ساده‌تر است. منبع تغذیه، فن‌های سیستم سرمایش، اتصالات شبکه، همچنین همهٔ اجزای پشتیبانی در درون رک (Rack) متمرکز می‌شوند و میان تیغه‌ها مشترک هستند. بدین ترتیب ساختار خود تیغه‌ها ساده‌تر می‌شود.
  • قابلیت تخصصی‌سازی کارکرد ماژول‌ها: می‌توان هریک از تیغه‌ها را با کاربرد‌های نرم‌افزاری که کاربران تعیین می‌کنند پیکربندی کرد.
  • انطباق سریع با محیط: می‌توان تیغه‌ها را مطابق با نیاز کسب‌وکار یا ضرورت‌های مالی کم‌وزیاد کرد و پیکربندی آن را برای اجرای کاربردهای متفاوت تغییر داد.
  • تحمل خطا: اگر یکی از تیغه‌ها خراب بشود، سیستم عملیات را به‌طور خودکار و با روشی منسجم به تیغهٔ دیگر منتقل می‌کند. با این قابلیت می‌توان خرابی و ازکارافتادگی تیغه‌ها را به‌طور خودکار مدیریت کرد.

ارتقای دیدگاه عمومی دربارهٔ خرابی سیستم‌های فاوا

بررسی‌های موردی بالا نشان می‌دهد چگونه طراحی ماژولار به‌دلایل بنیادی که در ذات و ماهیت ماژولاریتی نهفته است از طراحی یک‌تکه پیشی گرفت. یکی از این دلایل تحمل خطا است که در آینده اهمیت ویژه‌ای برای مرکزداده خواهد داشت. هنگامی‌که سرورها و دستگاه‌های ذخیره‌ساز در سرتاسر مرکزداده به قابلیت تحمل خطا مجهز بشوند، تعریف خرابی و خطا در صنعت فاوا دگرگون خواهد شد.

خرابی در مرکزداده به دو حالت متفاوت ممکن است (شکل ۶). تصویر سمت چپ نشان می‌دهد یک UPS که کل مرکزداده را تغذیه می‌کند خراب شده و تمام رک‌ها را از کار انداخته است. در تصویر راست همان یک UPS خراب شده ولی تنها یک رک از کار افتاده است. مدیر فاوا در مراکزدادهٔ سنتی تفاوتی بین این دو وضعیت قائل نمی‌شود. زیرا به‌احتمال زیاد حتی اگر تنها یک رک هم خراب بشود، به‌دلیل وابستگی‌های درونی که میان بخش‌های مختلف شامل سرورها و ذخیره‌ساز داده و سویچ‌ها و روترها وجود دارد، اثر آبشاری (Cascading Effect)ـ[3] کل مرکزداده را از کار می‌اندازد.

دو سناریوی خرابی در مرکز داده
شکل ۶ – مقاله ۷۶

شکل ۶: دو سناریوی خرابی در مرکزداده (نما از بالا، چهار ردیف با ۸ رک)

با به‌کارگیری طراحی جدید ماژولار که در رایانش و ذخیره‌سازی برپایهٔ آرایه‌ها عمل می‌کند، خرابی یک رک (تصویر سمت چپ شکل ۶) از نظر مدیران فاوا بهتر و کم‌زیان‌تر شناخته می‌شود. امروزه مرکزداده با کمک افزونگی در منابع می‌تواند بدون وقفه به کار خود ادامه دهد، حتی اگر چند قطعه هم ازکارافتاده باشد. هرچه معماری‌های با تحمل خطا رایج‌تر می‌شوند، مراکزداده می‌توانند خرابی تعداد بیشتری از واحدهای خود را بهتر تحمل کنند و به ازکارافتادگی در کل سیستم دچار نشوند. هنگامی که سازندگان سرورهای خشابی موفق بشوند به وعده‌هایی که دربارهٔ قابلیت منسجم تحمل خطا داده‌اند عمل کنند، آنگاه سیستم‌ها دیگر با خرابی یک یا چندین رک از کار نخواهند افتاد.

تاثیر بر زیرساخت فیزیکی (DCPI)

پیشرفت الگوی مدیریت خرابی همچنین بر شیوهٔ پشتیبانی کردن زیرساخت فیزیکی از معماری جدید فاوا اثر می‌گذارد. برای نمونه هرچه مراکزداده در سطوح فاوا تحمل بیشتری در برابر خطا داشته باشند، پشتیبانی کردن برق با یک UPS بزرگ بهره‌وری کمتری خواهد داشت. زیرا خرابی همان یک UPS کل سیستم را از کار خواهد انداخت؛ نتیجه‌ای نامطلوب در مرکزداده‌ای که از دست دادن یک رک موجب قطع شدن هیچ سرویسی نمی‌شود. اگر UPSها چنان در سرتاسر مرکزداده توزیع بشوند که هر رک دارای UPS جداگانه‌ای باشد، آنگاه خرابی هر UPS تنها همان یک رک وابسته را از کار می‌اندازد و بقیهٔ سیستم به کار خود ادامه می‌دهد. در این حالت حتی با اینکه تعداد UPSها بیشتر خواهد بود (که این خود احتمال خرابی هر دستگاه را افزایش می‌دهد)، بازهم سیستم می‌تواند چنین خرابی را تحمل کند. اکنون فرض کنید از کار افتادن تمام سیستم فقط زمانی رخ می‌دهد که سه رک هم‌زمان با هم خراب بشوند. چنین احتمالی بعید است و پیش آمدن آن نامحتمل‌تر از خرابی یک UPS بزرگ به‌نظر می‌رسد. پس درمی‌یابیم تئوری اطمینان‌پذیری به این دلیل بر معماری توزیع برق و سرمایش تاکید می‌کند که به بهبود قابلیت تحمل خطا در سیستم‌های فاوا دست یابد.

مقایسهٔ زیرساخت فیزیکی (DCPI) یک‌تکه و ماژولار

دستگاه UPS یک‌تکهٔ مرکز داده
شکل ۷ – مقاله ۷۶

شکل ۷: دستگاه UPS یک‌تکهٔ مرکزداده

زیرساخت فیزیکی مرکزداده در 30 سال گذشته کمتر تغییر کرده است. مدل ثابت زیرساخت فیزیک از کوچک‌ترین سالن‌های کامپیوتر گرفته تا بزرگ‌ترین تاسیسات سازمانی همواره یک دستگاه مرکزی برای تامین برق و سرمایش بوده است. در واقع منحصربه‌فرد بودن و یک‌تکه بودن تجهیزات و اتصالات در پیکربندی، از مهندسی و طراحی این نوع زیرساخت ناشی می‌شود. جایگزین کردن این معماری با طراحی ماژولار از یک سوی به DCPI امکان پشتیبانی درست از تجهیزات ماژولار فاوای با تحمل خطا را می‌دهد، از سوی دیگر تجهیزات زیرساخت فیزیکی را از مزایای ماژولاریتی از جمله اطمینان‌پذیری به‌دست‌آمده از تحمل خطا بهره‌مند می‌سازد.

مزایای زیرساخت فیزیکی (DCPI) ماژولار

چگونه DCPI ماژولار جایگزین DCPI یک‌تکهٔ سنتی شد؟

  • توانایی توسعه و رشد: DCPI ماژولار ابتدا به‌اندازهٔ نیاز فاوای کنونی مرکزداده اجرا می‌شود، سپس هماهنگ و هم‌پای با آن رشد می‌کند و توسعه می‌یابد. این مزیت اهمیت ویژه‌ای در زیرساخت فیزیکی مرکزداده دارد. سیستم برق و سرمایش در روش سنتی در یک مرحله و به‌اندازه‌ای اجرا می‌شود که از بیشینهٔ ظرفیت تجهیزات فاوا در توسعهٔ نهایی پشتیبانی کند. این کار باعث هدررفت زیادی در هزینه سرمایه‌ای و هزینه عملیاتی می‌شود.
  • فرایند سادهٔ تکثیر: طراحی ماژولار یعنی ساختن تعداد بیشتری واحد کوچک به‌جای ساختن تعداد کمی واحد بزرگ. تولید کردن به‌تعداد بیشتر خطای کمتری را در پی دارد. اگر اندازه‌ها کوچک‌تر و طراحی ساده‌تر باشد، می‌توان روند ساخت را با دخالت انسانی کمتر همچنین اتوماسیون قوی‌تر ساماندهی کرد و بدین شکل خطا را کاهش داد.
  • قابلیت تخصصی‌سازی کارکرد ماژول‌ها: دستگاه‌های تامین برق و سرمایش را می‌توان با پیکربندی‌های گوناگون به‌شکلی ساخت که با دسترسی‌های مشخص و الزامات سرمایش ویژهٔ هریک از قطعات مختلف مرکزداده هم‌خوانی داشته باشد.
  • انطباق سریع با محیط: هر دو سه سال یک‌بار تجهیزات فاوای جدیدی به مراکزداده افزوده می‌شود یا تجهیزات موجود تغییراتی می‌کند. محیط مرکزداده همیشه در تغییر و بازبینی است. تجهیزات جدید ممکن است نیازها و مشخصات جدیدی نیز داشته باشند. از جمله شکل و اندازه، الزامات برق و سرمایش، پریز‌ها، دوشاخه‌ها. سیستم DCPI ماژولار این قابلیت را دارد که برای مطابقت با نیازهای پیوسته در تغییر فاوا، به‌سادگی توسعه یابد یا دوباره پیکربندی شود.
  • تحمل خطا: همان طور که تحمل خطا در تجهیزات فاوا به مرکزداده امکان می‌دهد پس از رخ دادن خرابی در یکی از اجزای فاوا به کار خود ادامه دهد، در تجهیزات DCPI نیز این امکان را فراهم می‌کند که اگر در یکی از اجزای زیرساخت فیزیکی خرابی رخ داد، تداوم برق و سرمایش را حفظ کند. تحمل خطا در زیرساخت فیزیکی ممکن است با افزونگی برای دستگاه‌ها فراهم شود یا از افزونگی برای اجزای داخلی دستگاه‌ها به‌دست آید. مثلا با افزایش تعداد ماژول‌های اضافی برق در یک UPS.

شکل ۸: دستگاه UPS ماژولار در سطح رک

دستگاه UPS ماژولار در سطح رک مرکز داده
شکل ۸ – مقاله ۷۶

چنان‌که در مطالعهٔ موردی دربارهٔ طراحی ماژولار دیدیم، چهار ویژگی اول وسیلهٔ موفقیت در طراح هستند اما پنجمین ویژگی یعنی تحمل خطا امری ضروری است. افزون بر این چون تداوم کار مرکزداده کاملا به وجود برق و سرمایش وابسته است، داشتن اطمینان‌پذیری برای تحمل خطای زیرساخت فیزیکی به‌همان اندازهٔ تحمل خطای تجهیزات فاوایی که از آن‌ها پشتیبانی می‌کند ضرورت دارد. مرکزداده‌ای که در بخش فاوا قابلیت تحمل خطا داشته باشد ولی در بخش زیرساخت فیزیکی نداشته باشد، همچون پل معلقی است که بدنهٔ قوی دارد ولی با کابل‌های ضعیف به تکیه‌گاه متصل شده است.

نتیجه‌گیری

تغییر در طراحی و گذار از حالت یک‌تکه به طراحی ماژولار به‌دلیل برتری‌هایی که در بهره‌وری و انعطاف‌پذیری و اطمینان‌پذیری به‌دنبال می‌آورد، بخشی از روند طبیعی تکامل در سیستم‌های پیچیده به‌شمار می‌رود. با بررسی دیگر نمونه‌های موفق می‌توان بهتر درک کرد که چگونه ماژولاریتی سیستم‌هایی را که از ابتدا یک‌تکه کار می‌کرده‌اند تااندازهٔ زیادی و حتی به‌شکل پایه‌ای بهبود داده است؛ سیستم‌هایی که هرگز روش دیگر دربارهٔ آن‌ها متصور نبود. تحمل خطا و دیگر ویژگی‌های پایه‌ای ماژولاریتی (توانایی توسعه، تکثیر، تخصصی‌سازی، انطباق) در سیستم‌های ساخت دست بشر آشکار و گریزناپذیر هستند.

صنعت فاوا تاکنون برتری‌های طراحی ماژولار را با آرایه‌های RAID و سرورهای خشابی در رایانش و ذخیره‌سازی به‌خوبی مشاهده و درک کرده است. از همه مهم‌تر تحمل خطا است که از دهه‌ ۷۰ میلادی در حوزه‌های حساس و حیاتی معمول بوده است. امروزه صنعت مرکزداده می‌تواند در اجرای مزیت تحمل خطا از صنایعی همچون هوا فضا پیروی کند. در ویژگی تحمل خطا اعمال کردن کنترل دقیق بر کیفیت قطعات، نخستین گام در اطمینان‌پذیری سیستم به‌شمار می‌رود. راهکار نهایی همان حفظ تداوم کار کردن سیستم در صورت خرابی یکی از اجزاء است.

همچنان که ماژولاریتی و تحمل خطا به رویکرد رایج در طراحی مرکزداده تبدیل می‌شوند، زیرساخت فیزیکی نیز می‌بایست همین راه را برود تا بهره‌وری و انعطاف‌پذیری و اطمینان‌پذیری در مرکزداده ارتقا یابد.

پانویس

[1] این مطلب بخشی از کتاب «آئین‌نامه مهندسی مرکزداده» و ترجمه فارسی مقالهٔ زیر است: 

APC White Paper 76: “Modular Systems: The Evolution of Reliability” (Revision 1)

نویسنده نیل راسموسن (Neil Rasmussen) [آشنایی با نویسنده و مطالعهٔ مقالات فارسی او]، مترجم نازلی مجیدی، بازنویسی و ویراستاری پرهام غدیری‌پور، به‌کوشش دکتر بابک نیکفام، تهیه‌شده در باشگاه مراکزداده

[2] DCPI: Data Denter Physical Infrastructure  

[3] بدین معنی که به‌دلیل وابستگی بخش‌های مختلف، اشکال در یک بخش از سیستم به‌شکل پی‌درپی و افزاینده مشکلات بیشتری را ایجاد می‌کند. تا آنجا که ممکن است کل مجموعه را ازکار بیندازد.

درج دیدگاه

برای درج دیدگاه کلیک کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سوال امنیتی *