سیستم ماژولار مرکزداده: تکامل در اطمینانپذیری [1]
مقدمه
ماژولاریتی (Modularity) روشی برای سازماندهی و سادهسازی سیستمهای پیچیده است. مفهوم آن از سیستمهای ساده گرفته (همچون باتری چراغقوه) تا سیستمهای پیچیده (مانند سلولهای یک موجود زنده) همه را در بر میگیرد. روش ماژولار سابقهای چنان طولانی دارد که ویژگیهای دیگر نمیتوانند بهسادگی با آن برابری کنند. با این حال ممکن است دربارهٔ سیستمهای ساخت دست بشر که در آستانهٔ گذار از روش بهاصطلاح «یکتکه» (Monolithic) به روش ماژولار هستند تردیدهایی وجود داشته باشد، یا فراگیر شدن آن تا دستیابی به مزایای اثباتشدهاش آهسته طی شود و زمانبر باشد.
«زیرساخت فیزیکی مرکزداده» (DCPI)ـ[2] [مطالعهٔ بیشتر] نیز در مسیر این تحول قرار دارد. ویژگیهای معماری قطعات ساخت که بهلحاظ فیزیکی آشکار هستند و بهسادگی شناخته و ادراک میشوند هیچگاه محل اختلاف نبودهاند. همچون توسعهپذیری (Scalability)، انعطافپذیری (Flexibility)، سادگی، قابلیت حمل یا بهاصطلاح جابهجاپذیری. ولی یکی از ویژگیهای طراحی ماژولار همواره موضوع حرفوسخن بسیار بوده و آن «اطمینانپذیری» (Reliability) است.
اگر ماژولاریتی را با تحلیلهای ساده و کلاسیک از اطمینانپذیری بررسی کنیم که میگویند «قطعات بیشتر برابر است با ریسک خرابی بالاتر»، تحلیل ما در بهترین حالت ناقص و در بدترین حالت گمراهکننده خواهد بود. هدف اصلی ما در این مقاله آن است که با مطالعهٔ موردی نشان بدهیم ماژولاریتی علاوه بر برتریهای ملموس و شناختهشدهای که دارد، برتری پنهان و عمیقتری نیز در زمینهٔ اطمینانپذیری دارد که کمتر شناخته شده و آن مزیت «تحمل خطا» (Fault Tolerance) است. طراحی ماژولار بهخودیخود قابلیت تحمل خطا را دارد. این ویژگی برای سیستمهای پیچیده قابلیت قدرتمند پایداری در برابر خطا را مهیا میکند که برای اطمینانپذیری راهکاری ناکافی ولی سودمند است.
مطالعهٔ موردی در طبیعت: جانداران اولیه
شکل ۱: زندگی ابتدایی تکسلولیهای پیچیده
پیشینهٔ ماژولاریتی به زمانی دور و بسیار پیشتر از پیدایش مرکزداده و باتری چراغقوه باز میگردد. موجوداتی با روشهای کهن غیر ماژولار (مانند جانداران تکسلولی) نزدیک به سه میلیارد سال پیش در روی زمین زندگی میکردند. فسیلهای باقی مانده از این موجودات نشان میدهد این جانداران ساختارهای پیچیدهای همچون پوسته و شاخک و دهان و دست و پنجه را بهمرور زمان در خود گسترش دادهاند. بعضی از این جانداران به همین شکل تا اندازهٔ چشمگیری در حدود ۱۵ سانتیمتر رشد کردند. این طراحیهای پیچیدهٔ تکسلولی برای میلیاردها سال بخش اصلی زنجیرهٔ غذا در زمین بودند.
سپس نزدیک به ۵۰۰ میلیون سال پیش جانداران چندسلولی بهوجود آمدند. این موجودات در طول دهها میلیون سال بهسرعت تکامل یافتند و از تکامل سه میلیارد سالهٔ تکسلولیهای پیچیده نیز پیش افتادند. سرانجام طراحی آنها جایگزین تکسلولیها شد.
مزیت ماژولار بودن برای جانداران چندسلولی
چرا طراحی ماژولار چندسلولی بر طراحی یکتکهٔ آغازین برتری یافت؟
- توانایی رشد کردن و بزرگشدن: رشد سیستم چه در اندازه و چه در افزودن تواناییهای جدید بهسادگی امکانپذیر شد. این قابلیت با افزودن ماژولهای جدید (سلولها) که با استفاده از رابطهای استاندارد در تعامل با ماژولهای موجود عمل میکردند بهدست آمد.
- سادهبودن فرایند تکثیر: تکثیر سلولهای کوچکتر که کمتر پیچیده باشند آسانتر و سریعتر و مطمئنتر از تکثیر یک سلول پیچیده است.
- توانایی تخصصیکردن کارکرد ماژولها: با تخصصیکردن وظایف هر سلول میتوان بههمان میزان بهرهوری و اثربخشی دست یافت که از کار گروهی بهدست میآید. تقسیم کار در جانداران اولیهٔ چندسلولی به این شکل بود که یک نوع سلول برای حرکت و دیگری برای حفاظت طراحی شد. سلول دیگر نیز یافتن و گرفتن غذا را برعهده داشت و تخصصیشدن بر همین روند ادامه یافت.
- انطباق سریع با محیط: با افزودن و کمکردن یا اصلاح سلول میتوان تغییرات طراحی را پیدرپی و با سرعت بیشتری آزمود تا سرانجام آن را پذیرفت و سلول را با آن تطبیق داد یا یکسره رد کرد.
- تحمل خطا: با کمک افزونگی سلولی ازکارافتادن یک سلول برای سیستم خطری نداشت. در نتیجه ترمیم و جایگزینی سلول همزمان با کارکردن و بدون توقف سیستم (که در اینجا بهمعنی ناتوانی یا مرگ جاندار است) ممکن شد.
شکل ۲: زندگی اولیهٔ چند سلولیها
ویژگی تحمل خطا دلیل ارتقای اطمینانپذیری سیستمهای ماژولار و برتری بر سیستمهای یکتکه است. سیستم در طراحی ماژولار از بخشهای کوچکتری تشکیل میشود. این کار افزونگی را در اجزای سیستم افزایش میدهد چنانکه تداوم کار سیستم با نقص یا خرابی یک یا چند جزء الزاما مختل نمیشود. پوست انسان با هر خراش کوچک صدها سلول را از دست میدهد ولی بدن با آن از پا درنمیآید. زیرا سلولهای دیگر همزمان با ترمیم سلولهای آسیبدیده به کار خود ادامه میدهند. در حقیقت اینچنین نیست که ماژولاریتی را ما انسانها ابداع کرده باشیم. بدن ما خود سیستمی ماژولار است، بدین معنی که ما خودمان ماژولار هستیم. نوع انسان با میلیاردها سلول (ماژول) که در بدن دارد هر روز از مزایای تحمل خطا بهرهمند میشود.
مطالعهٔ موردی در فاوا (IT): هارد درایوها
تجهیزات ذخیرهسازی در زمان مینفریمها (Mainframe) هارد درایوهای بزرگ اختصاصی بودند که انبوهی از نوارهای ۱۴ اینچی داشتند. این هارد درایوها با مکانیسم Read/Write طراحی شده بودند و اندازهٔ آنها همچون ماشین لباسشویی بود. شرکت IBM در سال ۱۹۷۸ ابتکار جدیدی در زمینهٔ چیدمان دیسکهای کوچکتر بهنام خود ثبت کرد، ولی آن را پیش نبرد. در آن زمان بهنظر نمیآمد این ابتکار بتواند بهاندازهٔ طراحیهای سنتی یکتکه قابل اطمینان باشد. بررسیها و اقدامات اجرایی در زمینهٔ تحمل خطا در مراحل ابتدایی خود بود و تنها به صنعت هوافضا محدود میشد. خرابی اجزای سیستمهای الکترونیکی در صنعت هوافضا مسئلهٔ مرگ و زندگی آدمها بود.
در سال ۱۹۸۷ پژوهشگران برکلی متوجه اختلاف بسیار میان سرعت رایانش و سرعت دسترسی به دادهٔ ذخیرهشده در درایوها شدند. با پیدایش درایورهای خارجی (هارد اکسترنال) در کامپیوترهای شخصی، این امکان بهوجود آمد تا از آنها بهعنوان قطعات ساخت در سیستمهای با انتقال دادهٔ سریعتر استفاده کنند. سال بعد مقالهٔ جالبی با عنوان «نمونهای از آرایهٔ چندگانهٔ دیسکهای مستقل (RAID)» ارائه شد. هدف اصلی «آرایهٔ چندگانهٔ دیسکهای مستقل» (RAID) پیوند دادن چند دیسک سخت جداگانه در چهارچوب یک آرایه (Array) است، برای دست یافتن به کارایی و پایایی (Availability) و گنجایش، چنانکه از یک دیسک بزرگ و گرانقیمت بهتر باشد. در آن مقاله طرحهای بسیاری برای ثبت و ذخیرهٔ داده (سطوح RAID) ارائه شد که میتوان از آنها در چیدمان برای ذخیره و تغییر و بازیابی داده استفاده کرد. در سال ۱۹۹۰ تجهیزات و نظریات موجود با دیسکها ۵٫۲۵ اینچی صنعت کامپیوترهای شخصی باهم ترکیب شدند. سرانجام این فناوری پس از تکامل و توسعهٔ بیشتر به ظرفیت و عملکرد و اطمینانپذیری لازم برای استفاده در اولین چیدمانهای RAID دست یافت. این ذخیرهسازی ماژولار جدید افزونگی را با سرعت Read/Write در کنار هم آورد و جایگزین دستگاههای ذخیرهساز مینفریمها شد. این تجهیزات فضا کمتری نیز اشغال میکردند.
مزیت ماژولاریتی در آرایههای RAID
شکل ۳: آرایهٔ چندگانهٔ دیسکهای مستقل (RAID)
چرا آرایههای ماژولار RAID بر دستگاههای ذخیرهساز سنتی یکتکه برتری یافتند؟
- توانایی توسعه و رشد: ظرفیت ذخیرهسازی را میتوان بهسادگی با افزایش تعداد ماژولهای هر آرایه یا با افزودن بر تعداد آرایهها افزایش داد.
- فرایند سادهٔ تکثیر: ساختن تعداد زیادی درایو کوچک که بهعنوان ماژولهای RAID عمل کنند بسیار سادهتر از ساختن درایوهای بزرگ و پیچیدهٔ سنتی است.
- قابلیت تخصصیسازی کارکرد ماژولها: بسته به سطح RAID که برای آرایه تعریف شده است، میتوان هریک از درایوهای آرایه را برای افزایش ظرفیت ذخیرهسازی یا افزایش سرعت دسترسی یا برای افزونگی بیشتر بهکار گرفت. همچنین در سطح بالاتر میتوان خود هریک از آرایههای RAID را نیز بهعنوان ماژول در نظر گرفت و به آنها کاربرد ویژهای اختصاص داد.
- انطباق سریع با محیط: میتوان درایورها را اضافه یا کم کرد و بهآسانی سطح RAID را برای دستیابی به ظرفیت و سرعت و افزونگی دلخواه تغییر داد.
- تحمل خطا: استفاده از رویهٔ افزونگی (Redundancy) در ذخیرهسازی داده (Data) در سیستم RAID این امکان را فراهم میسازد که اگر یکی از درایوها خراب شد، داده بازیابی شود.
شکل ۴: سرورهای سنتی
برخلاف آنچه طراحان انتظار داشتند استقبال بازار از RAID بیشتر از آنکه بهدلیل سرعت بالاتر آن باشد (که هدف اصلی طراحی محسوب میشد) بهدلیل اطمینانپذیری بیشتری بود که از تحمل خطای آن نشئت میگرفت. در سال ۱۹۸۸ گروهی از نویسندگان در مقالهای قابلیت تحمل خطای طراحی RAID را نشان دادند. آنها در نمایش زنده یکی از درایوها را از آرایهای که در حال کارکردن بود بهسادگی حذف کردند. این پژوهش ذهنیت رایج دربارهٔ پایایی (Availability) سیستمهای چند قسمتی در فناوری اطلاعات را تغییر داد. تا پیش از این اغلب معتقد بودند اطمینانپذیری سیستمهای درایو چندگانه بهدلیل اجزای بیشتر آن است.
مطالعهٔ موردی در فاوا: سرورهای خشابی
سرورهای خشابی (Blade Server) در مهاجرت به طراحیهای ماژولار نقش محوری دارند که در زمان نگارش این مقاله همچنان ادامه دارد. سرورهای سنتی با گذشت سالها هرچه بزرگتر و سریعتر شدند و روزبهروز وظایف بیشتری را با گسترش شبکهٔ کامپیوتری برعهده گرفتند. ولی پیچیدگی شاسی آنها و ضرورت کابلکشی برای افزودن هر سرور، سردرگمی و اشتباه را بیشتر میکند و از انعطافپذیری در کار میکاهد. از سویی سرورهای جدید بر اساس نیاز و معمولا سریع و با کمترین برنامهریزی و هماهنگی اضافه میشوند. بدین ترتیب بهرهبرداران مرکزداده دیگر تعجب نمیکنند اگر ببینند بدون اطلاع آنان سرور اضافه شده است.
سرورهای خشابی بهعنوان نمونهٔ ساده و روشن از معماری ماژولار [مطالعهٔ بیشتر] برای اولین بار در سال ۲۰۰۱ بهکار گرفته شدند. تیغهها (Blade) در شاسی سرور خشابی بهلحاظ فیزیک همانند هستند و پردازندههای یکسانی دارند که برای پیکربندی و استفادهٔ اهداف کاربران آماده است. با پیدایش آنها برتریهای فراوان ماژولاریتی در سرورها نمایان شد: توسعهپذیری، سادگی تکثیر، تخصصیکردن کارکردها، انطباقپذیری.
ویژگی مفهومی سیستمهای ماژولار باعث رواج استفاده از سرورهای خشابی در مراکزداده شد. اما قابلیت اجرایی نهفته در سیستمهای دارای تحمل خطا بهتازگی و با پیدایش سرورهای خشابی در دسترس قرار گرفته و مقرونبهصرفه شده است. این سرورها قابلیت ذاتی برای بازسازی سیستم دارند. بدین شکل که در هنگام خرابی میتوان تیغههای معیوب را با تیغههای سالم عوض کرد. سرورهای خشابی با چنین تحمل خطایی اطمینانپذیری بهتری از شیوههای کنونی (با روش نرمافزار جایگزین و همچنین سرورهای خوشهای (Server Cluster)) دارند. بدین ترتیب استفاده از سرورهای خشابی تبدیل به معماری رایج در حوزهٔ سرورهای مرکزداده شده است. ظهور سیستم اتوماتیک تحمل خطا در پنج سال گذشته باعث جهش صنعت مرکزداده بهسوی بهکارگیری سرورهای خشابی شد.
مزیت ماژولار بودن سرورهای خشابی
چگونه سرورهای خشابی از سرورهای بزرگ مستقل و سنتی پیشی گرفتند؟
شکل ۵: سرور خشابی (۱۰ تیغه در یک شاسی)
- توانایی توسعه و رشد: میتوان ظرفیت رایانش (Computing) را بهآسانی با افزودن ماژولهای بیشتر یعنی تیغههای سرور افزایش داد.
- فرایند سادهٔ تکثیر: ساختن چند تیغهٔ کوچک از ساختن کل سرور بسیار سادهتر است. منبع تغذیه، فنهای سیستم سرمایش، اتصالات شبکه، همچنین همهٔ اجزای پشتیبانی در درون رک (Rack) متمرکز میشوند و میان تیغهها مشترک هستند. بدین ترتیب ساختار خود تیغهها سادهتر میشود.
- قابلیت تخصصیسازی کارکرد ماژولها: میتوان هریک از تیغهها را با کاربردهای نرمافزاری که کاربران تعیین میکنند پیکربندی کرد.
- انطباق سریع با محیط: میتوان تیغهها را مطابق با نیاز کسبوکار یا ضرورتهای مالی کموزیاد کرد و پیکربندی آن را برای اجرای کاربردهای متفاوت تغییر داد.
- تحمل خطا: اگر یکی از تیغهها خراب بشود، سیستم عملیات را بهطور خودکار و با روشی منسجم به تیغهٔ دیگر منتقل میکند. با این قابلیت میتوان خرابی و ازکارافتادگی تیغهها را بهطور خودکار مدیریت کرد.
ارتقای دیدگاه عمومی دربارهٔ خرابی سیستمهای فاوا
بررسیهای موردی بالا نشان میدهد چگونه طراحی ماژولار بهدلایل بنیادی که در ذات و ماهیت ماژولاریتی نهفته است از طراحی یکتکه پیشی گرفت. یکی از این دلایل تحمل خطا است که در آینده اهمیت ویژهای برای مرکزداده خواهد داشت. هنگامیکه سرورها و دستگاههای ذخیرهساز در سرتاسر مرکزداده به قابلیت تحمل خطا مجهز بشوند، تعریف خرابی و خطا در صنعت فاوا دگرگون خواهد شد.
خرابی در مرکزداده به دو حالت متفاوت ممکن است (شکل ۶). تصویر سمت چپ نشان میدهد یک UPS که کل مرکزداده را تغذیه میکند خراب شده و تمام رکها را از کار انداخته است. در تصویر راست همان یک UPS خراب شده ولی تنها یک رک از کار افتاده است. مدیر فاوا در مراکزدادهٔ سنتی تفاوتی بین این دو وضعیت قائل نمیشود. زیرا بهاحتمال زیاد حتی اگر تنها یک رک هم خراب بشود، بهدلیل وابستگیهای درونی که میان بخشهای مختلف شامل سرورها و ذخیرهساز داده و سویچها و روترها وجود دارد، اثر آبشاری (Cascading Effect)ـ[3] کل مرکزداده را از کار میاندازد.
شکل ۶: دو سناریوی خرابی در مرکزداده (نما از بالا، چهار ردیف با ۸ رک)
با بهکارگیری طراحی جدید ماژولار که در رایانش و ذخیرهسازی برپایهٔ آرایهها عمل میکند، خرابی یک رک (تصویر سمت چپ شکل ۶) از نظر مدیران فاوا بهتر و کمزیانتر شناخته میشود. امروزه مرکزداده با کمک افزونگی در منابع میتواند بدون وقفه به کار خود ادامه دهد؛ حتی اگر چند قطعه هم ازکارافتاده باشد. هرچه معماریهای با تحمل خطا رایجتر میشوند، مراکزداده میتوانند خرابی تعداد بیشتری از واحدهای خود را بهتر تحمل کنند و به ازکارافتادگی در کل سیستم دچار نشوند. هنگامی که سازندگان سرورهای خشابی موفق بشوند به وعدههایی که دربارهٔ قابلیت منسجم تحمل خطا دادهاند عمل کنند، آنگاه سیستمها دیگر با خرابی یک یا چندین رک از کار نخواهند افتاد.
تاثیر بر زیرساخت فیزیکی (DCPI)
پیشرفت الگوی مدیریت خرابی همچنین بر شیوهٔ پشتیبانیکردن زیرساخت فیزیکی از معماری جدید فاوا اثر میگذارد. برای نمونه هرچه مراکزداده در سطوح فاوا تحمل بیشتری در برابر خطا داشته باشند، پشتیبانیکردن برق با یک UPS بزرگ بهرهوری کمتری خواهد داشت. زیرا خرابی همان یک UPS کل سیستم را از کار خواهد انداخت؛ نتیجهای نامطلوب در مرکزدادهای که از دستدادن یک رک موجب قطعشدن هیچ سرویسی نمیشود. اگر UPSها چنان در سرتاسر مرکزداده توزیع بشوند که هر رک دارای UPS جداگانهای باشد، آنگاه خرابی هر UPS تنها همان یک رک وابسته را از کار میاندازد و بقیهٔ سیستم به کار خود ادامه میدهد. در این حالت حتی با اینکه تعداد UPSها بیشتر خواهد بود (که این خود احتمال خرابی هر دستگاه را افزایش میدهد)، بازهم سیستم میتواند چنین خرابی را تحمل کند. اکنون فرض کنید ازکارافتادن تمام سیستم فقط زمانی رخ میدهد که سه رک همزمان با هم خراب بشوند. چنین احتمالی بعید است و پیشآمدن آن نامحتملتر از خرابی یک UPS بزرگ بهنظر میرسد. پس درمییابیم تئوری اطمینانپذیری به این دلیل بر معماری توزیع برق و سرمایش تاکید میکند که به بهبود قابلیت تحمل خطا در سیستمهای فاوا دست یابد.
مقایسهٔ زیرساخت فیزیکی (DCPI) یکتکه و ماژولار
شکل ۷: دستگاه UPS یکتکهٔ مرکزداده
زیرساخت فیزیکی مرکزداده در ۳۰ سال گذشته کمتر تغییر کرده است. مدل ثابت زیرساخت فیزیک از کوچکترین سالنهای کامپیوتر گرفته تا بزرگترین تاسیسات سازمانی همواره یک دستگاه مرکزی برای تامین برق و سرمایش بوده است. در واقع منحصربهفرد بودن و یکتکهبودن تجهیزات و اتصالات در پیکربندی، از مهندسی و طراحی این نوع زیرساخت ناشی میشود. جایگزینکردن این معماری با طراحی ماژولار از یک سوی به DCPI امکان پشتیبانی درست از تجهیزات ماژولار فاوای با تحمل خطا را میدهد، از سوی دیگر تجهیزات زیرساخت فیزیکی را از مزایای ماژولاریتی از جمله اطمینانپذیری بهدستآمده از تحمل خطا بهرهمند میسازد.
مزایای زیرساخت فیزیکی (DCPI) ماژولار
چگونه DCPI ماژولار جایگزین DCPI یکتکهٔ سنتی شد؟
- توانایی توسعه و رشد: DCPI ماژولار ابتدا بهاندازهٔ نیاز فاوای کنونی مرکزداده اجرا میشود، سپس هماهنگ و همپای با آن رشد میکند و توسعه مییابد. این مزیت اهمیت ویژهای در زیرساخت فیزیکی مرکزداده دارد. سیستم برق و سرمایش در روش سنتی در یک مرحله و بهاندازهای اجرا میشود که از بیشینهٔ ظرفیت تجهیزات فاوا در توسعهٔ نهایی پشتیبانی کند. این کار باعث هدررفت زیادی در هزینه سرمایهای و هزینه عملیاتی میشود.
- فرایند سادهٔ تکثیر: طراحی ماژولار یعنی ساختن تعداد بیشتری واحد کوچک بهجای ساختن تعداد کمی واحد بزرگ. تولیدکردن بهتعداد بیشتر خطای کمتری را در پی دارد. اگر اندازهها کوچکتر و طراحی سادهتر باشد، میتوان روند ساخت را با دخالت انسانی کمتر همچنین اتوماسیون قویتر ساماندهی کرد و بدین شکل خطا را کاهش داد.
- قابلیت تخصصیسازی کارکرد ماژولها: دستگاههای تامین برق و سرمایش را میتوان با پیکربندیهای گوناگون بهشکلی ساخت که با دسترسیهای مشخص و الزامات سرمایش ویژهٔ هریک از قطعات مختلف مرکزداده همخوانی داشته باشد.
- انطباق سریع با محیط: هر دو سه سال یکبار تجهیزات فاوای جدیدی به مراکزداده افزوده میشود یا تجهیزات موجود تغییراتی میکند. محیط مرکزداده همیشه در تغییر و بازبینی است. تجهیزات جدید ممکن است نیازها و مشخصات جدیدی نیز داشته باشند. از جمله شکل و اندازه، الزامات برق و سرمایش، پریزها، دوشاخهها. سیستم DCPI ماژولار این قابلیت را دارد که برای مطابقت با نیازهای پیوسته در تغییر فاوا، بهسادگی توسعه یابد یا دوباره پیکربندی شود.
- تحمل خطا: همان طور که تحمل خطا در تجهیزات فاوا به مرکزداده امکان میدهد پس از رخدادن خرابی در یکی از اجزای فاوا به کار خود ادامه دهد، در تجهیزات DCPI نیز این امکان را فراهم میکند که اگر در یکی از اجزای زیرساخت فیزیکی خرابی رخ داد، تداوم برق و سرمایش را حفظ کند. تحمل خطا در زیرساخت فیزیکی ممکن است با افزونگی برای دستگاهها فراهم شود یا از افزونگی برای اجزای داخلی دستگاهها بهدست آید. مثلا با افزایش تعداد ماژولهای اضافی برق در یک UPS.
شکل ۸: دستگاه UPS ماژولار در سطح رک
چنانکه در مطالعهٔ موردی دربارهٔ طراحی ماژولار دیدیم، چهار ویژگی اول وسیلهٔ موفقیت در طراح هستند اما پنجمین ویژگی یعنی تحمل خطا امری ضروری است. افزون بر این چون تداوم کار مرکزداده کاملا به وجود برق و سرمایش وابسته است، داشتن اطمینانپذیری برای تحمل خطای زیرساخت فیزیکی بههمان اندازهٔ تحمل خطای تجهیزات فاوایی که از آنها پشتیبانی میکند ضرورت دارد. مرکزدادهای که در بخش فاوا قابلیت تحمل خطا داشته باشد ولی در بخش زیرساخت فیزیکی نداشته باشد، همچون پل معلقی است که بدنهٔ قوی دارد ولی با کابلهای ضعیف به تکیهگاه متصل شده است.
نتیجهگیری
تغییر طراحی و گذار از حالت یکتکه به طراحی ماژولار بهدلیل برتریهایی که بهرهوری و انعطافپذیری و اطمینانپذیری بهدنبال میآورد، بخشی از روند طبیعی تکامل سیستمهای پیچیده بهشمار میرود. با بررسی دیگر نمونههای موفق میتوان بهتر درک کرد که چگونه ماژولاریتی سیستمهایی را که از ابتدا یکتکه کار میکردهاند، تا اندازهٔ زیادی و حتی بهشکل پایهای بهبود داده است؛ سیستمهایی که هرگز روش دیگر دربارهٔ آنها متصور نبود. تحمل خطا و دیگر ویژگیهای پایهای ماژولاریتی (توانایی توسعه، تکثیر، تخصصیسازی، انطباق) در سیستمهای ساخت دست بشر آشکار و گریزناپذیر هستند.
صنعت فاوا تاکنون برتریهای طراحی ماژولار را با آرایههای RAID و سرورهای خشابی در رایانش و ذخیرهسازی بهخوبی مشاهده و درک کرده است. از همه مهمتر تحمل خطا است که از دهه ۷۰ میلادی در حوزههای حساس و حیاتی معمول بوده است. امروزه صنعت مرکزداده میتواند در اجرای مزیت تحمل خطا از صنایعی همچون هوا فضا پیروی کند. در ویژگی تحمل خطا اعمالکردن کنترل دقیق بر کیفیت قطعات، نخستین گام در اطمینانپذیری سیستم بهشمار میرود. راهکار نهایی همان حفظ تداوم کارکردن سیستم در صورت خرابی یکی از اجزاء است.
همچنان که ماژولاریتی و تحمل خطا به رویکرد رایج در طراحی مرکزداده تبدیل میشوند، زیرساخت فیزیکی نیز میباید همین راه را برود تا بهرهوری و انعطافپذیری و اطمینانپذیری در مرکزداده ارتقا یابد.
پانویس
[1] این مطلب بخشی از کتاب «آئیننامهٔ مهندسی مرکزداده» و ترجمهٔ فارسی مقالهٔ زیر است:
APC White Paper 76: “Modular Systems: The Evolution of Reliability” (Revision 1)
نویسنده نیل راسموسن (Neil Rasmussen) [آشنایی با نویسنده و مطالعهٔ مقالات فارسی او]، مترجم نازلی مجیدی، بازنویسی و ویراستاری پرهام غدیریپور، بهکوشش دکتر بابک نیکفام، تهیهشده در باشگاه مراکزداده
[2] DCPI: Data Denter Physical Infrastructure
[3] بدین معنی که بهدلیل وابستگی بخشهای مختلف، اشکال در یک بخش از سیستم بهشکل پیدرپی و افزاینده مشکلات بیشتری را ایجاد میکند. تا آنجا که ممکن است کل مجموعه را ازکار بیندازد.
درج دیدگاه