مرکزداده مقاله‌ها

رویکردهای متفاوت تعمیر و نگهداری پیشگیرانه در مراکز داده

تعمیر و نگهداری پیشگیرانه در مراکز داده

مقدمه

در این مقاله تجارب موفق پیشین حاصل از سیاستهای پیشگیرانه ی تعمیر و نگهداری (PM)[1] در سیستمهای برق و سرمایش مرکز داده بررسی شده است. همچنین روش های عملی (جایگزینی اجزا ،کالیبراسیون مجدد) و تکنیک های غیرتهاجمی PM (بررسی حرارتی، نظارت نرم افزاری) نیز بررسی می شود. در ادامه نیز، تمایل صنعت برای به کارگیری PM که کمتر بر اجزا تمرکز کرده و منسجم تر عمل کند، نیز مطرح خواهد شد.

اصطلاح نگهداری پیشگیرانه (PM) حاکی از یک بازرسی سیستماتیک و تشخیص خطاهای احتمالی پیش از وقوع آن، است. این عبارت معنایی گسترده داشته و شامل روش های متعدد و مختلفی در اجتناب و پیشگیری از مشکلات متناسب با درجه حساسیت مرکزداده ، می باشد.

به طور مثال، نگهداری متناسب با شرایط نوعی از PM به شمار رفته که با بکارگیری فرمول های احتمال برای ارزیابی ریسک ازکار افتادگی تجهیزات، شرایط تجهیزات را در طول گذشت زمان، تخمین زده و برنامه ریزی می کند.

البته توجه شود که PM نباید با نگهداری بدون برنامه ریزی اشتباه گرفته شود که به عنوان پاسخی در برابر شرایط اضطراری و یا مشکلات پیش بینی نشده به کار می رود. بیشتر مواقع، PM شامل جایگزینی قطعات، بررسی حرارتی تابلو برق، تنظیمات سیستم و یا اجزای آن، تمیز کردن فیلتر هوا و آب، روغن کاری، و یا به روز رسانی سیستم عامل‌ها در زیرساخت های فیزیکی می باشد.

در سطوح ابتدایی، PM را می‌توان مانند سیاستی در جهت بهبود عملکرد دسترسی به یکی از اجزای خاص در مرکز داده اجرا کرد.  در سطوح بالاتر اما، PM تا حد روش های ابتدایی در اطمینان از قابلیت دسترسی به زنجیره ی برق(شامل ژنراتور، کلید ترانسفر، ترانسفورماتور، کلید برق و کلید، PDU و UPS) و زنجیره ی سرمایش(CRAC، CRAH، دستگاه رطوبت ساز، کندانسور و چیلر) در تمامی مرکز داده پیش می رود.

شکل 1: چشم انداز امروزی PM

چشم انداز امروزی PM

سیاست های پیشگیرانه نگهداری در سیستم های برق و سرمایش مرکز داده باید اطمینان حاصل کند که رویه هایی برای بازرسی منظم و برنامه ریزی شده ای ایجاد شده و در صورت لزوم، اقدامات نگهداری متناسب با شرایط نیز در نظر گرفته شوند.

سیاست PM باید از مرکز داده دربرابر ریسک خطا و ازکارافتادگی محافظت کرده و از بروز مشکلات حاصل از سهل انگاری و به تعویق انداختن بازرسی های نگهداری، جلوگیری کند. برنامه نگهداری، همچنین باید اطمینان یابد که کارشناسان کاملا آموزش دیده و باصلاحیتِ نگهداری، بر تجهیزات زیرساخت های فیزیکی نظارت می کنند (به طور مثال به جستجوی تغییرات در ظاهر و عملکرد تجهیزات پرداخته و همچنین به صدای تجهیزات در حین کارکردن گوش کرده و تغییرات صدا را بررسی می کند.) و کارهای ضروری را انجام می دهند.

نتایج PM

در طول هر بار بازدید PM، یکی از چهار نتیجه ی زیر انتظار می رود:

  • مشکل احتمالی تشخیص داده شده و اقدامات فوری در جهت پیشگیری از خرابی در آینده، انجام می شود. این مورد تقریبا رایج ترین نتیجه از یک بازدید PM محسوب می شود.
  • یک مشکل جدید و بالفعل شناسایی شده و تعمیرات مناسب برای آن نیز برنامه ریزی می شود. چنین بازدیدی باید به دقت مستندسازی و مکتوب گردد تا هم ارائه دهنده ی خدمات نگهداری و هم صاحب مرکز داده، بتوانند رویدادهای زمان حال را با PMهای پیشین مقایسه کرده و روند PM را تحلیل کنند.
  • هیچ مشکلی در حین بازدید مشاهده نشده و تا زمان بازدید بعدی، هیچ خرابی رخ نمی دهد. تجهیزات توسط سازنده تایید شده و می تواند مطابق با راهنمای استفاده، به کار گرفته شود.
  • یک نقص و مشکل شناسایی شده و تلاش در جهت تعمیر آن، به خرابی پیش بینی نشده در طول PM و یا مدت کوتاهی پس از آن، منجر شده است. (یک مشکل جدید پیش می آید.)

زمانی که نگهداری توسط یک فرد بدون صلاحیت صورت گیرد، ریسک نتایج منفی به طرز قابل ملاحظه ای افزایش می یابد. روش های کاهش ریسک ازکار افتادگی مرتبط با PM، در ادامه در این مقاله بررسی خواهد شد.

سیر تکاملی PM

در مراکز داده های دهه ی 60 میلادی، اجزای تجهیزات مرکز داده به عنوان سیستم‌های پشتیبانی ساختمان در نظر گرفته شده و همان طور نیز نگهداری می‌شدند. در آن زمان مرکز داده تابعی فرعی از کسب و کار اصلی به شمار می‌رفت و فعالیت های حیاتی و مهم در فرایندهای کسب و کار، به طور دستی توسط افراد  انجام می‌شد.  از منظر صاحب مرکز داده، برخورد غالب این بود که “چرا باید برای نگهداری پول صرف کنم؟” از سوی دیگر سازندگان نیز بیشتر تمایل به نصب تجهیزات داشته و تعمیرات پس از آن را وظیفه‌ی خود نمی‌دانستند.

در طول زمان، کامپیوترها وظایف بیشتر و بیشتری را در فضای کسب و کار عهده‌دار شدند. هر چه داده‌های سازمانی بیشتری به مراکز داده انتقال داده شد، خرابی تجهیزات و ازکارافتادگی‌های مرتبط با آن نیز تهدید جدی‌تری برای رشد اقتصادی و سوددهی محسوب می‌شد. سازندگان تجهیزات IT مرکز داده نیز دریافتند که داشتن یک برنامه‌ی فعال در نگهداری، کیفیت عملکرد در محصولات آن‌ها را ارتقا خواهد داد.

قراردادهای سالیانه‌ی نگهداری فراهم شده و مالکان مراکز داده بر مزایای سطح بالاتر خدمات آگاهی یافتند. در دورانی که داده های سازمانی به عنوان یکی از دارایی های ارزشمند شرکت شناخته می شوند، نگهداری صحیح تجهیزات IT و پشتیبانی از سامانه های حیاتی کسب و کار نیز می بایست از اهمیت بالایی برخوردار باشند. مفهوم امروزی PM، بیانگر یک سیر تکاملی از ذهنیت منفعلانه‌ی نگهداری (به معنی”وقتی چیزی خراب شده، تعمیرش می کنیم”) تا روشی فعال (به معنی “بررسی کن و به دنبال علائم هشدار‌ دهنده بگرد و پیش از خرابی، آن را تعمیر کن”) را طی کرده است تا بتواند در 24 ساعت شبانه‌روز و هفت روز هفته، در تمام طول سال، دسترسی را در سطح حداکثر خود نگه دارد.

تاثیر تغییرات بر طراحی زیرساخت های فیزیکی

مانند نگهداری کامپیوتر، در نگهداری زیرساخت های فیزیکی مرکز داده (سیستم برق و سرمایش) نیز در طول زمان رشد کرده و تکامل یافته است. در دهه‌ی 80 میلادی، به عنوان مثال، طراحی داخلی در یک UPS شامل اجزایی کاملا جدا از هم بوده که از منظر تعمیر و نگهداری، با دیگر اجزای کلیدی دستگاه، به طور فیزیکی منسجم و یکپارچه نبوده ‌است. این UPSها، نیاز به نگهداری روزمزه مانند تنظیمات، آچارکشی و تمیز کردن داشته تا بتوانند پایداری مطلوب را فراهم آورند. یک فرد مسئول نگهداری، باید 6 تا 8 ساعت در هر بازدید از هر UPS وقت گذاشته و هر یک از اجزای داخلی را تنظیم نماید.

در دهه‌ی 90، طراحی UPS نیز تکامل یافت. (به شکل 2 مراجعه کنید.) تجهیزات زیرساخت‌های فیزیکی از این پس دارای هر دو اجزای قابل نگهداری به صورت جداگانه و اجزای یکپارچه‌ی کامپیوتری (دیجیتال) هستند. در طول این دوره‌ی زمانی، تنها 50% قطعات یک UPS معمولی به طور دستی قابل نگهداری بود و باقی قطعات داخلی شامل اجزای کامپیوتری بوده که به نگهداری مداوم نیاز نداشتند.

شکل 2: سیر تکاملی طراحی UPS و نگهداری مربوط به آن

سیر تکاملی طراحی UPS و نگهداری مربوط به آن

تا اواسط دهه‌ی 90 میلادی، اجزای کامپیوتری در UPS قابلیتی یافت که با اپراتورها، در مورد وضعیت سلامت داخلی خود خروجی هایی در قالب پیغام فرستاده و  ارتباط برقرار کند. اگرچه، بازدیدهای PM همچنان در دوره های سه ماهه ضروری بوده ولی فرد مسئول تعمیر، به طور متوسط 5 ساعت در هر بازدید برای هر UPS زمان صرف می‌کند. امروزه، نرخ نگهداری قطعات در اجزای کامپوتری به 25% قطعات نیازمند نگهداری و تعمیر دستی و 75% قطعات کامپیوتری است. (به شکل 2 مراجعه شود.)

بیشتر سایت ها مراکز داده‌ی امروزی، نیازمند 1 تا 2 بازدید PM در طول سال هستند. اگرچه تجهیزات زیرساخت فیزیکی در یک محیط بحران خیز (مانند حرارت بالا، گرد و خاک، آلاینده ) قرار گرفته باشند، ممکن است به تعداد بازدید بیشتری نیز نیاز باشد. تعداد دفعات این بازدیدها به محیط فیزیکی و الزامات کسب و کار از طرف مالک مرکز داده، بستگی دارد. طراحی اجزای سیستم نیز عامل دیگری است که ممکن است بر این تعداد موثر باشد. اما اغلب تعداد دفعات بازدید بر اساس توصیه های تولید کننده، تعیین می‌شود.

شواهدی از پیشرفت PM:

زیرساخت‌های فیزیکی امروزی، بسیار قابل اعتمادتر از گذشته بوده و نگهداری آن نیز آسان‌تر است. تولید کنندگان در طراحی اجزا با روش‌هایی که تا حد امکان درست و خالی از اشتباه باشند، با یکدیگر به سختی رقابت می کنند. مثال هایی از سخت‌افزارهایی با طراحی‌های بهبود یافته عبارتند از:

  • دستگاه‌های تهویه مطبوع اتاق های کامپیوتر (CRAC) با دسترسی به اجزای داخلی از کنار و از جلو(البته علاوه بر دسترسی از پشت دستگاه که پیشتر نیز وجود داشت.)
  • بکارگیری درایوهای دورمتغیر (VFD) در دستگاه های سرماساز برای کنترل سرعت فن ها بجای تسمه‌های متحرک. (این تسمه ها، پراستهلاک بوده و نیاز بالا به نگهداری دارد.)
  • استفاده از مدار ByPass در UPS ها که مشکل ازکار افتادگی تجهیزات IT را در طول مدت فرایند نگهداری، از میان برمی‌دارد.

علاوه بر ارتقای صورت گرفته در سخت‌افزارها، طراحی و معماری زیرساخت‌ها نیز در جهت پیشبرد اهداف PM، شامل برنامه‌ریزی ساده‌تر، بازدید کمتر و ایمنی بیشتر، بهبود یافته است. به طور مثال:

  • طراحی‌های برق و سرمایش دارای افزونگی، که امکان نگهداری همزمان را فراهم می‌آورند- مصرف حیاتی IT حتی در زمان انجام فرایند نگهداری نیز ادامه داشته و حفاظت می شود.
  • استفاده از اتصالات crimp ، نیاز به آچارکشی مجدد را کاهش داده و یا حتی حذف می‌کند، که اگر در انجام آن زیاده‌روی شود، احتمال قرار گرفتن در معرض آرک فلش[2] را افزایش می‌دهد.
  • توجهاتی که اخیرا به خطرات پدیده‌ی آرک فلش معطوف شده است، در طراحی سیستم نیز در نظر گرفته شده تا از کارکنان PM در برابر ریسک آسیب های الکتریکی وارده در طول نگهداری، محافظت کند.

طراحی نرم افزار، یک عامل مهم موفقیت

طراحی سخت‌افزارهای زیرساخت‌های فیزیکی تنها یکی از راه‌های کاهش هزینه‌ها و درجه‌ی پیچیدگی PM می‌باشد. طراحی موثر نرم‌افزارهای مدیریت زیرساخت های فیزیکی به عنوان عاملی کلیدیِ موفقیت در نگهداری با درجه پایداری بالا، از دیگر عوامل پیشی گرفته است. در مراکز داده‌ی پیشرو، از نرم‌افزارهای مدیریت زیرساخت‌های فیزیکی به طور چشم گیری استفاده می شود.

اجزای زیرساخت‌ها، در زمان یافتن علت مشکل و خرابی در خود، از اطلاعاتی چون تعداد ساعات استفاده‌ی سیستم بهره برده و زمانی که دمای اجزا از دمای نرمال عملیاتی فراتر می رود، هشدارهایی ارسال کرده و همچنین می تواند مشخص کند که سنسورها چه زمانی تحت تاثیر تفسیرهای غیر معمول قرار گرفته اند. اگرچه هنوز برای فرایند تحلیل خروجی های سیستم مدیریت نگهداری و تفسیر آنها به کارکنان پشتیبانی PM نیاز بوده ولی مسیر پیشرفت PM در آینده به سمتی خواهد رفت که سیستم های زیرساخت فیزیکی خودشان به طور خودکار نقایص و مشکلات خود را اصلاح کنند.

شکل 3: روش سنتی: مدیریت  PM جز به جز

روش سنتی: مدیریت  PM جز به جز

صاحبان مرکز داده که تفکری رو به جلو داشته، برای تمام اجزای سیستم برق مرکز داده سیاستی جامع در PM در پیش گرفته و به انجام می رسانند. در حالی که پشتیبانی PM به روش سنتی برای تجهیزات موجود فعلی نیز هنوز نقش مهمی ایفا می کند، ولی سیاست‌های نگهداری تجهیزات آتی باید در جهتی شکل گیرند که به مرکز داده به چشم یک سیستم کل منسجم و نه اجزای جداگانه‌ی مونتاژ شده بنگرد. (به شکل 3 و 4 مراجعه شود.)

یک تحلیل گسترده‌تر می تواند در شفاف‌سازی روند رشد و تکاملی که از یک PM مبتنی بر اجزا آغاز شده و به PM تمام سیستم برق و یا PM تمام چرخه خنک کننده‌ی سرمایش رسیده، موثر باشد. اجزای یک UPS را به عنوان زیرساخت فیزیکی به عنوان مثال در نظر بگیرید. زمانی که مشکلی در سیستم برق پیش بیاید، همواره نقص از UPS نیست. بلکه ممکن است مشکل از کلید برق، سویچ یا مدار باشد. سیستم نظارتی که بر تمامی این اجزای حیاتی را به هم پیوند داده و اطلاعات را به فرد مشخصی که کلیت سیستم برق را درک کرده و قادر است پیام‌های سیستم را به درستی تفسیر کند، از ارزش بالایی برخوردار است.

سامان دهی در جهت PM “جامع”

جهت بهینه‌سازی در PM کارآمد، صاحبان مراکز داده باید ساختار داخلی سازمان خود را نیز برای پشتیبانی از اجرای قدرتمند PM جامع و یکپارچه مطابقت بخشند. در روش های سنتی، گروه‌های تجهیزات و IT برای کار با یکدیگر سامان دهی نمی شدند. وظیفه‌ی پشتیبانی از سیستم های فاوا در مرکز داده بر عهده‌ی IT گذاشته شده در حالی که دپارتمان‌های تسهیلات و تجهیزات، مسئول نظارت و بازبینی نصب و نگهداری اجزای زیرساخت‌های فیزیکی بوده است. از آنجا که امروزه این سیستم‌ها ارتباط تنگاتنگی با یکدیگر داشته و در مرکز داده با یکدیگر کار می کنند، به یک روش سامان‌دهی جایگزین نیاز بوده تا اعضای کلیدی هر دو تیم را در کنارهم نگه داشته و انسجام بخشد.

شکل 4: روش های استراتژیک: مدیریت جامع و یکپارچه‌ی PM

wp 124 (4)

چرا اجزای زیرساخت های فیزیکی دچار خرابی می‌شوند؟

در مورد UPS های قدیمی‌تر (UPS هایی که در دهه ی 80 و 90 میلادی ساخته شده‌اند)، تنظیمات دستی باید به صورت مداوم و با دوره تکرار منظم صورت گرفته تا از بروز تغییرات ولتاژ  یا شرایط خارج از محدوده‌ی قابل تحمل دستگاه، جلوگیری شود. به عنوان مثال، در کارت‌های کنترل UPS الزام به کالیبراسیونِ مدار ولت‌متر وجود داشت و معمولا به طور دستی و توسط یک تکنسین، با استفاده از اسیلوسکوپ هر سه ماه یکبار تنظیم و نگهداری شوند. اما امروزه این کار توسط ریزپردازنده‌های کار گذاشته شده، صورت می گیرد. کالیبراسیون مجدد در دوره‌های زمانی در به حداقل رسانی احتمال خطا و ازکار افتادگی در UPS، موثر است.

از طرف دیگر، UPSهای مدرن‌تر توسط کنترل‌کننده‌های پردازشگر سیگنال دیجیتال کنترل می‌شوند. این UPS ها دیگر با تغییرات در ولتاژ روبرو نبوده و به کالیبراسیون مجدد نیز نیازی ندارد مگر در شرایطی که اجزای اصلی آن جایگزین شوند. علاوه بر شرایط خارج از محدوده‌ی قابل تحمل UPS، موج‌های هارمونیک و برق نیز بر اجزای زیرساخت‌های فیزیکی برق تاثیر نامطلوبی دارند.

نوسان در درجه ی حرارت نیز عامل دیگری در ازکارافتادگی اجزای الکتریکی به شمار می رود. دستگاه های الکتریکی به گونه‌ای طراحی شده‌اند که از بازه‌ی مشخصی از دما، پشتیبانی کنند. چنانچه درجه‌ی حرارت در این بازه‌ی مشخص شده در زمان طراحی تجهیزات، باقی بماند، احتمال خرابی نیز کاهش یافته و به ندرت اتفاق می افتد. ولی اگر درجه‌ی حرارت از این بازه فراتر رود، نرخ بروز خرابی نیز به طور قابل توجهی افزایش می یابد. در واقع، طبق پژوهش های صورت گرفته توسط محققان فوق پیشرفته در زمینه‌ی علوم کامپیوتر در آزمایشگاه ملی Los Alamos [3]، به ازای هر 10 درجه سانتی گراد (معادل 18 درجه فارنهایت) افزایش دما، نرخ خرابی دوبرابر می شود.

مطابق با قانون انجمن آمریکایی مهندسین گرمایش، برودت و تهویه مطبوع(ASHRAE) TC 9.9، بازه‌ی توصیه شده برای دمای عملیاتی تجهیزات IT، از 68 تا 77 درجه فارنهایت و یا 20 تا 25 درجه‌ی سانتی‌گراد است. جریان هوای مناسب می تواند در ایجاد درجه حرارت ثابت و ایمن موثر بوده و شرایط محیطی که به عمر مفید طولانی‌تر و افزایش فاصله‌ی زمانی بین خرابی‌ها منجر می‌شود، را نیز پایدار نگه دارد. جریان‌های بیش از حد یک عامل آسیب زننده‌ی دیگر در اجزای داخلی به شمار می‌رود. به همین دلیل سیستم های مکانیکی دارای بلبرینگ نیز باید مرتبا تحت بازرسی قرار گرفته و روغن و گریس در آن‌ها به طور مداوم تعویض شوند.

شکل 5: پژوهش حرارت تا خرابی در آزمایشگاه ملی Los Alamos

wp 124 (5)

اقدامات توصیه شده

بازدیدهای صورت گرفته توسط کارکنان نگهداری، در اصل در حکم تایید اعتبار آن بوده که تجهیزات زیرساخت های فیزیکی از اهداف آپتایم[4] صاحبان مرکز داده پشتیبانی می کنند. افراد خبره و حرفه‌ای فعال در زمینه ی زیرساخت‌های فیزیکی که در حیطه‌ی مرکز داده تخصص و تجربه دارند، می توانند سن اجزای مختلف داخلی را تشخیص داده و مقدار اثرگذاری آن جز بر درجه‌ی قابلیت اطمینان کل سیستم را تعیین کنند.

خبرگان PM باید محیط مرکز داده (کلیدهای برق، اقدامات نصب، تکنیک‌های کابل‌کشی، اتصالات مکانیکی، انواع مصرف) را مورد نظارت و ارزیابی قرار داده و در مورد سایش یا شکستگی زودهنگام احتمالی اجزا به مالک اخطار داده و در مورد فاکتورهایی که بر دسترسی سیستم تاثیر منفی داشته باشند (تجهیزات مدیریت خطاهای احتمالی انسانی، دمای بالاتر از نرمال، درجه‌ی اسیدی شدن بالا، زنگ زدگی و نوسانات برق پشتیبانی سرور) هشدار بدهد.

یک بازدید PM همچنین باید شامل ارزیابی عوامل محیط خارجی که بر عملکرد موثرند نیز باشد.(به جدول شماره 1 مراجعه شود.) عمق و طول هر بازدید PM به سطح حساسیت مرکز داده نیز بستگی داشته(به گزارش “راهنمای تعیین حساسیت مرکز داده/ سطح تییر”[5] مراجعه شود.) و به تشکیل یک برنامه‌ی عمل منجر شود.

جدول 1: نمونه‌ی چک لیست محیط PM

محیط داخلی

محیط خارجی

عملی:

·         ظاهر صفحه‌ی مدارها

·         ظاهر زیرمجموعه‌ها

·         ظاهر محافظ کابل

·         متصل کننده ها

·         فیلترها

·         سیم پیچ ها

·         خازن ها

·         عایق بندی

·         تهویه

غیرتهاجمی:

·         ظاهر کلی

·         گزارش های بازرسی های حرارتی

·         گزارش‌های پیش‌بینی خرابی

·         گزارش دمای داخلی

·      بهداشت کلی

·      سطح درجه حرارت

·      سطح اسیدی بودن

·      وجود زنگ زدگی

·      تعداد دفعات قطعی

·      چکه کردن آب

·      گرد و غبار در یک ناحیه

·      نقاط پرحرارت

·      انسداد دستگاه تهویه

·      موانع دسترسی

·      درها و پنجره‌های باز

·      ساخت و سازهای اطراف

·      استفاده از رادیو

·      نشت از سقف

·      کیفیت صدای تجهیزات

·      اتصال تجهیزات به کابل های ارت

بررسی‌های حرارتی و خرابی های قابل پیش‌بینی

بررسی حرارتی رک‌ها و پنل های کلید برق در طول هر بازدید PM توصیه شده است. در صورت هر گونه مشاهده‌ی دمای غیرعادی نیز باید سریعا اقدامات لازم انجام شود. گزارش‌های اشعه‌ی مادون قرمز نیز در طول زمان ممکن است با هم مقایسه شده و روند پیشرفت و مشکلات احتمالی شناسایی شوند. در این روش، به طور مثال اتصالات الکتریکی می‌توانند به جای حدس و گمان، بر اساس داده‌های علمی استحکام یابند.

بررسی حرارتی روشی است که می تواند برای تابلو برق، ترانسفورماتورها، قطعی، UPS، صفحات پنل توزیع، واحدهای توزیع برق و کلیدهای قطع اتصال در واحدهای تهویه مطبوع نیز اجرا شود.

دینامیک سیالات محاسباتی (CFD) همچنین می توانند برای تحلیل درجه‌ی حرارت و الگوی جریان هوا در مرکز داده به کار گرفته شده و در تعیین آثار ازکارافتادگی تجهیزات سرمایش موثر باشد.

با استفاده از متدهای تخمین زنی خرابی، به طور مثال خازن‌ها تنها زمانی می توانند جایگزین شوند که COD توصیه به این جایگزینی کرده باشند. این روش در تضاد کامل با روش سنتی بوده که به “الان شش ماه گذشته و زمان آن رسیده که قطعات را جایگزین کرد.” استناد می‌کند. با پیگیری روش پیشگویانه‌ی خرابی می‌توان از اجرای غیرضروری رویه های تهاجمی که با القای ریسک خطای انسانی به خرابی منجر می شود، جلوگیری کرد.

در جدول 2 یک لیست نمونه از دستگاه های زیرساخت های فیزیکی بوده که به PM نیاز دارند. این سیستم‌ها در تعامل با یکدیگر کار کرده و باید به شکل یک سیستم کل نگهداری می‌شوند.

جدول 2: دستگاه هایی که در مرکز داده به PM نیاز دارند(لیست جزیی)

دستگاه

قطعات داخلی که به PM نیاز دارند

سطح کلی نگهداری مورد نیاز

ترانسفورماتور

آچارکشی دقیق

پایین

PDU

آچارکشی دقیق

پایین

سیستم توزیع آب و هوا مرکز داده

ظرفیت لوله کشی داخلی، شیر فلکه‌ها، آب بند و هوابند بودن درز ها

پایین

CRAC ردیفی

فیلتر، سیم پیچ، سفت افزار، اتصالات لوله‌ها، موتورهای فن

متوسط

نسل جدید UPS

فن ها، خازن‌ها، باتری ها

متوسط

کف کاذب

تایل ها، مکان و پایه های تایل، پاک کردن  ZINC WHISKER

بالا

UPS قدیمی

فن‌ها، خازن ها، صفحات الکترونیکی، باتری‌ها

بالا

CRAC قدیمی

تسمه ها، فیلترهای هوا، اتصالات لوله، کمپرسور، موتورهای فن، پمپ‌ها، سیم‌پیچ‌ها

بالا

رطوبت ساز

زه‌کشی، فیلتر، پریزها، آب پردازنده

بالا

کلید ترانسفر

اجزای کلید، سفت افزار، گشتاور

بالا

باتری خارجی (باتری تر و VRLA)

گشتاور، اتصالات، الکترولیت/سطح اسید، سطح دما

بالا

سیستم آلارم حریق

شیرهای فلکه، کلید جریان

بالا

چیلر

سطح فشار روغن، سطح گاز، تنظیمات درجه حرارت

بالا

ژنراتور

فیلتر سوخت، فیلتر روغن، فیلتر هوا، شلنگ ها، تسمه ها، خنک‌کننده، ، مرکز فن، پمپ آب، گشتاور اتصالات، یاتاقان‌های دینام، کلید برق اصلی

بالا

 

شیوه های برنامه ریزی

شیوه‌های برنامه‌ریزی در نگهداری قدیمی زمانی پایه گذاری شدند که هنوز دسترسی سیستم، دغدغه‌ی مهمی برای صاحبان مراکز داده به شمار نمی‌رفت. شب‌ها، آخر هفته ها و تعطیلات سه روزه‌ی آخر هفته هنوز هم مانند گذشته زمان‌های معمولی در برنامه های زمانی محسوب می‌شوند. اگرچه، با ظهور و توسعه‌ی اقتصاد جهانی و نیاز به دسترسی 24 ساعته در تمام هفته و تمام 365 روز سال، الگوی برنامه زمانی نگهداری را تغییر داده ست.

در بسیاری از موارد، دیگر توجیهی برای برنامه‌ریزی PM تنها در شب ها و آخر هفته ها وجود ندارد. در حقیقت، روش‌های برنامه‌ریزی سنتی ممکن است به طرز چشمگیری بر هزینه ها و ریسک‌های فرایند PM بیفزایند. از منظر حقوق ساعتی معمول، نگهداری در خارج از ساعات کاری گران تر خواهد بود. مهم تر از آن، بسیار احتمال داشته که کارکنان خدمات و پشتیبانی از لحاظ جسمی خسته بوده و در ساعات اضافه‌کاری خود و یا ساعات غیرمعمول کار دقت کمتری داشته باشند. این امر احتمال بروز خطا و یا حتی در برخی موارد، ریسک مصدومیت افراد را افزایش می‌دهد.

همکار یا فردی که خدمات PM را ارائه می‌دهد، می‌تواند در برنامه‌ریزی مناسب زمان‌بندی PM، به صاحبان مرکز داده کمک کرده و سود رسانند. در شرایط ساخت مراکز داده‌ی جدید، این ارائه هنده ی خدمات PM می‌تواند در مورد نحوه ی سامان‌دهی پلان طبقه‌ی مرکز داده در نقش مشاور مالک عمل کرده تا PM با روشی آسان تر انجام گرفته و تداخلات کمتری پیش بیاید. علاوه بر آن، اطلاعاتی که توسط سازمان های دولتی مانند سازمان ملی اقیانوسی و جوی (NOAA)[6] فراهم می‌شود، روند تغییرات آب و هوا را مشخص کرده که صاحبان مراکز داده را در جهت انتخاب بهینه‌ترین بازه‌ی نگهداری، راهنمایی می کنند. (به شکل 6 مراجعه شود.)

شکل 6: داده های تحقیقاتی (روز-درجه‌های گرمایش و سرمایش) به عنوان راهنمایی در برنامه‌ریزی بازدیدهای PM

wp 124 (6)

نکته : روز-درجه همان مقایسه‌ی درجه حرارت محیط بیرون با دمای استاندارد 65 درجه فارنهایت (یا 18.3 درجه سانتی‌گراد) می باشد. هر چه درجه حرارت بالاتر بوده، این عدد نیز افزایش می‌یابد. روزهای گرم، در روز-درجه سرمایش اندازه گیری می شود. به طور مثال در روزی با دمای متوسط 80˚F ، عدد روزدرجه‌ی گزارش شده سرمایش 15 می‌باشد. (CDD15=مبنای 65- 80) روزهای سرد اما بر مبنای روز-درجه‌ی گرمایش اندازه گیری می‌شوند. برای یک روز با دمای متوسط 40˚F، روز-درجه‌ی گرمایش گزارش شده 25 خواهد بود. (HDD25= 40 – مبنای 65) با مطالعه‌ی الگوهای روز-درجه در منطقه‌ی خود، می توان افزایش و یا کاهش دمای محیط بیرونی را به طور سال به سال ارزیابی کرده و روند تغییرات را تعیین نمود.

هماهنگی های PM

دماهای شدید سرد و گرم در محیط بیرونی و همچنین فصل‌های طوفانی، می توانند ریسک قبل توجهی را به دنبال داشته باشند. اگر داده های آب و هوا ماه های آوریل و سپتامبر را به عنوان بهترین ماه ها برای اجرای PM در نظر گرفته باشند، هنوز هم مزایا و معایب این دو باید بررسی شود. به طور مثال، آیا در هر یک از بازه های زمانی پیشنهاد شده، ساخت و سازی در اطراف مرکز داده صورت می گیرد؟ اگر این طور است، احتمال بالاتری از قطع برق ناشی از حوادث ساختمانی (مانند قطع تصادفی مسیرهای آب یا برق توسط تجهیزات ساختمانی) وجود داشته که باید در نظر قرار گرفته شود.

آیا در صورت بروز خرابی در سیستم سرمایش مرکز داده، هوای خنک محیط می تواند به سرمایش رایگان مرکز داده کمک کند؟ چنانچه ماه سپتامبر، بر اساس درجه حرارت محیط بیرونی به عنوان ماهی بهینه برای اجرای PM در نظر گرفته شده، آیا برنامه‌ریزی PM برای هفته‌ی آخر ماه که سیستم های مالی با بیشترین ظرفیت خود کار می کنند، امری عاقلانه است؟

یک روش می‌تواند برنامه‌ریزی PM در زمان های مختلف باشد. اگر تمام کارکنان را به طور همزمان به انجام فرایند PM واداریم، ممکن است با خطر انداختن پوشش و پشتیبانی مورد انتظار مشتریان و کاربران تجاری، ریسکی بر مرکز داده تحمیل شود. اگر مشکل ناشی از نداشتن نیروی انسانی لازم باشد، یک برنامه‌ی زمانی فازی PM می تواند مسئولیت‌های PM را بین افراد به طور یکسان‌تری پخش کرده و مرکز داده بتواند سطح خدمات مورد نظر خود را در تعادل نگه دارد.

ولی اگر مشکل از داشتن نیروی انسانی لازم نبوده، روش دیگر می تواند این باشد که PM به طور یک جا در یک روز یا چند روز همزمان و نه در دوره‌های زمانی مختلف اجرا شود. به جای برنامه‌ریزی بازدیدهای متعدد PM از طرف سازمان های مختلف، یکی از شرکا برای برنامه‌ریزی و PM زیرساخت های کلیدی، فراخوانده می‌شود. این “PM مبتنی بر سیستم” (در تضاد با روش سنتی PM مبتنی بر قطعه) که توسط یک شریک ذی‌صلاح صورت می گیرد، می تواند به صرفه جویی در زمان و هزینه کمک کرده و عملکرد کلی مرکز داده را نیز بهبود بخشد. انجام و برنامه ریزی PM توسط یک فرد ذی‌صلاح یکی از اولویت های مهم در کاهش توقف عملکرد و  افزایش امکانات بازیابی و ارتقا  در مرکز داده می باشد.

بیانیه‌ی کار PM

فرایند PM باید به وضوح هم برای انجام دهندگان آن و هم برای صاحب مرکز داده، توضیح داده و تعریف شود. فرد مسئول PM، می‌بایست یک بیانیه ی کار دقیق از PM به صاحب مرکز داده ارائه داده که در آن، محدوده ی فرایند به روشنی تعریف شود. برخی از مواردی که باید در این بیانیه کار (SOW) آورده شوند، عبارتند از :

  • آماده سازی: بیشتر تولیدکنندگان یک بار بازدیدPM در سال را پس از نصب و راه‌اندازی تجهیزات توصیه می کنند اگرچه که بعضی از اجزای خاص با کاربری بالاتر (مانند دستگاه رطوبت‌ساز)، ممکن است بررسی های سریع‌تر و نظارت مداوم نیاز داشته باشند. برای اطمینان از دسترسی آسان به تجهیزات در محل مرکز داده، نیاز به پیروی از یک پروتکل مناسب داریم. همچنین محدودیت‌های عملیاتی صاحب مرکز داده نیز باید در نظر گرفته شود. برای اعمال تنظیمات لازم در جهت عملکرد بهینه‌ی تجهیزات، برنامه و طرحی از پیش باید تشکیل شود.
  • قوانین جایگزینی قطعات: SOW(بیانیه‌ی کار) باید در برگیرنده‌ی توصیه هایی در مورد قطعاتی که باید به طور پیشگیرانه جابجا و یا ارتقا داده شوند، باشد. مسایلی چون دسترسی به انبار، منبع قطعات تست و تایید شده، برنامه‌ریزی احتمالی برای مشاهده‌ی قطعات معیوب و برداشتن و دور ریختن قطعات قدیمی باید در SOW محسوب و بررسی شده باشند.
  • مستندسازی: در SOW باید گزارش خروجی PM مشخص شده که در آن، اقدامات صورت گرفته در حین بازدیدهای PM مکتوب و مستند می‌شود. این گزارش خروجی می بایست به طور اتوماتیک برای پیگیری های فنی توسط سازنده مورد بازبینی قرار گیرد.

گزینه‌های PM

خدمات PM ممکن است مستقیما از تولیدکننده خریداری شده و یا از طرف یک گروه و یا شخص ثالث ارائه شود. انتخاب سازمان نگهداری که قادر به پشتیبانی از دیدگاه های PM برای مرکز داده باشد، تصمیم مهمی به شمار می رود. چنین سازمان‌هایی ممکن است ابعادی جهانی داشته و یا خدمات خود را به یک منطقه محدود کرده باشند. در جدول 3، دو گروه از ارائه دهندگان معمولی PM، با هم مقایسه شده‌اند.

جدول 3: مواجهه با چالش های خدمات: تولیدکنندگان در برابر شخص ثالث تایید نشده

 

تولیدکننده/ شخص ثالث ذی‌صلاح

شخص ثالث تایید نشده

قطعات اضافی

انبارهای محلی قطعات اضافی در دسترس صاحبان مرکز داده

قطعات ساخته و تست شده در کارخانه با تاییدیه ISO

قطعات به تازگی بازبینی شده/ سازگار با محصولات در حال استفاده

قطعات اصل از کارخانه برای جایگزینی استفاده شود

قطعات جایگزین شده ممکن است از “بازار دست دوم” و یا فروشنده تجهیزات دست دوم تهیه شده باشد.

قطعات جایگزین شده ممکن است توسط تکنسین فاقد صلاحیت تعمیر شده باشند.

قطعات جایگزین شده ممکن است از تولیدکنندگان دیگر با واسطه خریداری شده و این امر منجر به تاخیر در تحویل شود.

دانش محصول

خدمات تخصصی برای محصولی مشخص

تجارب حاصل از دفعات زیاد نصب

کارکنان ارائه دهنده‌ی خدمات عمومی تر بوده و باید گستره‌ی وسیعی از محصولات از سازندگان مختلف را پوشش دهند.

ممکن است به امکانات بهبود یافته دسترسی نداشته و یا دانش لازم را نداشته باشند.

پشتیبانی محلی/منطقه‌ای

می تواند یک پاسخ استاندارد 4 ساعته ارائه دهد.

شرکت‌های محلی ممکن است تا دو ساعت پاسخ دهند.

ممکن است قادر باشند مناطقی را پوشش دهند که خارج از محدوده‌ی تولیدکننده است.

دانش در مورد محیط مرکز داده

فراتر از هر یک از اجزا، تولیدکننده معمولا در مورد مسایل برق و سرمایش که بر عملکرد کلی مرکز داده موثر است. معلومات دارد.

ورای تعمیر هر یک از جزا، دانش مرکز داده ممکن است محدود باشد.

آموزش

کارکنان از طرف خدمات کارخانه آموزش دیده و برای رعایت استانداردهای ایمنی، صلاحیت دارند.

کارکنان به طور منظم مورد ارزیابی قرار گرفته و آموزش آن ها به روز رسانی می‌شود.

ممکن است کارکنان تحت آموزش خدمات کارخانه نبوده و یا اگر بوده اند، این آموزش ها به روز رسانی نشده است.

هزینه

معمولا گران‌تر بوده ولی تشخیص مشکل و برطرف کردن آن، زمان کمتری می‌برد.

معمولا ارزان‌تر از تولید کننده تمام می‌شود.

به‌روز رسانی محصول

ارائه دهنده خدمات، به تمام بازبینی‌های سخت افزار و سیستم عامل دسترسی دارد.

دسترسی به بازبینی های به روز رسانی محصول و بازبینی سیستم عامل‌ها ممکن است محدود باشد.

مستندسازی

مستندات و مکتوبات ارائه دهنده‌ی خدمات به تازگی بازبینی شده و شامل اطلاعات به روز می باشد.

انتشار گزارش های فنی و مستندات پس از تکمیل PM، به طور کامل در اختیار مالک قرار می گیرد.

کارکنان خدمات مکن است به مستندات به روز شده دسترسی نداشته باشند.

ابزارها

ارائه دنده‌ی خدمات به تمامی ابزارها، تجهیزات تست و نرم‌افزارها دسترسی داشته و مطابق مقررات کالیبراسیون ISO عمل می کند.

ممکن است دسترسی سریع به جدیدترین ابزارها نداشته باشد.

 

انجام PM از طرف تولیدکننده

قراردادهای نگهداری تولیدکنندگان شامل خطوط تماس، پشتیبانی و زمان پاسخ دهی تضمین شده می‌باشد. تولیدکنندگان همچنین هزاران قطعه از تجهیزات را در مناطق مختلف جغرافیایی پوشش داده و ده‌ها و صدها ساعت کار میدانی و تجربه را برای بهبود اقدامات نگهداری خود و بالابردن تخصص کارکنانشان، در اختیار دارند. اطلاعات جمع‌آوری شده توسط افراد تحت آموزش کارخانه،  به واحد R&D سازمان فرستاده شده و در آن جا تحلیل شده تا علل و ریشه‌ی از کارافتادگی و خرابی ها مشخص شود.

گروه های R&D تولیدکننده، داده ها را تحلیل کرده و بهبودهای لازم در سخت افزارها و سیستم عامل‌ها را در قالب ارتقای محصولات، ارائه می دهند که این پایه‌ی شکل گیری PM بعدی خواهد بود. این محدوده‌ی جهانی همچنین به کارکنان خدماتی مرتبط با تولیدکنندگان، این امکان را داده تا درک عمیق تری از مسایل یکپارچه‌ای در برق و سرمایش پیدا کرده، و به دانشی دست یابند که هم در عیب یابی و هم در تحلیل های پیش‌بینی کاربرد خواهد داشت.

انجام PM از طرف شخص ثالث تایید نشده

بیشتر شرکت‌های ثالث نگهداری محدوده ای منطقه ای و محلی در خدمات خود دارند و به کار بر نصب تجهیزات محدودتری تمایل نشان می دهند. در نتیجه، منحنی آموزش در آن‌ها، ممکن است به دلیل تغییرات تکنولوژی، طولانی‌تر باشد. از آن جا که این ارائه‌دهندگان ثالث خدمات نگهداری، ارتباط‌ مستقیم کمتری با تولیدکنندگان و محل های تولید دارند، ارائه‌ی پشتیبانی در سطح بالا نیز برایشان مقدور نیست. آنان به دلیل آن که از مزایای داده های مستمر و جهانیِ بهبود PM که از نصب های صورت گرفته در نقاط مختلف جهان حاصل شده، برخوردار نیستند، در نتیجه بسیاری از مشکلاتی که با آن روبرو می شوند “جدید” خواهد بود.

نگهداری توسط کاربر

تصمیم در مورد نگهداری تجهیزات زیرساخت‌های فیزیکی توسط خود صاحبان مرکز داده، به عوامل مختلفی بستگی دارد شامل:

  • طراحی/ پیچیدگی تجهیزات
  • سطح حساسیت در کاربردهای مرتبط
  • مدل تجاری صاحب مرکز داده

بعضی از تولیدکنندگان امکانات لازم برای روش های نگهداری توسط کاربر را از طریق طراحی اجزای زیرساخت فیزیک که به نگهدار کمتری نیاز دارد(مانند UPS با کارتریج‌های باتری مدولار و قابل تعویض توسط کاربر)، فراهم می‌کنند. عوامل توجیه‌کننده‌ی این روش شامل توانایی پرداخت هزینه‌ی نگهداری با بودجه‌ی داخلی به جای بودجه‌ی خارجی و توانایی کارکنان مرکز داده (در صورت آموزش مناسب) در تشخیص سریع خطاهای احتمالی، می‌باشد.

از سوی دیگر نیز، عواملی که با نگهداری توسط کاربر مخالفت می کنند شامل تجربیات محدود کارکنان داخلی (البته منظور نقاط قوت کلیدی صاحب مرکز داده نیست) و ضعف در پایگاه دانش کارکنان در اثر تغییرات ناشی از ترک نیروهای قبلی و استخدام نیروی جدید، می باشد. تاخیر در تامین قطعات از منبع خارجی و همچنین در حل سریع یک مشکل نیز ممکن است در صورت نداشتن قرارداد نگهداری، دشوار باشد. در صورت عدم ساختار مناسب سازمانی برای اجرای نگهداری توسط کاربر، احتمالا مزایای مورد نظر در کارایی و منافع مالی تحقق پیدا نمی‌کند.

نگهداری متناسب با شرایط

تخمین و برنامه‌ریزی شرایط تجهیزات در طول زمان، به شناسایی واحدهای خاصی که احتمال بروز خرابی بیشتر و طبعا تعمیر بیشتر دارند، کمک می کند. همچنین، واحدهایی را که به دلیل فشار کاری خاص، (مانند UPSای که اغلب به دلیل کیفیت برق ضعیف، از باتری‌اش استفاده می کند)، احتمال بالاتری از خرابی در آینده دارند، را شناسایی می کند. روش نگهداری متناسب با شرایط، تلاش دارد از طریق داده های آماری تعیین کند که کدام یک از اجزای تجهیزات با احتمال بیشتری بدون نگهداری در شرایط قابل قبول، باقی می‌ماند. در نتیجه، نگهداری در جاهایی با بیشترین تاثیر و کمترین پیامد منفی، اجرا خواهد شد.

داده های نگهداری مبتنی بر شرایط، که در تخمین و بررسی شرایط تجهیزات موثرند، عبارتند از:

  • مدت کارکرد
  • تجربه‌های پیشین از عملکرد
  • تارخچه‌ی محیط (دما، ولتاژ، زمان پشتیبانی، رویدادهای غیرعادی)
  • ویژگی های عملیاتی (لرزش، نویز، درجه حرارت)

نتیجه گیری

در یک مرکز داده ، PM همان راه حل کلیدی در عملکرد کامل به شمار می‌رود. قراردادهای نگهداری می بایست شامل بندی برای محدوده‌ی تحت پوشش PM باشد تا صاحب مرکز داده بتواند اطمینان حاصل کند که در زمان نیاز، پشتیبانی جامع و کاملی در اختیار خواهد دشت. فرایند فعلی PM باید در جهت تبدیل شدن به یک روش “جامع” گسترش یابد. مزیتی که امروزه ارائه دهندگان خدمات PMبرای اجزای پرکاربرد (مانند UPS) فراهم می آورند، نیز باید به تمامی اجزای سیستم برق مرکز داده (ژنراتورها، کلید قدرت، ترانسفورماتورها، کلیدها حفاظتی و کلیدهای برق، PDU، UPS) و تمامی اجزای سیستم سرمایش (CRAC، CRAH، دستگاه‌های رطوبت‌ساز، کندانسورها، چیلرها) تعمیم یابد.

امروزه مجریان PM که در قوی‌ترین جایگاه در ارائه‌ی این سطح از پشتیبانی باشند، تولیدکنندگان زیرساخت های فیزیکی مراکز داده در سطح جهانی محسوب می‌شوند. یک روش یکپارچه در اجرای PM، به صاحبان مراکز داده اجازه خواهد داد تا یکی از شرکای خود را به برنامه‌ریزی، اجرا، مستندسازی، مدیریت ریسک و دیگر روندهای PM گماشته و از این طریق، فرایند را تسهیل کرده، هزینه ها را کاهش داده و سطح دسترسی کل سیستم ها را افزایش دهند.

 

 

[1] – preventive maintenance

[2] – آرک فلش ، نور و حرارت ایجاد شده از یک قوس الکتریکی که توسط مقدار قابل توجهی انرژی ایجاد شده، می باشد.

[3] – Los Alamos National Laboratory: “The Importance of Being Low Power in High Performance Computing”, Feng, W., August 2005

[4] – آپتایم همان دوره‌ی  زمانی است که در طول آن یک سیستم کامپیوتر فعال است یا تجهیزات صحیح عمل می کنند.

[5] – White Paper 122, Guidelines for Specification of Data Center Criticality / Tier

[6] – National Oceanic and Atmospheric Administration

درج دیدگاه

برای درج دیدگاه کلیک کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سوال امنیتی *