مقدمه
در این مقاله تجارب موفق پیشین حاصل از سیاستهای پیشگیرانه ی تعمیر و نگهداری (PM)[1] در سیستمهای برق و سرمایش مرکز داده بررسی شده است. همچنین روش های عملی (جایگزینی اجزا ،کالیبراسیون مجدد) و تکنیک های غیرتهاجمی PM (بررسی حرارتی، نظارت نرم افزاری) نیز بررسی می شود. در ادامه نیز، تمایل صنعت برای به کارگیری PM که کمتر بر اجزا تمرکز کرده و منسجم تر عمل کند، نیز مطرح خواهد شد.
اصطلاح نگهداری پیشگیرانه (PM) حاکی از یک بازرسی سیستماتیک و تشخیص خطاهای احتمالی پیش از وقوع آن، است. این عبارت معنایی گسترده داشته و شامل روش های متعدد و مختلفی در اجتناب و پیشگیری از مشکلات متناسب با درجه حساسیت مرکزداده ، می باشد.
به طور مثال، نگهداری متناسب با شرایط نوعی از PM به شمار رفته که با بکارگیری فرمول های احتمال برای ارزیابی ریسک ازکار افتادگی تجهیزات، شرایط تجهیزات را در طول گذشت زمان، تخمین زده و برنامه ریزی می کند.
البته توجه شود که PM نباید با نگهداری بدون برنامه ریزی اشتباه گرفته شود که به عنوان پاسخی در برابر شرایط اضطراری و یا مشکلات پیش بینی نشده به کار می رود. بیشتر مواقع، PM شامل جایگزینی قطعات، بررسی حرارتی تابلو برق، تنظیمات سیستم و یا اجزای آن، تمیز کردن فیلتر هوا و آب، روغن کاری، و یا به روز رسانی سیستم عاملها در زیرساخت های فیزیکی می باشد.
در سطوح ابتدایی، PM را میتوان مانند سیاستی در جهت بهبود عملکرد دسترسی به یکی از اجزای خاص در مرکز داده اجرا کرد. در سطوح بالاتر اما، PM تا حد روش های ابتدایی در اطمینان از قابلیت دسترسی به زنجیره ی برق(شامل ژنراتور، کلید ترانسفر، ترانسفورماتور، کلید برق و کلید، PDU و UPS) و زنجیره ی سرمایش(CRAC، CRAH، دستگاه رطوبت ساز، کندانسور و چیلر) در تمامی مرکز داده پیش می رود.
شکل 1: چشم انداز امروزی PM
سیاست های پیشگیرانه نگهداری در سیستم های برق و سرمایش مرکز داده باید اطمینان حاصل کند که رویه هایی برای بازرسی منظم و برنامه ریزی شده ای ایجاد شده و در صورت لزوم، اقدامات نگهداری متناسب با شرایط نیز در نظر گرفته شوند.
سیاست PM باید از مرکز داده دربرابر ریسک خطا و ازکارافتادگی محافظت کرده و از بروز مشکلات حاصل از سهل انگاری و به تعویق انداختن بازرسی های نگهداری، جلوگیری کند. برنامه نگهداری، همچنین باید اطمینان یابد که کارشناسان کاملا آموزش دیده و باصلاحیتِ نگهداری، بر تجهیزات زیرساخت های فیزیکی نظارت می کنند (به طور مثال به جستجوی تغییرات در ظاهر و عملکرد تجهیزات پرداخته و همچنین به صدای تجهیزات در حین کارکردن گوش کرده و تغییرات صدا را بررسی می کند.) و کارهای ضروری را انجام می دهند.
نتایج PM
در طول هر بار بازدید PM، یکی از چهار نتیجه ی زیر انتظار می رود:
- مشکل احتمالی تشخیص داده شده و اقدامات فوری در جهت پیشگیری از خرابی در آینده، انجام می شود. این مورد تقریبا رایج ترین نتیجه از یک بازدید PM محسوب می شود.
- یک مشکل جدید و بالفعل شناسایی شده و تعمیرات مناسب برای آن نیز برنامه ریزی می شود. چنین بازدیدی باید به دقت مستندسازی و مکتوب گردد تا هم ارائه دهنده ی خدمات نگهداری و هم صاحب مرکز داده، بتوانند رویدادهای زمان حال را با PMهای پیشین مقایسه کرده و روند PM را تحلیل کنند.
- هیچ مشکلی در حین بازدید مشاهده نشده و تا زمان بازدید بعدی، هیچ خرابی رخ نمی دهد. تجهیزات توسط سازنده تایید شده و می تواند مطابق با راهنمای استفاده، به کار گرفته شود.
- یک نقص و مشکل شناسایی شده و تلاش در جهت تعمیر آن، به خرابی پیش بینی نشده در طول PM و یا مدت کوتاهی پس از آن، منجر شده است. (یک مشکل جدید پیش می آید.)
زمانی که نگهداری توسط یک فرد بدون صلاحیت صورت گیرد، ریسک نتایج منفی به طرز قابل ملاحظه ای افزایش می یابد. روش های کاهش ریسک ازکار افتادگی مرتبط با PM، در ادامه در این مقاله بررسی خواهد شد.
سیر تکاملی PM
در مراکز داده های دهه ی 60 میلادی، اجزای تجهیزات مرکز داده به عنوان سیستمهای پشتیبانی ساختمان در نظر گرفته شده و همان طور نیز نگهداری میشدند. در آن زمان مرکز داده تابعی فرعی از کسب و کار اصلی به شمار میرفت و فعالیت های حیاتی و مهم در فرایندهای کسب و کار، به طور دستی توسط افراد انجام میشد. از منظر صاحب مرکز داده، برخورد غالب این بود که “چرا باید برای نگهداری پول صرف کنم؟” از سوی دیگر سازندگان نیز بیشتر تمایل به نصب تجهیزات داشته و تعمیرات پس از آن را وظیفهی خود نمیدانستند.
در طول زمان، کامپیوترها وظایف بیشتر و بیشتری را در فضای کسب و کار عهدهدار شدند. هر چه دادههای سازمانی بیشتری به مراکز داده انتقال داده شد، خرابی تجهیزات و ازکارافتادگیهای مرتبط با آن نیز تهدید جدیتری برای رشد اقتصادی و سوددهی محسوب میشد. سازندگان تجهیزات IT مرکز داده نیز دریافتند که داشتن یک برنامهی فعال در نگهداری، کیفیت عملکرد در محصولات آنها را ارتقا خواهد داد.
قراردادهای سالیانهی نگهداری فراهم شده و مالکان مراکز داده بر مزایای سطح بالاتر خدمات آگاهی یافتند. در دورانی که داده های سازمانی به عنوان یکی از دارایی های ارزشمند شرکت شناخته می شوند، نگهداری صحیح تجهیزات IT و پشتیبانی از سامانه های حیاتی کسب و کار نیز می بایست از اهمیت بالایی برخوردار باشند. مفهوم امروزی PM، بیانگر یک سیر تکاملی از ذهنیت منفعلانهی نگهداری (به معنی”وقتی چیزی خراب شده، تعمیرش می کنیم”) تا روشی فعال (به معنی “بررسی کن و به دنبال علائم هشدار دهنده بگرد و پیش از خرابی، آن را تعمیر کن”) را طی کرده است تا بتواند در 24 ساعت شبانهروز و هفت روز هفته، در تمام طول سال، دسترسی را در سطح حداکثر خود نگه دارد.
تاثیر تغییرات بر طراحی زیرساخت های فیزیکی
مانند نگهداری کامپیوتر، در نگهداری زیرساخت های فیزیکی مرکز داده (سیستم برق و سرمایش) نیز در طول زمان رشد کرده و تکامل یافته است. در دههی 80 میلادی، به عنوان مثال، طراحی داخلی در یک UPS شامل اجزایی کاملا جدا از هم بوده که از منظر تعمیر و نگهداری، با دیگر اجزای کلیدی دستگاه، به طور فیزیکی منسجم و یکپارچه نبوده است. این UPSها، نیاز به نگهداری روزمزه مانند تنظیمات، آچارکشی و تمیز کردن داشته تا بتوانند پایداری مطلوب را فراهم آورند. یک فرد مسئول نگهداری، باید 6 تا 8 ساعت در هر بازدید از هر UPS وقت گذاشته و هر یک از اجزای داخلی را تنظیم نماید.
در دههی 90، طراحی UPS نیز تکامل یافت. (به شکل 2 مراجعه کنید.) تجهیزات زیرساختهای فیزیکی از این پس دارای هر دو اجزای قابل نگهداری به صورت جداگانه و اجزای یکپارچهی کامپیوتری (دیجیتال) هستند. در طول این دورهی زمانی، تنها 50% قطعات یک UPS معمولی به طور دستی قابل نگهداری بود و باقی قطعات داخلی شامل اجزای کامپیوتری بوده که به نگهداری مداوم نیاز نداشتند.
شکل 2: سیر تکاملی طراحی UPS و نگهداری مربوط به آن
تا اواسط دههی 90 میلادی، اجزای کامپیوتری در UPS قابلیتی یافت که با اپراتورها، در مورد وضعیت سلامت داخلی خود خروجی هایی در قالب پیغام فرستاده و ارتباط برقرار کند. اگرچه، بازدیدهای PM همچنان در دوره های سه ماهه ضروری بوده ولی فرد مسئول تعمیر، به طور متوسط 5 ساعت در هر بازدید برای هر UPS زمان صرف میکند. امروزه، نرخ نگهداری قطعات در اجزای کامپوتری به 25% قطعات نیازمند نگهداری و تعمیر دستی و 75% قطعات کامپیوتری است. (به شکل 2 مراجعه شود.)
بیشتر سایت ها مراکز دادهی امروزی، نیازمند 1 تا 2 بازدید PM در طول سال هستند. اگرچه تجهیزات زیرساخت فیزیکی در یک محیط بحران خیز (مانند حرارت بالا، گرد و خاک، آلاینده ) قرار گرفته باشند، ممکن است به تعداد بازدید بیشتری نیز نیاز باشد. تعداد دفعات این بازدیدها به محیط فیزیکی و الزامات کسب و کار از طرف مالک مرکز داده، بستگی دارد. طراحی اجزای سیستم نیز عامل دیگری است که ممکن است بر این تعداد موثر باشد. اما اغلب تعداد دفعات بازدید بر اساس توصیه های تولید کننده، تعیین میشود.
شواهدی از پیشرفت PM:
زیرساختهای فیزیکی امروزی، بسیار قابل اعتمادتر از گذشته بوده و نگهداری آن نیز آسانتر است. تولید کنندگان در طراحی اجزا با روشهایی که تا حد امکان درست و خالی از اشتباه باشند، با یکدیگر به سختی رقابت می کنند. مثال هایی از سختافزارهایی با طراحیهای بهبود یافته عبارتند از:
- دستگاههای تهویه مطبوع اتاق های کامپیوتر (CRAC) با دسترسی به اجزای داخلی از کنار و از جلو(البته علاوه بر دسترسی از پشت دستگاه که پیشتر نیز وجود داشت.)
- بکارگیری درایوهای دورمتغیر (VFD) در دستگاه های سرماساز برای کنترل سرعت فن ها بجای تسمههای متحرک. (این تسمه ها، پراستهلاک بوده و نیاز بالا به نگهداری دارد.)
- استفاده از مدار ByPass در UPS ها که مشکل ازکار افتادگی تجهیزات IT را در طول مدت فرایند نگهداری، از میان برمیدارد.
علاوه بر ارتقای صورت گرفته در سختافزارها، طراحی و معماری زیرساختها نیز در جهت پیشبرد اهداف PM، شامل برنامهریزی سادهتر، بازدید کمتر و ایمنی بیشتر، بهبود یافته است. به طور مثال:
- طراحیهای برق و سرمایش دارای افزونگی، که امکان نگهداری همزمان را فراهم میآورند- مصرف حیاتی IT حتی در زمان انجام فرایند نگهداری نیز ادامه داشته و حفاظت می شود.
- استفاده از اتصالات crimp ، نیاز به آچارکشی مجدد را کاهش داده و یا حتی حذف میکند، که اگر در انجام آن زیادهروی شود، احتمال قرار گرفتن در معرض آرک فلش[2] را افزایش میدهد.
- توجهاتی که اخیرا به خطرات پدیدهی آرک فلش معطوف شده است، در طراحی سیستم نیز در نظر گرفته شده تا از کارکنان PM در برابر ریسک آسیب های الکتریکی وارده در طول نگهداری، محافظت کند.
طراحی نرم افزار، یک عامل مهم موفقیت
طراحی سختافزارهای زیرساختهای فیزیکی تنها یکی از راههای کاهش هزینهها و درجهی پیچیدگی PM میباشد. طراحی موثر نرمافزارهای مدیریت زیرساخت های فیزیکی به عنوان عاملی کلیدیِ موفقیت در نگهداری با درجه پایداری بالا، از دیگر عوامل پیشی گرفته است. در مراکز دادهی پیشرو، از نرمافزارهای مدیریت زیرساختهای فیزیکی به طور چشم گیری استفاده می شود.
اجزای زیرساختها، در زمان یافتن علت مشکل و خرابی در خود، از اطلاعاتی چون تعداد ساعات استفادهی سیستم بهره برده و زمانی که دمای اجزا از دمای نرمال عملیاتی فراتر می رود، هشدارهایی ارسال کرده و همچنین می تواند مشخص کند که سنسورها چه زمانی تحت تاثیر تفسیرهای غیر معمول قرار گرفته اند. اگرچه هنوز برای فرایند تحلیل خروجی های سیستم مدیریت نگهداری و تفسیر آنها به کارکنان پشتیبانی PM نیاز بوده ولی مسیر پیشرفت PM در آینده به سمتی خواهد رفت که سیستم های زیرساخت فیزیکی خودشان به طور خودکار نقایص و مشکلات خود را اصلاح کنند.
شکل 3: روش سنتی: مدیریت PM جز به جز
صاحبان مرکز داده که تفکری رو به جلو داشته، برای تمام اجزای سیستم برق مرکز داده سیاستی جامع در PM در پیش گرفته و به انجام می رسانند. در حالی که پشتیبانی PM به روش سنتی برای تجهیزات موجود فعلی نیز هنوز نقش مهمی ایفا می کند، ولی سیاستهای نگهداری تجهیزات آتی باید در جهتی شکل گیرند که به مرکز داده به چشم یک سیستم کل منسجم و نه اجزای جداگانهی مونتاژ شده بنگرد. (به شکل 3 و 4 مراجعه شود.)
یک تحلیل گستردهتر می تواند در شفافسازی روند رشد و تکاملی که از یک PM مبتنی بر اجزا آغاز شده و به PM تمام سیستم برق و یا PM تمام چرخه خنک کنندهی سرمایش رسیده، موثر باشد. اجزای یک UPS را به عنوان زیرساخت فیزیکی به عنوان مثال در نظر بگیرید. زمانی که مشکلی در سیستم برق پیش بیاید، همواره نقص از UPS نیست. بلکه ممکن است مشکل از کلید برق، سویچ یا مدار باشد. سیستم نظارتی که بر تمامی این اجزای حیاتی را به هم پیوند داده و اطلاعات را به فرد مشخصی که کلیت سیستم برق را درک کرده و قادر است پیامهای سیستم را به درستی تفسیر کند، از ارزش بالایی برخوردار است.
سامان دهی در جهت PM “جامع”
جهت بهینهسازی در PM کارآمد، صاحبان مراکز داده باید ساختار داخلی سازمان خود را نیز برای پشتیبانی از اجرای قدرتمند PM جامع و یکپارچه مطابقت بخشند. در روش های سنتی، گروههای تجهیزات و IT برای کار با یکدیگر سامان دهی نمی شدند. وظیفهی پشتیبانی از سیستم های فاوا در مرکز داده بر عهدهی IT گذاشته شده در حالی که دپارتمانهای تسهیلات و تجهیزات، مسئول نظارت و بازبینی نصب و نگهداری اجزای زیرساختهای فیزیکی بوده است. از آنجا که امروزه این سیستمها ارتباط تنگاتنگی با یکدیگر داشته و در مرکز داده با یکدیگر کار می کنند، به یک روش ساماندهی جایگزین نیاز بوده تا اعضای کلیدی هر دو تیم را در کنارهم نگه داشته و انسجام بخشد.
شکل 4: روش های استراتژیک: مدیریت جامع و یکپارچهی PM
چرا اجزای زیرساخت های فیزیکی دچار خرابی میشوند؟
در مورد UPS های قدیمیتر (UPS هایی که در دهه ی 80 و 90 میلادی ساخته شدهاند)، تنظیمات دستی باید به صورت مداوم و با دوره تکرار منظم صورت گرفته تا از بروز تغییرات ولتاژ یا شرایط خارج از محدودهی قابل تحمل دستگاه، جلوگیری شود. به عنوان مثال، در کارتهای کنترل UPS الزام به کالیبراسیونِ مدار ولتمتر وجود داشت و معمولا به طور دستی و توسط یک تکنسین، با استفاده از اسیلوسکوپ هر سه ماه یکبار تنظیم و نگهداری شوند. اما امروزه این کار توسط ریزپردازندههای کار گذاشته شده، صورت می گیرد. کالیبراسیون مجدد در دورههای زمانی در به حداقل رسانی احتمال خطا و ازکار افتادگی در UPS، موثر است.
از طرف دیگر، UPSهای مدرنتر توسط کنترلکنندههای پردازشگر سیگنال دیجیتال کنترل میشوند. این UPS ها دیگر با تغییرات در ولتاژ روبرو نبوده و به کالیبراسیون مجدد نیز نیازی ندارد مگر در شرایطی که اجزای اصلی آن جایگزین شوند. علاوه بر شرایط خارج از محدودهی قابل تحمل UPS، موجهای هارمونیک و برق نیز بر اجزای زیرساختهای فیزیکی برق تاثیر نامطلوبی دارند.
نوسان در درجه ی حرارت نیز عامل دیگری در ازکارافتادگی اجزای الکتریکی به شمار می رود. دستگاه های الکتریکی به گونهای طراحی شدهاند که از بازهی مشخصی از دما، پشتیبانی کنند. چنانچه درجهی حرارت در این بازهی مشخص شده در زمان طراحی تجهیزات، باقی بماند، احتمال خرابی نیز کاهش یافته و به ندرت اتفاق می افتد. ولی اگر درجهی حرارت از این بازه فراتر رود، نرخ بروز خرابی نیز به طور قابل توجهی افزایش می یابد. در واقع، طبق پژوهش های صورت گرفته توسط محققان فوق پیشرفته در زمینهی علوم کامپیوتر در آزمایشگاه ملی Los Alamos [3]، به ازای هر 10 درجه سانتی گراد (معادل 18 درجه فارنهایت) افزایش دما، نرخ خرابی دوبرابر می شود.
مطابق با قانون انجمن آمریکایی مهندسین گرمایش، برودت و تهویه مطبوع(ASHRAE) TC 9.9، بازهی توصیه شده برای دمای عملیاتی تجهیزات IT، از 68 تا 77 درجه فارنهایت و یا 20 تا 25 درجهی سانتیگراد است. جریان هوای مناسب می تواند در ایجاد درجه حرارت ثابت و ایمن موثر بوده و شرایط محیطی که به عمر مفید طولانیتر و افزایش فاصلهی زمانی بین خرابیها منجر میشود، را نیز پایدار نگه دارد. جریانهای بیش از حد یک عامل آسیب زنندهی دیگر در اجزای داخلی به شمار میرود. به همین دلیل سیستم های مکانیکی دارای بلبرینگ نیز باید مرتبا تحت بازرسی قرار گرفته و روغن و گریس در آنها به طور مداوم تعویض شوند.
شکل 5: پژوهش حرارت تا خرابی در آزمایشگاه ملی Los Alamos
اقدامات توصیه شده
بازدیدهای صورت گرفته توسط کارکنان نگهداری، در اصل در حکم تایید اعتبار آن بوده که تجهیزات زیرساخت های فیزیکی از اهداف آپتایم[4] صاحبان مرکز داده پشتیبانی می کنند. افراد خبره و حرفهای فعال در زمینه ی زیرساختهای فیزیکی که در حیطهی مرکز داده تخصص و تجربه دارند، می توانند سن اجزای مختلف داخلی را تشخیص داده و مقدار اثرگذاری آن جز بر درجهی قابلیت اطمینان کل سیستم را تعیین کنند.
خبرگان PM باید محیط مرکز داده (کلیدهای برق، اقدامات نصب، تکنیکهای کابلکشی، اتصالات مکانیکی، انواع مصرف) را مورد نظارت و ارزیابی قرار داده و در مورد سایش یا شکستگی زودهنگام احتمالی اجزا به مالک اخطار داده و در مورد فاکتورهایی که بر دسترسی سیستم تاثیر منفی داشته باشند (تجهیزات مدیریت خطاهای احتمالی انسانی، دمای بالاتر از نرمال، درجهی اسیدی شدن بالا، زنگ زدگی و نوسانات برق پشتیبانی سرور) هشدار بدهد.
یک بازدید PM همچنین باید شامل ارزیابی عوامل محیط خارجی که بر عملکرد موثرند نیز باشد.(به جدول شماره 1 مراجعه شود.) عمق و طول هر بازدید PM به سطح حساسیت مرکز داده نیز بستگی داشته(به گزارش “راهنمای تعیین حساسیت مرکز داده/ سطح تییر”[5] مراجعه شود.) و به تشکیل یک برنامهی عمل منجر شود.
جدول 1: نمونهی چک لیست محیط PM
محیط داخلی |
محیط خارجی |
عملی: · ظاهر صفحهی مدارها · ظاهر زیرمجموعهها · ظاهر محافظ کابل · متصل کننده ها · فیلترها · سیم پیچ ها · خازن ها · عایق بندی · تهویه غیرتهاجمی: · ظاهر کلی · گزارش های بازرسی های حرارتی · گزارشهای پیشبینی خرابی · گزارش دمای داخلی |
· بهداشت کلی · سطح درجه حرارت · سطح اسیدی بودن · وجود زنگ زدگی · تعداد دفعات قطعی · چکه کردن آب · گرد و غبار در یک ناحیه · نقاط پرحرارت · انسداد دستگاه تهویه · موانع دسترسی · درها و پنجرههای باز · ساخت و سازهای اطراف · استفاده از رادیو · نشت از سقف · کیفیت صدای تجهیزات · اتصال تجهیزات به کابل های ارت |
بررسیهای حرارتی و خرابی های قابل پیشبینی
بررسی حرارتی رکها و پنل های کلید برق در طول هر بازدید PM توصیه شده است. در صورت هر گونه مشاهدهی دمای غیرعادی نیز باید سریعا اقدامات لازم انجام شود. گزارشهای اشعهی مادون قرمز نیز در طول زمان ممکن است با هم مقایسه شده و روند پیشرفت و مشکلات احتمالی شناسایی شوند. در این روش، به طور مثال اتصالات الکتریکی میتوانند به جای حدس و گمان، بر اساس دادههای علمی استحکام یابند.
بررسی حرارتی روشی است که می تواند برای تابلو برق، ترانسفورماتورها، قطعی، UPS، صفحات پنل توزیع، واحدهای توزیع برق و کلیدهای قطع اتصال در واحدهای تهویه مطبوع نیز اجرا شود.
دینامیک سیالات محاسباتی (CFD) همچنین می توانند برای تحلیل درجهی حرارت و الگوی جریان هوا در مرکز داده به کار گرفته شده و در تعیین آثار ازکارافتادگی تجهیزات سرمایش موثر باشد.
با استفاده از متدهای تخمین زنی خرابی، به طور مثال خازنها تنها زمانی می توانند جایگزین شوند که COD توصیه به این جایگزینی کرده باشند. این روش در تضاد کامل با روش سنتی بوده که به “الان شش ماه گذشته و زمان آن رسیده که قطعات را جایگزین کرد.” استناد میکند. با پیگیری روش پیشگویانهی خرابی میتوان از اجرای غیرضروری رویه های تهاجمی که با القای ریسک خطای انسانی به خرابی منجر می شود، جلوگیری کرد.
در جدول 2 یک لیست نمونه از دستگاه های زیرساخت های فیزیکی بوده که به PM نیاز دارند. این سیستمها در تعامل با یکدیگر کار کرده و باید به شکل یک سیستم کل نگهداری میشوند.
جدول 2: دستگاه هایی که در مرکز داده به PM نیاز دارند(لیست جزیی)
دستگاه |
قطعات داخلی که به PM نیاز دارند |
سطح کلی نگهداری مورد نیاز |
ترانسفورماتور |
آچارکشی دقیق |
پایین |
PDU |
آچارکشی دقیق |
پایین |
سیستم توزیع آب و هوا مرکز داده |
ظرفیت لوله کشی داخلی، شیر فلکهها، آب بند و هوابند بودن درز ها |
پایین |
CRAC ردیفی |
فیلتر، سیم پیچ، سفت افزار، اتصالات لولهها، موتورهای فن |
متوسط |
نسل جدید UPS |
فن ها، خازنها، باتری ها |
متوسط |
کف کاذب |
تایل ها، مکان و پایه های تایل، پاک کردن ZINC WHISKER |
بالا |
UPS قدیمی |
فنها، خازن ها، صفحات الکترونیکی، باتریها |
بالا |
CRAC قدیمی |
تسمه ها، فیلترهای هوا، اتصالات لوله، کمپرسور، موتورهای فن، پمپها، سیمپیچها |
بالا |
رطوبت ساز |
زهکشی، فیلتر، پریزها، آب پردازنده |
بالا |
کلید ترانسفر |
اجزای کلید، سفت افزار، گشتاور |
بالا |
باتری خارجی (باتری تر و VRLA) |
گشتاور، اتصالات، الکترولیت/سطح اسید، سطح دما |
بالا |
سیستم آلارم حریق |
شیرهای فلکه، کلید جریان |
بالا |
چیلر |
سطح فشار روغن، سطح گاز، تنظیمات درجه حرارت |
بالا |
ژنراتور |
فیلتر سوخت، فیلتر روغن، فیلتر هوا، شلنگ ها، تسمه ها، خنککننده، ، مرکز فن، پمپ آب، گشتاور اتصالات، یاتاقانهای دینام، کلید برق اصلی |
بالا |
شیوه های برنامه ریزی
شیوههای برنامهریزی در نگهداری قدیمی زمانی پایه گذاری شدند که هنوز دسترسی سیستم، دغدغهی مهمی برای صاحبان مراکز داده به شمار نمیرفت. شبها، آخر هفته ها و تعطیلات سه روزهی آخر هفته هنوز هم مانند گذشته زمانهای معمولی در برنامه های زمانی محسوب میشوند. اگرچه، با ظهور و توسعهی اقتصاد جهانی و نیاز به دسترسی 24 ساعته در تمام هفته و تمام 365 روز سال، الگوی برنامه زمانی نگهداری را تغییر داده ست.
در بسیاری از موارد، دیگر توجیهی برای برنامهریزی PM تنها در شب ها و آخر هفته ها وجود ندارد. در حقیقت، روشهای برنامهریزی سنتی ممکن است به طرز چشمگیری بر هزینه ها و ریسکهای فرایند PM بیفزایند. از منظر حقوق ساعتی معمول، نگهداری در خارج از ساعات کاری گران تر خواهد بود. مهم تر از آن، بسیار احتمال داشته که کارکنان خدمات و پشتیبانی از لحاظ جسمی خسته بوده و در ساعات اضافهکاری خود و یا ساعات غیرمعمول کار دقت کمتری داشته باشند. این امر احتمال بروز خطا و یا حتی در برخی موارد، ریسک مصدومیت افراد را افزایش میدهد.
همکار یا فردی که خدمات PM را ارائه میدهد، میتواند در برنامهریزی مناسب زمانبندی PM، به صاحبان مرکز داده کمک کرده و سود رسانند. در شرایط ساخت مراکز دادهی جدید، این ارائه هنده ی خدمات PM میتواند در مورد نحوه ی ساماندهی پلان طبقهی مرکز داده در نقش مشاور مالک عمل کرده تا PM با روشی آسان تر انجام گرفته و تداخلات کمتری پیش بیاید. علاوه بر آن، اطلاعاتی که توسط سازمان های دولتی مانند سازمان ملی اقیانوسی و جوی (NOAA)[6] فراهم میشود، روند تغییرات آب و هوا را مشخص کرده که صاحبان مراکز داده را در جهت انتخاب بهینهترین بازهی نگهداری، راهنمایی می کنند. (به شکل 6 مراجعه شود.)
شکل 6: داده های تحقیقاتی (روز-درجههای گرمایش و سرمایش) به عنوان راهنمایی در برنامهریزی بازدیدهای PM
نکته : روز-درجه همان مقایسهی درجه حرارت محیط بیرون با دمای استاندارد 65 درجه فارنهایت (یا 18.3 درجه سانتیگراد) می باشد. هر چه درجه حرارت بالاتر بوده، این عدد نیز افزایش مییابد. روزهای گرم، در روز-درجه سرمایش اندازه گیری می شود. به طور مثال در روزی با دمای متوسط 80˚F ، عدد روزدرجهی گزارش شده سرمایش 15 میباشد. (CDD15=مبنای 65- 80) روزهای سرد اما بر مبنای روز-درجهی گرمایش اندازه گیری میشوند. برای یک روز با دمای متوسط 40˚F، روز-درجهی گرمایش گزارش شده 25 خواهد بود. (HDD25= 40 – مبنای 65) با مطالعهی الگوهای روز-درجه در منطقهی خود، می توان افزایش و یا کاهش دمای محیط بیرونی را به طور سال به سال ارزیابی کرده و روند تغییرات را تعیین نمود.
هماهنگی های PM
دماهای شدید سرد و گرم در محیط بیرونی و همچنین فصلهای طوفانی، می توانند ریسک قبل توجهی را به دنبال داشته باشند. اگر داده های آب و هوا ماه های آوریل و سپتامبر را به عنوان بهترین ماه ها برای اجرای PM در نظر گرفته باشند، هنوز هم مزایا و معایب این دو باید بررسی شود. به طور مثال، آیا در هر یک از بازه های زمانی پیشنهاد شده، ساخت و سازی در اطراف مرکز داده صورت می گیرد؟ اگر این طور است، احتمال بالاتری از قطع برق ناشی از حوادث ساختمانی (مانند قطع تصادفی مسیرهای آب یا برق توسط تجهیزات ساختمانی) وجود داشته که باید در نظر قرار گرفته شود.
آیا در صورت بروز خرابی در سیستم سرمایش مرکز داده، هوای خنک محیط می تواند به سرمایش رایگان مرکز داده کمک کند؟ چنانچه ماه سپتامبر، بر اساس درجه حرارت محیط بیرونی به عنوان ماهی بهینه برای اجرای PM در نظر گرفته شده، آیا برنامهریزی PM برای هفتهی آخر ماه که سیستم های مالی با بیشترین ظرفیت خود کار می کنند، امری عاقلانه است؟
یک روش میتواند برنامهریزی PM در زمان های مختلف باشد. اگر تمام کارکنان را به طور همزمان به انجام فرایند PM واداریم، ممکن است با خطر انداختن پوشش و پشتیبانی مورد انتظار مشتریان و کاربران تجاری، ریسکی بر مرکز داده تحمیل شود. اگر مشکل ناشی از نداشتن نیروی انسانی لازم باشد، یک برنامهی زمانی فازی PM می تواند مسئولیتهای PM را بین افراد به طور یکسانتری پخش کرده و مرکز داده بتواند سطح خدمات مورد نظر خود را در تعادل نگه دارد.
ولی اگر مشکل از داشتن نیروی انسانی لازم نبوده، روش دیگر می تواند این باشد که PM به طور یک جا در یک روز یا چند روز همزمان و نه در دورههای زمانی مختلف اجرا شود. به جای برنامهریزی بازدیدهای متعدد PM از طرف سازمان های مختلف، یکی از شرکا برای برنامهریزی و PM زیرساخت های کلیدی، فراخوانده میشود. این “PM مبتنی بر سیستم” (در تضاد با روش سنتی PM مبتنی بر قطعه) که توسط یک شریک ذیصلاح صورت می گیرد، می تواند به صرفه جویی در زمان و هزینه کمک کرده و عملکرد کلی مرکز داده را نیز بهبود بخشد. انجام و برنامه ریزی PM توسط یک فرد ذیصلاح یکی از اولویت های مهم در کاهش توقف عملکرد و افزایش امکانات بازیابی و ارتقا در مرکز داده می باشد.
بیانیهی کار PM
فرایند PM باید به وضوح هم برای انجام دهندگان آن و هم برای صاحب مرکز داده، توضیح داده و تعریف شود. فرد مسئول PM، میبایست یک بیانیه ی کار دقیق از PM به صاحب مرکز داده ارائه داده که در آن، محدوده ی فرایند به روشنی تعریف شود. برخی از مواردی که باید در این بیانیه کار (SOW) آورده شوند، عبارتند از :
- آماده سازی: بیشتر تولیدکنندگان یک بار بازدیدPM در سال را پس از نصب و راهاندازی تجهیزات توصیه می کنند اگرچه که بعضی از اجزای خاص با کاربری بالاتر (مانند دستگاه رطوبتساز)، ممکن است بررسی های سریعتر و نظارت مداوم نیاز داشته باشند. برای اطمینان از دسترسی آسان به تجهیزات در محل مرکز داده، نیاز به پیروی از یک پروتکل مناسب داریم. همچنین محدودیتهای عملیاتی صاحب مرکز داده نیز باید در نظر گرفته شود. برای اعمال تنظیمات لازم در جهت عملکرد بهینهی تجهیزات، برنامه و طرحی از پیش باید تشکیل شود.
- قوانین جایگزینی قطعات: SOW(بیانیهی کار) باید در برگیرندهی توصیه هایی در مورد قطعاتی که باید به طور پیشگیرانه جابجا و یا ارتقا داده شوند، باشد. مسایلی چون دسترسی به انبار، منبع قطعات تست و تایید شده، برنامهریزی احتمالی برای مشاهدهی قطعات معیوب و برداشتن و دور ریختن قطعات قدیمی باید در SOW محسوب و بررسی شده باشند.
- مستندسازی: در SOW باید گزارش خروجی PM مشخص شده که در آن، اقدامات صورت گرفته در حین بازدیدهای PM مکتوب و مستند میشود. این گزارش خروجی می بایست به طور اتوماتیک برای پیگیری های فنی توسط سازنده مورد بازبینی قرار گیرد.
گزینههای PM
خدمات PM ممکن است مستقیما از تولیدکننده خریداری شده و یا از طرف یک گروه و یا شخص ثالث ارائه شود. انتخاب سازمان نگهداری که قادر به پشتیبانی از دیدگاه های PM برای مرکز داده باشد، تصمیم مهمی به شمار می رود. چنین سازمانهایی ممکن است ابعادی جهانی داشته و یا خدمات خود را به یک منطقه محدود کرده باشند. در جدول 3، دو گروه از ارائه دهندگان معمولی PM، با هم مقایسه شدهاند.
جدول 3: مواجهه با چالش های خدمات: تولیدکنندگان در برابر شخص ثالث تایید نشده
|
تولیدکننده/ شخص ثالث ذیصلاح |
شخص ثالث تایید نشده |
قطعات اضافی |
انبارهای محلی قطعات اضافی در دسترس صاحبان مرکز داده قطعات ساخته و تست شده در کارخانه با تاییدیه ISO قطعات به تازگی بازبینی شده/ سازگار با محصولات در حال استفاده قطعات اصل از کارخانه برای جایگزینی استفاده شود |
قطعات جایگزین شده ممکن است از “بازار دست دوم” و یا فروشنده تجهیزات دست دوم تهیه شده باشد. قطعات جایگزین شده ممکن است توسط تکنسین فاقد صلاحیت تعمیر شده باشند. قطعات جایگزین شده ممکن است از تولیدکنندگان دیگر با واسطه خریداری شده و این امر منجر به تاخیر در تحویل شود. |
دانش محصول |
خدمات تخصصی برای محصولی مشخص تجارب حاصل از دفعات زیاد نصب |
کارکنان ارائه دهندهی خدمات عمومی تر بوده و باید گسترهی وسیعی از محصولات از سازندگان مختلف را پوشش دهند. ممکن است به امکانات بهبود یافته دسترسی نداشته و یا دانش لازم را نداشته باشند. |
پشتیبانی محلی/منطقهای |
می تواند یک پاسخ استاندارد 4 ساعته ارائه دهد. |
شرکتهای محلی ممکن است تا دو ساعت پاسخ دهند. ممکن است قادر باشند مناطقی را پوشش دهند که خارج از محدودهی تولیدکننده است. |
دانش در مورد محیط مرکز داده |
فراتر از هر یک از اجزا، تولیدکننده معمولا در مورد مسایل برق و سرمایش که بر عملکرد کلی مرکز داده موثر است. معلومات دارد. |
ورای تعمیر هر یک از جزا، دانش مرکز داده ممکن است محدود باشد. |
آموزش |
کارکنان از طرف خدمات کارخانه آموزش دیده و برای رعایت استانداردهای ایمنی، صلاحیت دارند. کارکنان به طور منظم مورد ارزیابی قرار گرفته و آموزش آن ها به روز رسانی میشود. |
ممکن است کارکنان تحت آموزش خدمات کارخانه نبوده و یا اگر بوده اند، این آموزش ها به روز رسانی نشده است. |
هزینه |
معمولا گرانتر بوده ولی تشخیص مشکل و برطرف کردن آن، زمان کمتری میبرد. |
معمولا ارزانتر از تولید کننده تمام میشود. |
بهروز رسانی محصول |
ارائه دهنده خدمات، به تمام بازبینیهای سخت افزار و سیستم عامل دسترسی دارد. |
دسترسی به بازبینی های به روز رسانی محصول و بازبینی سیستم عاملها ممکن است محدود باشد. |
مستندسازی |
مستندات و مکتوبات ارائه دهندهی خدمات به تازگی بازبینی شده و شامل اطلاعات به روز می باشد. انتشار گزارش های فنی و مستندات پس از تکمیل PM، به طور کامل در اختیار مالک قرار می گیرد. |
کارکنان خدمات مکن است به مستندات به روز شده دسترسی نداشته باشند. |
ابزارها |
ارائه دندهی خدمات به تمامی ابزارها، تجهیزات تست و نرمافزارها دسترسی داشته و مطابق مقررات کالیبراسیون ISO عمل می کند. |
ممکن است دسترسی سریع به جدیدترین ابزارها نداشته باشد. |
انجام PM از طرف تولیدکننده
قراردادهای نگهداری تولیدکنندگان شامل خطوط تماس، پشتیبانی و زمان پاسخ دهی تضمین شده میباشد. تولیدکنندگان همچنین هزاران قطعه از تجهیزات را در مناطق مختلف جغرافیایی پوشش داده و دهها و صدها ساعت کار میدانی و تجربه را برای بهبود اقدامات نگهداری خود و بالابردن تخصص کارکنانشان، در اختیار دارند. اطلاعات جمعآوری شده توسط افراد تحت آموزش کارخانه، به واحد R&D سازمان فرستاده شده و در آن جا تحلیل شده تا علل و ریشهی از کارافتادگی و خرابی ها مشخص شود.
گروه های R&D تولیدکننده، داده ها را تحلیل کرده و بهبودهای لازم در سخت افزارها و سیستم عاملها را در قالب ارتقای محصولات، ارائه می دهند که این پایهی شکل گیری PM بعدی خواهد بود. این محدودهی جهانی همچنین به کارکنان خدماتی مرتبط با تولیدکنندگان، این امکان را داده تا درک عمیق تری از مسایل یکپارچهای در برق و سرمایش پیدا کرده، و به دانشی دست یابند که هم در عیب یابی و هم در تحلیل های پیشبینی کاربرد خواهد داشت.
انجام PM از طرف شخص ثالث تایید نشده
بیشتر شرکتهای ثالث نگهداری محدوده ای منطقه ای و محلی در خدمات خود دارند و به کار بر نصب تجهیزات محدودتری تمایل نشان می دهند. در نتیجه، منحنی آموزش در آنها، ممکن است به دلیل تغییرات تکنولوژی، طولانیتر باشد. از آن جا که این ارائهدهندگان ثالث خدمات نگهداری، ارتباط مستقیم کمتری با تولیدکنندگان و محل های تولید دارند، ارائهی پشتیبانی در سطح بالا نیز برایشان مقدور نیست. آنان به دلیل آن که از مزایای داده های مستمر و جهانیِ بهبود PM که از نصب های صورت گرفته در نقاط مختلف جهان حاصل شده، برخوردار نیستند، در نتیجه بسیاری از مشکلاتی که با آن روبرو می شوند “جدید” خواهد بود.
نگهداری توسط کاربر
تصمیم در مورد نگهداری تجهیزات زیرساختهای فیزیکی توسط خود صاحبان مرکز داده، به عوامل مختلفی بستگی دارد شامل:
- طراحی/ پیچیدگی تجهیزات
- سطح حساسیت در کاربردهای مرتبط
- مدل تجاری صاحب مرکز داده
بعضی از تولیدکنندگان امکانات لازم برای روش های نگهداری توسط کاربر را از طریق طراحی اجزای زیرساخت فیزیک که به نگهدار کمتری نیاز دارد(مانند UPS با کارتریجهای باتری مدولار و قابل تعویض توسط کاربر)، فراهم میکنند. عوامل توجیهکنندهی این روش شامل توانایی پرداخت هزینهی نگهداری با بودجهی داخلی به جای بودجهی خارجی و توانایی کارکنان مرکز داده (در صورت آموزش مناسب) در تشخیص سریع خطاهای احتمالی، میباشد.
از سوی دیگر نیز، عواملی که با نگهداری توسط کاربر مخالفت می کنند شامل تجربیات محدود کارکنان داخلی (البته منظور نقاط قوت کلیدی صاحب مرکز داده نیست) و ضعف در پایگاه دانش کارکنان در اثر تغییرات ناشی از ترک نیروهای قبلی و استخدام نیروی جدید، می باشد. تاخیر در تامین قطعات از منبع خارجی و همچنین در حل سریع یک مشکل نیز ممکن است در صورت نداشتن قرارداد نگهداری، دشوار باشد. در صورت عدم ساختار مناسب سازمانی برای اجرای نگهداری توسط کاربر، احتمالا مزایای مورد نظر در کارایی و منافع مالی تحقق پیدا نمیکند.
نگهداری متناسب با شرایط
تخمین و برنامهریزی شرایط تجهیزات در طول زمان، به شناسایی واحدهای خاصی که احتمال بروز خرابی بیشتر و طبعا تعمیر بیشتر دارند، کمک می کند. همچنین، واحدهایی را که به دلیل فشار کاری خاص، (مانند UPSای که اغلب به دلیل کیفیت برق ضعیف، از باتریاش استفاده می کند)، احتمال بالاتری از خرابی در آینده دارند، را شناسایی می کند. روش نگهداری متناسب با شرایط، تلاش دارد از طریق داده های آماری تعیین کند که کدام یک از اجزای تجهیزات با احتمال بیشتری بدون نگهداری در شرایط قابل قبول، باقی میماند. در نتیجه، نگهداری در جاهایی با بیشترین تاثیر و کمترین پیامد منفی، اجرا خواهد شد.
داده های نگهداری مبتنی بر شرایط، که در تخمین و بررسی شرایط تجهیزات موثرند، عبارتند از:
- مدت کارکرد
- تجربههای پیشین از عملکرد
- تارخچهی محیط (دما، ولتاژ، زمان پشتیبانی، رویدادهای غیرعادی)
- ویژگی های عملیاتی (لرزش، نویز، درجه حرارت)
نتیجه گیری
در یک مرکز داده ، PM همان راه حل کلیدی در عملکرد کامل به شمار میرود. قراردادهای نگهداری می بایست شامل بندی برای محدودهی تحت پوشش PM باشد تا صاحب مرکز داده بتواند اطمینان حاصل کند که در زمان نیاز، پشتیبانی جامع و کاملی در اختیار خواهد دشت. فرایند فعلی PM باید در جهت تبدیل شدن به یک روش “جامع” گسترش یابد. مزیتی که امروزه ارائه دهندگان خدمات PMبرای اجزای پرکاربرد (مانند UPS) فراهم می آورند، نیز باید به تمامی اجزای سیستم برق مرکز داده (ژنراتورها، کلید قدرت، ترانسفورماتورها، کلیدها حفاظتی و کلیدهای برق، PDU، UPS) و تمامی اجزای سیستم سرمایش (CRAC، CRAH، دستگاههای رطوبتساز، کندانسورها، چیلرها) تعمیم یابد.
امروزه مجریان PM که در قویترین جایگاه در ارائهی این سطح از پشتیبانی باشند، تولیدکنندگان زیرساخت های فیزیکی مراکز داده در سطح جهانی محسوب میشوند. یک روش یکپارچه در اجرای PM، به صاحبان مراکز داده اجازه خواهد داد تا یکی از شرکای خود را به برنامهریزی، اجرا، مستندسازی، مدیریت ریسک و دیگر روندهای PM گماشته و از این طریق، فرایند را تسهیل کرده، هزینه ها را کاهش داده و سطح دسترسی کل سیستم ها را افزایش دهند.
[1] – preventive maintenance
[2] – آرک فلش ، نور و حرارت ایجاد شده از یک قوس الکتریکی که توسط مقدار قابل توجهی انرژی ایجاد شده، می باشد.
[3] – Los Alamos National Laboratory: “The Importance of Being Low Power in High Performance Computing”, Feng, W., August 2005
[4] – آپتایم همان دورهی زمانی است که در طول آن یک سیستم کامپیوتر فعال است یا تجهیزات صحیح عمل می کنند.
[5] – White Paper 122, Guidelines for Specification of Data Center Criticality / Tier
[6] – National Oceanic and Atmospheric Administration
درج دیدگاه