انجام مقایسه ی MTBF برای زیرساختهای مرکز داده

همواره در مراکز داده ی حیاتی، بالاترین اولویت در جلوگیری از خرابی و ازکار افتادگی است. از آنجا که هر دقیقه ی ازکار افتادگی می تواند بر ارزش سهمِ بازار تاثیر منفی گذارد، قابل اطمینان بودن زیرساخت های فیزیکی که پشتیبانی این محیط شبکه را بر عهده دارند، بسیار حائز اهمیت است. اما چگونه می توان از قابل اطمینان بودن راه کارهای به کارگفته شده اطمینان حاصل کرد؟

میانگین زمان بین خرابی‌ها که همان مدت زمانی است که انتظار می‌رود یک سیستم در حال کار دوباره خراب شود به اختصار MTBF نامیده شده و می توان گفت متداول ترین ابزار در سنجش و مقایسه ی قابلیت اطمینان در راه کارهاست.

با این حال، بدون داشتن یک درک عمیق و صحیح از مفهوم MTBF^{^[1]}، دستیابی به هدف کسب و کارها از منظر قابلیت اطمینان امکان پذیر نیست. اصول اساسی و مهم MTBF در گزارش ” میانگین زمان بین خرابی ها: تعاریف و استانداردها”[2] آورده شده است. در نهایت بدون تعریف واضح از “خرابی” و با فرضیات غیرواقعی و سوتعبیر شده، MTBF نیز بی حاصل و بیهوده خواهد بود.

در این مقاله، چگونگی به کارگیری MTBF و محدودیت های استفاده از آن به عنوان یک ابزار مشخص و انتخابی، توضیح داده می شود. یک چک لیست نیز به عنوان یک راهنما برای مقایسه ی درست و عادلانه بین دو سیستم ارائه شده است.

در گزارش 78، روش های متعددی در پیش بینی MTBF معرفی شده است. به دلیل تعدد بالای روش ها، یافتن دو سیستمی که با یک روش یکسان کار کنند، غیرممکن به نظر می رسد. با این حال، یک روش وجود داشته که در بسیاری از سازمان ها بین رویکرد های مشترک، از طریق فایندهای مختلفی اجرا می شود. روش اندازه گیری داده های میدانی از داده های میدانی در زمینه ی خرابی ها استفاده کرده و در نتیجه، نسبت به شبیه سازی، معیار دقیق تری در ارزیابی نرخ خرابی ها به شمار می رود.

این داده ها ممکن است برای محصولات جدید و یا محصولاتی که با حجم کمتری تولید می شوند مناسب و در دسترس نباشد، ولی برای محصولاتی که از لحاظ تعداد تولید شده مقدار مناسبی داشته و داده های میدانی کافی در اختیار قرار می دهد، همواره قابل استفاده است. در نتیجه، این روش منطقی ترین و واقع بینانه ترین نقطه ی شروع در مقایسه ی بین دو سیستم محسوب می شود. توجه شود که همان طور که در گزارش 78 نیز آمده است، در این روش مانند بسیاری از روش های دیگر، نرخ خرابی ها، ثابت فرض می شود.

گام های اجرای این روش در این مقاله معرفی شده و متغیرهایی که در هر مرحله بر خروجی ها تاثیر دارند، در لیست آمده و توضیح داده شده اند. چنانچه هر یک از متغیرها و یا فرضیه ها حیاتی بین سیستم های تحت مقایسه تغییر کند، می بایست تاثیر این تغییرات بر تخمین های MTBF نیز مورد بررسی قرار گیرد. جدول زمانی برای فرایندهای اندازه گیری داده های زمانی در شکل 1 نشان داده شده است. هر جز در جدول زمانی، در گام های فرایند که در ادامه آمده است، توضیح داده خواهد شد.

شکل 1: فرایندهای اندازه گیری داده های میدانی

گام اول: تعیین و تخمین سایز جامعه ی آماری

اولین گام در فرایند تعیین نرخ سالانه ی خرابی ها [3](AFR) و نهایتا اجرای MTBF بر یک محصول، شناسایی نمونه ی مشخصی از محصول که قرار است مورد تحلیل قرار گیرد، می باشد. آیا محاسبات باید بر اساس یک نمونه ی آزمایشی انجام شده و یا یک خانواده ی کلی از محصول مورد نظر قرار داده شود؟ چه تعداد روز و یا ماه از روند تولید محصول می بایست در نمونه در نظر گرفته شود؟ تاریخ شروع و پایان محصول باید چه زمانی باشد؟ همچنین این امر که محصول و یا محصولات انتخاب شده برای نمونه گیری از لحاظ طراحی به قدر کافی شبیه بوده و تعداد تولید شده شان برای روایی آماری داده های جمع آوری شده کافی باشد، بسیار مهم شمرده می شود.

گام دوم: تعیین محدوده ی زمانی نمونه گیری برای جمع آوری داده

دومین گام از فرایند، تعیین محدوده ی زمانی نمونه گیری برای جمع آوری داده ها از خرابی های نمونه است. داده ها معمولا زمانی جمع آوری می شوند که کاربران یک محصوب برای گزارش خرابی رخ داده با سازنده ی آن تماس می گیرند. فاصله ی زمانی مناسب بین تاریخ آخرین تولید محصول و شروع دوره ی نمونه گیری، بنا بر نوع محصول، مکان جغرافیایی، فرایند توزیع و وضعیت موجودی تغییر می کند.

به طور مثال، اگر محصولاتی دو ماه را در انبار کارخانه و دو ماه را نیز در نوبت توزیع بگذرانند، کمترین زمان برای شروع دوره ی نمونه گیری، چهار ماه پس از اتمام محدوده ی زمانی تولید کل جامعه‌ی آماری، به معنی کل محصول تولید شده، است. برای محصولاتی که باید از طریق توزیع کنندگان، فروشندگان و خرده فروشان به دست کاربر برسند، چهار ماه مطرح شده یک چهارچوب زمانی واقع‌بینانه به شمار رفته که بر این متغیرها تاثیر می گذارد.

در اینجا دو متغیر مهم مطرح می شود:

1- زمان کافی بین آخرین تاریخ تولید محصول و زمان شروع نمونه گیری

2- یک گستره ی زمانی از تاریخ های نمونه گیری برای اطمینان از صحت نتایج

چنانچه برای فاصله ی بین آخرین تاریخ تولید محصول و شروع نمونه گیری زمان کافی اختصاص داده نشود، ممکن است دوره ی نمونه گیری پیش از آن که محصول مورد نظر به طور کامل پیاده سازی شود، آغاز شود. در این شرایط دو احتمال وجود دارد: ابتدا این که واحدهایی که پیاده سازی نشده اند مسلما با خرابی نیز مواجه نمی شوند و در نتیجه احتمالا نرخ خرابی ها کمتر از واقعیت تخمین زده می شود. تاثیر دوم آنست که دوره‌ی زمانی نمونه گیری به طور ناخواسته تعدادی از خرابی های زمان نصب و راه اندازی را نیز شامل می شود.

در مورد محصولات جدیدی که ممکن است نرخ خرابی آن ها شبیه به خم گودالی[4] و شامل دفعات بالای نصب باشد، این امر به یک تخمین بالاتر از حد واقعی در نرخ خرابی ها ی انجامد. اگرچه هر دوی این تاثیرات، که مقابل هم قرار می گیرند، بسیار قوی و تاثیرگذار هستند ولی نمی توان اطمینان داشت که این دو حتما با یکدیگر در تعادل قرار گرفته و اثر یکدیگر را خنثی می کنند.

عامل مهم دیگری که باید در رابطه با زمان نمونه گیری مورد توجه قرار گیرد، طول گستره ی زمانی است. برای جمع آوری داده ها چه تعداد روز کافی خواهد بود؟ گستره ی زمانی نمونه گیری باید به نحوی انتخاب شود که برای حذف پارازیت آماری، به قدر کافی طولانی باشد. این طول مدت برای دستیابی به یک دقت منطقی، به سایز نمونه بستگی دارد. به طور مثال، برای یک محصول با حجم تولید بسیار بالا ممکن است یک ماه ولی برای حجم تولید کمتر، چند ماه در نظر گرفته شود.

گام سوم: تعریف “خرابی”

پیش از شمارش دفعات خرابی، ابتدا باید تعریف مشخصی از آن ارائه شود تا از یک فرایند ثابت در اندازه گیری ها اطمینان حاصل شود. اگر همان طور که محصولات خراب در کارخانه محاسبه می شوند، هر تکنسین نیز خرابی را با همان روند تعریف کند. یک تکنسین ممکن است تنها محصولاتی که به طرز فاجعه باری نقص دارد را خراب در نظر بگیرد و تمامی محصولات دیگری را که در هر حالتی نقص داشته، چه این نقص جزیی و کوچک بوده و چه فاجعه بار، خراب بشمارد.

این دو دیدگاه افراط و تفریط، امکان اندازه گیری دقیق نرخ خرابی در یک حصول مشخص را از بین می برد. این اثر، جدا از آثار منفی است که بر فرایندهای کنترل محصول گذاشته خواهد شد. در نتیجه، پیش از بررسی هر محصول، داشتن یک تعریف شفاف از “خرابی” برای تمام فروشندگان امری ضروری است. گاهی فروشندگان تعاریف مختلفی از خرابی برای محاسبه ی MTBF یک پیشامد خاص دارند. به طور مثال، فروشندگان UPS اغلب به دنبال روشی برای اندازه گیری MTBF محصولات خود هستند که تعداد خرابی موثر بر مصارف حساس و تعداد کل خرابی را حداقل نشان بدهد.

گام چهارم: دریافت، تشخیص مشکل و تعمیر محصول

بین تاریخ پایان نمونه گیری و محاسبه ی نرخ خرابی سالیانه (AFR)[5] باید زمان کافی در نظر گرفته شود تا دریافت، تشخیص مشکل و تعمیر محصولات با خرابی گزارش شده، زمان کافی وجود داشته باشد.

تشخیص مشکل به تعیین نوع و علت خرابی پرداخته در حالی که، در مرحله ی تعمیر، بر این تشخیص صحه گذاشته می شود. برای محصولات کوچک تر واحد مشکل دار معمولا به سازنده برگشت داده شده که این خود می تواند منجر به تاخیر در رسیدن محصول و یا زمان لازم برای ارسال گردد. پس از آن که آن واحد به دست سازنده رسید، باید مشکل تشخیص داده شده و تعمیر گردد که این نیز به تاخیر دیگری می انجامد که اصطلاحا “تاخیر در تشخیص”[6] نام دارد. برای محصولات بزرگ تر، تشخیص مشکل و تعمیر آن معمولا در خود مکان مشتری صورت گرفته که در نتیجه، تاخیر کمتر بوده و یا اصلا تاخیری اتفاق نمی افتد.

در هر دو حالت، لازم است که پیش از محاسبه ی AFR، مشکل در محصولات تشخیص داده شده و تعمیر شود. در مواردی که با حجم بالای تولید مواجهیم، ممکن است به پایان دوره ی تاخیر در تشخیص رسیده باشیم ولی هنوز محصولاتی از قبل تعمیر نشده باقی مانده باشد و نوبت به تعمیر محصول تشخیص داده شده نرسد. در این شرایط، یک فرضیه این بوده که خرابی در واحدهای تعمیر نشده با همان نرخ واحدهای قبلی تعمیر شده اتفاق می افتد. بسته به حجم تولید و نوع محصول مورد اندازه گیری، تاخیر در رسیدن محصول و تاخیر تشخیص می توانند هفته ها بر دوره ی نمونه گیری بیفزاید که در نهایت در پایان این دوره، AFR محاسبه خواهد شد.

گام پنجم: محاسبه ی نرخ خرابی سالیانه

نرخ خرابی سالیانه برای نمایش تعداد خرابی های مورد انتظار در یک سال شمسی برای یک محصول مشخص محاسبه می شود. گام اول در محاسبه ی این عدد به مقیاس سالانه درآوردن داده های خرابی است. این کار از طریق ضرب تعداد خرابی های مشاهده شده در یک دوره ی نمونه گیری در تعداد دوره های نمونه گیری در یک سال انجام می شود. گام دوم تعمیم این نرخ بر کل جامعه ی آماری محصولات تولید شده است. این مرحله نیز با تقسیم تعداد سالیانه ی خرابی ها بر تعداد واحدهای ساخته شده در همان دوره زمانی امکان پذیر است.

معادله ی اول:

Screenshot (108)

در این معادله، دو فرضیه شکل می گیرد:

1- محصول به طور 24 ساعته در طول هر 365 روز سال در حال کار می باشد.

2- تمام محصولات از یک جامعه آماری، در یک تاریخ یکسان شروع به کار می کنند.

در نتیجه، با این که این فرمول ها می توانند برای هر محصولی به کار روند، ولی برای محصولاتی که به طور مداوم در حال کار هستند مناسب تر هستند. برای مرحله ی نصب که محصولات معمولا به طور منقطع کار می کنند، بهتر است برای محاسبه ی AFR از معادله ی دوم استفاده شود.

معادله ی دوم:

Screenshot (109)

با به کار گرفتن این فرمول، AFR محاسبه شده تنها برای زمانی که واحدها با عملیات واقعی کار می کنند، صحیح است. معادله ی 1 و 2، در واقع هر دو یک معادله هستند ولی فرضیات متفاوتی برای آن ها در نظر گرفته شده است. مثال های فرضی زیر نشان می دهند که در زمان تحلیل یک محصول با عملیات منقطع، تفاوت این دو معادله تا چه اندازه چشمگیر ست:

در یک نمونه 10000 اتومبیل وجود دارد.

در طول 2 ماه (دوره ی نمونه گیری)، داده های خرابی این نمونه جمع آوری شده است.

یک اتومبیل معمولی 400 ساعت در سال کار می کند.

در طول دو ماه، 10 اتومبیل از کار افتاده و خراب شده اند.

با معادله ی 1 داریم:

نرخ خرابی : 10 خرابی ×(52 هفته در سال/ 8 هفته در دوره ی نمونه گیری) / 10000 واحد تولید شده ₌ 0.0065 و یا 0.65%

با معادله ی 2 داریم:

با فرض آن که محصولات در یک زمان شروع به کار کرده اند^*، عمر مفید محصولات 10000 × 400 ساعت در سال ₌ 4 میلیون ساعت کارکرد کل اتومبیل‌ها و یا به عبارتی 4 میلیون /8760 ساعت در سال ₌ 457 اتومبیل در سال است.

نرخ خرابی : 10 خرابی × (52 هفته در سال/ 8 هفته در دوره ی نمونه گیری) / تجمیعی 457 اتومبیل سال ₌ 0.14 و یا 14%

* توجه شود که این فرض تنها برای ساده سازی مثال به کار رفته و در واقعیت، محصولات در طول زمان فروش رفته و در نتیجه ی آن ساعات عملکردشان نیز کاهش یافته که در نهایت به AFR بالاتر منجر می شود.

اگر مثال بالا برای یک محصول با عملکرد مداوم انجام می گرفت، دو AFR به دست آمده از هر دو معادله کاملا یکسان بود. حتی اگر فرض شروع به کار همزمان وحدها را نیز حذف می کردیم، AFR های محاسبه شده همچنان نسبتا یکسان و مشابه باقی می ماند. در نتیجه، علم به آن که آیا عملکرد محصول مداوم و یا منقطع بوده، برای انجام یک تحلیل درست بسیار حیاتی است.

گام ششم: تبدیل AFR به MTBF

تبدیل AFR به MTBF راحت ترین گام در این فرایند بوده که غالبا مورد سوتعبیر و اشتباه قرار می گیرد. تنها در صورت فرض نرخ خرابی ثابت است که این تبدیل صورت گرفته از طریق فرمول زیر، صحیح است.

معادله ی سوم:

Screenshot (110)

نمونه های محاسبه ی MTBF با استفاده از فرایندهای اندازه گیری AFR:

مثال های فرضی زیر به نمایش بهتر کل این فرایند کم می کند:

گام 1: جامعه ی آماری مشخص شده شامل تمام سیستم های UPS های 15kVA ازبرند “X” بوده که در سال 2003 از هفته ی 36ام تا هفته ی 47ام تولید شده اند. (یعنی از 1 ماه سپتامبر تا 21 ماه نوامبر). در این گستره ی زمانی تولید 12 هفته ای، جامعه ی آماری شامل 2000 واحد UPS است.

گام2: گستره ی نمونه گیری در 2 ماه فبریه آغاز شده و تا 16 ماه ژوئیه ادامه داشته و پایان می گیرد. (یک گستره ی زمانی 24 هفته ای). در این دوره یک تاخیر 10 هفته ای برای موجودی و توزیع محصول در نظر گرفته شده است.

گام3: “خرابی” به عنوان افت در مصرف که ممکن است به هر دلیلی شامل خطاهای انسانی نیز بخ وجود آمده باشد، تعریف می شود.

گام4: در طول دوره ی نمونه گیری، 20 خرابی گزارش شد. در میان این 20 مورد، 9 خرابی به عنوان افت در مصرف حیاتی تعیین شده و 11 مورد دیگر غیر حیاتی بوده است. در نتیجه، با توجه به معنای تعیین شده برای خرابی واحدها در گام 3، تعداد خرابی ها در محاسبات پیش رو 9 در نظر گرفته می شود. محصولات از کار افتاده و خراب، دریافت شده ، مشکل تشخیص داده شده و پیش از محاسبه ی AFR تعمیر شده اند.

گام5:

Screenshot (111)

در بیشتر مواقع، مقدار MTBF بدون آن که داده های اصولی جمع آوری و بررسی شده باشد، تنها از طریق فروشنگان اعلام می شود. همان طور که پیشتر مطرح شد، زمان کار با اعداد MTBF (و یا اعداد AFR)، بسیار مهم است که پیش فرض ها و متیغرهای در نظر گرفته شده در تحلیل ها و مشخصا تعریف وضعیت “خرابی” را دانسته و درک کنیم. زمانی که بدون درک این عوامل مقایسه ای انجام شود، ریسک بروز نتایج مغرضانه و جانبدارانه در مقایسه ها افزایش یافته و واریانس مورد انتظار ممکن است تا 500% و یا حتی بیشتر نیز برسد. این امر در نهایت ممکن است به هزینه های غیر ضروری در کسب و کار و حتی از کار افتادگی های غیر قابل انتظار بیانجامد.

در کل، هرگز نباید بدون یک تعریف شفاف و واضح از متغیرها، پیش فرض ها و تعریف “خرابی” ، مقادیر MTBF را بین دو و یا تعداد بیشتری سیستم مقایسه کرد. حتی در شرایطی که مقادیر MTBF مشابه یکدیگر بوده نیز ریسک مقایسه های جانبدارانه وجود دارد. در نتیجه، برای مقایسه، باید تنها به مقادیر MTBF بسنده نکرده و آنچه که در محاسبه ی این مقادیر به کار رفته را نیز تشریح و درک کرد.

در ادامه، هر متغیر و تاثیرش بر نتایج مورد بررسی قرار گرفته است. به عنوان یک ابزار کاربردی رد مقایسه بین دو یا چند سیستم، یک چک لیست در پیوست آورده شده است. زمانی که چک بیست تکمیل شد، می بایست مورد بازبینی قرار گرفته تا متغیرهایی که در سیستم ها متفاوتند، شناسایی گردند. با تحلیل های دقیق هر یک از این تفاوت ها و تاثیرشان بر MTBF ، می توان اطمینان یافت که آیا مقایسه ای عادلانه که بعدها به عنوان یک ورودی کلیدی در مشخصات محصول و یا تصمیم به خرید آن محصول عمل خواهد کرد، صورت می گیرد یا خیر.

کارکرد، کاربرد و محدوده ی محصول

پیش از آن که به مقایسه ی دو یا چند مقدار MTBF اقدام شود، ابتدا باید تشخیص داد که آیا دو محصول مورد مقایسه مشابه یکدیگر هستند و یا خیر. این محصولات مورد مقایسه، می بایست از نظر کارکرد، توانایی و کاربرد مشابه یکدیگر باشند. اگر محصول مورد نظر یک UPS باشد، کارکرد محصول تامین برق جایگزین در مصارف برق متصل به خود است. کاربرد آن نیز پشتیبانی از مصارف حیاتی IT برق در محیط یک مرکز داده می باشد. بدون کاربردهای مشابه، یک مقایسه ی عادلانه در مقادیر MTBF امکان پذیر نیست. به طور مثال، مقایسه ی یک UPS که برای مصارف صنعتی طراحی شده با UPS دیگری که برای مصارف IT طراحی شده، غیرواقعی خواهد بود.

مهم تر از همه آن که محدوده ی سیستم هایی که مقدار MTBF آن ها مورد مقایسه است نیز باید یکسان باشد. اگر آنچه که در هر سیستم شامل شده و یا نشده است، متفاوت از سیستم دیگر باشد، یک مقایسه ی جانبدارانه صورت می گیرد. یک سیستم UPS را در نظر بگیرید که دارای باتری های بیرونی است. برخی از فروشندگان ممکن است هر نوع خرابی حاصل از این باتری های خارج از دستگاه را از آن جا که به نوعی خارج از سیستم قرار گرفته، در محاسبات خود در نظر نگیرند.

برخی دیگر ولی ممکن است از آن جا که این باتری ها یک عضو اساسی ار عملکرد سیستم هستند، خرابی های باتری را نیز در محاسبات خود وارد کنند. در شکل 2 این مثال نمایش داده شده است. دیگر اجزایی که ممکن است به یک محدوده ی غیر ثابت منجر شود شامل مدارشکن ورودی و خرجی، سیستم های موازی، فیوز و سیستم کنترل است. مشتریان باید در مورد زیرسیستم ها و یا اجزایی که در محاسبات MTBF فروشندگان در نظر گرفته شده، از فروشندگان سوال کرده و تصور نکنند که تمام فروشندگان مسائل را به یک روش و مابه یکدیگر تعریف می کنند.

شکل 2: مقایسه ی محدوده برای یک سیستم UPS

پیش فرض نرخ ثابت خرابی

در روش اندازه گیری داده های میدانی برای اعتبار و درستی محاسبه ی AFR و MTBF ، نرخ خرابی محصول مورد تحلیل و بررسی باید یک نرخ ثابت در نظر گرفته شود. همچنین بنا بر نوع محصول مورد مقایسه، منطقی و مستدل بودن این پیش فرض بسیار اهمیت دارد. در مورد سیستم های الکترونیکی و اجزای آن، این پیش فرض کلی و پذیرفته شده است. آیا محصولات در این گروه می گنجند؟ اگر این پیش فرض برای محصول صادق نباشد، مقادیر محاسبه شده نمی توانند نشانگر خرابی های مورد انتظار باشند که این، احتمال انجام یک مقایسه ی عادلانه را بسیار کاهش می دهد.

سایز جامعه ی آماری

زمانی که از مشابه بودن محصول و کاربرد آن ها اطمینان حاصل شد، باد نگاهی بر فرایند جمع آوری داده هایمیدانی داشت. تعیین سایز جامعه ی آماری(تعداد واحدهای تولید شده) اولین متغیر حیاتی به شمار می رود. چنانچه سایز این جامعه برای محصول در نظر گرفته شده، بسیار کوچک باشد، تخمین های نهایی MTBF بی فایده است. در نتیجه، در مقایسه ی مقادیر MTBF ، باید از این که هر مقدار بر اساس یک جامعه با تعداد کافی محاسبه شده است، اطمینان یافت.

اگرچه نرخ تولید محصولات مورد مقایسه ممکن است متغیر باشد، ولی نکته ی مهم تعداد وحدهای تولید شده در هر جامعه آماری است. اگر یک محصول با نرخ پایین تری تولید شود، چهارچوب زمانی اختصاص داده شده برای تولید باید طولانی تر بوده تا به حجم مورد نیاز از جامعه دست یافت. به طور مثال، سازنده ی A 1000واحد از محصول را در یک ماه تولید کرده در حالی که سازنده ی B 50 واحد از محصول مشابه را در یک ماه تولید می کند.سازنده ی B باید چند ماه را برای تولید در جهت رسیدن به جامعه ی آماری مورد نیاز در نظر گیرد در حالی که تنها یک ماه برای سازنده ی A یک ماه کافی خواهد بود.

فاصله ی زمانی بین تاریخ تولید جامعه ی آماری و شروع دوره ی نمونه گیری

چنانچه بین تاریخ پایان تولید محصول و تاریخ شروع دوره ی نمونه گیری، فاصله ی زمانی کافی در نظر گرفته نشود، مقادیر AFR و MTBF ممکن است به طور نادرستی بیان شوند. سازنده ی هر سیستم مورد مقایسه، باید زمان کافی به این جامعه ی آماری اختصاص داده تا پیش از شروع جمع آوری داده های خرابی، محصول از انبار موجودی گذشته و توزیع شود.

به طور مثال، اگر یک محصول مشخص به طور کلی یک ماه را در انبار موجودی گذرانده و سپس به مرحله ی توزیع که یک ماه زمان می برد، برسد، حداق زمان لازم پیش از شروع اندازه گیری خرابی ها دو ماه در نظر گرفته می-شود. این زمان کلی انتظار بر اساس نوع محصول متغیر است. از آنجا که نوع محصول ها در مقایسه باید مشابه باشد، این زمان بین جامعه ی آماری و دوره ی نمونه گیری نیز باید مشابه باشد. در صورتی که یک سازنده زمان انتظار کافی در نظر نگرفته باشد و یا به کل زمان انتظار را حذف کرده باشد، احتمالا AFR سیستم کمتر از مقدار واقعی اش بوده و در مقایسه ی مقادیر باید با احتیاط عمل کرد.

دوره ی جمع آوری داده های نمونه

همان طور که در گام دوم توضیح داده شد، انتخاب دوره ی نمونه گیری مناسب در جمع آوری داده بسیار اهمیت دارد. اگر سیستم های مورد مقایسه گستره ی زمانی نمونه گیری یکسان و حجم تولید و یا فروش مشابهی داشته باشند، مقایسه ی منطقی تری صورت می گیرد. اگرچه، این امر همواره امکان پذیر نیست. زمانی که طول دوره ی نمونه گیری تغییر در میان چند سیستم تغییر کند، باید هر یک به طور مستقل مورد ارزیابی قرار گرفته و از ارائه ی نرخ خرابی دقیق و درستی از آنچه در طول زمان پیش خواهد آمد، اطمینان یافت.

هر چه حجم تولید کاهش یابد، این گستره ی زمانی باید طولانی تر شود. به طور مثال، برای سازنده ای با حجم تولید 10 واحد در ماه، جمع آوری داده های خرابی برای تنها یک ماه منطقی نمی باشد. از آنجا که حجم تولید بسیار کم بوده، چنانچه خرابی گزارش شده در یک ماه را بیانگر نرخ خرابی ماه های پیش رو در نظر بگیریم، درجه ی اطمینان محاسبات بسیار کاهش خواهد یافت.

تعریف “خرابی”

اگر تعریف “خرابی” در میان دو محصول مورد مقایسه تفاوت داشته باشد، تحلیل ها مانند قیاس بین سیب و پرتقال بوده و فاقد روند منطقی است. در نتیجه، یک کار ضروری در مقایسه ی MTBF، بررسی دقیق علت خرابی برای هر محصول است. یک سازنده در محاسبه ی MTBF چه مواردی باید به عنوان رابی در نظر گیرد؟

آیا شمارش خرابی های ناشی از به کارگیری اشتباه مشتریان درست است؟ ممکن است که فاکتورهای انسانی که مورد غفلت طراحان قرار گرفته، کاربران را به سمت به کارگیری اشتباه محصول سوق دهد.
در صنعت برق بدون وقفه، یکی از مورد توجه ترین تعاریف ارائه شده از خرابی در UPS، قطع برق خروجی از UPS است. این به آن معناست که منبع تغذیه تحت مصرف برق خارج از محدوده ی مورد قبول قرار گرفته و منجر به خاموش شدن دستگاه می شود. با این حال، آیا شمارش تعداد قطع برق به وسیله تکنسین خدمات پس از فروش شرکت نیز صحیح خواهد بود؟ آیا امکان دارد که خود طراحی محصول، عاملی باشد که احتمال بروز خرابی را در یک رویه ی پر ریسک افزایش دهد؟
اگر یک [7]LED یک کامپیوتر خراب شود، آیا با وجودی که تاثیری بر عملکرد کامپیوتر نداشته، باز هم یک خرابی به شمار می رود؟
آیا چنانچه یک محصول مصرفی که طول عمر مشخصی داشته و انتظار می رود به مرور زمان از کار بیفتد، پیش از زمان مورد انتظار از کار بیفتد، این امر یک خرابی در نظر گرفته می شود؟
آیا آسیب های وارد شده در زمان ارسلا محصول، خرابی محسوب می شود؟ این آسیب ها بیانگر روش بسته بندی ضعیف می باشند.
آیا خرابی های تکراری باید شمرده شوند؟ به عبارت دیگر، آیا خرابی هایی که در یک سیستم و با یک مشتری و یک مشکل تشخیص داده شده، به دفعات اتفاق بیفتد، باید هر بار شمرده شده و یا تنها بار اول در نظر گرفته می شود؟
آیا خرابی هایی که در زمان نصب پیش می آیند، باید به عنوان خرابی محسوب شوند؟ ممکن است تکنسین خدمات پس از فروش عامل خرابی باشد.
چنانچه مشتری قرارداد نگهداری توصیه شده را نپذیرفته و یا سیستم کنترل و نظارت را همراه محصول نخریده باشد، آیا باز هم خرابی های پیش آمده باید شمرده شوند؟
چنانچه در اثر زلزله یک ساختمان آسیب دیده و سیستم ها از کار بیفتند، آیا این به منظر حوادث طبیعی در نظر گرفته شده و یا در شمارش خرابی ها لحاظ می شود؟
آیا خرابی در یک جز مشخص از سیستم از خرابی های شمارش شده مجزاست؟ برای یک سیستم UPS، این ممکن است به معنی خرابی باتری ها و یا کلید بای پس باشد.
در یک خرابی سلسله وار که تمام سیستم های بعدی و وابسته نیز از کار خواهند افتاد، آیا خرابی هر سیستم در نظر گرفته شده و یا تنها سیستم اول که موجب خرابی در سیستم های بعدی بوده شمارش می شود؟
چنانچه بر روی یک سیستم تنظیماتی خاص اعمال شود، آیا خرابی آن سیستم برای کل جامعه ی آماری در نظر گرفته می شود؟

در تعریف واقعی خرابی که در صنعت برای محاسبه ی MTBF به کار می رود، استدلال های متعددی مورد توجه قرار می گیرد. لیست بالا تنها یک گزیده ای از آن را ارئه می دهد. با در نظر گرفتن استثناهای بسیار و متعدد در تعریف خرابی، مقدار MTBF ، سیستم را بیش از آنچه که بعدها مشتری با خرابی روبرو خواهد شد، قابل اعتماد نشان می دهد. برای ارائه ی مقدار AFR و MTBF به شرکا و مشتریان، به یک تعریف شفاف و بدون ابهام از “خرابی” نیاز است.

سه تعریف صریح و واضح عبارتند از:

نوع 0 – محصول دارای نقص و یا خرابی بوده که می بایست از عملکرد آن جلوگیری شود.

نوع 1 – عدم کارایی کل سیستم[8]

نوع 2 – عدم کارایی هر جزیی از سیستم در حالتی که ممکن است هنوز کل سیستم قادر به کار باشد.[9]

علاوه بر علم به آن که هر سازنده از کدام تعریف استفاده کرده است، لازم است بدانیم که آیا خرابی های ناشی از عوامل انسانی نیز مورد نظر قرار گرفته است و یا خیر. در مواردی که محاسبات MTBF شامل خطاهای انسانی نیز باشد، مقایسه ی اعداد MTBF دشوارتر خواهد بود. این امر ناشی از آنست که خطاهای انسانی در حالات بسیار زیادی می توانند به خرابی منجر شوند و ممکن است فروشندگان برخی از این خرابی های مرتبط با خطاز انسانی را حذف کرده باشند. در نتیجه اگر تمام فروشندگان در حذف این موارد یکسان عمل نکرده و اعمال سلیقه کرده باشند، مقایسه ی سیستم می تواند بحث برانگیز باشد.

برای بهتر نشان دادن آثار این نکته، مثال برند “X” که پیشتر مطرح شد، مجددا بررسی می شود. در جدول 1، مقایسه ی مقادیر MTBF در حالتی که تعاریف مختلفی از خرابی مورد نظر بوده، آورده شده است. سیستم “A” محصولی از برند”X” بوده در حالتی که خرابی ها، به عنوان خرابی های حیاتی (نوع 1) در نظر گرفته شده که شامل تمام خطاهای انسانی و خرابی در اجزای مصرفی نیز می باشد. سیستم “B” نیز از همان برند “X” بوده و خرابی ها با همان تعریف نوع 1 مطرح شده، ولی با این تفاوت که در اینجا خرابی ناشی از خطای انسانی، خرابی های سلسله وار و خرابی در قطعات مصرفی در نظر گرفته نشده است.

با توجه به ماهیت فرمول محاسبه ی MTBF ، تفاوت در حتی یک خرابی در دوره ی نمونه گیری نیز می تواند تاثیر قابل ملاحظهایی بر نتایج MTBF بگذارد.

در این مثال، یک تفاوت به اندازه ی 5 خرابی سیستم (9 خرابی برای سیستم A و 4 خرابی برای سیستم B) مشاهده شده و در نتیجه، MTBF تا 125% متفاوت بوده است. تعریف خرابی به سادگی و در بسیاری از موارد مورد سوتعبیر بوده و همان طور که در مثال نشان داده شد، مرز اصلی در مقایسه ی درست و نادرست است. برای دریافت اطلاعات بیشتر در زمینه ی ابزارهای به کار رفته در محاسبه ی مقادیر در این مقایسه، با آدرس ایمیل datacenter@schneider-ITB.ir تماس بگیرید.

جدول 1: مثالی از مقایسه ی مقادیر MTBF با تعاریف متفاوت از خرابی

Screenshot (112)

جهت کاهش اثر این عدم ثبات مشاهده شده، شرکت اشنایدر الکتریک با توجه به تجارب موفق پیشین، راه کاری در تعیین آنچه که باید در مقدار MTBF در نظر گرفته شده و یا حذف شود، پیشنهاد می کند.

این گزارش از تجارب موفق بر اساس هدف اطلاع رسانی از تمام خرابی های منطقی به مشتریان بنا شده است. این خرابی ها باید شامل تمام مواردی باشد که سازنده می تواند تحت کنترل خود داشته باشد. به طور مثال، اگر تکنسین خدمات پس از فروش باعث خرابی بوده، از آنجا که خود سازنده مسئول خرابی به وجود آمده است، MTBF نیز باید بیانگر این موضوع باشد.

از سوی دیگر، در حالتی که مشتری یک تکنسین خدماتی تایید نشده را از طرف یک شرکت ثالث استخدام کرده و این تکنسین موجب بروز خرابی شود، در این صورت از آنجا که این خرابی از کنترل سازنده خارج است، بازتاب آن نیز در MTBF دیده نخواهد شد. چک لیست آورده شده در پیوست در مورد تعریف مورد قبول در این پزارش از تجارب موفق ارائه شده، توضیح می دهد.

این راهکار در تعریف خرابی باید هر گاه که امکان پذیر باشد، در مقایسه ی محصولات فروشندگان به کارگرفته شود. در صورتی که یک سازنده تنها قادر به پذیرش تنها یک زیرمجموعه از این تعریف باشد، باید سازنده ی دیگر را نیز واداشت تا همان زیرمجموعه را به کارگیرد. باز هم تاکید می شود که این ثبات در متغیرها برای دستیابی به یک مقایسه ی عادلانه ضروری است. اگرچه، ممکن است در نهایت یک مقایسه ی عادلانه حاصل شود، ولی باز هم بازتاب مناسبی از واقعیت نخواهد داشت. هرچه این زیرمجموعه ی در نظر گرفته شده توسط سازنده کوچک تر بوده، مقدار MTBF به دست آمده از واقعیت دورتر خواهد بود.

فاصله ی زمانی بین پایان دوره ی نمونه گیری و تاریخ محاسبه ی ARF

اگر یک سازنده قادر باشد تمام محصولات با خرابی های گزارش شده را دریافت کرده، مشکل را تشخیص داده و تعمیر کنند، می تواند بلافاصله AFR را محاسبه کند. در واقع، در مورد محصولات با ابعاد کوچک تر که تشخیص مشکل و تعمیر آن در همان محل مشتری صورت می گیرد، این امر امکان پذیر است. ولی در مورد محصولات با ابعاد بزرگ که می بایست به تولید کننده بازگشت داده شود، مکن است این امکان وجود نداشته باشد. در مقایسه ی MTBF بین دو نوع محصول مشابه، تاخیر پیشامده بین پایان دوره ی نمونه گیری و تاریخ محاسبه ی AFR نیز باید بین دو محصول مشابه باشد.

به طور مثال، فرض می کنیم سازنده ی A ، AFR را پس از گذشت یک ماه از پایان دوره ی نمونه گیری محاسبه کرده و سازنده ی B پس از چهار ماه به محاسبه ی AFR می پردازد. چنانچه محصول ابعاد بزرگی داشته، سازنده ی A به احتمال زیاد AFR مطلوب تری را گزارش خواهد داد. این امر ناشی از آنست که بعضی از محصولات خراب (که هنوز به دست سازنده نرسیده، عدم تشخیص مشکل و عدم تعمیر) در شمارش برای محاسبه ی AFR در نظر گرفته نمی شوند.

البته صرفا در شرایطی این تفاوت بازه زمانی قابل خواهد بود که تمام تولید کننده ها، تجهیزات تعمیر نشده را با عمر مفید و کارکرد یکسانی نسبت به تجهزات پیشاپیش تعمیر شده فرض کرده و بیشتر تجهیزات برگشتی به موقع دریافت ، تشخیص و رفع عیب شده باشند.

فرایندهای مکتوب برای جمع آوری و تحلیل داده ها

جهت ارزیابی قابلیت اعتماد در مقایسه ی MTBF ، درک فرایندی که هر سازنده در جمع آوری و تحلیل داده ها دنبال می کند، ضروری است. برای اجرای یک برنامه ی کنترل کیفیت موثر داشتن یک فرایند مکتوب و به وضوح توضیح داده شده حائز اهمیت است. این برنامه به اطمینان از ثبات و دقت در طول اجرای گام های تحلیل می انجامد. در ادامه سه مثال از مشکلات این فرایندها آورده شده که باید مورد توجه قرار گیرند. زمانی که این مشکلات و یا مشکلات دیگری پیش بیاید، تاثیرشان بر تخمین MTBF (و نهایتا بر مقایسه) باید با دقت مورد بررسی قرار گیرد.

یک سازنده نمی تواند داده های سرتاسر جهان را با دقت پیگیری کند چرا که مناطق مختلف جهان، از سیستم های پیگیری و یا سیستم های ذخیره سازی مختلفی برای داده های خرابی و تعمیرات استفاده می کنند. داده های مفقوده و یا نادرست ممکن است به بروز خطا در تخمین های AFR در واحدهای فروخته شده در جهان ختم شود.
یک سازنده ممکن است یک فرایند شفاف و معین برای دسته بندی واحدهای برگشتی نداشته باشد. اگر محصولات استفاده نشده و باز نشده که با استرداد وجه برگشت داد شده اند نیز جزو برگشتی های ناشی از خرابی دسته بندی شوند، AFR محاسبه شده بیشتر از مقدار واقعی خواهد بود.
سیستم پیگیری یک سازنده ممکن است شدیدا به طور دستی عمل کرده و کنترل شود. داشتن فرایندهای انسانی بیشتر، به بروز محدوده ای از خطاهای احتمالی در داده ها و نهایتا نیز در محاسبات AFR منجر می شود. هرچه فرایندها اتومات و خودکارتر صورت گرفته، در کل نتایج دقیق تری به دست می آید. یک مثال از اتوماسیون را می توان در اسکن کردن شماره سریال ها به جای تایپ دستی این اعدا در سیستم مشاهده کرد.

فرمول AFR به کار رفته در محاسبات

بسته به محصول، فرمول به کار رفته برای AFR (معادله ی 1 یا 2) توسط هر سازنده می تواند به بی اعتبار شدن مقایسه های MTBF ختم شود. برای مقایسه ی محصولاتی که (زمانی که در مکان مورد نظر نصب شدند) به طور مداوم عمل می کنند، هر دو فرمول می تواند به کار گرفته شود، ولی در مورد محصولات با عملکرد منقطع، تنها با استفاده از معادله ی 2، مقایسه اعتبار و صحت دارد. جدول 2 ثابت می کند که در چه سناریوهایی یک مقایسه ی قابل اطمینان انجام می پذیرد.

جدول 2: جدول مقایسه ی معادله ی AFR

Screenshot (116) تعداد ساعات در طول یک سال

تنها با فرض ثابت بودن نرخ خرابی می توان AFR را به MTBF تبدیل کرد. در این حالت، معادله ی 3 به کار گرفته می شود ولی باید صحت آن که تمام سیستم های تحت مقایسه، تعداد یکسانی ساعت در طول یک سال کار می کنند را بررسی کرد. به طور مثال، برخی از فروشندگان از 8000 ساعت در سال برای کار استفاده کرده درحالی که برخی دیگر از 8760 ساعت دقیق استفاده می کنند.

تصمیمات حیاتی در پی MTBF

در حالی که MTBF ، بک ابزار مفید تصمیم گیری برای مشخصات و انتخاب محصول (زمانی که روش ها، متغیرها و پیش فرض ها برای سیستم ها مشابه باشد)، محسوب می شود، ولی این مقدار هرگز تنها معیار در تصمیم گیری نیست. معیارهای بسیار دیگری وجود داشته که زمان ارزیابی محصولات از فروشندگان مختلف، باید در نظر گرفته شوند. به طور مثال، فرایندهای کنترل کیفیت کلی فروشندگان چقدر موثر است؟ فروشندگان در چه حجمی و در چه محیطی به تولید محصول می پردازند؟ آیا دارای گواهینامه ی ISO9000 هستند؟ این پرسش ها، از استانداردسازی فرایندهای بهینه سازی کیفیت و قابلیت اطمینان دلالت دارند. هر محصول تا چه حد با نیازهای کاربران همخوانی دارند؟

استانداردسازی شامل انعطاف پذیری و یا مدولار بودن محصول، توانایی بهبود سریع از خرابی (MTTR) و هزینه ی کلی مالکیت (TCO) برای یک محصول(برای بررسی اهمیت TCO، به گزارش “تعیین هزینه ی کلی مالکیت برای زیرساخت های مرکز داده و اتاق شبکه”[10] مراجعه شود) می شود. از دیگر ابزارهای مقایسه می توان به توجه به منابع و ارزیابی های مشتری اشاره داشت. در انتها، با یک ارزیابی بی طرفانه ی دو یا چند سیستم از طرف یک فرد ثالث که ذینفع نیست، می توان از مشخصات بهینه ی محصول و تصمیم خرید مطلوب تری اطینان حاصل کرد.

نتیجه گیری

در مقایسه ی محصولات متعدد، MTBF معمولا یک معیار کلیدی در تصمیم گیری به شمار می رود. اگرچه، در کنار هم قرار دادن این مقادیر توجه بیشتری باید لحاظ شود. در ابتدا، روش پیش بینی مقادیر MTBF باید یکسان باشد. علاوه بر آن، متغیرها و پیش فرض های بسیاری در طول فرایند محاسبه و تحلیل داده های میدانی به کار گرفته شده و هر یک از آنان تاثیر چشمگیری بر نتایج خواهد داشت. یک مقایسه ی عادلانه تنها در صورت سازمان دهی این متغیرها، امکان پذیر است. در واقعیت، این متغیرها و پیش فرض ها یکسان نیستند. چک لیست آورده شده در پیوست، به تشخیص شباهت این عوامل در میان دو سیستم کمک می کند. محسبه گر آنلاین MTBF به کمی سازی تاثیر متغیرهای حیاتی بر مقادیر MTBF کمک می کند.

با اصول بنا شده در این مقاله، MTBF اکنون می توانند به طور عادلانه و منطقی مقایسه شوند. زمانی که پیش فرض ها و متغیرهای مشابه به کارگرفته شده و تعریف یکسانی از خرابی ارائه شود، درجه ی قبل قبول و منطقی از قابلیت اطمینان در مقایسه مشاهده می شود.

[1] – Mean time between failures

[2] – White Paper 78, Mean Time Between Failure: Explanation and Standards

[3] – annual failure rate

[4] – bathtub curve

[5] – Annualized failure rate

[6] – Diagnosis delay.

[7] – Light Emitting Diode

[8] – IEC-50

[9] – IEC-50

[10] – White Paper 6, Determining Total Cost of Ownership for Data Center and Network Room Infrastructure for discussion on the importance of TCO