اخبار

ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

ازکارافتادگی خدمات مرکز داده ای فیس‌بوک چگونه رخ داد و چرا طول کشید
ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

شرکت فیس‌بوک دربارهٔ قطعی هفت‌ساعتهٔ روز دوشنبه که در پی آن همهٔ خدمات مرکزداده‌ای این شرکت از جمله واتس‌اپ و اینستاگرام و فیس‌بوک از کار افتادند، اطلاعاتی منتشر کرد. این اطلاعات نشان می‌دهد چگونه سیستمی که برای جلوگیری از مشکلات طراحی شده بود، موجب این ازکارافتادگی شد. از سویی کارکنان فیس‌بوک در هنگام این خرابی نمی‌توانستند به‌شکل معمول برای ورود به تأسیسات، از سیستم‌های امنیت فیزیکی عبور کنند که وضعیت را دشوارتر کرده بود.

آقای سانتوش جاناردان (Santosh Janardhan) معاون زیرساخت فیس‌بوک، حادثه را در وبلاگ چنین شرح داده است:

ازکارافتادگی خدمات مرکز داده ای فیس‌بوک

هنگام نگهداری و تعمیر معمولِ ستون فقرات شبکهٔ جهانیِ (Backbone Network) فیس‌بوک، «برای ارزیابی پایاییِ (Availability) ظرفیت آن، فرمانی صادر شد که ناخواسته همهٔ اتصالات ستون فقرات شبکه را قطع کرد و موجب قطع‌شدن اتصال همهٔ مراکزدادهٔ فیس‌بوک در جهان شد. سیستم‌های ما طوری طراحی شده‌اند که جلوی این اشتباه‌های ناشی از فرمان را بگیرند؛ اما در ابزار نظارت (Audit) خطایی وجود داشت که جلوی فرمان نادرست را نگرفت.» این فرمان باعث شد اتصال سرورهای مراکزدادهٔ فیس‌بوک با اینترنت به‌کلی قطع شود. «قطع‌شدن کامل اتصالات باعث مشکل دومی شد که وضع را بدتر کرد.»

او توضیح داد: «یکی از وظایفی که تأسیسات کوچک‌تر ما انجام می‌دهند، پاسخ به پرس‌وجوها یا همان کوئری‌های DNS است. DNS در واقع دفتر نشانی‌های اینترنتی است که نشانی وب‌سایت‌هایی را که در مرورگر می‌‌نویسیم، به IP تبدیل می‌کند. ما «سرو نام‌های» (Name Servers) معتبری داریم که به درخواست تبدیل آن پرس‌وجوها پاسخ می‌دهند. این سرورها خودشان نشانی IP دارند که با پروتکل دروازه‌ای مرزی (BGP) در بقیهٔ اینترنت تبلیغ می‌شوند.» اگر تبلیغات ‌BGP خودشان نتوانند با مراکزداده ارتباط برقرار کنند، سرورهای DNS فیس‌بوک آن‌ها را غیرفعال می‌کنند؛ زیرا این نشان‌دهندهٔ اتصال ناسالم شبکه است. در این ازکارافتادگی، چون همهٔ ستون فقرات شبکه ناسالم به نظر می‌رسید، تبلیغات ‌BGP حذف شد. آقای جاناردان می‌گوید: «نتیجه اینکه خودِ سرورهای DNS از دسترس خارج شدند، حتی اگر همچنان عملیاتی بودند. این وضعیت باعث شد بقیهٔ اینترنت نتوانند سرورهای ما را پیدا کنند.»

شرکت می‌گوید رخ‌دادن این ترکیب از خرابی‌ها بسیار سریع بود. مهندسان نیز نتوانستند به‌‌شکل معمول به مراکزدادهٔ فیس‌بوک دسترسی داشته باشند؛ چون شبکه از کار افتاده بود و تمام DNSها قطع بودند. آن‌ها نمی‌توانستند از بسیاری از ابزارهای داخلی استفاده کنند که معمولا برای بررسی و رفع ازکارافتادگی‌های این‌چنینی به کار می‌روند.

ازکارافتادگی خدمات مرکز داده ای فیس‌بوک

فیس‌بوک مهندسانش را به مراکزداده فرستاد؛ ولی واردشدن به تأسیسات حساس، در وضعیت ازکارافتادن سیستم‌ها زمان‌‌بر بود. جاناردان می‌گوید: «واردشدن به تأسیسات ما سخت است. از این گذشته، طراحی سخت‌‌افزارها و روترها طوری است که تغییردادنشان دشوار است؛ حتی اگر دسترسی به‌‌شکل فیزیکی باشد. بنابراین برای به‌کارانداختن رویه‌های دسترسی ایمن، زمان بیشتری طول کشید. اجرای این رویه‌ها برای به تأسیسات آوردن کارشناسان و آماده‌کردنشان برای کار با سرورها ضرورت دارد.»

«هنگامی هم که سرانجام ستون فقرات شبکه تعمیر و آمادهٔ راه‌اندازی شد، کارشناسان می‌ترسیدند که پس از اتصال، موج اولیهٔ ترافیک شبکه آن را دوباره از کار بیندازد. گزارش جداگانهٔ هریک از مراکزداده در مدت خرابی نشان می‌داد مصرف برق تأسیسات ده‌ها مگاوات کاهش یافته است. پس از به‌‌کارافتادن دوباره، این وضعیت برعکس می‌شد. پس از آن کاهش، چنین افزایش مصرفی به همه‌چیز آسیب می‌زد؛ از سیستم‌‌های الکتریکی گرفته تا حافظه‌های نهان (Cache).» اینجا شرکت به‌شیوهٔ تمرین‌های توفانِ (Storm Drills) خودش عمل کرد که بر پایهٔ آن برای جلوگیری از قطعی بزرگ، باید پلت‌فرم را به‌آرامی به اینترنت بازگردانند تا حادثهٔ دیگری رخ ندهد.

جاناردان می‌گوید: «ما سخت کار کرده‌ایم تا سیستم‌مان مقاوم باشد و از دسترسی‌های غیرمجاز جلوگیری کرده باشیم. در این حادثه جالب بود که دیدیم آن مقاوم‌کردنِ سیستم چگونه سرعت تلاش ما را برای برطرف‌کردن ازکارافتادگی کند کرد؛ آن‌هم اشکالی که دلیلش خرابکاری نبود. من معتقدم امنیت روزافزونی که فراهم می‌کنیم، به این کندشدنِ بازیابی پس از ازکارافتادگی می‌ارزد. البته که امیدواریم چنین رویدادی نادر باشد.»

تهیه‌شده در باشگاه مراکزداده. منبع:

–  Facebook blames major outage on maintenance work “effectively disconnecting Facebook data centers globally”

مطالعهٔ خبر:

ـ نسل جدید مدیریت مرکزداده به‌کمک تجزیه‌وتحلیل و رایانش ابری بهینه می‌شود

درج دیدگاه

برای درج دیدگاه کلیک کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سوال امنیتی *