ازکارافتادگی خدمات مرکزدادهای فیسبوک چگونه رخ داد و چرا طول کشید
شرکت فیسبوک دربارهٔ قطعی هفتساعتهٔ روز دوشنبه که در پی آن همهٔ خدمات مرکزدادهای این شرکت از جمله واتساپ و اینستاگرام و فیسبوک از کار افتادند، اطلاعاتی منتشر کرد. این اطلاعات نشان میدهد چگونه سیستمی که برای جلوگیری از مشکلات طراحی شده بود، موجب این ازکارافتادگی شد. از سویی کارکنان فیسبوک در هنگام این خرابی نمیتوانستند بهشکل معمول برای ورود به تأسیسات، از سیستمهای امنیت فیزیکی عبور کنند که وضعیت را دشوارتر کرده بود.
آقای سانتوش جاناردان (Santosh Janardhan) معاون زیرساخت فیسبوک، حادثه را در وبلاگ چنین شرح داده است:
هنگام نگهداری و تعمیر معمولِ ستون فقرات شبکهٔ جهانیِ (Backbone Network) فیسبوک، «برای ارزیابی پایاییِ (Availability) ظرفیت آن، فرمانی صادر شد که ناخواسته همهٔ اتصالات ستون فقرات شبکه را قطع کرد و موجب قطعشدن اتصال همهٔ مراکزدادهٔ فیسبوک در جهان شد. سیستمهای ما طوری طراحی شدهاند که جلوی این اشتباههای ناشی از فرمان را بگیرند؛ اما در ابزار نظارت (Audit) خطایی وجود داشت که جلوی فرمان نادرست را نگرفت.» این فرمان باعث شد اتصال سرورهای مراکزدادهٔ فیسبوک با اینترنت بهکلی قطع شود. «قطعشدن کامل اتصالات باعث مشکل دومی شد که وضع را بدتر کرد.»
او توضیح داد: «یکی از وظایفی که تأسیسات کوچکتر ما انجام میدهند، پاسخ به پرسوجوها یا همان کوئریهای DNS است. DNS در واقع دفتر نشانیهای اینترنتی است که نشانی وبسایتهایی را که در مرورگر مینویسیم، به IP تبدیل میکند. ما «سرو نامهای» (Name Servers) معتبری داریم که به درخواست تبدیل آن پرسوجوها پاسخ میدهند. این سرورها خودشان نشانی IP دارند که با پروتکل دروازهای مرزی (BGP) در بقیهٔ اینترنت تبلیغ میشوند.» اگر تبلیغات BGP خودشان نتوانند با مراکزداده ارتباط برقرار کنند، سرورهای DNS فیسبوک آنها را غیرفعال میکنند؛ زیرا این نشاندهندهٔ اتصال ناسالم شبکه است. در این ازکارافتادگی، چون همهٔ ستون فقرات شبکه ناسالم به نظر میرسید، تبلیغات BGP حذف شد. آقای جاناردان میگوید: «نتیجه اینکه خودِ سرورهای DNS از دسترس خارج شدند، حتی اگر همچنان عملیاتی بودند. این وضعیت باعث شد بقیهٔ اینترنت نتوانند سرورهای ما را پیدا کنند.»
شرکت میگوید رخدادن این ترکیب از خرابیها بسیار سریع بود. مهندسان نیز نتوانستند بهشکل معمول به مراکزدادهٔ فیسبوک دسترسی داشته باشند؛ چون شبکه از کار افتاده بود و تمام DNSها قطع بودند. آنها نمیتوانستند از بسیاری از ابزارهای داخلی استفاده کنند که معمولا برای بررسی و رفع ازکارافتادگیهای اینچنینی به کار میروند.
فیسبوک مهندسانش را به مراکزداده فرستاد؛ ولی واردشدن به تأسیسات حساس، در وضعیت ازکارافتادن سیستمها زمانبر بود. جاناردان میگوید: «واردشدن به تأسیسات ما سخت است. از این گذشته، طراحی سختافزارها و روترها طوری است که تغییردادنشان دشوار است؛ حتی اگر دسترسی بهشکل فیزیکی باشد. بنابراین برای بهکارانداختن رویههای دسترسی ایمن، زمان بیشتری طول کشید. اجرای این رویهها برای به تأسیسات آوردن کارشناسان و آمادهکردنشان برای کار با سرورها ضرورت دارد.»
«هنگامی هم که سرانجام ستون فقرات شبکه تعمیر و آمادهٔ راهاندازی شد، کارشناسان میترسیدند که پس از اتصال، موج اولیهٔ ترافیک شبکه آن را دوباره از کار بیندازد. گزارش جداگانهٔ هریک از مراکزداده در مدت خرابی نشان میداد مصرف برق تأسیسات دهها مگاوات کاهش یافته است. پس از بهکارافتادن دوباره، این وضعیت برعکس میشد. پس از آن کاهش، چنین افزایش مصرفی به همهچیز آسیب میزد؛ از سیستمهای الکتریکی گرفته تا حافظههای نهان (Cache).» اینجا شرکت بهشیوهٔ تمرینهای توفانِ (Storm Drills) خودش عمل کرد که بر پایهٔ آن برای جلوگیری از قطعی بزرگ، باید پلتفرم را بهآرامی به اینترنت بازگردانند تا حادثهٔ دیگری رخ ندهد.
جاناردان میگوید: «ما سخت کار کردهایم تا سیستممان مقاوم باشد و از دسترسیهای غیرمجاز جلوگیری کرده باشیم. در این حادثه جالب بود که دیدیم آن مقاومکردنِ سیستم چگونه سرعت تلاش ما را برای برطرفکردن ازکارافتادگی کند کرد؛ آنهم اشکالی که دلیلش خرابکاری نبود. من معتقدم امنیت روزافزونی که فراهم میکنیم، به این کندشدنِ بازیابی پس از ازکارافتادگی میارزد. البته که امیدواریم چنین رویدادی نادر باشد.»
تهیهشده در باشگاه مراکزداده. منبع:
مطالعهٔ خبر:
ـ نسل جدید مدیریت مرکزداده بهکمک تجزیهوتحلیل و رایانش ابری بهینه میشود
درج دیدگاه