ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

شرکت فیس‌بوک دربارهٔ قطعی هفت‌ساعتهٔ روز دوشنبه که در پی آن همهٔ خدمات مرکزداده‌ای این شرکت از جمله واتس‌اپ و اینستاگرام و فیس‌بوک از کار افتادند، اطلاعاتی منتشر کرد. این اطلاعات نشان می‌دهد چگونه سیستمی که برای جلوگیری از مشکلات طراحی شده بود، موجب این ازکارافتادگی شد. از سویی کارکنان فیس‌بوک در هنگام این خرابی نمی‌توانستند به‌شکل معمول برای ورود به تأسیسات، از سیستم‌های امنیت فیزیکی عبور کنند که وضعیت را دشوارتر کرده بود.

آقای سانتوش جاناردان (Santosh Janardhan) معاون زیرساخت فیس‌بوک، حادثه را در وبلاگ چنین شرح داده است:

ازکارافتادگی خدمات مرکز داده ای فیس‌بوک

هنگام نگهداری و تعمیر معمولِ ستون فقرات شبکهٔ جهانیِ (Backbone Network) فیس‌بوک، «برای ارزیابی پایاییِ (Availability) ظرفیت آن، فرمانی صادر شد که ناخواسته همهٔ اتصالات ستون فقرات شبکه را قطع کرد و موجب قطع‌شدن اتصال همهٔ مراکزدادهٔ فیس‌بوک در جهان شد. سیستم‌های ما طوری طراحی شده‌اند که جلوی این اشتباه‌های ناشی از فرمان را بگیرند؛ اما در ابزار نظارت (Audit) خطایی وجود داشت که جلوی فرمان نادرست را نگرفت.» این فرمان باعث شد اتصال سرورهای مراکزدادهٔ فیس‌بوک با اینترنت به‌کلی قطع شود. «قطع‌شدن کامل اتصالات باعث مشکل دومی شد که وضع را بدتر کرد.»

او توضیح داد: «یکی از وظایفی که تأسیسات کوچک‌تر ما انجام می‌دهند، پاسخ به پرس‌وجوها یا همان کوئری‌های DNS است. DNS در واقع دفتر نشانی‌های اینترنتی است که نشانی وب‌سایت‌هایی را که در مرورگر می‌‌نویسیم، به IP تبدیل می‌کند. ما «سرو نام‌های» (Name Servers) معتبری داریم که به درخواست تبدیل آن پرس‌وجوها پاسخ می‌دهند. این سرورها خودشان نشانی IP دارند که با پروتکل دروازه‌ای مرزی (BGP) در بقیهٔ اینترنت تبلیغ می‌شوند.» اگر تبلیغات ‌BGP خودشان نتوانند با مراکزداده ارتباط برقرار کنند، سرورهای DNS فیس‌بوک آن‌ها را غیرفعال می‌کنند؛ زیرا این نشان‌دهندهٔ اتصال ناسالم شبکه است. در این ازکارافتادگی، چون همهٔ ستون فقرات شبکه ناسالم به نظر می‌رسید، تبلیغات ‌BGP حذف شد. آقای جاناردان می‌گوید: «نتیجه اینکه خودِ سرورهای DNS از دسترس خارج شدند، حتی اگر همچنان عملیاتی بودند. این وضعیت باعث شد بقیهٔ اینترنت نتوانند سرورهای ما را پیدا کنند.»

شرکت می‌گوید رخ‌دادن این ترکیب از خرابی‌ها بسیار سریع بود. مهندسان نیز نتوانستند به‌‌شکل معمول به مراکزدادهٔ فیس‌بوک دسترسی داشته باشند؛ چون شبکه از کار افتاده بود و تمام DNSها قطع بودند. آن‌ها نمی‌توانستند از بسیاری از ابزارهای داخلی استفاده کنند که معمولا برای بررسی و رفع ازکارافتادگی‌های این‌چنینی به کار می‌روند.

ازکارافتادگی خدمات مرکز داده ای فیس‌بوک

فیس‌بوک مهندسانش را به مراکزداده فرستاد؛ ولی واردشدن به تأسیسات حساس، در وضعیت ازکارافتادن سیستم‌ها زمان‌‌بر بود. جاناردان می‌گوید: «واردشدن به تأسیسات ما سخت است. از این گذشته، طراحی سخت‌‌افزارها و روترها طوری است که تغییردادنشان دشوار است؛ حتی اگر دسترسی به‌‌شکل فیزیکی باشد. بنابراین برای به‌کارانداختن رویه‌های دسترسی ایمن، زمان بیشتری طول کشید. اجرای این رویه‌ها برای به تأسیسات آوردن کارشناسان و آماده‌کردنشان برای کار با سرورها ضرورت دارد.»

«هنگامی هم که سرانجام ستون فقرات شبکه تعمیر و آمادهٔ راه‌اندازی شد، کارشناسان می‌ترسیدند که پس از اتصال، موج اولیهٔ ترافیک شبکه آن را دوباره از کار بیندازد. گزارش جداگانهٔ هریک از مراکزداده در مدت خرابی نشان می‌داد مصرف برق تأسیسات ده‌ها مگاوات کاهش یافته است. پس از به‌‌کارافتادن دوباره، این وضعیت برعکس می‌شد. پس از آن کاهش، چنین افزایش مصرفی به همه‌چیز آسیب می‌زد؛ از سیستم‌‌های الکتریکی گرفته تا حافظه‌های نهان (Cache).» اینجا شرکت به‌شیوهٔ تمرین‌های توفانِ (Storm Drills) خودش عمل کرد که بر پایهٔ آن برای جلوگیری از قطعی بزرگ، باید پلت‌فرم را به‌آرامی به اینترنت بازگردانند تا حادثهٔ دیگری رخ ندهد.

جاناردان می‌گوید: «ما سخت کار کرده‌ایم تا سیستم‌مان مقاوم باشد و از دسترسی‌های غیرمجاز جلوگیری کرده باشیم. در این حادثه جالب بود که دیدیم آن مقاوم‌کردنِ سیستم چگونه سرعت تلاش ما را برای برطرف‌کردن ازکارافتادگی کند کرد؛ آن‌هم اشکالی که دلیلش خرابکاری نبود. من معتقدم امنیت روزافزونی که فراهم می‌کنیم، به این کندشدنِ بازیابی پس از ازکارافتادگی می‌ارزد. البته که امیدواریم چنین رویدادی نادر باشد.»

تهیه‌شده در باشگاه مراکزداده. منبع:

– Facebook blames major outage on maintenance work “effectively disconnecting Facebook data centers globally”

مطالعهٔ خبر:

ـ نسل جدید مدیریت مرکزداده به‌کمک تجزیه‌وتحلیل و رایانش ابری بهینه می‌شود

تگ هاازکارافتادگی مرکزداده (Data Center Outage) امنیت سایبری (Computer Security) پایایی (Availability)

ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

ازکارافتادگی خدمات مرکزداده‌ای فیس‌بوک چگونه رخ داد و چرا طول کشید

درج دیدگاه

لغو پاسخ

وات و ولت-آمپر : دو مفهوم بسیار سردرگم‌کننده

مقایسهٔ توزیع برق متناوب (AC) و مستقیم (DC) در مرکزداده

وات و ولت‌آمپر: دو مفهوم سردرگم‌کننده

نگاهی به تعریف اطمینان‌پذیری (قابلیت اطمینان) و پایایی در مراکز داده

تجهیزات توزیع برق در فضاهای مرکز داده

سرمایش نوآورانهٔ مرکزداده با ترکیب بهره‌گیری از آب و غوطه‌وری در مایع

گزارش «دیتاسنتر هاوک» دربارهٔ وضعیت بازار مرکزداده در جهان

جهشِ توجه به داشتن برنامهٔ سازگار با محیط زیست برای زیرساخت مرکزداده

سرمایش مرکزداده با پاشیدن مایع دی‌الکتریک به تراشهٔ پردازندهٔ سرور

«کارکنان» همچنان مسئلهٔ اصلی بهره‌برداران مرکزداده

وات و ولت-آمپر : دو مفهوم بسیار سردرگم‌کننده

مقایسهٔ توزیع برق متناوب (AC) و مستقیم (DC) در مرکزداده

وات و ولت‌آمپر: دو مفهوم سردرگم‌کننده

چرا تاخیر زمانی یک دشمن برای مرکز داده است و پردازش در لبه چگونه با آن مقابله میکند؟

تکنولوژی های خنک کنندگی نوآورانه در دماهای بالاتر مراکز داده را امن نگه میدارد

ایفای نقش مرکز داده در دمای بالا