On 20 أكتوبر 2025عانت شركة Amazon Web Services (AWS) - أكبر مزود للخدمات السحابية في العالم - من انقطاع كبير في منطقة US-EAST-1 (شمال فرجينيا) أدى ذلك إلى تعطيل الخدمات عالميًا لما يقرب من 24 ساعة. وقد أبرز هذا الحدث الاعتماد الحاسم للبنية التحتية للإنترنت الحديثة على مزود سحابي واحد، وأعاد إحياء النقاشات حول المرونة والتكرار واستراتيجيات السحابة المتعددة.
نظرة عامة على الحادث
الحدث: زيادة معدلات الأخطاء وفترات الاستجابة
المنطقة: الطريق السريع الأمريكي الشرقي 1 (شمال فرجينيا)
المدة: 19 أكتوبر، الساعة 11:49 مساءً – 20 أكتوبر، الساعة 3:01 مساءً (بتوقيت المحيط الهادئ)
الخطورة: تعطلت
السبب الجذري الأساسي: فشل حل DNS في نقطة نهاية DynamoDB
الخدمات المتأثرة: أكثر من 140 خدمة AWS بما في ذلك EC2 وLambda وS3 وDynamoDB وCloudWatch وRedshift والمزيد.
الجدول الزمني وتحليل السبب الجذري
بدأ الانقطاع في وقت متأخر من يوم 19 أكتوبر 2025عندما اكتشف المهندسون زيادة في معدلات الأخطاء عبر خدمات AWS المتعددة. أشارت التحقيقات الأولية إلى الأمازون DynamoDB، خدمة قاعدة بيانات أساسية تُشغّل العديد من التطبيقات الداخلية وتطبيقات العملاء. بواسطة 12: 26 AM PDTحددت AWS أن المشكلة نابعة من تحديث DNS خاطئ مما أدى إلى تعطيل حل نقاط النهاية - مما أدى فعليًا إلى كسر "دليل الهاتف" الذي يوجه الخدمات إلى وجهاتها.
أدى فشل DNS إلى حدوث سلسلة من أخطاء النظام التابعة:
- إطلاق مثيل EC2 تم إيقافه بسبب تبعيات DynamoDB.
- فحوصات صحة موازن تحميل الشبكة فشلت، مما تسبب في فقدان الاتصال عبر الخدمات مثل Lambda وSQS وCloudWatch.
- تحديثات IAM و جداول DynamoDB العالمية كما عانت أيضًا من التأخير بسبب الاعتماد على المنطقة المتضررة.
طبّق مهندسو AWS إجراءات تخفيفية بالتوازي: مسح ذاكرة التخزين المؤقت لنظام أسماء النطاقات (DNS)، وتقييد إطلاقات مثيلات EC2، واستعادة اتصال الشبكة تدريجيًا. 2: 24 AM PDTتم حل مشكلة DNS الأساسية، لكن مشاكل الشبكة ونظام EC2 الفرعي استمرت حتى الصباح. نظام فرعي لصحة موازن تحميل الشبكة تم استرداده بالكامل بواسطة 9: 38 AM PDT، مع تطبيع الخدمة النهائي في 3:01 مساءً بتوقيت المحيط الهادئ الصيفي.
نطاق التأثير
كان التأثير واسع النطاق، إذ أثر على خدمات المؤسسات ومنصات المستهلكين الشائعة حول العالم. أكثر من 140 خدمة AWS كانت معوقة، بما في ذلك:
- الحوسبة والشبكات: EC2، ECS، EKS، موازنة التحميل المرنة
- البيانات والتخزين: DynamoDB، S3، RDS، Redshift، ElastiCache
- بدون خادم: Lambda، EventBridge، SQS، وظائف الخطوة
- الأمن والإدارة: IAM، منظمات AWS، CloudTrail، التكوين
- ادوات المطورين: بناء الكود، التضخيم، AppSync، CloudFormation
تجاوز نطاق الانقطاع عملاء AWS. منصات عالمية مثل سناب شات، فورتنايت، روبلوكس، كوين بيس، فينمو، وحتى خدمات Prime Video وRing التابعة لشركة Amazon شهدت مؤسسات مالية مثل لويدز وهاليفاكس انقطاعات. أبلغت مؤسسات مالية مثل لويدز وهاليفاكس عن مشاكل في تسجيل الدخول، وتوقفت البوابات الحكومية مؤقتًا عن العمل. مع احتفاظ AWS بما يقارب 33% من حصة سوق البنية التحتية السحابية العالميةوكان التأثير المتتالي لهذا الحدث غير مسبوق.
دروس في الاعتماد على السحابة
يوضح هذا الحادث تحديًا رئيسيًا في بنية السحابة الحديثة: الاعتماد على منطقة واحدةعلى الرغم من تصميم AWS متعدد مناطق التوفر، إلا أن العديد من الأنظمة العالمية تظل مرتكزة على المستوى الإقليمي - وخاصةً الولايات المتحدة-شرق-1، الذي يستضيف العديد من نقاط نهاية واجهة برمجة التطبيقات (API) العالمية ومستوى التحكم.
ورغم عدم وجود أي هجوم إلكتروني، كشف الحدث كيف يمكن لخطأ في التكوين الداخلي في خدمة أساسية واحدة (DNS في هذه الحالة) أن ينتشر عبر الأنظمة التابعة، مما يؤدي إلى شل العمليات العالمية.
RELIANOIDمنظور: تحقيق التوفر العالي الحقيقي مع GSLB
At RELIANOIDنحن نؤمن بأن المرونة في بيئات السحابة يجب أن تتجاوز التكرار داخل مزود واحد. موازنة تحميل الخادم العالمي (GSLB) يضمن الحل التوافر المستمر حتى عندما يواجه أحد مزودي الخدمات السحابية الرئيسيين أو المنطقة انقطاعًا في الخدمة.
كيفية RELIANOID تساعد شركة GSLB في منع مثل هذه الانقطاعات
- استمرارية متعددة السحابة ومتعددة المناطق: تقوم GSLB بتوزيع حركة المرور بذكاء عبر المناطق أو المزودين المستقلين (على سبيل المثال، AWS، وAzure، وGCP، والمحلي)، مما يضمن استمرارية الخدمة أثناء الأعطال الإقليمية أو على مستوى المزود.
- مراقبة الصحة في الوقت الحقيقي: تتيح عمليات فحص نقاط النهاية المستمرة إعادة توجيه حركة المرور تلقائيًا إلى العقد السليمة، مما يقلل من وقت التوقف أثناء الأحداث مثل فشل نقطة نهاية DNS أو API.
- موازنة تحميل DNS الذكية: RELIANOIDيعمل نظام GSLB القائم على DNS على حل طلبات العملاء بشكل ديناميكي إلى مراكز البيانات المثالية، مما يخفف من المخاطر المرتبطة بتكوين DNS الخاطئ أو تأخيرات الانتشار.
- التعافي من الفشل والاسترداد السلس: بفضل سياسات مثل التوزيع الدائري المرجح، والتوجيه القائم على زمن الوصول، والوعي بالموقع الجغرافي، تحافظ GSLB على اتساق الخدمة وتقلل من الانقطاع حتى في عمليات النشر المعقدة متعددة المناطق.
يُؤدي تطبيق GSLB، كجزء من استراتيجية أوسع للتوافر العالي، إلى فصل التطبيقات المهمة للأعمال عن التبعيات التشغيلية لمزود واحد. سواءً كانت المشكلة ناتجة عن حل DNS، أو فحوصات سلامة الشبكة، أو أعطال داخلية في واجهات برمجة التطبيقات، فإن GSLB يوفر آلية شفافة للتعافي التلقائي من الأعطال وضمان تجربة مستخدم مستمرة.
خاتمة
استخدم انقطاع خدمة AWS US-EAST-1 في أكتوبر 2025 يُذكرنا هذا بتذكيرٍ قوي: حتى أكثر البنى التحتية السحابية تطورًا قد تفشل. تتطلب المرونة الحقيقية استقلاليةً في البنية التحتية، وآلياتٍ استباقيةً للتعافي من الأعطال، وموازنةً ذكيةً للأحمال العالمية.
RELIANOIDتوفر منصة GSLB من شركة GSLB هذه المرونة - مما يساعد المؤسسات على ضمان التشغيل المستمر والموثوقية والثقة، بغض النظر عن مكان نشوء الاضطراب التالي.
تعرف على المزيد حول GSLB واستراتيجيات التوفر العالي.