Намедни наш Rutube немного прилег. Не сам, конечно, говорят хакеры помогли, но тем не менее. И со всех сторон зазвучали критические мантры о левых руках, растущих чуть ниже спины у тамошних разрабов и ИБ-шников. Тем интереснее было посмотреть по сторонам. Наверняка же были не менее эпичные фейлы, факапы и прочие отгулы по болезни у популярных сервисов? Go!
YouTube отключился по всему миру (не раз)
В ноябре и декабре 2020 года всеми нами любимый YouTube заболел. Во время отключения у пользователей по всему миру возникли проблемы с загрузкой видео.
«Если у вас возникли проблемы с просмотром видео на YouTube прямо сейчас, вы не одиноки – наша команда знает об этой проблеме и работает над ее устранением!».
Тогда The Verge и другие западные СМИ тогда писали, что авария затронула и другие сервисы Google, использующие инфраструктуру YouTube, включая YouTube TV, фильмы и телепередачи Google TV (ранее известный как Google Play Movies & TV), а также почту и Google Диск и Документы.
При попытке воспользоваться сервисами возникало сообщение: «К сожалению, ваш аккаунт временно недоступен. Приносим извинения за неудобства». Попытки зайти в «Google Диск» также были безрезультатны: «Не удалось загрузить главную страницу «Google Диска». «Произошла ошибка. Приносим извинения за доставленные неудобства», — сообщал сервис «Google Документы».
Все это продолжалось около пяти часов. В это время график DownDetector зашкаливал от пользовательских тикетов. Многочисленные пользователи в Твиттере также сообщали о том, что YouTube и сервисы Google у них не работают. Пользователи даже запустить хештег #YouTubeDOWN, под которым все желающие могли пожаловаться на перебои в работе сайтов.
Стоит сказать, что это был далеко не первый и последний «больничный» в YouTube. В октябре 2018 года сервис пролежал около часа.
Тогда генеральный директор YouTube Сьюзен Воджицки извинилась за время простоя и поблагодарила пользователей за терпение.
«Вы были не одиноки — YouTube был закрыт примерно с 6 вечера до 7:20 вечера во вторник.
Техническая поддержка сервиса пообещала оперативно все воскресить и не обманула. Через полтора часа все заработало. О причинах сбоев тогда не сообщалось.
Стоит ли говорить, что в апреле 2021 года сбои в YouTube повторился. 26 апреля пользователи видеохостинга вновь пожаловались на масштабный сбой в работе сервиса.
Данные Downdetector вновь демонстрировали печальные значения. Хотя, справедливости ради, стоит сказать, что число пострадавших было менее 100 000 человек.
WhatsApp тап-тап
Пришла беда, отворяй ворота. Пожалуй, самым эпичным сбоем ever можно считать массовый недуг в работе Facebook, WhatsApp, Instagram и TikTok в октябре 2021 года. Тогда популярные сервисы прилегли без объявления войны по всему миру. Причем, дважды за одну неделю.
Анамнез прежний: неработоспособность сайтов и приложений ресурсов, а также с соединением с серверами. Пользователи WhatsApp также жаловались на невозможность отправить сообщения.
Среди пострадавших оказались жители России, США, Великобритании, Канады, Нидерландов, Германии, Италии, Франции и других стран.
Руководство Facebook на своей странице в Twitter написало тогда: «Нам известно, что у некоторых людей возникают проблемы с доступом к нашим приложениям и продуктам». «Мы работаем над тем, чтобы как можно быстрее вернуть все в норму, и приносим извинения за возможные неудобства».
Тогда же возникла конспирологическая теория о том, что всему виной отечественные левши из ведомства на три буквы. Но масштаб бедствия быстро разуверил даже самых матерых скептиков и конспирологов. Всему виной были заморские неведомые силы.
В самом Facebook официальной причиной сбоя назвали изменение конфигурации магистральных маршрутизаторов. Некорректная настройка серверов, которые отвечают за координацию трафика между центрами обработки данных, привела к сбоям во всех внутренних сетях компании.
На самом деле, эксперты говорят, что сбои в работе Facebook происходят довольно регулярно. Заметные проблемы возникают примерно каждые полгода. Нередко сложности случаются из-за перебоев в работе CDN.
Кстати, хороший разбор данной истории уже был на Хабре.
Дуров, верни стену (ну, а вдруг)
Увы, Telegram не стал исключением, пополнив печальную статистику неработающих сервисов в октябре 2021 года. О неполадках сообщали пользователи из России, США, Великобритании и других стран. Люди жаловались на проблемы с приложением (51%) и отправкой сообщений (15%). Еще в 34% сообщений говорилось о проблемах с подключением к серверу.
Основатель мессенджера Павел Дуров, связал возникшие неполадки с массовым сбоем Facebook, Instagram и WhatsApp, в ходе которого сервисы были недоступны по всему миру несколько часов подряд. Тогда в компании отметили единовременный приток в 70 млн пользователей.
«Рады всем новым пользователям, которые переходят из WhatsApp, однако серверам сложно справиться со всеми сразу», - написал Дуров в своем аккаунте.
Рамбле…преданья старины глубокой
Для того, чтобы не сложилось мнения, что фейлы и факапы – это тренд последних лет, вот вам история от первого лица. Ее недавно рассказал Игорь Ашманов в одном из тредиков на Роеме.
«Расскажу к случаю историю из давнего прошлого Рунета. Упрощённо, как помню. В 2000 году (или зимой 2001, не помню точно) пьяный экскаваторщик, как у них принято, перебил интернет-кабель, ведущий в ИКИ на Калужской. В то время там, кроме Рамблера, хостилась половина проектов Рунета. Вся эта половина исчезла из интернет-пространства в одно мгновение.
Или в несколько мгновений: в дата-центре ИКИ были большие ИБП, но они держали час-два всю эту ораву (стоимость ИБП зависит от времени работы чуть ли не экспоненциально). А дизель-генераторов тогда не было.
Но не Рамблер. Наши админы и разработчики бросились в ИКИ, уселись между стойками и постепенно вручную переключали питание от самых неважных проектов Рамблера к самым важным. Так что Рамблер умирал постепенно, отключились контентные проекты, потом рейтинг Тор100, потом уже отключился поиск, потом осталась только главная страница с сообщением об аварии. Этот процесс занял часа два.
Другая рамблеровская команда в это время бросилась в МЧС, нашла дизель, подогнала его на задний двор ИКИ и успела затащить кабель на седьмой этаж через окно, когда внезапно дали штатное питание по основному или резервному кабелю. После этого весь Рамблер поднялся за 30-40 минут.
А вот другие интернет-проекты — не поднялись. Кто встал через полдня, кто через сутки, кто через двое, а кто не смог опомниться и через неделю. Потому что посыпались базы данных, пользовательские кабинеты и пароли, развалились файловые таблицы на дисках, плохо настроенные рейды и т.п.
Я хочу этим сказать, что быстрый подъём интернет- сервиса после падения как ничто другое является критерием мастерства его админов».
Ашманов также дал свою оценку ситуации с Rutube, но там довольно много резких политических оценок.
Вместо заключения
К сожалению, ни один сервис не может гарантировать свою работоспособность 24\7. Однако, скорость его восстановления после аварий – отличный критерий для оценки команды того или иного сервиса. А еще, напомните, видели ли вы что-то похожее на слова «Простите» от Rutube?
Комментарии (17)
Expany
12.05.2022 14:50+9Поднять подняли, а по содержимому слитых баз, панелей и скриншотов админки с документацией по компонентам, лежащих в свиттере комментариев не будет?
TimKorDev
12.05.2022 15:11+3Справедливости ради, упомянутый сбой ФБ, инсты и вацапа был более масштабным.
Shenter
12.05.2022 16:24+10экскаваторщик перебил интернет-кабель
А дальше - ИБП, дизель-генераторы и выключенное железо. Тут либо экскаваторщик перебил не интернет-кабель, либо железо не выключилось, а просто осталось без доступа извне.
Ну или в 2000-ых питание подавалось прямо по оптике.
Ashmanov
13.05.2022 21:00Описался, обычный кабель питания, конечно. Там в тексте же видно, о чём речь.
alexgubanow
14.05.2022 23:53+1Шо за клик байт?? Поставьте тег Обсирания пост, уж тогда. Rutube потерли петабайт данных, а вы тут развели речи об аптайме. Шо за дичь???
ChuckLaud
Еще бы о ЖЖ вспомнили. То что мертво, ожить не может (с)