Представьте, что вы перенеслись в 7 августа 1996 года. Закройте глаза и вообразите мир, где напряжённость в отношениях с Россией, Китаем и Ближним Востоком высока, люди обеспокоены технологическим пузырём, а брюки-клёш снова в моде. Трудно представить, я знаю.
Откройте глаза, и вы окажетесь в 1996 году. Вероятно, вы только что вернулись с работы или учёбы, надеясь расслабиться. Возможно, вы включили что-нибудь на стереосистеме, всё ещё цепляясь за угасающую эпоху гранжа. Вы садитесь в свой скрипучий офисный стул, и вас встречает экран загрузки Windows 95. Но на этот раз, когда вы пытаетесь подключиться к America Online, вместо электронной почты, информации о популярных ситкомах или сообщения NASA о доказательствах жизни на Марсе, вы видите:
Интернет-сервис America Online был недоступен, и это продолжалось 19 часов. Сообщение затмило новость о жизни на Марсе, которая попала на первую полосу New York Times.
Технически, этот сбой не должен был быть таким уж примечательным. America Online регулярно отключался для технического обслуживания. Именно это и стало причиной сбоя. Несколько месяцев назад даже был похожий сбой в часы пик вообще не попал бы в новости (я узнал о нём только из устных сообщений, о которых расскажу позже). Почему же этот сбой попал на первую полосу?
В то время мир массово подключался к интернету. Количество пользователей сети начало стремительно расти. Моя теория заключается в том, что мы явно прошли некий переломный момент, когда интернет стал неотъемлемой частью нашей повседневной жизни. А нам, людям, очень не нравится, когда нам напоминают о хрупкости вещей, от которых мы зависим.
Как человек, работающий в области проектирования надёжности сайтов (SRE), я немного увлёкся исследованием этого сбоя. По сути, это был первый пример того, как люди за пределами отрасли осознали, насколько важно, чтобы интернет-инфраструктура продолжала работать. И именно это коллективное стремление обеспечивает мне работу.
Так какое отношение этот 30-летний сбой имеет к сегодняшнему дню? Думаю, он может многому нас научить по поводу того, как переживать подобное, каким экономическим силам мы подвержены и как современная область проектирования надёжности сайтов должна это учитывать. Эта статья — мой шанс написать более человечный анализ, который задаёт больше вопросов, чем просто пять «почему», и углубляется в нашу сложную техно-социальную реальность, которая не поддается влиянию «золотых сигналов» и SLO (метрике качества работы IT-сервиса).
Если уж я собираюсь писать анализ, то, наверное, мне следует начать с некоторых технических деталей. В современной журналистике используются только заявления представителей и экспертов, поэтому язык довольно расплывчатый. Если бы я хотел найти что-то более конкретное, мне нужно было бы поговорить с сотрудником AOL. Я нашёл на archive.org старые финансовые документы AOL, в которых перечислены все члены совета директоров, руководители и вице-президенты за 1996 год, и именно там обнаружил вице-президента по операциям: Мэтта Корна. Всё, что я смог найти, это его профиль в LinkedIn, поэтому я оформил подписку на LinkedIn Premium (и тут же отменил её), чтобы отправить ему сообщение. И он ответил!
Он прислал милое сообщение, в котором упомянул, что откопал свои старые бумажные календари 1996 года, чтобы освежить память! Чего бы я только не сделал, чтобы увидеть эти календари лично… В любом случае, у него не было технических заметок об августовском сбое, но были заметки о похожем (никогда ранее не освещавшемся) сбое в мае. Он счёл странным, что ни одна газета не потратила ни сантиметра места на колонке, посвящённой майскому сбою, но вдруг все заговорили об августовском.
На всякий случай, если вам интересно, он рассказал, что майский сбой произошёл на Westwood Center Drive, где раньше находилась штаб-квартира AOL. Отключилась только одна фаза трёхфазного электропитания, из-за чего генераторы не заметили отключения электроэнергии и не включились, что привело к отключению всего дата-центра после разрядки батарей. Забавно, но со мной несколько лет назад случилось нечто подобное. Думаю, производителям генераторов стоит проводить собственные анализы причин сбоев.
Но всё, что он помнил об отключении 7 августа, это то, что система была отключена на техническое обслуживание и не заработала должным образом. В конце концов, они улучшили систему, так что её больше не нужно было отключать на техническое обслуживание, тихо решив проблему. Как банально, правда?
Я мог бы продолжить поиски других сотрудников AOL, но начал задумываться: почему я так сосредоточен на технических деталях? У нас событие национального масштаба, у миллионов людей есть своя история, а я сосредоточен на том, что происходило внутри одного здания в Вирджинии?
Наш уникальный опыт во время сбоев
Первое, что меня заинтересовало в этом сбое AOL 1996 года, — это видео CBS News, где журналисты посетили интернет-кафе и взяли интервью у людей, пострадавших от него. Последствия были очень разными: одна компания не смогла запустить новый продукт, одному человеку стало было скучно, а другой потерял «потенциальные отношения». Возможно, последнее было лишь выдачей желаемого за действительное, но уникальность этих точек зрения могла чему-то меня учить.
В поисках новых уникальных точек зрения я начал просматривать старые сайты 1996 года. Я думал, что возможность выкладывать всю свою жизнь в интернет появилась только в 2000-х, но оказалось, что в то время довольно много интересных людей публиковали записи в своих онлайн-дневниках. В день отключения интернета один из них был занят работой над частью телескопа Хаббл и восстанавливался после травмы спины. Другой человек в это время навещал родственников своей жены в Китае и, к моему несчастью, написал о посещении могилы своего тестя, а не о своём интернет-провайдере.
Единственным, кто вообще упомянул об отключении интернета в тот день, был Стив Шальхлин. Стив начал вести свой онлайн-дневник в марте 1996 года, потому что умирал. В своих ранних записях он рассказывает об ухудшении здоровья и обновлениях информации о вирусной нагрузке и количестве Т-клеток, поскольку у него развился определённый иммунодефицитный синдром, о котором вы, вероятно, слышали. В начале 1996 года лучшим вариантом было лекарство, которое отсрочило смерть примерно на год по сравнению с контрольной группой, что отчасти отражает название его блога — «Бонусный раунд».
Какое это имеет отношение к интернету? Всего за четыре месяца до сбоя AOL Стив использовал своё интернет-соединение, чтобы просматривать онлайн-форум для людей со СПИДом. Именно там он узнал о недавно одобренном антиретровирусном препарате под названием «Криксиван». Через два месяца его вирусная нагрузка (количество РНК ВИЧ, обнаруженной в крови) упала с 60 000 до менее 100, что привело его к «вирусной супрессии» и началу выздоровления. Прошло 30 лет, а он всё ещё регулярно публикует обновления. Была бы его жизнь такой же, если бы сбой произошёл немного раньше? Возможно, к тому времени, как он проверил бы сообщение на BBS, оно бы уже исчезло с главной страницы. Возможно, он мог бы решить, что сбой стал последней каплей, и, возможно, ежемесячную плату лучше было бы потратить на погашение долга перед друзьями и семьёй. Если бы эта альтернативная реальность существовала, услышали бы мы об этом вообще?
Пролистав буквально историю жизни человека, где сбой (к счастью) был лишь сноской, я понял, что мы, SRE-специалисты, часто фокусируемся на технологиях как на главном герое истории, в то время как пострадавшие люди сводятся к статистике. Мы все понимаем наоборот. В действительности сбои вторгаются в нашу уникальную жизнь и могут быть чем угодно, от безобидных до катастрофических. Но с обезличенностью масштабных интернет-сервисов, подобных тем, что мы имеем сегодня, эти истории редко рассказывают.
Экономические силы, которым мы подвержены
Когда я начинал свою карьеру, у меня были грандиозные планы по созданию надёжных и стабильных систем, которые помогали бы тысячам или миллионам людей. Я вкладывал дополнительные часы и усилия в написанный код, думая о каждом человеке (например, о Стиве) и о том, как сильно я бы расстроился, если бы стал причиной ошибки или сбоя. Это было примерно во времена политики нулевых процентных ставок, поэтому все эти «чудо-деньги» от венчурных капиталистов текли рекой, и я был рад получать свою небольшую долю за всю эту дополнительную заботу. Когда музыка смолкла, внезапно возникла необходимость идти на компромиссы. Они перестали задавать вопрос: «Что мы можем сделать для наших клиентов?» и начали спрашивать: «Что нам сойдет с рук?». В условиях такой централизации, отсутствия регулирования и зависимости от одних только специалистов в технологическом секторе ответ на этот вопрос был: «Многое». Затем в 2022 году был придуман термин «эншиттификация», чтобы дать название этому явлению.
Излишне говорить, что этот новый (для меня) мир, прославляющий низкокачественную работу, был для меня невыносим. Создавалось ощущение, что мы выбрасываем качество и надёжность за борт, как балласт с корабля капитализма. Изучая сбой в работе AOL, я с разочарованием обнаружил, что эта «обесценивание» — не новость. Компании экономят на качестве с тех пор, как оно появилось. Например, вот несколько цитат о сбое, которые звучат так, что их легко можно было бы сказать сегодня о каком-нибудь стартапе:
Аналитики сходятся во мнении, что онлайн-сервисы, такие как AOL, возможно, растут слишком быстро для своих собственных систем.
Многие из этих интернет-провайдеров, на которых люди полагаются, ещё не имеют большого опыта [сбоев], и они все портят.
Учитывая новый характер этого средства связи, генеральный директор не мог гарантировать, что это не повторится.
За исключением момента, когда лопнул пузырь доткомов, AOL так и не понесла реальной ответственности за этот громкий сбой. В 2011 году они продолжали экономить на качестве, выпуская такое количество низкокачественного контента, что, как утверждается, это вызывало у сотрудников панические атаки, а затем их продали за $1,5 млрд компании, известной массовыми увольнениями и повышением цен.
Почему это продолжает происходить? Инженерия надёжности сайтов по-прежнему сводится к деньгам. Конечно, если ваша надёжность ниже, чем у конкурента, вы можете потерять деньги. Но вам не обязательно инвестировать в надёжность, чтобы решить эту проблему. Вы можете просто усложнить переход к конкурентам или их покупку. В 1996 году в США насчитывалось 3840 интернет-провайдеров. В журнале 1996 года перечислены 63 провайдера только в Калифорнии. Сейчас вам повезет, если вы найдете больше одного в одном районе.
При высоких затратах на переключение и отсутствии альтернативных решений, экономические аргументы в пользу надёжности внезапно могут быть обращены против неё. Теперь чрезмерная надёжность считается пустой тратой денег. Если экономические аргументы в пользу неё так легко можно использовать для аргументации в пользу ненадёжности, то мой ответ прост: я полностью признаю экономический аргумент. Люди по-прежнему заслуживают высококачественных и надёжных систем, и моя задача — обеспечить это, даже если с экономической точки зрения целесообразнее поступить иначе.
Так как же нам начать отстаивать то, что невыгодно? Для начала, вы не найдёте ни одного учебника по SRE, в котором бы признавалось, что у нас крайне неравномерная экономическая система, которую подкрепляет технология. Когда я спрашивал своих друзей и родственников, что они думают о сбоях, то обнаружил, что многие представители среднего класса и выше рассматривают сбои как незначительное неудобство или иногда как нечто хорошее, например, как повод отдохнуть от офисной работы. Однако некоторые люди, находящиеся ниже этой черты, могут серьёзно пострадать от сбоев, например, от отключения Wi-Fi в общественном транспорте, сбоя в работе приложения для фрилансеров или несвоевременной выплаты пособий по безработице миллионам во время пандемии. Угадайте, кто по эту сторону черты принимает инвестиционные решения.
Даже восстановление после сбоев выявляет наше неравенство. Когда система выходит из строя, она часто активирует многоуровневую систему инженеров, где инженеры более высоких уровней зарабатывают больше и получают меньше звонков. Возможно, это апокриф, но, по-видимому, во время сбоя 1996 года сотрудник AOL заметил, что каждые 20-30 минут сбоя на парковку «въезжали новые и более дорогие автомобили», пока не появились Ferrari и Lamborghini первых акционеров. Ах да, я упомянул, что в то время AOL находилась под следствием SEC по обвинению в завышении прибыли?
Таким образом, когда мы экономим на всём, издержки часто ложатся на плечи людей, уже лишённых экономической власти, по обе стороны любого сбоя. Цепляться за экономические аргументы, когда у нас нет экономической мощи, — это как идти с ножом в перестрелку. Мы должны создавать альтернативные нарративы, которые ставят во главу угла интересы отдельных лиц, а не прибыль.
Как современным SRE-специалистам следует учитывать всё это
Итак, как мы можем заставить больше людей сосредоточиться на индивидуальном влиянии в отрасли, которая никогда не была для этого предназначена? Или в экономической системе, которая к этому относится с отвращением?
Одной из идей может быть заимствование концепции «заявлений о влиянии на жертву» из системы уголовного правосудия (заимствование только этой концепции, никаких других — нет, спасибо!). Мы могли бы попросить нескольких пострадавших клиентов от всего сердца объяснить, как сбой повлиял на них, чтобы стимулировать инвестиции в повышение надёжности. Многие шаблоны анализа последствий уже включают «заявление о влиянии», но оно пишется компанией, вызвавшей сбой, а не клиентами. Можете ли вы представить, что вы стали жертвой преступления, и суд спросил бы только обвиняемого, каковы были последствия для вас? На самом деле, эта идея — всего лишь форма стратегической манипуляции: игра на наших человеческих эмоциях и любви к историям, чтобы заставить людей отдавать приоритет чему-то другому, помимо денег. Может быть, немного манипуляции можно преподнести в качестве угощения?
Это довольно странная идея, которая, я думаю, вряд ли будет реализована. Естественной проблемой было бы найти на это время. Команды SRE часто очень заняты тем, чтобы просто оставаться на плаву, пытаясь угодить клиентам, едва сводя концы с концами из-за затрат на переход к другому провайдеру.
Другая идея — передать эту критически важную, но нерентабельную работу последнему бастиону чистых исследований: университетам. После следующего сбоя, заслуживающего внимания, университеты могли бы отправить целую армию аспирантов (которым, кстати, следовало бы платить больше) собирать заявления о последствиях для пострадавших в качестве исходного материала для выполнения квот на публикации. Мне кажется немного трагичным, что инженерия надёжности сайтов считается областью STEM. Мы упускаем из виду социологию и экономику на свой страх и риск.
Помимо этих идей, что же тогда должны делать заинтересованные SRE? Мы хотим сосредоточиться на индивидуальном влиянии, даже несмотря на то, что работаем в огромных масштабах. Мы хотим создавать технологические системы более высокого качества, чем позволяют наши экономические системы. Мы хотим решать сложные проблемы и работать с крутыми технологиями, но не ценой нашей человечности.
Если не считать необходимости менять всю систему или изнурять себя борьбой внутри неё, наша нынешняя роль заключается в том, чтобы действовать как страховщики, предотвращая ухудшение надёжности и качества всеми возможными способами. Это может означать выдвижение экстравагантных идей, подобных описанной выше, акцент на индивидуальном вкладе, координацию действий с коллегами для согласования стандартов, публичное осуждение нарушителей и многое другое. Креативность здесь — ключ к успеху; у нас есть 30 лет неудачных экспериментов, которые нам не нужно повторять. Просто помните, что это будет марафон, а не спринт. Приходите на работу, боритесь изо всех сил за людей, использующих наши системы, и уходите. Полученный компромисс может быть не совсем тем, чего мы хотим, но он будет намного лучше, чем если бы мы все просто сдались. Какой смысл в анализе причин, если он приходит к выводу, что статус-кво нас устраивает? Давайте исправим это. Я создам заявку.