Ряды серверов внутри дата-центра Amazon

После того, как облачные вычисления возникли в качестве новой парадигмы, и окончательно выделились в отдельную сферу, компания Amazon смогла быстро стать лидером этой сферы. Запуск Amazon Web Services в 2006 году (вдумайтесь только, почти 10 лет назад!) позволил ритейлеру стать крупнейшим игроком на рынке, с долей этого рынка в $6 миллиардов.

С течением времени облачные сервисы Amazon стали обслуживать десятки и сотни тысяч клиентов (сейчас уже более миллиона). Соответственно, аптайм сервисов весьма критичен, и даже минута простоя может обойтись клиентам компании очень дорого. Не так давно сбой все же случился, и в результате пострадали Netflix, Reddit, Tinder, IMdB и множество других сервисов. Все это случилось по вине сбоя в дата-центре, расположенного в Вирджинии, США. Сегодня мы предлагаем ознакомиться со всей инфраструктурой компании, описав ее примерную географию и возможности.

Итак, Amazon сейчас управляет, по меньшей мере, 30 дата-центрами своей глобальной сети, и еще 10-15 вскоре будут построены или находятся на стадии проектирования. К сожалению, компания не раскрывает полную схему своей инфраструктуры, но по косвенным данным эксперты делают вывод, что только в США общая мощность ДЦ компании составляет около 600 МВт.

По мнению специалистов Gartner, вычислительные мощности Amazon Web Services в пять раз превосходят общую вычислительную мощность 14 других «облачных» провайдеров.

Приоткрываем завесу тайны


Компания Amazon с самого появления Amazon Web Services очень неохотно рассказывает о дата-центрах, сообщая значительно меньшее количество информации о своей инфраструктуре, чем другие компании, например Google, Facebook и Microsoft. Правда, в последние несколько лет ситуация немного изменилась — топ-менеджеры уже более охотно общаются на тему дата-центров компании.

«Нам часто задают вопросы о физической инфраструктуре Amazon Web Services. Мы никогда не рассказывали особенно много об этой сфере, и сейчас мы хотим приоткрыть завесу секретности относительно нашей сети и дата-центров», — сообщил Вернер Вогелс, технический директор и вице-президент Amazon Web Services на июльском AWS Summit, проходившем в Тель-Авиве.

Главная цель подобных встреч — помочь разработчикам понять философию Amazon относительно облачной инфраструктуры, а также узнать больше об аптайме системы и ее надежности. Так вот, вся инфраструктура разделена на 11 регионов, каждый содержит кластер дата-центров. В каждом регионе есть несколько Availability Zones, обеспечивающих клиентов возможностью дублирования своих сервисов или зеркалирования во избежание простоя. Правда, недавние сбои инфраструктуры AWS показывают, что здесь команда Amazon могла бы потрудиться и более тщательно.

Инвестиции в платформу растут


В последнем квартале рост Amazon Web Services составил 81%, по сравнению с аналогичным периодом прошлого года. Это не означает, что и вся инфраструктура растет с аналогичной скоростью, но здесь можно быть уверенным в том, что Amazon постоянно добавляет серверы, хранилища данных и дата-центры в свою инфраструктуру.

«Каждый день Amazon увеличивает мощность своей инфраструктуры настолько, что этого хватило бы для обеспечения глобальной инфраструктуры Amazon, когда компания представляла организацию с ежегодным доходом в $7 млрд», — сообщил Джеймс Хамильтон, вице-президент и ведущий инженер Amazon. Это весьма значительно.

Сейчас стратегия развития дата-центров Amazon основана на идее снижения затрат. Кстати, с момента запуска Amazon Web Services стоимость цен на услуги сервиса упали в 49 раз.


Вернер Вогелс (Фото: YouTube)

«Мы многое делаем для снижения стоимости наших услуг. Маржа у нашего бизнеса небольшая, и мы рады сохранить ее на текущем уровне. Тем не менее, мы снижаем стоимость услуг сервиса на регулярной основе», — прокомментировал ситуацию Вернер Вогелс.

Краеугольным камнем всей стратегии Amazon является определение оптимального размера дата-центров. По словам представителей компании, большинство дата-центров Amazon включает от 50 до 80 тысяч серверов, с мощностью отдельно взятого дата-центра в 25-30 МВт. Компания шла к этой цифре достаточно долго.

Насколько большим должен быть дата-центр?


Поскольку размер дата-центров Amazon увеличивается, то и значение выхода из строя отдельно взятого дата-центра тоже увеличивается. По словам экспертов компании, дата-центр, если так можно выразиться, является элементом сбоя. И чем больше дата-центр, тем более сильное влияние на размер сбоя он может иметь. Именно поэтому компания не создает дата-центры с вместимостью больше 100 тысяч серверов, большинство ее ДЦ имеют меньшие размеры и вместимость

Возникает второй вопрос — сколько же серверов обеспечивают работу Amazon Web Services? Информация предоставленная вице-президентами компании, позволяет говорить о минимальном числе в 1,5 миллиона. Максимальное число серверов AWS, просчитанное компанией Platform, составляет 5,6 миллиона.

Amazon арендует создания у ряда операторов дата-центров, включая Digital Realty Trust и Corporate Office Properties Trust. В прошлом компания брала в аренду здания, вроде складов, и преобразовывала их в дата-центры. Относительно недавно Amazpn решила изменить стратегию, сфокусировавшись на создании ДЦ с нуля. В Орегоне компания использовала уже готовые модульные компоненты для сборки цельного дата-центра.

Преимуществом Amazon является еще и создание собственных энергетических подстанций. Здесь уже больше проявляется необходимость обеспечения скорости работы, а не управление операционными расходами. Экономия минимальна, но зато создавать дата-центр можно гораздо более быстрыми темпами.

Кастомные сервера и хранилища данных


На самых ранних этапах развития своей облачной платформы компания Amazon закупала оборудование у наиболее известных производителей. Главным поставщиком оборудования для Amazon была компания Rackable Systems. Только в 2008 году Amazon заказала северов на $86 миллионов у этой компании, а годом ранее — на $56 миллионов.

Но с ростом инфраструктуры компания стала разрабатывать собственное аппаратное обеспечение для своих дата-центров. Это позволяет Amazon проводить тонкую настройку своих серверов, хранилищ данных и сетевого оборудования, оптимизируя эффективность работы всего аппаратного обеспечения, одновременно снижая затраты.

«Да, мы создаем собственные серверы. Мы можем покупать готовые решения, но они очень дороги, и не слишком оптимизированы под наши нужны. Поэтому мы создаем свое оборудование. Мы работали вместе с Intel для того, чтобы получить возможность использования обычных процессоров в режиме повышенной производительности. Это, в свою очередь, позволило нам создать кастомизированные типы серверов для использования в весьма специфичных целях», — сообщил Вогелс.


Изображение: Джеймс Хамильтон

В инстансах ЕС2 используются именно такие сервера, собранные на основе процессоров Xeon E5, выполненные по 22-нанометровому техпроцессу с использованием архитектуры Haswell. При этом сервера здесь — разной конфигурации, предназначены для выполнения различных задач.

По мнению специалистов Amazon, сейчас компания знает, как построить серверы с конфигурацией, оптимально подходящей для выполнения определенного круга задач, включая поддержку работы определенного программного обеспечения и сервисов.

AWS использует и собственное ПО, а также аппаратное обеспечение для построения сетевой инфраструктуры.

Скорость света и облако


«Фактор скорости света» играет важную роль в проектировании инфраструктуры Amazon.

«Наиболе распространенный способ работы клиентов — это запуск приложений в конкретном дата-центре, и вы можете обеспечить максимальную надежность дата-центра для этого варианта, согласившись с тем, что аптайм 99,9% вполне достаточен. Но если вы создаете высоконадежное приложение или сервис, требуется уже два дата-центра для обеспечения его работы. При этом расстояние между дата-центрами может быть очень велико, и путь сигнала довольно длинен. Поэтому создание распределенной инфраструктуры, в особенности, если дата-центры удалены друг от друга на большое расстояние, может стать сложной задачей», — сообщил Вогелс.

Ответом же на эту проблему могут стать Availability Zones: кластеры дата-центров в пределах региона, позволяющие клиентам запускать инстансы в различных изолированных локациях, избегая, таким образом, точки сбоя. Если что-то случается с одним инстансом, приложение поддерживается другим, в другой Availability Zone. У каждого региона от 2 до 6 Availability Zones.

При этом компания сделала Availability Zones изолированными друг от друга, но близкими в достаточной степени, чтобы обеспечить минимальную задержку сигнала в Сети. По словам специалистов компании, задержка сигнала между зонами обычно составляет 1-2 миллисекунды. Для сравнения — задержка при прохождении данных от Нью-Йорка до Лос-Анжелеса составляет 70 миллисекунд.

«Мы решили разместить Availability Zones близко друг к другу. Но они должны все же находиться в различных географических регионах, и быть подключены к разным энергосетям, кроме того, находиться на разной высоте над уровнем моря», — говорит Хамильтон.


В следующей статье мы расскажем подробнее о географии сетевой инфраструктуры Amazon.

Комментарии (5)


  1. nikitasius
    05.10.2015 10:25
    -2

    Компания Amazon с самого появления Amazon Web Services очень неохотно рассказывает о дата-центрах

    Еще окажется, что все хостится на серверах от гугла, и это хитрый трюк монополиста! :)


    1. voooz
      05.10.2015 13:22

      Это трюк финансистов. Только в этом году AWS начал приносить приличные доходы (ну или плановая убыточность стала приемлемая), которые открыли, теперь начали потихоньку и о железках распространятся.


  1. Greendq
    06.10.2015 11:19

    Кстати, по поводу процессоров — Амазоновцы не дураки и работают как с AMD так и с Intel — в этом легко убедиться, создав сотню-другую инстансов и посмотрев на процы. Примерно половина — Оптероны, половина — Ксеоны :)


    1. fingoldo
      13.10.2015 10:27

      Хмм. В ведь Ксеоны имеют бОльшую производительность на такт. При этом тактовая частота у машин одного типа должна совпадать. Получается, можно ловить преимущество?


      1. Greendq
        13.10.2015 11:36

        По поводу бОльшей производительности на такт — это сферический конь в ваккууме из маркетинговых материалов.

        На практике я жал видео и на Оптеронах и на Ксеонах — разница буквально несколько процентов, если использовать собранные кодеры под данные процы. На каком-то видео АМД вырывается вперёд, на каком-то Интел. А учитывая, что у Оптеронов есть варианты с 16 ядрами в проце — я себе для разработки взял сервер на Оптероне. Хотя у клиентов Ксеоны сплошняком, но там маркетинг, откаты и прочие заморочки. А когда удовольствие оплачивается из собственного кармана (как в моём случае) то тогда маркетинговые материалы идут лесом и начинаются тесты :)