В этом обзоре мы расскажем вам об одном из самых продаваемых серверов в мире – Lenovo ThinkSystem SR650, а также поделимся результатами его нагрузочного тестирования в качестве сервера для СУБД MS SQL Server.

Lenovo ThinkSystem SR650 – это универсальный двухпроцессорный стоечный сервер 2U, который подходит для обработки широкого спектра задач предприятий любого масштаба, например: СУБД, виртуализация и облачные среды, инфраструктура виртуальных рабочих столов (VDI), корпоративные приложения, бизнес-аналитика, большие данные.



Производительность, надежность, безопасность и удобство управления


SR650 обеспечивает максимальную производительность приложений и задач. В первую очередь, это достигается за счет использования современных процессоров Intel Xeon Scalable второго поколения, предоставляющих до 28 ядер на процессор. Всего в сервере поддерживается два процессора и, соответственно, до 56 ядер на систему.

В сервере 24 слота для установки оперативной памяти, а её максимальный суммарный объем составляет до 3 ТБ с частотой работы до 2933 МГц, даже при использовании всех слотов. Также поддерживается установка модулей Intel Optane DIMM, благодаря которым суммарный объем подсистемы памяти может быть еще выше.

Дисковая подсистема SR650 предлагает гибкое и масштабируемое внутреннее хранилище с возможностью установки как 2,5-дюймовых, так и 3,5-дюймовых дисков форматов SAS / SATA HDD / SSD и PCIe NVMe SSD. Важным плюсом является то, что благодаря технологии AnyBay возможно обеспечить использование дисков SAS, SATA или NVMe PCIe в одних и тех же дисковых отсеках без замены бекплейна.




Для обеспечения отказоустойчивости подсистем электропитания и охлаждения в SR650 устанавливаются два блока питания и шесть вентиляторных модулей с возможностью горячей замены.



В задней части сервера находятся разъемы ввода-вывода PCIe, пять из которых могут быть использованы для установки современных графических адаптеров. Некоторые из PCIe разъемов являются выделенными для установки RAID-адаптера и LOM-карты.



Благодаря наличию в SR650 проактивной системы предсказания сбоев аппаратных компонентов (Proactive Platform Alerts), администратор системы может принимать профилактические меры еще до возможного возникновения неисправности, тем самым сокращая время незапланированного простоя как самого сервера, так и развернутых на нем приложений.

Проактивные предупреждения учитывают показатели состояния процессоров, регуляторов напряжения, модулей памяти, накопителей, модулей охлаждения, блоков питания, RAID-контроллеров, включая анализ температуры окружающей среды и компонентов сервера.

Сервер управляется с помощью набора программных продуктов Lenovo xClarity, которые упрощают локальное и удаленное администрирование всех систем Lenovo. В рамках семейства ПО xClarity есть как встроенные в каждую аппаратную систему, так и устанавливаемые отдельно программные продукты.

К встроенным системам управления относится, например, xClarity Controller, который позволяет настраивать, администрировать и оценивать производительность и состояние всех аппаратных подсистем сервера.



Для удаленного управления большим парком серверов предлагается использовать ПО Lenovo xClarity Administrator, которое, не требуя установки каких-либо агентов и драйверов на управляемые системы, обеспечивает комплексное централизованное управление и мониторинг инфраструктуры из любого места – не только с компьютера, но и с мобильного устройства, используя приложение Lenovo xClarity Mobile.




Для интеграции со сторонними системами управления предусмотрены множество программных модулей интеграции Lenovo xClarity Integrators, которые поддерживают работу, например, с VMware vCenter и Microsoft System Center, расширяя возможности xClarity Administrator, позволяя управлять и аппаратной, и программной частью решения из единого окна.

Проверка боем. Результаты нагрузочного тестирования


В марте 2019 года компания TPC Benchmark-E (TPC-E) провела нагрузочное тестирование сервера SR650 в качестве сервера для высоконагруженной СУБД MS SQL Server.

О бенчмарке TPC-E

TPC Benchmark E (TPC-E) — это рабочая нагрузка для оперативной обработки транзакций (OLTP). Это смешанная нагрузка из транзакций чтения и транзакций с интенсивным обновлением, которые имитируют действия в сложных средах приложений OLTP. Схема базы данных, методы заполнения данных, транзакции и правила реализации теста были разработаны, чтобы в целом представлять картину нагрузок в современных OLTP-системах. Эталонный тест исследует широкий спектр компонентов системы, связанных с такими средами, которые характеризуются:

  • Одновременным выполнением нескольких типов транзакций различной сложности;
  • Сбалансированным сочетанием дискового ввода-вывода и утилизации процессоров;
  • Целостностью транзакций;
  • Сочетанием унифицированного и неоднородного доступа к данным;
  • Базами данных с реалистичным содержимым, состоящих из множества таблиц с большим разнообразием размеров, атрибутов и отношений между ними.

В случае настоящего теста, тест TPC-E имитирует рабочую OLTP-нагрузку брокерской компании. В центре внимания эталонного теста находится центральная база данных, которая выполняет транзакции, связанные со счетами заказчиков компании. В соответствии с целью измерения характеристик производительности системы баз данных эталонный тест не пытается измерить сложный поток данных между несколькими прикладными системами, которые могут существовать в реальной среде.

Различные типы транзакций имитируют взаимодействия компании со своими заказчиками и деловыми партнерами. Различные типы транзакций имеют разные требования к времени выполнения.

Тест определяет:

  • Два типа транзакций для имитации операций типа «заказчик-бизнес» и «бизнес-бизнес» (т.е. взаимодействие партнёров по бизнесу);
  • Несколько транзакций для каждого типа транзакции;
  • Различные профили выполнения для каждого типа транзакции;
  • Особое сочетание времени выполнения для всех определенных транзакций.

Например, база данных будет одновременно выполнять транзакции, генерируемые системами, которые взаимодействуют с заказчиками, вместе с транзакциями, которые генерируются системами, которые взаимодействуют с финансовыми рынками, а также административными системами. Система эталонного тестирования будет взаимодействовать с набором приложений, которые имитируют различные источники транзакций.

Показатель производительности TPC-E, является мерой «пропускной способности бизнеса», отражающей количество завершенных транзакций с результатами деятельности бизнеса (торговли), обрабатываемых в секунду, а также стоимость одной транзакции в долларах. Множественные транзакции используются для имитации деловой активности по обработке сделок, и каждая транзакция требует ответа. Показатель производительности для эталонного теста выражается в транзакциях в секунду-E (tpsE).

Конфигурация оборудования в тестировании:

Сервер – клиент СУБД: Lenovo ThinkSystem SR650:

  • 2xXeon Platinum 8168 2,7 GHz (2 ЦПУ/48 ядер/96 потоков)
  • 96 GB RAM
  • 2x300GB SAS HDD RAID-1

Сервер СУБД: Lenovo ThinkSystem SR650:

  • 2xXeon Platinum 8260 2,7 GHz (2 ЦПУ/56 ядер/112 потоков)
  • 1536 GB RAM
  • 2x800GB SAS SSD RAID-1
  • 6x800GB SAS SSD RAID-10
  • 4xLenovo Storage D1224 (дисковые полки SAS 12 Gbs, 74x800 GB SAS SSD сконфигурированных в две RAID-группы: 4x17 RAID-5, 1x6 RAID-10)

Серверы соединены между собой с помощью 4-х линков 10 GbE

Более подробная конфигурация стенда приведена ниже.



Подробные данные о конфигурации аппаратного и программного обеспечения, а также методике тестирования можно посмотреть непосредственно в отчете TPC-E, который размещен в открытом доступе: tpc.org/4084

Результаты тестирования

Результаты тестирования состоят из трех групп тестов:

  • Штатный режим работы
  • Доступность данных
  • Аварийное восстановление

Штатный режим

Тестирование в штатном режиме состоит из двух этапов. На первом этапе выполняется «прогрев» системы для доведения её до состояния стабильной рабочей нагрузки, измерение которой, в свою очередь, является целью штатного теста.

В результаты штатного теста в стабильном рабочем состоянии сервер SR650 поддерживает уровень в чуть-более чем 7000 транзакций в секунду-E.

Результаты штатного тестирования приведены на графике ниже.



Доступность данных

При измерении доступности данных выполняются различные операции, имитирующие сбои дисковой подсистемы.

Доступность данных демонстрируется тем, что приложение может поддерживать операции с базой данных с полным доступом к данным после постоянных безвозвратных отказов любого отдельного диска, содержащего таблицы базы данных, данные журнала восстановления или метаданные базы данных.

Тесты доступности данных проводятся путем выведения из строя дисков, на которых хранятся различные типы данных, при одновременном мониторинге доступа к данным со стороны приложений.

Ниже приведены типы дисковых массивов, на которых хранятся различные типы данных.



В ходе теста доступности данных были выполнены следующие шаги:

  • Вызван сбой диска в массиве журналов базы данных (диск физически извлечен из сервера).
  • Через 5 минут таким же образом вызван второй сбой диска, который в данном случае работает в массиве tempdb.
  • Еще через 5 минут вызван третий сбой диска, который работает непосредственно с данными СУБД.

Поскольку все массивы защищены различными уровнями RAID, остановки доступа к данным не произошло, и, кроме кратковременной просадки производительности, никакого эффекта не было.

Ещё через несколько минут последовательно были установлены три новых диска для замены «сбойных», и начался процесс восстановления массива данных. Процесс восстановления резко снизил показатель производительности. Это нормальное поведение, поскольку, пока не будет полностью восстановлены все массивы данных, часть ресурсов ввода-вывода будет тратиться на восстановление, а не на операции СУБД.

Ниже приведен график тестирования доступности данных.



Аварийное восстановление

Финальный тест на аварийное восстановление — это процесс восстановления системы в целом после серьезной аварии, которая полностью вывела из строя сервер СУБД. Аварийное восстановление считается успешно завершенным, когда рабочая нагрузка вернется к штатным значениям в ~7000 tpsE.

Для тестирования аварийного восстановления были выполнены следующие шаги:

  • Из сервера СУБД извлечены все кабели питания, в результате чего он немедленно прекратил работу. Все содержимое основной памяти и кэшей сервера было потеряно. Все RAID-контроллеры дисков внутри сервера работали без батарей, поэтому все содержимое кэша контроллера дисков было тоже потеряно.
  • Подключены кабели питания и включен сервер СУБД.
  • Удалены все файлы данных и журналов для tempdb.
  • Запущен SQL Server. Он автоматически начал восстановление базы данных. Отметка времени в журнале ошибок SQL Server первого сообщения, связанного с tpce базы данных, считается началом восстановления базы данных.
  • Отметка в журнале ошибок SQL Server «Восстановление завершено» считается концом восстановления базы данных. Суммарно процесс восстановления данных занял чуть более 15 минут.

Поскольку между окончанием восстановления базы данных и началом восстановления всех приложений был промежуток времени, а ряд транзакции потребовалось запустить заново (а не просто продолжить), то эти транзакции начали выполняться только после восстановления БД (см. красную линию на графике), на что ушло ещё около 10 минут.



Таким образом, окончанием аварийного восстановления является полное восстановление рабочей нагрузки всех приложений, т.е. точка времени на графике, где синяя и красные линии дойдут до штатного показателя в ~7000 tpsE.

Итого:

  • Время восстановления базы данных — 00:15:33.
  • Время восстановления приложения — 00:10:06.
  • Время полного аварийного восстановления — 00:25:39.
  • Итоговое резюме отчета с разбивкой по типу транзакций представлено ниже:



Итоговое заключение с набранным показателем tpsE и стоимостью одной транзакции представлено ниже:



Показатель в 7012,53 tpsE со стоимостью транзакции в 90,99 долларов занял второе место в рейтинге TPC-E Top Performance Results, где на первом месте находится сервер Lenovo старшего поколения ThinkSystem SR860 V2 ( tpc.org/tpce/results/tpce_perf_results5.asp?resulttype=all ), а также третье место в рейтинге TPC-E Top Price/Performance Results, где на первом месте также SR860 V2, а на втором – решение конкурента tpc.org/tpce/results/tpce_price_perf_results5.asp?resulttype=all

Это очень достойные показатели, подтверждающие, что Lenovo ThinkSystem SR650 не только производительный и надежный сервер, но также конкурентный по цене. Именно это сочетание качеств позволило ему стать одним из самых продаваемых серверов в мире.

Оставить заявку на сервер Lenovo ThinkSystem SR650 можно по ссылке.

Комментарии (5)