В апреле в Москве прошел Uptime Day — первая встреча сообщества uptime.community — сообщества людей, которые занимаются мониторингом, круглосуточной поддержкой и администрированием сложных проектов. ITSumma — идейный вдохновитель и один из организаторов этого сообщества. На встрече специалисты из компаний Booking, Badoo, Parallels, ITSumma и Bitrix24 рассказали, как у них устроены мониторинг и поддержка.
Мы выкладываем слайды, тезисы, видео с выступлений и расскажем немного о самом сообществе.
Если посмотреть на миллион проходящих в России конференций, то можно вдруг обратить внимание на то, что есть огромное количество событий для разработчиков (бэкэнда/фронтэнда), администраторов/девопсов, но если вдруг захочется понять, как другие люди занимаются мониторингом проектов, как именно устроены 24/7 дежурства, как и кто именно реагирует на аварии — знания становятся очень оторваны.
А наступать на грабли совсем не хочется. Мы решили попробовать создать некое сообщество, где люди, которые занимаются тем, чтобы их проекты никогда не падали (а если падали, то быстро поднимались), смогли бы обменяться знаниями, как у них устроен мониторинг и поддержка — и понять, как сделать лучше у себя, задавать друг другу вопросы — может быть проблему, с которой человек сейчас разбирается, уже кто-то решил, ну и главное — просто познакомиться.
Чтобы собрать всех вместе, мы устроили встречу сообщества uptime.community (а именно так мы решили его назвать), которая прошла 7 апреля в Digital october. Ниже — сами выступления, а в конце расскажем, как попасть в сообщество.
Изобретая колесо: как мы писали свой мониторинг
Евгений Потапов, генеральный директор ITSumma
Тезисы:
Каждый веб-разработчик когда-то хотел сделать свой фреймворк. Каждый админ хотел написать свой мониторинг. Шестилетняя история разработки нашей собственной системы мониторинга, причины ее создания, каким образом мы обеспечиваем хранение данных, отказоустойчивость и масштабирование. Шишки, которые мы набили. Чем наша система отличается от стандартных систем.
Видео:
Слайды
Стриминг мониторинга
Станислав Осипов
Тезисы:
— рекламные платформы; особенности R'n'D и Ops в рекламе.
— три кита, на которых Zabbix можно превратить в полезный для восприятия инструмент.
— табличка, патч и отчетность — отстрел Ops managers обратно на орбиту.
— все не как у людей: стриминг самочувствия системы.
— каналы (SMS, Tg, Sl, Ml), потоки/группы.
— а теперь все вместе: Zabbix, New Relic, Jenkins и другие.
Видео:
Слайды
Как обычно происходит внедрение мониторинга с нуля
Николай Сивко, сооснователь Okmeter
Тезисы:
Многие клиенты Okmeter не представляют, что именно им нужно от мониторинга. В процессе общения с такими клиентами у нас сформировался более-менее общий алгоритм покрытия проекта мониторингом от ошибок оборудования до бизнес-метрик. Правильные метрики, правильная работа с алертами и т.д.
Видео:
Слайды
Мониторинг, когда не тестируешь
Иван Круглов, senior developer Booking.com
Как многие знают, в Booking деплои во многих случаях делаются без тестирования — цена ошибки дешевле цены скорости изменений. Иван рассказал про то, как в таких условиях получается обнаруживать ошибки быстро, следить за тем, что происходит, и управлять изменениями.
Видео:
Слайдыhttps://www.slideshare.net/slideshow/embed_code/key/crYlLI4fthc0YK"
Эффективная техподдержка 24?7: инструкция по применению
Юлия Синянская, руководитель команды технической поддержки Parallels
Тезисы:
Как Parallels удалось построить поддержку для корпоративных клиентов, имея готовые наработки, но при этом обладая ограниченными ресурсами. Поиск и найм сотрудников, процесс адаптации и обучение, сменный график, оценка эффективности.
Видео:
Слайды
Как устроен мониторинг в Badoo
Илья Аблеев, руководитель отдела мониторинга Badoo
Тезисы:
Представьте горящий стул, горящий стол в горящем доме. Примерно так выглядит обычный день в отделе мониторинга или дежурных админов в любой IT-компании. В Badoo научились справляться с температурой горения и поделимся нашим опытом.
1. Что такое Badoo: особенности архитектуры и отдела эксплуатации.
2. Зачем нужен независимый отдел мониторинга и чем он занимается.
3. Как устроен отдел: количество людей/смен; что делают люди в свободное время, чтобы не выгореть.
4. Инструменты: что используется для анализа проблем, как не потеряться в потоке событий и не пропустить важные инциденты.
Видео:
Слайды
Как жить в облаке почти без админов: мониторинг и эксплуатация сотен виртуальных машин силами трех человек
Александр Демидов, директор направления облачных сервисов Битрикс24
Тезисы:
1. Почему Битрикс24 и другие сервисы 1С-Битрикс живут в облаке, как мы администрируем всю нашу инфраструктуру и как справляемся с сотнями виртуальных машин и сервисов силами трех человек. Как коммуницируем с разработчиками и QA, как деплоим, да и вообще — как живем и развиваемся.
2. Мониторинг — наше всё! Распределенная система real-time мониторинга (был nagios, стал shinken), аналитика, автоматизация, работа с инцидентами.
3. Бонус — на какие самые серьезные грабли мы наступали за пять лет, прошедших с запуска «Битрикс24», и как научились их обходить.
Видео:
Слайды
Следующее мероприятие запланировано на начало осени, а пока — вступайте в сообщество — оставьте емейл, и мы пришлем вам анкету (спамить не будем, клянусь).
Поделиться с друзьями