Это должна была быть обычная пятница, звонки, задачи, планы на следующую неделю…
Мы очень внимательно относимся ко всем мелочам нашего сервиса, особенно к качеству и надежности телефонии. Это же наш хлеб и свою репутацию мы терять не хотим! За все время работы у нас не было ни одного сбоя!

Поэтому, если бы мне сказали, что сегодня внезапно всё рухнет, то я бы рассмеялся, ведь вероятность такого события примерно такая же, как если бы Николас Кейдж, так же внезапно появился над Нью-Йорком!
Ну примерно так:



Как говорят, не будь слишком уверен! Действительно, мы это проверили на себе.
Утром, внезапно, случился настоящий апокалипсис!

Все звонки через виджет перестали почему-то проходить. Сначала было непонятно, в чем дело, но позже оказалось, что оборвался канал поставки телефонии от оператора. Наш виджет полностью перестал работать!

Представьте себе ситуацию, при которой три с половиной тысячи наших клиентов лишились звонков. Скрывать не будем, первая реакция шок и лёгкая паника, с подобным мы ещё не сталкивались, и с чего начать — не представляли. Здесь было 2 варианта паниковать или решительно действовать.

Мы отложили абсолютно все дела, планы и работу.

1) Нужно было срочно найти новые каналы телефонии, которые будут соответствовать всем наши нормам.
2) Подключить всех наших программистов, сисадминов и т.д, которые должны за 1 день поднять новый сервер, переписать все функции и настройки, всё это подключить к новым транкам оператора, протестировать и запустить в работу.

В такой момент, как раз и проверяется команда. Мы обзвонили почти весь рынок телефонии, чтобы выбрать лучшего.
Тестировали, заключали договор, отправляли документы экспресс-курьером.

В это время весь технический отдел, вытирая пот с носа, без перерыва целый день занимался новым сервером.
Так как писали все заново, то, естественно, уже учли все предыдущие недостатки и добавили пару новых функций. В итоге, наш новый сервер получился гораздо лучше, надежнее и с большим количеством функций, чем предыдущий.

К концу дня, слава богу, мы всё восстановили. Даже не верится, но виджет заработал снова! Наверное, что-то помогало нам свыше.

В итоге, из минусов у нас только вынужденный фаст-фудный обед и лёгкая седина нашего технического директора.



Зато плюсов куда больше: во-первых, мы поняли, что неприятности являются таковыми до тех пор, пока не найдено действенное решение преобразовать их в ценный опыт, во-вторых, мы полностью переделали сервер, убрали все недостатки и теперь он стал еще надежнее, в-третьих, мы проверили себя и уверены, что готовы теперь справиться с любой проблемой.

Вывод:
В конце концов, катастрофа, которая должна была убить наш сервис, сделала нас только сильнее и лучше.
Теперь мы знаем, что всегда нужно иметь запасной план. Советую и другим делать так же, чтобы не попасть в наше положение.

Отправляемся на выходные с новой системой телефонии и отличным настроением!

И я не просто так про силы свыше…
P.S. Сегодня с утра «Яндекс» предупредил всех о штормовом предупреждении.



Утром началась гроза с градом, которая продолжалась весь день, не знаю, совпадение это или нет, но как только мы нашли нового поставщика и восстановили систему телефонии, яркая радуга появилась в небе и добавила нам ещё порцию хорошего настроения! Совпадение? Не думаю!



Вот такая была пятница.
В конце скажу, что выход есть в любой ситуации. Иногда найти решение проще, чем кажется. Страшное событие может либо убить вас, либо сделать сильней, выбираете только вы сами.

Спасибо! Всех обнимаю!

Виталий Ягодкин, CEO Perezvoni.com из офиса, где произошел апокалипсис.

Комментарии ()


  1. Beatle
    16.05.2015 18:17
    +5

    хм… а как же резервирование критичных служб? Заранее…


    1. gluck59
      17.05.2015 00:49

      Заранее — дорого ;)


  1. yagodkinvs
    16.05.2015 18:27

    Резервирование было серверов для веб-морды, но с телефонии не все так просто… Это теперь, мы одновременно будем работать с несколькими поставщиками, что бы всегда иметь рабочий канал.


    1. Beatle
      16.05.2015 19:06

      Просто действительно странно — конкретно провайдер телефонии в этом случае один из самых критичных сервисов, по хорошему он должен быть на автоматическом резерве, ибо все имеет свойство время от времени падать, не смотря на надежность.

      У нас даже в офисе 2 VoIP провайдера, чтобы отдел продаж если что не простаивал :)


      1. yagodkinvs
        17.05.2015 00:53

        Согласен, но в предыдущей версии, мы зависели только от одного провайдера и другого не могли подключить никак, так как были специфичные условия работы и затачивали все под него. Сейчас уже мы можем подключать к новому серверу любые транки и не бояться, если кто отвалится.


  1. mvs
    16.05.2015 19:10
    +2

    Очевидно, жареный петух клюнул, а не апокалипсис случился. Стартапы такие стартапы…

    2) Подключить всех наших программистов, сис-админов и т.д, которые должны за 1 день, поднять новый сервер, переписать все функции и настройки
    это всё для того, чтобы подключить другой транк?!

    P.S. Исправьте ошибки если не в тексте, то хотя бы в собственном имени. Ну и F7 вам в помощь.


    1. yagodkinvs
      17.05.2015 01:10

      Новый транк подключить можно за полчаса, не считаю всей бюрократии. Если бы только транк подключить, то статью я бы не писал. Нам пришлось подключать новый сервер и с нуля писать всю систему работы телефонии на астериске под текущую веб-морду (это не просто телефонию в офисе настроить) + найти поставщика, который бы соответствовал условиям, заключить договор и отправить документы курьером, что бы нам дали транк в этот же день. Затем всё это включить, протестить, исправить что нет так и запустить в работу.
      P.S. Возможно, есть ошибки, извиняюсь за них. Писал на лету. Что дает кнопка F7, нажимал и не понял для чего она?


  1. ikormachev
    17.05.2015 10:02
    +4

    оборвался канал поставки телефонии от оператора

    Судя по дальнейшему изложению у вас рухнул ваш собственный сервер телефонии. Дак вот, простите меня за мой французский, то что произошло у вас — это не апокалипсис, а элементарное распиздяйство и неспособность устранить простейшую аварию.

    Настоящий апокалипсис — это серия из 2-3 независимых и маловероятных событий, которые приводят к трагедии. Как это выглядит:

    1) Из-за бага в программном обеспечении СХД все данные на ней утеряны, СХД оказалась неработоспособна.
    2) Склад интегратора, который должен был сделать подмену СХД в случае отказа, опечатали в этот день правоохранительные органы.
    3) Весь топ-менеджмент компании, включая ИТ-директора и ведущих админов, находится в самолете над Атлантикой.

    Задача планирования аварийного восстановления — просчитывать действия не только в случае одиночных рисков, но и в случае одновременного возникновения 2, 3 и более независимых событий.

    Из вашей истории вам нужно сделать выводы на будущее и подготовиться заранее и к другим аналогичным ситуациям — это не так дорого, но позволяет крепче спать.


  1. asdfgh
    19.05.2015 00:59

    Господа, сделайте лучше не сервер, а так, чтоб ваши виджеты не грузили комп, макбук просто реветь начинает, когда они есть на сайте.