В общем, сразу хочу сказать, что мнение про ад и то, что сервис у многих из двухтысячных — это оценочное суждение. На самом деле, конечно, они родом из России. На самом деле, конечно, мы тоже хороши, и об этих пятнах в биографии я тоже расскажу. На самом деле, в последние годы та же поддержка у многих стала гораздо лучше. Но всё равно кое у кого родословная кое-где да всплывает.
Давайте я пройдусь по проблемам, которые часто прямо нереально болят у клиентов хостинга, расскажу, что хорошо-плохо у нас и как это выглядит в других хостингах в России и за её пределами (но там, очевидно, я знаю про внутрянку меньше).
Первая история — железо. Клиентов нереально бесит, когда полетел RAID-контроллер или вылетело сразу несколько дисков, и поддержка делает простой на замену. У нас был один клиент, которого сначала рикошетом зацепило DDoS по соседней VDS в том же серваке, потом через два часа начались плановые работы с сетевым адаптером, а потом ещё и рейд ушел в ребилд после включения-перезагрузки. К вопросу дидосов мы ещё вернёмся, кстати.
Так вот, можно взять дешёвое «околобытовое» железо и часто его чинить, а можно серверное — у нас Хуавей корпоративной линейки. Насколько я знаю, профессиональное серверное железо есть у нас и ещё у двух игроков на российском рынке. Поправьте меня, если ошибаюсь. Это потому что мы на старте считали, что проживём больше пяти лет и решили списывать старое железо минимум через пять лет после начала эксплуатации. Кстати, опять же, примерно так и появился тариф за 30 рублей за VDS, смекаете?
Дилемма с железом
Итак, у нас Хуавей корпоративного класса. Обычно у хостеров в России стоит самосбор, который покупается в оптовых магазинах с офисными и домашними десктопами по комплектующим, а затем с помощью разных дендральных методов собирается и работает. Влияет это на частоту поломок и стоимость услуг. Если с частотой поломок всё более-менее очевидно (чем хуже железо — тем выше шанс простоя), то вот со стоимостью услуг всё интереснее. При нашем цикле пять-шесть лет на железку получается дешевле покупать именно сервера и сетевые устройства корпоративных линеек для ЦОДов.
Да, они дороже в закупке. Да, у них очень дорогая гарантия (у нас на все новые устройства расширенная на next business day, плюс на не самые удачные серии расширенная далеко за пределы гарантии по времени). Да, нужно держать ремкомплект на площадке: мы меняем те же диски, RAID-контроллеры, планки оперативки и иногда блоки питания из собственных ЗИПов во всех десяти дата-центрах. Где-то ЗИП больше, где-то меньше, в зависимости от объективного количества и возраста серверов там.
Когда мы только начинали бизнес, то сразу решили брать железо понадёжнее. Потому что был случай проверить: до RUVDS мы занимались алготорговлей и использовали как раз самосборное дешёвое железо. И выяснилось, что разница действительно очень большая. Расходники покупаются просто центнерами. Естественно, если у хостинга такие затраты или более короткий цикл списания железа, то растёт цена на тарифы. А поскольку цены за более-менее одинаковые конфигурации более-менее фиксированы по всему рынку, деградирует что-то другое обычно. Как правило, не поддержка, а либо качество связи, либо ИБ.
Я, конечно, возможно, ошибаюсь, но оценка такая: у кого на сайте прямо не указано партнёрство с железным вендором и профессиональная линейка железа, тот использует «околобытовую». Возможно, кто-то просто скрывает своё крутое оборудование.
Мы делали дешёвый (но не самый дешёвый) VDS-хостинг, поэтому очень тщательно считали и считаем эксплуатационные затраты. Не очень понимаю модели других компаний, но, кажется, дело в том, что у них горизонты планирования по два или три года, а у нас просто больше. Возможно, мы не правы, и в России так далеко планировать не стоит, но пока, тьфу-тьфу, мы на этом выиграли и продолжаем расти как компания.
Место ЦОДа
У большинства VDS-хостингов одна или две локации. У нас десять, причём есть не только в Москве, но и близкие к крупным российским городам (Екатеринбург, Новосибирск), что важно для серверов Майнкрафта и Контр-страйка, так и есть Швейцария, Англия и Германия. И при этом везде русскоязычная поддержка.
Зачем нужна вторая локация, понятно — сервисы надо геораспределять. А вот зачем нужны ЦОДы в других странах — это очень интересный вопрос.
Во-первых, ЦОД в Швейцарии считается более надёжным, чем российский. Это не объективная оценка, а мнение большей части наших клиентов. Надо сказать, что да, конечно, и там могут встретиться эпические раздолбаи, как и везде, но в целом у них гораздо более тщательно соблюдаются процедуры обслуживания и очень сильный внешний периметр безопасности. То есть проблемы у них случаться должны реже.
Во-вторых, конечно, за пределами России. Кому-то это важно, чтобы трейдить поближе к ключевым точкам, где обрабатываются заявки. Кому-то важно из-за собственных VPN (думаю, не меньше трети наших серверов куплены именно для организации VPN-тоннелей через другие юрисдикции). Ну и есть люди, которые застали маски-шоу в своих ЦОДах в России и теперь просто предпочитают хранить данные не у нас. Хотя, по идее, и там тоже никто от такого не застрахован. Просто умолчания по наезду на дата-центр другие.
Сразу скажу, что некоторые наши коммерческие ЦОДы не хуже того, что в Великобритании или Швейцарии. Например, в Петербурге площадка почти без косяков (и точно без серьёзных) и соблюдает стандарты Uptime Institute (T3). Охраняется хорошо. То есть объективно она очень хорошая, но среди клиентов как-то сложилось убеждение, что за границей безопаснее. И те русские хостеры, кто не даёт зарубежную локацию, сразу немного не вписываются в потребности рынка.
Изменение конфигурации сервера и тарификация
Мы делали опросы и изучали, что важно клиентам. Оказалось, очень высокое место занимают такие параметры, как единица квантования в тарифе и возможность быстро менять конфигурацию сервера. Мы знаем, что где-то виртуалка создаётся вручную за один-два часа по заявке, конфигурация меняется за сутки по заявке в поддержку.
Мы автоматизировали процессы до тех пор, пока медиана на создание виртуалки не стала равняться четырём минутам, а средний интервал от заявки до запуска 10-11 минутам. Это потому что некоторые сложные заявки всё ещё делаются руками за примерно 20 минут.
Тарификация у нас посекундная (а не часовая или суточная). Можно создать сервер, посмотреть на него и тут же удалить, сохранив свои деньги (мы просим предоплату за месяц, но возвращаем её, если не зашло). У большинства российских площадок нужно отдельно арендовать лицензию на ОС. У нас WinServer поставляется на все машины бесплатно и входит в тариф (но десктопный вариант Windows невозможен).
Конфигурация сервера меняется за примерно десять минут из интерфейса, причём как вниз, так и вверх. Два исключения — вниз по диску не всегда можно автоматически (если место чем-то занято), и при переносе с 2,2 ГГц на 3,5 ГГц делается через тикет. Ручные заявки имеют SLA на первый ответ 15 минут, время обработки 20-30 минут (могут и больше, в зависимости от объёма копируемых данных). В тарифах, кстати, где у нас HDD, везде по факту SSD с ограничениями до скоростей HDD (так оказалось дешевле, и полностью на SSD мы перешли примерно полтора года назад). Можно взять машину с видеокартой. Есть тариф по утилизации (там сложная формула от процессора, оперативки, дисков и трафика) — если у вас пиковые вычисления, так дешевле, но бывают и клиенты, которые не до конца правильно предсказывают свой расход и платят в два раза больше обычного тарифа иногда. Ну а кто-то экономит.
Да, это всё требует затрат на автоматизацию. Но как показывает практика, это же позволяет здорово экономить на поддержке и сохранять клиентов за счёт качества сервиса.
Негативный момент связан с тем, что иногда мы советуем брать на 10 Гб больше под определённый софт. Или иногда в переписке с клиентом мы понимаем, какое именно у него ПО и видим, что просто не хватает оперативки или ядер процессора и советуем докупить, но многие думают, что это какая-то разводка от поддержки.
Маркетплейсы
За океаном наметилась тенденция предоставлять не только VDS, но и сразу набор предустановленного ПО. В том или ином виде маркетплейс есть у всех крупных хостингов и часто отсутствует у мелких. У нас провайдеры всё ещё часто продают пустые машины, как и в Европе.
Первым кандидатом на маркетплейс после WinServer стал Докер. У нас технические специалисты сразу сказали, что маркетплейс не нужен, потому что админы не настолько безрукие. Поставить Докер — это пара минут, и не надо вот считать их такими ленивыми, что они это не сделают. Но мы развернули маркетплейс и положили туда Докер. И они стали пользоваться, потому что лень. Время же экономит! Мало, но экономит. Это не жизненная необходимость для клиентов, конечно, но уже следующий стандарт рынка.
С другой стороны, у нас нет того же Кубера. Зато недавно появился сервер Майнкрафта. Он пока востребованнее. Есть интересные направления по VPS с предустановленным ПО: есть конфигурация с урезанной Win (чтобы она не жрала производительность), есть с уже предустановленной OTRS. Мы даём предустановленное ПО, а как уж вы его будете активировать — ваше дело, этого мы не видим.
Самые крутые в мире маркетплейсы, как мне кажется, у Amazon, Digital Ocean и Vultr. Стартапы хотят приходить на маркетплейс Амазона: если ты сделал какую-то тулзу типа Эластиксёрча, но не попал в маркетплейс — никто и не узнает, никто не купит. А если попал — вот и канал распространения появился.
DDoS
Атакуют каждый хостинг. Обычно это слабые ненаправленные атаки, которые похожи на естественную микрофлору Интернета. Но вот когда начинают класть какого-то конкретного клиента, начинаются проблемы у соседних с ним на одной «ветке». Как правило, это те, кто обслуживается с того же сетевого устройства.
Больше 99 % клиентов проблем не испытывают, но некоторым не везёт. Это частая причина, почему клиенты нас не любят — из-за простоев сервера по DDoS на соседа. Мы очень давно постарались минимизировать эти истории, но, конечно, не смогли избежать их полностью. Мы не можем всем подряд включать DDoS-защиту в стоимость тарифа, тогда услуги подорожают на нижних линейках примерно в два раза. Когда поддержка рекомендует клиенту под DDoS взять защиту (платную, конечно), клиент, бывает, считает, что мы его специально кладём, чтобы продать что-то. И, главное, никак не объяснить, а соседи страдают. В итоге нам пришлось залезть поглубже в начинку сетевых адаптеров и написать им собственные драйвера. Именно драйвера к железу, да, вы не ослышались. Второй контур — есть двойная система защиты, которая может переключить маршруты за минуты. Если попасть в противофазу проверок, то можно получить простой максимум четыре минуты. Сейчас переключение всё ещё создаёт некоторые проблемы в виртуальных свитчах и коммутаторах, мы доделываем стек.
Поддержка
Российская поддержка — одна из лучших в мире. Я сейчас серьёзно. Дело в том, что многие крупные европейские VDS-хостинги просто не заморачиваются на то, чтобы брать на себя многие вопросы. Ситуация, когда кто-то работает только в режиме ответа на письма — повсеместная. Даже постоянно появляющиеся мелкие российские хостинги из двух-трёх человек обычно имеют либо чат на сайте, либо телефон, либо возможность постучать в мессенджер. А в Европе у крупных хостингов поддержка по несколько дней (особенно если заявка перед выходными) рассматривает тикет, и позвонить или написать в соцсети им нереально.
У нас клиенты, кстати, выбирают локации в своих городах, как у нас шутит поддержка, чтобы ещё и морду при случае набить. Реально несколько человек заходили по дороге домой в офис.
И вот здесь-то пора начать рассказывать про наши эпические косяки.
Наши косяки
Самое мелкое — это вылеты дисков, оперативки и рейд контроллеров. Просто подойти и заменить, но когда падает сервер, страдают сразу несколько клиентов. Да, мы постарались сделать, что могли, и да, надёжное железо обходится в перспективе дешевле, но всё равно это лотерея, и если вам достаётся такая поломка, то, конечно, это обидно. Тот же Амазон тоже не застрахован ни от чего подобного, и поломки там случаются достаточно регулярно, но почему-то клиенты каждый раз ждут от нас безупречности. Простите нас за физику и плохой рандом, если это ударяло по вашей виртуалке.
Потом вышеупомянутые DDoS. В декабре 2018-го и в декабре 2019-го. Потом в январе и марте 2020-го. В последнем случае несколько серверов перестали отвечать (физические машины забили намертво, а виртуалки были на них) — понадобился хардовый ребут, чтобы сетевые адаптеры ожили. Развёртывание обратно — не самая весёлая процедура, и пара человек получила простой в часы, а не минуты. Атаки случаются каждый день, и в 99,99 % все контуры отрабатывают штатно, и никто этого не замечает, но бывают случаи когда что-то идёт не так.
В декабре 2018-го во время четырёхчасовой атаки вышел из строя сетевой коммутатор. Второй не подцепился из-за какой-то мистики, при попытках его реанимировать появился закольцованный трафик, и пока мы разбирались, что же происходит, появился простой. Негатива было на удивление мало, все понимали, что DDoS случаются. Хотя сеть мы поднимали довольно долго по своим меркам. Если вы вдруг попали на этот инцидент, то простите нас, и спасибо, что всё тогда правильно поняли.
Ещё важный момент: DDoS всегда локален. Никогда не было, чтобы проблемы в одном ЦОДе развивались одновременно с проблемами в другом. Ну и пока что худшее, что случалось локально — это перезагрузка коммутатора с несколькими машинами.
Чтобы окончательно успокоить наших клиентов по взломам, мы застраховали ответственность в AIG. Если нас ломанут, а клиенты пострадают — страховщики должны возместить. Это оказалось не очень дорого в расчёте на единичный тариф, но как-то придаёт уверенности.
Поддержка. Мы старались сделать дешёвый хостинг с разными фичами на выбор и достаточной надёжностью. Это значит, что наша поддержка не делает две вещи: не разговаривает с клиентом длинными вежливыми фразами и не лезет в прикладное ПО. Второе нам аукнулось в прошлом году, когда пришли многочисленные инстаграм-дивы, которые покупали VDS для установки накрутчиков лайков и автоматизаторы постов. Впечатляет, насколько некоторые люди, предельно далёкие от ИТ, способы грамотно разобраться в установке софта на виртуалку. Нет такой инструкции, которую фитоняша не осилит за 30 % увеличения подписчиков. Но ломались они на настройке исходящего трафика внутри своего софта почему-то. Возможно, инструкции этого не предусматривали. Мы не можем отвечать за работу стороннего софта. А проблемы там не только в том, что пользователь не понимает, как его сконфигурировать, но и в стабильности. Например, поставил вот человек вспомогательное ПО для накрутки просмотров на Ютубе. А оно поставляется с какого-то форума в комплекте с трояном. И в трояне баг, у него течёт память. А мы не чиним баги в троянах. Если мы ставим софт — то это продукт из коробки.
Эту проблему начали решать базой знаний. Есть три стадии: мы не знаем, что там за софт, и вежливо отвечаем, что не поддерживаем такие вещи. Вторая стадия: таких обращений несколько, мы разбираемся в одном-двух и пишем инструкцию, кладём её к себе в базу знаний и отправляем на неё. Третья стадия: таких обращений много, и мы заводим дистрибутив в маркетплейс.
И тут, по мере работы со всё более и более «неадминами», мы начали сталкиваться со вторыми граблями. Поддержка всегда старалась работать быстро и отвечала коротко и сухо. А некоторые воспринимали это как пассивную агрессию. То, что допустимо в диалоге между двумя админами, совершенно не подходит для обычного пользователя, который взял VDS для своего малого бизнеса. А с годами таких пользователей стало больше. И проблема там не в том, что поддержка говорит что-то не то, а в том, как она это говорит. Мы сейчас делаем большую работу по обновлению шаблонов — включаем в каждый не только что-то в духе «мы не поддерживаем, простите», а подробное описание, что делать и как, почему мы не поддерживаем, что теперь, и всё это вежливо и понятно. Больше деталей и объяснений и больше этикета, вместо трёхбуквенных аббревиатур более простые пояснения, что там. Неделю как раскатали, смотрим пока, что получается. До пандемии приоритетом было не облизать клиента, а максимально быстро решить проблему. Мы по философии предприятия как Макдональдс: нельзя выбрать прожарку мяса, поддержка делает быстро только то, что входит в стандартные запросы. В общем, урок — если отвечать сухо, люди будут часто считать, что с ними несколько грубы. Мы не думали до последнего года, честно. Ну и не хотели никого обидеть, конечно. В этом плане мы отстаём от развитых служб поддержки на рынке: у многих стоит цель быть очень аккуратными с клиентом, а мы только начали работать с этим приоритетом.
Тариф. Ну и самый наш эпичный фейл — это проблемы на 30-рублёвом тарифе. У нас есть особая линейка уже слабого железа, где VDS стоит 30 рублей в месяц. Пользуется огромной популярностью. Сразу сказали в описании, что будет полный фарш, тариф не для работы, а для обучения. В общем, AS IS, и этот IS часто будет очень страшный.
Как оказалось, такое описание тарифа мало кого остановило. 30 рублей — это всё равно дешевле, чем ipv4-адрес, а тут ещё виртуалка с ним сразу. Как мне кажется, многие покупали просто чтобы купить, потому что мы открываем его волнами. Первый раз всё прошло более-менее нормально, но мы тогда не придали должного внимания тому, что через три-четыре месяца утилизация стала постепенно расти — проекты там разворачивались не сразу, и нагрузка к концу года стала менее комфортной для среднего клиента, появились большие очереди на запись на диск, например. Да, там SSD, но мы его ограничиваем на тарифе до скоростей HDD, и это не NVMe, а специально закупленные на опыты дешёвые интеловские диски для серверных конфигураций. Мы поменяли диски на побольше и понормальнее, это позволило получить хоть какие-то производительности.
Второе открытие этого тарифа привело нам тысячи китайских пользователей. Они написали скрипты, которые палят наш сайт, потому что около 800 машин были выкуплены братским народом в окне между появлением новости на сайте и рассылкой, а это буквально несколько минут. Я не могу точно сказать, что они там делали, но судя по характеру трафика, это были диссиденты, которые обходили Великий Китайский Файрвол. Мы запретили по условиям акции покупать машину иначе как гражданам РФ. Чтобы защитить Кваймён, нам пришлось приостановить создание виртуалок. Сначала российские пользователи сказали нам спасибо, потом поддержка — часть пользователей «в процессе» надо было доделать руками. Ну и возник негатив, потому что много кто ждал, а когда получил письмо, тариф уже кончился.
Сейчас у нас несколько тысяч активных клиентов на 30-рублёвом тарифе. Если у админа руки прямые — он делает самый дешёвый в мире VPN. Кто-то стучал в поддержку со скринами Linux с каким-то GUI (не помню, что там было, но сам факт GUI на таких машинах с ограничением по оперативной памяти — это уже круто), кто-то ставил ISP-панель и так далее. Кто-то действительно использовал для обучения. Мы ещё раз сделаем эту акцию, учтя ошибки, но просто знайте, что где-то там, в Поднебесной, стоит маааленький форум на примерно миллион зарегистрированных участников, которые подписаны на тред про наши сервера.
Главный урок этой истории в том, что машины сначала работали быстрее, чем ожидалось, и у людей сформировались неверные ожидания по поводу производительности. Когда она стала падать до обещанного уровня, начались жалобы в поддержку, и её засыпало негативом. Сейчас, конечно, мы будем точнее объяснять, что ждёт на таком тарифе. Ещё раз нас простите, если вас задело этой историей.
Вот так примерно выглядит моё видение разных моментов на рынке. И сейчас я хочу попросить вас рассказать, что вас бесило на рынке и как это можно исправить за земные деньги. Если это экономически обосновано — мы постараемся. Ну и другие хостеры на этот срез комментариев посмотрят, и, может быть, тоже сделают.
imbasoft
Поделитесь циферками как считали. Разница между «около бытовой» техником и бренд сервером может достигать 5-х и более раз. Даже если ломаться «бытовые» будут в два раза чаще, то они все равно выгодней. Или расходы на восстановления такие большие?
ntsaplin Автор
Разница для хостера зависит от объемов закупок и, иными словами, от его масштаба. Если покупать 1-2 сервера в год, разница может быть и в 10-раз.
Бытовые по нашему опыту ломаются больше, чем в 2 раза чаще. Причем высокий процент поломок даже на новом железе, из-за менее тщательного контроля качества на производстве. Инженеры Хуавей нам говорят, что то, что не проходит контроль качества крупных вендоров продается как раз в виде комплектующих.
Далее гарантия. Если начать с продавцом самосбора разговор о том, что нужна быстрая замена комплектующих аля NBD (без замены next business day размер и стоимость зипов вырастает экспоненциально, плюс умножить на 10 площадок), то цена подскочит еще на 50%. Потому что адекватную логистику NBD могут обеспечить только крупные вендоры.
Ну и, наконец, расходы на восстановление. Каждый неприятный кейс стоит денег, как и репутационных, так и компенсации пострадавшим клиентам. И если компенсации измеримы, то репутационные издержки явно переваливают чашу весов для нас в сторону бренд серверов. Плавали, знаем)
Tangeman
Почему тогда Гугль в свои дата-центрах использовал совсем не брендовое железо (может и сейчас использует)? На их объемах можно было бы много чего сэкономить (если верить вашему опыту), но они предпочли "бытовуху" с хорошим запасом по избыточности.
BackBlaze, с другой стороны, сделали выбор в пользу "бытовых" HDD, и единственное что заставило их свернуть с этого пути (если мне память не изменяет) это невозможность их заказов в нужных объемах.
algotrader2013
>но они предпочли «бытовуху» с хорошим запасом по избыточности.
Так это уметь надо) На минуточку, у гугля был GFS на 10 лет раньше, чем все начали носиться с хадупом) То есть, просто если задуматься, что пока все в принципе не понимали, как можно гарантировать сохранность данных, кроме, как лепить рейды на энтерпрайз железе от серьезных вендоров, люди уже создали решение, которое не только гарантировало сохранность, но и стабильную скорость в случае частичного отказа.
JerleShannara
Но сейчас гугл всё ближе и ближе к тому, чтобы вообще использовать только железо от Google Inc. (Или как там правильно назвать).
mrk-andreev
1. У G много серверов, которые дублируют функционал друг-друга, имеем отказоустойчивость. В случае же хостинга у вас много клиентов, каждый утилизирует немного ресурсов.
2. G сам проектирует ПО для своих серверов и закладывает много ресурсов в обработку отказов нескольких узлов. Не у всех есть ресурсы на построение такой архитектуры.
norguhtar
А что именно то ломается? Я давно конечно собирал самосбор, но по моему опыту основной расходник это диски.
ntsaplin Автор
Ломается все- диски, рейды, оперативка. У самосбора основной негативный момент- это «гаражная» сборка, одно дело собрали и протестировали на заводе, другое- покупатель и есть тестер. Когда сервер берешь под себя пофиг, а когда клиентам, то уже не хочешь рисковать, что окажется проц криво посадили там или что-то еще.
Еще важный аспект это комплектующие. Попробуйте укомплектовать 50 машин одинаковым железом при покупке комплектующих по отдельности и самостоятельной сборке- окажется, что «диски есть немного этих и немного этих, таких платформы осталось 5, а таких еще 10 и завтра может будет еще что-то» и тд. Как итог- зоопарк железа, зипов, нет возможности адекватно отслеживать статистику отказов, вообщем не про бизнес все это уже, а про азартные игры скорее)
norguhtar
А не сами собирали а покупали "типа" сервера. Тогда понятно. Просто если брать не типа сервера, а именно совсем самосбор, то там немного другой расклад. Из минусов это сложно подбирать комплектующие под 1U. В 2U проще. Ну и да уже тогда linux было довольно таки начхать на чем работать, по этому одинаковое железо не особо то нужно.
Ну и плюс сильно зависит от города. Если город не большой, все эти премиум подписки слегка рассыпаются. Нет локального склада везут с ближайшего, как итог время доставки легко больше 4 часов. Проще уж зип держать локальный.
ADL
основная проблема — не ecc-ram, все остальное может ходить годами без проблем.