Главная
[обновлено] Как нагрузочное тестирование процессинга обошлось нам в €157 000 и почему никого не уволили

[обновлено] Как нагрузочное тестирование процессинга обошлось нам в €157 000 и почему никого не уволили +76

01.06.2017 13:47

fourwingedsun 81 31900 Источник

Однажды наша команда решилась на эксперимент по расстрелу боевой платежной системы реальными деньгами. Это позволило бы понять, сколько сможем выдержать мы вместе с нашими партнерами. Об этом неоднозначном опыте и хочу рассказать.

К исследованию побудили два фактора: появление у нас собственного процессинга карт и предстоящая крупная распродажа одного из популярных в РФ онлайн-ритейлеров.

Идея выглядела вполне бюджетной – примерно на 125 000 р. (по 1 р. на операцию), но кто же знал, как все обернется. Особая перчинка в том, что вся информация об эксперименте долгое время была закрыта и впервые публикуется в открытом источнике.

Как оказалось, мы не одиноки – ни один из наших банков-партнеров еще полгода назад не знал своего настоящего «потолка» и решал проблемы по мере поступления. По сути, они просто добавляли новые мощности прямо во время распродаж, хотя и не всегда успешно.

Будущие жертвы

Система карточных платежей (Mastercard в нашем случае) соединяет между собой множество внешних организаций, у каждой из которых свой зоопарк систем. Под нагрузку карточных платежей попадают практически все они, поэтому сразу посмотрим на всех участников.

Ниже представлена упрощенная схема взаимодействия нескольких организаций для обеспечения возможности оплатить какой-то товар картой через сервис Яндекс.Денег:

Все ключевые участники эксперимента на одной схеме. Яндекс.Танк – это отличный инструмент Яндекса для нагрузочного тестирования и комфортного анализа производительности.

Яндекс.Деньги принимают данные пластиковой карты у пользователя (в случае с тестом передается уже заполненный шаблон формы), а дальше происходит следующее:

Заполненная форма с данными карты передается на серверы фронтенда, которые ее обрабатывают и передают данные в бэкенд, а в дальнейшем – в отвечающее за работу со счетами ядро.
Платежный сервис блокирует сумму операции на счете пользователя и параллельно отправляет информацию об операции в банк-эквайер, который далее передает сведения в Mastercard и НСПК.
Спустя сутки НСПК присылает файл блокировок в банк-эквайер и Яндекс.Деньги, после чего список блокировок разбирается в наших микросервисах и происходит списание денег со счета пользователя.

При масштабных онлайн-распродажах таких оплат может быть сотни в секунду, поэтому достанется всем звеньям платежной цепочки. Чтобы ни у кого не было претензий, мы заранее договорились с парой дружественных банков о том, что в определенные даты будут «боевые стрельбы» и что их сотрудники будут во всеоружии на местах.

Забегая вперед, после проведения первого эксперимента из 17 000 операций оказалось, что банки используют горизонтальную модель масштабирования платежных шлюзов, добавляя новые мощности по мере необходимости. В обычной жизни они успевают отреагировать на постепенный рост нагрузки, но в стрессовом режиме этого оказалось недостаточно.

Тут есть один тонкий момент. Дело в том, что все банки и Mastercard зарабатывают на выставляемых друг другу комиссиях за переводы. Сделать такую комиссию нулевой для тестов было практически невозможно. По нашим оценкам, совокупная цифра должна была составить 0,7% по отдельному коду категории оплаты MCC.

Кстати о комиссии

Величина комиссии являлась минимально возможной согласованной цифрой на момент проведения эксперимента с точки зрения всех принимающих участие сторон.

Запомните этот момент – в конце статьи будет с чем сравнить.

А не расстрелять ли нам процессинг

При тестировании производительности платежных сервисов неизбежно возникает ряд нюансов и ограничений, которые вынудили нас выйти с экспериментом на продакшн:

Производительность ключевых микросервисов (например, связанных с шифрованием карточных данных) ограничена лицензией.
Расположение микросервисов тоже ограничено лицензией. То есть сервер с купленной лицензией нельзя даже перенести в тестовую среду.
Никто из наших банков-партнеров ранее ничего подобного не проводил и свою емкость не исследовал, поэтому просить мудрого совета было не у кого. Здесь выручило тесное сотрудничество с Mastercard и крупицы знаний из личного опыта отдельных людей.

В качестве подготовительных действий, мы также отключили дополнительную защиту платежа 3DSecure (SMS-коды), сняли лимиты на число и сумму операций на каждом этапе платежа, а также договорились со службами безопасности участников, чтобы они не били тревогу.

Тем важнее становился проект для Яндекс.Денег, так как кроме практической пользы можно было сделать нечто полезное для всей российской банковской отрасли – результаты и методика исследования могут пригодиться не только нам. Кроме того, мне лично всегда было любопытно, как поведет себя наш процессинг, если его как следует «расстрелять».

Радиус поражения

Как вы понимаете, никто не согласовал бы команде даже потенциальную остановку сервиса. Даже на несколько секунд.

Поэтому расстрел предстояло сделать бережным и прогнозируемым:

В качестве нагрузочной операции выбрали пополнение счета кошелька с банковской карты, которая привязана к другому кошельку. Эта достаточно простая операция влечет за собой массу транзакций между Яндекс.Деньгами, банком-эквайром, платежной системой и НСПК. Что и требуется для эксперимента.
Участвующий в эксперименте банк предоставил отдельный терминал для проведения платежей с оговоренным кодом MCC. На этом этапе каждая тестовая операция начинает стоить реальных денег, так как к MCC привязана определенная комиссия.
Команда исследователей проводила нагрузочные стрельбы в несколько подходов, поддерживая оперативную связь с банками и собственными коллегами по всей системе, чтобы можно было приостановить поток по первому же «горшочек, не вари!».

MCC код (Merchant Category Code) — представляет собой 4-значный номер, присваиваемый платежными системами VISA, Mastercard и др. для классификации деятельности торговой точки в операции оплаты по банковским картам. Для владельца такой торговой точки важно получить как можно более выгодный MCC и платить меньшую комиссию платежной системе.

Все эти меры гарантировали хороший уровень отказоустойчивости платежного сервиса для пользователей даже при пиковых нагрузках.

Общая схема эксперимента: многопоточное пополнение кошельков с банковских карт других кошельков.

Для эксперимента мы согласовали уровень подаваемой интенсивности в 20 RpS (Requests per Second, число запросов в секунду). Для достижения большей производительности можно добавлять новые модули, но в схеме эксперимента присутствовал только один.

Яндекс.Деньги сотрудничают с несколькими банками-партнерами, но на масштабный эксперимент с реальными деньгами согласился только один из них.

На графике виден рост производительности на модуле процессинга при росте входной интенсивности, с провалом в центре как раз в момент проседания производительности нашего процессинга.

Кроме того, тесты вызвали некоторые проблемы в нашем бэкенде и ядре системы, создав массу блокировок по карточным счетам. Блокировки – это нормальная ситуация для любой карточной операции, так как перед реальным списанием деньги просто блокируются на счету пользователя и запись об этом попадает в общий файл Mastercard.

Такой файл каждый банк-эквайер ежедневно получает от Mastercard каждый раз в одно и то же время по согласованию и далее его разбирает. Так вот, после экспериментов файл с обычным размером 20 МБ увеличился в 5 раз и стал весить 104 МБ. На отработку такого списка потребовалось больше ресурсов, то есть пришлось переписать отдельные модули микросервисов, которые обрабатывали файл блокировок.

Что ж, мы немного оптимизировали запросы к БД, снизив нагрузку на процессор, и выпустили больше карт для снижения числа блокировок на одну карту.

Продолжаем обстрел

Вторая волна эксперимента проходила уже более ровно и спокойно, несмотря на более чем вдвое возросшее число обрабатываемых платежей.

График уже более равномерный, что говорит об успешности принятых мер. RpS равняется 20, так как это максимальное согласованное для эксперимента значение.

После окончания потока в 24 778 операций объем блокировок для каждой карты продолжил расти, что приводило к замедлениям при проведении платежей: перед каждым списанием процессингу приходилось считывать заново весь список блокировок конкретной карты. Решение — увеличить число карт с 50 до 10 050, что позволило для каждой сократить список блокировок с 200 до 1 при аналогичном количестве операций.

Следующая волна тестов принесла 50 000 операций, а списания подгрузились в базу процессинга за 40 минут, после чего нужно было их еще и обработать. Файл блокировок продолжал угрожающе расти с каждым экспериментом. А ведь ключевая БД процессинга работает на Oracle с ограничением в 4 ГБ на файл. До предела еще далеко, но становилось некомфортно.

В ходе отдельного эксперимента мы оценили производительность обработки списаний. За сутки провели тесты с интенсивностью 15 блокировок в секунду и последующим потоком списании?. Фаи?л со списаниям пришел к нам в 18:00 следующего дня с задержкои? в 1,5 часа, и наш процессинг обработал все 1 135 000 записеи? за 2 часа 10 минут. Для контраста, обычный разбор среднестатистического списка блокировок занимает десяток минут.

Проблемы возникли также с производительностью антифрод-машины и фронтенд-балансировщика запросов. Дело было в том, что балансировщик не проверял логическую доступность сервиса на узле, ограничиваясь только его присутствием в сети.

Кроме того, массированныи? обстрел повсеместно привел к росту размера логов, что дополнительно проверило на прочность нашу систему сбора логов на EHK (Elasticsearch/Heka/Kibana), о которой недавно рассказывали.

Кульминацией стал эксперимент на двое суток с суммарным числом операций 1 400 000, во второй день которого одновременно происходили две вещи:

Проходили тестовые стрельбы с платежами.
Разбирался файл блокировок предыдущего дня объемом 3,1 ГБ.

Две эти операции нагрузили процессинг по полной в рамках существующих лицензионных ограничений 20 RpS.

Боевые стрельбы закончились через два дня на отметке 3 157 800 проведенных операций. Однако как следует отпраздновать успех и полюбоваться цифрами нам не дали.

Привет от Mastercard

Нам выставили счет в €157 890 в качестве комиссии за проведенные операции, что немного не вписывалось в оговоренные 0,7% с 125 000 р.

При заказе терминала под тестовые операции мы указали неверный MCC код, из-за чего и получилось невероятная комиссия.

А вот и причина безобразия – мы выбрали не тот код MCC для терминала эквайринга, через который проходили все тестовые стрельбы. Поэтому за операцию на 1 р. платили 4 р. комиссии. Узнать об этой проблеме в ходе эксперимента не представлялось возможным, так как Mastercard выставил счет через неделю.

Недоразумение обошлось нам в 2 месяца напряженной работы по ручному урегулированию вопроса с Mastercard. Фактически мы подняли логи всего эксперимента, по которому выполнялся поиск и изменение операций в Mastercard. Лишнее подтверждение, что без подробных логов никуда.

Несмотря на давность эксперимента и незначительные финансовые убытки от его проведения, опыт однозначно положительный. Более того, подобные боевые стрельбы стали регулярными, а полученные данные позволи серьезно увеличить производительность карточных операций.

Конечно же, все персонажи и числа в статье были творчески переосмыслены из соображений безопасности, но фантазировали мы не слишком бурно и сохранили соотношения полученных по эксперименту данных.

Поделиться с друзьями

-->

Комментарии (81)

SyrexS
01.06.2017 16:59
#10245700
Разъясните, пожалуйста, что такое RpS?

3 157 800 операций — это за сколько дней?
1. easyman
  01.06.2017 17:11
  #10245712
  +1
  requests per second же
1. fourwingedsun
  01.06.2017 17:22
  #10245732
  +2
  RpS — Request per Second — число запросов в секунду, метрика использования сетевого ресурса. В нашем случае, один запрос был равен одному переводу с карты на счёт.
  
  3 157 800 операций было проведено за двое суток эксперимента.
  1. Ghool
    01.06.2017 22:54
    #10246204
    +2
    Мы обычно используем термин tps — transaction per second
    
    var
    02.06.2017 13:50
    #10247100
    +2
    rps != tps, обычно rps в лучшем случае равен tps или всегда меньше (а порой на порядок).
    
    «Хозяйке на заметку»: если общаться не только внутри IT, а ещё из бизнесом — rps проще объяснить и " продать", чем tps (хотя и то и то, весьма сложно объяснимо, обычно все хотят мерять «пользователями» — что совершенно неверно с точки зрения нагрузочного тестирования).
    Да и «запросы», по-хорошему, «транзакциями» называть не стоит (легко будет запутаться, если читать литературу, пользоваться инструментами, например newrelic), если речь только про название, а не суть.
    
    RPS — это прежде всего, то что породило запросы к сервису (как правило внешние), а TPS — это то, что уже происходило внутри и пораждало запросы (транзакции) к другим сервисам, базам данных, да даже просто другим участкам кода и в принципе много чего ещё можно измерять, в зависимости от возможностей вашего мониторинга.
    
    Всё конечно весьма условно, но по опыту, в такой терминологии жить гораздо проще. ;)
    
    Ghool
    02.06.2017 15:23
    #10247304
    Спасибо!
    Мы чаще тестируем только одну систему, все остальные на заглушках, так что tps отличается от rps только если часть транзакций принимаются но не обрабатываются, то есть после достижения макс.перф, так что мы rps называем tps.
    В данном случае, конечно, все эти ньюансы надо учесть.
1. dimskiy
  01.06.2017 17:23
  #10245734
  +поправили в статье — спасибо!

dimkss
01.06.2017 18:40
#10245884
-3
Особая перчинка в том, что вся информация об эксперименте долгое время была закрыта и впервые публикуется в открытом источнике.

Да, это ужасно интересно!

klavis
01.06.2017 18:58
#10245924
+3
Какая прекрасно мелкая, нелепая и дорогая ошибка. Человеческий фактор во всей красе, надо полагать.
1. khim
  02.06.2017 16:13
  #10247456
  Без него никуда. Я помню как-то несколько лет назад Гугл пропал для всей России на несколько часов. Оказалось тоже кто-то опечатался: подключили новый, ускоренный, канал но ошибка в таблицах роутинга привела к тому, что вместо разрешения обоих каналов они оба оказались запрещены (где-то «или» с «и» перепутали).
  
  Думаю там убытки сравнимые были…

radli
01.06.2017 19:02
#10245928
+1
> Как нагрузочное тестирование процессинга обошлось нам в €157 000 и почему никого не уволили

Я то подумал проблема была у вас и с интересом читал что же вы не правильно сделали, а оказывается банка-эквайринг ошибся(

st0ne_c0ld
01.06.2017 19:23
#10245960
+1
вообще поток слабоват, в начале статьи писали про сотни операций в секунду. Все таки хорошо, если бы можно было на полноценной тестовой системе всё это повторить, было бы и дешевле и можно было бы больше чем 20tx/sec послать. Которыми в общем то мало кого удивишь…
1. embriodead
  01.06.2017 21:28
  #10246098
  Вы сильно удивитесь, когда начнете узнавать реальные цифры производительности российских банков-эммитентов. Действительно думаете, что по карточке среднего российского банка идет поток в 20 транзакций в секунду?
  1. Vest
    01.06.2017 21:49
    #10246128
    +1
    Мне интересно, или даже любопытно, у вас есть какие-нибудь числа по поводу пиковой нагрузки в такого рода случаях?
    
    Например, среднее время ответа (запрос + валидация + перевод) какой-либо операции (например, оплата по карте), сколько транзакций в секунду в час пик, а сколько ночью.
    
    Я иногда присутствую при нагрузочном тестировании и мне интересна чужая статистика для сравнения.
    
    Спасибо заранее.
    
    GEG
    01.06.2017 22:31
    #10246176
    +5
    В Qiwi, правда, по кошельку тестируем от 100 до 200 транзакций в секунду на магазин. AliExpress умеют устраивать красивые акции с эффектным ростом оборота. :)
    
    justboris
    02.06.2017 11:24
    #10246738
    +7
    Как можно читать этот график, если на нем нет оси Y?
    
    Иллюстрация в тему
    
    GEG
    02.06.2017 19:39
    #10247822
    Число оплат за 5 минут. Y раскрыть не могу, NDA же. :)
    
    justboris
    02.06.2017 23:48
    #10248112
    Так Y не обязательно должно быть в настоящих числах, может быть и в у.е.
    Главное видеть, сколько было до, и насколько это линия подскочила.
    Сейчас это может быть так: было 90 у.е, стало 99, а шкала от 90 до 100
    
    fourwingedsun
    02.06.2017 11:32
    #10246756
    AliExpress умеют устраивать красивые акции с эффектным ростом оборота. :)
    
    О, да, распродажи и подготовка к ним — это уйма других интересных историй :) Производительность карточных авторизаций крайне важна и для нашего бизнеса, и для исследований. Хотя бы потому что нагрузки там значительно больше и финансовые риски выше, особенно в преддверии распродаж. Такие акции — как раз интересны взрывным ростом интенсивности, когда график улетает в потолок. Мы на регулярной основе исследуем на боевой среде latency и throughput возможностей нашей системы по карточным авторизациям, чтобы гарантировать поддержку на уровне сотен операций в секунду (точно не меньше 500 TpS). Причем такие эксперименты не требуют от нас финансовых затрат, там мы давно всё учли :).
    
    GEG
    02.06.2017 19:40
    #10247824
    500 — огонь. А в чем была разница с тестированием из статьи? Почему там всего 20 тогда?
    
    fourwingedsun
    02.06.2017 21:24
    #10247950
    +1
    Так от 500 TpS — это про авторизации карточных операций, а операций по картам собственной эмиссии — от 20 TpS. Кроме того для авторизаций карточных операций проводились эксперименты по нахождению конкретно максимума производительности, а в текущей статье мы описали stress и volume тестирование для операций по своим эмитированным картам.
    
    GEG
    02.06.2017 23:08
    #10248060
    Понял, спасибо! :)
    
    Vest
    02.06.2017 14:13
    #10247144
    Спасибо, если я правильно понимаю, вы симулируете ситуацию, когда магазин получает платежей от Qiwi клиентов с throughput 100-200 TpS? А какой в этом случае получается response time? Когда пользователь видит, что покупка успешна, она действительно успешна, или «запрос принят и сейчас обрабатывается»?
    
    А график, насколько я вижу, содержит тот самый пик при тестировании? Или же это Shopping Festival 11.11, а стрелочка показывает обыкновенный «размер» выручки в каждый день?
    
    GEG
    02.06.2017 19:44
    #10247828
    Спасибо, если я правильно понимаю, вы симулируете ситуацию, когда магазин получает платежей от Qiwi клиентов с throughput 100-200 TpS
    
    Да.
    
    А какой в этом случае получается response time?
    
    Норма — в пределах 2-3 секунд.
    
    Когда пользователь видит, что покупка успешна, она действительно успешна, или «запрос принят и сейчас обрабатывается»?
    
    Успешна. Причем онлайн обновляется баланс клиента и, по умолчанию, баланс компании, которая принимает платеж.
    
    Или же это Shopping Festival 11.11, а стрелочка показывает обыкновенный «размер» выручки в каждый день?
    
    Все верно, это Ali 11.11. Только не выручки, а числа оплат. Графики с тестов не такие эффектные. :)
    
    MarinaGrom
    08.06.2017 16:55
    #10255682
    без оси y этот график не представляется важным или несущим хоть какую-то информацию… ну понятноже, иначе как соотношение понять
    
    fourwingedsun
    02.06.2017 10:48
    #10246670
    Я иногда присутствую при нагрузочном тестировании и мне интересна чужая статистика для сравнения.
    
    Я бы с радостью рассказал о них подробнее, но пока это тайна.
  1. Ghool
    01.06.2017 22:56
    #10246206
    160 в секунду. И это год назад.
  1. st0ne_c0ld
    02.06.2017 12:05
    #10246816
    работая в одном из вендоров процессинга — в принципе, какие-то цифры есть…
    Но насчёт «среднего российского банка» — думаю вы правы, 20tps вполне реальная ситуация.
  1. telman8
    02.06.2017 17:14
    #10247596
    У нас 130
1. fourwingedsun
  02.06.2017 00:06
  #10246286
  +2
  В рамках проведённого эксперимента в первую очередь нам было важно провести именно stress и volume тестирование, оценить влияние на систему в ходе постоянного длительного накопления операций. Мы не пытались выяснить максимальную производительность, поэтому и стреляли не до отсечки. Кроме того предметом исследования являлись не авторизации карточных операций, а операции по картам собственной эмиссии на одном из сегментов процессинга. Каждый такой сегмент использует готовое платное решение от стороннего производителя. Мощности одного такого сегмента ограничены, а их увеличение требует привлечения дополнительных денежных средств.

degs
01.06.2017 22:04
#10246146
+1
Спасибо огромное, материал и опыт просто бесценные.
Безумству храбрых поем мы песню.

stalkerxxl
01.06.2017 22:08
#10246152
+14
Так вы заплатили все-таки 157 000 евро или отсудили свою правоту?
1. fourwingedsun
  02.06.2017 12:10
  #10246836
  Так вы заплатили все-таки 157 000 евро или отсудили свою правоту?
  
  В итоге мы заплатили существенно меньше, сократив стоимость на порядок. А это уже успех, достаточный, чтобы никого не увольнять :)

pnetmon
01.06.2017 22:17
#10246164
+1
Как то непонятно

Идея выглядела вполне бюджетной – примерно на 125 000 р. (по 1 р. на операцию)… Нам выставили счет в €157 890 в качестве комиссии за проведенные операции, что немного не вписывалось в оговоренные 0,7% с 125 000 р… Поэтому операции проводились не по оговоренной ставке. Грубо говоря, за операцию на 1 р. мы платили 4 р. комиссии.
Как с 1 р. за операции при комиссии в 4 р. сумма выросла более чем в 75 раз?

Спустя сутки НСПК присылает файл блокировок в банк-эквайер и Яндекс.Деньги, после чего список блокировок разбирается в наших микросервисах и происходит списание денег со счета пользователя.
…
Такой файл каждый банк-эквайер ежедневно получает от Mastercard каждый раз в одно и то же время по согласованию и далее его разбирает.
Mastercard и НСПК присылают файлы, но в одном моменте один, в другом другой...

Дело в том, что все банки и Mastercard зарабатывают на выставляемых друг другу комиссиях за переводы.
НСПК не за бесплатно работает
1. fourwingedsun
  02.06.2017 12:19
  #10246862
  +1
  Как то непонятно. Как с 1 р. за операции при комиссии в 4 р. сумма выросла более чем в 75 раз?
  
  В итоге мы провели 3 157 800 операций при комиссии 4 р. за штуку, и общая сумма составила 12 631 200 р. или € 157 890 на момент организации эксперимента.

PinGniX
01.06.2017 22:25
#10246172
+1
Странная терминология для процессинга. Обычно процессинг оперирует термином tps (transaction per second). И что это за нагрузка 20 tps? Вон в процессингах идут 1500 tps от которых TSYS загибается — вот это нагрузка!

Вообще не ясен смысл статьи, если честно. Статья о том как мы накосячили с MCC в проде? Почему нельзя было в тестовой среде это сделать?
1. Ghool
  01.06.2017 23:00
  #10246216
  +1
  Вероятно причина в том, что хотели протестировать работу всей структуры в целом.
  Надо сказать, что 125 тысяч (с учётом комиссии 0.7 212.5 тысяч) очень небольшая цена за такие данные.
  Главное, что бы такое тестирование не вызвало проблемы на проде!
  1. AllexIn
    02.06.2017 12:42
    #10246922
    +1
    А почему вы 125 000 считаете потерянными? Они же на свои кошельки переводили. Стоимость эксперимента должна была быть 0.7% от 125 000. То есть в районе тыщи рублей.
    
    Ghool
    02.06.2017 15:18
    #10247288
    точно
    Я ещё и 0,7% перепутал с коэффициентом 0,7 :)

OpenMan
01.06.2017 23:05
#10246226
Подскажите, а вы проводили эксперимент одновременно с работой обычных клиентов? От них не было жалоб на какие-нибудь задержки в обслуживании?
1. fourwingedsun
  02.06.2017 12:26
  #10246880
  Подскажите, а вы проводили эксперимент одновременно с работой обычных клиентов? От них не было жалоб на какие-нибудь задержки в обслуживании?
  
  Да, эксперимент проводился вместе с работой обычных клиентов на той же среде. При этом наши экспериментальные операции фактически ничем не отличались от аналогичных пользовательских. И самое приятное для нас — никто из них не пострадал. Все было сделано более, чем аккуратно.

shhhidan
01.06.2017 23:06
#10246228
-4
Если что-то обошлось в круглую сумму, но никого не уволили — статья про Яндекс.

Dronablo
01.06.2017 23:06
#10246230
+1
Для любого, кто видел какой-нибудь процессинг изнутри статья странная примерно вся, но как базовика меня более всего удивило вот это:
А ведь ключевая БД процессинга работает на Oracle с ограничением в 4 ГБ на файл.
Что это за ограничение и откуда взялось?
1. Mitarius
  02.06.2017 00:26
  #10246302
  Это ограничение на размер datafile, но в tablespace может быть много файлов, так что это не повлияет.
  1. Mitarius
    02.06.2017 00:55
    #10246312
    Что-то я тупанул — если это ограничение на datafile ASM, то там не 4, а 2, и не GB, а TB, так что вообще не понятно откуда такое число взялось…
1. mickvav
  02.06.2017 00:33
  #10246306
  Там 32-битная машина, что ли?
1. rubobman
  02.06.2017 08:30
  #10246456
  +5
  4Гб ограничение FAT )
1. Cubus
  02.06.2017 11:27
  #10246746
  Действительно, странно. UTL_FILE ограничений на размер читаемого файл не имеет, external table тоже, sql*loader тем более. Было бы интересно узнать подробнее про это ограничение.
1. Ghool
  02.06.2017 15:26
  #10247316
  Я по оракл не спец, но тоже заинтересовался, вспонив fat32 :)
  Нагуглил вот это:
  
  http://alldba.ru/index.php/38-subd/index.php?option=com_content&view=article&id=64&Itemid=164
1. sharptop
  02.06.2017 15:33
  #10247338
  +1
  Единственное, что приходит в голову с таким ограничением — это Oracle Database Express Edition. Цитата с сайта —
  Oracle Database XE может быть установлена на любой компьютер с любым количеством процессоров (одна база данных на машину), но с ограничением в 4Гб пользовательских данных, использует не более 1Гб оперативной памяти и только один из имеющихся процессоров.
  
  Собственно пруф
1. fourwingedsun
  02.06.2017 17:19
  #10247610
  +1
  Что это за ограничение и откуда взялось?
  
  Гипотезы интересные, но в нашем случае всё несколько иначе :) На момент проведения эксперимента все блокировки приходили в виде xml-файла, загружающего в поле Oracle типа CLOB, максимальный размер которого 4 Гб. Мы уже переписали этот механизм и результаты проведённого эксперимент тут сыграли не последнюю роль.
  1. Dronablo
    02.06.2017 17:27
    #10247620
    Безотносительно креативности идеи хранить блокировки таким образом, ограничение все таки примерно 8Тб, а никак не 4Гб. Дока.

CreFroD
01.06.2017 23:06
#10246232
А что было бы если размер файла превысил 4ГБ и база упала? И вообще был ли риск для простых пользователей?

alexoron
01.06.2017 23:40
#10246256
-26
Что-то мне кажется, потому никого не уволили так как решение принимал какой-то начальник, важный начальничек.
А так как он чей-то родственник начальничка повыше, за него сверху заступились и убыток «списали».
Ну в прочем как обычно в большинсте компаниях на постсоветском пространстве.
За коррупцию вообще молчу, это поголовно.
ИМХО.
1. Erelecano
  02.06.2017 03:29
  #10246358
  +1
  Равнять совок и Яндекс не стоит. Яндекс — единственная европейская компания на территории РФ зародившаяся и ныне живая. Нет в них совка, так уж получилось.
  1. Borz
    02.06.2017 13:41
    #10247078
    +2
    единственная европейская компания на территории РФ
    откуда дровишки?
  1. ganqqwerty
    02.06.2017 16:49
    #10247528
    +2
    «европейская» — это у вас синоним «хорошая»?
1. dklein
  02.06.2017 08:59
  #10246476
  +6
  Вы статью вообще до конца дочитали? Или вы хотите, чтобы Яндекс уволил сотрудников банква-экваера за то, что те затупили? :D
  1. alexoron
    02.06.2017 11:10
    #10246710
    -11
    Конечно прочитал.
    Только мне не понятно, кто тот самый ответственный человек допустивший такую оплошность.
    Если бы это был рядовой или руководитель низшей планки — он бы уже давно был уволен, как минимум.
    Эта «счастливая» статья напоминает пару месяцев назад историю как devops случайно удалил не ту базу и как они потом восстанавливали старую базу при посторонней помощи. И всю эту историю выложили в паблик.
    
    PS. сотрудники яндекса всегда минусуют критику? И это называется «единственная европейская компания на территории РФ зародившаяся и ныне живая»?
    
    amarao
    02.06.2017 12:38
    #10246914
    +11
    Я не сотрудник Яндекса, но я минусанул. Причина? Со словами «мне кажется» идёт оголтелое (ака не имеющее доказательств) обвинение в кумовстве, с плавным переводом вопроса в политическую плоскость, с параллельным обобщением на всю индустрию.
    
    michael_vostrikov
    02.06.2017 13:05
    #10246986
    +1
    "Это был рядовой или руководитель низшей планки" только блин не из Яндекса. Это так сложно понять?
    
    ganqqwerty
    07.06.2017 00:54
    #10252332
    +3
    > он бы уже давно был уволен, как минимум.
    я не очень понимаю, а что бы это улучшило? Увольнение сотрудника за оплошность — это вообще как-то дико, на мой взгляд, звучит. Можно уволить за саботаж, за то, что не работает, за обнаружившуюся непроходимую тупость, постоянно приводящую к убыткам, можно по политическим мотивам. А за единичную ошибку — вы это как потом объясните его коллегам?
    
    grossws
    07.06.2017 01:40
    #10252352
    +1
    Лучше наказания относительно рядового работника за первую ошибку только коллективная ответственность. Лучше для развала команды и ухода всех более-менее разумных работников, разумеется.
    
    Если же серьёзно, то такого рода ошибки, зачастую, не вина исполнителей, а вина их руководителей, которые не смогли/не успели отладить процессы. И за систематические проблемы такого рода нужно увольнять не исполнителей, а их начальников. К сожалению, это происходит куда реже.
  1. Ghool
    02.06.2017 15:24
    #10247312
    Ну, можно было сперва прогнать пару пробных транзакций, выждать день, убедиться что всё ок и гнать нагрузку.
    
    fourwingedsun
    02.06.2017 15:29
    #10247328
    Собственно говоря, так и было, мы провели пробные транзакции, подождали день, перешли к крупномасштабному эксперименту, но счёт по ним всем выставили через неделю. При этом итоговый счет содержал только сумму по всем транзакциям в совокупности без дополнительных комментариев.
    
    navion
    02.06.2017 22:28
    #10248028
    Посмотреть МСС можно сразу после блокировки, так что косяк не только у банка.
  1. aynur_safin
    04.06.2017 19:54
    #10249296
    +1
    "Или вы хотите, чтобы Яндекс уволил сотрудников банква-экваера за то, что те затупили? :D"
    
    Насколько я понял, ошиблись сотрудники Яндекс.Денег.

MrAloof
02.06.2017 08:59
#10246472
-2
Тема "… почему никого не уволили" не раскрыта :-) В результате 2-х месяцев боданий был перерасчет или как?

Проглядывает жуткая не технологичность процессинга — обмен файлами транзакций, ежесуточный их разбор…
Планируется ли переход на блокчейн или что-то подобное?
1. ggo
  02.06.2017 09:23
  #10246508
  обмен файлами транзакций, ежесуточный их разбор
  
  ;) добро пожаловать в реальный мир…
1. Cobolorum
  02.06.2017 09:44
  #10246542
  +5
  Зачем тут блокчейн!?!?!? Что в платежной системе банк не доверяет оператору платежный системы? Что есть ситуации кода целые сегменты ПС выплывают на стуки из онланйа?
  Что это за новомодный тренд пытаться засунуть блокчейн во все щели!
  1. PsyHaSTe
    03.06.2017 12:22
    #10248384
    Вполне полезный тренд. До этого например был тренд засунуть компьютеры во все, включая холодильник. Как мне кажется, вполне успешно. Где-то отомрет, как ненужное, а где-то зацепится.
1. difiso
  02.06.2017 10:48
  #10246674
  +2
  Обмен данными по блокировкам нужен. В некоторых случаях операцию по карте может одобрить платежная система, и банк не будет об этой операции знать пока она ему об этом не скажет.

Frank59
02.06.2017 10:42
#10246658
+1
Классная статья, спасибо!
Вопрос насчет вашей системы логирования на основе эластика: сколько ГБ логов туда попало за день при максимальной нагрузке(если не секрет конечно)?
1. fourwingedsun
  02.06.2017 16:56
  #10247548
  Сотни миллионов операций во всей системе не сравнимы с единицами миллионов операций процессинга во время нашего эксперимента, поэтому существенной нагрузки на систему логирования на основе эластика мы не заметили.

XNoNAME
02.06.2017 13:32
#10247054
Почему графики как у JMeter? Использовалась та же библиотечка?
1. fourwingedsun
  02.06.2017 13:46
  #10247090
  Да, там самая библиотека. В качестве генераторов трафика использовались и phantom (дефолтный для Яндекс.Танка) и jmeter.

iListo
02.06.2017 13:46
#10247092
Для меня самое большое приключение — это купить билет на КампНоу, когда за 2 дня до матча выбрасывают оставшиеся 10тыс билетов. Сайт пускает в порядке живой очереди, иногда с часовым ожиданием… Платежная система может выбросить на последнем этапе…
В общем, хотелось бы, чтобы системы были более совершенны и дарили пользователям только радость)

Survtur
03.06.2017 10:10
#10248294
Активная работа ритейла подразумевает ещё и активную работу ККМ нового типа. Не будет ли этот момент узким местом?
1. fourwingedsun
  03.06.2017 12:29
  #10248396
  Гипотетически вполне вероятно ККМ может стать узким местом. Это, кстати, хорошая перспектива для дальнейших исследований, которые нам ещё предстоит провести. Пока у нас такой возможности не было.
1. Orky
  06.06.2017 19:23
  #10252066
  Там проблема в фискальных накопителях. Они обрабатывают около 1 чека в три секунды.
  Как только они научатся быстрее шифровать — будет легче.

anatan
11.06.2017 11:36
#10259680
Для полноты картины нужно было бы упомянуть железо, на котором работает процессинг.
Приведенные цифры мало о чем говорят без этого.