Как работать с ошибками бизнес-логики через HTTP / forpes.ru

Главная
Как работать с ошибками бизнес-логики через HTTP

Как работать с ошибками бизнес-логики через HTTP +7

09.03.2021 16:27

mitya_k 36 4600 Источник

Почти все разработчики так или иначе постоянно работают с api по http, клиентские разработчики работают с api backend своего сайта или приложения, а бэкендеры "дергают" бэкенды других сервисов, как внутренних, так и внешних. И мне кажется, одна из самых главных вещей в хорошем API это формат передачи ошибок. Ведь если это сделано плохо/неудобно, то разработчик, использующий это API, скорее всего не обработает ошибки, а клиенты будут пользоваться молчаливо ломающимся продуктом.

За 7 лет я как поддерживал множество legacy API, так и разрабатывал c нуля. И я поработал, наверное, с большинством стратегий по возвращению ошибок, но каждая из них создавала дискомфорт в той или иной мере. В последнее время я нащупал оптимальный вариант, о котором и хочу рассказать, но с начала расскажу о двух наиболее популярных вариантах.

№1: HTTP статусы

Если почитать апологетов REST, то для кодов ошибок надо использовать HTTP статусы, а текст ошибки отдавать в теле или в специальном заголовке. Например:

Success:

HTTP 200 GET /v1/user/1
Body: { name: 'Вася' }

Error:

HTTP 404 GET /v1/user/1
Body: 'Не найден пользователь'

Если у вас примитивная бизнес-логика или API из 5 url, то в принципе это нормальный подход. Однако как-только бизнес-логика станет сложнее, то начнется ряд проблем.

Http статусы предназначались для описания ошибок при передаче данных, а про логику вашего приложения никто не думал. Статусов явно не хватает для описания всего разнообразия ошибок в вашем проекте, да они и не были для этого предназначены. И тут начинается натягивание "совы на глобус": все начинают спорить, какой статус ошибки дать в том или ином случае. Пример: Есть API для task manager. Какой статус надо вернуть в случае, если пользователь хочет взять задачу, а ее уже взял в работу другой пользователь? Ссылка на http статусы. И таких проблемных примеров можно придумать много.

REST скорее концепция, чем формат общения из чего следует неоднозначность использования статусов. Разработчики используют статусы как им заблагорассудится. Например, некоторые API при отсутствии сущности возвращают 404 и текст ошибки, а некоторые 200 и пустое тело.

Бэкенд разработчику в проекте непросто выбрать статус для ошибки, а клиентскому разработчику неочевидно какой статус предназначен для того или иного типа ошибок бизнес-логики. По-хорошему в проекте придется держать enum для того, чтобы описать какие ошибки относятся к тому или иному статусу.

Когда бизнес-логика приложения усложняется, начинают делать как-то так:

HTTP 400 PUT /v1/task/1 { status: 'doing' }
Body: { error_code: '12', error_message: 'Задача уже взята другим исполнителем' }

Из-за ограниченности http статусов разработчики начинают вводить “свои” коды ошибок для каждого статуса и передавать их в теле ответа. Другими словами, пользователю API приходится писать нечто подобное:

if (status === 200) {
  // Success
} else if (status === 500) {
  // some code
} else if (status === 400) {
  if (body.error_code === 1) {
    // some code
  } else if (body.error_code === 2) {
    // some code
  } else {
    // some code
  }
} else if (status === 404) {
  // some code
} else {
  // some code
}

Из-за этого ветвление клиентского кода начинает стремительно расти: множество http статусов и множество кодов в самом сообщении. Для каждого ошибочного http статуса необходимо проверить наличие кодов ошибок в теле сообщения. От комбинаторного взрыва начинает конкретно пухнуть башка! А значит обработку ошибок скорее всего сведут к сообщению типа “Произошла ошибка” или к молчаливому некорректному поведению.

Многие системы мониторинга сервисов привязываются к http статусам, но это не помогает в мониторинге, если статусы используются для описания ошибок бизнес логики. Например, у нас резкий всплеск ошибок 429 на графике. Это началась DDOS атака, или кто-то из разработчиков выбрал неудачный статус?

Итог: Начать с таким подходом легко и просто и для простого API это вполне подойдет. Но если логика стала сложнее, то использование статусов для описания того, что не укладывается в заданные рамки протокола http приводит к неоднозначности использования и последующим костылям для работы с ошибками. Или что еще хуже к формализму, что ведет к неприятному пользовательскому опыту.

№2: На все 200

Есть другой подход, даже более старый, чем REST, а именно: на все ошибки связанные с бизнес-логикой возвращать 200, а уже в теле ответа есть информация об ошибке. Например:

Вариант 1:

Success:
HTTP 200 GET /v1/user/1
Body: { ok: true, data: { name: 'Вася' } }

Error:
HTTP 200 GET /v1/user/1
Body: { ok: false, error: { code: 1, msg: 'Не найден пользователь' } }

Вариант 2:

Success:
HTTP 200 GET /v1/user/1
Body: { data: { name: 'Вася' }, error: null }

Error:
HTTP 200 GET /v1/user/1
Body: { data: null, error: { code: 1, msg: 'Не найден пользователь' } }

На самом деле формат зависит от вас или от выбранной библиотеки для реализации коммуникации, например JSON-API.

Звучит здорово, мы теперь отвязались от http статусов и можем спокойно ввести свои коды ошибок. У нас больше нет проблемы “впихнуть невпихуемое”. Выбор нового типа ошибки не вызывает споров, а сводится просто к введению нового числового номера (например, последовательно) или строковой константы. Например:

module.exports = {
  NOT_FOUND: 1,
  VALIDATION: 2,
 // ….
}

module.exports = {
  NOT_FOUND: ‘NOT_AUTHORIZED’,
  VALIDATION: ‘VALIDATION’,
 // ….
}

Клиентские разработчики просто основываясь на кодах ошибок могут создать классы/типы ошибок и притом не бояться, что сервер вернет один и тот же код для разных типов ошибок (из-за бедности http статусов).

Обработка ошибок становится менее ветвящейся, множество http статусов превратились в два: 200 и все остальные (ошибки транспорта).

if (status === 200) {
  if (body.error) {
    var error = body.error;
    if (error.code === 1) {
      // some code
    } else if (error.code === 2) {
      // some code
    } else {
      // some code
    }
  } else {
    // Success
  }
} else {
  // transport erros
}

В некоторых случаях, если есть библиотека десериализации данных, она может взять часть работы на себя. Писать SDK вокруг такого подхода проще нежели вокруг той или иной имплементации REST, ведь реализация зависит от того, как это видел автор. Кроме того, теперь никто не вызовет случайное срабатывание alert в мониторинге из-за того, что выбрал неудачный код ошибки.

Но неудобства тоже есть:

Избыточность полей при передаче данных, т.е. нужно всегда передавать 2 поля: для данных и для ошибки. Это усложняет чтение логов и написание документации.
При использовании средств отладки (Chrome DevTools) или других подобных инструментов вы не сможете быстро найти ошибочные запросы бизнес логики, придется обязательно заглянуть в тело ответа (ведь всегда 200)
Мониторинг теперь точно будет срабатывать только на ошибки транспорта, а не бизнес-логики, но для мониторинга логики надо будет дописывать парсинг тела сообщения.

В некоторых случаях данный подход вырождается в RPC, то есть по сути вообще отказываются от использования url и шлют все на один url методом POST, а в теле сообщения передают все параметры. Мне кажется это не правильным, ведь url это прекрасный именованный namespace, зачем от этого отказываться, не понятно?! Кроме того, RPC создает проблемы:

нельзя кэшировать по http GET запросы, так как замешали чтение и запись в один метод POST
нельзя делать повторы для неудавшихся GET запросов (на backend) на реверс-прокси (например, nginx) по указанной выше причине
имеются проблемы с документированием – swagger и ApiDoc не подходят, а удобных аналогов я не нашел

Итог: Для сложной бизнес-логики с большим количеством типов ошибок такой подход лучше, чем расплывчатый REST, не зря в проектах c “разухабистой” бизнес-логикой часто именно такой подход и используют.

№3: Смешанный

Возьмем лучшее от двух миров. Мы выберем один http статус, например, 400 или 422 для всех ошибок бизнес-логики, а в теле ответа будем указывать код ошибки или строковую константу. Например:

Success:

HTTP 200 /v1/user/1
Body: { name: 'Вася' }

Error:

HTTP 400 /v1/user/1
Body: { error: { code: 1, msg: 'Не найден пользователь' } }

Коды:

200 – успех
400 – ошибка бизнес логики
остальное ошибки в транспорте

Тело ответа для удачного запроса у нас имеет произвольную структуру, а вот для ошибки есть четкая схема. Мы избавляемся от избыточности данных (поле ошибки/данных) благодаря использованию http статуса в сравнении со вторым вариантом. Клиентский код упрощается в плане обработки ошибки (в сравнении с первым вариантом). Также мы снижаем его вложенность за счет использования отдельного http статуса для ошибок бизнес логики (в сравнении со вторым вариантом).

if (status === 200) {
  // Success
} else if (status === 400) {
  if (body.error.code === 1) {
    // some code
  } else if (body.error.code === 2) {
    // some code
  } else {
    // some code
  }
} else {
  // transport erros
}

Мы можем расширять объект ошибки для детализации проблемы, если хотим. С мониторингом все как во втором варианте, дописывать парсинг придется, но и риска “стрельбы” некорректными alert нету. Для документирования можем спокойно использовать Swagger и ApiDoc. При этом сохраняется удобство использования инструментов разработчика, таких как Chrome DevTools, Postman, Talend API.

Итог: Использую данный подход уже в нескольких проектах, где множество типов ошибок и все крайне довольны, как клиентские разработчики, так и бэкендеры. Внедрение новой ошибки не вызывает споров, проблем и противоречий. Данный подход объединяет преимущества первого и второго варианта, при этом код более читабельный и структурированный.

Самое главное какой бы формат ошибок вы бы не выбрали лучше обговорить его заранее и следовать ему. Если эту вещь пустить на “самотек”, то очень скоро обработка ошибок в проекте станет невыносимо сложной для всех.

P.S. Иногда ошибки любят передавать массивом

{ error: [{ code: 1, msg: 'Не найден пользователь' }] }

Но это актуально в основном в двух случаях:

Когда наш API выступает в роли сервиса без фронтенда (нет сайта/приложения). Например, сервис платежей.
Когда в API есть url для загрузки какого-нибудь длинного отчета в котором может быть ошибка в каждой строке/колонке. И тогда для пользователя удобнее, чтобы ошибки в приложении сразу показывались все, а не по одной.

В противном случае нет особого смысла закладываться сразу на массив ошибок, потому что базовая валидация данных должна происходить на клиенте, зато код упрощается как на сервере, так и на клиенте. А user-experience хакеров, лезущих напрямую в наше API, не должен нас волновать?HTTP

Комментарии (36)

arthuriantech
09.03.2021 20:00
#22783984
Если почитать апологетов REST, то для кодов ошибок надо использовать HTTP статусы, а текст ошибки отдавать в теле или в специальном заголовке.
Не нужно читать апологетов, нужно читать первоисточники. REST ничего не говорит о том, каким образом использовать HTTP-коды (вообще, редкие упоминания HTTP в REST используются только в качестве примеров).
Если говорить об API, то я полностью согласен с автором. Из общих соображений ясно, что стандартный (и даже расширенный по WebDAV) набор HTTP-кодов никогда не покроет ошибки предметной области. Но вместо того, чтобы косплеить HTTP с его числовыми кодами, я бы предпочитал использовать уникальное имя ошибки. Такой подход удобно маппится на классы исключений в Python:
```
{
    "error": "SMSGatewayError",
    "message": "СМС-шлюз не отвечает, попробуйте позже"
}
```

akuranda
09.03.2021 20:42
#22784082
HTTP 400 PUT /v1/task/1 { status: 'doing' }
Body: { error_code: '12', error_message: 'Задача уже взята другим исполнителем' }
Это очень странный подход использовать 400 ошибку в данном случае, 400 — это общая ошибка бизнес-логики. Здесь отлично подходит например HTTP/409.

В целом пространства 4хх ошибок вполне достаточно для четкого и понятного описания ошибок апи, а расширенные описания ошибок также ложатся в схему тела ответа при статусе 400 например
```
  {
    "code": "string",
    "message": "string"
  }
```
и даже позволяют делать неограниченный уровень вложенности:
```
{
    "code": "authorization_failed",
    "subError": {
        "code": "payment_tool_rejected",
        "subError": {
            "code": "bank_card_rejected",
            "subError": {
                "code": "cvv_invalid"
            }
        }
    }
}
```
Так что считаю проблему несколько надуманной (ну и для тех кто использует статус HTTP/200 при отдаче ошибки приготовлен специальный отдельный котел в аду).
1. apapacy
  09.03.2021 21:18
  #22784194
  +2
  За что я обожаю restfullapi, так это за то какое время тратится на меня г том какой статус и где подходит лучше всего.
  Все-таки реко орые статусы кажется неплохо и оставить. Например 401, 403 потому что их зачастую переносят на сторону веб сервера или других промежуточных серверов.
  1. innovaIT
    10.03.2021 04:38
    #22784944
    1С так делает. 401, 403, 406, 500. При этом выбора у меня нет что отдать в теле ответа. Только то что посчитает нужным 1С. Хоть бы настройку добавили щаворачивать в JSON.
1. arthuriantech
  09.03.2021 21:38
  #22784250
  400 — это общая ошибка бизнес-логики
  400 означает синтаксически битый запрос, грубую ошибку клиента. Например, прислали XML вместо JSON или вообще сломали заголовки. Или тут что-то другое имелось ввиду?
  1. akuranda
    09.03.2021 22:19
    #22784372
    -1
    я писал в контексте идеологии REST, не чистые хттп коды
    
    arthuriantech
    09.03.2021 22:43
    #22784446
    -1
    Что за идеология?

AlexSpaizNet
09.03.2021 20:56
#22784140
+2
Мне кажется все к этому приходят. Более того, часто и одного уровня ошибки не хватает, потому что могут быть разные причины приводящие к одной ошибке, и нужно реагировать по разному.

Поэтому можно неделю потратить на обсуждение формата ошибок с коллегами споря о кошерности того или иного решения.

Я обычно советую не изобретать велосипед, а посмотреть что делают гиганты и взять что то среднее.

Например фейсбук использует
```
{
  "error": {
    "message": "Message describing the error", 
    "type": "OAuthException", 
    "code": 190,
    "error_subcode": 460,
    "error_user_title": "A title",
    "error_user_msg": "A message",
    "fbtrace_id": "EJplcsCHuLu"
  }
}
```
Twitter
```
{
  "errors": [
    {
      "parameter": "start_time",
      "details": "invalid date",
      "code": "INVALID_PARAMETER",
      "value": "",
      "message": "Expected time, got \"\" for start_time"
    }
  ],
  "request": {
    "params": {
      "account_id": "hkk5"
    }
  }
}
```
Ведь не от хорошей жизни они пришли к этому :)

ultrinfaern
09.03.2021 22:35
#22784422
С ошибкой 404 тоже все просто. REST энпоинты можно разделить на два типа — спичок и конечный объект, например:
/users — список пользователей
/users/123 — пользователь с ид= 123.
Чтобы соответствовать HTTP, применим правило — если в адресе эндпоинта какого-то объекта нет, то ошибка 404.
То есть:
/users — арес всегда правильный, возвращаем всегда список (или пустой список)
/users/123 — если пользователя 123 нет, то ошибка 404 иначе возвращаем объект.
Ну и понятно, что это утрировано, и дальше если обект есть но у него проблемы
то могут кидаться уже ошибки с другими кодами.
1. AlexSpaizNet
  09.03.2021 23:55
  #22784610
  +2
  А еще бывает весело когда кто-то вешается на 404-ю ошибку что бы удалить у себя что-то связанное с объектом (ну потому что 404, значит объект был удален). А потом выясняется что что кто-то баг засунул в роутинг или настройки лоадбалансера/прокси или еще чего. Вот и получили блокер на ровном месте. Поэтому мы всегда проверяем респонс, даже когда это 404-я.
  1. ultrinfaern
    10.03.2021 00:58
    #22784750
    Часто api плохо описано, и без эксперимента не разобраться как оно работает. Те, кто никогда не обжигался на этом, читают такое описание и начинают додумывать — если объект был и его не стало, то наверное его удалили…
1. fkthat
  10.03.2021 02:52
  #22784876
  Все правильно. В REST всегда path-часть URL это адрес какого-то ресурса (сущности). 404 это отсутствие ресурса соответствующего данному URL. Поэтому любой запрос (GET/PUT/DELETE, etc) по URL /users/42 если нет юзера с ИД 42 должен возвращать 404, и возвращать при этом что-либо другое это полное невежество.
  1. arthuriantech
    10.03.2021 08:11
    #22785094
    В REST всегда path-часть URL это адрес какого-то ресурса (сущности).
    Ресурс адресуется по всему URI (кроме fragment), включая host, path и query, а не только по его path-части. Т.е. /users/42?v=1 и /users/42?v=2могут адресовать два разных ресурса.
    https://greenbytes.de/tech/webdav/rfc3986.html#query
    
    ivanych
    11.03.2021 02:15
    #22790166
    Делайте строже. Адресуйте ресурс только путём, без параметров. А параметрами задавайте какие-то свойства ресурса, которые всегда есть или, в худшем случае, null.
    
    Например, пусть v=2 будет версией данных user-а. И, допустим, такой версии ещё нет. Тогда сделайте адресацию так — /users/42/2 и пусть такой запрос выдаёт 404.
    
    fkthat
    11.03.2021 05:52
    #22790388
    Делайте строже. Адресуйте ресурс только путём, без параметров. А параметрами задавайте какие-то свойства ресурса,
    Да, именно так и делаем. Путь — ресурс. Query string — параметры его "представления". Вот, например /users/?sort=name: /users = ресурс "коллекция всех пользователей", sort=name — "выдать с сортировкой по имени".

fkthat
10.03.2021 00:33
#22784704
+2
```
HTTP 400 /v1/user/1
Body: { error: { code: 1, msg: 'Не найден пользователь' } }
```
Вот за такое надо отправлять до посинения читать учебники.

fkthat
10.03.2021 00:38
#22784716
+1
REST скорее концепция, чем формат общения из чего следует неоднозначность использования статусов.
Нет никакой неоднозначности. Есть просто непонимание многими разработчиками REST.
1. gwg605
  10.03.2021 05:34
  #22784974
  Недопонимание есть, а как правильно то?
  1. fkthat
    10.03.2021 05:48
    #22784988
    Ну можно прочитать хотя бы несколько первых глав "REST in Practice". А то, ведь, от таких "REST API", наподобии:
    
    POST /users/delete { "Id": 42 }
    
    уже плакать хочется. Уже начинаешь даже радоваться, что хотя бы POST, а не GET — и на том спасибо.
    
    apapacy
    10.03.2021 15:35
    #22787320
    Все эти best practic в которых описаны CRUD операции для простых ресурсов (имеется в виду простые одноуровневые объекты) разлетаются в щепки на первых 5 минутах разработки реального проекта отличного от TODOAPP.
    
    fkthat
    10.03.2021 15:39
    #22787340
    Да как бы разрабатывал проект в котором >20 микросервисов было — ничего в щепки не разлеталось почему-то.

gwg605
10.03.2021 05:42
#22784982
-1
А зачем вообще использовать 4ХХ рендж? почему не 500 + детали в теле? Это мне кажется более логичным. Хотя сам не использую HTTP коды для бизнес логики, те всегда 200 код если отработал скрипт и сформировал ответ, исключения: если надо клиенту указать определенные дествия предписанные HTTP протоколом, типа 301/302/401 и т.п.
1. ultrinfaern
  10.03.2021 10:00
  #22785334
  Потому что:
  2xx — успех
  3xx — перенаправление
  4xx — ошибка клиента
  5xx — ошибка сервера
  1. Ommonick
    10.03.2021 10:24
    #22785416
    6хх — ошибки бизнеса
    (кажется нам этого нехватает)
    
    fkthat
    10.03.2021 10:40
    #22785482
    Ошибка бизнеса это 400 — клиент отправил плохой запрос, например, пытается снять денег со счета больше чем у него есть. Или 403 — клиент запросил операцию, которую ему выполнять не по масти. Или 401 — то же, что и предыдущее, но клиент вообще не предоставил никкаих креденшиалов. А для дополнительной информации об ошибке есть "RFC7807: Problem Details for HTTP APIs"
    
    Ommonick
    10.03.2021 13:39
    #22786542
    Как раз похоже что 400 статусы — это всякие ошибки валидации/авторизации/актуальности (отсутствия протухших кэшей), проверки сумм и всякое такое. И это больше сервисное чем бизнесовое. Поэтому зачастую попытки уместить ошибки в существующие статусы становятся похожи на натягивание совы на глобус и разработчики просто решают отдать 200 со статусом в отдельном поле, полезной нагрузкой и указанием ошибки (если требуется)
    
    fkthat
    10.03.2021 13:43
    #22786566
    Как раз похоже что 400 статусы — это всякие ошибки валидации/авторизации/актуальности
    А валидация это что — не бизнес-логика?
    
    разработчики просто решают отдать 200 со статусом в отдельном поле, полезной нагрузкой и указанием ошибки (если требуется)
    Я уже привык. Если запрос, то только POST. Если ответ, то только 200. Хорошо. Видел, как даже 500 в 200 упаковывали.
    
    Ommonick
    10.03.2021 14:23
    #22786852
    Под валидацией я понимаю корректность запроса (форматы дат, буквы в string полях — представляющие цифры, отсутствие необходимых полей, наличие взаимоисключающих полей и прочей лабуды). По идее для хорошего тест-дизайна неплохо разделять кейсы валидации от бизнес кейсов (например попытка указать скидку выше 100% в параметре или дату позже даты окончания действия какой-нибудь задачи)
    
    Про привычку — думаю это рационально. Как раз с переходом на gRPC может оправдать себя.
    
    fkthat
    10.03.2021 15:37
    #22787330
    А что — намечается повальный переход на gRPC?
    
    Ommonick
    10.03.2021 15:47
    #22787410
    Не могу утверждать этого. Просто заметил растущую популярность его использования.
    
    ivanych
    11.03.2021 02:26
    #22790180
    Пишем метод, который делит апельсин на указанное количество участников X.
    
    Проверка, что X не равно нулю — это валидация или бизнес-кейс?
    
    На самом деле нет никакой разницы. X должен быть больше нуля и всё тут. Если не больше — ошибка 400.
    
    innovaIT
    11.03.2021 23:45
    #22795148
    Так это все укладывается в bad request. Читаем как написано. Плохой запрос. И в него уже можно положить, а что же плохо.
    
    innovaIT
    11.03.2021 23:49
    #22795152
    Автор все правильно написал. Я как фулстек стараюсь на клиенте ошибки вообще не валидировать. 200 — ок смотрим что внутри. Остальное — тупо пишем пользователю, то что сервер прислал в описании ошибки.
1. OlegStrekalovsky
  10.03.2021 22:04
  #22789464
  Не стоит использовать 5xx в штатных сценариях, т.к. часто на эти коды вешают какой нить высокоуровневый алертинг по умолчанию. Ops-ы вас проклянут за такое.
  1. innovaIT
    11.03.2021 23:52
    #22795162
    А можно поподробней? Для меня 5хх это трабла с сервером, и это наивысший приоритет. Значит сломалось все и у всех.
    
    OlegStrekalovsky
    12.03.2021 10:59
    #22796442
    Иногда Ops-ы вешают мониторинг 5xx ошибок на корневом балансере в попытке быстро понимать, когда что-то перестало нормально отвечать. Этакий ультимативный способ понимать, что что-то случилось, когда нет более гранулярного способа детектировать проблемы на уровне самих обработчиков запросов (особенно когда за балансером стоит их целый каскад). Если разработчики введут использование 5xx кодов как нечто нормальное, то Ops-ы будут часто тригериться на эти false positive. В прекрасном будущем, когда везде будет devops и плоская иерархия команд, отвечающая за прод и никакого верхнеуровневого мониторинга не потребуется, разработчики наверно смогут использовать любые коды, которые им понравятся. Но даже тогда если вы захотите реализовать внешний «планетарный мониторинг» вашего сервиса, то специализированные сервисы, которые будут «обзванивать» ваш прод, вряд ли оценят отдачу 5xx вместо 2xx, когда проблем у сервиса нет.