Об авторе: Дэниель Лемер — профессор компьютерных наук в Университете Квебека (Канада). Его исследования затрагивают производительность программного обеспечения и инженерию данных

Компьютеры хранят данные как поток бит. Как изображения, аудио- или видеофайлы, так и бинарные файлы могут содержать практически любую последовательность бит.

Однако мы часто используем текстовые форматы; например, веб-страницы и электронные письма должны быть в текстовом формате. Как же мы отправляем изображения по электронной почте? Как внедряем картинки на веб-страницы? Один из вариантов — поставить ссылку на реальный бинарный файл. Другой типичный подход — встроить бинарный файл непосредственно в тело письма или веб-страницы с помощью base64. Base64 — это просто стандартный текстовый формат, который можно использовать для кодирования любых бинарных данных. Если быть точным, то код base64 — всегда валидный текст ASCII (и поэтому также валидный UTF-8). Каждый байт кода base64 содержит 6 бит данных. То есть мы «теряем» примерно 2 бита на байт. Поэтому эквивалент base64 бинарного файла будет примерно на 33% больше. На практике такое увеличение размера редко становится проблемой. Насколько я знаю, приложения к электронным письмам почти всегда кодируются в base64.

При написании HTML я нашёл удобным внедрять изображения напрямую в HTML-код с помощью схемы data URI. Например, в недавней статье я таким образом закодировал файл PNG. Крупнейшие веб-сайты вроде Google постоянно используют эту схему. Небольшим недостатком становится то, что веб-страницы чуть увеличиваются в размере (что очевидно) и нельзя воспользоваться преимуществами кэширования изображений. Но зато браузер экономит один сетевой запрос.

Если вы веб-разработчик, то можете использовать Web Storage для создания базы данных для вашего приложения на клиентской стороне. Эта клиентская БД будет хранить изображения и произвольные данные, но они все должны быть закодированы в base64.

Большинство движков баз данных поддерживают бинарные данные, но некоторые требуют в какой-то момент кодирования в base64: это MongoDB, Elasticsearch, Amazon SimpleDB и Amazon DynamoDB. Вероятно, и какие-то ещё.

Base64 повсеместно используется в криптографии для обмена ключами. Форма base64 также используется для передачи произвольных данных в составе URI.

К счастью, кодирование и декодирование base64 происходят быстро. Хотя есть случаи, когда недостаточная скорость может стать проблемой. Мэтт Крейн и Джимми Лин обнаружили медленное декодирование бинарных атрибутов base64 в Amazon DynamoDB.

Насколько быстро вы можете декодировать данные base64? На последнем процессоре Intel это требует примерно двух циклов на байт (из кэша) при использовании быстрого декодера вроде того, что встроен в браузер Chrome. Этот быстрый декодер, в основном, занят обращениями к таблице. Это намного медленнее, чем копирование данных в кэше (что занимает менее 0,05 циклов на байт).

Это лучшее, что можно получить?

Несколько лет назад Альфред Клопп показал, что можно добиться гораздо лучшего результата при использовании векторных инструкций. Войцех Мула, я сам и несколько коллег (в том числе Говард и Курц) решили серьёзно пересмотреть проблему. Мула открыл веб-страничку, посвящённую этой теме.

Мы обнаружили, что можно ускорить обработку в 10 раз и использовать всего около 0,2 циклов на байт на последних процессорах Intel при использовании векторных инструкций. Это по-прежнему больше, чем копирование, но намного меньше лимита, способного когда-либо стать самым узким местом системы. Должен обратить внимание, что в эти 0,2 цикла на байт входит обработка ошибок: декодер должен декодировать и проверять входные данные (например, если найдены недопустимые символы, то декодирование отменяется).

Код для нашего исследования доступен, так что можете воспроизвести результаты. Наша статья опубликована на arXiv и принята для публикации в веб-версии ACM Transactions.

Насколько я понимаю, наши хорошие результаты интегрированы в библиотеку base64 Кломпа.

Дополнительные материалы:


Войцех Мула, Дэниель Лемер, «Более быстрое кодирование и декодирование Base64 с использованием инструкций AVX2», веб-версия ACM Transactions (скоро)

Комментарии (8)


  1. homm
    30.01.2018 16:37
    +9

    Закончилось совершенно неожиданно. Это могло бы быть классным всуплением для интересной статьи.


  1. Dark_Purple
    30.01.2018 18:12
    +2

    То есть ни алгоритмов, ни чего? А название было интригующее.



  1. onyxmaster
    30.01.2018 22:42

    Главное не забыть, что при использовании AVX-инструкций ограничивается максимальная частота TurboBoost для ядер, и что смешивать AVX2 и обычную нагрузку часто не стоит :)
    Хотя может в современных ядрах политику ограничения улучшили...


    1. homm
      31.01.2018 15:39

      ограничивается максимальная частота TurboBoost для ядер

      Это больше касается операций с плавающей точкой. А там:


      Our AVX2 decoder does not use floating-point numbers.


      1. onyxmaster
        31.01.2018 16:08

        Я нигде не встречал указаний на то, что это именно про плавающую точку.
        Например в www.intel.com/content/dam/www/public/us/en/documents/white-papers/performance-xeon-e5-v3-advanced-vector-extensions-paper.pdf упоминается плавающая точка, но формулировки про пониженную частоту ссылаются просто на «AVX instructions», а не на «floating-point AVX instructions».
        Возможно я плохо смотрел, если у вас есть полезная ссылка, то я бы почитал, заранее спасибо.


        1. homm
          01.02.2018 02:22

          Только прктические результаты в моей статье )


          https://habrahabr.ru/post/326900/
          Последние три абзаца.


          1. onyxmaster
            01.02.2018 10:17

            Помню что читал вашу статью, но видимо невнимательно.
            Кстати, там в комментариях есть ссылка (http://repnop.org/pd/slides/PD_Haswell_Architecture.pdf), где на 21 странице сказано, что «Not all AVX instructions cause a drop in frequency. Scalar AVX unaffected.», так что вопрос закрыт, спасибо за статью =)