Перекладывая на современный лад одну известную теорему, можно смело утверждать, что абстрактный пользователь, ударяя случайным образом по клавишам своего ПК в течение неограниченно долгого времени, рано или поздно напечатает «Войну и Мир». И если кому-то это кажется гротескным преувеличением, то для большинства ИТ-менеджеров такая ситуация является нормальным положением дел, за исключением того, что вместо вместо абстрактного пользователя у них имеются несколько сотен вполне конкретных сотрудников, которые в течение всего рабочего дня стучат по клавишам, ведя переписку с клиентами, контрагентами и, конечно же, друг с другом. Нет ничего удивительного в том, что за день каждый из таких сотрудников генерирует количество текста, сопоставимое с третьим томом уже упомянутого романа «Война и Мир», а объем почтовой переписки за месяц исчисляется десятками гигабайтов.

image

Все это выглядело бы как очередной забавный факт из жизни работников офисного труда, если бы не одно «но» — бизнес требует от ИТ-менеджера не только постоянно хранить, но и резервировать всю сгенерированную переписку, архив с которой после нескольких лет работы предприятия разрастается до невероятных размеров и требует приобретения дорогостоящих систем хранения данных как под сам архив, так и под его резервную копию. Но, как это часто бывает, руководство не спешит выделять средства на приобретение продвинутых СХД и ИТ-менеджеру приходится идти на различные ухищрения, чтобы выполнить задачу имеющимися средствами. Особенно остро вопрос снижения объемов архива почты и резервной копии стоит перед теми, кто арендует хранилище, то есть фактически платит за размер своего бэк-апа, для них сжатие позволяет добиться прямой экономии бюджета.

Open-source версия Zimbra Collaboration Suite позволяет уменьшать занимаемый бэкапом объем хранилища за счет алгоритмов архивации данных. Уменьшить объем почтового архива, с которого снимаются бэкапы, пользователи Zimbra OSE не могут. Такая возможность наиболее востребована среди крупных предприятий, ведь именно там архивы с почтовой перепиской могут достигать невероятных размеров, при которых снятие резервных копий и их восстановление может длиться несколько суток. Именно поэтому внедрение подобной системы сжатия является опциональным и становится возможным за счет приобретения и установки специального расширения — зимлета ZxPowerstore, входящего в состав ZeXtras Suite.

Зимлет добавляет в Zimbra алгоритмы дедупликации — удаления повторяющихся элементов методом transparent item referencing. Иными словами, если менеджеры условной компании устроят массовую рассылку одинаковых презентаций тысяче клиентов, то на ее сервере не будет храниться тысяча вложенных в письма файлов. Благодаря алгоритмам дедупликации, на сервере будет храниться только одна копия этого файла, а при загрузке писем будет загружаться единожды сохраненный элемент. И если этот частный случай представить в промышленном масштабе, то окажется, что за счет этого алгоритма можно значительно сократить занимаемое почтовым архивом место. И когда речь идет о терабайтах данных, это позволяет сэкономить немало денег на системах хранения данных и огромное количество времени на резервировании и разворачивании почтового архива в будущем. Интересно и то, что для инициирования работы алгоритма дедупликации достаточно нажать всего одну кнопку в администраторской консоли Zimbra.

image

Запуск алгоритма дедупликации можно осуществить и в командной строке Zextras. Для этого надо ввести команду «zxsuite powerstore doDeduplicate» и указать наименование хранилища. После того как алгоритм просканирует хранилище, он выдаст отчет в котором прямо укажет, сколько дискового пространства ему в итоге удалось освободить. Также можно настроить зимлет ZxPowerstore таким образом, что дедупликация будет происходить в автоматическом режиме с определенной периодичностью Также в алгоритм заложена возможность игнорировать те данные, которые уже были дедуплицированы и работать только с теми файлами, которые появились с момента последнего запуска. В тех случаях, когда объем архива исчисляется терабайтами, такой подход позволяет экономить огромное количество времени.

Результаты внедрения ZxPowerstore SaaS-провайдером показывают, что сжатие и дедупликация данных при работе с электронной почтой способны на порядок сократить стоимость владения инфраструктурой и в отдельных случаях даже повысить прибыльность бизнеса.

Комментарии (7)


  1. gotch
    26.06.2018 13:20

    Могли бы вы рассказать, какой вы рекомендуете размер одной базы данных с ящиками, и сколько баз можно создать на сервере? Есть ли лимит на количество ящиков в базе?


    1. KaterinaZextras Автор
      26.06.2018 16:00

      Жесткого ограничения по числу почтовых ящиков на сервере нет, но после создания 3-4 тысяч ящиков может потребоваться ручная оптимизация настроек сервера, при условии, что большая часть пользователей будет работать с почтой через веб-интерфейс. Если же большинство будет использовать IMAP или POP, то эти цифры, естественно, возрастут. Если требуется сделать более 3000 почтовых ящиков, то лучше всего будет создать мультисерверную инфраструктуру и разделить ящики на два и более почтовых серверов.


      1. gotch
        26.06.2018 16:37

        Могли бы вы в общих чертах пояснить подход к дизайну хранилища продукта? Например, Microsoft Exchange отказался от идеи дедупликации в пользу увеличения числа БД и использования компрессии. А у вас видимо сообщения хранятся просто в отдельном томе со своей файловой системой (как это было в Exchange 2000)?

        Расскажите, интересно сравнить подходы.


        1. KaterinaZextras Автор
          26.06.2018 18:49

          Zimbra практикует иные подходы к дизайну хранилища, нежели Exchange. Данные в Zimbra сохраняются на «томах», в то время как метаданные и информация индексирования сохраняются в базе данных MariaDB.

          Исходная версия Zimbra Open Source Edition использует систему томов на основе файловой системы, где вы можете иметь несколько томов на каждом экземпляре mailboxd на одном уровне.

          Zextras Powerstore добавляет возможность создания нескольких вторичных томов, которые автоматически перемещают данные между уровнями через политики HSM, а также возможность нативного хранения томов в HTTP-хранилище, таких как S3-based, Amazon S3, Dell / EMC ECS, Scality и другие. Кроме того, в течение нескольких недель мы планируем добавить поддержку других HTTP- и блочных хранилищ.

          Компрессия же доступна как в базовой версии Zimbra, так и в Zextras Powerstore. Имеется возможность настраивать уровень сжатия и применять их к каждому тому. Дедупликация выполняется на двух уровнях. Дедупликация на уровне кеша выполняется Zimbra при получении электронной почты, а дедупликация на уровне тома может быть запущена в любое время через командный или графический интерфейсы Zextras Powerstore.

          Все операции управления томами могут выполняться в реальном времени совершенно незаметно для пользователей системы — нет необходимости закрывать какие-либо службы или как-то ограничивать пользователей при работе с томами.

          И, что касается резервного копирования, наш Zextras Backup имеет обособленный неделимый набор данных, а операции резервного копирования и восстановления не включают в себя данные, генерируемые в реальном времени.


          1. gotch
            27.06.2018 08:41

            А чем принципиально отличается хранилище бесплатной версии от коммерческой?


            1. KaterinaZextras Автор
              27.06.2018 11:27

              В бесплатной версии с открытым исходным кодом все локальные тома хранятся на одном уровне, а при использовании зимлета Zextras Powerstore появляется два уровня хранилища и возможность хранения данных на S3 и других HTTP- или блочных коммерческих хранилищах. Кроме того, Zextras Powerstore включает в себя алгоритмы дедупликации, который вкупе с использованием сжатия позволяет освободить до 30-40% дискового хранилища.


  1. knstqq
    26.06.2018 14:12
    +1

    Это не блог «сжатие данных». Нет описания алгоритов, идей, анализа, никаких новых мыслей.
    Пожалуйста, уберите из этого блога и добавьте в SaaS или какой-нибудь другой.