Сегодня мой проект перешёл на следующий уровень под названием “10G” :-)

Закончился расчёт MOLAP куба размером больше 10 000 000 000 (10 миллиардов) ячеек.
Возможно, что такое у кого-то происходит каждый день, но вот наконец то и я смог )))

В деталях:
1. Размер куба 300 ГБ (сжат “gz”), примерный размер несжатого куба 3 ТБ.
2. Время затраченное на расчёт куба 227 часов одного процессорного ядра (3.4GHz).
3. Также затрачено 7.15 ТБ ресурсов ввода вывода :-) на 6-ти жёстких дисках.
4. Примерное время расчёта на трёх-нодовом hadoop-кластере одни сутки (24 часа).
5. Из функций агрегаций/анализа были использованы Sum,Count,Max,stdstat(группа функций :Count,Sum,Max,Min,Avg).

При этом была обнаружена следующая проблема:
1. Функция хеширования «SHA256» произвела хеши с не равномерным распределением :-(, и из-за этого
перекоса 2/3 данных обрабатывалось на 1/3 процессоров :-), что собственно замедлило время расчёта куба.

Продолжаю работу ….

Комментарии (15)


  1. Invision70
    17.12.2015 01:58
    +12

    wtf?


    1. maximw
      17.12.2015 10:36

      Скоро тут recovery mode и wtf станут синонимами.


  1. YourChief
    17.12.2015 02:02
    +8

    Вот так история!


  1. amarao
    17.12.2015 02:19
    +4

    Два 10G можно объединить бондингом в 20G, плюс любой приличный редактор обсчитает не только кубик, но и его освещение.

    Да, про что вы там говорили?


    1. dMetrius
      17.12.2015 08:17
      +1

      «любой приличный редактор обсчитает не только кубик, но и его освещение.»
      MOLAP, освещение кубика…
      вы точно об одном и том же? )


  1. Valle
    17.12.2015 03:03

    А можно поподробнее про Sha-256?


    1. eaa
      17.12.2015 10:38

      Вот да, статья как-то не понятно о чем, но вот что случилось с sha256? Неужто распределение там неравномерное стало?


      1. demitsuri
        17.12.2015 10:48

        Хотя бы за данные по SHA256 не стоит сливать автора. Ему необходимо научиться писать статьи. И в качестве попытки реабилитации статья о неравномерности распределения хэшей подойдёт просто идеально. Даже если конечный результат будет «ой, я ошибся и поспешил с выводами».


  1. r00tGER
    17.12.2015 09:08
    +2

    Срочно осваивайте Твиттер.


  1. knagaev
    17.12.2015 09:38
    +6

    Держите нас в курсе


  1. nonname
    17.12.2015 10:28

    А я позавтракал.


    1. Yahweh
      17.12.2015 10:50

      Тема не раскрыта: что ел? Лучше с фотками из инстаграмма


  1. yorko
    17.12.2015 11:24

    Намедни подкатил к телке.
    Возможно, у вас такое происходит каждый день, но я наконец-то смог)))))))))))))))

    В деталях:
    1. Прошёл 4 курса пикапа.
    2. Изучил 17 тем для ice-breaking
    3. Потратил 1856 рублей на напитки и еду.

    При этом была обнаружена следующая проблема:
    1. Мне не дали

    Продолжаю работу…


    1. Aclz
      17.12.2015 11:39

      Намедни подкатил к телке с темой «Функция хеширования «SHA256» произвела хеши с не равномерным распределением».


  1. ZlodeiBaal
    17.12.2015 11:47

    Добрый день дорогой дневник.