Переменная величина – атрибут (свойство) системы, меняющий свое числовое значение. Множество значений переменой величины может иметь вид:


Ряд чисел


Человек анализирует числовые данные такого рода и принимает решения. Знание температуры воздуха помогает правильно одеться. Курс валюты говорит покупать ее или продавать.


Когда значений одно или несколько, то никаких трудностей не возникает. Но когда значений десятки или сотни, то человеку сложно сразу понять, что означают полученные данные. На помощь приходят интегральные характеристики множеств значений и визуализация.


Одна из интегральных характеристик множества значений переменной величины – среднее арифметическое. Посмотрим на него с точки зрения статистики, физики (механики) и эстетики.


Три точки зрения на числовые данные



Среднее арифметическое двух чисел


Начнем с минимального набора чисел, для которых можно подсчитать среднее арифметическое. Вот два числа:


Два числа


Их среднее арифметическое:


Среднее арифметическое двух чисел


Два наблюдения:


  • Среднее арифметическое находится посередине двух чисел (больше меньшего, но меньше большего).
  • Среднее арифметическое не всегда входит в анализируемый набор чисел (не равно ни одному из двух чисел).

Физический смысл среднего арифметического


Изобразим два исходных числа и их среднее арифметическое на числовой оси:


Числовая ось как весы


Числа помечены черными кружками, а среднее арифметическое красным треугольником. Полученная конструкция – это весы. Для весов в равновесии правило рычага требует, чтобы моменты сил были равны. Весы не наклоняются ни в одну, ни в другую сторону, так как крутящий момент отсутствует.


Правило рычага


В механике момент силы – это произведение силы F на расстояние l:


Момент силы


На плечи весов действует сила, создаваемая весом точек-"грузов". Обозначив расстояния от грузов до точки опоры l1 и l2, получим:


Равенство моментов двух сил


Точки-"грузы" отличаются только координатой на оси. Будем считать их вес одинаковым. Тогда:


Равенство плеч при одинаковых весах


Обозначив m координату точки опоры весов, получим:


Координата точки равновесия


Аналогично из формулы равенства моментов для произвольного количества N точек-"грузов" с одинаковым весом w выводится формула среднего арифметического. Равенство моментов для обоих плеч весов:


Равенство моментов для нескольких грузов


Координата опоры весов m:


Среднее арифметическое


Формула среднего арифметического дает координату точки опоры весов, находящихся в равновесии.


Визуальное восприятие равновесия


Равновесие в изобразительном искусстве играет важнейшую роль. Если при создании картины не достигнуто равновесие ее элементов, то произведение не будет законченным. В каждой картине художник создает равновесие различных визуальных сил.


Рудольф Арнхейм отмечает, что человеческое зрение способно обнаруживать малейшие отклонения от центра равновесия в изображении:


Центр квадрата и круг


На приведенном примере слева круг находится в состоянии равновесия, а справа нет. Несмотря на то, что точка равновесия (центр квадрата) никак не отмечена на рисунке, человек с большой точностью может определить, находится ли круг в этой точке или нет.


Несмотря на то, что точка равновесия может быть не изображена, человек воспринимает ее как часть визуальной структуры:


Невидимый центр квадрата воспринимается как существующий


Аналогично и среднее арифметическое: необязательно входит в набор чисел, но значимо для его восприятия и оценки.


Математическое ожидание случайной величины


Для случайной величины аналогом среднего арифметического служит математическое ожидание. Вероятность при этом можно считать весом точки-"груза". Формула равенства моментов с разными весами:


Равенство моментов с неравными весами


Теперь точка опоры весов в равновесии это ?:


Точка равновесия для разных грузов


Сумма всех вероятностей равна 1. Следовательно, и сумма весов равна 1. Тогда формула координаты точки весов в равновесии равна:


Математическое ожидание


Это и есть формула математического ожидания.


Гистограмма


Гистограмма – это визуализация (геометрическое изображение) значений переменной величины с учетом вероятностей. Гистограмма показывает для выборки значений, какие из них появляются часто, какие реже, а какие совсем редко.


На гистограмме возможные значения откладываются по горизонтальной оси, а веса – по вертикальной. Диапазон значений по вертикали очевиден – от 0 до 1 (значения вероятности). По горизонтали диапазон должен включать ожидаемые значения переменной.


Гистограмма представляет собой простую картину (экземпляр изобразительного искусства). Зритель ожидает, что точка равновесия множества значений будет ровно посередине гистограммы:


Ожидаемая точка среднего для распределения в центре гистограммы


Исходя из этого должен подбираться диапазон значений для горизонтальной оси гистограммы. Тогда сразу будет видно отклонение свойств выборки значений от ожидаемых:


Полученное среднее выборки смещено относительно ожидаемого


Такого рода отклонение может быть вызвано выбросами. Выбросы – это значения, сильно отличающиеся от остальных. Благодаря правилу рычага, даже небольшое количество выбросов меняет точку равновесия и среднее арифметическое:


Дайте мне точку опоры, и я переверну Землю. Архимед

Выводы


  • Среднее арифметическое – интегральная характеристика набора числовых данных (выборки). Применяется как описательная характеристика в совокупности с другими.
  • Нормально, что среднее значение не входит в набор данных. Среднее арифметическое не может заменить полное описание полученной выборки.
  • Интервал значений гистограммы должен быть подобран таким образом, чтобы ожидаемое среднее арифметическое было посередине. Тогда будет сразу видно отклонение параметров выборки от ожидаемых значений.
  • Среднее арифметическое подвержено влиянию выбросов – значений, сильно отличающихся от остальных значений переменной величины.

Ссылки


Поделиться с друзьями
-->

Комментарии (20)


  1. SystemXFiles
    09.01.2017 17:03
    +7

    На приведенном примере слева круг находится в состоянии равновесия, а справа нет.
    Прошу прощения за занудство, но круг слева НЕ находится в состоянии равновесия:
    Заголовок


    1. gamekoff
      09.01.2017 21:03

      Если круг в квадрате – это вид сверху на шар, лежащий на ровной поверхности, то обе картинки соответствуют разным положениям равновесия, которых в этом случае много.


    1. huran438
      09.01.2017 21:12
      -2

      Я думаю как раз в этом и есть соль примера… В малейших отклонениях)


    1. vmalino
      09.01.2017 22:04

      Спасибо за замечание. Поправил рисунок


  1. master65
    09.01.2017 21:13
    +5

    Спасибо автор, глаза открыл нам!


  1. Patroskan
    09.01.2017 21:13

    Удивительно, но зрение и вправду может определить малейшее нарушение центрирования на рисунке!
    И слева и справа круги смещены вверх вправо. Вам не показалось.


  1. Evgen52
    09.01.2017 21:13
    +1

    А как насчёт других средних: среднее геометрическое, медиана и так далее? Было бы здорово увидеть в сравнении.


    1. vmalino
      09.01.2017 22:32

      Пока в планах статья про дисперсию и стандартное отклонение. Но посмотрю, какие интересные сравнения есть для разных средних.


      1. Shamov
        10.01.2017 15:53

        Стандартное отклонение — особенно крутая штука. Я использую специальную шкалу на его основе для оценки сроков выполнения задач. В этой шкале всего три значения — одна сигма, две сигмы и три сигмы. Вероятность в одну сигму означает, что я уложусь в заявленный срок "скорее всего". Две сигмы — "почти наверняка". Три сигмы — "стопудово". Это фантастически удобно, когда высасываешь сроки из пальца. Говоришь что-то типа: "Две сигмы, что сделаю это за неделю… и три сигмы — что за две." Звучит очень солидно.


        1. gamekoff
          10.01.2017 16:43

          Ваш начальник должен быть начеку: каждую 333-юю задачу, оцененную в три сигма, вы не будете выполнять вовремя :)


  1. KvanTTT
    10.01.2017 00:29

    Имхо, слабоватая статья. Среднее арифметическое — самое легкое и банальное "среднее".
    Как уже отметили выше, было бы неплохо, если вы рассмотрели среднее геометрическое, гармоническое, в конце коцов cреднее степенное их всех объединяющее. Также было бы интересно про более экзотическое арифметико-геометрическое среднее и его применения.


    Если говорить про физику, то, например, для двухмерного многоугольника центры тяжести для взвешенных вершин, ребер и граней в общем случае будут различными.


    1. vmalino
      11.01.2017 20:42

      Среднее арифметическое — хороший пункт, чтобы начать и попробовать подход. В том числе благодаря легкости, а также распространенности. Именно поэтому оно и выбрано.
      Теперь смотрю и на другие метрики.


  1. ternaus
    10.01.2017 19:20

    Хорошо бы услышать как в различных задачах машинного обучения, какие методы усреднения лучше работают при составлении ансамблей из различных моделей в зависимости от данных / метрики.


    1. vmalino
      11.01.2017 20:46

      Про машинное обучение не подскажу. Я интересуюсь именно визуализацией данных: как помочь человеку быстро и точно воспринимать данные и т.п. Машинное обучение все-таки другая область.


  1. nickolaym
    11.01.2017 16:12

    На «хороших» гистограммах волшебным образом матожидание совпало с медианой и модой.
    То есть, картинки не учат отличать одно от другого.


    1. vmalino
      11.01.2017 20:48
      -1

      Для «хороших» распределений матожидание и должно совпадать с медианой и модой.

      На гистограмме не всегда четко видно, совпадают эти три метрики или нет. Нужно их отдельно отмечать линиями. Тогда будет видны различия, и можно делать выводы о распределении.


  1. Enmergal
    11.01.2017 20:16

    Помимо указанного выше, хотелось бы также увидеть формулы в более читаемом виде. Например, сверстанные при помощи LaTeX'а.


    1. vmalino
      11.01.2017 20:50

      Можете что-то посоветовать? Как эффективно добавлять формулы в публикации?

      Смотрел разные варианты, в т.ч. LaTeX. В страницу только в виде картинки можно добавить. Как и из Word'а. Усложняется редактирование формул и текста.


      1. Enmergal
        12.01.2017 13:46

        К сожалению, вряд ли я смогу что-то подсказать — сам этим пользуюсь не то чтобы активно. Как мне кажется, небольшое усложнение редактирования (по сути, добавляется только один шаг — получение изображений формул) не сильно скажется на времени подготовки статьи, однако сэкономит время читателя.


        1. vmalino
          12.01.2017 23:10

          Обновил формулы по вашей рекомендации. Спасибо за комментарий.