Автор статьи: Артем Михайлов
Номинативные данные — это категорические данные, которые описывают свойства или характеристики объектов без установки количественной меры, то есть без измерения. Они также могут быть определены как качественные данные, так как они не могут быть измерены количественно, и их значения могут быть только классифицированы.
В этой статье мы разберем подробнее понятие номинативных данных и их анализ.
Примерами номинативных данных могут быть цвета, виды растений, типы животных, пол, марки автомобилей, названия стран и т.д. Эти данные представлены в качестве категорий, которые характеризуют свойства объектов.
Номинативные данные широко используются в различных сферах, таких как маркетинг, исследование общественного мнения, научные исследования, медицинские исследования и т.д. Например, в маркетинге номинативные данные могут быть использованы для классификации товаров по бренду, типу и признакам, таким как цвет, размер и т.д. В исследовании общественного мнения номинативные данные могут быть использованы для классификации людей по принадлежности к определенной социальной группе или национальности.
При работе с номинативными данными необходимо учитывать, что они не предоставляют информацию о количественных измерениях, поэтому не могут использоваться для вычисления каких-либо числовых значений. Однако они могут быть полезны для описания и классификации объектов в рамках определенного контекста.
Характеристики номинальных данных включают:
1. Разрядность. Номинальные данные могут быть одноразрядными, то есть содержать всего одну категорию, или многоразрядными, когда имеется несколько категорий.
2. Количество наблюдений в каждой категории. Например, если мы рассматриваем пол, то мы можем рассчитать количество мужчин и женщин.
3. Распределение. Распределение номинальных данных может быть равномерным, если частотность в каждой категории примерно одинакова, или неравномерным, если некоторые категории имеют гораздо больше наблюдений, чем другие.
4. Степень мощности. Номинальные данные являются наименее мощным типом данных, поскольку они предоставляют только категории, но не позволяют проводить математические операции.
Методы анализа номинативных данных
Когда речь заходит об анализе номинативных данных, различные методы могут помочь нам повысить понимание исследуемых процессов. Рассмотрим три наиболее часто употребляемых метода анализа номинативных данных:
Один из самых простых и популярных методов анализа номинативных данных - это категоризация. Суть этого метода заключается в группировании данных по категориям. Категоризация может происходить по любому признаку – например, по полу, возрасту, доходу, образованию и работе, – что позволяет придать данным какой-то смысл и оказать на них влияние.
Категоризация данных может быть использована для сравнения различных групп или их подгрупп. Она может помочь нам выявить тенденции,большинства и меньшинства, а также обнаружить потенциальные проблемы. Кроме того, категоризация может использоваться для определения лучших возможностей для улучшения ситуации в различных группах.
Например, при анализе предпочтений покупателей интернет-магазина, можно разделить всех покупателей на категории: мужчины и женщины, возрастные группы, интересы, запросы и т.д. На основе этой категоризации можно определить, какие товары лучше продаются в каждой группе, какие товары не пользуются спросом и каким образом можно улучшить продажи в каждой категории.
Другой метод анализа номинативных данных — это использование таблиц сопряженности. Данный инструмент является наглядным способом представления взаимосвязи между двумя номинативными переменными.
В таблице сопряженности на пересечении каждой строки и столбца находятся данные соответствующих категорий. Эти данные позволяют оценить, есть ли статистически значимая связь между двумя переменными.
Таблицы сопряженности особенно полезны, когда нам нужно проанализировать данные большого объема, позволяя быстро обнаруживать тенденции и принимать соответствующие решения.
Для анализа номинативных данных на рандомном примере мы можем использовать таблицы сопряженности. Возьмем, например, опрос студентов о том, какие курсы они любят больше — математику или литературу.
Категории данных:
Предмет (математика, литература)
Пол (мужской, женский)
Пример таблицы сопряженности:
Из этой таблицы можно сделать следующие выводы:
Количество студентов, предпочитающих литературу, больше, чем математику.
Количество женщин, предпочитающих литературу, больше, чем мужчин.
Количество мужчин, предпочитающих математику, больше, чем женщин.
Наблюдается связь между предметом и полом студента.
Для более точного анализа можно использовать коэффициент Фишера или хи-квадрат тест, которые помогут определить статистическую значимость связи между переменными.
Тест хи-квадрат является статистическим методом анализа таблиц сопряженности. Он позволяет определить, имеется ли статистически значимая связь между двумя номинативными переменными. Результат теста хи-квадрат выражается в виде числа, называемого хи-квадратной статистикой. Если значение этой статистики превышает критическое значение для заданного уровня значимости, то можно сделать вывод о наличии связи между двумя переменными.
Для проведения теста хи-квадрат необходимо собрать данные в кросс-таблицу, где по горизонтали указываются значения одной переменной, по вертикали — значения другой переменной. Затем вычисляется наблюдаемая частота (то есть, сколько раз определенные значения встречаются в данных) и ожидаемая частота (сколько раз можно было бы ожидать встречу определенных значений при случайном распределении).
Поэтому, чтобы определить, есть ли статистически значимая связь между двумя номинальными переменными, используют тест хи-квадрат. Он вычисляет степень отклонения наблюдаемой частоты от ожидаемой частоты, чтобы определить, насколько случайный процесс влияет на связь между двумя переменными.
Если в результате теста хи-квадрат получен небольшой p-value (обычно меньше 0,05), то можно сделать вывод о том, что связь между двумя переменными статистически значима. Если же p-value больше 0,05, то нет статистически значимой связи между переменными.
Ограничения и проблемы анализа номинативных данных
Когда речь идет об ограничениях анализа номинативных данных, первое, на что нужно обратить внимание, это недостаток информации в категориях. В некоторых случаях, категории могут быть слишком абстрактными или же наоборот, содержать недостаточно информации для того, чтобы сделать выводы о зависимостях, связях и тенденциях в данных. Например, если мы анализируем профессии людей, одна категория может быть "различные специалисты", что очень расплывчато и не дает нам точных данных о реальном состоянии дел.
Еще одна серьезная проблема при работе с номинативными данными – это ошибки при вводе данных. Даже небольшая опечатка или смещение может привести к искажению результатов и сделать их непригодными для использования. Поэтому, перед началом анализа важно внимательно отнестись к этапу сбора и обработки данных.
И наконец, интерпретация результатов анализа номинативных данных не всегда однозначна. Иногда, кажущиеся очевидными зависимости могут оказаться ложными, а случаи, когда зависимости не видны с первого взгляда, на самом деле могут скрывать важные закономерности и тенденции. Поэтому, для правильной интерпретации результатов необходимо быть профессионалом в своем деле, а также иметь доступ к различным инструментам анализа данных.
Важно быть внимательным на этапе сбора данных, выбирать правильные категории и использовать профессиональные инструменты для анализа и интерпретации результатов. Только тогда анализ номинативных данных будет полезным инструментом в научных исследованиях.
Заключение
В заключение можно сказать, что использование номинантных данных является важным инструментом в разработке программного обеспечения. Они позволяют более гибко управлять данными и структурами в коде, что упрощает его поддержку и рефакторинг в будущем.
Сегодня вечером пройдет открытый урок, посвященный бережливому управлению требованиями. На этом занятии разберем, как пришли к "водопаду" (Waterfall) и почему от него хочется уйти. Поделимся, что такое бережливое производство ПО. Расскажем, как можно бережливо управлять требованиями и какие выгоды это несет.
Этот урок будет особенно полезен для всех специалистов, которые работают с классическими проектными документами, типа ТЗ, ПР и спецификаций, а также для аналитиков, которые хотят развиваться в направлении бережливости и Agile.
economist75
"Категориальные" - более часто употребимый в DataScience, и более удобочитаемый термин для categorical data, чем те два что используются в статье.
Тема интересная и важная, во многом недооцененная. Аналитики и кодеры намеренно уходят от категориального анализа (работают как со строками), поскольку в популярных пакетах pandas, pyarrow и др. существует много тонкостей в работе категорий, и простая замена str на cat - 100% приведет к поломкам ETL сразу в нескольких местах.
Т.к. категории - это список всех возможных значений, и/или "пустот" - на практике возникает много ошибок в "корреспондирующих сущностях" данных (дебет-кредит, субконто 1С по дебету и кредиту и итд). Такие категориальные данные из строк нужно создавать по нормативным данным (справочникам - Плану счетов 1С) или по объединениям сущностей дт+кт (слышу как кто-то побежал проверять как создется у него).
На Хабре о проблемах пока ни слова, но достаточно статей о плюсах категорий в части скорости выборки и экономии RAM (2X, 4X быстрее чем с object/string-данными).