Олег Адамович, аналитик данных Центра доказательной политики
Арктика — один из самых сложных и противоречивых макрорегионов России. С одной стороны, это стратегическая территория с колоссальными запасами ресурсов и растущей инфраструктурой. С другой — место, где качество жизни напрямую зависит от климата, логистики и стабильности экономики.
Во второй половине 2024 года мы провели масштабное социологическое исследование, чтобы лучше понять, как живут и что чувствуют люди за полярным кругом. Опрос охватил более 10 тысяч жителей Арктической зоны России — примерно 0,4% от всего населения региона. Респонденты отвечали на десятки вопросов: о работе, инфраструктуре, планах на будущее, оценке качества жизни и даже о том, собираются ли они уезжать с Севера.
Цель исследования: не просто собрать статистику, а разобраться, что стоит за миграционными намерениями северян. Почему кто-то твердо намерен остаться, а кто-то уже пакует чемоданы? От чего зависит это решение — от возраста, дохода, социального окружения или от ощущения стабильности?
Чтобы ответить на эти вопросы, стандартных методов анализа оказалось недостаточно. Средние значения и корреляции давали слишком грубую картину — за ними терялись важные различия между группами людей. Мы решили пойти дальше и применили метод, который редко используют в социологии — латентный классовый анализ (LCA).
Что такое LCA и зачем он нужен
Латентный классовый анализ (Latent Class Analysis, LCA) — это статистический метод, который помогает найти скрытые группы респондентов с похожими ответами.
Если говорить проще, он ищет закономерности в том, как люди отвечают на вопросы, и на их основе делит выборку на классы — группы с похожими паттернами поведения и взглядов.
В отличие от привычных методов кластеризации вроде k-means, LCA работает с категориальными переменными — например, с бинарными ответами (“да/нет”) или шкалами согласия. Это делает его особенно полезным для социологических данных, где большинство переменных именно такие.
Принцип работы LCA можно описать так:
метод автоматически группирует респондентов так, чтобы внутри каждого класса ответы были максимально схожими;
при этом классы между собой существенно различаются;
для каждого участника оценивается вероятность принадлежности к тому или иному классу, а не жесткое распределение “все или ничего”.
Подготовка данных: что пришлось вычистить, перекодировать и упростить
Как это часто бывает с социологическими опросами, первый этап — борьба не с гипотезами, а с самими данными.
Хотя опрос охватил более десяти тысяч человек, не все ответы оказались пригодны для анализа. Чтобы латентный классовый анализ (LCA) сработал корректно, данные нужно было сделать максимально чистыми и однородными.
Очистка и отбор переменных
Сначала мы удалили блоки с оценками арктических госпрограмм и крупнейших работодателей — в этих вопросах оказалось слишком много пропусков.
Все ответы вида «затрудняюсь ответить» были заменены на NaN, а переменные с чрезмерным количеством таких значений тоже исключены из выборки.
В основном это касалось оценок удовлетворенности отдельными социальными сферами жизни, где часть респондентов просто не имела опыта взаимодействия с объектами инфраструктуры (например, медициной или транспортом в удаленных поселениях).
Еще одно решение — удалить данные о городе и регионе проживания. Распределение респондентов по регионам оказалось крайне неравномерным: где-то было опрошено несколько сотен человек, а где-то — меньше десятка. В таких условиях включение географического признака приводило бы к статистическим перекосам.
Инверсия шкал и перекодировка
Следующий шаг — привести шкалы к интуитивно понятному виду. В некоторых вопросах высокий код означал «хуже», в других — «лучше», что осложняло интерпретацию. Мы перевернули несколько шкал (например, по размеру населенного пункта, удовлетворенности жизнью и социальному оптимизму), чтобы все “больше” означало “лучше”.
Пример: в вопросе о размере населенного пункта изначально
1 — крупный город, 6 — малое село
Теперь наоборот:
1 — малое село, 6 — крупный город.
Таким образом, чем выше значение, тем выше уровень комфорта, дохода или удовлетворенности.
Бинаризация ключевого признака
Переменная о планах уехать или остаться изначально имела сложную структуру: часть ответов описывала интенсивность желания, а часть — причины этого решения. Чтобы избежать смешения смыслов, мы упростили ее до бинарного формата:
1 — респондент хочет уехать
0 — респондент не хочет уезжать
Такой подход делает модель LCA более устойчивой и упрощает интерпретацию кластеров: теперь мы четко видим, какие группы формируются вокруг склонности к переезду.
Что осталось в финальном наборе
После очистки в анализ вошел ядро социально-демографических и оценочных переменных. Вот основные из них:
Блок |
Переменная |
Шкала |
Соцдем |
Пол (1 — мужской, 2 — женский) |
Бинарная |
Соцдем |
Возраст (1: 18–29, 2: 30–44, 3: 45–59, 4: 60+) |
Порядковая |
Соцдем |
Образование (1 — ниже среднего, …, 7 — аспирантура) |
Порядковая |
Семья |
Семейное положение (0 — не в браке, 1 — в браке) |
Бинарная |
Семья |
Количество детей (0–3) |
Порядковая |
Доход |
Материальное положение семьи (1 — не хватает на еду, 6 — хватает на жилье) |
Порядковая |
Опыт |
Продолжительность проживания (1: <1 года, 4: с рождения) |
Порядковая |
Контекст |
Тип населенного пункта (1 — малое село, 6 — крупный город) |
Порядковая |
Оценки |
Удовлетворенность качеством жизни (1–4) |
Порядковая |
Оценки |
Ожидания изменений в жизни (1–5) |
Порядковая |
Настроения |
Отношение к жизни в Арктике (0 — остаюсь, 1 — думаю о переезде) |
Бинарная |
Сферы |
Удовлетворенность: образование, соцзащита, транспорт, отдых и туризм (1–4) |
Порядковая |
Так получился сбалансированный набор признаков, с которым уже можно работать в рамках LCA — искать скрытые закономерности в том, как социальное положение, настроение и качество жизни связаны с желанием уехать или остаться на Севере.
Тестирование модели: как мы искали оптимальное число классов
Когда данные наконец были очищены и приведены к единому формату, начался самый интересный этап — поиск скрытых закономерностей.
Латентно-классовый анализ — метод, который позволяет увидеть невидимое: разделить респондентов на группы, различающиеся по набору характеристик, даже если эти группы заранее неизвестны.
Но прежде чем запускать модель, нужно было ответить на главный вопрос: сколько таких скрытых классов вообще есть в данных?
Определение оптимального числа латентных классов
Для этого мы использовали библиотеку StepMix. Алгоритм работает в два этапа: сначала подготавливает категориальные данные для анализа, затем использует метод GridSearchCV для систематического сравнения моделей с разным числом классов.
StepMix позволяет работать с категориальными переменными, оценивать вероятности принадлежности к классам и выбирать оптимальные параметры по информационным критериям — AIC, BIC и логарифму правдоподобия.
Чтобы избежать случайных максимумов, мы настроили модель следующим образом:
measurement='categorical' — все переменные рассматривались как категориальные;
assignment='soft' — мягкое присвоение классов, когда объект может частично принадлежать к нескольким группам;
20 случайных инициализаций для устойчивости;
трехкратная кросс-валидация для проверки обобщающей способности.
Все варианты подбора мы обернули в GridSearchCV, чтобы автоматически протестировать несколько конфигураций и выбрать лучшую (рис. 1).

Когда модель становится слишком «жадной»
Сначала мы проверили диапазон от 2 до 9 классов. StepMix уверенно выбрал максимальное число — 9. Тогда мы расширили диапазон до 10–16 — история повторилась: модель снова выбрала верхнюю границу, то есть 16 классов.
Такое поведение типично для моделей, которые пытаются «поймать» слишком много локальных различий. Формально метрики действительно улучшались:
AIC и BIC снижались,
log-likelihood рос,
энтропия была высокой (около 0.95),
— но интерпретировать эти 16 классов оказалось невозможно.
Некоторые группы насчитывали всего по 1–2% наблюдений, одна — вовсе оказалась пустой. Модель явно переусложняла структуру, пытаясь описать микроскопические различия.
Почему мы сократили число классов
В задачах кластеризации вообще редко бывает смысл делать больше пяти кластеров. Когда групп слишком много, они становятся не только трудно интерпретируемыми, но и вызывают сомнения в реальности такого разделения. В реальных данных — особенно в социологических — тонкие различия между ответами часто не означают, что перед нами принципиально разные типы людей.
В нашем случае ключевая переменная, вокруг которой строился анализ, изначально была бинарной: планирует ли человек уехать из Арктики или нет. Эта логика сама по себе подразумевает минимум два класса, но никак не шестнадцать.
Однако мы предположили, что в данных могут быть скрытые структуры — например, люди, которые пока не определились или колеблются. Чтобы проверить это, мы построили модели с двумя, тремя и четырьмя классами, проигнорировав автоматические рекомендации StepMix.
Два, три и четыре класса: что показала проверка
При двух классах модель разделила выборку вполне ожидаемо: в одном оказались респонденты, которые скорее хотят уехать, во втором — те, кто скорее хочет остаться. Это решение выглядело логично, но чересчур грубо — без нюансов.
При трех классах структура стала интереснее:
первый кластер — те, кто определенно не собирается уезжать.
второй — в нем большую часть составили те, кто хочет уехать.
третий — неопределившиеся.
Среднее значение по ключевой переменной (1 - желание уехать, 0 - желание остаться) в третьем кластере оказалось около 0.5 — то есть в нем примерно поровну тех, кто хочет остаться, и тех, кто хочет уехать. Это промежуточная группа, которая потенциально отражает реальные сомнения или внутренние противоречия — социально значимая и аналитически интересная находка.
При четырех классах структура стала распадаться: два кластера так же разделились между желающими остаться и желающими уехать, а два оставшихся вновь представляли неопределившихся, но уже без внятных различий между собой. То есть добавление четвертого класса ничего не улучшило — лишь размыло границы.
Финальный выбор
В итоге мы остановились на модели с тремя кластерами. Она оказалась не только устойчивой при повторных запусках, но и интерпретируемой: два крайних полюса и один «плавающий» сегмент между ними. Этот промежуточный кластер — группа людей, которые пока не приняли решение, — представляет особый интерес, поскольку может быть ключом к пониманию, какие факторы влияют на изменение намерений.
Сводим результаты и оцениваем качество моделей
Проверяем, насколько устойчива модель
После того как мы определились с количеством классов и параметрами StepMix, настал момент убедиться, что модель действительно устойчива, а найденное решение — не случайность конкретной инициализации. Дело в том, что StepMix, как и большинство моделей, основанных на EM-алгоритме (Expectation–Maximization), чувствителен к начальному положению. Если повезет — он найдет глобальный максимум функции правдоподобия. Если нет — может “застрять” в локальном, чуть менее удачном решении. Внешне это не всегда заметно: метрики вроде log-likelihood или AIC могут быть близки, но структура кластеров — отличаться.
Чтобы проверить, насколько результат стабилен, мы решили обучить модель несколько раз с разными начальными условиями и сравнить, насколько совпадают итоги. По сути, это стресс-тест для StepMix: если модель надежна, она должна при каждом запуске приходить к одному и тому же распределению кластеров и к одинаковым метрикам (рис. 2).

Для этого мы настроили серию из десяти запусков, в каждом из которых StepMix обучался с новым random seed. Все ключевые метрики — логарифм правдоподобия, AIC, BIC, энтропия и доли кластеров — собирались в отдельную таблицу. Такой подход позволил не просто выбрать «лучший» запуск, а оценить консистентность всей модели: сходится ли она к одному решению, как распределяются наблюдения по классам, и есть ли в них дисбаланс.
Ниже — краткое описание показателей, по которым мы сравнивали результаты разных итераций StepMix (рис. 3):
Параметр |
Что показывает |
Как интерпретировать |
SCORE |
Логарифм функции правдоподобия (log-likelihood) |
Чем ближе к нулю (т.е. меньше по модулю отрицательное значение), тем лучше модель описывает данные. Это “сырой” показатель качества подгонки. |
AIC (Akaike Information Criterion) |
Информационный критерий Акаике |
Чем меньше значение, тем лучше баланс между точностью и сложностью модели. Сильно завышенное AIC указывает на переобучение. |
BIC (Bayesian Information Criterion) |
Байесовский информационный критерий |
Более строгая версия AIC: сильнее штрафует за лишние параметры. Лучше ориентироваться именно на BIC при сравнении моделей с разным числом кластеров. |
ENTROPIES |
Средняя энтропия распределений по кластерам |
Показывает “уверенность” модели в присвоении наблюдений к кластерам. Чем меньше значение, тем четче разграничение групп. |
SCALED_ENTROPIES |
Нормированная энтропия (в долях от 0 до 1) |
Позволяет судить о разделимости в относительных единицах. Например, 0.96 — это очень высокая уверенность модели. |
WEIGHT_1, WEIGHT_2, WEIGHT_3 |
Доли наблюдений, попавших в каждый латентный кластер |
Отражают структуру данных. Если один кластер “весит” 0.5, а два других — по 0.25, значит, половина выборки принадлежит к одной доминирующей группе. |

Интерпретация полученных результатов
Это результаты первых пяти прогонов модели:
ROUND_ID |
SCORE |
WEIGHTS |
AIC |
BIC |
ENTROPIES |
SCALED_ENTROPIES |
0 |
-13,5045 |
[0.49940347 0.29547981 0.20511673] |
184775,6 |
185998 |
269,0027 |
0,964139 |
1 |
-13,5045 |
[0.29547979 0.49940349 0.20511673] |
184775,6 |
185998 |
269,0025 |
0,964139 |
2 |
-13,5045 |
[0.29547977 0.20511673 0.4994035 ] |
184775,6 |
185998 |
269,0024 |
0,964139 |
3 |
-13,5045 |
[0.2954798 0.20511673 0.49940347] |
184775,6 |
185998 |
269,0027 |
0,964139 |
4 |
-13,5045 |
[0.49940347 0.2954798 0.20511673] |
184775,6 |
185998 |
269,0027 |
0,964139 |
Что это означает
Модель стабильна.
Логарифм правдоподобия и оба информационных критерия (AIC и BIC) совпадают во всех первых пяти запусках. Это означает, что StepMix сходится к одному и тому же решению независимо от случайных инициализаций. Другими словами, модель нашла устойчивое распределение латентных классов, и оно не зависит от стартовых условий.
Высокая уверенность в разделении.
Энтропия (269) и нормированная энтропия (0.964) указывают, что объекты четко принадлежат к своим кластерам. Это очень высокий показатель для социальных данных, где пересечения между группами обычно значительны. Фактически, StepMix уверенно «узнает» классы, не путая наблюдения между ними.
Сбалансированные кластеры.
Доли наблюдений примерно распределены как 0.5 / 0.3 / 0.2. Это говорит о том, что одна группа действительно доминирует — но не настолько, чтобы «заглушить» другие. Подобный баланс характерен для реальных социальных выборок, где есть выраженное большинство и несколько меньших, но не маргинальных подгрупп.
Надежность интерпретации.
Повторяемость структуры весов (все комбинации лишь переставлены местами) подтверждает, что модель не выдумывает новые решения при каждом запуске.
Это важный признак устойчивости латентных классов: мы можем быть уверены, что выделенные кластеры действительно отражают закономерности в данных, а не артефакты случайной инициализации.
Результаты показывают, что трехклассная модель StepMix не только устойчива статистически, но и интерпретируема содержательно. Она выделяет три отчетливых кластера, структура которых воспроизводится при каждом запуске. Высокая энтропия и стабильные веса позволяют считать это решение не случайным, а отражающим реальную, внутренне согласованную структуру в данных.
Интерпретация результатов: классы, энтропия и устойчивость распределений
После подбора оптимальных параметров модели мы сохранили результаты финальной итерации — той, где значение логарифма правдоподобия оказалось наибольшим. Каждому наблюдению была присвоена принадлежность к латентному классу, а вместе с тем рассчитан показатель энтропии, который отражает, насколько уверенно модель сделала это отнесение.
Что такое энтропия и зачем она нужна
Если коротко, энтропия — это мера неопределенности. В контексте LCA она показывает, насколько «четко» объект отнесен к конкретному кластеру.
Низкая энтропия означает, что модель уверена: объект действительно принадлежит своему классу.
Высокая энтропия — что границы между классами размыты, и модель не до конца «понимает», куда отнести наблюдение.
Иногда используется нормированная версия показателя — scaled entropy, где 1 означает полную неопределенность, а 0 — идеальное разделение. В нашем случае мы работали с «сырым» значением, но принцип остается тем же.
Что показывают значения энтропии в данных
После объединения данных по классам и энтропии получилась таблица X_classified, где каждая строка — это исходное наблюдение, дополненное двумя новыми признаками:
CLASS (номер латентного кластера) и ENTROPY (уровень неопределенности) (рис. 4).

Распределение энтропии выглядело так:
Показатель |
Значение |
Среднее |
0.039 |
Медиана |
0.000036 |
75-й перцентиль |
0.0029 |
Максимум |
1.07 |
Средняя энтропия оказалась очень низкой — около 0.04, а медиана стремится почти к нулю. Это говорит о высокой уверенности модели в том, как она распределила наблюдения по классам. Иными словами, получившиеся латентные группы практически не пересекаются между собой, а их границы достаточно четкие.
Высокие значения энтропии (порядка 1.0) встречаются крайне редко — это наблюдения, которые модель не смогла уверенно классифицировать. Их можно рассматривать как пограничные случаи или потенциальные аномалии.
Такой результат — хороший знак. Он показывает, что выбранное число латентных классов и параметры модели адекватно отражают структуру данных. Модель не просто «разделила все как-то», а сделала это с высокой степенью уверенности.
Проверка логарифмом правдоподобия
Чтобы еще раз проверить устойчивость результата, мы запустили модель 10 раз и сохранили значения логарифма правдоподобия (log-likelihood).
Эта метрика показывает, насколько хорошо модель объясняет наблюдаемые данные: чем выше значение (менее отрицательное), тем лучше модель согласуется с данными. Логарифм используется вместо обычного правдоподобия, чтобы избежать работы с очень малыми числами и упростить сравнение моделей.
Дальше — простая проверка статистики:
среднее значение оказалось –13.5,
стандартное отклонение — всего 1.3×10⁻¹¹,
размах (max – min) — около 4×10⁻¹¹.
То есть разброс между прогоном №1 и прогоном №10 оказался крошечным — на уровне машинной точности (рис. 5).


Все 10 точек легли почти на одну горизонтальную линию. На визуализации кажется, будто есть колебания, но если присмотреться к шкале (10⁻¹¹), видно: это не «настоящие» различия, а скорее шум округления (рис. 6).
Что это значит?
Модель каждый раз сходится к одному и тому же решению. А значит, найденная структура латентных классов не зависит от случайных запусков и отражает устойчивую закономерность в данных.
Анализ апостериорных вероятностей кластеризации
После обучения StepMix мы получаем не только «жесткое» разбиение на классы, но и матрицу апостериорных вероятностей — насколько каждый объект принадлежит каждому скрытому классу (рис. 7).
Чтобы посмотреть, насколько уверенно модель делает выбор, для каждого наблюдения мы:
взяли наиболее вероятный класс (hard_assignment),
сохранили максимальную апостериорную вероятность (max_pp).
Если max_pp близко к 1 — модель уверена. Если же меньше 0.7 — значит объект находится на границе между кластерами, и отнести его однозначно трудно.

Дальше мы сгруппировали данные по классам и посчитали среднюю и медианную уверенность модели:
hard_assignment |
mean |
median |
count |
0 |
0.987 |
1.000 |
3398 |
1 |
0.977 |
1.000 |
1391 |
2 |
0.981 |
1.000 |
2039 |
Что видно:
во всех трех кластерах средняя уверенность очень высокая (~0.98),
медианы равны 1, то есть для большинства объектов вероятность принадлежности к «своему» кластеру равна 100%,
кластеры сбалансированы по размеру, нет «пустышек».
Вывод: модель не «колеблется» на границах — структура кластеров устойчива, и разбиение на три класса оправдано: они действительно отражают разные уровни выраженности паттерна в данных.
Проверка устойчивости кластеризации с ARI
В качестве еще одной проверки того, насколько устойчива кластеризация, мы посчитали Adjusted Rand Index (ARI) — показатель согласованности между разными решениями кластеризации (рис. 8).
Он сравнивает, насколько совпадают присвоенные кластеры между двумя запусками:
значение 1.0 означает идеальное совпадение (все объекты попали в те же самые кластеры);
значение 0 — совпадение на уровне случайности;
отрицательные значения возможны, если решения противоречат друг другу.

Результат:
Средняя согласованность кластеризации: 1.000
Что это значит
Значение ARI = 1.000 — идеальный результат.
Он показывает, что независимо от случайной инициализации, модель StepMix в каждом запуске воспроизводит одно и то же разбиение данных на классы.
Это подтверждает два ключевых вывода:
алгоритм действительно нашел устойчивую латентную структуру, а не случайный паттерн;
количество классов и параметры модели подобраны удачно — она сходится к одному и тому же оптимальному решению.
Таким образом, модель не только хорошо описывает данные (по AIC/BIC и логарифму правдоподобия), но и делает это стабильно — что особенно важно для интерпретации латентных кластеров в реальных исследованиях.
Оценка качества разделения классов по энтропии
Еще один способ проверить стабильно разделения на классы: использовать метрику масштабированной энтропии (Scaled Entropy) (рис. 9).
Что такое масштабированная энтропия
Энтропия измеряет «неуверенность» модели в присвоении наблюдения к какому-либо классу. Если модель затрудняется выбрать между двумя классами, энтропия будет высокой. Если она уверена — энтропия низкая.
Чтобы значения было удобно сравнивать между моделями с разным числом классов, используется масштабированная энтропия, нормированная в диапазоне от 0 до 1:
близко к 1 — отличное разделение (почти все наблюдения однозначно принадлежат одному классу);
ниже 0.7 — возможна неопределенность, часть объектов «размазана» между несколькими классами.

Результат:
Scaled entropy ≈ 0.964
Это означает, что модель уверенно различает латентные классы, и почти все наблюдения имеют высокую вероятность принадлежности к одному из них.
Разбор внутриклассовой и межклассовой дисперсии
После выделения классов важно проверить, насколько они действительно различаются между собой, а не представляют случайное разбиение данных. Для этого используется анализ дисперсий (рис. 10).

1. Внутриклассовая дисперсия (Within-Class Variance)
Показывает, насколько сильно различаются объекты внутри одного класса.
Если значение велико, внутри кластера много разброса, и он не слишком однороден.
В нашем случае:
Within-Class Variance = 426 604.71
— умеренно высокая, что ожидаемо для реальных данных, особенно при разном масштабе признаков.
2. Общая дисперсия (Overall Variance)
Разброс по всему набору данных без деления на классы:
Overall Variance = 437 882.89
3. Межклассовая дисперсия (Between-Class Variance)
Показывает различия между классами, вычисляется как разница между общей и внутриклассовой:
Between-Class Variance = 11 278.18
Около 2,6% общей вариации данных обусловлено различиями между классами, а остальная часть — различиями внутри самих классов.
Разница между классами есть, но она не доминирует над внутренней неоднородностью. Модель выделила устойчивые группы (что подтверждают энтропия и ARI), однако сами классы находятся близко друг к другу в пространстве признаков. Это типично для латентных факторов, когда границы между типами поведения или установок плавные, а не жесткие.
Итоговая интерпретация кластеризации: три типа респондентов
На финальном этапе мы сопоставили полученные кластеры с ключевой бинарной переменной — желанием уехать или остаться. Значение 1 означает готовность покинуть населенный пункт, 0 — желание остаться (рис. 11).

Класс |
Среднее значение |
Медиана |
Доля “хотят уехать” |
Доля “хотят остаться” |
Количество |
0 |
0.748 |
1.0 |
74.8% |
25.2% |
3 398 |
1 |
0.047 |
0.0 |
4.7% |
95.3% |
1 391 |
2 |
0.504 |
1.0 |
50.4% |
49.6% |
2 039 |
Интерпретация
На основе скрытой кластеризации модель выделила три отчетливо различающиеся группы респондентов:
Класс 0 — «Мобильные».
Почти три четверти участников выразили намерение уехать. Это респонденты, внутренне готовые к переезду — вероятно, недовольные условиями жизни или видящие больше перспектив в другом месте.
Класс 1 — «Оседлые».
Почти все представители этой группы (95%) хотят остаться. Вероятно, это люди, довольные инфраструктурой, работой и качеством жизни в своем городе или поселке.
Класс 2 — «Неопределившиеся».
Среднее значение признака здесь близко к 0.5 — мнения разделились примерно поровну. Это пограничная группа, где респонденты колеблются между мотивами для переезда и факторами, удерживающими их на месте.
kinall
Прежде чем глубоко вникать, пролистал всю статью в поисках результатов, и остался несколько разочарован. Вот это вот ВСЁ только ради вывода, что кто-то хочет уезжать, кто-то не хочет, а кто-то не определился? Кажется, это можно было сказать сразу же, нет?
kenomimi
За "просто сказать" премий не будет. А вот за сложную наукообразную нумерологию - вполне себе, начальник в матчасти не шарит, зато видит, что подчиненный тяжело и много работал над сложными расчетами.
holodoz
На подобную же мысль наводит одновременное использование логарифма правдоподобия, AIC и BIC уже после того, как выборка, количество кластеров и фичи были выбраны. После фиксации этих параметров, можно брать любой, они друг из друга по формуле вычисляются и отдельного смысла для работы уже не имеют. Но колонок в таблице резко больше становится. Ну вообще, вся работа с данными здесь как-то подозрительно выглядит.