Зачем проводить количественные исследования?
Количественные исследования нам нужны для того, чтобы получать более-менее точные данные, которые можно использовать для анализа и принятия решений (Data-driven decisions). Они помогают нам выяснять, сколько людей сталкиваются с определенной проблемой, или насколько распространены те или иные предпочтения / интересы / боли / потребности / страхи среди выбранного сегмента аудитории. Нам нужны такие данные когда мы хотим делать выводы, основанные на фактах, а не на догадках.
Количественные исследования помогают проверить гипотезы и предсказать, что может произойти в будущем. Если компания думает, что улучшение какой-то функции продукта (или разработка новой фичи) сделает его популярнее, то количественное исследование может либо подтвердить эту идею, либо показать, что это не так. Это позволяет минимизировать риски и более разумно распределять ресурсы, не тратя время и деньги на то, что не принесет пользы продукту.
Т.е. данные, полученные в результате количественного исследования можно подвергнуть статистическому анализу и заранее ответить на подобные вопросы:
Какой процент целевой аудитории заинтересован в продукте и какие факторы влияют на их выбор.
Стоит ли запускать новый продукт, зная количество заинтересованной в нем аудитории.
Есть ли достаточный интерес к продукту в новом ГЕО чтоб минимизировать риски при выходе на новые рынки.
Сколько процентов аудитории предпочитают продукцию конкурентов и по каким причинам, чтобы понять свои слабые стороны и улучшить продукт или сервис.
Насколько востребованы те или иные функции продукта среди целевой аудитории. Например, 70% респондентов могут указать на необходимость добавления новой функции, или абсолютную бесполезность другой фичи.
Проводить количественное исследование следует тогда, когда нужно собрать информацию от большой группы людей, чтобы получить репрезентативные и статистические данные и сделать выводы о всей целевой аудитории (или определенном сегменте / персоне).
Чтобы результаты были достоверными и мы могли их где-то применить и доверять им, важно понимать, сколько респондентов нужно опросить, и оценить погрешность выборки, которая покажет, насколько результаты выборки могут отклоняться.
Что такое погрешность выборки?
Погрешность выборки: это показатель, который отражает степень отклонения выборочных данных от данных генеральной совокупности.
Теперь простыми словами: погрешность выборки показывает, насколько результаты опроса небольшой группы людей могут отличаться от реального мнения всей целевой аудитории.
Еще проще и на примере: допустим, вся аудитория сайта или приложения составляет 10,000 пользователей(зарегистрированных и оплативших подписку), а ты опросил 500 из них. Погрешность выборки показывает, насколько результаты опроса этих 500 человек могут отличаться от того, что думает вся аудитория из 10,000 пользователей.
Погрешность выборки возникает из-за того, что мы не можем опросить абсолютно всех, а собираем информацию только с некоторой части (выборки) всей целевой аудитории.
Например, если мы хотим узнать мнение всех пользователей соцсети, но проводим опрос только среди небольшой группы пользователей, то полученные результаты не будут полностью совпадать с мнением всей аудитории. Эта разница и есть погрешность выборки. Чем больше размер выборки, тем меньше её погрешность.
Как рассчитывается погрешность выборки?
Сейчас будут формулы и определения, но лучше разобраться с мат. частью сразу. Чуть ниже все поясню простыми словами и приведу реальные примеры.
Формула расчета погрешности выборки:
Где:
E — погрешность выборки (ошибка, которую мы хотим рассчитать).
Z — коэффициент, связанный с уровнем доверия. Например, для уровня доверия 95% коэффициент Z равен 1,96.
p — доля, которая выражает вероятность, что респондент выберет конкретный вариант ответа. Например, p = 0,5 используется для максимальной неопределенности.
n — размер выборки, или количество респондентов.
q = 1 - p. Это упрощает запись и делает формулу более удобной для использования.
Давай, не отходя от кассы, разберёмся с тем, что уже на столе, прежде чем двигаться дальше. Но если на мат. часть тебе все-же кристаллически всеравно, то переходи сразу к следующей части.
E — погрешность выборки
Погрешность выборки показывает, насколько результаты опроса могут отличаться от реальных значений для всей аудитории. Она измеряет ту ошибку, которая возникает из-за того, что мы изучаем не всю аудиторию, а только её часть (выборку). Чем меньше E, тем более точными считаются наши результаты.
Допустим, мы хотим выяснить, какой процент вышеупомянутых подписчиков приложения/сайта предпочитают темную цветовую тему.
В приложении у нас 10, 000 подписчиков, но опрос мы провели рандомно среди 500 из них. После анализа получаем результат: 60% опрошенных предпочитают темную цветовую тему.
Но так как мы опросили только небольшую часть населения, возможна погрешность, например, ±5%. Это значит, что реальный процент людей, предпочитающих темную цветовую тему, находится в диапазоне от 55% до 65%. E, или погрешность выборки, показывает этот возможный диапазон отклонений. Она объясняет, насколько наши результаты могут отличаться от реальной ситуации на сайте.
Z — коэффициент, связанный с уровнем доверия.
Этот коэффициент определяется на основе нормального распределения (распределения Гаусса).
Представь себе, что ты измеряешь рост людей в большой группе, и все результаты выстроены в виде графика, который напоминает колокол (это называется нормальное распределение). В середине графика — средний рост (Две зоны по 34.1%). Больше всего людей имеют рост, близкий к этому среднему значению, и чем дальше от среднего, тем меньше людей с таким ростом. Это и есть диапазон, где большинство людей находятся в пределах среднего роста плюс-минус какие-то значения.
Теперь, когда мы говорим о коэффициенте Z, мы пытаемся понять, насколько широко нужно взять этот диапазон от среднего, чтобы охватить большую часть значений. Например, если ты хочешь быть уверенным, что 95% всех значений попали в твой диапазон (например, рост людей в пределах 95% всех случаев), то тебе нужно “растянуть” этот диапазон на 1,96 стандартных отклонения от среднего — это значение и есть 1,96.
То есть, диапазон — это область на графике, охватывающая среднее значение плюс-минус определённое количество стандартных отклонений. Значение Z (например, 1,96 для уровня доверия 95%) говорит нам, насколько широко нужно взять этот диапазон, чтобы покрыть 95% всех возможных значений. Это даёт нам уверенность, что наши результаты исследования лежат в этом диапазоне в 95% случаев.
Если все еще не понятно, то просто прими тот факт, что в большинстве случаев тебе просто надо оставлять этот коэффициент как 1,96. А если хочешь копнуть глубже в мат. статистику — то просто глянь пару видосов на Ютубе. Эта статья не об этом.
p — доля выборки или пропорция выборки
p — это число, которое показывает, какова вероятность того, что респондент выберет определённый вариант ответа. Например, p = 0,5 значит, что вероятность равна 50%, то есть шанс, что человек выберет конкретный ответ, такой же, как и шанс, что он его не выберет (т.е. выберет любой другой). Это используется, когда мы ничего заранее не знаем и предполагаем, что оба варианта (выберет или не выберет) одинаково вероятны — это называется максимальной неопределённостью.
Если p = 0,9, это значит, что вероятность того, что респондент выберет конкретный вариант ответа (любой, но конкретный), составляет 90%. Это довольно высокая вероятность, и, соответственно, наша уверенность в этом результате выше. Оставшиеся 10% (так как 1 - p = 0,1) — это вероятность, что респондент выберет любой другой вариант.
При p = 0,9 погрешность выборки будет меньше по сравнению с p = 0,5, при одинаковом размере выборки. Причина в том, что высокая вероятность (например, 90%) означает, что большинство респондентов будут выбирать один и тот же вариант, и отклонения в данных меньше.
Поэтому для максимальной неопределенности в выборе респондента мы принимаем p = 0,5.
n — размер выборки
n — это размер выборки, или количество людей (респондентов), которых вы опрашиваете в своем исследовании. Это число показывает, сколько человек вы выбрали из всей целевой аудитории для того, чтобы получить результаты, на основе которых можно делать выводы о всей аудитории.
Например, если вы хотите узнать, что думают пользователи приложения, на которое подписано 10,000 человек, то опрос всех 10,000 не всегда возможен. Вместо этого вы выбираете определённое количество человек, например, 500, и именно эти 500 человек составляют вашу выборку, а n = 500.
Примеры расчета погрешности
Пример 1
Уровень доверия — 95%;
Доля неопределенности — 50% (максимальная неопределенность);
Размер выборки — 400;
Формула будет выглядеть так:
В этом случае погрешность выборки составляет около 4,9%.
Пример 2
Уровень доверия — 95%;
Доля — 50%;
Размер выборки — 1000;
Формула будет выглядеть так:
Погрешность выборки в этом случае составляет около 3,1%.
Взаимосвязь между размером выборки, аудиторией и погрешностью
Учитываем размер аудитории
Чтобы учесть размер аудитории (генеральной совокупности), в формуле расчёта погрешности выборки применяют поправку на конечную совокупность. Это особенно важно, когда размер выборки составляет значительную часть от всей аудитории, например, при исследовании небольшой группы людей.
Поправка на конечную совокупность применяется следующим образом:
Где:
• E — погрешность выборки.
• Z — коэффициент, связанный с уровнем доверия (например, 1,96 для 95%).
• p — доля успехов (вероятность выбора конкретного варианта ответа).
• n — размер выборки.
• N — размер аудитории (генеральной совокупности).
Почему на большой аудитории поправка не столь важна
Когда аудитория огромная, например, 1 миллион человек, то опрос 400 человек по-прежнему даёт репрезентативные данные, потому что результаты нормального распределения показывают, что при увеличении размера выборки выше определённого уровня (500 / 600 / 700 человек вместо 400), точность начинает улучшаться незначительно. Другими словами, когда аудитория очень большая, даже небольшая выборка всё равно будет достаточно хорошо отражать распределение мнений и предпочтений в группе, и дальнейшее увеличение выборки даёт всё меньшую прибавку в точности. Это и является причиной, почему при больших аудиториях поправка на конечную совокупность практически не оказывает влияния.
Почему поправка важна при небольшой аудитории
Почему особенно важно учитывать размер выборки и применять поправку на конечную совокупность при исследовании небольшой группы людей?
Когда аудитория небольшая, а вы опрашиваете значительную её часть, выборка становится более репрезентативной, так как вы охватываете большой процент всей группы.
Представьте, что у вас есть небольшая аудитория — всего 100 человек, и вы решили опросить 80 из них. В этом случае, ваши 80 человек представляют собой почти всю аудиторию, то есть 80% всех людей. Это означает, что ваше исследование уже очень близко к тому, чтобы узнать мнение всей группы. Поэтому погрешность будет небольшой, ведь вы опросили почти всех.
Но если применить формулу, то получим:
Рассчитанная погрешность составила 10,96%. Это значение показывает, что если бы аудитория была большой, то погрешность была бы очень высокой (10,96%), так как опрошено только 80 человек.
Если бы мы не учитывали тот факт, что аудитория небольшая (100 человек, а не 1,000,000), а выборка покрывает почти всю её (80 из 100), формула бы показывала такую же погрешность, как если бы вы опрашивали небольшую часть большой аудитории (80 из 1,000,000). Но на самом деле, поскольку вы опросили почти всех людей, ваши результаты более точные, и поэтому нужна поправка — чтобы уменьшить рассчитанную погрешность, так как она в действительности ниже.
Поправка на конечную совокупность делает именно это — она уменьшает погрешность, потому что ваш опрос включает значительную часть всей аудитории, что делает ваши результаты более достоверными.
Пересчитаем с поправкой по этой формуле:
Подставим значения:
Рассчитанная погрешность с учетом поправки на конечную совокупность составляет 4,89%. Это значительно ниже, чем погрешность 10,96% без учета поправки, что показывает, как сильно влияет размер аудитории, когда выборка составляет значительную её часть.
Так сколько ответов нужно собрать во время исследования?
Для определения необходимого размера выборки в количественном исследовании необходимо учитывать желаемую погрешность.
Определение размера выборки и желаемой погрешности
Если мы хотим, чтобы результаты имели погрешность не более 5% и уровень доверия 95%, это означает, что в 95% случаев результаты опроса будут близки к реальному значению, и отклонение составит не более ±5%. Для этого потребуется опросить примерно 400 человек. При этом, чем выше желаемая точность (меньше погрешность), тем больше респондентов необходимо опросить.
Пример:
Допустим, у нас большая аудитория — 1 миллион человек.
Чтобы определить, какой процент аудитории будет пользоваться новой платной фичей "ХХХ", мы решаем опросить 400 человек.
Если 20% опрошенных проголосовало за "Да, будем", то мы можем быть на 95% уверены, что в действительности 15-25% аудитории будет ею пользоваться.
То есть результаты исследования будут близки к реальным значениям с высокой вероятностью, при погрешности не более ±5%.
То есть на практике 15-25% от 1 миллиона человек будет пользоваться платной фичей "ХХХ".
То есть после релиза мы можем ожидать от 150,000до 250,000 пользователей новой фичи "ХХХ".
Если мы хотим снизить погрешность до 3%, потребуется увеличить выборку до 1000 человек. При увеличении размера выборки точность растёт, а погрешность уменьшается, но затраты на сбор и обработку данных также увеличиваются.
Влияние размера выборки на погрешность
Чем больше размер выборки, тем меньше погрешность. Например, для аудиторий с миллионами людей разница между опросом 400 человек и 1000 человек незначительна, с точки зрения погрешности (5% и 3%, соответственно). Однако каждый дополнительный опрос увеличивает затраты и ресурсы, затрачиваемые на исследование.
Пример для большой аудитории:
Если аудитория состоит из 1 миллиона человек, а мы опросили 400 человек, погрешность составит примерно 5%. Увеличив выборку до 1000 человек, погрешность уменьшится до 3%. Но при дальнейшем увеличении выборки (например, до 2000 респондентов), уменьшение погрешности будет уже не таким значительным и может составлять 2% или даже меньше, что не всегда оправдано с точки зрения затрат и ресурсов, необходимых для такого масштабного опроса.
Пример для небольшой аудитории:
Теперь представь аудиторию из 1000 человек. Если мы опросили 400 человек, мы охватили 40% всей аудитории, и наша погрешность будет значительно меньше, чем если бы это была большая аудитория. Добавление поправки на конечную совокупность ещё больше уменьшит погрешность, так как выборка покрывает значительную часть всей группы. В этом случае опрос 400 человек даст очень точные результаты, близкие к тому, что думает вся аудитория.
Общие правила для определения размера выборки
Чем больше размер выборки, тем меньше погрешность. Однако после определенного уровня (например, 1000-2000 респондентов) увеличение размера выборки начинает приносить незначительное уменьшение погрешности, что может быть неоправданно с точки зрения затрат на исследование.
Поправка на конечную совокупность имеет значение, когда выборка составляет значительную часть аудитории. В случае с небольшой аудиторией (например, несколько тысяч человек), если выборка охватывает большую часть, точность увеличивается, и погрешность уменьшается.
Для определения необходимого размера выборки в количественном исследовании нужно учитывать желаемый уровень погрешности.
Если ты хочешь получить погрешность 5% с уровнем доверия 95%, тебе нужно опросить примерно 400 человек.
Для погрешности в 3% потребуется около 1000 респондентов.
При выборке в 200 человек, с уровнем доверия 95%, ты получишь погрешность в 6,93%
Вывод
Для определения размера выборки в количественном исследовании важно учитывать желаемую погрешность и уровень доверия. Чем больше выборка, тем меньше погрешность, однако, после определенного уровня, дальнейшее увеличение выборки не приносит значительного улучшения результатов, а затраты на исследование продолжают расти.
При работе с небольшими аудиториями поправка на конечную совокупность позволяет уменьшить погрешность, поскольку опрашивается значительная часть аудитории. В случае с большими аудиториями стандартные методы расчета обеспечивают достаточную точность при разумных затратах, даже если выборка относительно небольшая.
Мой телеграмм: t.me/mr_ponder
Комментарии (5)
mcast
03.10.2024 06:48+1Какая погрешность выборки считается "достаточной" ? Например 5% при 400 отаетов или 9% при 140? В каких кейсах какая погрешность будет удовлетворять бизнес ?
evgeny2234 Автор
03.10.2024 06:48+1Я бы сказал, 5% норм, когда тебе надо точно знать, что думают пользователи, чтоб на базе этого принимать решения по роадмапе продукта, приоритетам фич, стратегии. 9% норм, когда тебе просто нужно понять общее настроение, для первых шагов в исследовании или чтобы прикинуть, в какую сторону копать дальше.
В конечном итоге надо смотреть по цифрам. Погрешность дает динамику в две стороны. Если диапазон не устраивает по каким то причинам , но надо больше ответов, чтоб сократить его.
тут надо смотреть в конкретном случае.
wolodik
Самый интересный вопрос - как быть уверенным, что выборка этих самых 400 человек позволяет получить репрезентативные ответы, допустимые для масштабировании на всех пользователей. Например первое что пришло в голову - опрос про тёмную тему. Если его проводить когда у пользователя вечер-ночь, высока вероятность что опрос идёт среди людей которые чаще сидят в темноте и им больше нравится тёмная тема. Влияет же куча факторов, часто даже неочевидных.
evgeny2234 Автор
Да, все верно. Но в конкретно твоем примере это можно предусмотреть заранее, понимая, что время суток влияет - проводить исследование в течении 24 часов, например. Т.е. создать благоприятные условия для исследования придется заранее.
Если вопрос про математическую составляющую, то тут не отвечу. Я не спец в разделе математической статистики, так что доказать или объяснить на пальцах "как эта формула работает" - не смогу, но нормальным распределением пользуются постоянно для этих целей и в D&A и в продукт департаментах.
wolodik
Я именно на это хотел обратить внимание - что задача под "правильному подбору выборки" включает в себя много параметров, и гораздо сложнее чем "взять список пользователей и запустить random()". И показывает какой огромный простор для манипуляций, когда сложно заметить подобные нюансы, особенно сходу.