Главная
Дилемма: пойти в проверенную столовую или попробовать новую?

Дилемма: пойти в проверенную столовую или попробовать новую? +42

14.11.2020 08:46

kriot 26 12500 Источник

Представим ситуацию: приехали в новый город на неделю-другую, и нужно понять, как выбирать места для обедов. Риски понятны: если постоянно ходить в несколько уже знакомых столовых, то можно упустить совсем хорошую; но и идти в непонятно какую новую столовую вместо хорошей проверенной тоже не хочется. Каждый охотник желает знать, где баланс эксплорейшена-эксплотейшена. Под катом разберемся как нужно действовать.

Сформулируем задачу так:

Приехали в город на $inline$ дней, каждый день обедаем в одной из посещенных столовых или идем в новую. Столовых много — хватит хоть каждый день в новую ходить.
У каждой столовой есть качество — общая численная оценка ее атмосферности, качества еды, цены и прочих параметров. Для неизвестной столовой качество случайно. Качество разных столовых одинаково распределено и независимо.
Если приходим в столовую, то точно узнаем её качество, но обязательно обедаем в ней.

Цель: максимизировать суммарное качество посещенных столовых за все дни пребывания.

Понятно, что суммарное качество зависит от того, какие столовые попались, поэтому максимизируем его матожидание.

Будем считать, что качество столовой распределено нормально, со средним в нуле. То есть, если качество столовой около нуля — она средненькая; если сильно отрицательное — значит, не очень; если сильно положительное — хороша. В задаче считаем, что мы уже видели много столовых в других городах и представляем распределение качества столовых.

При выборе новой столовой для нас все непосещенные столовые одинаковы, поэтому мы из них не выбираем, просто берем следующую из какого-то списка.

Есть похожие задачи, но они существенно отличаются. В отличие от задачи о разборчивой невесте, к столовым можно возвращаться, а к женихам — нет.

От задачи о многоруком бандите наша отличается тем, что после посещения столовой мы точно знаем ее качество.

Какой должна быть оптимальная стратегия

Во-первых, понятно, что если мы возвращаемся в одну из посещенных столовых, то нет смысла выбирать не лучшую из них.

Есть еще одно соображение: сначала должна быть фаза исследования столовых, и строго после нее — фаза посещения лучшей. Рассмотрим стратегию, при которой это не так или не всегда так. Тогда на каком-то этапе возникает ситуация, когда мы сначала выбираем лучшую столовую, а потом идем исследовать новую. Но если мы поступим наоборот — сначала посетим новую столовую, а потом пойдем в лучшую, — то наш выигрыш точно не уменьшится, а может даже увеличится, если при проверке новой столовой её качество окажется выше, чем у текущей лучшей.

Соответственно, каждый день нам нужно принимать решение:

либо пойти искать еще более хорошую столовую, чем лучшая из исследованных;
либо забить и до конца пребывания в городе ходить в лучшую из найденных.

Из этого становится понятно, что оптимальная стратегия зависит только от уровня лучшей найденной столовой и оставшегося количества дней.

Ясно, что чем качественнее найденная лучшая столовая, тем меньше смысла искать еще более хорошую. Это значит, что для фиксированного оставшегося количества ( $inline$ ) дней есть порог качественности $inline$ : если текущий максимум больше, чем $inline$ , то есть найденная столовая достаточно клевая, мы начинаем ходить только в нее, а если меньше — испытываем судьбу в новой столовой. Получается, что стратегия — это правильный набор чисел $inline$ .

Первый ход, разумеется, всегда «пойти в новую столовую», потому что вариантов-то и нет.

Как найти параметры оптимальной стратегии

Эта задача имеет аналитическое решение, но оно довольно громоздкое и нетривиальное, поэтому мы обойдемся меньшей кровью и вычислим эти коэффициенты численно.

Если мы знаем оптимальную стратегию для случая, когда осталось $inline$ дней, то есть знаем коэффициенты $a_1, a_2,..., a_{k-1}$ , тогда искать стратегию на $inline$ дней существенно проще, потому что нужно оптимизировать только одно число.

Зафиксируем текущий максимум $inline$ и рассмотрим две ситуации:

Будто мы решили на этом ходу эксплуатировать максимум, а дальше будем действовать по оптимальной стратегии для $inline$ ходов.
Будто мы решили пойти в новую столовую, а дальше стали придерживаться оптимальной стратегии для $inline$ ходов.

Численно проэкспериментируем с каждым вариантом много раз (пока не наберется статистическая значимость) и посмотрим, какой из них дает больший выигрыш. Если первый: значит, оптимальная стратегия для этого m — эксплуатировать максимум, то есть $inline$ .

Иными словами, для любого m мы можем понять, больше или меньше он, чем $inline$ . Это позволяет сделать бинарный поиск по $inline$ — сойдется он к $inline$ .

А $inline$ , потому что, когда остался последний день, мы просто выбираем то, что больше: наш текущий максимум или ожидание качества новой столовой, равное нулю.

Таким образом мы можем последовательно вычислить любое $inline$ . Правда, с уменьшающейся точностью, но для нас это не критично.

И какая же она, оптимальная стратегия?

Коэффициенты оптимальной стратегии получаются такие: 0, 0,27, 0,43, 0,55, 0,63, 0,71, 0,75, 0,82 и т.д.

Это, конечно, отлично, но давайте разберемся, как их интерпретировать. Чтобы эти коэффициенты получили понятный физический смысл, их нужно перевести в квантили распределения качества столовых, то есть в квантили нормального распределения. Тогда получится: 0,5, 0,61, 0,67, 0,71, 0,74, 0,76, 0,77, 0,79.

Это значит:

Если остался один день, то искать новую столовую нужно только в том случае, если лучшее, что пока удалось найти, хуже среднего.
Если осталось еще два дня, то искать новую столовую нужно, если текущая лучшая не попадает в топ 39% = 100% — 61% (61% — вторая квантиль из списка выше).
Если осталось еще 8 дней и текущая лучшая столовая попадает в топ 21% = 100% — 79% (79% — восьмое число из этого списка), то есть смысл ходить в нее. Если нет, то лучше продолжать искать более хорошую столовую.
И аналогично для остальных дней.

Выглядит сложновато для практического применения. Сравним с более простыми в использовании стратегиями.

Какие есть простые стратегии

Во-первых, каждый день можно ходить в новую столовую.
Можно ходить по столовым «до первой более-менее хорошей», например, из топ 40%. Какие столовые входят в топ 40% мы понимаем, исходя из опыта в других городах.
Можно первую треть дней ходить по новым столовым, а в оставшиеся ? — в лучшую из найденных.
Можно каждый третий день идти в новую столовую, а в остальные дни — в лучшую из найденных.

А насколько они норм?

Прогоним 10 000 экспериментов и посмотрим распределение выигрыша для каждой из стратегий. Будем смотреть на периоде в 7 дней и на 30 дней. На графиках по горизонтальной оси — значение выигрыша, по вертикальной — плотность вероятности получить такой выигрыш. В легенде и на вертикальной линии — средний выигрыш стратегии.

Что тут у нас:

Средний выигрыш стратегий отличается, но дисперсия на фоне разницы матожиданий большая. Это значит, что удача — один из ключевых факторов.
Оптимальная стратегия в среднем действительно лучше остальных. Приятно :)
Стратегии «Искать первую попавшуюся из топ-40%» и «Первую треть времени исследовать» — вполне себе хорошие, не сильно отстают от оптимальной.
Каждый третий день ходить в новую — в полтора-два раза хуже хороших стратегий. Это значит, что совет «сначала исследовать, а потом эксплуатировать» довольно существенный.
Если каждый день ходить в новую столовую — получается совсем «по среднему».

Итого

В хорошие столовые нужно возвращаться, это существенно влияет на суммарное качество.
Лучше сначала сфокусироваться на поиске хорошей столовой, а только потом — на эксплуатации лучшей.
Удача очень существенно влияет на успех. Хорошо, что на это можно повлиять: подпишитесь на канал и получите два очка удачи бесплатно!
Остальное не очень важно.

Комментарии (26)

StjarnornasFred
14.11.2020 12:59
#22303776
+1
В реальной жизни наиболее «оптимальна» (не в математическом, а в общем смысле) стратегия №3. Первую треть отпуска можно и нужно ходить в разные столовые как минимум из любопытства и тяги к новому, выбирая из всех существующих те, которые кажутся наиболее интересными (не лучшими, а именно интересными для посещения и отличающимися от других). А потом, когда из них определена лучшая, а все остальные столовые не представляют интереса в силу однотипности с ранее посещёнными, можно ходить только в лучшую.

DmitryOlkhovoi
14.11.2020 13:05
#22303788
Помню пробовали этот прикольный сайт WHERE THE FUCK SHOULD I GO TO EAT?
Только, что-то барахлит с сертификатом

embden
14.11.2020 14:02
#22303926
Статья на интересную тему, но как-то в ней всё ненадежно, по-дилетантски даже на взгляд дилетанта.

Будем считать, что качество столовой распределено нормально, со средним в нуле.
Почему? Вы пойдете в столовую, от которой на улице стоит смердящий запах? Или в соц. столовую с бомжами? Или в столовую с крайне негативными отзывами? А действительно ли столовые распределены по качеству нормально, или большая часть из них пытается экономить, смещая распределение ближе по качеству к плохим? Я ставлю под большое сомнение это предположение о нормальности распределения.

Эта задача имеет аналитическое решение, но оно довольно громоздкое и нетривиальное, поэтому мы обойдемся меньшей кровью и вычислим эти коэффициенты численно.
Было бы интересно его увидеть, и чтобы с формулами, с четкими выводами. А то вы и для своего численного решения особо ничего не показываете.

Численно проэкспериментируем с каждым вариантом много раз (пока не наберется статистическая значимость)
А где же расчет необходимого количества вычислений для стат. значимости? Где код вычислений? А сколько попыток можно сделать при поиске столовой? В моём районе, к примеру, 6 столовых, как-то учитывается максимальное количество столовых?

Как я уже и сказал, ваше предположение о нормальности распределения не верно — делая такое предположение, вы игнорируете большой пласт информации — те же отзывы, внешний вид общепита, удаленность от места проживания. Я думаю, что оптимальная стратегия должна учитывать эту информацию хоть каким-то образом.
1. sophist
  14.11.2020 14:30
  #22303996
  Предположение о нормальности распределения качества столовых наиболее естественно. Распределение нормально в ситуациях, когда на величину влияют много независимых факторов.
  
  Вас, вероятно, смущает среднее, равное нулю. Но ведь мы просто принимаем за ноль качество "на троечку" (и ничто не мешает смердящие столовые с бомжами исключить из рассмотрения вовсе).
  1. embden
    14.11.2020 16:12
    #22304268
    Распределение качества столовых нормально, в этом вопросе вы правы. Но распределение столовых, в которые вы готовы пойти — не нормально, и именно это сильно меняет оптимальную стратегию. Это как раз тот случай, когда сталкиваются математика и практика. И ладно бы, если бы это всё делалось, чтобы упростить теоретические выкладки по задаче, но ведь автор всё делает вычислительными методами при этом про точность упоминаний нет, код вычислений не приведен.
    
    и ничто не мешает смердящие столовые с бомжами исключить из рассмотрения вовсе
    Столовые с бомжами, столовые с плохими отзывами, удаленные столовые — так и получается, что распределение перестаёт быть нормальным.
    
    sophist
    14.11.2020 17:09
    #22304466
    Скорее, не распределение перестаёт быть нормальным, а центрирующий параметр смещается (возможно, за пределы рассматриваемой области). В любом случае, важно распределение не столовых, в которые мы готовы пойти, а столовых, по которым мы считали квантили, нет?

sophist
14.11.2020 14:22
#22303978
Все рассмотренные стратегии детерминированные. Учитывая, что максимизируем мы матожидание, а также что в любой момент можем оценить квантиль текущего максимума, почему бы не рассмотреть такую стратегию: "каждый день с вероятностью, равной этому квантилю, выбираем exploit, а с оставшейся от единицы вероятностью – explore"?
1. maximw
  14.11.2020 15:16
  #22304128
  +1
  Это противоречит принципу «сначала изучай»
  1. sophist
    14.11.2020 16:40
    #22304358
    Вот поэтому и интересно её рассмотреть. Принцип был выведен для детерминированных стратегий, интересно, как обстоит дело в случае вероятностных.
    
    wataru
    14.11.2020 18:12
    #22304718
    Можно было бы так — выбрать случайно сколько дней изучать, или с какой-то вероятностью каждый день переходить в состояние exploit, не возвращаясь больше к explore. Эта стратегия эквивалентна вашей, но не нарушает принципа оптимальности.

tunelix
14.11.2020 15:08
#22304086

Sergey_Kovalenko
14.11.2020 16:00
#22304238
Над формализацией стоит подумать еще.

dmitryb-dev
14.11.2020 16:43
#22304370
В другом городе может оказаться что все будут ниже качеством, чем мы привыкли в своем городе и на основе которого мы «откалибровали шкалу качества». И судя по этой стратегии мы будем всегда выбирать новую столовую — потому что там все плохие и мы так и не найдем норм. И наоброт, если в среднем еда лучше — то остановимся на первом хорошем варианте, так и не узнав, что есть столовые еще лучше.

Тогда тут больше подходит стратегия из этого видео:

sophist
14.11.2020 17:13
#22304484
Интересно было бы модифицировать задачу для случая, когда априорное распределение качества неизвестно, и всю необходимую статистику для него мы получаем непосредственно в ходе эксперимента.
1. MichaelBorisov
  15.11.2020 01:42
  #22306072
  Для случаев, когда распределение неизвестно, обычно применяются т.н. «непараметрические» методы, т.е. вместо абсолютных значений величины берётся их ранг в выборке. Так как распределение рангов известно — оно равномерное — то дальше можно применять теорию равномерного распределения.

ss-nopol
14.11.2020 17:23
#22304514
+1
Не всё так просто. В одной столовой может быть отличный суп, а в другой — борщ (по четвергам). То есть надо перепробовать ещё разные блюда, которые к тому же могут быть не каждый день.

MinimumLaw
14.11.2020 18:50
#22304838
+1
Интересно… Я решаю подобные проблемы крайне просто — достаю монетку и подбрасываю. Орел — идем в проверенное, Решка — ищем новое. Но вот меня не хватит проверить математикой ожидаемый результат…
К слову хорошо работающая стратегия. Над нами с женой в магазинах постоянно ржут когда мы выбираем один из двух понравившихся товаров. Нервы она точно сохраняет. А это уже не самый плохой выигрыш.
1. VolCh
  14.11.2020 19:54
  #22305034
  Меня жена убивать готова за монетку при принятии решений, поэтому наловчился в кармане, например, незаметно покрутить и посмотреть.
  1. 0xd34df00d
    14.11.2020 21:19
    #22305318
    Смотрите на секундную стрелку часов: меньше 30 — орёл, иначе — решка. На часы можно смотреть без палева по идее.
  1. Hodus
    14.11.2020 22:28
    #22305590
    +1
    Есть теория что мы решения принимаем практически случайно, а после мозг придумывает объяснение, почему мы решили так. Исследования Роджера Сперри это частично доказывают. Нобелевская премия по медицине 81го года
    
    tunelix
    15.11.2020 13:37
    #22306958
    попробуйте построить атомную станцию, процессор с миллиардами транзисторов или БАК подбрасывая монетку

teology
14.11.2020 21:56
#22305482
Я что-то не понял, а разве это не известная проблема разборчивой невесты? Ею ещё Борис Березовский занимался до олигархического периода своей жизни.
1. Hodus
  14.11.2020 22:14
  #22305556
  теория момента остановки или марковский момент времени. Класические примеры — поиск места для парковки, поиск квартиры для аренды.
1. kriot Автор
  14.11.2020 23:09
  #22305718
  +1
  Задача о разборчивой невесте похожая, но другая. Отличия:
  — К столовым можно возвращаться, а к женихам — нет
  — В классической постановке задаче о невесте считается, что распределение качества женихов не известно, поэтому первое время нужно исследовать именно его, скипая женихов. В задаче о столовых игроку известно распределение
  — В задаче о невесте цель найти лучшего жениха. В задаче про столовые цель максимизировать сумму качества посещенных столовых, что больше похоже на «как можно раньше найти более ли менее нормального (не лучшего) жениха»
  В частности, это приводит к другой оптимальной стратегии

tmin10
15.11.2020 01:41
#22306068
+1
Когда сменил работу, с новыми коллегами обошли все ближайшие кафе на обед, которые находились в радиусе 10-15 минут пешком, а потом ходили в те, что понравились лучше, но не постоянно, чередуя разные варианты. Хотя этот вариант, конечно, не идеален, когда время ограничено.

Firsto
15.11.2020 10:44
#22306612
Хорошо, когда идеальная столовая в одном здании с офисом