Вскоре после того как я, в сентябре 2013, начал вести блог (мне, студенту, тогда больше нечем было заняться), я поставил перед собой цель — писать по статье в неделю. В результате — со дня рождения моего блога и до того момента, когда я начал работать в Wave (тогда мне уже было чем заняться, в результате посты я выкладывал гораздо реже), я опубликовал примерно 150 материалов.

Результаты публикации этих 150 статей оказались очень и очень разными:

  • Два поста оказались крайне успешными, добрались до главной страницы Hacker News (первый — о том, что произошло со всеми непрограммистами, второй — о читабельности, хакабельности и абстрагировании кода).

  • Дэн Луу, после того, как увидел второй из вышеупомянутых постов, подписался на мой блог и начал слать на Hacker News многие мои материалы. В результате ещё штук 5 статей стали довольно-таки популярными. Это привело к приходу в мой блог первой волны подписчиков, с которыми я не знаком лично. Плюс — это дало мне серьёзную мотивацию писать дальше. Я и Дэн, в итоге, стали хорошими друзьями.

  • Примерно 95% оставшихся постов получились совершенно непримечательными.

Это — очень типичный разброс результатов публикаций, на который могут рассчитывать блогеры: несколько «хитов» и куча «хлама». Через восемь лет я развил достаточно хорошее чутьё на то, какой пост найдёт отклик у читателей. В результате я смог почти полностью уйти от написания совершенного «хлама». Но, даже учитывая это, несколько моих лучших недавних постов (этот и этот) оказались гораздо успешнее других. Речь идёт о том, что многие делились с другими ссылками на них, и о комментариях к ним, вроде «то, что я узнал, сильно на меня повлияло».

Подобное статистическое распределение результатов называют распределением с широкими (по сравнению с нормальным распределением) хвостами, или «широким» распределением, или распределением с «длинными» («тяжёлыми», «толстыми») хвостами (heavy-tailed distribution). Их так называют, потому что исходы из хвоста (лучшие, чем типичные исходы) обладают сравнительно высокими шансами возникновения, что и делает хвост «тяжёлым». Когда я пишу в блог — каждый пост — это образец из «широкого» распределения результатов публикаций.

На следующем рисунке вы легко заметите разницу между распределением с тяжёлым хвостом и с лёгким.. Тут сравниваются эти два типа распределения с идентичными математическим ожиданием и стандартным отклонением, подобранными так, чтобы они были бы похожи на распределение доходов домохозяйств в США (медиана = $60,000; p99 = $600,000):

На увеличенном фрагменте графиков видно, что экстремальные выбросы с гораздо более высокой вероятностью могут появиться, собственно говоря, при наличии «широкого» распределения
На увеличенном фрагменте графиков видно, что экстремальные выбросы с гораздо более высокой вероятностью могут появиться, собственно говоря, при наличии «широкого» распределения

«Широкие» распределения, на самом деле, не очень понятны большинству людей, так как всё «самое интересное» происходит в малой части образцов, являющихся аномалиями (выбросами). Но много всего важного в мире «крутится» именно за счёт аномалий. Это — работа, поиск сотрудников, личные отношения и, конечно, самое важное в этой жизни — посты в блогах.

Так как «широкие» распределения — явление непонятное, люди часто совершают серьёзные ошибки, когда пытаются брать из них образцы:

  • Они не берут достаточного количества образцов.

  • Они недооценивают то, насколько хорошим может быть полученный результат.

  • Им сложно понять, сработает или нет стратегия, которой они следуют. Это очень сильно их деморализует.

Если вы знаете о том, что заняты чем-то, что предусматривает взятие образцов из «широкого» распределения — вы можете избежать этих ошибок и получить гораздо лучшие результаты.

Выявление «широких» распределений

Надёжное правило выявления «широких» распределений заключается в том, что несколько процентов лучших показателей, описываемых ими, многократно превосходит типичные или медианные значения показателей. Классический пример — открытие Вильфредо Парето, которое заключалось в том, что 80% земель Италии владеет 20% населения. Оказалось, что подобное соотношение характерно и для многих других сфер жизни. Этот феномен назван принципом Парето, или правилом 80/20. А вот распределения, не следующие правилу 80/20 или другому похожему правилу, называют «узкими» распределениями. Вот несколько примеров:

  • Доходу соответствует «широкое» распределение: если смотреть в глобальном масштабе, то человек с медианным доходом живёт на $2500 в год. А 1% самых богатых людей живёт на $45000, что почти в 20 раз больше.

  • Росту людей соответствует «узкое» распределение: самые высокие люди лишь на несколько футов выше, чем люди среднего роста. Если бы росту соответствовало бы то же распределение, что и доходу, то рост Илона Маска, заработавшего в 2021 году 121 миллиард долларов, составлял бы 85000 километров, или — около четверти расстояния от Земли до Луны.

  • Подписчики в Твиттере описываются «широким» распределением: в 2013 году у медианного активного Твиттер-блогера был 61 подписчик, а у 1% ведущих блогеров — почти по 3000.

  • Результаты в таких видах спорта, которые требуют максимума силы и выносливости, описываются «узким» распределением. Текущий мировой рекорд в беге на 100 метров принадлежит Усэйну Болту (9,58 секунды). А обычный спортсмен может пробежать стометровку за 13-14 секунд.

  • Экономическая эффективность глобальных инициатив в области здравоохранения характеризуется «широким» распределением. По результатам исследований, выполненных в рамках проекта Disease Control Priorities, самая эффективная инициатива примерно в 3 раза эффективнее, чем 10 следующих за ней мероприятий, и в 10 раз эффективнее мероприятий, входящих в 20 лучших.

«Узкие» распределения чаще всего встречаются там, где результат зависит от многих независимых факторов. А «широкие» — там, где результат формируют процессы, являющиеся мультипликативными или самоусиливающимися. Например — чем богаче человек — тем легче ему увеличить свой доход. Чем больше у вас подписчиков в Твиттере — тем больше ретвитов будет у ваших постов и тем больше потенциальных новых подписчиков их увидят. Экономическая эффективность глобальных инициатив в области здравоохранения определяется умножением множества различных переменных (насколько опасна болезнь, с которой борются; насколько сильно мероприятия воздействуют на болезнь; насколько дорого проведение мероприятия в расчёте на одного человека). Каждая из этих переменных — это результат произведения нескольких других факторов.

Стоит отметить, что в «узких» распределениях аномалии особой роли не играют. Рост 1% самых высоких людей в мире достаточно близок к среднему росту, в результате на них, в большинстве случаев, можно не обращать внимания. А вот в данных, описываемых «широким» распределением, аномалии, наоборот, играют очень важную роль. Несмотря на то, что 90% людей живут на менее чем $15000 в год, имеются большие группы людей, зарабатывающих в 1000 раз больше. Именно поэтому «широкие» распределения гораздо менее понятны, а значения, соответствующие таким распределениям, гораздо сложнее прогнозировать.

Где встречаются «широкие» распределения?

Жаль, что всё именно так, как сказано выше. Опыт (и принцип Парето) подсказывают мне, что всё самое важное в жизни характеризуется «широкими» распределениями. Например:

  • Ценные качества работы. Это очевидно для измеримых показателей, вроде зарплаты, но опыт подсказывает мне, что это справедливо и для таких показателей, которые не особенно легко измерить. Например — многому ли человек научится благодаря работе, или будет ли его расстраивать неадекватная культура компании. (Обратите внимание, что то, какие именно потенциальные места работы будут аномалиями для конкретного человека, зависит от его ценностей, которые у разных людей сильно различаются! Например, в моём случае работа в Wave — это аномалия, но это так не для всех.)

  • Эффективность работников умственного труда (во многих сферах). Дэн Луу пишет: «В тех местах, где я работал, я наблюдал за тем, что приводит к принятию решений, кто, на самом деле, влияет на некие практические результаты, и за прочим подобным. Оказывается, что лишь очень малое количество людей (порядка нескольких процентов) по-настоящему важны для обеспечения эффективной работы компаний».

  • Влиятельность идей. На каждый из материалов, входящих в топ-100 самых цитируемых публикаций, имеется более 12000 ссылок. А на медианную публикацию, похоже, есть приблизительно одна ссылка.

  • Качество романтических отношений. Например, в современных США почти 50% браков заканчиваются разводами. А в браках, соответствующих 99 перцентилю, пары (в среднем) чрезвычайно счастливы друг с другом на протяжении более чем 50 лет. В других ситуациях нечто подобное, кажется, проявляется ещё ярче. Так, в странах с низким уровнем дохода и с отсталыми гендерными нормами более 25% женщин, у которых когда-либо был партнёр, ежегодно подвергаются домашнему насилию. Это, вероятно, указывает на то, что у средней пары всё очень плохо.

  • Успешность стартапов. В ноябре 2021 года общая рыночная капитализация всех 3200 компаний, профинансированных в рамках проекта Y-Combinator, составляла 575 миллиардов долларов. А топ-5 компаний (или 0,2%) стоили примерно 65% от этой суммы (Airbnb: $100 миллиардовStripe: $100 миллиардовCoinbase: $80 миллиардовDoordash: $50 миллиардовInstacart: $40 миллиардов). Средняя компания, не входящая в топ-5, стоила примерно 60 миллионов долларов, или приблизительно 1% от стоимости компании из топ-5. Это значит, что медианная компания, скорее всего, будет стоить ещё меньше.

  • Коммерческие результаты проектов, реализуемых внутри компаний. Наиболее наглядные данные об эффективности проектов можно получить из компаний, занимающихся разработкой ПО, проводящих A/B-тестирование, направленное на оценку новшеств. Например, специалисты из Microsoft Research измерили распределение воздействия экспериментов на интересующие компанию показатели Bing. Они выяснили, что «многие эксперименты отличаются очень маленькими измеримыми изменениями, в то время как небольшая группа экспериментов привела к значительным улучшениям». Аналитическая компания Optimizely тоже выяснила, что A/B-тестирование, проводимое её клиентами, соответствует похожему «широкому» распределению. На основе личного наблюдения в Wave могу отметить, что тот же эффект, который, правда, сложнее выразить в количественных показателях, похоже, справедлив и для долгосрочных проектов. Тут наблюдается динамика, схожая с той, которая характерна для стартапов, так как многие проекты, реализуемые внутри компаний, похожи на мини-стартапы.

  • Эффект благотворительных проектов. Фонд Open Philanthropy придерживается подхода, который можно описать как «пожертвования, основанные на хитах»: «Мы полагаем, что высокорисковый и высокорезультативный подход к пожертвованиям можно описать как «бизнес, построенный на хитах», кода на малое число чрезвычайно успешных проектов приходится значительная доля общего результата, что компенсирует вложения в большое количество неудачных проектов».

  • Жизненные решения — вроде выбора места жительства. Например, по крайней мере, в доковидные времена, если вы были программистом, то переезд в Сан-Франциско, скорее всего, позволил бы вам попасть на такую карьерную лестницу, которых просто нет практически во всех других городах. Дело в том, что в Сан-Франциско было гораздо больше вакансий, чем в других городах. Кроме того, жизнь там, с более высокой долей вероятности, способна подтолкнуть программиста к созданию собственной компании. Если вы были рационалистом, эффективным альтруистом, или относились к другому типу необычных интернет-интеллектуалов, переезд в Сан-Франциско, скорее всего, подействовал бы на вас похожим образом из-за того, что этого город называют «Глобальной штаб-квартирой необычности».

  • Польза, которую можно получить, попробовав новое занятие. В подростковом возрасте и в начале третьего десятка лет я попробовал множество разных занятий. О большинстве из них я совершенно забыл, но несколько самых главных принесли мне огромную пользу. Например, однажды я согласился на уговоры соседа по квартире и пошёл на занятия по контрдансу. Мне это очень понравилось, я стал серьёзным танцором. Вероятно — это то самое занятие, которое внесло наибольший вклад в моё счастье и хорошее самочувствие примерно от 13 лет до 21 года. Танцы, кроме того, помогли мне найти множество друзей и многочисленных романтических партнёров.

Надеюсь, приведённых мной примеров достаточно для того чтобы убедить вас в том, что «широкие» распределения можно встретить буквально повсюду.

Как выбирать образцы из «широких» распределений?

При взятии образцов из данных, описываемых «широким» распределением, самое важное — помнить о том, что увеличение количества образцов приводит к значительному улучшению результатов.

В случаях, когда речь идёт о чём-то, чему соответствует «узкое» распределение, всё выглядит иначе. Например, при выборе фруктов в продуктовом магазине взглянуть на два-три яблока и выбрать самое лучшее из них — это вполне нормально. Совершенно неоправданно будет, например, пересматривать все яблоки из ящика в поисках того единственного, которое выглядит лишь немного лучше всех тех, которые попадались до него.

А вот при встрече с «широким» распределением всё устроено с точностью до наоборот. Будет, аналогично, совершенно неоправданным звать на романтическое свидание человека, выбранного из двух-трёх встреченных людей, у которых нет пары, остановившись на том, кто покажется самым перспективным. Каждый дополнительный образец повышает шанс нахождения аномалии. Поэтому один из лучших способов улучшения результатов заключается в том, чтобы взять настолько много образцов, насколько это возможно.

Как видно из примера со свиданием — у большинства людей уже имеется некое чутьё на такие вещи, но даже так — эту особенность работы с «широкими» распределениями легко недооценить. В нашем случае это значит — выбирать из слишком малого количества людей. Тут дело в том, что, скажем, в случае с взаимоотношениями, легко увидеть разницу между 90 и 99 перцентилями. А именно — нужно рассмотреть 100 кандидатов, многих из которых тут же отсеивают. А вот разницу между 99 и 99,9 перцентилем, или между 99,9 и 99,99 увидеть уже сложнее, но и та и другая задачи, вероятнее всего, окажутся одинаково большими. Учитывая то, о каких ставках идёт речь при поисках будущего любимого человека, останавливаться на 99 перцентиле совместимости — это, вероятно, неудачная идея.

Это значит, что процесс взятия образцов из «широкого» распределения может очень сильно подрывать мотивацию людей. Это требует выполнения одних и тех же действий, когда снова и снова оказывается так, что ничего не получилось. Например — ходить на множество неудачных свиданий, получать предложения от множества неудачных стартапов и так далее. В данном случае важно помнить о том, что надо довериться процессу и не считать отдельные провалы, или даже большие количества провалов, убедительным доказательством неправильности процесса.

Помню, я только начал серьёзно заниматься наймом персонала для Wave. Прежде чем удалось найти хороших сотрудников, прилагая к этому сознательные усилия, я кое-что понял. Я понял, что меня изматывает необходимость снова и снова задавать людям одни и те же вопросы на собеседованиях, а потом каждому из них отказывать. В результате мы изначально установили такие требования к сотрудникам, которые были ниже, чем им следовало бы быть. После того, как, пользуясь этой методикой, мы наняли нескольких отличных сотрудников, ко мне, наконец, пришло осознание ценности этой работы. После этого я с гораздо большей охотой вкладывал много времени и сил в это дело, так как знал, что, в итоге, всё это окупится сторицей. Мы, в итоге, со временем, ужесточили требования к тем, кто хочет у нас работать.

Часто у человека есть выбор между тем, чтобы потратить время на оптимизацию одного образца, и тем, чтобы взять второй образец. Например — отредактировать уже написанную статью или написать новую, довести до совершенства сообщение в приложении для знакомств или отправить сообщение ещё кому-нибудь. Немного оптимизации — дело хорошее, но опыт подсказывает мне, что большинство людей слишком зациклены на оптимизации и недооценивают силу взятия дополнительных образцов.

Вот ещё пример того же явления. Венчурные капиталисты часто стремятся к тому, чтобы инвестировать в наилучшие компании, основываясь на оценках, которые кажутся абсурдными. Они следуют логике, в соответствии с которой, если компания — это «победитель», то самое важное — инвестировать в неё, а оценки значения не имеют. Поэтому венчурным капиталистам не стоит слишком стремиться к оптимизации оценки компаний, на основе которой они инвестируют в эти компании.

Стратегия фильтрации образцов

Ещё одно следствие игры с числами — это то, что очень важна стратегия, которую используют для фильтрации образцов. Например, если речь идёт об инвесторе, то самый глупый способ потери денег заключается в том, чтобы, устав от стартапов, перестать в них инвестировать, придя к выводу, что все они ни на что не годятся, а потом увидеть, как их капитализация возросла в 100 раз. Из-за этого очень важно, чтобы фильтры были бы как можно теснее связаны с тем, что по-настоящему важно для того, кто эти фильтры применяет. Это позволит не отбрасывать кандидатов по необоснованным причинам.

Здесь есть одна тонкость: характеристики, которые указывают на то, что кандидат может быть потенциальной аномалией, часто очень сильно отличаются от тех, которые указывают на «довольно хорошего» кандидата. Поэтому подгонка процесса фильтрации под то, чтобы он выдавал бы больше «довольно хороших» кандидатов, не обязательно приведёт к росту уровня найденных аномалий. Уровень найденных аномалий от этого может даже упасть. Поэтому важно настраивать фильтры так, чтобы они были бы рассчитаны на «возможно изумительных» кандидатов, а не на «довольно хороших». Например, именно поэтому Y-Combinator не слишком жёстко фильтрует стартапы, оценивая то, насколько хорошей выглядит их идея. Стартапы, идеи которых выглядят не лучшим образом, вероятно, в среднем, менее успешны, но среди них вполне возможно появление аномалии:

…наилучшие идеи для стартапов поначалу могут выглядеть как идеи плохие. Я уже об этом писал: если высокие качества хорошей идеи очевидны — это значит, что кто-то уже её реализовал. Поэтому самые успешные основатели компаний обычно работают над идеями, которые лишь немногие, помимо них, считают хорошими. Это описание не слишком далеко от описания безумия — до тех пор, пока не будет достигнут момент получения результатов.

Когда Питер Тиль впервые делал доклад в YC, он нарисовал диаграмму Венна, которая отлично иллюстрирует эту ситуацию. А именно — там были две пересекающихся окружности. На одной написано — «похоже — плохая идея», на второй — «хорошая идея». Их пересечение — это золотая жила для стартапов.

Это — простая концепция, но, представленная в виде диаграммы Венна, она прямо-таки вызывает озарение у того, кто её видит. Диаграмма подчёркивает то, что окружности пересекаются, что есть хорошие идеи, которые кажутся плохими. Она, кроме того, напоминает и о том, что подавляющее большинство идей, которые выглядят плохими, такими и являются.

А в Y-Combinator, по большей части, игнорируют качество идей и стремятся к тому, чтобы найти мощные команды основателей компаний, которые смогут быстро принимать меры в ответ на обратную связь, получаемую от пользователей.

Этот подход в их случае себя отлично оправдал. Когда стартап Airbnb представил в Y-Combinator приложение, позволяющее людям принимать незнакомцев в своих жилищах, партнёры YC решили, что это — ужасная идея. Но их впечатлила решительность команды (в частности то, что они, сводя концы с концами, продавали кукурузные хлопья с политической символикой). В результате было решено, что в стартап, всё равно, инвестируют. В данном случае партнёры невероятно ошиблись, назвав идею плохой, но это, к счастью, оказалось неважно, так как они приняли правильное решение относительно того, что на это не стоит обращать слишком много внимания. Если бы они использовали менее чёткий процесс оценивания стартапов, то они могли бы упустить Airbnb. Теперь это компания, которая стоит примерно 15% от стоимости всех стартапов из портфолио YC (100 миллиардов долларов из 575 миллиардов). При этом как минимум один успешный венчурный инвестор отказался от Airbnb. Произошло это, в частности, из-за того, что идея показалась ему «очень подозрительной». Теперь в офисе этого инвестора стоят «политические» хлопья — как «напоминание о том, что надо поддерживать замечательных предпринимателей, когда бы они ни вошли в наш офис, независимо от того, что они нам предлагают».

В других ситуациях часто бывает так, что образцы из «широких» распределений отбирают, стремясь «убрать» кандидатов, а не «выбрать» их. Это, по похожим причинам, тоже, скорее всего, плохая идея. Например, если говорить о свиданиях, у людей обычно имеется некий список, которому должен соответствовать потенциальный партнёр. Пункты такого списка (вроде профессии) «убирают» многих людей, но эти пункты слабо связаны с долговременной совместимостью. Вот что об этом пишет Саша Чапин:

Однажды, когда я почувствовал, что что-то знаю, я заявил, что меня устроит свидание с любой женщиной, не являющейся веганкой или актрисой. Мне было ясно, что чизбургеры имеют исключительно важное значение для того, чтобы я чувствовал бы себя счастливым, и что мне будет нелегко сближаться с профессиональным имитатором эмоций. А теперь я женат на женщине (она и веганка, и актриса), с которой я невероятно счастлив.

Я ещё могу вспомнить, потрясающе чётко, момент, наставший через три часа после того, как я встретил будущую жену. Я предложил ей цыплёнка. «Я, на самом деле, веган», — сказала она. «Хорошо, — сказал я себе, — полагаю, меня обдурили». Мерцал ночной воздух, любовь была повсюду, и я мысленно выбросил из своей будущей жизни кучу животного белка.

Предположим, вы полагаете, что обладаете ограниченным «бюджетом фильтрации», который можете «потратить» на свиданиях (так как вы можете применить очень много фильтров до того, пока ваш пул подходящих партнёров сократится до нуля). Тогда фильтрация, направленная на выбор людей, обладающих небольшим количеством профессий, составляющих, скажем, 5% от населения — это пример плохого использования подобного «бюджета», в сравнении с использованием того же «бюджета» для поиска того, кто соответствует >95 перцентилю в умении разумного разрешения конфликтов.

Проблема этого примера заключается в том, что людей гораздо быстрее можно отфильтровать по профессиям, чем по умению разумно разрешать конфликты. На самом деле, в общем случае, верно то, что фильтровать легче по «минусам», а не по «плюсам», так как «минусы» проявляются более отчётливо. В приложении для знакомств очень легко увидеть то, что некто физически непривлекателен, или то, что у кого-то нелады с грамматикой, но не то, что он соответствует >95 перцентилю в деле разрешения конфликтов. Но, в принципе, если только вы не перегружены, в количественном плане, людьми, которые хотят пойти с вами на свидание, то вы, вероятно, будете больше ограничены «бюджетом фильтрации», а не временем. Поэтому имеет смысл менее строго ориентироваться на пункты своего списка и фильтровать кандидатов по показателям, которые лучше соответствуют тому, что вам действительно нужно.

Аналогично, во многих схемах найма сотрудников любой собеседующий может отклонить кандидата, что позволяет отбирать всесторонне развитых людей без серьёзных недостатков. Но многие мои знакомые, являющиеся там, где работают, аномалиями, имеют серьёзные недостатки. И они разобрались с тем, как обходить эти недостатки. Например, Дрю — CEO в Wave, это — сильнейший из всех лидеров, с которыми я до сих пор работал. Но длительное время некоторые с трудом воспринимали его стиль мышления и общения (с этим, в то же время, у меня и ещё у некоторых людей проблем не было). В Wave Дрю смог с этим справиться, сделав так, чтобы люди, которые понимают его особенности, взаимодействовали бы непосредственно с ним. Эти люди, если надо, служат «переводчиками» для других работников компании. Но если бы он проходил собеседование на какую-то должность в другой компании, я думаю, что весьма вероятно то, что как минимум один из собеседующих решил бы, что с ним тяжело общаться, и, на основании этого, отклонил бы его кандидатуру.

Что такое «хорошо»?

Одна коварная штука, связанная с «широкими» распределениями заключается в том, что сложно бывает понять то, насколько хорошим может оказаться по-настоящему желанный результат.

Это играет особенно важную роль в случаях, когда имеется компромисс между разведкой и использованием. То есть — между тем, чтобы получить больше пользы от текущего образца, и тем, чтобы взять из распределения новый образец. Например — это так для случаев, связанных с работой, с наймом сотрудников (на некоторые позиции), с отношениями. Нечто, со временем, по мере того, как в это вкладывают силы, становится лучше. Поэтому, в идеале, стоит стремиться к тому, чтобы придерживаться единственного образца в течение очень долгого времени. Это означает, что надо, в некий момент времени, прекратить поиски. Для того чтобы принять такое решение — важно знать о том, соответствует ли текущий образец (работа, кандидат на некую должность, партнёр) лишь 90 перцентилю (сравнительно легко найти что-то лучшее), или 99,9 перцентилю (очень сложно найти что-то лучшее).

Когда я, после колледжа, нашёл первую работу, я думал, что мне повезло. В стартапе, в котором я устроился, было чёткое объяснение того, почему он обнаружил неэффективность рынка, которую никто другой не находил. Поэтому возникало такое ощущение, что этот стартап может преуспеть. Основатели, казалось, много чего знали, я начал наполнять себя замечательными знаниями о машинном обучении и о статистике.

Всё это было так, но у моего первого места работы были и серьёзные недостатки. Всё в компании упиралось не в машинное обучение, а в продажи, поэтому то, чем я занимался, не всегда было очень важным. Размер потенциального рынка компании был ограничен, она могла увеличить его, лишь поглотив множество смежных частей цепочки создания стоимости. И, хотя основатели были достаточно компетентными людьми, у них я научился гораздо меньшему, чем позже, от других моих наставников.

Я, даже оглядываясь назад, не думаю, что было совершенно неразумным идти на эту работу, так как я нашёл её путём достаточно планомерного поиска. Кроме того, это была моя первая работа, поэтому у меня не было достаточно большого опыта в плане того, что именно нужно искать. Но веду я к тому, что тогда я даже не знал о том, как много существует гораздо лучших мест, в которых можно найти работу.

Я видел множество других людей, которым казалось, что они могут достичь аномально хороших результатов, людей, которые попадали в ту же самую ловушку «устроенности». Речь идёт о поиске работы, о собеседованиях, о свиданиях — и о любых других ситуациях, описываемых «широким» распределением. Я, в среднем, ожидаю, что большинство людей выиграет, отвергая во всех этих ситуациях более ранних кандидатов.

Одна из причин, по которой люди неохотно так поступают, это — беспокойство о том, что если работа, кандидат, романтический партнёр — это, и правда, лучшее, на что можно надеяться, то, отвергнув этот вариант, они никогда не найдут что-то столь же хорошее. Поэтому я полагаю, что полезно развивать у себя «настрой на избыточность». Предположим, вы нашли работу после двух месяцев поисков. Если только вы не сделали за эти два месяца что-то такое, что трудно воспроизвести (например — попросили о куче услуг, прибегнув к социальными связям, которыми снова воспользоваться не получится), то вам следует ожидать, что вы сможете найти столь же хорошую возможность в будущем, приложив к этому столько же усилий.

Конечно, это — лишь общие замечания, которые стоит пересмотреть в том случае, если ваша текущая работа — это, и правда, аномалия. Но большинство людей склонны к переоцениванию «аномальности» их текущей работы, а не к тому, чтобы её недооценивать.

Обратите внимание на то, что основа этого — наличие у человека разумного представления о том, какой может быть аномалия. Предположим, вы полагаете, что аномальная работа — это та, где вам никогда не придётся заниматься чем-то скучным. Это значит, что вы будете ошибочно подходить к оценке любого места работы, так как оцениваете их по нерациональному стандарту. Это так и в том смысле, что ваши ожидания по поводу «нескучности» слишком высоки, и в том смысле, что есть и другие важные факторы, касающиеся работы.

Для того чтобы избежать появления этой проблемы, полезно заранее подумать о том, какой вы ожидаете видеть потенциальную аномалию. Не стоит пытаться думать о том, потенциальная ли это аномалия, в тот момент, когда вам попадётся что-то, привлёкшее ваше внимание. Конечно, это сложно! Я, если честно, не думаю, что сам очень хорошо придерживаюсь этого совета. Но я понял, что полено спрашивать других о том, как, на основе их опыта, может выглядеть аномалия. Если вы пытаетесь найти романтического партнёра — спросите друзей о том, кто из них сильнее всего счастлив в отношениях, что делает его отношения аномальными. Если вы ищите сотрудника на новую должность — можете спросить коллег о том, кто работал с людьми, которые замечательно показывают себя на подобных должностях.

Как наладить процесс поиска аномалий?

Ещё одна сложность взятия образцов из «широких» распределений заключается в том, что сложно понять, ведёт ли применяемый процесс к цели. То есть — понять — приведёт ли его применение к достаточно частому обнаружению аномалий. Предположим, вы следуете хорошо выверенному процессу отбора кандидатов, скажем, проводя собеседования. При этом вам следует ожидать того, что вы, прежде чем найдёте идеального кандидата, встретите множество людей, не соответствующих вашим требованиям. И наоборот — предположим, вы что-то делаете совсем неправильно, например — отсеиваете потенциальных кандидатов-аномалий по невнятным причинам. В такой ситуации заметить подобную ошибку очень сложно, так как у вас не будет шанса убедиться в неправильности своего выбора, наняв их и испытав в деле.

В результате часто лучшее, что можно сделать — это следовать основным принципам логического мышления. Похоже ли, что используемые вами фильтры тесно коррелируют с настоящей «аномальностью»? Отбрасываете ли вы образцы по несерьёзным причинам?

Для того чтобы наладить рабочий процесс выбора образцов из «широких» распределений, нужно решить две задачи:

  1. Найти надёжный способ оценки того, является ли образец аномалией.

  2. Найти хороший способ взятия образцов.

Решение первой задачи весьма специфично для той сферы деятельности, в которой вы работаете. Решить её может быть довольно-таки сложно. При этом совет, который я дал выше, по поводу вопросов друзьям и коллегам, в целом, похоже, способен принести в этом деле пользу. Особенно он может оказаться полезным на стадии оценивания кандидатов, например — можно задать вопрос о том, как лучшие из тех, кого удалось нанять вашим коллегам, показали себя на собеседовании. В остальном же для оценки образцов нужно лишь очень хорошо вникнуть в конкретную сферу деятельности.

Если у вас есть быстрый и точный способ оценки образцов, тогда гораздо легче понять то, насколько хорошо работает избранная стратегия отбора потенциальных аномалий. Можно испробовать разные стратегии отбора и посмотреть, лучше или хуже оказываются прошедшие через них кандидаты. В подобном случае важна скорость перебора образцов, что позволит быстро испытывать разные стратегии.

Дэн Луу работает над оптимизацией производительности в Твиттере. Он обнаружил несколько возможностей с аномальным результатом и отметил, что это — одна из сфер, где очень легко оценить то, является ли идея проекта аномалией. Так как то, что его интересует, сравнительно легко измерить, можно быстро и легко получить приблизительную оценку того, сколько средств способна сэкономить конкретная идея. Благодаря этому можно быстро перебрать множество идей.

А вот ещё пример. У постов, публикуемых в блогах, имеется быстродействующий механизм получения обратной связи. Это — оценка вовлечённости аудитории (сколько раз прочитали материал, как читатели делятся материалом со своими подписчиками, как его комментируют, сколько он набрал лайков в социальных сетях). Именно поэтому, как только я решил писать по статье в неделю, я за короткое время многое узнал о том, какие посты находят у читателей отклик. В результате я смог принимать гораздо более обоснованные, чем раньше, решения, о том, какие идеи стоят того, чтобы довести их до публикации. Например, я заметил, что люди стабильно считают мои материалы по техническим темам гораздо менее интересными, чем статьи общего характера. И это — несмотря на то, что меня, по-видимому, читают в основном программисты. Поэтому я стал уделять меньше внимания техническим постам.

В случае с публикациями в блоге у такой стратегии есть один очевидный недостаток. А именно, многие авторы, пытающиеся оптимизировать свои работы в расчёте на вовлечённость аудитории, пойдут на неудачные (по моему мнению) компромиссы с другими ценностями. Например — они могут использовать кликбейтные заголовки, писать много, но без нюансов, могут сознательно стремиться провоцировать споры. Эти приёмы позволяют повысить кратковременную вовлечённость аудитории. Но авторы, которые полагаются на заголовки, общие вещи или споры, с меньшей долей вероятности напишут что-то такое, что не потеряет ценности со временем. Механизмы получения обратной связи, вроде тех, что позволяют оценить вовлечённость аудитории блога, это — лишь «представители» того, что по-настоящему интересует автора блога. Для того чтобы не попадаться в ловушки подобных «представителей», важно знать об их ограничениях. Иначе можно стать жертвой закона Гудхарта.

Итоги

Как же выглядит хороший процесс поиска аномалий?

  • Делайте множество попыток. Чем больше у вас образцов — тем выше вероятность того, что вы найдёте аномалию.

  • Знайте о том, что именно ищете. Попытайтесь выяснить, насколько хорошим может быть интересующий вас результат. Это позволит вам узнать о том, когда надо остановиться.

  • Найдите способ оценивания кандидатов, сильно связанный с тем, что вас интересует. Ищите «возможно изумительные» образцы, а не «довольно хорошие».

  • Если это возможно — постарайтесь быстро выбирать и оценивать кандидатов. Это позволит вам ускорить работу.

  • Не расстраивайтесь, когда снова и снова делаете одно и то же и, в большинстве случаев, ничего аномального найти не удаётся!

О, а приходите к нам работать? ????

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде.

Комментарии (1)


  1. SamXYZ
    08.06.2022 20:34

    Мотивирующая статья.

    А мой критик в душе говорит: "тема с аномалиями не раскрыта"

    Я сам ищу анимации в своей работе: частота применений скидок. Глубина скидок, количество больших чеков итд. Интереснее всего находить причины, которые Корелируются с результатом.