Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.

Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.

Почему книги? И при чем тут комиксы? 

Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.  

С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.


1. «Статистика. Краткий курс в комиксах» — Ларри Гоник

«Любой Data Scientist начинается со статистики» — эту фразу я повторяю как мантру. Но как объяснить новичку, что доверительный интервал — это не скучная формула, а инструмент для принятия решений? Гоник делает это через истории.

Что внутри?

- Герои-путешественники, которые «сражаются» с распределениями и проверкой гипотез;

- объяснение базовых концептов без единой страницы сплошного текста;

- вместо сухих формул — аналогии из жизни. Например, испытания Бернулли показаны как азартные игры с марсианскими монетами.

Почему это работает?

Когда я впервые прочитал Гоника, то удивился, насколько просто можно объяснить, например, центральную предельную теорему. После этого даже моя бабушка (которая путает Excel и «эту вашу статистику») спросила: «А что, правда так просто?» 

Совет:  

Держите книгу на столе. Перечитывайте главы перед собеседованиями — это лучше сотни статей на Medium.

---

2. «Глубокое обучение. Погружение в мир нейронных сетей» — С. Николенко, А. Кадурин, Е. Архангельская

«Она устарела, но я все равно её люблю», — признался я коллегам за завтраком. Да, код из книги сегодня выглядит архаично, но её сила — в философии.  

Что внутри?

- История нейросетей от биологических нейронов до LSTM;

- советские анекдоты и цитаты Аристотеля как метафоры для объяснения backpropagation;

- примеры архитектур, которые я использовал в сервисах по распознаванию именованных сущностей.

Почему это работает?

Авторы не просто учат строить модели — они показывают, как мыслить категориями Data Science. Например, глава о перцептронах начинается с вопроса: «Почему мозг человека — не компьютер?» Это заставляет задуматься о границах искусственного интеллекта.

Личная история:

Однажды я подарил эту книгу стажёру, который боялся подступиться к TensorFlow. Через месяц он пришел с работающей моделью для классификации мемов. «Ты был прав, — сказал он. — Даже устаревший код помогает понять логику».  

---

3. «Грокаем глубокое обучение» — Эндрю Траск

В своей работе я часто слышал: «Зачем писать нейросеть с нуля, если есть Keras, Tf, PyTorch?» Ответ прост — чтобы перестать быть «пользователем» и стать творцом.  

Что внутри?

- Реализация градиентного спуска «на коленке» — без библиотек;

- разбор LSTM-сетей через призму умножения матриц (спойлер: никакой магии!);

- как превратить «мужчина − женщина + король» в «королева» с помощью линейной алгебры.  

Почему это работает?

Траск учит видеть математику за кодом. Его подход напоминает сборку конструктора: вы разбираете каждую деталь, прежде чем собрать целое.

Совет:  

Не копируйте код из GitHub. Печатайте его вручную, как я делал в поезде по пути к родителям. Да, это медленно, но так вы запомните каждую строчку.

---

4. «Машинное обучение для бизнеса и маркетинга» — Илья Кацов

«Data Scientist без понимания бизнеса — это программист, который пишет код в вакууме». Эта книга — лучший способ избежать этой ловушки.  

Что внутри?

- Кейсы из реальной жизни: от рекомендательных систем до динамического ценообразования;

- объяснение, почему NDCG лучше accuracy для оценки рекомендаций;

- практические советы по работе с гипотезами и метриками.  

Почему это работает?

Кацов не просто рассказывает об алгоритмах — он показывает, как заставить их работать на прибыль. Например, как повысить конверсию, жертвуя точностью модели ради «серендипности» (неожиданно полезных рекомендаций).  

История из практики:  

После прочтения главы о поисковых системах я начал использовать термин «сила сигнала» в общении с командой поиска. Это помогло нам выстроить диалог на одном языке.

5. «Доверительное А/В-тестирование. Практическое руководство по контролируемым экспериментам» — Р.Кохави, Д.Тан, Я.Сюй

«Без A/B-тестов вы как слепой котенок в темной комнате», — шучу я на собеседованиях. Но это правда: даже самая крутая модель бесполезна, если вы не умеете проверять гипотезы.

Что внутри?

- Реальные провалы и успехи из практики Google, Bing и Amazon;

- объяснение, почему ускорение поиска на 1 мс иногда приносит миллионы долларов;

- разбор ловушек, например, как «эффект новизны» искажает результаты тестов.

Почему это работает?

Авторы разбирают не только теорию, но и психологические аспекты. Например, как убедить бизнес не останавливать тест раньше времени из-за временного спада метрик.

Совет:  

Читайте книгу с карандашом. Я исписал все поля пометками вроде «не повторять» и «показать команде».  

---

Как читать эти книги? Личный лайфхак

1.Начинайте с бумажных версий. Как-то я купил потрепанного Гоника в букинистическом магазине — теперь это мой талисман.

2. Делайте пометки о рабочих проектах. В книге Кацова я отмечал главы, которые помогли оптимизировать рекомендации:  

   - Глава 5 — как сегментировать аудиторию для персонализации

   - Глава 7 — метрики для оценки A/B-тестов в реальном времени

3. Ищите редкие издания. Месяц охоты за книгой Наима Сиддики «Скоринговые карты для оценки кредитных рисков» окупился проектом для банка.  

---

Послесловие

Data Science — это не гонка за трендами. Это постепенное погружение, где каждая книга — как новый уровень в видеоигре.

Что дальше? В следующей статье расскажу о книгах для мидлов: как проектировать ML-системы, работать с командой и не сойти с ума от технического долга. А пока — держите список и помните: знание-сила. 

P.S. Если найдете «Краткий курс статистики» Гоника — купите два экземпляра. Один для себя, второй — для коллеги, который говорит: «Да зачем мне это, я же нейросети тренирую!»  

Комментарии (0)