Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.
Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.
Почему книги? И при чем тут комиксы?
Когда я начинал свой путь в Data Science, мне казалось, что все вокруг уже разобрались в моделировании и работе с данными, и лишь я отстаю. Спасение пришло неожиданно — в виде комиксов. Да-да, вы не ослышались. Однажды я наткнулся на книгу Ларри Гоника «Статистика. Краткий курс в комиксах», и это изменило всё.
С тех пор я убедился: хорошая книга — это не просто источник знаний, а тренажёр для мышления. Она помогает не утонуть в абстракциях и сохранить интерес к профессии. Сегодня я расскажу о пяти книгах, которые станут вашим «спасательным кругом» на старте.
1. «Статистика. Краткий курс в комиксах» — Ларри Гоник
«Любой Data Scientist начинается со статистики» — эту фразу я повторяю как мантру. Но как объяснить новичку, что доверительный интервал — это не скучная формула, а инструмент для принятия решений? Гоник делает это через истории.
Что внутри?
- Герои-путешественники, которые «сражаются» с распределениями и проверкой гипотез;
- объяснение базовых концептов без единой страницы сплошного текста;
- вместо сухих формул — аналогии из жизни. Например, испытания Бернулли показаны как азартные игры с марсианскими монетами.
Почему это работает?
Когда я впервые прочитал Гоника, то удивился, насколько просто можно объяснить, например, центральную предельную теорему. После этого даже моя бабушка (которая путает Excel и «эту вашу статистику») спросила: «А что, правда так просто?»
Совет:
Держите книгу на столе. Перечитывайте главы перед собеседованиями — это лучше сотни статей на Medium.
---
2. «Глубокое обучение. Погружение в мир нейронных сетей» — С. Николенко, А. Кадурин, Е. Архангельская
«Она устарела, но я все равно её люблю», — признался я коллегам за завтраком. Да, код из книги сегодня выглядит архаично, но её сила — в философии.
Что внутри?
- История нейросетей от биологических нейронов до LSTM;
- советские анекдоты и цитаты Аристотеля как метафоры для объяснения backpropagation;
- примеры архитектур, которые я использовал в сервисах по распознаванию именованных сущностей.
Почему это работает?
Авторы не просто учат строить модели — они показывают, как мыслить категориями Data Science. Например, глава о перцептронах начинается с вопроса: «Почему мозг человека — не компьютер?» Это заставляет задуматься о границах искусственного интеллекта.
Личная история:
Однажды я подарил эту книгу стажёру, который боялся подступиться к TensorFlow. Через месяц он пришел с работающей моделью для классификации мемов. «Ты был прав, — сказал он. — Даже устаревший код помогает понять логику».
---
3. «Грокаем глубокое обучение» — Эндрю Траск
В своей работе я часто слышал: «Зачем писать нейросеть с нуля, если есть Keras, Tf, PyTorch?» Ответ прост — чтобы перестать быть «пользователем» и стать творцом.
Что внутри?
- Реализация градиентного спуска «на коленке» — без библиотек;
- разбор LSTM-сетей через призму умножения матриц (спойлер: никакой магии!);
- как превратить «мужчина − женщина + король» в «королева» с помощью линейной алгебры.
Почему это работает?
Траск учит видеть математику за кодом. Его подход напоминает сборку конструктора: вы разбираете каждую деталь, прежде чем собрать целое.
Совет:
Не копируйте код из GitHub. Печатайте его вручную, как я делал в поезде по пути к родителям. Да, это медленно, но так вы запомните каждую строчку.
---
4. «Машинное обучение для бизнеса и маркетинга» — Илья Кацов
«Data Scientist без понимания бизнеса — это программист, который пишет код в вакууме». Эта книга — лучший способ избежать этой ловушки.
Что внутри?
- Кейсы из реальной жизни: от рекомендательных систем до динамического ценообразования;
- объяснение, почему NDCG лучше accuracy для оценки рекомендаций;
- практические советы по работе с гипотезами и метриками.
Почему это работает?
Кацов не просто рассказывает об алгоритмах — он показывает, как заставить их работать на прибыль. Например, как повысить конверсию, жертвуя точностью модели ради «серендипности» (неожиданно полезных рекомендаций).
История из практики:
После прочтения главы о поисковых системах я начал использовать термин «сила сигнала» в общении с командой поиска. Это помогло нам выстроить диалог на одном языке.
5. «Доверительное А/В-тестирование. Практическое руководство по контролируемым экспериментам» — Р.Кохави, Д.Тан, Я.Сюй
«Без A/B-тестов вы как слепой котенок в темной комнате», — шучу я на собеседованиях. Но это правда: даже самая крутая модель бесполезна, если вы не умеете проверять гипотезы.
Что внутри?
- Реальные провалы и успехи из практики Google, Bing и Amazon;
- объяснение, почему ускорение поиска на 1 мс иногда приносит миллионы долларов;
- разбор ловушек, например, как «эффект новизны» искажает результаты тестов.
Почему это работает?
Авторы разбирают не только теорию, но и психологические аспекты. Например, как убедить бизнес не останавливать тест раньше времени из-за временного спада метрик.
Совет:
Читайте книгу с карандашом. Я исписал все поля пометками вроде «не повторять» и «показать команде».
---
Как читать эти книги? Личный лайфхак
1.Начинайте с бумажных версий. Как-то я купил потрепанного Гоника в букинистическом магазине — теперь это мой талисман.
2. Делайте пометки о рабочих проектах. В книге Кацова я отмечал главы, которые помогли оптимизировать рекомендации:
- Глава 5 — как сегментировать аудиторию для персонализации
- Глава 7 — метрики для оценки A/B-тестов в реальном времени
3. Ищите редкие издания. Месяц охоты за книгой Наима Сиддики «Скоринговые карты для оценки кредитных рисков» окупился проектом для банка.
---
Послесловие
Data Science — это не гонка за трендами. Это постепенное погружение, где каждая книга — как новый уровень в видеоигре.
Что дальше? В следующей статье расскажу о книгах для мидлов: как проектировать ML-системы, работать с командой и не сойти с ума от технического долга. А пока — держите список и помните: знание-сила.
P.S. Если найдете «Краткий курс статистики» Гоника — купите два экземпляра. Один для себя, второй — для коллеги, который говорит: «Да зачем мне это, я же нейросети тренирую!»