В конце июня, в московском офисе прошел митап на котором собрали 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. Под катом собрали презентации, записи докладов и небольшие комментарии.


«Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda»

Петр Ермаков, Senior Data Scientist в Lamoda и Data Coach в DataGym

Больше двух лет назад я рассказывал о использовании jupyter на 100%. Но что, если вы не один? Как ужиться на одной машине 20 студентам, изучающим ML, или RND команде из 15? Готовые рецепты, рекомендации и собранные грабли.


Презентация



«SQL-боттлнеки: поиск и устранение узких мест при масштабировании»

Михаил Новиков, ведущий разработчик, Fasttrack (fstrk.io)

Вы начинаете новый проект. Устанавливаете веб-фреймворк, ORM-фреймворк, пишете модели, делаете запросы к БД. Всё идет хорошо. Потом к вам приходит 100 000 пользователей — и проект падает под нагрузкой. Ваши действия? Такая ситуация была у нас полгода назад. Я расскажу, как мы нашли из нее выход, покажу наши подходы к поиску узких мест, сервисы, которые в этом помогают. И поясню, почему ванильный ORM — это зло.


Презентация



«Локализация контента и элементов интерфейса»

Алина Красавина, Ведущий разработчик MAPS.ME, Mail.ru Group

Рассказ о том, как устроена локализация на сервер-сайде MAPS.ME. Небольшая трогательная история о боли контент-менеджеров и преодолении разработчиков бэка на Django.


Презентация



«Сравнение технологий aiopg & asyncpg»

Алексей Фирсов lesha_firs, ведущий разработчик aio-libs/aiopg

Разберем, как работают две совершенно разные технологии aiopg & asyncpg — посмотрим, как они устроены. Что важно, мы не будем сравнивать скорость.


Презентация



«Оформление пайплайна в NLP проекте?»

Виталий Радченко, Data Scientist, YouScan

В докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования.


Презентация



«Стекаем и Блендим. Разбор популярных библиотек Python»

Дмитрий Буслов, Старший архитектор бизнес-решений, SAP CIS

В докладе мы расскажем про наиболее популярные библиотеки для формирования ансамблей. Начнем с простых ensemble в Sklearn-e, далее вручную соберем простейший стекинг в пару строчек кода, а после рассмотрим наиболее популярные библиотеки: Vecstack, Heamy, Pystacknet, Mlxtend, Mlens.


Презентация



PyMC3 — Bayesian Statistical Modelling in Python

Максим Кочуров, PyMC Dev / Samsung AI / Skoltech

Байесовская статистика в последнее время стала обсуждаться в контексте глубокого обучения. К сожалению, это скрывает главное ее преимущество по сравнению со стандартными подходами машинного обучения. В отличие от black-box моделей, байесовский подход к моделированию white-box. White-box — это и хорошо, и плохо. От аналитика требуется полное понимание природы задачи, только тогда байесовский подход используется на полную мощность. Он позволяет учесть не только то, что «говорят нам данные», но и то, что «говорит нам здравый смысл». В докладе пойдет речь о том, зачем и когда все это нужно и как проводить и интерпретировать такой анализ в питоне.


Презентация



«'Кис-кис, вдыхай меня через кес' или о чем говорят любители рэпа: Python для тематического моделирования комментариев ВКонтакте»

Дмитрий Сергеев, Aalto University / DataGym

Мы покажем, как собрать 10 миллионов комментариев, использую API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как:

  • Может ли тематическое моделирование помочь с кластеризацией жанров?
  • Есть ли что-то общее у слушателей шансона и джаза?
  • Как измерить близость Киркорова к Антохе МС?


Презентация

Следите за предстоящими событиями здесь.

Комментарии (4)


  1. AcckiyGerman
    22.07.2019 17:09

    Было бы хорошо, если бы под видео была расшифровка доклада для любителей быстро читать, а не медленно смотреть.


    1. s_egorov Автор
      23.07.2019 11:09

      Приняли! Подумаем, в каком формате лучше сделать.


    1. lesha_firs
      23.07.2019 12:48

      На youtube, можно сделать автоматическую расшифровку видео.


  1. danilovmy
    23.07.2019 22:55

    Наш высоко нагруженный мультиязычный проект написан на Джанго. Потому мониторю появляющиеся решения. Посмотрел две презентации по Джанго, стало жалко ребят:
    «Поиск и устранение узких мест при масштабировании» рассказ о том, как разработчик боролся со своим собственным кодом: видя ошибку архитектуры они продолжают заниматься оптимизацией старого кода, хотя видно же, что для масштабирования надо переделывать архитектуру. Не, вместо этого ребята продолжают скакать на мертвой лошади на устаревшей архитектуре приложения , просто они решили стегать плеткой чаще.
    Логично, когда хотим убыстрить, перестаем подгружать ненужные поля… стоп… а зачем у вас вообще ненужные поля в модели? Да и сама структура 4 таблиц выглядит странно. Непонятно, зачем делать objects.GET(только id). разве values_list(pk, flat true) не сделает это быстрее? Кстати, надо проверить на миллионе записей. Ребятам успехов.

    Мультиязычность это больное место в Джанго, как и многих других систем. Знаю не по наслышке, несколько лет был тех директором бюро мультиязычной поддержки, занимались проблемами мультиязычности на веб сайтах.

    Сейчас у нас в проекте, что я упомянул выше, много самостоятельных решений по вопросам мультиязычности, потому что родная мультиязычная поддержка очень плохо реализована на Джанго. Из переводных моделей парлер, хвад (лучше парлера) и модель транслейшн. Из перевода интерфейсов — розетта.
    По докладу вижу что люди делают что то не то: у них 32 языка и нет никакой автоматизации и проверки перевода??? Менеджер должен заходить в папку и править файл??? Да менеджер переводчик даже знать не должен где эти файлы. Та же джанго розетта ужасна но позволяет избежать проблем «не поставил запятую». У нас стояла софтина, жаль только в локальной сети работала, для всех переводчиков, где ядро переводов потихоньку заполнялось, и после, попадающиеся похожие переводы не надо было переводить. И точно никакой жести с json или текcтовыми файлами.

    Если кто еще знает про мультиязычность в джанго, подскажите. Есто что то еще похожее на hvad, только для новой джанго?