Отчет с PyDaCon meetup в Mail.ru Group, 22 июня / forpes.ru

Главная
Отчет с PyDaCon meetup в Mail.ru Group, 22 июня

Отчет с PyDaCon meetup в Mail.ru Group, 22 июня +35

22.07.2019 08:37

s_egorov 4 2600 Источник

В конце июня, в московском офисе прошел митап на котором собрали 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. Под катом собрали презентации, записи докладов и небольшие комментарии.

«Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda»

Петр Ермаков, Senior Data Scientist в Lamoda и Data Coach в DataGym

Больше двух лет назад я рассказывал о использовании jupyter на 100%. Но что, если вы не один? Как ужиться на одной машине 20 студентам, изучающим ML, или RND команде из 15? Готовые рецепты, рекомендации и собранные грабли.

Презентация

«SQL-боттлнеки: поиск и устранение узких мест при масштабировании»

Михаил Новиков, ведущий разработчик, Fasttrack (fstrk.io)

Вы начинаете новый проект. Устанавливаете веб-фреймворк, ORM-фреймворк, пишете модели, делаете запросы к БД. Всё идет хорошо. Потом к вам приходит 100 000 пользователей — и проект падает под нагрузкой. Ваши действия? Такая ситуация была у нас полгода назад. Я расскажу, как мы нашли из нее выход, покажу наши подходы к поиску узких мест, сервисы, которые в этом помогают. И поясню, почему ванильный ORM — это зло.

Презентация

«Локализация контента и элементов интерфейса»

Алина Красавина, Ведущий разработчик MAPS.ME, Mail.ru Group

Рассказ о том, как устроена локализация на сервер-сайде MAPS.ME. Небольшая трогательная история о боли контент-менеджеров и преодолении разработчиков бэка на Django.

Презентация

«Сравнение технологий aiopg & asyncpg»

Алексей Фирсов lesha_firs, ведущий разработчик aio-libs/aiopg

Разберем, как работают две совершенно разные технологии aiopg & asyncpg — посмотрим, как они устроены. Что важно, мы не будем сравнивать скорость.

Презентация

«Оформление пайплайна в NLP проекте?»

Виталий Радченко, Data Scientist, YouScan

В докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования.

Презентация

«Стекаем и Блендим. Разбор популярных библиотек Python»

Дмитрий Буслов, Старший архитектор бизнес-решений, SAP CIS

В докладе мы расскажем про наиболее популярные библиотеки для формирования ансамблей. Начнем с простых ensemble в Sklearn-e, далее вручную соберем простейший стекинг в пару строчек кода, а после рассмотрим наиболее популярные библиотеки: Vecstack, Heamy, Pystacknet, Mlxtend, Mlens.

Презентация

PyMC3 — Bayesian Statistical Modelling in Python

Максим Кочуров, PyMC Dev / Samsung AI / Skoltech

Байесовская статистика в последнее время стала обсуждаться в контексте глубокого обучения. К сожалению, это скрывает главное ее преимущество по сравнению со стандартными подходами машинного обучения. В отличие от black-box моделей, байесовский подход к моделированию white-box. White-box — это и хорошо, и плохо. От аналитика требуется полное понимание природы задачи, только тогда байесовский подход используется на полную мощность. Он позволяет учесть не только то, что «говорят нам данные», но и то, что «говорит нам здравый смысл». В докладе пойдет речь о том, зачем и когда все это нужно и как проводить и интерпретировать такой анализ в питоне.

Презентация

«'Кис-кис, вдыхай меня через кес' или о чем говорят любители рэпа: Python для тематического моделирования комментариев ВКонтакте»

Дмитрий Сергеев, Aalto University / DataGym

Мы покажем, как собрать 10 миллионов комментариев, использую API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как:

Может ли тематическое моделирование помочь с кластеризацией жанров?
Есть ли что-то общее у слушателей шансона и джаза?
Как измерить близость Киркорова к Антохе МС?

Презентация

Следите за предстоящими событиями здесь.

Комментарии (4)

AcckiyGerman
22.07.2019 17:09
#20418983
Было бы хорошо, если бы под видео была расшифровка доклада для любителей быстро читать, а не медленно смотреть.
1. s_egorov Автор
  23.07.2019 11:09
  #20421743
  Приняли! Подумаем, в каком формате лучше сделать.
1. lesha_firs
  23.07.2019 12:48
  #20422543
  На youtube, можно сделать автоматическую расшифровку видео.

danilovmy
23.07.2019 22:55
#20425577
Наш высоко нагруженный мультиязычный проект написан на Джанго. Потому мониторю появляющиеся решения. Посмотрел две презентации по Джанго, стало жалко ребят:
«Поиск и устранение узких мест при масштабировании» рассказ о том, как разработчик боролся со своим собственным кодом: видя ошибку архитектуры они продолжают заниматься оптимизацией старого кода, хотя видно же, что для масштабирования надо переделывать архитектуру. Не, вместо этого ребята продолжают скакать на мертвой лошади ~~на устаревшей архитектуре приложения~~ , просто они решили стегать плеткой чаще.
Логично, когда хотим убыстрить, перестаем подгружать ненужные поля… стоп… а зачем у вас вообще ненужные поля в модели? Да и сама структура 4 таблиц выглядит странно. Непонятно, зачем делать objects.GET(только id). разве values_list(pk, flat true) не сделает это быстрее? Кстати, надо проверить на миллионе записей. Ребятам успехов.

Мультиязычность это больное место в Джанго, как и многих других систем. Знаю не по наслышке, несколько лет был тех директором бюро мультиязычной поддержки, занимались проблемами мультиязычности на веб сайтах.

Сейчас у нас в проекте, что я упомянул выше, много самостоятельных решений по вопросам мультиязычности, потому что родная мультиязычная поддержка очень плохо реализована на Джанго. Из переводных моделей парлер, хвад (лучше парлера) и модель транслейшн. Из перевода интерфейсов — розетта.
По докладу вижу что люди делают что то не то: у них 32 языка и нет никакой автоматизации и проверки перевода??? Менеджер должен заходить в папку и править файл??? Да менеджер переводчик даже знать не должен где эти файлы. Та же джанго розетта ужасна но позволяет избежать проблем «не поставил запятую». У нас стояла софтина, жаль только в локальной сети работала, для всех переводчиков, где ядро переводов потихоньку заполнялось, и после, попадающиеся похожие переводы не надо было переводить. И точно никакой жести с json или текcтовыми файлами.

Если кто еще знает про мультиязычность в джанго, подскажите. Есто что то еще похожее на hvad, только для новой джанго?

Отчет с PyDaCon meetup в Mail.ru Group, 22 июня +35

«Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda»

«SQL-боттлнеки: поиск и устранение узких мест при масштабировании»

«Локализация контента и элементов интерфейса»

«Сравнение технологий aiopg & asyncpg»

«Оформление пайплайна в NLP проекте?»

«Стекаем и Блендим. Разбор популярных библиотек Python»

PyMC3 — Bayesian Statistical Modelling in Python

«'Кис-кис, вдыхай меня через кес' или о чем говорят любители рэпа: Python для тематического моделирования комментариев ВКонтакте»

Комментарии (4)

AcckiyGerman

s_egorov Автор

lesha_firs

danilovmy