В конце июня, в московском офисе прошел митап на котором собрали 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. Под катом собрали презентации, записи докладов и небольшие комментарии.
«Как использовать JupyterHub на 100% на примере ML-школы DataGym и компании Lamoda»
Петр Ермаков, Senior Data Scientist в Lamoda и Data Coach в DataGymБольше двух лет назад я рассказывал о использовании jupyter на 100%. Но что, если вы не один? Как ужиться на одной машине 20 студентам, изучающим ML, или RND команде из 15? Готовые рецепты, рекомендации и собранные грабли.
«SQL-боттлнеки: поиск и устранение узких мест при масштабировании»
Михаил Новиков, ведущий разработчик, Fasttrack (fstrk.io)Вы начинаете новый проект. Устанавливаете веб-фреймворк, ORM-фреймворк, пишете модели, делаете запросы к БД. Всё идет хорошо. Потом к вам приходит 100 000 пользователей — и проект падает под нагрузкой. Ваши действия? Такая ситуация была у нас полгода назад. Я расскажу, как мы нашли из нее выход, покажу наши подходы к поиску узких мест, сервисы, которые в этом помогают. И поясню, почему ванильный ORM — это зло.
«Локализация контента и элементов интерфейса»
Алина Красавина, Ведущий разработчик MAPS.ME, Mail.ru GroupРассказ о том, как устроена локализация на сервер-сайде MAPS.ME. Небольшая трогательная история о боли контент-менеджеров и преодолении разработчиков бэка на Django.
«Сравнение технологий aiopg & asyncpg»
Алексей Фирсов lesha_firs, ведущий разработчик aio-libs/aiopgРазберем, как работают две совершенно разные технологии aiopg & asyncpg — посмотрим, как они устроены. Что важно, мы не будем сравнивать скорость.
«Оформление пайплайна в NLP проекте?»
Виталий Радченко, Data Scientist, YouScanВ докладе мы будем ориентироваться на лучшие мировые практики (AllenNLP) и свой собственный опыт. Расскажем, как нужно структурировать ваш пайплайн и особенности каждой его составляющей: как правильно оформлять входящие данные, итераторы по датасету, каким должен быть словарь, подготовка данных и др. Будут приведены примеры с реальных задач и показано, как это помогает в воспроизводимости и легкости дальнейшего использования.
«Стекаем и Блендим. Разбор популярных библиотек Python»
Дмитрий Буслов, Старший архитектор бизнес-решений, SAP CISВ докладе мы расскажем про наиболее популярные библиотеки для формирования ансамблей. Начнем с простых ensemble в Sklearn-e, далее вручную соберем простейший стекинг в пару строчек кода, а после рассмотрим наиболее популярные библиотеки: Vecstack, Heamy, Pystacknet, Mlxtend, Mlens.
PyMC3 — Bayesian Statistical Modelling in Python
Максим Кочуров, PyMC Dev / Samsung AI / SkoltechБайесовская статистика в последнее время стала обсуждаться в контексте глубокого обучения. К сожалению, это скрывает главное ее преимущество по сравнению со стандартными подходами машинного обучения. В отличие от black-box моделей, байесовский подход к моделированию white-box. White-box — это и хорошо, и плохо. От аналитика требуется полное понимание природы задачи, только тогда байесовский подход используется на полную мощность. Он позволяет учесть не только то, что «говорят нам данные», но и то, что «говорит нам здравый смысл». В докладе пойдет речь о том, зачем и когда все это нужно и как проводить и интерпретировать такой анализ в питоне.
«'Кис-кис, вдыхай меня через кес' или о чем говорят любители рэпа: Python для тематического моделирования комментариев ВКонтакте»
Дмитрий Сергеев, Aalto University / DataGymМы покажем, как собрать 10 миллионов комментариев, использую API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как:
- Может ли тематическое моделирование помочь с кластеризацией жанров?
- Есть ли что-то общее у слушателей шансона и джаза?
- Как измерить близость Киркорова к Антохе МС?
Следите за предстоящими событиями здесь.
Комментарии (4)
danilovmy
23.07.2019 22:55Наш высоко нагруженный мультиязычный проект написан на Джанго. Потому мониторю появляющиеся решения. Посмотрел две презентации по Джанго, стало жалко ребят:
«Поиск и устранение узких мест при масштабировании» рассказ о том, как разработчик боролся со своим собственным кодом: видя ошибку архитектуры они продолжают заниматься оптимизацией старого кода, хотя видно же, что для масштабирования надо переделывать архитектуру. Не, вместо этого ребята продолжают скакать на мертвой лошадина устаревшей архитектуре приложения, просто они решили стегать плеткой чаще.
Логично, когда хотим убыстрить, перестаем подгружать ненужные поля… стоп… а зачем у вас вообще ненужные поля в модели? Да и сама структура 4 таблиц выглядит странно. Непонятно, зачем делать objects.GET(только id). разве values_list(pk, flat true) не сделает это быстрее? Кстати, надо проверить на миллионе записей. Ребятам успехов.
Мультиязычность это больное место в Джанго, как и многих других систем. Знаю не по наслышке, несколько лет был тех директором бюро мультиязычной поддержки, занимались проблемами мультиязычности на веб сайтах.
Сейчас у нас в проекте, что я упомянул выше, много самостоятельных решений по вопросам мультиязычности, потому что родная мультиязычная поддержка очень плохо реализована на Джанго. Из переводных моделей парлер, хвад (лучше парлера) и модель транслейшн. Из перевода интерфейсов — розетта.
По докладу вижу что люди делают что то не то: у них 32 языка и нет никакой автоматизации и проверки перевода??? Менеджер должен заходить в папку и править файл??? Да менеджер переводчик даже знать не должен где эти файлы. Та же джанго розетта ужасна но позволяет избежать проблем «не поставил запятую». У нас стояла софтина, жаль только в локальной сети работала, для всех переводчиков, где ядро переводов потихоньку заполнялось, и после, попадающиеся похожие переводы не надо было переводить. И точно никакой жести с json или текcтовыми файлами.
Если кто еще знает про мультиязычность в джанго, подскажите. Есто что то еще похожее на hvad, только для новой джанго?
AcckiyGerman
Было бы хорошо, если бы под видео была расшифровка доклада для любителей быстро читать, а не медленно смотреть.
s_egorov Автор
Приняли! Подумаем, в каком формате лучше сделать.
lesha_firs
На youtube, можно сделать автоматическую расшифровку видео.