Приветствую всех!
На протяжении долгого времени я не публиковал свежих выпусков Data Science Digest, а сейчас пришло время его возродить. Выходить дайджест будет еженедельно по четвергам.
Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.
Статьи
Fraud Detection: Using Relational Graph Learning to Detect Collusion — В этой статье команда Uber Engineering демонстрирует, как можно использовать сверточные сети на реляционных графах (RGCN) для обнаружения мошенничества.
Airflow and Ray: A Data Science Story — Из этой статьи вы узнаете о Ray для Apache Airflow, который позволяет пользователям преобразовывать Airflow DAG в масштабируемые ML пайплайны.
PyCaret 101 — For Beginners — Вводная статья о PyCaret, от установки до анализа результатов работы ML пайплайна.
High-Performance Speech Recognition with No Supervision at All — В этой статье команда Facebook AI представляет wav2vec Unsupervised (wav2vec-U), кардинально новую автоматизированную систему распознавания речи.
Introducing Orbit, An Open Source Package for Time Series Inference and Forecasting — Вводная статья об Orbit (Object-ORiented BayesIan Time Series), новом интерфейсе, разработанном командой Uber Engineering.
Lessons on ML Platforms — From Netflix, DoorDash, Spotify, and More — Здесь вы найдете решения проблем, с которыми сталкиваются инженеры при разработке ML платформ. Лучшие практики, инструменты и подходы к менеджменту.
Easy MLOps with PyCaret + MLflow — Небольшой туториал об использовании PyCaret в связке с MLflow для MLOps и более эффективных ML экспериментов.
R vs Python: The Data Science Language Debate — Обзор двух наиболее популярных языков, используемых в Data Science. Взгляните на извечный спор под другим углом.
Data Scientist vs Machine Learning Engineer Skills. Here’s the Difference — В чем разница между Дата Сайентистом и ML инженером? Возможно, вы найдете устраивающий ответ в этой статье.
AutoNLP: Automatic Text Classification with SOTA Models — Обзор и небольшой туториал по AutoML, сервиса для автоматизации МЛ процессов для NLP моделей.
Научные статьи
Animating Pictures with Eulerian Motion Fields — В этой научной статье описывается полностью автоматический метод преобразования неподвижных изображений в реалистичное анимированное зацикленное видео.
DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort — DatasetGAN — автоматический подход к созданию массивных датасетов высококачественных семантически сегментированных изображений. Превосходит аналогичные методы по точности и эффективности.
Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence — В этой статье авторы предлагают новую модель генерации связного текста. Тесты показывают, что она генерирует более логичные тексты, чем конкуренты.
CogView: Mastering Text-to-Image Generation via Transformers — CogView — трансформер с 4 миллиардами параметров и токенизатором VQ-VAE, который, по словам авторов, превосходит другие GAN модели.
GAN Prior Embedded Network for Blind Face Restoration in the Wild — В этой статье описывается, как можно решить проблему восстановления “слепого лица” по сильно ухудшенным изображениям лиц, собранных в естественных условиях.
Image Cropping on Twitter: Fairness Metrics, their Limitations, and the Importance of Representation, Design, and Agency — В этой статье затрагивается тема непредвзятости МЛ алгоритмов в Twitter. В частности, исследуется работа системы автоматической обрезки изображений на датасетах с людьми разных расс.
Видео
Full Stack Deep Learning - UC Berkeley - 2021 — Сборник лекций по глубокому обучению от профессоров Калифорнийского университета в Беркли. Всего 22 лекции.
Проекты
Know Your Data — Коллекция 70+ TensorFlow датасетов с возможностью их просмотра.
Инструменты
Albumentations — CV библиотека для быстрого и гибкого аугментирования изображений, которая помогает повысить производительность глубоких сверточных нейронных сетей. Инструмент может использоваться для различных задач, включая классификацию, сегментацию и обнаружение объектов.
Спасибо, что дочитали этот выпуск. Надеюсь, каждый нашел для себя что-то полезное. Буду благодарен за любые предложения для следующего дайджеста.
Присоединяйтесь к Telegram-каналу дайджеста и его страницам в соцсетях: Medium, Facebook, Twitter, LinkedIn, а также подписывайтесь на нас в substack.