Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш телеграм-канал.

Статьи



Научные статьи


Ежедневно в канале #article_essence Slack-чата Open Data Science сообщества обсуждаются разные научные статьи. Кто еще не присоединился к нашему сообществу, приглашаю сделать это, а пока предлагаю свежую подборку из канала.

  • Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization — самый простой и надёжный на данный момент способ визуализировать «а куда же смотрит нейронка».
  • SegAttnGAN: Text to Image Generation with Segmentation Attention — усовершенствование архитектуры для text to image AttnGAN, суть которого в том, что в генератор изображения добавлен вход сегментационной маски генерируемого объекта. Также разработан вариант с self-attention, когда маска генерируется непосредственно из текста с помощью отдельного генератора.
  • Identity-Preserving Realistic Talking Face Generation — новая SOTA в talking head generation, где отдельное внимание уделили раздельному получению ландмарок лица, а также обучили отдельную сеть для генерации моргания глаз.
  • Single-Stage Semantic Segmentation from Image Labels — новая работа по weakly supervised семантической сегментации, в которой для получения карт сегментации используются только метки классов. Достаточно проста в обучении, показывает себя либо наравне либо лучше текущей state of the art.
  • SuperGlue: Learning Feature Matching with Graph Neural Networks — Хорошо работающая графовая нейронная сеть для матчинга локальных фичей и получения гомографии (альтернатива RANSAC). Основана на графовом механизме внимания.
  • SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving — GAN для генерации синтетики для обучения self-driving машин, генерирует различные виды одного маршрута, используя данные с лидара, а также семантическую и инстанс сегментацию
  • Consistent Video Depth Estimation — способ получения точной и геометрически правдоподобной карты глубины для всех кадров видео, используя предобученную single-image depth estimation модельку.
  • Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision — новая сота в Unsupervised Domian Adaptaion (это когда обученную на большом количестве синтетики модель адаптируют к реальным данным без лейблов на реальных данных)

Датасеты


  • VoxClamantis -  корпус по фонетике на 700 языков.
  • VGGFACE2 — один из крупнейших датасетов для распознавания лиц, содержащий 3.3М изображений.
  • ePillID Dataset — датасет для идентификации таблеток.
  • Real World Masked Face Dataset — датасет для распознавания лиц с масками.
  • Holopix50k — датасет стереоизображений дикой природы, содержащий 49 368 пар изображений.
  • CQ500 — датасет из 491 CT сканого головного мозга.

Видео



Спасибо, что дочитали этот выпуск. Надеюсь, каждый нашел для себя полезное. Буду благодарен за любые предложения для следующего дайджеста.

Присоединяйтесь к Telegram-каналу дайджеста и его страницам в соцсетях: Medium, Facebook, Twitter, LinkedIn.