(с)

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

Data Science


The Open Source Data Science Masters
Звезды: 11 227, форки: 4 737

Официальный репозиторий учебной программы Data Science Masters, разработанной в качестве альтернативы с открытым исходным кодом формального образования в области Data Science. Репозиторий представляет собой сборник обучающих материалов, собранных за несколько лет.

Awesome Data Science
Звезды: 9 240, форки: 2 761

Мощная подборка, отвечающая на вопросы: «что такое Data Science?» и «что нужно знать, чтобы хорошо разбираться в этой науке?». Удобно разбита на категории. Например, есть список книг по Data Science, подборка инфографик и даже тематические группы в Фейсбук.

Jupyter Interactive Notebook
Звезды: 5 242, форки: 2 313

Прародитель этого репозитория — платформа для работы со скриптами на 40 языках программирования Data Science iPython Notebooks, набравшая более 14 000 звезд и 4 000 форков. Специалисты по обработке данных и машинному обучению активно её использовали для научных вычислений.

Сегодня Jupyter Notebook — это удобный набор файлов-блокнотов, состоящих из параграфов, в которых пишутся и исполняются запросы. С помощью встроенных визуализаторов блокнот с набором запросов превращается в полноценный дашборд с данными.

Data Science Blogs
Звезды: 4 510, форки: 1 178

Простой, но обширный список обучающих материалов, отсортированный в алфавитном порядке. Здесь вы найдете все популярные блоги, а также множество небольших сайтов с полезной информацией (всего перечислен 251 ресурс).

Data Science Specialization
Звезды: 3 114, форки: 27 184

Репозиторий образовательного курса по Data Science Университета Джонса Хопкинса — очень популярный курс, подготовленный Роджером Пеном, Джеффом Ликом и Брайаном Каффо. Если быть точнее, то программа обучения по специальности «Наука о данных» на Coursera включает несколько взаимосвязанных курсов по разным темам (например, R Programming), касающимся всевозможных аспектов анализа данных, а представленный в подборке репозиторий объединяет информацию, используемую во всех курсах.

Spark Notebook
Звезды: 2 677, форки: 587

Spark Notebook — это блокнот с открытым исходным кодом, предоставляющий интерактивный веб-редактор, который может объединять код Scala, SQL-запросы, Markup и JavaScript для совместного анализа и изучения данных.

Learn Data Science
Звезды: 2 129, форки: 1 210

Коллекция блокнотов iPython, ориентированных на фундаментальные концепции машинного обучения для новичков.

Data Science at the Command Line
Звезды: 2 057, форки: 503

Репозиторий содержит тексты, данные, сценарии и пользовательские инструменты консоли, используемые в книге «Data Science at the Command Line». Это практическое руководство демонстрирует, как комбинировать небольшие, но мощные инструменты командной строки для быстрого получения, очистки, исследования и моделирования данных.

Data Science Specialization Community Site
Звезды: 1 395, форки: 2 661

Несколько студентов, проходивших курс в Университете Джонса Хопкинса, создали настолько качественный контент, что сотрудники университета разместили его в общем доступе, а также сделали каталог для всего интересного контента, созданного сообществом.

Визуализация данных для веба


D3
Звезды: 81 837, форки: 20 282

D3 — это библиотека визуализации данных JavaScript для HTML и SVG. В D3 акцент сделан на веб-стандартах, благодаря чему вы можете использовать все возможности современных браузеров, не привязывая себя к проприетарной структуре, сочетая мощные компоненты визуализации, управляемый подход и взаимодействие с Document Object Model (DOM). Это самый популярный проект визуализации данных на GitHub.

Chart.js
Звезды: 41 393, форки: 9 294

Chart.js — библиотека HTML5, создающая визуализацию через элемент <cаnvas>. Chart.js позиционирует себя как простой и гибкий инструмент, интерактивный, поддерживающий шесть различных типов диаграмм.

ECharts
Звезды: 32 204, форки: 9 369

ECharts — браузерная библиотека для построения графиков и визуализации. Проста в использовании, интуитивно понятна и легко настраивается.

Leaflet
Звезды: 23 810, форки: 3 937

Библиотека JavaScript для создания интерактивных карт, ориентированных на мобильное применение. Код библиотеки невероятно мал — она разработана для простого, быстрого и удобного использования. Функции Leaflet могут быть расширены через набор плагинов.

Sigma.js
Звезды: 8 348, форки: 1 305

JS-библиотека, ориентированная на рисование графов. Sigma позволяет разрабатывать представления графов на веб-страницах и интегрировать их в веб-приложения.

Vega
Звезды: 6 559, форки: 702

Vega — декларативный язык для создания, сохранения и обмена интерактивными проектами визуализации. С его помощью можно описать внешний вид и интерактивное поведение визуализации в формате JSON, а также создавать веб-представления с использованием Canvas или SVG. Vega предоставляет базовые строительные блоки для широкого спектра проектов визуализации: загрузка и преобразование данных, масштабирование, проекции карты, условные обозначения, графические метки и т.д.

DC.js
Звезды: 6 458, форки: 1 734

DC.js — многомерная диаграмма, построенная на D3.js для работы с кроссфильтром. DC.js рендерит в формате SVG, совместимом с CSS. Предназначена для мощного анализа данных как в браузере, так и на мобильных устройствах.

Epoch
Звезды: 4 949, форки: 290

Универсальная библиотека визуализации в реальном времени. Фокусируется на двух различных аспектах: базовые диаграммы для создания исторических отчетов и диаграммы в реальном времени для отображения часто обновляемых данных временных рядов.

Глубокое обучение


Keras
Звезды: 37 611, форки: 14 344

Keras — библиотека глубокого обучения на Python, которая используется как в TensorFlow, так и в Theano (да, вы можете запускать её поверх библиотек TensorFlow, Theano и CNTK). Keras разработана для быстрого экспериментирования, так как ключом к проведению хороших исследований является способность переходить от идеи к результату с наименьшей задержкой. Благодаря основательной и доступной документации Keras по праву занимает место в нашей подборке.

Caffe
Звезды: 26 892, форки: 16 276

Caffe (Convolution Architecture For Feature Extraction) — библиотека глубокого обучения, связывающая Python и MATLAB. По сути, это библиотека общего назначения, предназначенная для развёртывания свёрточных сетей и для распознавания изображений, речи или мультимедиа.

Также существует проект Caffe2, который включает в себя новые возможности, в частности, рекуррентные нейронные сети. В мае 2018 г. команды Caffe2 и PyTorch объединились, код Caffe2 был перенесен в репозиторий PyTorch (звезд: 24 075, форки: 5 707).

MXNet
Звезды: 16 157, форки: 5 824

Легкая, компактная, гибко распределенная среда глубокого обучения для Python, R, Julia, Scala, Go, JavaScript и др. Для большей производительности MXNet позволяет смешивать императивные и символические методы программирования. Проект также содержит руководства по созданию других систем глубокого обучения.

Data Science IPython Notebooks
Звезды: 14 747, форки: 4 410

Коллекция блокнотов iPython, включающая большие данные, Hadoop, scikit-learn, библиотеки, предназначенные для научных вычислений, и др. Если говорить о глубоком обучении, то охватываются TensorFlow, Theano, Caffe и другие инструменты.

ConvNetJS
Звезды: 9 510, форки: 1 982

ConvNetJS представляет собой реализацию нейронных сетей и их общих модулей на JavaScript. Проект на данный момент не поддерживаемый, но всё ещё заслуживающий внимания. Позволяет обучать свёрточные (или обычные) сети прямо в браузере.

Deeplearning4j
Звезды: 10 227, форки: 4 570

Библиотека глубокого обучения для Java и Scala. Интегрируется с Hadoop и Spark. Deeplearning4j также позволяет проводить вычисления на графических процессорах с поддержкой CUDA. Кроме того, имеются средства для работы с библиотекой на Python. Репозиторий содержит всю необходимую документацию и учебники.

LISA Lab Deep Learning Tutorials
Звезды: 3 673, форки: 2 045

Сборник учебников Университета Монреаля. Представленные здесь материалы знакомят с некоторыми наиболее важными алгоритмами глубокого обучения, а также демонстрируют принцип работы с Theano. Theano — это Python-библиотека, которая упрощает запись моделей глубокого обучения и дает возможность обучать их на GPU.

Этим списком количество интересностей на Гитхабе не исчерпывается. В следующий раз поговорим о проектах для машинного обучения и открытых датасетах. Если у вас есть свои примеры интересных репозиториев, поделитесь ими в комментариях.

Комментарии (7)


  1. pred8or
    29.01.2019 10:29

    В визуализацию можно добавить Highcharts JS. Очень привлекательные диаграммы, интерактив, некоторые вещи отсутствуют или сложно реализуемы в других библиотеках


  1. rssdev10
    29.01.2019 11:43

    В последний раздел забыли добавить Flux.jl с примерами model-zoo


  1. gltrinix
    29.01.2019 14:12

    Про H2O ни слова. Он ушёл в прошлое?


  1. Stepan555
    29.01.2019 18:14

    Какой смысл переписывать ссылки в статью? У всех есть поисковики, кому надо — сам легко всё это найдёт. А кому не надо — тому и не надо.
    Нет никакой проблемы найти нужные материалы в Сети.


    1. pred8or
      29.01.2019 18:31

      Вот читаешь статью с обзором чего-то, а в статье ни одной ссылки по теме. Приходится отрываться, гуглить, что никак не улучшает впечатления от (предположительно) проделанной работы


  1. ericgrig
    29.01.2019 22:09
    +1

    Спасибо за статью! Вы сделали полезную работу. Тем, кто ищет, ваша публикация поможет сократить время поиска. Время — самое ценное, что у нас есть. Продолжайте, если у вас есть такая возможность.


    1. Barrayar Автор
      30.01.2019 11:32

      Спасибо за добрые слова :)