Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением полезных бизнесу знаний из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).

Лекция 1. Введение в Python


Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.



Лекция 2. Advanced Python


Более подробное изучение синтаксиса языка Python и приемов его использования.



Лекция 3. Библиотеки Python для анализа данных. Numpy, PyTable, Pandas


В лекции рассматриваются как стандартные библиотеки Python, так и библиотеки, которые наиболее часто применяются для анализа данных. Идет рассказ о свойствах, дескрипторах, часто встречающихся задачах, необходимых для обработки данных в Python. Евгений Завьялов касается темы работы с вебом, почтой и сайтами.



Лекция 4. Визуализация, анализ датасета. EDA


Пойдет речь об основных подходах к визуализации данных и explanatory data analysis. Будут рассмотрены примеры применения полученных ранее знаний с помощью разбора открытого датасета. Продолжится работа с библиотеками Numpy, Pandas. В этой же лекции начнется знакомство с языком R, как возможной альтернативой связке Python и библиотек.



Лекция 5. R и библиотеки


Разговор о преимуществах языка R (о недостатках смотрите в четвертой лекции), вышедшего из академической среды, но сблизившегося по возможностям с Python (и вдохновившего последний на некоторые заимствования). На Западе бесплатный язык R — это стандарт де-факто, который пока не так широко известен в России.



Лекция 6. Введение в статистику


Вспомним основные теоремы, вероятность, законы распределения случайных величин, задачу оценивания. Не только коснемся фундаментальных знаний, но и посмотрим на способы их практического применения.



Лекция 7. Введение в статистическое оценивание


На втором занятии на тему статистики будут рассмотрены методы получения оценок, интервальные оценки, статистическая проверка гипотез и само понятие «статистической гипотезы».



Лекция 8. Параметрические статистические тесты


Михаил Гришин продолжает тему предыдущей лекции: рассказывает о параметрических тестах и обобщает изученный материал.



Лекция 9. Непараметрические тесты


Дается понятие «непараметрической статистики», говорится о разнице в выборе параметрических и непараметрических тестов (аргументы «за» и «против»), идет рассказ о непараметрических оценках (бутстреп и непараметрические оценки плотности).



Лекция 10. Множественная проверка гипотез


Помимо множественной проверки гипотез вы найдете в лекции метод главных компонент, ANOVA (дисперсионный анализ) и, частично, линейную регрессию.



Лекция 11. Анализ временных рядов


Продолжится тема линейной регрессии, линейной алгебры, робастной регрессии, будет рассмотрена модель авторегрессии.



Лекция 12. Java: основы языка. Часть 1


Сергей Рыбалкин дает самые основы языка Java: для чего нужен этот язык, каковы его преимущества, как работает язык с тем, что вы напишите на нем, основные синтаксические конструкции, сравнение с С++, классы, интерфейсы, наследование и многое другое.



Лекция 13. Java: основы языка. Часть 2


Вторая лекция по основам Java. Иерархия исключений, collection framework, работа с коллекциями, generics, обобщение полученных знаний и путь дальнейших изысканий.



Актуальные лекции и мастер-классы о программировании по мобильной и веб-разработке выкладываются на канале Технострим. Если вы заинтересовались, учитесь в вузе, хотите получить и применить знания в области разработки, обратите внимание на наши образовательные проекты: Технопарк при МГТУ им. Баумана, Техносфера при МГУ им. Ломоносова, Технотрек при МФТИ, Техноатом при МИФИ или приходите на наши онлайн-курсы.
Поделиться с друзьями
-->

Комментарии (9)


  1. procfg
    04.10.2016 17:07

    Спасибо большое)


  1. DaneSoul
    04.10.2016 17:07

    Планируется ли по этим лекциям по анализу данных сделать полноценный курс на Степике, с заданиями?


    1. Olga_ol
      04.10.2016 17:39

      Нет, не планируется.


  1. tomzarubin
    04.10.2016 17:14
    +1

    Несколько раз у вас просили, в том числе и на youtube, поделиться ipython-ноутбуками, например, и прочими исходниками.
    Есть какие-то корпоративные причины не делать это?
    Спасибо.


    1. Olga_ol
      04.10.2016 18:05
      -3

      Нет, исходники выкладываться не будут.


      1. SerCe
        05.10.2016 13:31
        +1

        Многоуважаемый tomzarubin спросил совсем про другое. Я бы тоже с радостью узнал ответ на его вопрос.



  1. Eugen_p
    05.10.2016 21:48

    Интересная тема. А какой уровень подготовки требуется, хватит ли курса выш мата технического университета?


    1. tomzarubin
      06.10.2016 09:07
      +1

      За глаза хватит. Если нет навыков в Python, то на stepic.org, udacity.com и edx.org есть много годных курсов, чтобы вполне себе уметь Python. Ну и про библиотеки numpy/pandas посмотреть не будет лишним.