Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением полезных бизнесу знаний из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).
Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.
Более подробное изучение синтаксиса языка Python и приемов его использования.
В лекции рассматриваются как стандартные библиотеки Python, так и библиотеки, которые наиболее часто применяются для анализа данных. Идет рассказ о свойствах, дескрипторах, часто встречающихся задачах, необходимых для обработки данных в Python. Евгений Завьялов касается темы работы с вебом, почтой и сайтами.
Пойдет речь об основных подходах к визуализации данных и explanatory data analysis. Будут рассмотрены примеры применения полученных ранее знаний с помощью разбора открытого датасета. Продолжится работа с библиотеками Numpy, Pandas. В этой же лекции начнется знакомство с языком R, как возможной альтернативой связке Python и библиотек.
Разговор о преимуществах языка R (о недостатках смотрите в четвертой лекции), вышедшего из академической среды, но сблизившегося по возможностям с Python (и вдохновившего последний на некоторые заимствования). На Западе бесплатный язык R — это стандарт де-факто, который пока не так широко известен в России.
Вспомним основные теоремы, вероятность, законы распределения случайных величин, задачу оценивания. Не только коснемся фундаментальных знаний, но и посмотрим на способы их практического применения.
На втором занятии на тему статистики будут рассмотрены методы получения оценок, интервальные оценки, статистическая проверка гипотез и само понятие «статистической гипотезы».
Михаил Гришин продолжает тему предыдущей лекции: рассказывает о параметрических тестах и обобщает изученный материал.
Дается понятие «непараметрической статистики», говорится о разнице в выборе параметрических и непараметрических тестов (аргументы «за» и «против»), идет рассказ о непараметрических оценках (бутстреп и непараметрические оценки плотности).
Помимо множественной проверки гипотез вы найдете в лекции метод главных компонент, ANOVA (дисперсионный анализ) и, частично, линейную регрессию.
Продолжится тема линейной регрессии, линейной алгебры, робастной регрессии, будет рассмотрена модель авторегрессии.
Сергей Рыбалкин дает самые основы языка Java: для чего нужен этот язык, каковы его преимущества, как работает язык с тем, что вы напишите на нем, основные синтаксические конструкции, сравнение с С++, классы, интерфейсы, наследование и многое другое.
Вторая лекция по основам Java. Иерархия исключений, collection framework, работа с коллекциями, generics, обобщение полученных знаний и путь дальнейших изысканий.
Актуальные лекции и мастер-классы о программировании по мобильной и веб-разработке выкладываются на канале Технострим. Если вы заинтересовались, учитесь в вузе, хотите получить и применить знания в области разработки, обратите внимание на наши образовательные проекты: Технопарк при МГТУ им. Баумана, Техносфера при МГУ им. Ломоносова, Технотрек при МФТИ, Техноатом при МИФИ или приходите на наши онлайн-курсы.
Лекция 1. Введение в Python
Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.
Лекция 2. Advanced Python
Более подробное изучение синтаксиса языка Python и приемов его использования.
Лекция 3. Библиотеки Python для анализа данных. Numpy, PyTable, Pandas
В лекции рассматриваются как стандартные библиотеки Python, так и библиотеки, которые наиболее часто применяются для анализа данных. Идет рассказ о свойствах, дескрипторах, часто встречающихся задачах, необходимых для обработки данных в Python. Евгений Завьялов касается темы работы с вебом, почтой и сайтами.
Лекция 4. Визуализация, анализ датасета. EDA
Пойдет речь об основных подходах к визуализации данных и explanatory data analysis. Будут рассмотрены примеры применения полученных ранее знаний с помощью разбора открытого датасета. Продолжится работа с библиотеками Numpy, Pandas. В этой же лекции начнется знакомство с языком R, как возможной альтернативой связке Python и библиотек.
Лекция 5. R и библиотеки
Разговор о преимуществах языка R (о недостатках смотрите в четвертой лекции), вышедшего из академической среды, но сблизившегося по возможностям с Python (и вдохновившего последний на некоторые заимствования). На Западе бесплатный язык R — это стандарт де-факто, который пока не так широко известен в России.
Лекция 6. Введение в статистику
Вспомним основные теоремы, вероятность, законы распределения случайных величин, задачу оценивания. Не только коснемся фундаментальных знаний, но и посмотрим на способы их практического применения.
Лекция 7. Введение в статистическое оценивание
На втором занятии на тему статистики будут рассмотрены методы получения оценок, интервальные оценки, статистическая проверка гипотез и само понятие «статистической гипотезы».
Лекция 8. Параметрические статистические тесты
Михаил Гришин продолжает тему предыдущей лекции: рассказывает о параметрических тестах и обобщает изученный материал.
Лекция 9. Непараметрические тесты
Дается понятие «непараметрической статистики», говорится о разнице в выборе параметрических и непараметрических тестов (аргументы «за» и «против»), идет рассказ о непараметрических оценках (бутстреп и непараметрические оценки плотности).
Лекция 10. Множественная проверка гипотез
Помимо множественной проверки гипотез вы найдете в лекции метод главных компонент, ANOVA (дисперсионный анализ) и, частично, линейную регрессию.
Лекция 11. Анализ временных рядов
Продолжится тема линейной регрессии, линейной алгебры, робастной регрессии, будет рассмотрена модель авторегрессии.
Лекция 12. Java: основы языка. Часть 1
Сергей Рыбалкин дает самые основы языка Java: для чего нужен этот язык, каковы его преимущества, как работает язык с тем, что вы напишите на нем, основные синтаксические конструкции, сравнение с С++, классы, интерфейсы, наследование и многое другое.
Лекция 13. Java: основы языка. Часть 2
Вторая лекция по основам Java. Иерархия исключений, collection framework, работа с коллекциями, generics, обобщение полученных знаний и путь дальнейших изысканий.
Актуальные лекции и мастер-классы о программировании по мобильной и веб-разработке выкладываются на канале Технострим. Если вы заинтересовались, учитесь в вузе, хотите получить и применить знания в области разработки, обратите внимание на наши образовательные проекты: Технопарк при МГТУ им. Баумана, Техносфера при МГУ им. Ломоносова, Технотрек при МФТИ, Техноатом при МИФИ или приходите на наши онлайн-курсы.
Поделиться с друзьями
Комментарии (9)
tomzarubin
04.10.2016 17:14+1Несколько раз у вас просили, в том числе и на youtube, поделиться ipython-ноутбуками, например, и прочими исходниками.
Есть какие-то корпоративные причины не делать это?
Спасибо.Olga_ol
04.10.2016 18:05-3Нет, исходники выкладываться не будут.
SerCe
05.10.2016 13:31+1Многоуважаемый tomzarubin спросил совсем про другое. Я бы тоже с радостью узнал ответ на его вопрос.
Eugen_p
05.10.2016 21:48Интересная тема. А какой уровень подготовки требуется, хватит ли курса выш мата технического университета?
tomzarubin
06.10.2016 09:07+1За глаза хватит. Если нет навыков в Python, то на stepic.org, udacity.com и edx.org есть много годных курсов, чтобы вполне себе уметь Python. Ну и про библиотеки numpy/pandas посмотреть не будет лишним.
procfg
Спасибо большое)