Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:
  • Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
  • Естественно-научные дисциплины посередине.



Для некоторых школ есть данные по ЕГЭ за 2014 год, поэтому можно попробовать посмотреть динамику за два года:
  • Как будто подрос балл по физике и немного упал балл по информатике;
  • Либо это шум, либо задания изменились, либо готовить стали по-другому.



Для некоторых школ у нас есть не только баллы по ЕГЭ, но и число сдававших предмет. Можно посмотреть на популярность дисциплин. Скорее всего, люди в теме, это и так знают:
  • Русский — обязательный, его сдают все;
  • Часть, видимо, сдаёт базовую математику, мы рассматривали только профильную;
  • Выбросы в английском и физике происходят, наверное, за счёт спецшкол.



Я думал, что чем популярнее предмет, тем выше по нему средний балл. Но, похоже, всё наоборот:


Теперь немного про ГИА. Я думал, что чем лучше в школе сдают ГИА, тем лучше через два года и баллы по ЕГЭ. Оказалось, что это справедливо только для русского и математики и от части для обществознания. Почему так, кто знает?



Была гипотеза, что предпочтения по предметам меняются. Возможно, те кто сдавал, например, физику в 9 классе совсем не обязательно сдают физику в 11. Но по ГИА у нас тоже есть данные по числу сдающих и популярность предметов в целом совпадает с тем, что мы видим для ЕГЭ:



Может быть, дело в заданиях. Если упорядочить предметы по среднему баллу по ГИА, порядок будет совсем не такой, как для ЕГЭ:
  • Высокие баллы по информатике;
  • Засечки на целых баллах появляются, потому что некоторые школы округляют среднее до нулевого знака;
  • По истории, как и для ЕГЭ, баллы одни из самых низких.



Теперь про олимпиады. У нас есть число победителей московских и всероссийских олимпиад по всем предметам. Было интересно проверить коррелируют ли успехи на олимпиадах со средним баллом по ЕГЭ по школе:
  • Иногда какая-то зависимость просматривается: для английского, обществознания, биологии, например;
  • Иногда не очень: для русского, литературы особой связи нет.



Для всех школ известны координаты. Да, бывает, что зданий несколько, но мы пока смотрим на юридический адрес.



У меня было представление, что чем ближе школа к центру, тем она лучше. Но, похоже, это не так. По крайней мере, средний балл по ЕГЭ от близости к центру не зависит:



Наверное, некоторых сейчас интересует откуда данные и почему им можно доверять. Результаты ГИА и олимпиад нам любезно предоставило Министерство образования. Они обещали, что скоро эти данные будут публично доступны. Результаты ЕГЭ по предметам, почему-то считаются большим секретом, поэтому нам пришлось их собирать вручную с сайтов школ. Все московские школы хостятся на портале mskobr.ru и у всех есть раздел "публичный доклад". Там обычно есть ссылка на документ, где директор школы в произвольный форме отчитывается за прошедший год. Естественно, все школы видят содержание и оформление отчёта по-разному:



Поэтому об автоматическом сборе данных пришлось забыть. Мы взяли классный инструмент для распознавания таблиц в PDF-документах — Tabula. Немного её пропатчили и процесс сбора данных выглядел так:



Через ~30 часов все ~600 документов были обработаны. Оказалось, что только из ~55% получается достать данные по ЕГЭ. Часто данные в отчёте несвежие или результатов ЕГЭ нет или нет именно средних баллов, а есть только, например, максимальные. Затем в ~300 школ, для которых удалось достать баллы по ЕГЭ были отправлены письма с просьбой проверить данные. ~30 школ ответили, 2 нашли ошибки, 5 прислали баллы чуть-чуть завышенные относительно отчёта, остальные сказали «норм». То есть с точностью больших проблем нет, есть проблемы с полнотой. Нужно где-то достать баллы ещё для ~300 школ.

Затем мы приступили к Контактику. Цель была определить из каких школ в какие ВУЗы чаще всего поступают. Первым делом нужно было объединить официальные названия школ, с теми которые использует Контакт. Это сделать не так просто. Потому что, например, у нас есть «Школа №17», а у ВК есть «Вечерняя школа №17», «Музыкальная школа №17 им. Л. Н. Оборина», «Школа-интернат №17». Кроме этого Контакт разрешает получать только 1000 результатов поисковой выдачи. Если школа указана более, чем в 1000 аккаунтов, а для московских школ это почти всегда так, то нужно что-то придумывать. Мы разбивали один запрос «школа №17» на несколько: «школа №17 девочки от 6 до 14», «школа №17 мальчики от 6 до 14», «школа №17 девочки от 15 до 17», «школа №17 мальчики от 15 до 17» и так далее. На запросы к поиску, похоже, существует какой-то нечёткий лимит. После ~50 обращений нас банили на ~1 час. Так или иначе через пару суток все аккаунты были прокачаны. На одну школу приходится в среднем ~1800 человек, из них ~450 указывают университет.


Если использовать эти данные как есть, странным образом, 90% московских школьников поступают в МГУ. Поэтому применяется следующий изощрённый алгоритм: выкинуть МГУ. Да, например, для лицея №1533, откуда 50% людей уходит в МГУ этот алгоритм работает не очень хорошо, но другие подходы жутко ухудшаю покрытие для всех школ. Остаётся, например, не ~450 человек, а ~45, строить по ним распределение по ВУЗам не получается. Те, кто учился в школах с картинки, пожалуйста, напишите соответствует гистограмма правде или нет:


Остальные школы можно попробовать поискать на obr.msk.ru

Комментарии (20)


  1. mactator
    12.11.2015 00:09

    Вопрос автору: каким инструментом анализ проводился?


    1. alexkuku
      12.11.2015 00:14
      +2

      iPython с библиотеками Pandas, Seaborn и Matplotlib


  1. NetBUG
    12.11.2015 01:28

    Работа отличная, сами экзамены вызывают вопросы.


  1. Moskus
    12.11.2015 01:35
    +2

    Очень странное предположение о связи между качеством образования и близостью к центру.
    Интересно было бы, конечно, увидеть и данные с учетом того, какие школы являются школами с углубленным изучением предметов, но, похоже, такого списка в ясном виде просто не существует. В Википедии есть список московских школ, но он мало что проясняет — скажем, являются ли таковыми все лицеи, неизвестно.


    1. Sergunka
      12.11.2015 07:54

      Очень странное предположение о связи между качеством образования и близостью к центру.

      Видимо это в некотором смысле калька с благополучных районов в США. В США действительно существует корреляция между уровнем школ и стоимостью на жилье. Хотя это не всегда работает хорошо в городах к примеру в Сан Франциско очень тяжелое положение со школами, а цены на жилье одни из самых дорогих в мире. Москва собственно не исключение, что данное исследование и подтверждает.


      1. gotch
        12.11.2015 09:05

        Смотрю на графики, и вижу подтверждение. У школ за 25-30 км по большинству предметов результаты более чем скромны. То есть они все «не очень».

        А школ ближе к центру очень сильно варьируется уровень. Есть как хорошие, так и плохие.


    1. questor
      12.11.2015 11:23
      +1

      Возможно, стоит рассмотреть предположение о связи между качеством образования и расстоянием школ ло ближайших университетов. Не знаю точно, как сформулировать, но есть в москве кластеры школ, которые возле университетов находятся. Да и сами унивеситеты собираются в кластеры, например, на юго-западе Москвы или северо-востоке.


      1. alexkuku
        12.11.2015 12:29

        Была такая идея, но это сложновато в реализации и графики сложно интерпретировать


  1. ZloAlien
    12.11.2015 09:59
    -1

    А у меня когда-то в руках оказались данные об успеваемости учащихся одного лицея. Я вычислял средний бал учащегося и сортировал учащихся по этому балу. Не удержался и построил график (по х — учащийся, по у — его средний бал; точные данные утрачены, прилагаю примерный рисунок). Ожидалось что получится плавная кривая, где сначала идёт достаточно большое количество троечников, потом немного хорошистов, а затем пара человек отличников. Оказалось что в пределах одного класса наблюдается отклонение от плавной кривой, которое очевидно связано с тем, что формируются группы учащихся, в пределах которых более сильные стараются подтянуть коллег.
    image


  1. Seekeer
    12.11.2015 10:42

    Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим

    А можете прояснить, какие предметы из тех, что есть у вас в списке вы считаете техническими?
    Мне на ум приходит только информатика, да и то, с большой натяжкой.


    1. alexkuku
      12.11.2015 12:31

      Математика, физика, информатика


      1. Seekeer
        12.11.2015 12:43
        -3

        С математикой весьма дискуссионный вопрос.
        Но вот физика это определённо естественно-научная дисциплина.


  1. Tiberius
    12.11.2015 11:08
    +2

    А можно ли добавить статистику по СУНЦ МГУ или школа-интернат Колмогорова?
    Хочется проверить эти данные с данными ручной статистики в самой школе.


    1. alexkuku
      12.11.2015 12:34

      У нас проблемы со школой Колмогорова. В данных Минобра её нет, видимо, потому что в школе занимаются только 10-11 классы. Данных по ЕГЭ нет, потому что не нашли публичный доклад. Распределение по ВУЗам кривое, потому что из школы, видимо, часто идут в МГУ, а МГУ мы выкидываем. При этом понятно, что школа крутая. Может быть, вы нам просто сами пришлёте данные по ЕГЭ и ВУЗам на ak@obr.msk.ru?


  1. grozaman
    12.11.2015 11:50
    +2

    Ваша гипотеза о физике и информатике не совсем верна. Оба предмета (как и многие другие) были достаточно сильно реструктурированы (убраны задания с выбором ответа, многие задания были удалены, какие-то добавлены, какие-то изменены). Балл по физике вышел чуть выше потому что у учителей (во всяком случае в нашем случае) откуда-то были сведения о примерных заданиях (ездили они на какие-то московские конференции), следовательно лично мой класс был заранее подготовлен к определенным типам заданий. По информатике такого не было, готовились все по сути к ЕГЭ 2014 в итоге на экзамене многие были удивлены, что в жизни заданий подобного типа не решали. Кстати списываний в моем регионе я не видел, всё ОЧЕНЬ строго.

    В целом в ЕГЭ есть положительные тенденции, но он до сих пор очень далек от идеала.


    1. Godless
      12.11.2015 12:27

      Соточку из математики сейчас реально выбить? Или там совсем вундеркиндом надо быть?


      1. grozaman
        12.11.2015 12:31

        Скажу честно, я почти не готовился целенаправленно, то есть просто учился в достаточно сильной школе на четверки и всё – 76 баллов по математике (или 78 у меня, подзабыл уже :) ). Первая часть идеальная, во второй пару заданий угробил глупыми ошибками (например забыл минус в ответе). То есть сотка вполне реальна, у меня в классе на 90+ писали. Главное уметь решать задачу по геометрии планиметрическую и последнюю задачу начального олимпиадного уровня.


        1. Godless
          12.11.2015 12:35

          понятно. Примерно так и было. Спасибо.


      1. varagian
        12.11.2015 14:20

        Видел какие-то пробные задания 2015го года — сотку реально выбить, но нужно ОЧЕНЬ аккуратно всё решить. Геометрия довольно зубодробительная, как мне показалось.


  1. TimID
    13.11.2015 01:26
    -2

    Так Вы без сырцов, только по среднему баллу ориентируетесь?
    Бесполезная это работа, простите — среднее по больнице использовать как показатель.
    В тестировании знаний (уж я то знаю, сам обрабатывал) гораздо важнее «дисперсию» знать. А лучше несколько значений процентилей.
    Хотя самые классные результаты — это корреляции всех-со-всеми — тот самый факторный анализ.
    Простите, но данные действительно «строго конфиденциальны».
    Хотите пример интересной картинки? (данные староваты, правда)
    image
    Это усреднённые" характеристические кривые первых, вторых и третьих экспертов. Видите разницу? Кто в теме — поймёт.
    И как можно это знание использовать — тоже.