Тут случилось первое сентября, очередной учебный год, цветы-конфеты, слёзы счастья и вот это вот всё, а я в процессе подготовки к лекции в институте наткнулся на очень любопытные данные. Я смотрел, что бы такого можно было быстро и красиво порисовать в GePhi, и наткнулся на историю Йоханнеса Делича (Johannes Delitsch). Делич работал в Лейпциге учителем начальных классов и собрал в 1880 учебном году данные о том, кто с кем дружит в его классе. И это, по ходу, один из первых задокументированных социальных графов.


Йоханнес Делич


Классы тогда были большие (в этом конкретном было аж 53 ученика), а старина Йоханнес, как я понял, до 1880 года подрабатывал исключительно репетиторством. Так что в начале нового учебного года, увидев свой обширный четвёртый "А" (я, честно говоря, не знаю, какая там была буква, да это не так и важно), Йоханнес немного взгрустнул. Человеком он, судя по всему, был деятельным и решил лучше разобраться в социальных отношениях вверенной ему оравы.


Данные


Йоханнес не был современным социологом. Он был школьным учителем, поэтому методология сбора данных у него была довольно, кхм, эклектичная. Он и беседовал с учениками, и их домашние задания читал, и "наблюдал, как они общаются в группе". В итоге получился довольно развесистый набор данных на основании которого Делич написал статью в Zeitschrift fu?r.


Kinderforschung (любые слова на немецком звучат и пишутся очень страшно, заранее извините, но дословный перевод "Журнал для исследования детей" звучит на русском ещё криповее). Йоханнеса, как я понял, в первую очередь интересовало то, как связаны успеваемость ребёнка и его популярность среди одноклассников, поэтому помимо направленного графа, описывающего кто с кем дружит, Делич также приводит рейтинг ученика (от самого успешного, до самого неуспевающего) и ещё некоторые интересные параметры. К примеру, в классе было четыре второгодника, они выделены в датасете. Ещё в классе был парень по фамилии Лаш (Lasch), бабушка которого была кондитером. Делич обратил внимание, что Лаш угощает других детей конфетами и отметил это в своих данных. Он также отдельно выделил детей у которых были проблемы со здоровьем, такие как анемия, хромота или задержка в развитии.


Матрица дружбы
"Матрица дружбы" описывает кто и с кем дружит. Граф направленный, потому что Ганс может считать Фридриха другом, а Фридрих, может, на Ганса чихать хотел.


Лучшие люди нашего класса


Давайте засунем этот социальный граф в GePhi, посчитаем, к примеру, PageRank и покрасим вершины.


PageRankedGraph
Более "влиятельные" ученики окрашены в более насыщенный цвет.


Давайте "подсветим" семь учеников с самым высоким PageRank (я позже объясню, почему именно семь, пока давайте просто считать семь фундаментальной константой). Вот, что получится, если выделить семь вершин графа, у которых самый высокий PageRank.


7
Лидеры мнений четвёртого "А" в 1880 году.


Про этих парней мы уже говорили! Во-первых, все четыре второгодника "в топе". Я решил выделить семь человек, потому что один из четырёх второгодников по фамилии Шнабель (Schnabel) какой-то не очень крутой. У него седьмое значение PageRank. В то время как второгодники Пфайль (Pheil) и Феттер (Vetter) уверенно (и с большим отрывом) занимают первую и вторую строчку в списке "авторитетности", а второгодник Шуберт — четвёртую, уступая по "авторитетности" только Лашу (мало что может конкурировать с раздачей конфет). Шнабель всего седьмой. Выше его по авторитетности лучший ученик в классе Шлегель (Schlegel) и пятый по успеваемости ученик Майнхольд (Meinhold). Про этого Майнхольда мы ничего не знаем, никакой особой информации о нём Делич нам не оставил, поэтому его на картинке обозначим как "странного парня".


Удары в бубен и вычисление modularity class


В GePhi есть инструмент чтобы найти в нашем четвёртом "А" группы "по интересам". Описан алгоритм тут, а реализация, используемая GePhi тут. Общая идея в том, что алгоритм пытается оценить, какие сообщества внутри сети более плотные. За несколько проходов алгоритм может давать разную разбивку на сообщества, поэтому всё, что будет дальше, это просто камлание и удары в бубен на основании отдельно взятого результата, что не делает процесс менее забавным. Итак, вот в такие цвета раскрасил наш четвёртый "А" алгоритм поиска сообществ.


7
Скажи мне, с кем ты дружишь, и я скажу, что ты это зря.


Давайте смотреть, что получилось. Все наши семь самых влиятельных ребят попали в четыре основные сообщества. Три "крутых" второгодника Пфайль, Феттер и Шуберт попали в сообщество, покрашенное на картинке в зелёный. "Некрутой" второгодник Шнабель и лучший ученик класса Шлегель попали в сообщество, покрашенное в лиловый. Наконец, раздающий конфеты Лаш попал в сообщество, обозначенное на картинке светло-синим. Майнхольд остаётся человеком-загадкой. Он попал в небольшую группу "избранных", в которой всего три ученика (включая его самого), она покрашена в тёмно-серый. Из четырёх детей, у которых были проблемы со здоровьем, двое вообще ни с кем не дружат, а двое других попали в синее сообщество.


Ну, что ж. Многое начинает проясняться. Шнабель, по всей видимости, не такой "крутой" второгодник, потому что вместо того, чтобы зависать с крутыми парнями, общается с какими-то ботанами, с которыми дружит пай-мальчик Шлегель (интересно, что сами Шнабель и Шлегель не дружат, но стабильно попадают в одно сообщества при подсчёте модулярности сети). Лаш и его конфеты сформировали сообщество ребят, которых ни в ботаны, ни в плохие парни не берут, а Майнхольд… Хммм… Кто же такой Майнхольд? Давайте посмотрим, кто ещё с ним "в тусовке". Ещё два ученика, попавшие с ним в одно сообщество, это Майер (Meier, четвёртое место в рейтинге учеников) и Флаш (Flasch, тридцать пятое место в рейтинге учеников). Хммм… Три чувака, которые больше толком ни с кем не общаются, но при этом два из которых неплохо учатся...


geeks
Кадр из фильма Superbad.


Короче, мне нравится думать о трёх этих парнях, как о троице гиков из Германии 19ого века. Двое учатся отлично, а третий особо ни с кем не общается, просто делает после уроков гигантского человекоподобного робота или кригсмарине, или ещё что похуже. Не суть.


Давайте переведём рейтинг немецких школьников в среднюю оценку. Сгенерируем что-то похожее на нормальное распределение на интервале от 2 до 5 (у немцев шкала оценок обратная, но мы чисто для своего понимания будем всё делать по нашей привычной шкале, когда 2 — не сдал, а 5 — красавчик). Сопоставим каждому ученику его средний бал так, чтобы при ранжировании по этому среднему баллу получался бы такой же рейтинг, как в данных Делича. Теперь давайте посмотрим, какая средняя оценка у учеников, в каждой из этих четырёх групп. А заодно, со сколькими людьми в среднем дружит участник каждой группы, и сколько людей в среднем дружат с ним. Получится вот что:


avg
Средняя оценка и средние in- и out- degree по четырём группам. Цвета соответствуют раскраске графа.


Гики, в целом, неплохо учатся, но сами дружить не рвутся, да и с ними особо никто дружить не собирается. Хорошисты из тусовки Шлегеля и Шнабеля учатся в среднем похуже гиков, зато в социальном плане у них всё получше. Альтруисты (так я называл группу, в которую вошёл раздававший конфеты Лаш) учатся паршиво зато дружат с другими детьми активнее всего (пусть и не взаимно). Наконец, плохие парни учатся хуже всех, зато очень популярны (с ними хотят дружить), хотя сами в плане количества людей с которыми дружат недалеко ушли от гиков.


Давайте ещё нарисуем с кем дружат представители разных сообществ


s
Каждое сообщество больше всего дружит внутри себя, но с другими сообществами взаимодействует по-разному.


Смотрите, как забавно! Альтруисты считают своими друзьями немало хорошистов и немало плохих парней. Плохие парни альтруистов особо не жалуют, зато вот некоторых хорошистов считают своими друзьями. Хорошисты, судя по всем, от дружбы с плохими парнями не в восторге, зато альтруисты с их улыбчивыми лицами и халявными конфетами вызывают у них сдержанный интерес.


Если вам по каким-то причинам интереснее смотреть с другого бока, то вот ещё одна призовая картинка.


s
Каждое сообщество больше всего дружит внутри себя, но с другими сообществами взаимодействует по-разному.


Вот такой забавный дата-сет в первую неделю осени. В 2014 году данные о нашем четвёртом "А" заново открыла миру вот эта статья. Дело в том, что после первой мировой Германии было не до педагогики, так что о данных, собранных Деличем, забыли надолго, а сейчас выходит, что это чуть ли не первый подробно задокументированный социальный граф. Такие дела.


Оригинальные данные были опубликованы в статье:
Delitsch, J., 1900. U?ber Schu?lerfreundschaften in einer Volksschule. Zeitschrift fu?r Kinderforschung 5, 150–162.


P.S. Меня тут несколько раз спросили, какая у этого всего мораль. Думаю, мораль тут такая.


Во-первых, даже несколько столбцов чисел могут скрывать за собой драму. Да ещё какую.


Во-вторых, для любого человека, работающего с данными, ответ на вопрос "какая тут мораль?" сводится к вопросу "какая тут метрика качества?"


Если метрика — успеваемость, то лучше дружить с отличниками. Все второгодники, на самом деле, в рейтинге класса не в топе, но и не в самом низу в плане успеваемости. Они болтаются где-то в середине, но другие дети, входящее в их сообщество учатся сильно хуже. Возможно, сравнительно неплохая успеваемость второгодников, связана с тем, что немецкая школа девятнадцатого века довольно много внимания уделяла физподготовке и спорту, так что частично "успеваемость" второгодников завышена из-за того, что они просто физически сильней. Сообщество вокруг Шлегеля и сообщество гиков, не смотря на этот перекос, учатся сильно лучше сообщества, которое сформировалось вокруг второгодников.


Если метрика — популярность среди сверстников, то разбрасываться конфетами — это довольно дорогой и не очень эффективный способ набора этой самой популярности. С одной стороны, он работает: Лаш третий по популярности ученик в классе. С другой стороны, "качество" его сообщества (по метрике социальной популярности) довольно низкое. То есть конфеты позволяют тебе стать популярным среди не очень популярных людей. Другие популярные парни с Лашем не дружат (ни второгодники, ни лучший ученик класса Шлегель).


Наконец, если метрика — количество "настоящих" друзей (где настоящий друг — это не человек, с которым дружишь ты, а только те из твоих друзей, которые сами дружат с тобой), то тогда быть второгодником — самое оно.

Комментарии (21)


  1. Zenitchik
    06.09.2018 20:52
    +4

    Что страшного в слове «киндерфоршунг»?


    1. kroniker Автор
      06.09.2018 21:34
      +6

      Для меня ничего, как и в слове Schmetterling, обозначающем в немецком бабочку. Однако чисто фонетически немецкие слова для носителей других языков могут звучать страшновато.



      1. Zenitchik
        06.09.2018 21:40

        для носителей других языков могут звучать страшновато.

        Для носителей любого языка фонетика достаточно далёких от него языков звучит дико.
        А слова — можно прочитать по разному.

        Кстати, дословный перевод — «Исследование детей». Два легко видимых корня: «киндер» и «форшунг». Вероятно, это слово было заголовком журнала.


        1. kroniker Автор
          06.09.2018 21:48
          +2

          Для носителей любого языка фонетика достаточно далёких от него языков звучит дико.


          Это не так. Я довольно много общаюсь с носителями разных языков. Ни разу не слышал, чтобы кому-то из европейцев «дико звучал», к примеру, японский, хотя любой из европейских языков сильно дальше от японского, чем от немецкого. При этом немецкий считают «пугающим» не только носители языков романской группы (и французы, и испанцы, и итальянцы часто говорили мне, что немецкий звучит для них агрессивно и пугающе), но даже британцы, хотя английский язык относится к германской группе языков.

          Я сам говорю на немецком, и этот язык мне нравится. Шутка была связана исключительно со стереотипами восприятия немецкой фонетики.


          1. Zenitchik
            06.09.2018 22:27
            +1

            (и французы, и испанцы, и итальянцы часто говорили мне, что немецкий звучит для них агрессивно и пугающе)

            Это да. У нас говорили «собачий язык». Хотя, ИМХО, грассирование — звучит противнее.


            1. kroniker Автор
              06.09.2018 22:32

              У меня в плане фонетики, к примеру, французский вызывает вопросы, но это всё дело вкуса. Есть люди, которым грассирование очень идёт, причём даже на тех языках, в которых этого самого грассирования нет)))


      1. sofist1
        06.09.2018 22:17
        +1

        немецкий очень мягкий язык, русский немцами признается очень грубым))


        1. kroniker Автор
          06.09.2018 22:18
          +1

          мем про бабочку не на пустом месте люди придумали))) так что с мягкостью немецкого я всё-таки не соглашусь. Но, как говорится, «любим мы его не за это».


          1. DelphiCowboy
            07.09.2018 08:15

            В Empire: Total War команды на немецком звучат очень красиво:
            — Laden!
            — Zielen!
            — Feuer!


          1. HellMaster_HaiL
            07.09.2018 10:17

            Почти все немцы, с которыми мне довелось познакомиться, считают, что русский язык — грубый и агрессивный. Многие часто сравнивают по звучанию с какими либо ближневосточными языками. Говорят, что русский и арабский звучат одинаково «устрашающе».

            «Шметтерлинг» (а в Баварии, к примеру, это еще «мягче» — «шметт(э/а)линг» (как-то так, мне сложно правильно описать эту «глухую Р»)) даже мне кажется мягче, чем «бабочка» (бомбочка, бомба, бомб).


          1. aakhamef
            07.09.2018 10:31

            Про бабочку же и анекдот

            Встань перед зеркалом и громко, с призывом и пафосом произнеси, сделав злое лицо: «Schonen Schmetterling zwischen den zarten Lilie verschwunden!»
            Неправда ли, чудно звучит фраза «красивая бабочка скрылась между нежных цветков лилии»?


            1. Zenitchik
              07.09.2018 12:15

              Что-то странное с порядком слов. Это перфект? Где глагол-связка?


              1. kroniker Автор
                07.09.2018 15:59

                Думаю, имелось ввиду что-то вроде:
                Eine schone Schmetterling verschwand zwischen den zarten Lilien.


              1. aakhamef
                07.09.2018 21:07
                +1

                Я немецкий забыл после 7 класса, когда на английский переучивался. Скопировал с интернета первое попавшееся. За что очень извиняюсь.


        1. Wizard_of_light
          07.09.2018 15:10
          +1

          «Карл Пятый, римский император, говаривал, что гишпанским языком с Богом, французским — с друзьями, немецким — с неприятелем, италианским — с женским полом говорить прилично.» (М. И. Ломоносов)


  1. Simplevolk
    06.09.2018 23:06
    +1

    Интересно было бы проследить их дальнейшую судьбу…


    1. kroniker Автор
      06.09.2018 23:17
      +2

      Детально известна только биография Делича. Он после Лейпцига работал в городе Плауэн. Был одним из инициаторов создания коррекционной школы и стал её директором. В Zeitschrift fu?r Kinderforschung вышло ещё три его статьи, посвященные работе с трудными детьми, сиротами, детьми с задержкой в развитии. Он прожил шестьдесят один год и умер в 1920.


      1. varagian
        07.09.2018 14:33
        +1

        Невероятно жаль, что не отследил — он еще не знал, что оставляет нам в наследие первый социальный граф и его интерпретацию :-)


        1. kroniker Автор
          07.09.2018 14:50
          +1

          да. Реально, такая драма, конечно. Меня очень впечатлило.


  1. robux
    08.09.2018 06:56
    +1

    Жду в следующих статьях анализ сообществ по другими метриками, например, кто кому сколько даёт взаймы, кто с кем бухает, спит, обсуждает политику, кто кого восхваляет, кто на кого клевещет. Затем анализ расслоения на группы и их взаимодействие. Ну и моральные выводы из получившихся измерений :)


    1. kroniker Автор
      08.09.2018 16:15

      Это всё, кстати, делают. Социологи и экономисты много статей такого рода пишут. Разве что только без особых моральных выводов в конце))) Меня зацепило, что это один из первых (если вообще не первый) дата-сет такого рода и то, что до 2014 года о нём забыли напрочь.