Мы выяснили, что люди копируют со Stack Overflow и насколько часто / forpes.ru

Главная
Мы выяснили, что люди копируют со Stack Overflow и насколько часто

Мы выяснили, что люди копируют со Stack Overflow и насколько часто +22

23.04.2021 01:11

ProductivityInside 25 9900 Источник

Говорят, что в каждой шутке есть доля правды. Если говорить о нашем первоапрельском приколе, то в нем эта доля стремилась ко всем ста процентам. Нам захотелось обыграть классический мем о Stack Overflow и немного уклониться от одного из наших фундаментальных принципов. Источником вдохновения послужили попортившие крови основателям компании ресурсы, которые открывают ответы на вопросы по программированию только для платных пользователей. А как бы изменился мир, если бы мы вдруг сделали возможность копировать текст со Stack Overflow доступной только за деньги?

Ну, пошутили и хватит. Надеемся, что все посмеялись и никто сильно не испугался. Но подождите, мы еще закончили. Настроив систему так, чтобы она реагировала на каждый ввод команды Command+C, мы сообразили, что у нас появился шанс получить больше информации о том, что люди делают на сайте. Мы успешно фиксировали каждую операцию копирования на Stack Overflow в течение двух недель, и вот что из этого получилось.

Вы не одни такие

Один из четверых пользователей, открывающих страницу с вопросом на Stack Overflow, что-нибудь копирует с нее в течение первых пяти минут после захода на сайт. Суммарно мы насчитали 40 623 987 копирований из 7 305 042 постов в период с двадцать шестого марта по девятое апреля. Текст из ответов люди копируют примерно в десять раз чаще, чем из вопросов и где-то в тридцать пять раз чаще, чем из комментариев. Блоки кода подвергаются копированию в десять раз чаще, чем сопровождающий текст, а копирование со страниц вопросов без принятых ответов, на удивление, ведется активнее, чем там, где они есть.

Соответственно, если вам когда-нибудь было стыдно за то, что вы копируете готовый код, вместо того чтобы писать его с нуля – пусть ваша совесть будет спокойна! Зачем изобретать велосипед, если кто-то уже разрешил за вас все сложности? Мы называем это многократным использованием – то, что когда-то узнал, создал, доказал кто-то другой, теперь послужит вам. И в этом нет ничего плохого: так вы можете быстрее учиться, оперативнее получать рабочий код и меньше мотать себе нервы. Весь наш сайт стоит на концепции многократного использования знаний – сообщество Stack Overflow сильно, прежде всего, своим альтруистичным подходом к наставничеству.

Вполне позволительно залезть на плечи гигантам и позаимствовать уроки, которые они успели усвоить до вас, чтобы создать нечто новое и ценное. При этом, копируя, все-таки стоит придерживаться некоторых проверенных практик, чтобы ненароком не допустить возникновения багов или прорех в безопасности, так что удостоверьтесь, что хорошо во всем разобрались, прежде чем просто схватить кусок и вставить. Ну и само собой, нельзя забывать, что некоторые фрагменты кода можно использовать только с лицензиями. А в остальном мы полностью поддерживаем всех, кто хочет извлечь пользу из наработок, созданных сообществом.

Как человек, который многие годы без зазрения совести сдирал код со Stack Overflow, я не удивился, когда события копирования стали поступать миллионами. Удивило меня другое: сколько ответов на разные вопросы дала нам эта информация. Сколько людей в реальности копирует контент со Stack Overflow? Копируют один только код или что-то еще? Копируют ли активнее вопросы с принятыми ответами? Чтобы придать своему анализу какое-то направление мы с командой составили список вопросов, которые нас интересовали. Началось всё с простой шутки, а вылилось в серьезное исследование, пролившее свет на многие вещи и давшее толчок многочисленным обсуждениям о развитии и совершенствовании платформы в будущем.

Данные

При помощи самодельного инструмента для веб-трекинга мы создали кастомные события, чтобы фиксировать каждый случай, когда пользователь что-то копирует с сайта. Благодаря этим событиям нам удалось отследить самые разные характеристики: тэги, тип контента (вопрос, ответ или комментарий, блок кода или обычный текст), репутация копирующего, рейтинг поста, регион, статус поста – принят или нет. В общем, сохраняли мы практически всё, кроме собственно текста, который копировался.

Данные мы собирали полные две недели, с двадцать шестого марта по девятое апреля. Все выкладки, которые приводятся ниже, относятся к пользовательскому поведению в этом периоде.

Результаты верхнего уровня подтвердили то, что давным-давно звучало в шутках: на Stack Overflow все только и делают, что копируют. Также мы быстро убедились, что копирование как тип поведения подчиняется тем же закономерностям, которые уже выявлены для трафика сайта. Активнее всего люди копируют в будни, в рабочие часы. Регионы, где наш сайт пользуется наивысшей популярностью, дают больше всего копирований: Азия – 33%, Европа – 30% и Северная Америка – 26%. Ну и наконец, 86% копирующих – анонимные пользователи (то есть у них нулевая репутация). Когда мы стали подробнее вникать, кто копирует и что именно, стало интереснее.

Соотносится ли высокая репутация с усиленным копированием?

Для начала нам захотелось проверить: окажутся ли пользователи с высокой репутацией самыми активными в копировании?

Из графика видно, что большая часть копирования осуществляется пользователями с нулевой репутацией – то есть анонимами, потому что любой, кто создал аккаунт, сразу получает один плюс. Возможно, какая-то доля этих событий приходится на пользователей, которые не зашли в свой существующий аккаунт. Это, к сожалению, никак не проверишь.

Так как основная масса пользователей у нас имеет низкую репутацию, давайте попробуем снять разбивку по группам, чтобы нормализовать данные. Обратим теперь внимание не на общее число копирований, а на число копирований на одного пользователя, чтобы увидеть, как отличается средний показатель в зависимости от репутации.

Если изучить эту визуализацию, прослеживается следующая закономерность: с ростом репутации число копирований на пользователя начинает снижаться. Корреляция присутствует, но не слишком выраженная, поэтому я не могу с полной уверенностью сказать, что пользователи с хорошей или плохой репутацией однозначно копируют активнее. Разработчики, которые еще только нарабатывают навыки, часто имеют невысокую репутацию и при этом склонны искать ресурсы, которые могут ускорить процесс обучения. По мере накапливания знаний они наращивают и репутацию и начинают работать с задачами, которые требуют хорошо откалиброванных решений – такие не всегда удается найти на Stack Overflow.

Чаще ли копируют принятые ответы?

Ход мысли здесь выстраивается так: раз ответ приняли, значит, он, наверное, самый лучший, а раз так, то его и копировать должны с удвоенной энергией. Однако если взглянуть на статистику, то мы увидим, что в 52,4% случаев копируются не принятые ответы. Впрочем, если говорить о средних значениях, то на один уникальный пост с принятым ответом приходится семь копирований, а с не принятым – только пять. Получается, что не принятые посты дают больше копирований, но у принятых активнее разворачивается тот самый процесс многократного использования знаний.

Следует отметить, что существуют и такие вопросы, у которых в принципе нет принятых ответов. Взять, допустим, вот этот ответ: за него проголосовали 4 984 уникальных пользователя, а скопировали 7 943 за время нашего исследования. Но спрашивающий его не принял. Да и никакой другой тоже не принял – возможно, это как-то связано с тем, что он вообще не появлялся на сайте с 2010 года. Но многие другие полезные ответы находятся в том же положении.

Активнее ли копируют посты с высоким рейтингом?

Итак, принятые ответы не имеют преимущества при копировании, но уж высокий рейтинг-то точно должен влиять, верно? Давайте проверим.

Как мы видим, в категории ответов в группах от одного и до тысячи голосов всё идет довольно ровно. А вот в случае с вопросами большинство копирований приходится на посты с рейтингом от одного до пяти. Подозреваю, это потому, что люди копируют их для перепоста, пока наконец не появится ответ.

Как и в ситуации с пользователями, основная масса постов на сайте имеет довольно низкий рейтинг. Для нормализации посмотрим, сколько копирований приходится на один пост.

Здесь ясно видно, что число копирований возрастает вместе с рейтингом. И это логично: сообщество охотнее подхватывает то, что уже наработало хорошие показатели.

А посты с плохим рейтингом кто-нибудь копирует?

Ну а как обстоят дела с этими синими точками, которые представляют посты с отрицательным рейтингом? Зачем вообще копировать то, что никто не одобряет? Что ж, давайте не будем торопиться с выводами.

Посмотрите на этот ответ. Из всех ответов с отрицательным рейтингом он у нас собрал максимум копирований – 288 штук при рейтинге -2. Если вчитаться в текст, можно заметить, что он в более сжатом виде излагает то же самое, что говорится в самом популярном ответе с рейтингом 29 и 493 копированиями в общей сложности. Пусть ответ с отрицательным рейтингом и не выбился вперед по числу копирований, но все-таки принцип «ниасилил» тут явно сыграл в его пользу.

Из каких тэгов копируют чаще всего?

Именно на этот вопрос мне больше всего хотелось получить ответ. К сожалению, из-за масштабов исследования и объемов доступных ресурсов провести парсинг вложенных тегов не удалось. Скажем, в тэге html не учитываются посты, у которых проставлено сочетание тэгов |html|css|.

Чаще всего контент копировали из самых популярных и активных тегов на сайте, чему никто не удивился. Мне только одно бросилось в глаза: python фигурирует сразу в четырех группах тегов из первой десятки. Три из них имеют прямое отношение к анализу данных: |python|pandas|, |python|pandas|dataframe| и |python|matplotlib|. Я сам к этой теме неравнодушен, так что очень рад, что так много людей осваивает эти инструменты.

Топ 10 тегов, теперь с числом копирований на пост

Вдобавок к информации о тегах с наибольшим общим количеством копирований мне хотелось вычислить теги с наивысшим соотношением числа копирований к количеству постов. Я установил минимальный порог в десять постов, и, как видите, оказалось, что чем больше в тегах конкретики, тем больше копирований они собирают на пост.

Какие посты копировали больше всего?

Ну а теперь перейдем к тому, что, думаю, у многих вызывает любопытство. Какой пост собрал максимальное число копирований?

Ответ с блоком кода

Рад сообщить, что победителем вышел ответ на вопрос How to iterate over rows in a DataFrame in Pandas, у которого 3 497 голосов и 11,829 копирований. Его разместили в 2013 году, и он до сих пор продолжает выручать тысячи людей каждую неделю.

Ответ с обычным текстом

Если же говорить о контенте, не содержащем кода, тут выходит вперед пост на тему TypeError: this.getOptions is not a function [closed] с 218 голосами и 1 570 копированиями. Нет возможности проверить, но я полагаю, что копируют фрагмент `sass-loader@10.1.1`.

Вопрос с блоком кода

Среди вопросов у нас лидирует How to create an HTML button that acts like a link? – 2 147 голосов и 3 665 копирований.

Вопрос с обычным текстом

Ну и наконец, самым популярным вопросом без кода оказался Updates were rejected because the tip of your current branch is behind its remote counterpart – 322 голоса и 261 копирований. С ним есть сложности, потому что в тексте содержится много git-команд, которые не оформлены как блоки кода – возможно, активно копируются как раз-таки они. Но так как сам текст, который подвергался копированию, мы не сохраняли, никто никогда не узнает.

Комментарии

Важно помнить, что Stack Overflow – это не только вопросы-ответы. Иногда и одного толкового комментария бывает достаточно. Вот парочка из тех, которые копировались особенно активно!

Первый – это абсолютный лидер среди комментариев по всему сайту, а второй – темная лошадка: он собрал всего-то пять голосов, но зато по числу копирований занимает шестое место.

Комментарии (25)

Refridgerator
23.04.2021 05:50
#22957052
Я однажды скопировал код со Stack Overflow, а он оказался с подвохом — вместо метода ToArray() в нём использовался GetBuffer(), что в 2 раза увеличивало размер сериализуемого объекта. Обнаружил это случайно при отладке много лет позже.
1. fedorro
  23.04.2021 12:42
  #22958404
  Если это про MemoryStream, то ToArray — это байты которые в него записали, а GetBuffer — это весь буфер, в том числе нулевые байты, мусор, или ещё что там могло быть. Так что не просто «увеличивало размер в два раза», а записывало помимо самих данных ещё много чего лишнего.
  1. Refridgerator
    24.04.2021 06:56
    #22961454
    Я не стал об этом писать, потому что это и так очевидно. К слову, мусора там не было — только нули. Как и должно быть, потому c# всё по умолчанию инициализирует нулями.

EvilMonk
23.04.2021 06:49
#22957118
Никогда не понимал тупое копирование кода. Как минимум имена переменных всё равно менять придётся, да и стиль тоже. Проще уж заново набрать, поглядывая на ответ.
1. hamMElion
  23.04.2021 07:31
  #22957188
  Копируешь
  
  Проверяешь, работает ли
  
  Профит!
  
  Рефакторинг
  
  Как-то так
  1. EvilMonk
    23.04.2021 09:16
    #22957406
    +1
    Скорее так:
    
    Копируешь
    
    Проверяешь, работает ли
    
    ???
    
    Профит!
1. skymorp
  23.04.2021 07:45
  #22957210
  +1
  Спорное утверждение.
  Текстовые редакторы с плагинами или IDE позволяют редактировать код быстрее чем печатать.

ReinRaus
23.04.2021 07:35
#22957198
Общая проблема перевода: на SO нет хорошей и плохой репутации. Есть высокая и низкая.
1. anatoly314
  23.04.2021 10:01
  #22957606
  +3
  Если ответ неправильный он быстро уйдет в минус. Если есть лучший ответ, то он быстро наберет рейтинг выше чем принятый ответ. Статья по моему высосана из пальца, как и проблема. Stackoveflow это просто разновидность документации с очень крутым поиском, какая разница копировать из документации или из Stackoverflow?
  1. alex1478
    23.04.2021 11:30
    #22958040
    Ну вот я частенько замечаю, когда сам ищу, в вопросе спрашивают как сделать что-то на js без фреймворков, но в топе с галочкой всё равно ответ с реализацией на jquery.
    
    Еще видел, когда стоит ответ с галочкой и большим рейтингом, а в комментариях под ним сам автор вопроса пишет, что у него не работает. И автор ответа ему отвечает что у него всё норм. А ответ действительно не рабочий.
  1. IcEWaRRiOr_2002
    23.04.2021 11:54
    #22958178
    +1
    А я считал, что Stack Overflow — это как Яндекс Кью и Ответы Мэйл ру, только люди поумнее
    
    anatoly314
    23.04.2021 12:04
    #22958214
    Уже скорее всего Тостер, а Яндекс кью скорее ближе к Quora.
    
    alex-1917
    23.04.2021 12:36
    #22958370
    куора — это вообще-то аггрегатор, т.е. спи8дили и опубликовали.

Number7
23.04.2021 11:43
#22958096
+1
давно уже заметил, что на SO можно получить ответ на вопрос по теме в которой имеешь нулевые скиллзы, и даже понять в чкп суть проблемы.

и по этому поводу давно зарекся читать манцалы mysql и телеграмм апи — там настолько перегруженная трудночитаемая документация, что на вникание тратится в разы больше времени, чем нагуглить ответ в staxkoverflow
1. andreishe
  23.04.2021 22:42
  #22960668
  Зависит от темы. Теги по андроиду мониторят безрукие индусы, которые сами с трудом понимают, что делают.
1. tmin10
  24.04.2021 01:35
  #22961212
  +1
  Хм, когда я разбирался с партициями mysql, то открыл доки и прочитал про разные типы. А как задать вопрос гуглу, если ты не знаешь, что конкретно надо? Или ответ будет для mysql 8.0, а у нас myslq 5.6, в которой половины фич нет? Или ответ будет пятилетней давности, хотя уже есть более современные решения? ИМХО SO дополняет документацию, но никак не заменяет её.
1. questor
  24.04.2021 13:05
  #22962032
  Когда-то я делал так же, однако впоследствии понял всю силу фундаментального образования. Если вам читать документацию сложно — это может говорить (помимо того, что действительно бывает запутанная документация) о том, что вы:
  
  а) находитесь в цейтноте, стрессе — а стоило бы планово заняться саморазвитием и не браться за проекты "нужно ASAP, хреначьте поскорее на прод!"
  б) вы не умеете или не любите преодолевать сложности, не тренируете свои мозги — и это как "сложно рассчитывать стать олимпийским чемпионом по штанге, если вы не любите поднимать крупные веса, а только лёгкими занимаетесь"
  
  Я копирую с stackoverflow очень много и часто (моя репутация — несколько десятков тысяч), но я также часто пишу код из головы (скетчи в блокноте linqpad), это было очень сложно поначалу, я помню как мне было неприятно то, что я на память не помню простейшие вещи типа "а когда мы делаем for в обратном порядке что вписывать в инварианты цикла?"
  
  Поэтому постоянная тренировка — как на сложных задачах, как на лёгких задачах и вдумчивое прочтение книг, туториалов (прочитал — тут же сделал) — это на мой взгляд очень важная составляющая профессионального программиста.
  
  Многие вещи действительно забываются (не используешь в ежедневной работе — начинает слабнуть), но вот то, что остаётся в голове после а) постоянных повторений и б) изучения фундаментальных вещей — оно весьма помогает в решении любых задач — как новых, так и вспомнить старое. И стресса меньше и времени уходит меньше.
  
  Возможно, это вам не нужно, не пропагандирую. Интернет не отключат, so не закроют, к собеседованиям раз в год или на сертификацию можно и брейндампами обколоться. Любовь к сложным задачам — это весьма специфическая проф.деформация, если вам хорошо без неё — ну так можно и не начинать.

IcEWaRRiOr_2002
23.04.2021 11:52
#22958156
Да, я читал уже этот пост в блоге Stack Overflow. Я хоть начинающий frontend разработчик, но я никогда не копирую ответы, а перепечатываю их, стараясь понять код. Если честно говорить, мне даже как-то стыдно просто задавать вопросы — ощущение, будто делаю дз по матеше, и вместо самостоятельной работы считерил, и подсмотрел ответы в конце учебника :-(
1. illiaY
  26.04.2021 07:16
  #22967232
  А если уже все пальцы истер, пока гуглил? Тогда Stack Overflow. Иногда, бывает задав вопрос сам же ответ и находишь. Тогда наоборот в + сработал. Это же площадка для упрощения жизни. Если на поиск ответа уходит неразумное количество времени, то почему-бы не систематизировать информацию, чтобы ответ можно было получить гораздо быстрее? Собственно для того и создавался Stack Overflow (ну или после создания площадке к этому и пришли).

ReaderReader
23.04.2021 15:17
#22959086
Сразу вспомнилась классика
Под катом большая картинка

StjarnornasFred
23.04.2021 21:28
#22960466
А что плохого? Зачем тратить человек-ресурс на переизобретение уже изобретённого? Если некая функция (не в смысле function, а в смысле кусок кода) программы неуникальна, т. е. может быть использована в разных случаях, то её можно и нужно реиспользовать, а в идеале — хранить на видном месте.

Grunn
26.04.2021 07:16
#22967234
Надо немного изменить заголовок на "Насколько часто копируют со Stack Overflow"

JustAnAnimal
26.04.2021 07:16
#22967236
Ко всему нужно относиться с умом. Ресурсы типа so — настоящая панацея от долгой буксовки, но, все-таки, прежде чем тупо копировать, надо таки разобраться, что ты копируешь. А с этим сейчас проблемы.

Perokar
26.04.2021 07:16
#22967238
+1
3 месяца назад я на хабре задал вопрос, и все такие "фу, туфта", а на стеке нашел ответ.

Посмотрим правде в глаза, вопрос ещё и в менталитете, в одном случае тебе подскажут чего почитать или дадут ступеньку, а в другом будут тупо гнобить, и пофиг что ты ток учшься.
На англоязычном пространстве, легче там лучше с поддержкой, думаю нам стоит поучится.
Я уже молчу про отдельные ветки stackoverflow, переведённые на русский без зазрения, совести.
1. chupasaurus
  26.04.2021 07:42
  #22967310
  Именно поэтому вы написали комментарий с другого аккаунта.