В вебе только и разговоров, что о Телеграм-каналах.
Однако, ещё никто не оценил численно: какое влияние оказывают Телеграм-каналы на СМИ? Сегодня мы попытаемся это исправить — и сделаем первый шаг в анализе связки медиа и Телеграма.
Ключевой вопрос исследования:
Какую роль играют Telegram-каналы в формировании медиаповестки?
Для оценки будем использовать следующий подход: соберем датасет новостей и оценим, какая часть приходится на Телеграм-каналы. Здесь мы собрали для анализа 67 тысяч постов медузы и проанализировали их источники и ссылки.
Начнем с интересного: новости на Медузе имеют специально выделенный "официальный" источник, а также в тексте присутствуют ссылки на другие источники, назовем их здесь "неофициальными".
Начнем с новостей, где источником указан Телеграм: официально (синий график) и в тексте (красный) — разница пятикратная. Как мы видим, медуза только начала официально и вообще в принципе ссылаться на Телеграм. Тренд: количество Телеграм-новостей растет: как в виде официального источника, так и в виде ссылок!
Данные: для воспроизведения результатов и дальнейших исследований выложены в открытый доступ: датасет (67к исходных текстов статей) и CSV c метаинформацией. См. методологию сбора и код в предыдущей статье по анализу Медузы.
Под катом:
- Анализ — Телеграм vs Facebook (и vs Twitter).
- Где находится Телеграм среди других ньюсмейкеров и источников?
- Как растет влияние Телеграма?
- На какие каналы чаще всего ссылаются?
- Что из всего этого можно вывести?
Телеграм vs Facebook
Как мы заметили — популярность Телеграма среди медиа-источников растет, в то время как популярность отдельных классических соц. сетей, например Facebook, падает — как будто Телеграм стал отъедать часть пирога Facebook:
Телеграм vs Facebook vs Twitter
Однако, заметим, что например Twitter так просто свои позиции не сдаёт — и выглядит как будто Twitter стабилизировался (и не растет дальше) на хорошей позиции, Facebook падает, а доля Телеграм растет — причем судя по времени выглядит, как будто здесь свою роль сыграл именно Телеграм.
Где Телеграм среди источников?
Как мы видим, СМИ не торопятся признавать Телеграм официальным источником (и только вообще начинают это делать), в то время как активно его цитируют — мы видим, что среди официальных источников (за все время существования Медузы) Телеграма нет, в то время как среди самых цитируемых он уже встречается.
Если мы посмотрим на классическое медиа — например, КоммерсантЪ, то убедимся, что такого эффекта здесь не наблюдается — выделение синим: количество ссылок в обоих случаях примерно равное. В то время как картина Телеграма сильно напоминает социальные сети — СМИ активно берут оттуда контент, однако официальным источником не ставят: это видно в таблице на примере Twitter (выделение красным, такое же как и у Телеграма) — второй по количеству цитат, но официальным источником не является.
Изменение ранга во времени
Как мы видели во временных графиках цитирования: общий тренд — рост Телеграма, более того до 2017-2018 его фактически не было в источниках и цитатах новостей, поэтому логично рассмотреть последние три года отдельно, и тогда картина источников существенно меняется:
Фактически, мы видим, что Телеграм, как источник контента новостей, стабильно растет — особенно по отношению к другим социальным сетям: и Facebook, и VK.com сдают позиции там, где растет Телеграм.
Если тенденция сохранится, то Телеграм войдет в топ-5 источников контента в ближайшее время.
Top-каналов по официальным ссылкам и по цитатам в тексте
Также интересно посмотреть на какие именно каналы чаще всего ссылается Медуза, возьмем топ-15 каналов по цитатам в новостях:
И сравним с упоминаниями в качестве официального источника:
Отсюда можно заметить, что абсолютный лидер — Mash, который специализируется на "срочных" новостях. В то время как в качестве официальных источников выступают условные организации, например пресс-служба судов Санкт-Петербурга (что довольно иронично, учитывая судебный запрет на работу Телеграма в России). Для них канал — это одно из основных средств оповещения, и тогда логично, что они могут играть роль официальных источников СМИ.
Интересное наблюдение про информативность заголовка
Исследуя сам датасет статей, обнаружил следующую закономерность: средний размер заголовка в символах стабильно растет, если в 2014 типичный заголовок звучал как
"Лоукостер «Аэрофлота» поменял название" = 40 символов
То в 2019, это уже ближе к
"Сотрудники МЧС не сумели спасти учебный манекен. Его утащила напуганная лошадь " = 80 символов
Возможно, это связано с особенностью поисковых системы, а также особенностью работы социальных сетей (где люди часто не читают дальше заголовка, или их нужно "заманить" кликнуть по заголовку).
Почему была выбрана Медуза и что делать дальше
Дальнейший анализ
Безусловно, анализ и исследование на основе одного медиа не может быть 100% достоверным и целиком отражать информационную повестку СМИ — необходимо провести анализ на основе нескольких ключевых медиа, например на основе бизнес тройки — Ведомости, РБК, Ъ. Если у вас есть доступ или существенный архив их новостей (желательно свежих; и если есть и других медиа) — дайте знать.
Также, необходимо составить внутреннюю карту самого Телеграма — как каналы связаны между собой — см. мою статью про связь Хабов и анализ графа связи статей.
О проблемах и методологии анализа
Выбор Медузы для анализа неслучаен — здесь приведем выжимку, почему именно она была выбрана и какие проблемы возникают с другими изданиями.
Во-первых, такие издания как "Ведомости" и "Коммерсант", как правило, не ставят гиперссылок на источники, а дают только текстовое описание — откуда пришла информация. Например, новость от коммерсанта: "«Абрау-Дюрсо» понижает градус" — в ней присутствует только текстовая ссылка на источник в духе "… заявил президент «Абрау-Дюрсо», в интервью газете «Ведомости», февраль 2019 года". А значит, задача определения ссылок становится экспоненциально более сложной, фактически превращаясь в задачу NLP и Identity Matching. Приведем упрощенный пример для понимания проблемы Identity Matching: в статье на vc.ru "Пока не запретили: как Telegram поможет получить визу в США" создатели канала Out of Office делятся своим опытом по получению визы — ссылки на канал в тексте нет, как часто и бывает у обычных СМИ. Поэтому, даже если мы определили название канала из текста и что это Телеграм, нам предстоит поставить ему в соответствие собственно ID канала: OutOfOffice или out_of_office? Правильный ответ можно найти по ссылке на канал (а сам канал неплохой — про культурные события и путешествия, рекомендую).
Я поспорил с одним из автором канала — будет ли Телеграм в топе источников СМИ? Для уверенности зафиксировали, что возьмём топ-5. Был почти уверен, что ещё нет и похоже спор выиграл. Хотя случись этот разговор не в 2019, а, например в 2022-ом, я бы уже не был так уверен в исходе спора.
Во-вторых, насколько мне известно никто из деловых СМИ не предоставляет публичного API для доступа к своим статьям, более того, есть основания полагать, что они будут не слишком рады систематическому парсу их статей. В таком случае, дополнительно придется обходить защиту от парса и возможно нетривиальным образом итерировать по всем статьям.
В-третьих, есть проблема в том, что нельзя отделить "основной" (официальный источник) от "неосновного" (дополнительный материал), например, возьмем новость "Личные данные миллионов россиян утекли через торговые площадки" — здесь есть одна основная ссылка и еще пять в виде дополнительного материала. В таком случае провести анализ схожим с тем, что мы сделали здесь не представляется возможным (без существенного изменения методологии и дополнительного анализа — что тоже является нетривиальной исследовательской задачей NLP).
А значит, что теоретически возможно только использование РБК для ограниченного экспериментального сравнения. Причем сбор и выделение нужных данных существенно усложнится и потребует дополнительных методов фильтрации шума, а также учета и идентификации текстовых ссылок в дополнение к гиперссылкам в статьях.
Выводы
Тезисно обозначим основные пункты исследования:
- Телеграм становится топовым источником контента СМИ, скоро может войти в топ-5
- Доля классических социальных сетей падает, и похоже, за счет них Телеграм идет вверх
- СМИ цитируют Телеграм, но редко признают его в качестве официального источника
- Для достоверной оценки необходим разносторонний анализ на основе нескольких ключевых медиа
- Телеграм растет как платформа контента, причем закономерность поведения СМИ похожа на их работу с с соц. сетями: авторские каналы, как профили в соц сетях, так и в качестве "медиа внутри медиа" — где организации заменяют Телеграмом условный "сайт" и используют, как канал распространения информации
А если совсем вкратце:
Вечером в Телеграме — утром в газете.
Комментарии (12)
Umpiro
14.05.2019 14:09Считате, это правильно? На основании исследования медузы делать вывода об общем для всех СМИ тренде? Я так понимаю, имелись в виду российские СМИ. Но на том же основании вы можете говорить и о мировых СМИ, и о СМИ в наблюдаемой вселенной.
varagian Автор
14.05.2019 14:26Этому посвящена примерно треть статьи (!): есть конструктивные предложения, как технически организовать анализ?
Umpiro
15.05.2019 13:41-1Этому посвящена примерно треть статьи
Вы о той части, которая 'извините, мы кроме медузы ничего не можем'?
Вот вам первое конструктивное предложение. Оформите заголовок соответственно содержанию.varagian Автор
15.05.2019 17:46+1Судя по первому комментарию, вы не слишком внимательно читали статью, а, судя по второму, и не собирались разбираться.
Начнем с того, что СМИ уже идут за контентом в Телеграм: это и Ведомости, и Коммерсант, и РБК, да даже Комсомольская правда.
А статья впервые даёт численную оценку того, как часто СМИ ссылаются на Телеграм. Мы уже знаем, что ссылаются — нам нужно по собранным данным оценить ряд параметров. Статья открыто и подробно обсуждает какие данные и как именно они использовались.
И это откровенный детский сад писать «извините, мы кроме медузы ничего не можем» — статья описывают фундаментальные вычислительные трудности связанные с этой оценкой — фундаментальные именно в том смысле, что не «мы не можем», а любой, кто будет заниматься этой задачей должен будет их решить.
Любая научная или научно-популярная работа основывается на доказательной базе (evidence в англоязычной литературе) в пользу или контра определенной гипотезы. Здесь доказательная база абсолютно открыта — датасет и вся мета-информация опубликована на github, более того в самой статье подробно описана необходимость исследования других СМИ — тут, простите, вы совершенно ничего нового не добавили — это первое (!!!) предложение в описании того, что нужно сделать (это вообще серьезно?) для получения более точной оценки.
Простая аналогия — биологи используют мышей, а биохимики E. coli — и они честно и подробно описывают первые испытания на материале, с которым легко экспериментировать. Также и здесь, опубликованы результаты «на мышах» и об этом честно и подробно написано — если что до ката прямо под обсуждением вопроса. Поэтому вернусь к вашему вопросу «нормально ли оценить так тренд?» — да, люди оценивают тренд применения и эффективности условного лекарства на мышах прежде чем давать его людям — особенно прежде чем давать его сотням и тысячам людей, и это абсолютно нормально. Потому что это численная оценка, а не истина в последней инстанции. И если эффект положительный — люди продолжают исследования, а если нет — направляют свои силы в другое перспективное русло.
Более того, как и в любом исследовании — описано не только что сделано, но и как конструктивно продолжить работу.Umpiro
16.05.2019 14:55-1Начнем с того, что СМИ уже идут за контентом в Телеграм
Вы это исследовали, или просто на кофейной гуще нагадали?
А статья впервые даёт численную оценку того, как часто СМИ ссылаются на Телеграм.
Не СМИ, а медуза.
И это откровенный детский сад писать «извините, мы кроме медузы ничего не можем»
Ну, так вы сами напичкали извинений в раздел 'почему была выбрана медуза', и считаете это детским садом?
Любая научная или научно-популярная работа основывается на доказательной базе...
Очень интересно, спасибо за лекцию.)
это первое (!!!) предложение в описании того, что нужно сделать (это вообще серьезно?) для получения более точной оценки.
Как насчет сбавить градус эмоций, гражданин ученый? Я против вашего исследования ничего плохого не имею. Оно выполнено как выполнено. Только вы выражаете собственное непонимание того, что исследовали. На что я вам и указал. Про более точную оценку речи не шло.
Также и здесь, опубликованы результаты «на мышах» и об этом честно и подробно написано
Вы, может быть, не представляете себе суть статистического исследования? То, что вы делаете, это не исследование на мышах. Вы исследуете одну мышь, которая дохнет на второй день, и на основании этого говорите о продолжительности жизни всех мышей. 'Абсолютно нормально'?
Если намереваетесь продолжить обсуждение, прошу вас сбавить содержание воды в постах. Выражайтесь, пожалуйста, посодержательнее.varagian Автор
16.05.2019 15:09+1То есть, если взять Ведомости, РБК и Коммерсант, то по вашей логике выходит исследование на трёх мышах.
И вообще на всю Россию выходит мышей 20 более менее нужного размера для исследований (медуза порядка 67 тысяч статей). Это звучит для вас как адекватная аналогия?
Umpiro
17.05.2019 14:49То есть, если взять Ведомости, РБК и Коммерсант, то по вашей логике выходит исследование на трёх мышах.
Это не по моей логике, это по законам математики.
И вообще на всю Россию выходит мышей 20
Сколько бы ни было мышей, в вашем исследовании не представлено статистической выборки по различным СМИ, а значит утверждать что-либо о тенденциях в СМИ на основании вашего исследования нелогично.
shasoft
15.05.2019 07:22Медуза один из каналов для вброса фейков на российское инфополе, не удивительно что они много ссылаются на телеграмм. В случае если за задницу захотят взять — это не мы, это вот телеграмм канал который фиг знает кому принадлежит, а мы тут невиновны, мы просто сообщили. А там Дуров опять дуру включит как он за свободу слова и тому подобное и поэтому не сообщит кто ведет канал. Т.е. официальный СМИ получает возможность вбрасывать любую дичь, ссылась на анонимов. Очень удобно, поэтому и используют.
SandroSmith
16.05.2019 10:24+1То ли дело Первый и НТВ. Только факты, только правда.
shasoft
18.05.2019 07:47Я вообще этого не говорил. Но я понял ваше оправдание почему медузе можно врать.
halted
Выглядит так, будто мессенджеры — это новый тренд в выборе платформы для контент-проектов.