Как мы выяснили в прошлой статье, разделение на гуманитариев и технарей — это больше стереотип, чем научный подход. Сегодня поговорим о профессии, в которой соединяются оба направления. Дата-журналисты создают истории на основе больших данных. Разберёмся, какими навыками они обладают и сколько зарабатывают.

Чем занимается дата-журналист

Дата-журналистика, или журналистика данных, в России начала развиваться в конце 2000-х. Она возникла на стыке трёх областей: журналистики, аналитики данных и области создания визуального контента.

Дата-журналист — специалист, который ищет, обрабатывает и визуализирует данные, чтобы представить их в виде интересной и понятной читателю истории. Выглядит это так:

Это инфографика из исследования эпидемии ВИЧ в России от «Если быть точным». Чтобы рассказать о мерах борьбы государства с ВИЧ, дата-журналист опирался на соответствующий приказ Правительства и данные Роспотребнадзора, а также провёл собственные расчёты
Это инфографика из исследования эпидемии ВИЧ в России от «Если быть точным». Чтобы рассказать о мерах борьбы государства с ВИЧ, дата-журналист опирался на соответствующий приказ Правительства и данные Роспотребнадзора, а также провёл собственные расчёты

Дата-журналист выбирает общественно важную тему, ищет количественные данные, чтобы выявить закономерности, оценить масштабы явления и на основе этого прийти к выводам, которые могут помочь читателям разобраться в проблеме. Или, наоборот, автор идёт от данных — работает с каким-то массивом и находит что-то интересное, из чего можно сделать материал. В обоих случаях получается дата-история — с интересными фактами и инфографикой для наглядности. Дата-материалы создают различные зарубежные и российские СМИ: The New York Times, The Guardian, The Washington Post, Reuters, а также РИА Новости, РБК, ТАСС, Т—Ж. С лучшими работами дата-журналистов со всего мира можно ознакомиться на сайтах известных журналистских премий: Data Journalism Awards и Sigma Awards.

Что должен уметь дата-журналист: изучаем вакансии

Дата-журналисты востребованы там, где создают контент на базе точных, проверенных фактов с количественным обоснованием. Кроме СМИ, дата-журналистикой занимаются компании, особенно те, которые строят свой бренд. Банки, такие как Сбербанк, Тинькофф и «Точка», проводят исследования на основе своих данных, рассчитанные не только на внутреннюю аудиторию.

Вот перечень обязанностей дата-журналиста из вакансии РБК:

Получается, чтобы получить работу, дата-журналист должен уметь:

1. Искать актуальные данные:

  • знать, какие базы данных существуют и как получить к ним доступ;

  • уметь формулировать запросы и собирать необходимую для анализа информацию (парсинг).

2. Идентифицировать, фильтровать и структурировать информацию в программах обработки данных, таких как MS Excel или Google Таблицы.

3. Анализировать данные:

  • понимать процедуру агрегации данных;

  • знать основы статистики и уметь рассчитывать показатели, необходимые для анализа.

4. Визуализировать данные:

  • подбирать и создавать диаграммы, графики, схемы, инфографику и другие иллюстрации;

  • владеть программами для создания такого контента, например, уметь работать в Tableau.

5. Понятно и интересно писать — увлечь и удержать внимание аудитории, донося историю простыми и доступными средствами.

6. Программировать — иногда работодатели указывают в вакансиях и этот навык в качестве дополнительного. Вот что, например, ждёт от соискателя исследовательский проект «Если быть точным»:

Часто для анализа данных используют Python — это популярный язык, который позволяет быстро решать многие задачи.

Борис Ги

Дата-журналист в РИА Новости

В работе дата-журналиста бывают моменты, когда одного Excel недостаточно: спарсить данные с сайта, обработать XML-файл, выгрузить данные по API, просто открыть файл, в котором больше миллиона строк. Python универсален и позволяет решить эти задачи, а ещё автоматизировать рутину и сократить ручной труд. Например, с его помощью можно скачать сотню файлов или почистить кучу однообразных таблиц и привести их к одному виду. В редких случаях могут понадобиться инструменты для работы с большими данными, методы машинного обучения или обработки естественного языка. Для журналистских задач Python вполне хватит.

Однако дата-журналист — это не классический аналитик и тем более не Data Scientist. Поэтому, если Python или другой язык программирования освоить сложно, можно обойтись и no-code инструментами.

Какая зарплата у дата-журналиста

Средняя зарплата журналиста-универсала по Москве — 70 тысяч рублей в месяц, по России — 53 тысячи. Дата-журналист — более узкий специалист с дополнительными навыками, которые ценятся несколько выше.

Борис Ги

Дата-журналист в РИА Новости

Пока большой разницы между зарплатой журналиста и дата-журналиста нет, 80–100 тысяч рублей — стандартный месячный оклад. Внештатные статьи и проекты тоже редко стоят дороже обычной журналистики. Например, в Т—Ж ставка за материал — 5 или 10 тысяч.

Конкретную зарплату в вакансиях на должность дата-журналиста указывают редко, обычно пишут, что условия обсуждаются индивидуально. Зарплата будет зависеть от объёма и количества выполняемых задач, а также от набора навыков и умений кандидата.

Как создаётся дата-история: от сырых данных к графикам

Поиск данных: о чём могут рассказать фото в соцсетях

Как и в классической журналистике, в дата-журналистике появляется идея или тема для создания материала. Но главным источником информации здесь выступают не интервью, очерки с мест событий или пресс-релизы, а данные. Именно они помогают проверить выдвинутые гипотезы, с их поиска и начинается работа над материалом.

Для начала нужно определиться, где и какие данные брать для анализа. Информация должна быть актуальной и полной, поэтому лучше проверить сразу несколько источников.

Как правило, журналисты используют открытые данные — официальные, со свободным и бесплатным доступом, опубликованные в интернете различными организациями или людьми. Одни данные уже структурированы по какому-то признаку и представлены в готовом машиночитаемом виде — то есть их можно скачать файлом и открыть в Excel или Word. Другие нужно собирать с общедоступных сайтов автоматически с помощью специальных сервисов.

Дата-журналисты обращаются к статистике с официальных сайтов государственных органов, справочной информации, опубликованным отчётам государственных и частных компаний о работе за определённый период и даже к информации из профилей пользователей соцсетей.

Борис Ги

Дата-журналист в РИА Новости

Если автор идёт от проблемы, поиск данных ведётся от общего к частному.

Обычно алгоритм такой:

  1. Сначала ищем данные Росстата и Единой межведомственной информационно-статистической системы (ЕМИСС). Как правило, хотя бы общие данные по большинству тем здесь есть.

  2. Смотрим на законы, стратегии развития и государственные программы. Узнаём, какие ведомства занимаются проблемой, если это не очевидно. Кроме того, в приложениях к стратегиям всегда есть целевые показатели и их текущие значения. Иногда это единственный открытый источник.

  3. Изучаем сайты нужных нам федеральных ведомств — Минздрава, Минкульта — и региональных. Далеко не все данные попадают в ЕМИСС, некоторые датасеты публикуются на ведомственных сайтах. Ещё нужные данные содержатся в отчётах и публикациях ведомств.

  4. Проверяем сайты отраслевых институтов, НКО, фондов, различных исследовательских проектов. Если данные указаны в перечне постановлений об открытых данных и должны собираться в рамках какой-то госпрограммы, но их нигде нет, делаем запрос в соответствующее ведомство, закон это позволяет. Запрос можно направить, даже если у ведомства нет обязанности публиковать данные, но в таких случаях шансов получить ответ значительно меньше. Запросы можно делать и в НКО, и в коммерческие организации. Как правило, они коммуникабельные и хотя бы самыми общими данными делятся.

  5. Для определённых задач можно анализировать бюджеты и госзакупки. Некоторые ведомства дают доступ исследователям по API. Хотя сейчас таких всё меньше.

  6. Бывают специфические задачи, которые требуют работы с текстами судебных решений, анализа соцсетей, парсинга данных из общедоступных источников. Но это, скорее, относится к варианту, когда журналист сначала исследует данные и понимает, что на их основе можно собрать материал.

Например, чтобы выяснить, кто и зачем приходит на Красную площадь, дата-журналисты Strelka Mag проанализировали 200 тысяч фотографий, опубликованных во ВКонтакте с соответствующий геометкой.

Приезжие фотографируют Красную площадь почти в 3 раза чаще москвичей
Приезжие фотографируют Красную площадь почти в 3 раза чаще москвичей

А для подготовки материала о важности самоизоляции в пандемию дата-журналист Андрей Дорожный использовал:

  • данные о возрасте населения и количестве мест в больницах с сайта Росстата;

  • исследование смертности от Covid-19 с сайта Национальной комиссии здравоохранения Китая;

  • статью о формах коронавируса из журнала National Science Review;

  • математическую модель прогнозирования развития пандемии с сайта Венского технического университета.

График показывает, в каком возрасте риск заболеть или умереть от коронавируса выше
График показывает, в каком возрасте риск заболеть или умереть от коронавируса выше
Борис Ги

Дата-журналист в РИА Новости

Данных вокруг нас очень много. Правда, большая часть из них не структурирована, и для сбора и предварительной обработки нужны определённые навыки.

Кроме сайтов госорганов, данные можно искать и в других источниках:

  1. Негосударственные хабы данных: Хаб открытых данных «Информационной культуры» и каталог данных «Инфраструктуры научно-исследовательских данных» (ИНИД). Первый плохо структурирован, большая часть данных — это те же госданные, но в машиночитаемом формате. В каталоге ИНИД данные качественные, но самих датасетов очень немного.

  2. НКО и фонды, которые собирают данные по социальным проблемам.

  3. Коммерческие компании: Циан, Domofond, 2ГИС, Яндекс Карты, где данные можно собрать, нарушая правила сервиса, легально купить или получить по запросу. Одни компании дают бесплатный доступ исследователям, у других — свободное API, но с рядом ограничений.

  4. Компании-реселлеры данных, такие как Dadata. У Dadata есть бесплатный тариф, который позволяет взять по API достаточно много данных. Но эти данные больше ориентированы на коммерческую аналитику, а не на журналистику.

  5. Соцсети и сервисы: ВКонтакте, YouTube, Spotify. У многих есть официальные API. ВКонтакте позволяет собирать огромное количество информации с минимальными ограничениями.

  6. Энтузиасты, которые собирают и выкладывают датасеты. Например: датасет объявлений о недвижимости.

  7. Сообщества, которые собирают негосударственные и некоммерческие открытые данные: Wikidata, OpenStreetMap и другие.

Однако важно помнить, что коммерческие, некоммерческие и любительские датасеты имеют ряд недостатков:

  • Мы не всегда можем верифицировать такие данные, проверить качество и добросовестность сбора.

  • Альтернативные данные часто недолговечны и неожиданно исчезают. А иногда они собраны с нарушением лицензий и законов, и поэтому ссылаться на них не всегда удобно.

  • Такие данные дополняют, но не всегда могут заменить государственные.

Например, данным о разводах или статистике смертности и рождаемости вряд ли можно найти замену. Можно взять данные о семейном статусе из ВКонтакте, данные запросов из Wordstat или Google Трендов, объявления о поиске адвоката по разводам и тому подобное. Но это лишь дополнит картину. Готовя материал о недвижимости, мы можем посчитать динамику цен, но данных из Росреестра это не заменит.

Обработка данных: исключаем дубли и ищем закономерности

Будь то сырые данные, собранные автоматически, или официальный отчёт с сайта Росреестра — информацию важно проверить на несоответствия и ошибки. Пропуски, дубли, неправдоподобные цифры и опечатки могут повлиять на правильность выводов, ради которых журналист искал эти данные.

Борис Ги

Дата-журналист в РИА Новости

Ошибки в отчётах — это частое явление. Поэтому любой датасет нужно проверять: смотреть на типы данных, корректность выгрузки разделителей, дробей и так далее. Иногда это не ошибка выгрузки, а опечатка — тогда стоит поискать второй источник или восстановить данные логически. Если данные собраны в разное время или берутся из сборников Росстата, они могут немного отличаться. Это не ошибки, а поправки и уточнения — в этом случае я всегда беру более поздний вариант.

После очистки данные нужно упорядочить и структурировать — в сервисах электронных таблиц это можно сделать с помощью специальных формул и функций.

Теперь информацию будет проще анализировать:

  • сравнивать,

  • выявлять закономерности,

  • вычислять,

  • формулировать выводы.

Это фрагмент статистической таблицы Выборочного наблюдения трудоустройства выпускников с сайта Росстата — данные уже структурированы, осталось проверить на ошибки и можно анализировать
Это фрагмент статистической таблицы Выборочного наблюдения трудоустройства выпускников с сайта Росстата — данные уже структурированы, осталось проверить на ошибки и можно анализировать

На основе данных дата-журналист делает выводы, которые подтверждают или опровергают его гипотезу, показывают тренды, контрасты и скрытые взаимосвязи, которые самому читателю было бы сложно заметить.

Создание дата-истории: понятные выводы и яркие графики

Теперь найденные инсайты нужно представить в виде истории — рассказать о них понятным языком и визуализировать данные с помощью схем, графиков и диаграмм.

Вот как данные из таблицы Росстата выше визуализировала редакция Т—Ж
Вот как данные из таблицы Росстата выше визуализировала редакция Т—Ж

Иногда дата-журналист работает в команде с дизайнером и может поручить создание картинок для статьи ему — нужен будет набросок и ТЗ. Но в любом случае визуальную часть дата-историй стараются делать понятной, качественной и красочной, чтобы легче воспринималась и запоминалась.

Борис Ги

Дата-журналист в РИА Новости

Сейчас есть тренд на максимально простые и понятные визуализации: обычные линейные графики, столбики или линейчатые диаграммы, даже карты, в основном плиточные. Они рассчитаны на быстрое, почти моментальное считывание. Несколько лет назад были популярны скролителлинг, всплывающие подсказки, интерактив. Сейчас этого почти нет. Скролителлинг — это сочетание скроллинга и сторителлинга, когда пользователь читает текст по мере прокрутки анимированной страницы.

Кропотливый и сложный процесс создания дата-материала требует многих навыков и умений на стыке нескольких профессий. Но итоговый результат может стать уникальным и выделит публикацию на фоне других журналистских работ. Дата-журналистами обычно становятся журналисты, аналитики, контент-маркетологи, product- и project-менеджерам, PR-специалисты и медиаменеджеры. Но попробовать может любой, кто чувствует к этому склонность.

Комментарии (1)


  1. IvanSTV
    10.06.2022 10:09
    -1

    Очень неплохой обзор.

    Я занимался чем-то подобным, но в плане поиска и обработки исторической статистики. Но в истории все это сложней - основной корпус источников не оцифрован, а если оцифрован, то не в машиночитаемом виде. Но не это главная проблема - главная проблема в основном в том, чтобы правильно определить

    • сам корпус источников

    • его достоверность

    Потому отпадают и соцсети, и энтузиасты с датасетами, и конторки. Максимум источников, которые можно автоматически собирать - это поиметь историческую статистику от государственных органов (типа демографической), но тоже за ограниченный исторический период.

    Там редко бывает проблема с задвоением, постольку поскольку первичный анализ из-за немашинной обработки (ручками и глазками) это отсекает сразу, многомиллионные массивы данных также не встречаются. Обычно все обработано до нас. Но математическая статистика - запросто. Например, в книге Валентин Васильевич Седов "Славяне в древности" очень досконально и алгебраически анализируется частота археологических находок, распределение, вероятностность, сейчас бы такие расчеты я бы программно или тем же Экселем сделал. Много косвенных видов анализа (например, демографические оценки до петровской переписи в18 ека делаются исключительно на косвенных и экстраполяциях- объем налогообложения, количество хозяйств, средний размер хозяйства (по доступным источникам), размер рекрутируемого на те или иные работы, объем торговли, археологическая статистика и т.д. ).