По данным аналитической компании IDC, в 2020 году в мире было произведено более 64 зеттабайт данных (для справки: 1 зеттабайт равен 10²¹ байтов). По прогнозам, к 2025 году объем всех данных в мире составит 175 зеттабайт. Важно подчеркнуть, что эта тенденция растет, и правильное использование данных может сыграть решающую роль в развитии многих отраслей.  Глобальный рост объема информации еще раз подчеркивает незаменимость и актуальность профессий по работе с анализом данных.

Привет, Хабр! Меня зовут Алексей. И вот уже около 2 лет я работаю в компании Мегапьютер аналитиком данных. А есть еще одна профессия, связанная с обработкой данных – это Data Scientist.

В 50% статей в интернете написано, что аналитик данных и Data Scientist (датасаентист) это одно и тоже, а другие 50% - за абсолютную разницу данных профессий. Одной из ключевых задач аналитика является обработка данных, такая же задач стоит и перед Data Scientist. Я решил понять к какой профессии я больше отношусь и почему.

Разбираемся. Big Data Analyst переводится как аналитик больших данных, кем я работаю, а Data Scientist  переводиться как специалист по изучению или обработки данных. Яндекс Практикум дает такую формулировку и разбивает способности на такие критерии. Отличия аналитика данных от data scientist: в чем разница между специальностями (yandex.ru)

Буду рассказывать о себе опираясь на данную таблицу.

Образование у меня техническое, специальность - защита информации. Прошел обучение по работе в системе по аналитике данных PolyAnalyst. Программирование я не изучал, что мне и не требуется. Математическими знаниями обладаю.

На работе занимаюсь анализом больших объемов информации, предоставляемых компанией. Аналитические выводы визуализирую и выстраиваю графики в BI системе компании. Python не знаю и данные в нем не обрабатываю.

Датасайентист выполняет обработку разнообразных данных. Данные, с которыми он работает, условно можно разделить на несколько ключевых групп.

1. Структурированные данные представляют собой фактическую и точную информацию. Чаще всего они представлены в форме букв и цифр, которые хорошо вписываются в строки и столбцы таблиц. Структурированные данные обычно существуют в таблицах, подобных файлам Excel или Google Sheets. К структурированной информации относят данные, полученные из кассового аппарата либо из других устройств.

2. Полуструктурированные данные — это подвид структурированных данных. К ним относятся сообщения, которые приходят на электронную почту, статистические данные из определенных трекеров событий.

3. Неструктурированные данные не имеют заранее определенной структуры и представлены во всем разнообразии форм. Это видео, звук, изображения. В том числе это и текстовые файлы, например DOC или PDF. Один из видов неструктурированной информации — это посты в социальных сетях.

Из-за того, что большая часть информационных данных не структурирована, есть некоторые сложности с анализом. И для достижения требуемого результата Data Scientist применяет машинное обучение (Machine Learning)  и глубокое обучение (Deep Learning) либо же иные технологии. Это позволяет отыскивать требуемые данные, а также определять скрытые закономерности. Я в своей работе тоже использую все типы данных, только прогнозы не строю, агрегирую, свожу и обрабатываю данные в настоящем моменте. Результаты своего анализа вывожу на дашбордах аналитической платформы PolyAnalyst.

Остался последний пункт для сравнения – Soft skills (гибкие навыки). Что это такое? Выясняем.

Ги́бкие или надпрофессиональные на́выки (также англ., soft skills) — комплекс умений общего характера, тесно связанных с личностными качествами.  Они включают умения организовывать командную работу, вести переговоры и договариваться с коллегами, креативность, способность учиться и адаптироваться к изменениям. 

Аналитическая работа часто предполагает работу в команде, особенно над крупным проектом, взаимодействие  с другими сотрудниками, сбор информации для анализа. Адаптация и умение договариваться просто необходимы для коммуникации с клиентом, возможности понять цели и задачи проекта, требования и пожелания к работе над ним. Гибкими навыками тоже обладаю.

Подводим итоги: я получился 100% аналитик данных по всем заявленным данной таблицей критериям, так как у меня есть все профессиональные компетенции, необходимые для успешной работы в своей области.

Наш прогрессивный мир не стоит на месте. И чтобы быть востребованным на волне развития, чтобы привнести в свою работу прогрессивные методы анализа, нужно постоянно учиться новому и получать инновационные знания.

Сейчас читаю книгу «Измеряйте самое важное» Джон Дорр и прохожу курс «Основы работы с DataLens».  

Комментарии (5)


  1. vtal007
    17.04.2023 12:14
    -1

    Это кто Вас обманул, когда сказал, что для аналитика данных не требуется программирование?

    Сейчас на любых курсах по аналитике данных есть питон и SQL. А то, что Вы описали как продвинутая визуализация, так это не у аналитики данных, а у BI-аналитиков (хотя и тем надо знать хотя бы SQL)

    А сейчас я Вам расскажу, что Вы не то что не аналитик данных, Вы даже не аналитик

    Вот возьмем эту цитату

    1 .Яндекс Дзен дает такую формулировку и разбивает способности на такие критерии. Отличия аналитика данных от data scientist: в чем разница между специальностями (yandex.ru)

    При этом Вы даете ссылку на пост яндекс-практикума.. Причем тут Дзен?

    1. Момент, на картинке и правда написано что не требуется знание программирование, но тот же яндекс-практикум учит и питону и SQL. Причем довольно неплохо то учит. Ну и все остальные курсы по аналитике данных - везде есть питон и SQL


    1. LordDarklight
      17.04.2023 12:14

      Немного странная статья - там по ссылке в преамбуле практикума от Яндекса всё куда более подробно и, можно сказать, точнее изложено. И там ключевая фраза

      Главное отличие аналитика данных от специалиста по Data Science в том, что аналитик не владеет навыками машинного обучения, поэтому сам обрабатывает данные

      и находящаяся чуть выше диаграмма вложения.

      То что на яндекс-практикуме на аналитиков учат программированию, в т.ч. на SQL, это всё правильно (настолько же - как этому, скажем, учат в старшей школе или на первых (и более старших) курсах института (понятно, что в школе и на первых курсах этому учат достаточно поверхностно и не всегда, но не суть - тут важен сам факт). А уже далее аналитик в своём развитии угубляется в ту или иную специфику с применением тех или иных инструментов - а по анализу данных сейчас много инструментов по NoCODE идеологии. Ну и дата аналитик может далее развиваться как дата сейнтист - как нечто более глобальное, судя по диаграммам Яндекса, и мне сложно с этим не согласиться - но скорее это нужно воспринимать просто как некое отдельное ответвление - т.е. углубляться в большие данные можно по-разному и инструменты, которые нужно будет углублённо осваивать, для этого могут требоваться разные! Ранее анализом данных занимались и без всякого программирования - сейчас, стало просто больше возможностей, но не обязанностей в освоении того или иного механизма анализа и обработки данных! Да, обычно, чем выше должность - тем меньше программирования, а больше именно анализа.

      Ну а сам пост автора, на мой взгляд, больше тянет на кукуют-то часть рекламной компании тех самых практикумов от Яндекса - хотя завуалировано всё очень хорошо, и если я прав - то снимаю шлюпу с маркетологов, проработавших такую концепцию ненавязчивого продвижения. Но я на 98% воспринимаю эту стать чисто как рекламу для перехода на ссылку описания яндекс-практикума! Допускаю, что статью на хабре и описание практикума писала одна и та же команда, может и автор статьи на хабре к ней и отношения не имеет.

      Но прошу прощения за свои догадки, никого не хотел этим обидеть. Это исключительно моё мнение!


    1. MegaAlex23 Автор
      17.04.2023 12:14

      С Дзеном описка вышла.


  1. asantat
    17.04.2023 12:14

    Рекомендую внести некоторые правки (пунктуация, грамматика). По стилистике тоже многое следовало бы подправить.

    – это Data Scientist.
    "это" не нужно

    (датасаентист), это одно и тоже
    (датасаентист) - это одно и то же

    50% за абсолютную
    50% - за абсолютную

    решил понять к какой профессии
    решил понять, к какой профессии

    аналитик больших данных кем я работаю
    аналитик больших данных, кем я работаю

    а Data Scientist переводиться как
    а Data Scientist - как (или оставьте без мягкого знака, "переводится", т.к. глагол отвечает на вопрос Эчто делает?")

    специалист по изучению или обработки данных
    специалист по изучению и обработке данных

    Яндекс Практикум дает такую формулировку и разбивает способности на такие критерии
    Яндекс Практикум дает такое определение, сравнивая необходимые для этих специальностей навыки (критериев в строгом смысле слова здесь нет, как и описания способностей)

    Это только первые три абзаца, которые попадают в превью статьи.


    1. asantat
      17.04.2023 12:14
      +1

      Ввиду того, что кто-то минуснул, есть люди, которые предпочитают читать материал с грубыми ошибками.