Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Они частично математики, частично компьютерные ученые и частично трендспоттеры.

Data Scientist требует реальных и практических знаний методов статистического анализа данных, навыков построения математических моделей (от нейронных сетей до кластеризации, от факторного до корреляционного анализов), работы с большими массивами данных и уникальной способности находить закономерности. Но это все лирика. Давайте теперь по делу.

Средняя зарплата в США Data Scientist — 91 тысяча $ в год. А вот график зависимости заработка от опыта работы.


Данные PayScale

В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов.

Как сказал DJ Patil, бывший главный научный сотрудник отдела научно-технической политики Соединенных Штатов, — «Data scientist — это специалист с уникальным сплавом навыков, который делает удивительные находки и воплощает фантастические истории — и все это благодаря данным».

Чем на самом деле занимаются специалисты по Big Data? Они постоянно сталкиваются с ограничениями — техническими, методологическими и любыми иными — и находят пути для новых решений. Совершают открытия, анализируя и прогнозируя. В Data Science есть место и творчеству: специалисты изобретают элегантные решения сложных задач, а также качественно визуализируют информацию, делать шаблоны понятными и убедительными.

Пример из жизни Data Scientist: «Джонатант Голдман, физик из Стэнфорда, устроился на работу в социальную сеть LinkedIn, и начал заниматься чем-то, что нельзя было измерить в KPI или посмотреть на конечный результат: сайт, исправление бага, внедрение фичи. Пока команда разработчиков ломала голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строил прогностическую модель, которая подсказывала владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым. Убедив руководство компании опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост».

Нет определенного описания этой профессии — все зависит от сферы применения навыков работы с данными. Однако, есть вещи, которыми занимается любой Data Scientist:

  • Сбор большого количества неуправляемых данных и преобразование их в более удобный формат.
  • Решение бизнес-задач с использованием данных.
  • Работа с различными языками программирования, включая SAS, R и Python.
  • Работа со статистикой, включая статистические тесты и распределения.
  • Использование аналитических методов, таких как машинное обучение, глубокое обучение и текстовая аналитика.
  • Сотрудничество с ИТ и бизнесом в равной мере.
  • Поиск порядка и шаблонов данных, а также выявление тенденций, которые могут помочь в достижении конечного бизнес-результата.

А вот термины и технологии, которые надо знать будущему Data Scientist:

  • Визуализация данных: представление данных в графическом формате, чтобы их можно было легко проанализировать.
  • Машинное обучение: отрасль искусственного интеллекта, основанная на математических алгоритмах и автоматизации.
  • Глубокое обучение: область изучения машинного обучения, которая использует данные для моделирования сложных абстракций.
  • Распознавание образов: технология, которая распознает шаблоны в данных (часто используется взаимозаменяемо с машинным обучением).
  • Подготовка данных: процесс преобразования необработанных данных в другой формат, чтобы их было проще потреблять.
  • Текстовая аналитика: процесс анализа неструктурированных данных для получения ключевых бизнес-идей.

Помимо прочего, нужно знать и понимать:

  • Статистику и машинное обучение.
  • Языки программирования SAS, R или Python.
  • Базы данных MySQL и Postgres.
  • Технологии визуализации данных и отчетности.
  • Hadoop and MapReduce.

Вот здесь можно прочитать, как Beeline проводит собеседование на Data Scientist в своей компании: «Процесс начинается с телефонного интервью с вопросами по некоторым разделам математики. После кандидата ждёт тестовая задача — конкретная задача машинного обучения, аналогичная задачам на kaggle.com. Построив хороший алгоритм и получив высокое значение метрики качества на тестовой выборке, кандидат допускается до следующего этапа — непосредственного собеседования, на котором проверяется знание методов машинного обучения и анализа данных, а также задаются нетривиальные вопросы из практики и задачи на логику».

И да, в Data Scientist можно попасть не с нуля, но с хорошей базой. Вот что пишет физик, выпустившийся из университета, и променявший науку на Big Data: «Контора, которая называется Bidgely, предложила мне позицию Data Scientist с окладом $130k в год грязными (примерно $7400 в месяц чистыми): работать в офисе, расположенном в городке Sunnyvale, что в Кремниевой Долине, в паре километров от штаб-квартир Google, Linkedin, Apple». В январе он подумал, что надо уходить в Data Science, а уже в октябре работал в США, выпустившись из университета в июне.

Итак, вы уже поняли, что Data Scientist — человек, умеющий не только добывать и анализировать, но и обрабатывать большие массивы данных, совершая поистине волшебство с помощью множества инструментов. Если вы хотите заняться Data Science по-настоящему, то заготовьте не просто Excel, но и знания по Python, учебник по математическому анализу, и готовьтесь учиться.

Ну, и в конце мы просто хотели вас порадовать. Вот полезные ссылки. Первая — с 51 бесплатной книгой, связанной с Data Science. А вот крупнейшее Data Science сообщество. Еще есть отличный учебник Петера Флаха «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», переведенный на русский язык.

От редакции


Если вы хотите стать Data Scientist, то советуем записаться на наш очный курс, длящийся 5 месяцев. После обучения вы получите диплом о профессиональной переподготовке по специальности «Аналитик данных/Специалист по машинному обучению». Преподаватели — реальные специалисты из Yandex Data Factory, OWOX, Rambler, Сбербанк-Технологии, Microsoft, МТС и другие. Все обучение построено не только на теории, но и на обязательной практической отработке. Поэтому после очного курса вы выйдете подготовленным специалистом, который может пойти в любую интересную ему сферу: ритейл, банки, стартапы, ИТ, телеком. Все подробности здесь.
Поделиться с друзьями
-->

Комментарии (8)


  1. lash05
    19.05.2017 16:49
    +2

    частично компьютерные ученые и частично трендспоттеры
    — «непонятно» + «непонятно и непереведено»…


  1. AIxray
    19.05.2017 20:50
    -1

    рассмотрю вакансию начинающего по big data. Благодарю за обратную связь.


    1. Here_and_Now
      20.05.2017 14:43

      Со стартом в 90к)


      1. SADKO
        22.05.2017 10:55

        Ну, а что вас так смущает, как по мне так Data Scientist на зарплате — своего рода ясновидящая гадалка, ибо обладай она реальным талантом, играла бы в казино\биржу и горя не знала…
        … к стати кейс с биржей вполне реален, по личному опыту знаю, простая же вроде задачка, только вот сайенс, ребятки это наука, а никак не тупо инженеринг, в этом наверное и ошибка моих рассуждений, ибо сколько знаю людей «живущих с рынка» в общих чертах все делают одно и тоже, и что бы жить хорошо надо быть в чём-то лучшим, ибо просто умников много, а на зарпляте быть может тем и интересно что работодателю ты продаёшь прописные истины, которым грош цена в базарный день :-)
        Только вот не надо эту перепродажу прописных истин наукой называть, ладно, наука это когда ты на старости лет лезешь в фундаментальные разделы математики которые казалось бы и отношения то к делу не имеют, а потом пилишь свои библиотеки аналогов которым не знает даже дед Фортран…
        … когда ты находишь что-то действительно новое, это называется наука


        1. Here_and_Now
          22.05.2017 12:15

          Ну я несерьезно написал про стартовую зарплату. А вы в какой-то степени неправы.

          Возможно название Data Science не имеет прямого отношения к науке, но то, что такие специалисты продают прописные истины — неправда. Они продают Know-How. А в рамках серьезного бизнеса с хорошим объемом данных построение систем на основе машинного обучения — задачка на годы.


      1. netologyru
        23.05.2017 15:17

        «В России цифра составляет от 60-70 тысяч рублей в месяц для совсем «зеленых» новичков и доходит до 220 для опытных специалистов».


  1. lesha_spb
    23.05.2017 15:19

    Коснусь немного зарплат, т.к. за 2 месяца изучил рынок Санкт-Петербурга, пока был в поисках работы.

    Сегодняшние реалии в широком сегменте позволяют рассчитывать на 50-80 т.р. на руки. И это не из-за того, что работодатели готовы довольствоватся «начальным уровнем», а потому что бизнес зажат в определенной нише зарплат. Больше просто не готовы платить.

    На бОльшие зарплаты (порядка 100...120+) можно рассчитывать либо в крупных компаниях, либо в IT сегменте, где уровень в целом высокий. Такие зарплаты, как правило, явным образом не светят.

    За сегмент 150+ говорить не готов…

    Повторюсь, что это характерно для СПб. Допускаю, что в столице можно прибавить ~20%, а в других городах отнять 20%-50%.

    p.s. в итоге, с некоторым сожалением, которое компенсировала разница в зарплате, ушел на бизнес-аналитика.
    p.p.s. Data Scientist — работа и вправду интересная, творческая :)


  1. uaSaint
    23.05.2017 15:19

    Курс на нетологии судя по темам выглядит интересным (сам сейчас учусь на специализации от МФТИ и Яндекс, на coursera и курсах Статистики и Нейронные сети, на stepik). Но цена… Живу в Донецке и эта сумма даже рабитая на 6 месяцев совершенно не подъемная...