Сегодня часто говорится о востребованности и даже явной нехватке специалистов в области «больших данных». Причем не только у нас в стране, но и в Европе и Соединенных Штатах. Многие университеты объявили программы, с помощью которых обещают подготовить таких специалистов. С некоторым опозданием начали этот процесс и в России, но пройдет немало времени, прежде чем страна получит профессионалов по новой специальности. А как быть, если профессионалы в сфере «больших данных» нужны прямо сейчас? Как складывается и где приобретается такой опыт? Какие задачи приходится решать? На все эти вопросы мы попросили ответить Анатолия Корзуна, архитектора программных решений для обработки «больших данных» (Big Data Solution Architect) в компании Huawei.
Анатолий, вы сравнительно недавно пришли в компанию Huawei на должность архитектора программных решений для обработки «больших данных». Где удалось наработать опыт специалиста в области «больших данных», где готовят таких специалистов?
АК: Да, действительно, я пришел в компанию Huawei сравнительно недавно, в ноябре прошлого года. До этого я много лет работал в компании Comverse, имеющей отношение к телекоммуникациям. Работал я преимущественно в должности архитектора решений и в должности руководителя отдела разработки. Сейчас этой фирмы уже нет, ее купила компания Amdocs.
Когда вы начали заниматься технологиями «больших данных»?
АК: У меня был перерыв в работе в телекоммуникационном секторе, в частности, в 2012 году я работал в стартапе, который занимался построением решений для продвижения рекламы в Интернете. Это тот бизнес, который раньше других обратился к технологии «больших данных». В этом направлении работают такие известные компании, как Google, «Яндекс», Mail.ru, но на этом рынке много и начинающих компаний. Во многих вопросах продвижения рекламы в Интернете без технологии «больших данных» просто не обойтись. В то время я руководил командой разработчиков, которая занималась обработкой больших массивов данных с помощью технологии Hadoop. Эта технология была относительно новой, и многие вопросы приходилось решать, что называется, методом проб и ошибок.
Прежде чем стать руководителем разработки в упомянутом стартапе, у вас уже был какой-то опыт по работе с «большими данными»?
АК: Работая в проектах, связанных с «большими данными», я нашел много аналогий с тем, с чем я работал раньше. И это неудивительно. Надо сказать, что многие идеи, которые заложены в решениях по обработке «больших данных», существовали и прежде, до того как термин Big Data («большие данные») получил широкое распространение.
Для решения каких задач вас пригласили в компанию Huawei?
АК: Компания Huawei имеет свою платформу для «больших данных», которая ориентирована на крупных корпоративных клиентов, в первую очередь из телекоммуникационного и финансового секторов. Речь идет о платформе для обработки «больших данных» FusionInsight, на основе которой могут строиться решения для конкретных бизнесов.
Следует отметить, что Huawei является поставщиком широкого спектра решений, начиная с базового уровня аппаратного обеспечения и заканчивая высокоуровневыми бизнес-приложениями. И можно сказать, что платформа «больших данных» — один из слоев в этом стеке.
Если говорить о приложениях на основе FusionInsight, то необходимо отметить, что для телеком-сектора Huawei предлагает целый ряд продуктов и решений. И на мой взгляд, проблема Huawei не в том, что у нее не хватает решений, а скорее, наоборот, в том, что их очень много, и они подготовлены разными подразделениями нашей огромной компании. Возникает проблема перекрытия функциональности, которая создает сложности по выбору конкретного продукта не только для заказчика, но и для продавца.
А какими продуктами приходится заниматься лично вам?
АК: Сейчас в московском офисе мы ориентированы на продвижение продукта Universe, который работает поверх FusionInsight и позволяет типичному оператору связи решать проблемы, связанные с обработкой «больших данных». В конце апреля этого года в московском офисе был развернут кластер FusionInsight с установленным поверх этой платформы продуктом Universe. Заинтересованным заказчикам мы можем продемонстрировать платформу и продукт Universe.
То есть кластер построен совсем недавно. Есть ли интерес со стороны клиентов? Удалось инициировать какие-то проекты?
Есть ряд пилотных проектов для крупных заказчиков. Я не могу называть конкретные имена, скажем так, что это два оператора из «большой тройки» и крупнейший российский банк.
АК: Один из проектов для телеком-оператора заключается в построении решения, которое позволяет идентифицировать M2M-устройства на основе анализа CDR-логов (Call Data Records), которые генерируются сетевыми и другими элементами телекоммуникационной инфраструктуры оператора связи.
А для чего их нужно идентифицировать?
АК: В сети телеком-оператора могут использоваться различные терминальные устройства. При этом одни из них, такие как телефоны, смартфоны, планшеты, используются человеком, а другие, например камера видеонаблюдения, могут функционировать без участия человека и относиться к классу М2М-устройств. То есть существует класс терминальных устройств, которые, как и обычный телефон, имеют сим-карту, позволяющую выходить в радиосеть, связываться с базовой станцией, но не являются при этом телефоном. В принципе для таких устройств операторы могли бы предлагать отдельные тарифы, поскольку структура трафика этих устройств может существенно отличаться от трафика обычных телефонов. Та же видеокамера не использует голосовой трафик, а только передает данные. Причем передача данных тоже может иметь свою специфику. Видеокамера — это лишь один из примеров. Таких устройств может быть довольно много. И перед оператором стоит задача: на основе паттернов поведения обслуживаемых устройств определить их принадлежность к категории «телефоны, смартфоны, планшеты» или «М2М-устройства».
Почему клиенты, о которых вы говорите, обратились именно в Huawei?
АК: Я бы не сказал, что операторы «большой тройки» ходят за вендорами. Скорее вендоры, которые что-то могут предложить на этом рынке, осаждают телеком-операторов с разных сторон. Причем ведущие телеком-операторы располагают и достаточно мощными собственными ресурсами.
Я меньше знаком с возможностями «Ростелекома» и TELE 2, но говоря об операторах «большой тройки», могу сказать, что они занимаются проектами «больших данных» уже как минимум два-три года и у них есть и технические средства, и персонал для построения решений в этой области.
При этом «большие данные» — это не основной бизнес для телеком-операторов, а лишь инструмент, и они не так охотно рассказывают о своих решениях. И даже выступая на многочисленных конференциях, обходятся без конкретики и, конечно, не раскрывают своих ноу-хау.
Можно ли сказать, что решения Huawei, связанные с «большими данными», в первую очередь адресованы телекоммуникационному сектору?
АК: Huawei предлагает законченное решение в области телекома и платформу для «больших данных». Платформа по обработке «больших данных» так же, как, например, реляционная база данных, может обрабатывать разные данные и использоваться для разных задач. А поверх платформы для «больших данных» может использоваться специализированное решение для телекоммуникационных компаний.
В чем сильные стороны платформы для «больших данных» Huawei?
АК: Это платформа проверена на практике в крупных китайских компаниях. А крупная по китайским меркам компания — это действительно крупная компания, которая обладает средствами обеспечения надежности, сохранности и защищенности данных. Среди клиентов Huawei такие гиганты, как China Unicom, China Merchant Bank, Industrial Bank of China.
А что Huawei делает для банков в России?
АК: Я упомянул пилотный проект для ведущего российского банка. Там рассматривается задача перехода от стандартного хранилища данных к хранилищу на основе технологий «больших данных». Сейчас ODS-хранилище (Operational Data Store) этого банка позволяет хранить историю данных за один месяц. В обозримом будущем из-за роста объема данных ODS позволит хранить данные лишь за две недели. Расширение возможностей упомянутого ODS связано с существенными финансовыми затратами и принципиальными техническими ограничениями. А целевой показатель, озвученный руководством банка, предписывает хранить данные семь лет. То есть здесь, очевидно, необходимо переходить на технологию «больших данных», которая при относительно доступной стоимости имеет практически неограниченные (с технической точки зрения) возможности масштабирования. При проектировании архитектуры данного пилотного проекта нам пришлось решить ряд технических проблем, связанных с интеграцией традиционных реляционных баз данных и платформы для обработки «больших данных». Сложности были вызваны тем, что, во-первых, сопряжение с платформой для «больших данных» не должно оказывать влияния на существующую систему. Во-вторых, заказчик хочет, чтобы изменение в их основной системе отражались в историческом архиве в режиме, близком к режиму реального времени.
Какой деятельностью приходится заниматься непосредственно вам в проектах, связанных с «большими данными»?
АК: Я бы разделил эту работу на три части. Первое — это высокоуровневые презентации для заказчиков. Второе — это работа с заказчиками по выявлению их потребностей, связанных с обработкой «больших данных», формализация их в технические требования, проецирование этих требований в конкретные архитектурные решения на базе платформы FusionInsight. И третье — это прототипирование и апробирование конкретных решений в нашей тестовой лаборатории.
Говоря о специалистах, необходимых для работы с «большими данными», часто упоминается специализация «инженер-программист по обработке данных» (data scientist), она же отмечается как одна из самых привлекательных и востребованных профессий в мире. Кто такой инженер-программист по обработке данных? Вы себя можете причислить к этой профессии?
АК: Инженер-программист по обработке данных — это человек, который работает с данными и задача которого извлекать закономерности из набора этих данных. Существуют также специалисты, которые обслуживают более низкий уровень стека решения, то есть обеспечивают технологии хранения и обработки этих данных. Но на практике провести границу между одним и другим слоем бывает достаточно трудно. И одному специалисту часто приходится совмещать знания, необходимые для обеих ролей.
Говоря о моей работе, в одних проектах я выступаю в большей степени как инженер, занятый в построении решения по обработке данных, а в других, как, например, в упомянутом мною проекте по идентификации M2M-устройств, я в том числе занимаюсь выявлением закономерностей в «больших данных», которые позволяют выявить устройства класса М2М.
Какой совет можно дать сегодняшней молодежи, как стать специалистом в области «больших данных», как приобрести дефицитную специальность, которая позволит заниматься интересной работой и которая, как прогнозируют аналитики, будет только расти по востребованности?
АК: С моей точки зрения, любой человек с базовым ИТ-образованием может стать специалистом в области «больших данных». Есть такая возможность и в компании Huawei. К нам можно прийти на работу на базовую ИТ-позицию, и в принципе в компании достаточно много перспектив для роста: можно пройти соответствующие курсы, получить опыт в работе над проектами в области «больших данных». Со временем возможен переход из одного подразделения в другое, где можно более прицельно заниматься проектами по обработке «больших данных».
Поделиться с друзьями