Откуда берется применение ML в России на гос.уровне? / forpes.ru

Главная
Откуда берется применение ML в России на гос.уровне?

Откуда берется применение ML в России на гос.уровне? +2

08.08.2020 15:27

Ant0ny_12 10 4700 Источник

Предисловие

Всем привет!

Вопрос в заголовке не риторический, мне правда интересно. Если вдруг кто-то знает на него ответ просьба написать в комментариях, возможно я пытался зайти не с той стороны.

Так же уточняю, что у меня нет цели на кого-то нажаловаться поэтому в ответах из министерств я убрал все печати с именами и подписи ответственных чиновников. Мне интересно разобраться в том, как эта система работает.

С чего все началось?

Все началось с того, что в конце 2019 я понял, что в своей предыдущей области проф.деятельности достиг некого пика и дальше развитие в этой области мне:

не интересно
оно возможно, но, полностью соответствует принципу Парето где мне надо было бы потрать очень много усилий ради призрачных перспектив, да еще и не таких желанных, как мне казалось в начале пути.

Благодаря одной знаменательной посиделке у друзей я понял, что давнее, заглушаемое по разным причинам желание — «пойти в айти» а именно в ML и конкретно у меня может получиться. Не буду расписывать то как я учился, но это было реально интенсивно, продуктивно и главное увлекательно, настолько что мне приходилось себя заставлять отдыхать. В итоге я пошел ва-банк. Уволился со старой работы и посвятил почти все освободившееся время учебе.

Со временем начал задумываться о поиске работы в новом полюбившемся деле, но тут началась история с Covid. Так же, не секрет что машинное обучение в последнее время стало очень модной темой и как следствие на рынке труда появилось значительное количество соискателей на позиции джунов/стажеров в области ДС. В совокупности эти 2 фактора, лично для меня означали, что даже с неплохими результатами в нескольких компетишенах для работодателя я всего лишь один из множества таких же, как и я новичков в области и шансов даже просто дойти до этапа собеседования у меня мало.

Поразмыслив и поняв, что единственное чем я могу выгодно отличиться от остальных — это наличием хороших проектов, я начал искать тему для первого проекта. Когда я только начинал изучать ML меня прямо распирало от количества идей, но к моменту выбора темы проекта этих идей стало меньше, так как уже немного вникнув в специфику я начал думать слегка по-другому — «ага, тут идея хорошая, но open CV не подойдет из-за его предварительной обученности а учить свою у меня не хватит ресурсов и данных, только если не брать GAN сеть и не генерить изображения с её помощью. А тут ограничения по запросам к бесплатному варианту API и что бы выгрузить нормальный датасет нужно либо много времени, либо деньги» ну и так далее.

Решив пойти с другого конца, я вернулся на Каггл, открыл датасеты, отранжировал по «горячести» и тут меня осенило. Ковид же на дворе! Что может быть лучше — сделать не просто проект, а проект на хайповой теме! Тут меня наверняка заметят и оторвут с руками. Так я тогда думал. Ага, щазз.

Забегая вперед не могу не отметить, что несмотря на все мои небольшие, но преимущества, мои отклики на хх либо откровенно игнорировали, либо вежливо отвечали отказами даже на те вакансии на которые меня порекомендовал внутренний сотрудник компании. Всего за месяц поиска работы откликов с моей стороны было штук 70 и кажется 3 собеседования после которых я сам принимал отрицательное решение. Не знаю в чем конкретно было дело в каждом отдельном случае, но подозреваю что дело в возрасте (30+), отсутствии профильного образования/опыта и кривоватых проектах.

Но конкретно эта история поиска работы с хорошим концом — меня сам нашел на хх мой текущий руководитель, я быстро прошел этапы собеседований и теперь я занимаюсь аналитикой в том числе и с применением МЛ и мне это очень нравится. Более того за это мне еще и платят! В лицо я своему руководителю это, наверное, не скажу в силу своей определенной интровертности, но спасибо тебе огромное, если ты это вдруг прочтешь)

Ну да ладно, меня слишком занесло в сторону лирики. Ближе

К делу

Раздобыв все на том же каггле датасет (https://www.kaggle.com/parthachakraborty/pneumonia-chest-x-ray) я написал небольшую sequential сеть с точностью порядка 85%. Взял я в итоге датасет именно с пневмонией в целом, а не с пневмонией вызванной ковидом потому что сетов с значительным количеством фотографий именно с COVID-19 тогда я не нашел, а про методы аугментации я на тот момент знал немного.

Удачным образом я вспомнил что у меня есть знакомый рентгенолог, с помощью которого я узнал некоторые детали по поводу отличий диагностирования пневмонии по снимках КТ и методами рентгенограммы. Так же я скинул ему классифицированные моделью снимки, которые взял с просторов паутины по запросу «рентгеновские снимки легких зараженных пневмонией». Результаты получились чуть хуже, чем я предполагал. Так, на нескольких фотографиях которые сеть восприняла за бактериальную пневмонию на самом деле был туберкулез которого просто не было в обучающей выборке, но в остальном процент ошибок соответствовал model.score(X_valid, y_valid).

Я был окрылен. Еще бы, я занимался настоящим дата сайнсом, а не делал 70-ый сабмишн в попытках прорваться в топ 1%, прогнозируя цены в Мельбурне. Не удивлюсь, если узнаю, что у тамошних риелторов начинается приступ икоты при попытке оценить какой-нибудь дом. Извините, не удержался.

В общем я был воодушевлен, отправил свежий десяток откликов и … опять ничего.

Когда мне в голову пришла эта идея, я не могу сказать, что я руководствовался исключительно благими намерениями вроде миру-мир, спасем бедных и другими. Нет, у меня была цель максимально быстро найти работу и для этого мне нужно было выделиться в положительном ключе из толпы таких же «хочу в МЛ».

Но, при этом, проходя в свое время подростковый кризис «зачем мы здесь» и будучи атеистом, я определил для себя свое кредо – что я хочу сделать мир лучше, т.к. остальное, в моем понимании не имеет реальной ценности в больших масштабах. Идеалистично и наивно? Да, это так и то, что я сделал и то, почему я вообще пишу этот пост как раз вытекает из этих моих качеств.

Я решил написать в приемную президента РФ предложение примерно следующего характера (точный текст у меня не сохранился, т.к. пишется он в специальной форме на сайте приемной): «я, такой-то такой-то, в рамках обозначения Президентом РФ ключевых направлений развития государства, а именно, в рамках применении МЛ в различных сферах государства предлагаю следующее: организовать сбор и хранение рентгеновских снимков, и сделать это хранилище доступным для обработки методами МЛ и возможностью подачи обратной связи». Далее я кратко описал свою модель, обозначил что даже я со своим небольшим багажом знаний смог сделать рекомендательную модель, которая сможет работать в паре с рентгенологом и принести пользу. А в России значительное количество энтузиастов ДС с высоким уровнем знаний/умений, которые смогут сделать очень многое не только в области медицины, но и в остальных областях где в принципе можно применить МЛ.

Точный текст обращения я к сожалению уже не помню так как дело было в марте или апреле но общий смысл точно такой.

Развивая эту тему, сейчас я бы дополнил что в принципе нужно собирать и агрегировать максимально большое количество открытых данных и выкатывать на аналог Каггла где так же можно было бы ставить задачи, обсуждать их решения и находить лучшие. Росстат уже делает что то похожее касаемо публикации данных, я даже успел кое-что проанализировать, но эту тему нужно развивать и дальше.

Сообщение зарегистрировали, о чем пришло отдельное письмо, но я все равно изрядно удивился, когда увидел, что пришел ответ. Первый ответ был от Минздрава. Он был краток и лаконичен.

Суть ответа как мне видится – «ок, спасибо, не надо».

Я думал, что на этом история и закончилась, но пришел еще один ответ, уже от Министерства Промышленности и Торговли. Ответ очень развернутый и подробный, но у меня было ощущение что, то ли им передали искаженную информацию то ли они просто неправильно меня поняли.

Я не просил какой-то финансовой помощи для реализации этого проекта, более того я ни слова не написал о том, что я хочу в нем принимать участие (хотя я бы естественно не отказался). Ну, ответили, хорошо, и на этом спасибо.

Я бы благополучно забыл про эту историю, если бы регулярно не натыкался на новости вроде этой или этой (совсем свежая) или особенно этой. После ее прочтения я посмеялся немного, потому что речь идет ровно о том, о чем я писал.

Итог

Фух, ну и пост вышел.

Вот ключевые вопросы, которые я хотел задать.

Кто занимается внедрением МЛ в «бизнес-процессах» государства? Кто руководит этими людьми?

Централизовано ли это или в каждом министерстве свои дата сайнтисты? А есть ли они вообще в гос.аппарате?

Я видел текст национальной стратегии развития искусственного интеллекта на период до 2030 года, но у меня остались десятки вопросов, кому их можно задать? Что бы получить разумный ответ, естественно.

Учитывая те ответы, что я получил у меня есть некие сомнения что данная стратегия не просто декларация намерений, а реальный план и что вся эта затея не обернется финансированием нескольких «своих» витринных пэт-проджектов на которые потом будут ссылаться, отмечая успех стратегии.

Вообще, кто-нибудь из тех, кто прочитал этот пост занимается реализацией каких то программ из этой стратегии?

Всем спасибо за уделенные n минут своего времени!

Комментарии (10)

tvr
08.08.2020 18:36
#21937260
Ответ очень развернутый и подробный, но у меня было ощущение что, то ли им передали искаженную информацию то ли они просто неправильно меня поняли.

Это стандартная отписка в духе:
«Уважаемый Иван Сергеевич (к сожалению, вы не указали своё отчество)....»
Никто там ничего и не пытался понять — им спустили ваше обращение, они рефлекторно отреагировали.
Всё.
Гештальт закрыт.

justhabrauser
08.08.2020 18:48
#21937272
-1
Статья очень интересная, но не дает покоя вопрос — кто такой ML (МЛ)?
Мне сразу приходит в голову Markup Language (XML, HTML, вот это всё).
Или Machine Learning? Но почему тогда "МЛ"?
"Магнитная Левитация" лучше всего подходит, но все-таки...
1. trolley813
  08.08.2020 22:47
  #21937888
  А ведь есть еще и язык программирования (настоящего, не такого, как HTML). Мне первое пришло в голову именно это.
  1. justhabrauser
    09.08.2020 01:45
    #21938244
    На букву ML много чего есть, надо быть просто в контексте с автором.
    Возможно автор постеснялся уточнить, мало ли.

TiesP
08.08.2020 19:38
#21937382
+1
«я, такой-то такой-то, в рамках обозначения Президентом РФ ключевых направлений развития государства, а именно, в рамках применении МЛ в различных сферах государства предлагаю следующее: организовать сбор и хранение рентгеновских снимков, и сделать это хранилище доступным для обработки методами МЛ и возможностью подачи обратной связи».

Уважаемый, именно это и было сделано ещё весной Департаментом здравоохранения Москвы (подобный датасет, доступный исследователям)… вроде даже на Хабре была новость.
1. TiesP
  08.08.2020 21:11
  #21937622
  +1
  … а вот и ссылочка на датасет (1110 образцов, разделенных на 5 классов)

AigizK
08.08.2020 21:02
#21937602
Был у меня разговор недавно с человеком из ИТ департамента региона. На мои предложения были такие же примерно ответы: сложно, не получится. Думаю человек так же набрался опыта, как и вы, поэтому уже на уровне идей может отфильтровывать. Хотя это не говорит, о том что идеи ваши не жизнеспособны.

andreyiq
09.08.2020 17:33
#21939572
Тоже как-то хотел поучаствовать в реальных проектах и мне как раз попался конкурс от правительства, где можно было выбрать интересующие направления. Я выбрал медицину, там нужно было построить модель которая будет на ранних стадиях определять болезнь. Думал ну вот наконец смогу свои знания применить во благо, но в итоге там оказалось какое-то не внятное задание и они даже не удосужились собрать свой датасет, а тупо взяли готовый, кажется Стенфорда. Пришел к выводу, что конкурс либо для галочки, либо деньги отмыть
1. VolCh
  10.08.2020 08:34
  #21940968
  Вариант: оценить целесообразность начала работ по сбору своего датасета

Dorogonov_DA
11.08.2020 10:39
#21945696
Прочитав пост вспомнил одну цитату:

«Ребята, хватит заниматься ерундой. Персонального компьютера не может быть.
Могут быть персональный автомобиль, персональная пенсия, персональная дача.
Вы вообще знаете, что такое ЭВМ? ЭВМ — это 100 квадратных метров площади,
25 человек обслуживающего персонала и 30 литров спирта ежемесячно!»
из речи заместителя министра радиопромышленности СССР

Так вот, машинным обучением у нас занимается господин Греф со своим Сбербанком, скупившим половину видеокарт Нвидиа. Машинное обучение с точки зрения госаппарата это не вот эти ваши Гитхабы и датасеты, это сотни датацентров, тысячи рабочих мест, и миллиардные инвестиции из бюджета.