Нейросети: где взять данные для тонкого обучения алгоритмов? / forpes.ru

Главная
Нейросети: где взять данные для тонкого обучения алгоритмов?

Нейросети: где взять данные для тонкого обучения алгоритмов? +5

06.10.2020 16:50

Mudrist 12 1600 Источник

Привет, Хабр! Меня зовут Алиса Невейкина, и я работаю в стартапе из Беларуси SmartCoders. Мы занимаемся разработкой нейросетей и решений на базе ИИ для бизнеса. Этот пост стал результатом глубоких раздумий об особенностях развития проектов с использованием машинного обучения, а также о моделях монетизации данных технологий. Если вы уже работали с ИИ или планируете это сделать, приглашаю присоединиться к обсуждению.

Разработка ИИ определяется алгоритмами, которые заложены в нейросеть. Однако проверить их можно только опираясь на значительные объемы данных. Если речь идет об уже обкатанной системе, которая прошла боевое крещение хотя бы в одной из компаний, то тут все понятно. Но что делать в случае, когда нейросети нужны данные “как воздух”, чтобы доказать свою жизнеспособность?

Мы начинали работать как подрядчики на разных проектах, выполняя задачи заказчика. Так появилось решение для проекта Salary2.me, который помогает определить реальную зарплату ИТ-работника в Москве, Киеве, Минске и во многих городах Европы.

Но чтобы претендовать на универсальность этим технологиям не хватает машинного обучения по существующим дата-сетам.

Где взять данные для машинного обучения?

На этапе разработки самих алгоритмов можно использовать какие-то синтетические наборы данных. Однако для дальнейшего совершенствования функций ИИ этого недостаточно. Нужны живые дата-сеты, чтобы найти corner cases, проверить, как ведут себя алгоритмы на разных выборках и так далее. Но получить такой набор оказывается не так-то просто, потому что:

Все боятся за конфиденциальность данных

Несмотря на то, что для тестирования ИИ достаточно обезличенных данных, которые не содержат никакой персональной информации, компании боятся санкций со стороны регуляторов за передачу своих клиентских баз, да и мало кто может выдать обезличенный дата-сет. Его нужно готовить, а заниматься этим некому.

Существует проблеме недоверия

Еще одна проблема — это отсутствие доверия. А вдруг мы со своим ИИ пришли от лица конкурентов? Вот нас пустят, дадут работать с данными, а база окажется в чужих руках.

Денег нет

Наконец, на тестирование ИИ нужны средства. Но если эффект не очевиден, в бюджете не появляется денег на внедрение и развитие ИИ. Компания просто продолжает работать также как работала.

Что делать?

Теоретически ИИ может принести бизнесу кучу плюсов, начиная с построения персонализированных программ лояльности до повышения вовлеченности пользователей и разработки методов возврата ушедших или “спящих” клиентов. Однако в том и прикол ИИ, что алгоритмы нужно тренировать для каждого отдельного случая, проводить обучение. Только после проверки на конкретных дата-сетах, становится ясно, каким будет эффект. Но пока нет данных — нет эффекта, а пока нет понимания эффекта, никто не дает данные. Получается настоящая проблема “курицы и яйца”.

Возможно, эту проблему можно решить одним из трех способов

Разработать какое-то универсальное решение для подготовки данных, которое поможет компаниям делать стандартную выгрузку обезличенной информации. Возможно, нужен алгоритм, который можно встраивать прямо в движок сайта, чтобы автоматически собирать и выгружать данные для систем ИИ. Но как обеспечить доверие компаний к такому решению?
Заниматься развитием ИИ, вкладывая собственные средства, как партнер для магазина, игровой платформы, клиентского сервиса. При этом договориться об оплате в виде какой-то части добавочной прибыли. Мне кажется, что такой подход вообще будет более честным и справедливым. Остается только вопрос, как зафиксировать компенсацию в договоре?
Проводить бесплатные пилотные проекты, тестируя эффективность решения на ограниченном количестве пользователей. Но как найти компании, готовые к диалогу в России и СНГ, если у большинства пока нет практики сбора аналитики, а опасения за свои данные накладывают “вето” на участие даже в бесплатных тестах.

Развитие проектов

Дополнительным аргументом в пользу длительного сотрудничества является желание развивать дальше проекты, в которые уже было вложено много сил и креатива. Тем более, что отдача от ИИ может вырасти, если продолжить fine tuning алгоритмов.

Я понимаю, что этот пост порождает больше вопросов, чем ответов. И если у вас есть свое мнение или уже состоявшийся опыт развития нейросетей и поиска данных для их обучения, поделитесь им, пожалуйста, в комментариях. Буду признательна за живую дискуссию на эту тему.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Как найти данные для тестирования ИИ?

10,0%Помочь обезличить клиентскую базу1
0,0%Стать партнером и развивать ИИ за роялти0
80,0%Проводить небольшие пилоты, чтобы доказать эффективность8
10,0%Другое (расскажите в комментариях)1

Комментарии (12)

diov
06.10.2020 20:02
#22150998
Зря Вы переживаете по этому поводу.
Бизнес в результате конкуренции вынужден постоянно искать способы увеличить прибыль.
Поэтому если узнают, что можно увеличить выручку или уменьшить издержки, добавив какой-то анализ данных, заказчики сами приготовят и принесут Вам данные на блюдечке.
А если это не происходит, возможно, Ваша модель не слишком помогает увеличивать прибыль.
(Или же многие заказчики ещё не готовы к этой революционной идее).
1. Mudrist Автор
  07.10.2020 10:46
  #22152540
  Да, практика показывает, что заказчики не готовы к некоторым действиям со своей стороны. Подготовить данные к выгрузке, иногда даже начать их собирать — это задача не для всех. Но я надеюсь и верю, что скоро все данные будут у всех автоматически собираться и их анализ при помощи нейросетей будет прост и удобен.

VIM_Consultant
07.10.2020 00:11
#22151618
Модель определения заработной платы очень индивидуальна. Например, в деревне могут платить айти специалисту в два раза меньше, чем в городе. С другой стороны, вдруг тот же айти специались вдруг резко нужен и чтобы компенсировать переезд из города, специалисту могут платить зарплату больше, чем в городе.

Конфиденциальными данными делиться никто не будет. Даже порталы поиска работы могут указать Макс и мин пределы, но не финальную сумму в договоре.
1. Mudrist Автор
  07.10.2020 10:48
  #22152548
  Вы правы, но тут история про вилку зарплат, а это — открытые данные. Плюс пакет для релокации все определяют индивидуально: у кого-то это перелет и 2 месяца оплаты жилья, а у кого-то сильно интереснее)

bak
07.10.2020 10:33
#22152480
Произвольные данные хорошо заказывать на yandex toloka или amazon mechanical turk.
Другой вариант — провести опросы и спросить у людей про все те факторы которые вы извлекаете из резюме.
1. Mudrist Автор
  07.10.2020 10:49
  #22152554
  мы все же идем по пути партнерства и развиваем ИИ за роялти от прибыли
  1. bak
    07.10.2020 13:52
    #22153374
    Приходите к бизнесу и говорите «давайте мы вам прибыль апнем»? И они прям сходу на пилот соглашаются? Или они вас сами находят?
    
    Mudrist Автор
    07.10.2020 17:45
    #22154282
    +1
    Я пишу письма и — да, многие заинтересованы и с ходу на пилот соглашаются. Сами пока не находят, но, как мне кажется, это вопрос времени и представленности в отрасли.
  1. SpAwN_gUy
    08.10.2020 09:52
    #22156340
    +1
    Так а в чем проблема прийти к партнёру, у которого нету очищенных данных "на блюдечке", и порекомендовать один из выше перечисленных инструментов? Ну да, надо платить за использование инструментов — там люди на зарплате за кликанье сидят (иногда), но это можно и посчитать по деньгам. И если клиент сможет предоставить такой датасет дешевле, но сам — даёт разумный выбор способов инвестиции
    
    Mudrist Автор
    08.10.2020 09:54
    #22156346
    Проблема, как я писала выше, в недоверии к решению, а во-вторых, никто не хочет дополнительные движения делать.
    
    SpAwN_gUy
    08.10.2020 10:08
    #22156400
    Бизнес — отлично понимает язык денег. Считайте и предлагайте варианты. Просвящайте.
    По опыту я видел как очень много раз клиенту продавали MVP, но никто не рассказывал, что этот продукт надо будет поддерживать, развивать, подключать в процессы, налаживать поддержку пользователей… Продолжительную совместную работу с командой разработчиков.
    Один раз заплатить и получить лекарство от всех болезней на любые случаи в будущем — это нехилый такой minimal viable product. Рррраз и в дамки — это, имхо, устарелые модели ведения бизнеса.
    
    Mudrist Автор
    08.10.2020 12:26
    #22156964
    Надеюсь, с просвещением у нас все получится. Спасибо)

Нейросети: где взять данные для тонкого обучения алгоритмов? +5

Где взять данные для машинного обучения?

Все боятся за конфиденциальность данных

Существует проблеме недоверия

Денег нет

Что делать?

Возможно, эту проблему можно решить одним из трех способов

Развитие проектов

Как найти данные для тестирования ИИ?

Комментарии (12)

diov

Mudrist Автор

VIM_Consultant

Mudrist Автор

bak

Mudrist Автор

bak

Mudrist Автор

SpAwN_gUy

Mudrist Автор

SpAwN_gUy

Mudrist Автор