Кто кого? Счётчик насчитал уже много дней жизни. Разные глобальные и личные перипетии привели меня в ту точку, где я должен был спросить себя: а что ты, собственно, из себя представляешь? не хочешь ли вспомнить былое и заняться чем-нибудь из разряда «стильно-модно-молодёжно». В своё время (и кажется, что уже так давно) была очень популярна приставка «нано»: от нанороботов до наномойки. И я учился, рассчитывая, что погружусь в это «нано». То ли я не туда смотрел и не заметил (всё-таки это «нано» такое мелкое), то ли, вообще, в университете вряд ли стоило искать все эти чудеса.
И вот опять – Data Science, нейросети, машинное обучение. Просто песня! Хочется вскочить на подножку уходящего с перрона ИИ на нейроколёсах. А вдруг получится? Хотя счётчик, похоже, уже много насчитал: не сбросишь настройки, не обнулишь – вот сколько есть, всё моё. И весь мой подзабытый физико-математический бэкграунд микроэлектроники. Спасибо, что «матан», «линал» и прочий «матстат» был на уровне, и в голове до сих пор покоятся обломки биномиальных распределений, квадратичных форм, собственных чисел матрицы и теории функций комплексного переменного. Говорят, дата сайентисты любят всякую глубокую математику. Вот бы ещё мозги свои заскорузлые расшевелить! Оба полушария уже забиты своими личными большими данными, копившимися там сумбурно, от случая к случаю, без осмысленного data engineering. Мой естественный интеллект уже с трудом проворачивает подобные вычисления. Шестерёнки давно не шевелились. Надо ли добавлять им работы? Ведь я давно отстал в программировании от современности с Pascal и Basic, которым учился когда-то. Хорошо, что ради развлечения балуюсь с Python вот уже пару лет. Вдруг всемогущий ИИ с каким-нибудь ML/DL мне поможет разгрести и свои собственные залежи?
Однако, когда собираешься приступить к большому делу, всё мешает. Те самые захламлённые мозги будут постоянно подсовывать причины чего-либо не делать, и, вообще, «иди лучше полежи на диване и займись думскроллингом на злобу дня». Парадоксально, но сильно мешает и затормаживает количество информации о больших данных: сиди и копайся, гугли во все стороны, утопай в статьях и историях успеха (но и в полку демотиваторов постоянно прибывает). Нынче такая волна идёт от всевозможных ChatGPT и прочих говорилках-рисовалках, что волей-неволей смотришь в сторону Data science. Хочется погнаться за модой, приобщиться к «прекрасному», стать частью чего-то большего, частью будущего. Может, стоило бы подумать получше? В будущее и в таком возрасте! Ладно, раз уж хочется…
Ленивый мозг упирается, хочет на всём сэкономить: на энергии, времени, деньгах. Откуда взять мотивацию, если сам ленивый и нерешительный? Онлайн курсы. Что ж, отличное решение. И очень даже удобно: сиди дома и нажимай на клавиши. Так ведь? Конечно, нужно будет заплатить и что-то делать, и время находить, и следить за графиком, и дедлайны соблюдать – всё это мелочи. Наверное. Сам не хочешь и не можешь, пусть тогда хоть кто-то подтолкнёт, организует и, если уж не преподнесёт на блюдечке, то замотивирует и покажет, в каком направлении искать светлое будущее.
Ох, уж эти сомнения. Нечего в голове мысли гонять! Берёшь себя в руки и … Скрупулёзно составляешь табличку в Excel со всеми мало-мальски приглянувшимися онлайн-курсами по теме Data Science. Оказывается, их так много расплодилось за эти годы – голова идёт кругом. Что-то было на слуху, что-то случайно вылезло в поисковике. И на каждом портале бывает не по одному курсу, каждый из которых можно условно разделить на три вида (почти азбука Морзе): очень короткий, короткий, очень длинный. Сначала я думал, что лучше тот, что длиннее: 12, 16, 20, 24 и даже 36 месяцев! Вот это да! Как же много всего можно засунуть в свою голову за год-два-три! Потом – наоборот: может, стоит попробовать формат bootcamp, покороче и поинтенсивнее. Хотя цены кусаются и не всегда зависят от продолжительности.
Как бы это всё сравнить и выбрать пообъективнее? Опять сомнения. А, конечно, сравнить по всем параметрам, вплоть до списка используемых в обучении python-библиотек. Длинный ряд, куча работы. Но выбрать не помогает. Читаю отзывы везде, где только можно (естественно, кроме самих порталов, там сплошная похвальба и посулы таких золотых гор, что сразу чувствуешь себя миллионером). Залезаю на Хабр и VC.ru, смотрю видео знатоков на Youtube. Попутно то теряю всяческую надежду, то снова воспаряю в мечтах о лучшей доле. И вот на таких эмоциональных качелях – три недели. В общем, одно слишком дорого, другое слишком долго, третье как-то подпортило себе репутацию. Слишком много данных – тоже бывает плохо, особенно если не умеешь с ними работать.
Однако критическая масса информации всё-таки набралась, да и терпение кончилось (что раньше, не знаю). Решил, что правы те, кто считает, что лучше бы курсы были покороче – всё равно стажёра/джуниора после онлайн-курсов никто просто так не возьмёт на работу, сколько бы он месяцев не отучился. Тем более, ситуация в IT нынче какая-то неопределённая, да и среди дата-сайентистов будто бы хорошо устроившиеся новички не встречаются. Так что лучше быстро войти в курс дела, а потом пытаться самому дойти до всего остального, попутно стараясь хоть как-то устроиться в индустрии. Чем раньше случится встреча с реальным/жестоким миром, тем лучше.
Самое сложное – когда кажется, что ты уже решил, как будешь учиться, и уже всё себе представил в красках и подробностях, это не отказаться в последний момент. Загвоздка банальна и при этом едва ли разрешима для меня рационально: зачем платить деньги за обучение, если можешь учиться бесплатно самостоятельно?
Действительно, что мешает взять себя в руки, обложиться со всех сторон книгами, видео с Youtube, подкастами, статьями и форумами (о, Stack Overflow!) и начать планомерно погружаться в набранные материалы? Чаще всего слышу, что платные курсы нужны для того, чтобы онлайн школы зарабатывали деньги, а учиться надо самому. И если уж нет мотивации самостоятельно вникать, то стоит ли платить за то, чтобы «дядя» помогал пинками и дедлайнами добиваться желаемого?
Вот тут начинается самое коварное сомнение: а чего я хочу? того ли? не за модой ли я просто погнался? большими зарплатами прельстился? Уйма вопросов. Может, я потяну самообучение? Буду упорным, трудолюбивым, смогу настроить свой график, организуюсь. А как я жил до этого? Совсем не так. И вот уже готов отказаться от своих странных затей (а заодно и приличную сумму сэкономить) и продолжить быть тем, кто я есть. Или всё-таки нет?
Ладно, решено. Вот мои деньги, сдайте мне в аренду силу воли и организуйте за меня учебный процесс. Я пройду ваш вводно-рекламный курс по Data Science, получу скидку и впрягусь на восемь месяцев. И шестерёнки со скрипом завращались.
Комментарии (4)
economist75
17.07.2023 09:42В DS идут, кмк, ради
денегудовольствия от получения научных ответов там, где ранее полагались исключительно на чуйку шефа, экспертность, метод "Трех П" и правдоподобное вранье.Даже самые большие данные в ходе анализа превращаются в "табличку" из нескольких слов-сущностей с рядом стоящими количественными оценками: Top-10 кредиторов, Воронку продаж, весы фич ML-модели, прогноз цен на недели итп. Таким образом "матан, дифуры, линал, тервер" остаются за кадром и особо не донимают.
Только DS-ист может объяснить как именно получена эта итоговая табличка. Но их редко об этом просят, потому что "матан, дифуры, линал, тервер" непонятны начиная со второго слова... Это тоже особый профессиональный кайф (не получать вопросов). Если DS-ист не может написать формулу расчета стандартного отклонения - это не страшно, если он хорошо понимает суть этого показателя.
На другой чаше весов профессии DS - чистка данных, занимающая 60-80% времени. Она тяжела, требует напористости и самоконтроля даже там, где казалось бы "всё ровно" (1С, биллинг, логи итд). Ровно не бывает нигде.
Kirill_rd Автор
17.07.2023 09:42Я, кажется, уже стал понимать, что чистка данных - это куча времени. Не поработаешь метлой - модель куда-нибудь не туда насчитает. Можно сидеть долго над дубликатами и выбросами, словно гречку пальцами перебираешь.
Профессиональный кайф - это здорово! Знаешь, что там в чёрном ящике.
Спасибо.
economist75
17.07.2023 09:42Есть способ превратить чистку во что-то сносное - "набить руку" и "заматереть". Нужно проанализировать свои рутинные действия с данными, собраться духом и... написать с десяток своих UDF c докстрингами, вынести в модуль и пользоваться им даже в разовых задачах на непредсказуемых данных. Эти UDF плюс несколько прогонов ydata_profile итп auto-EDA-либ - и уже не так страшно. Другое дело что до своих предметно-ориентированных "чистящих" UDF нужно дорасти и созреть. Это год-два.
anonymous
НЛО прилетело и опубликовало эту надпись здесь