Неделю назад исполнилось 6 лет, как я открыл фирму Lingvanex (www.lingvanex.com), чтобы заниматься машинным переводом. За это время многое произошло. Сейчас в команде 40 человек, 120 серверов и более миллиона пользователей. Но так было не всегда. Помню те времена, когда нас было двое. Мы сидели в маленькой комнате без вентиляции, и каждый час нужно было открывать окна, чтобы совсем не задохнуться. Мы были полны надежд, идей и большого желания создать переводчик, который сможет конкурировать с Google.

В 2017 году у нас был прототип под Linux, который уже что‑то переводил. Под iOS собрать тоже удалось. А вот с Windows оказалось не все так просто. Клиенты хотели установку под эту ОС, и нужно было действовать. Для этого пришлось бы перекомпилировать много библиотек с кучей зависимостей, но у меня не было такого опыта. Когда я пошёл на сайты фриланса и разместил несколько объявлений, откликнулось всего нескольких заявок. Cтало ясно, что задача не такая простая, какой кажется.

В интернете было много предложений от аутсорс компаний о разработке проектов любой сложности. Так как я по образованию инженер‑программист, то заявление о любой сложности вызывало удивление, но в то же время и интерес. Было решено попробовать! Cо стороны всё выглядело серьёзно, общение велось от имени юридического лица. Наша компания хочет заказать разработку, но сначала требуется получить оценку того, как долго эта задача будет решаться.

Стоит отметить, что компании, с которыми я говорил, были разными по размеру. Одна из них — известный бренд и лидер в Восточной Европе. Я написал менеджеру по продажам, и со мной обещали связаться. В течение недели я не получил ответа, написал им еще раз, и мне еще раз ответили, что точно со мной свяжутся. Не связались. Ну и ладно!

Потом я начал искать компании попроще, размером до 100 человек, с хорошим портфолио и нишевой экспертизой. Перед началом разговора всегда интересовался, правда ли то, что у них написано на сайте, и что они делают проект любой сложности. Они заверяли, что да, они уже создавали проекты гораздо сложнее моего, и как раз сейчас у них освободился программист, который участвовал в разработке квантового суперкомпьютера. Отлично! Работаем? Не совсем! Сначала нужно погрузиться в тему на 2 недели и заплатить за исследование проблемы по ставке 40$ в час. И только потом я смогу получить ответ, возьмутся они за дело или нет. Предложение заманчивое, но принимать его я, конечно же, не буду.

В одной из компаний сказали, что на оценку задачи им нужно ровно 12 дней и они дадут ответ на 12-й день в 13:45. Такая точность была необычной, но прикольной, ведь деньги за изучение моей задачи они не брали. Ровно через указанное время в 13:45 они позвонили мне на Skype и дали развернутый ответ. Они говорили про нейронные сети, их конфигурации, про библиотеки Windows, Linux, компьютеры, процессоры и молекулы. Ответ был долгим и логичным, но через 20 минут я просто спросил: «Вы сможете это сделать? Ответьте просто «да» или «нет». Конечно же, оказалось «нет».

Где‑то на 15-м созвоне мне улыбнулась удача: менеджер компании сказал, что, мол, да, мы делали что‑то похожее, у нас есть человек, который выполнит эту задачу за пару дней, но сейчас вечер пятницы и он уже уехал отдыхать. Я жёстко вцепился в последний шанс и начал обещать хорошие деньги, поток заказов и все что угодно, только сделайте мне это. Пусть он посмотрит задание прямо сейчас. «Хорошо, уговорил». При мне менеджер начал звонить этому разработчику на телефон, параллельно разговор шел по Скайпу.

На заднем фоне были слышны недовольные фразы, немного мата, крики детей и пьяной компании — видно, человек умеет не только работать, но и отдыхать:) Тем не менее, их программист через час уже был со мной в Скайпе и слушал, что требовалось сделать. По его оценкам, эту задачу можно было решить за вечер и 500$, что очень обрадовало меня. Но за вечер это сделано не было. В субботу утром он сказал, что ему потребуется 2 дня. Где‑то к среде задача была выполнена, и через месяц мы выпустили первую версию переводчика под Windows. Это был один из немногих позитивных опытов работы.

Когда пришло время делать Android версию, мне казалось я понял, как работать с аутсорсом. На каждое тестовое задание был выделен бюджет в $200 для проверки одной компании. Найдя очередного исполнителя с хорошей репутацией мы созвонились с менеджером и он нам дал бодрого программиста Виталия. За день он качественно сделал главный экран приложения и все вроде ок, но наш тех лид решил спросить почему он выбрал один из подходов. На первых вопросах программист начал сыпаться и замолчал. — Виталий, вы с нами? — поинтересовался я. — Да! И это было все то, что он смог ответить четко. Потом еще немного его мычания и у меня сдали нервы.

— Кто писал этот код, Виталий?

— Я не Виталий!

— А кто?

— Я Дима!

— А где Виталий?

— Ушел домой!

— А почему ты врал?

— Мне директор сказал.

— Дай мне контакты.

— Он рядом тут.

— Дай ему микрофон. Почему вы мне все врете?

— Успокойтесь! Просто у Виталия заболел живот, и я его отпустил. Давайте дадим вам другого разработчика.

— Мне не нужно, давайте просто закроем контракт, и вы получите деньги за тестовое задание.

Он не соглашался и предлагал все новых специалистов. Такое чувство, что он сейчас продаст свою бабушку, если будет нормальная цена за час. Вскоре я бросил трубку и отправил ему 200 долларов. 

Было бы смешно, если бы не было так грустно. Переводчик для Android пришлось делать своими силами, и за год мы его выпустили, покрыв тем самым приложения для iOS, Android, Windows и Mac.

Мистер Хонг и его волшебный скрипт

После того как разобрались с приложениями, нам нужно было написать алгоритм фильтрации данных, чтобы он работал на наших серверах, причем максимально быстро. Исполнителя нашли за день, по цене тоже все устраивало.

Мистер Хонг выглядел крутым. Хорошие отзывы, классное портфолио и схожие выполненные проекты. У него был понятный английский и понимание задачи. Он был готов приступить немедленно и за $600. Ну что же! За работу!

Через пару дней он скинул скрипт, который работал быстро и качественно. Мы прогнали несколько тестов, спросили, как он решал задачу. Все выглядело разумным. Скрипт был в несколько тысяч строк, и мы подумали, что разберемся с ним потом, когда будет время. Через пару дней скрипт перестал работать. Мы начали искать причины.

Среди большого и запутанного куска кода он вставил вызов API какого‑то платного сервиса. То есть, если весь код, кроме этого вызова, убрать, то работа программы не поменяется. Но выяснилось это очень поздно. Закончился бесплатный период того сервиса. А господин Хонг ранее получил уже 5 звезд и хороший отзыв. Молодец, что и говорить! Впредь нужно быть внимательнее.

Пляж, купальник и нейронные сети

Помимо негативного опыта на фриланс‑биржах, хватало и позитивных кейсов. Однажды у нас появилась задача улучшить качество распознавателя речи на немецкий язык, и мы начали искать того, кто бы мог в этом помочь. Когда мы разместили проект, на него откликнусь где‑то 20 заявок. В основном среди них были профессора, волосатые, бородатые, в очках, с учёной степенью и большими рейтами. В целом, они все были похожи, кроме одной заявки. В профиле было несколько десятков выполненных схожих проектов, причем рейтинг был — все пятёрки, абсолютно все. Ни у кого не было таких мощных оценок. Количество технологий, которые знает человек, было поистине невероятным. Гений просто! Но была одна деталь, которая останавливала меня, чтобы выбрать его как исполнителя. Его профиль назывался «Таня», был написан на транслите, а на фото — девушка в купальнике у моря. По цене за час у него было в 3 раза дешевле, чем у остальных, а платить дороже мы не могли. Я решил рискнуть.

Когда она дала мне профиль Skype, там высветилось «Vadim», и после приветствия я поинтересовался, как так? Вадим сказал, что это фото его жены для привлечения внимания, а сейчас он даст контакт человека из Китая, который все сделает за $300, при этом тренировка языковой модели будет за его счет. За эти деньги никак нельзя было выполнить задачу, так как аренда серверов для этого тянула на несколько тысяч долларов. Но господин Ли заверил нас, что он будет работать в минус, чтобы набрать положительных отзывов и рейтинг. У него есть свои сервера. Много серверов! Охренеть! Через 2 дня он прислал натренированную языковую модель, которая давала отличное качество распознавания немецкого.

Здравствуйте, я ваша тетя!

На заре основания компании мы использовали много аутсорса и фрилансеров, о чем потом сильно жалели. Люди постоянно менялись, а с ними терялась эскпертиза, так как новым приходилось опять разбираться с проектом. В 2019-м меня это все достало, и я решил от них полностью отказаться.

Было решено собирать свою команду полностью, а чтобы быстро найти специалистов, мы начали публиковать статьи о проекте. Первая статья получилась довольно популярной. В конце статьи я оставил свой email, личный телефон и адрес офиса, приглашал всех приходить и узнавать больше о проекте, предлагал партнерство. И тут понеслось!

Телефон просто разрывался. Звонков было так много, что первый день я только и делал, что отвечал, боясь упустить что‑то важное. А важного как раз и не было. Нам предлагали кофе, компьютеры, доставку продуктов и даже уроки гитары для сотрудников. После обеда в дверь постучал представительный мужчина и попросил позвать основателя компании, чтобы переговорить.

У него был был пиджак, большой кейс и уверенный взгляд. Казалось, что это мог быть инвестор, клиент ну или как минимум партнер. Когда я вышел, он сказал: «Давай отойдем, обсудим пару дел». Через несколько секунд он достает из сумки большую банку и говорит: «Вам нужен мёд?» «Что???? Мед?? Мужчина, мы делаем переводчик на нейронных сетях. Какой нахрен мед?»

Потом он рассказал про пчёл, про его пасеки, про то, что этот мёд очень полезен для сотрудников, но мне было как бы все равно. Я вернулся в офис, чтобы продолжить отвечать на звонки.

Через час к нам зашел пожилой мужчина и принес огромную карту, на которой был расписан какой‑то мега‑алгоритм изучения английского языка. Он хотел запартнериться с нами. Суть партнерства заключалась в том, что мы делаем приложение на базе его наработок за наш счет, а часть будущей прибыли забираем себе. «Очень заманчиво!» — сказал я и побежал продолжать отвечать на звонки. Потом позвонила какая‑то женщина и начала очень странный диалог.

— Привет, Алексей.

— Здравствуйте, а кто Вы?

— Я Ольга!

— Добрый день, Ольга. Что Вам нужно?

— Вас.

— А кто Вы?

— Я Ваша родственница.

У меня были родственницы с этим именем, но голос был абсолютно не похож.

— А по какому Вы вопросу?

— По важному!

— Ну так говорите!

В ответ было молчание, а разговаривать незнакомого человека абсолютно не хотелось. Через пару секунд разговор был окончен.

Я удалил телефон и адрес офиса из профиля под статьей. Стало спокойнее. Общаться через Email и соцсети было легко, и за следующие 2 дня я ответил всем. В целом, итог был положительным, мы нашли клиентов, партнеров и людей в команду. Статьи работают.

Итоги

Когда я впервые смотрел сериал «Кремниевая долина», он казался очень смешным и абсурдным. Наша фирма только что открылась, и нельзя было подумать, что в IT‑бизнесе такое может происходить. Как же я ошибался! Оказалось, что такое количество приколов происходит у многих, и это становится забавным не сразу, а только через какое‑то время. Ведь когда всё начинается, все на стрессе, и это воспринимается по‑другому. Иногда кажется, что вместо разработки и продажи сервисов нужно было просто снимать сериал обо всем, что с нами происходило. Потом продать его Netflix и заработать миллиард. И взять Оскара, но это не точно.

Несмотря на все трудности, мы выстояли, улучшили качество продукта, нашли серьезных клиентов и увеличили команду. Самое главное — это коллектив. С ним можно создать проект любой сложности, я все‑таки верю в это. Но нужно уметь подбирать правильных людей.

Сейчас мы сфокусировались на 2-х продуктах:

a) неограниченном переводе на 100 языков,

b) неограниченной конвертации аудио в текст на 90 языков.

Почему это может быть кому‑то интересно?

Хотя бы потому, что за 200$ в месяц можно перевести 30 миллиардов символов и конвертировать 30 000 часов аудио в текст. Это очень‑очень много. При этом все ваши данные останутся у вас. Мы потратили несколько лет, чтобы достичь таких результатов.

За бесплатной демкой обращайтесь на info@lingvanex.com

 

Комментарии (34)


  1. ivankudryavtsev
    00.00.0000 00:00
    +7

    Мне понравилось как Вы пишете. Статья стоит потраченного времени и дает позитив. Спасибо.


    1. tumbler
      00.00.0000 00:00
      +2

      Ага, и ощущается как фантастика


      1. Aliaksei_Rudak Автор
        00.00.0000 00:00
        +2

        Все реально так и было ) Но в тот момент нам было не смешно, так как мы теряли деньги из-за недобросовестных исполнителей


    1. iggr63
      00.00.0000 00:00

      Совершенно согласен. Видно что автор работает с языками.


  1. Plesser
    00.00.0000 00:00
    +2

    Было решено собирать свою команду полностью, а чтобы быстро найти специалистов, мы начали публиковать статьи о проекте.

    Вам снова потребовались специалисты? :)

    Вне зависимости от этого статья огонь! Спасибо за поднятие настроения с утра!


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00
      +4

      Когда мы потратили очень много денег впустую и нервов на аутсорс и фрилансеров, стало ясно - надо что-то менять. Свою команду было нелегко собирать, но когда стали выходить статьи о проекте, люди стали сами приходить, причем специалисты очень крутого уровня и порядочные как люди.


      1. ivankudryavtsev
        00.00.0000 00:00

        Вот, к слову, с нашей клиенты работают 6-7 и более лет. Никогда среди коллег по цеху не слышал таких криповых подходов, которые Вы на себе испытали. Можно только посочувствовать, что так получалось. Испортили впечатление об аутсорс-компаниях.


        1. Aliaksei_Rudak Автор
          00.00.0000 00:00
          +1

          У нас были и успешные кейсы с аутсорсом, часть из них привел в статье. Все зависит от сложности проекта. Для небольших стандартных задач - аутсорс хороший выбор, где есть много людей с одинаковой экспертизой. Также вначале мы не знали, как правильно выбирать аутсорс компании, как собеседовать людей и т.д, поэтому совершали много ошибок.


          1. ivankudryavtsev
            00.00.0000 00:00

            Хороший аутсорсер работает быстрее in-house продуктовой команды. Это я говорю как человек, который и там и там присутствует.


            1. vazir
              00.00.0000 00:00
              +1

              Только зверь это крайне редкий, прямо таки краснокнижный в джунглях то


            1. ivfilin
              00.00.0000 00:00
              +2

              Ну с "Быстро" для аутсорса определились, осталось выбрать оставшееся одно из двух: "Качественно", "Недорого".


  1. Val_Marchenko
    00.00.0000 00:00

    интересный опыт))


  1. Stalker_RED
    00.00.0000 00:00
    +1

    конвертировать 30000 часов аудио в текст.

    Не нашел у вас на сайте ни документации, ни демки для STT конвертации.
    30000 часов это очень много, мне нужно 2-3 часа в месяц. Есть ли возможность платить за stt поминутно, как у OpenAI whisper, например?
    Есть ли автодетекция языка, когда в одной записи люди говорят на русском и английском, например? Делается ли привязка фраз к разным людям, привязка фраз ко времени, как в субтитрах?
    Есть ли возможность получать мета-данные с точностью распознавания, чтобы подсветить сомнительные места в сгенерированном тексте?


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00

      На сайте нет информации про STT, это совсем новая функция. У нас решение для больших объемов аудио, например колл-центров. Поминутного API -нет. Для 2-3 часов в месяц можно воспользоваться Yandex или Google. Автодетект языка есть, но без привязки к людям. Привязка ко времени (субтитры) есть. "Возможность получать мета-данные с точностью распознавания" - в данный момент нет, но можем сделать если надо.


  1. cadovvl
    00.00.0000 00:00
    +3

     неограниченном переводе на 100 языков

    Обратный перевод:

    А теперь у меня возникает вопрос.

    Как асистент, мне лучше всего подходит GPTchat, потому что я могу задать "стилистику" перевода, или попросить сохранить идиомы. Он подбирает зачастую аналогичные по смыслу идиомы из других языков.

    Как автоматический переводчик он тоже довольно хорош: я попросил перевести текст на китайский, и попросил знакомого китайца проверить. Тексты теперь локализую в нем.

    Итого, ваше конкурентное преимущество - это
    * Большие объемы
    * Сервис на собственном железе? Или как понять "ваши данные останутся у вас"?

    И у меня вопрос: а правда есть ниши, в которых есть потребность в миллиардах символов в месяц без редактуры? Потому что если нужна редактура, то десятку редакторов проще купить подписку на GPT.
    И второй вопрос: если вы разворачиваете сервис на железе заказчика, то как вы монетезируетесь "помесячно", в качестве сервиса? А если не на железе заказчика, как обеспечивается гарантия "ваши данные останутся у вас".


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00
      +1

      Вы можете использовать ChatGPT или Google для небольших объемов текста, где не нужна защита данных. Также вы правы насчет наших преимуществ:

      1) Неограниченный объем по фиксированной цене

      2) Сервис на собственном железе (защита данных)

      Есть много ниш где не нужна редактура. Например перевод описаний отелей, отзывов, аукционов и любых международных площадок, где много контента. Также для задач аналитики, где нужно перевести много данных на английский, чтобы потом их анализировать.

      Мы даем клиенту контейнер, он сам его разворачивает. Там все автоматизировано, поэтому быстро.

      Если заказчик хочет месячную подписку, то ему надо каждый месяц обновлять ключ, который привязывается к его железу. Удобней купить на год, а чтобы попробовать - мы даем бесплатную 2 - недельную демку. На месяц также можем дать бесплатно.


      1. cadovvl
        00.00.0000 00:00

        Хммм. Откровенно говоря, я не ожидал, что эта ниша окажется достаточно большой, чтобы оправдать усилия. Если это так - рад за вас.

        Касательно контейнера с ключом - интересная идея. Звучит как нечто уязвимое для взлома, но, с учетом стоимости, скорее всего должно быть невыгодно. Поправьте, если не прав.


        1. Aliaksei_Rudak Автор
          00.00.0000 00:00
          +2

          Взломать можно что угодно, вопрос во времени. Мы продаем юрлицам в основном, там защита не столько техническая, а юридическая - через договор.


    1. Stalker_RED
      00.00.0000 00:00

      У openai цена $0.006 за минуту, это $10800 за 30 тыс часов, а тут $200 - вот и преимущество.
      Качество распознавания сравнить пока невозможно, а это важно.

      К примеру VOSK - вообще бесплатно на своем железе, отлично распознает четкую речь из новостей, или диктора с радио, но для "обычных людей", с их бормотанием, выходит довольно большой процент ошибок.


      1. Aliaksei_Rudak Автор
        00.00.0000 00:00

        Напишите на info@lingvanex.com, мы дадим вам ссылку на страницу, где можно проверить качество распознавания.


  1. SlavaHU
    00.00.0000 00:00

    Вопрос еще и в качестве перевода. Ради интереса перевел пару абзацев примерно на 100 слов с английского на русский и сравнил результат. По моему мнению, порядок получился примерно таким:

    1. ChatGPT

    2. Deepl

    3. Google

    4. Bing

    5. Lingvanex

    6. Translate.ru

    Два первых условно можно оставить без коррекции, Google требует коррекцию в 3-х местах, Bing - в 6, Lingvanex - в 12, Translate.ru - мусор.

    Ммм... перевод следующего абзаца оказался для Lingvanexа смертельным. Толком даже непонятно, о чем в оригинале шла речь. Текст вполне себе обычный - про доставку кофеварки и варку кофе. Deepl и ChatGPT справились практически на отлично, Google похуже, Bing еще похуже...


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00

      Результат зависит от текста (тематика, язык, направление, стилистика, локаль итд). Каждый выбирает переводчик под свои данные.


      1. SlavaHU
        00.00.0000 00:00

        Оно, конечно, да, но, как я сказал, мой тест был достаточно простым и наиболее распространенным - с английского на русский, бытовой текст, практически без специальной терминологии, если не считать таковой "double shot" про двойной эспрессо. И если один абзац требовал коррекции в паре мест в каждом предложении, то другой вообще потерял смысл.

        Попробовал что-то посложней - перевод новости с венгерского на русский - результат практически бессмысленный. То есть совсем, непонятно, о чем речь.


        1. Aliaksei_Rudak Автор
          00.00.0000 00:00

          Венгерско -русский очень сложное направление перевода. У нас перевод сделан через конвертацию в английский сначала, как у других переводчиков. Мы можем сделать прямой перевод для этой пары - если будет заказ, там будет лучше качество намного. Датасеты венгерского -русский есть


          1. SlavaHU
            00.00.0000 00:00

            Верю. Но смысла рекламировать такие "сложные направления" не вижу. Переведет так кто-то на незнакомый ему язык и даже знать не будет, что "перевод" - практически бессмысленный набор слов.


    1. ed007
      00.00.0000 00:00
      +1

      Интересно, яндекс не имеет собственного сервиса? Как еще объяснить его отсутствие в Вашем тесте? По крайней мере эстонско-русский перевод яндекса превосходит гугловский, а эстонский язык с венгерским имеет общие корни.


      1. SlavaHU
        00.00.0000 00:00

        >> Как еще объяснить его отсутствие в Вашем тесте?

        Все очень банально. Я живу не в России, Яндексом не пользуюсь, искренне ненавижу и блокирую Яндекс.Директ, периодически Яндекс заставляет меня ввести каптчу, поэтому Яндекс просто не пришел мне в голову :)

        Перевел им английский текст. Я бы сказал, где-то между Гуглом и Бингом (необходимы 4-5 коррекций), хотя пара оборотов была переведена удачнее всех.

        Что касается перевода венгерского текста - абсолютный мусор. Совсем.


  1. TiesP
    00.00.0000 00:00

    конвертации аудио в текст на 90 языков

    А что за 90 языков? Есть где-нибудь список?


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00

      Напишите на info@lingvanex.com, вам скинут список с онлайн демкой


  1. Terimoun
    00.00.0000 00:00

    Статья и правда крутая. Автор пусть продолжает.


  1. alexander222
    00.00.0000 00:00
    +1

     Я жёстко вцепился в последний шанс и начал обещать хорошие деньги, поток заказов и все что угодно, только сделайте мне это. Пусть он посмотрит задание прямо сейчас. «Хорошо, уговорил». При мне менеджер начал звонить этому разработчику на телефон, параллельно разговор шел по Скайпу.

    На заднем фоне были слышны недовольные фразы, немного мата, крики детей и пьяной компании — видно, человек умеет не только работать, но и отдыхать:) 

    Имхо пример плохого взаимодействия с людьми. Выдергивать человека с отдыха просто потому что хочется побыстрее найти решение, а по факту задача не "горящая" и вполне могла подождать понедельника - был риск испортить отношения с этим разработчиком и получить принципиальный отказработать с таким клиентом


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00

      Согласен, что по-человечески это не культурно. Но задача была горящей для нас. Вначале мы потеряли много крутых клиентов, из-за того, что не поставили демо-версию в срок.


  1. Hannnn
    00.00.0000 00:00
    +1

    кто в agency работал, тот в цирке не смеётся) аж ностальгия накрыла. Там менеджеры и тим лиды придумывают подобные схематозы с разводом заказчика. Собеседование проходит один, код пишет второй, а через месяц кидают джуна за $200 в месяц для учебы на место кодера ибо синъЁр нужен на другом проекте. На все неудобные вопросы будет 100500 тупейших ответов вида: sorry for the delay I was deep in the code!


    Самое обидное подобные конторы на апворке получают кучу звезд и зарабатывают миллионы.


    1. Aliaksei_Rudak Автор
      00.00.0000 00:00

      Все так! Пока это понял, потратил огромную кучу денег впустую.