За последний год появилось огромное число новых сервисов, которые работают на нейронных сетях. Кажется, что уже не осталось людей, кто бы не слышал о том, что chatGPT пишет новости, а Midjorney во всю создает шедевры.

Сегодня я бы хотел показать 5 сервисов на основе нейронных сетей, которые не связаны с chatGPT, Midjorney или Stable Diffusion. Эти сервисы помогают обрабатывать аудио, преобразовывать текст в речь и удалять ненужные вещи с картинок.

Cleanvoice

Cleanvoice — сервис позволяет удалять лишние шумы в аудио, например, музыку на заднем фоне, вздохи, звуки «хмм... ммм... ох...» и др. Идеально подойдет для тех, кто работает с аудио/пишет подкасты/снимает видео ролики. Для бесплатного ознакомления сервис предоставляет 30 минут обработки аудио после регистрации.

Для начала сервис предлагает выбрать, сколько аудио дорожек одновременно вы хотите обработать:

Шаг 1 cleanvoice
Шаг 1 cleanvoice

Допустим, выберем обработку одного аудио (несколько аудио обрабатываются аналогично). Теперь необходимо выбрать, что именно мы хотим почистить в аудио? Можно удалить звуки кликов мышки, щёлкания клавиатуры, цокания, шум улицы, птиц и тд.

Шаг 2 cleanvoice
Шаг 2 cleanvoice

После того как выбрали типы очищаемых звуков, можно загрузить аудио и подождать буквально 10 секунд (для аудио длиной 2 минуты).

Шаг 3 cleanvoice
Шаг 3 cleanvoice

Теперь вы просто скачиваете аудио, которое получилось, и наслаждаетесь результатом.
Плюсами сервиса я выделил:

  • Бесплатные 30 минут;

  • Удобный и понятный интерфейс;

  • Возможность гибкой настройки очищаемых данных;

  • Быстрая скорость обработки аудио.

SteosVoice

SteosVoice — сервис синтеза речи (text to speech) с очень классными русскими и английскими голосами. Содержит более 60 уникальных голосов как игровых, так и дикторских. Среди игровых голосов есть голоса из The Witcher 3, Half‑Life, Valorant, League of Legends, Overwatch и др. Всё, что нужно для начала пользования — это зарегистрироваться, затем создать свой новый проект:

Шаг 1 SteosVoice
Шаг 1 SteosVoice

После этого пишем в проекте нужный текст, выбираем любой из 60 голосов, ждем пару секунд и наслаждаемся результатом:

Шаг 2 SteosVoice
Шаг 2 SteosVoice

Также у проекта есть телеграм бот, в котором каждый день дают бесплатно 5000 символов, чего хватает для озвучивания нескольких небольших статей.

Плюсами можно выделить:

  • Бесплатно 5000 символов в день в телеграм боте;

  • Наличие API;

  • Большая библиотека голосов (более 60 голосов);

  • Наличие уникальных игровых и дикторских голосов;

  • Поддерживает русский и английский языки.

Replicate Codeformer

Replicate Codeformer — хороший сервис, который позволяет улучшать качество фотографий, делая их более четкими. Подойдет для тех, кто хочет сделать приятное своим родным, близким или знакомым, улучшив их старые фотографии.

Для начала необходимо зайти на сайт, авторизоваться через github. Далее выбрать фотографию и настроить несколько простых параметров (баланс качества и точности, улучшение фона, улучшение качества лиц и окончательный масштаб фото):

Шаг 1 replicate
Шаг 1 replicate

После чего нажимаем кнопку «Sumbit» и наслаждаемся результатом:

Шаг 2 replicate
Шаг 2 replicate

Плюсами можно выделить:

  • Понятные настройки;

  • Наличие модуля для Python;

  • Возможность использовать бесплатно.

Mubert

Mubert — позволяет сгенерировать музыку по описанию, которую можно использовать без АП. Отлично подойдет для тех, кому необходимо создать видео на ютуб, запустить музыку на стриме, кто хочет послушать что‑то новое или для любых нужд, где могут возникнуть проблемы с АП.

Для начала вы можете ввести своё описание музыки, либо выбрать из сотни фильтров те, которые вам нужны:

Шаг 1 mubert
Шаг 1 mubert

Далее выбираете длину аудио и нажимаете «Generate track»:

Шаг 2 mubert
Шаг 2 mubert

Наслаждаетесь полученным треком:

Шаг 3 mubert
Шаг 3 mubert

Из плюсов можно выделить:

  • Огромное количество фильтров;

  • Возможность создавать своё описание аудио;

  • Бесплатно 25 аудио в месяц.

Cleanup Pictures

Cleanup Pictures — предоставляем возможность удалить объекты с картинки в два клика без установки сотни плагинов, программ и прочего.

Всё, что необходимо сделать — это зайти на сайт, выбрать фото, выделить нужную область и подождать пару секунд. Пример:

Пример Cleanup Pictures
Пример Cleanup Pictures

Из плюс могу выделить:

  • Использование всего лишь в несколько кликов;

  • Возможность обрабатывать фотографии бесплатно.

Ada

Ada — симптомчекер на основе ИИ (мобильное приложение). Проводит небольшой текстовый опрос, где вы можете указать, какие симптомы вас беспокоят, а затем выдает примерный вероятностный список болезней, которым соответствуют ваши симптомы. К сожалению работает только на английском языке.

Результат опроса не является медицинским заключением! Обратитесь к врачу, чтобы получить заключение на основе пройденного опроса!

Всё, что необходимо — это зарегистрироваться, а затем пройти опрос в 15–20 вопросов.

Выбор главного симптома
Выбор главного симптома
Пример вопроса
Пример вопроса

В конце опроса будет предоставлен отчет:

Отчет по опросу
Отчет по опросу

Плюсами можно выделить:

  • Полностью бесплатное приложение;

  • Можно использовать в качестве обучающего материала.

Заключение

Сейчас из каждого утюга слышно «новый сервис на основе chatGPT, который поможем вам сделать то то то», «новый сервис, который изменит вашу фотографию так так и так». Становится очень сложно из всего этого количества сервисов выбрать те, которые хорошо работают, дешевые и нужные для работы. Поэтому делитесь действительно крутыми сервисами друг с другом, подсказывайте друзьям и обменивайтесь мнением, чтобы другим было проще ориентироваться.

Комментарии (25)


  1. Giz-A
    00.00.0000 00:00
    +3

    Даниил, подборка впечатляет. Единственное - приложения типа Ada, на мой взгляд, не должны быть в широком доступе. В мире очень много мнительных людей, которые выводы алгоритма сочтут за 100% правду, проигнорив надпись про "не является медицинским заключением". Кстати, подобные приложения ошибаются чаще, чем это можно представить. Знаю реальные случаи, когда они - простите - путали признаки метеоризма с беременностью...


    1. daniilgorbenko Автор
      00.00.0000 00:00
      +4

      Спасибо большое!

      Мне показалось интересным приложение. Тем более я решил опубликовать его именно на хабре, так как тут люди сидят понимающие (надеюсь), что всему, что связано с нейросетями и ИИ пока что доверять не стоит на 100%. А так просто интересный проект, с интересной задумкой.

      Но, как я в статье указал, эту вещь можно использовать в качестве чего-то обучающего. Например, сейчас есть куча стартапов в медицине/сфере здравоохранения, которые смогут для себя что-то узнать новое в этом приложении.


    1. venanen
      00.00.0000 00:00
      +2

      Мне кажется, что это идеальный вариант для врачей. В идеале все медицинские справочники оцифровать - чтобы если врач не знает что за болезнь (а такое часто случается, нельзя же все помнить) - просто ввел симптомы, получил уточняющие анализы, ввел анализы - получил диагноз с очень большой точностью. Особенно актуально, если болезнь редкая.


      1. Giz-A
        00.00.0000 00:00

        Согласен, об этом и пишу выше: такие приложения для профессионального врачебного, а не широкого использования.


  1. TiesP
    00.00.0000 00:00
    -4

    Забавное противопоставление) И почему же ChatGPT не "действительно крутой сервис" по сравнению с этими простейшими сервисами?


    1. daniilgorbenko Автор
      00.00.0000 00:00
      +4

      Посыл был в том, чтобы показать, что сейчас даже помимо chatGPT есть много крутых сервисов)
      А то из каждого утюга только про chatGPT и Midjorney слышно


      1. TiesP
        00.00.0000 00:00

        Ваша точка зрения понятна


    1. fasvik
      00.00.0000 00:00
      +1

      ChatGPT любит галлюцинировать, давайте не будем забывать об этом. На данный момент он полезен лишь в умелых руках, для масс он ещё непонятная игрушка, хотя бы потому что контекст он забывает быстро, не проверяет свои высказывания на действительность и, малость, не актуален: данные, на которых он был обучен датируются 2021м годом, и нет пока способа адекватно и надолго его обучить при желании.

      Лично я тоже рад такой нейросетке, стараюсь выжимать пользу из нее по полной и очень жду обновлений и дальнейшего полезного развития от неё :)


      1. TiesP
        00.00.0000 00:00

        Если добавить то, что вы говорите, то он будет уже как Робби из "Астравитянки" ... а там и до "Великого Инки" недалеко)


  1. koshi
    00.00.0000 00:00

    Результат обработки фото в Replicate Codeformer в примере всё же содержит артефакты.
    Глаза, особенно у малыша посередине, стали неестественно голубоватыми.
    Похоже исходное фото сканировалось в цветном режиме, а программа усилила цвет.
    Нужно было ещё принудительно перевести в оттенки серого на каком-то этапе, как я понимаю.


    1. daniilgorbenko Автор
      00.00.0000 00:00

      Да, есть такое. У многих сервисов беда с цветами
      Однако, как вы сказали, можно либо перевести в оттенки серого абсолютно всё до обработки
      Либо уже на пост обработке доделать такие мелочи


  1. Un_ka
    00.00.0000 00:00
    +3

    позволяет сгенерировать музыку по описанию, которую можно использовать без АП.

    Расшифруйте, пожалуйста, что АП — это авторские права.

    P.S. А потом сервис не заявит свои АП на сгенерированную музыку ;)


    1. daniilgorbenko Автор
      00.00.0000 00:00

      На платформе утверждают, что не будет проблем
      Не могу гарантировать ничего


  1. savostin
    00.00.0000 00:00
    +2

    Ada - так и не понял зачем для "ответов на несколько вопросов" ставить себе, путь и бесплатное, приложение. Мода прям какая-то. Все хотят следить - данных, даже официально, они собирают прилично.


  1. action5
    00.00.0000 00:00
    +1

    SteosVoice

    то что нужно чтобы наконец озвучить некоторые игры без русской озвучки.

    Например max payne 3 или Batman Arkham

    Первую секунду прям рванулся регистрироваться и делать. Потом остыл))

    Ну раз уж отписался спрошу. Нету такого генератора которому прямо даешь файлы с озвучкой из игры\фильма а он тебе уже выдает переведенное и с теми же голосами и актерской игрой?

    Я еще пару лет назад и сам усомнился в таком. Но сегодня... если и нету то будет уже в прямом смысле через неделю.


  1. maxwolf
    00.00.0000 00:00
    +1

    Кста, может кому встречалось что-нибудь наподобие codeformer, только для видео? Нужно "отретушировать" ранее оцифрованные 8мм ролики (убрать dust&scratches, local fading etc.). Когда-то давно (сразу после оцифровки) я немного повозился c AviSynth и понял, что усилия, которые я мог инвестировать в процесс, не давали желаемого результата. Вдруг сейчас в этом деле уже способоен пособить ИскИн?


  1. ivanov1817
    00.00.0000 00:00
    +2

    Вот это действительно интересно, особенно дальнейшее развитие.


  1. Tabke
    00.00.0000 00:00

    Какого-нибудь сервиса распознования речи, куда аудио лекции на час-полтора закидываешь и получаешь текст, нету случайно? Давно ищу...



    1. Byker
      00.00.0000 00:00
      +1

      В Adobe Premiere можно использовать функцию транскрибирования: https://helpx.adobe.com/ru/premiere-pro/using/speech-to-text.html

      ...только библиотеку для русского языка надо скачать дополнительно.


  1. shadrap
    00.00.0000 00:00
    +2

    Replicate Codeformer

    все нейросети хороши "издали" и ужасны в близи)

    Я б вам показал, что она сделала с моими армейскими снимками)))) - очень интересный эффект , на манимальном зуме - вроде фотография стала контрастнее , лица четче, фоновые артефакты то же четче, каково же было мое изумление , когда я взял отрендеренный снимок, навел на свое лицо и сделал максимальный зум - там был просто абсолютно другой человек, причем смутно напоминавший какого-то актера ))) -точно не я... , шапка "афганка" - превратилась в колпак из дерюги клеткой в 0.5 см)) пальцы.... - ну после Stable Diffusion вы представляете сколько там было пальцев))) можно еще долго рассказывать , в общем в масимальной детализации это был совсем другой снимок


    1. filma
      00.00.0000 00:00
      +2

      )))


  1. fominslava
    00.00.0000 00:00

    Попробовал SteosVoice. На сайте даже нельзя прослушать примеры голосов, бесплатно доступно только 100 символов, чего не достаточно даже для того чтобы два голоса просто послушать. Какое-то неадекватное ограничение. При этом в Телеграм-боте интерфейс гораздо лучше и доступно довольно много символов бесплатно.

    Сами голоса к сожалению оставляют желать много лучшего (слушал только английские). Из доступных английских голосов всего один звучал более менее реалистично, но на живых данных он запинался, неправильно читал некоторые слова и ритм речи был явно искусственным. В целом на рынке есть решения намного более качественные и реалистичные.


    1. action5
      00.00.0000 00:00
      +2

      "Называть я их конечно...не буду..." (c) =))


  1. bugman
    00.00.0000 00:00
    +1

    Могу дополнить список парой инструментов которыми пользуюсь сам:

    • https://github.com/abb128/LiveCaptions - самый простой для использования на десктопе ASR - Automatic Speech Recognition. Работает как и с микрофона, так и с воспроизводимого аудио. Использует свою модель / библиотеку April-ASR

    • https://github.com/ggerganov/whisper.cpp - С++ имплементация ASR использующая модель Whisper от компании OpenAI (знакомое имя?). Понимает русский, кстати. За счёт того, что консольный, легко использовать в связке с другими инструментами в сценариях типа "скачать ютуб видео | распознать весь текст оттуда".

    • https://gitlab.com/TheEvilSkeleton/Upscaler - простой в использовании но очень крутой апскейлер. Скромный разработчик даже не потрудился как следует снабдить своё репо примерами "до и после". Вот тут есть обзор - https://ubuntu-news.ru/howto/kak-uluchshit-izobrazhenie-s-nizkim-razresheniem-v-linux-prilozhenie-upscaler

    • https://github.com/coqui-ai/TTS - если нужен Text-To-Speech. Куча разных моделей на любой вкус и цвет, так что голова идёт кругом. По качеству тоже на любой вкус - есть быстрые но немного механические, есть прям вполне отличные, уровня Яндекса Алисы, не к ночи будет упомянута.