Голосовой ввод обычно никому не нужен. В реалиях производства дешевле поставить человека, который будет ходить туда-сюда или говорить коллеге по рации и вбивать что-то в терминал, чем настраивать распознавание речи. Собственно, так мы и решали вопрос голосового ввода довольно долго.

Человек с рацией неизменно побеждал по экономическому эффекту.

image

Но у нас есть станок, выдающий муфту за муфтой для трубопроводов. Муфты сверхответственные, под давление 150 атмосфер, поэтому около станка стоит оператор и наблюдает, что же оттуда выходит.

Он внимательно смотрит на 19 муфт, а двадцатую берёт и начинает измерять разными точными инструментами. Делает он от 20 до 27 замеров, а результаты записывает на бумажке.

Затем останавливает станок, идёт к терминалу и вводит в систему данные замеров.

Возвращается и снова смотрит на муфты.

Можно было поставить второго человека — у терминала, но теперь мир поменялся: дефицит рабочих специальностей, вот это всё. Квалифицированные рабочие нужны в других местах.

Понадобилось добраться с автоматизацией до этого самого станка.

Первым сюрпризом стало то, что нужно распознавать неформальную лексику специализированную терминологию. Некоторые слова выражают одобрение догадки робота, а некоторые (обычно более короткие) означают команду «Немедленная отмена текущей операции».

Устройство-ассистент должно понимать специалиста цеха буквально с полуслова.

Сейчас я расскажу отличную историю, как мы всё это внедряли.

image
Вот схема участка. Как видите, терминалы находятся между станками. На типовую муфту нужно плюс-минус 26 параметров: номер МНС/номер партии, тип резьбы, наружный диаметр, отклонение высоты профиля, отклонение шага, конусность, диаметр расточки, диаметр резьбы, резьбовой калибр, заключение годности и т. п. Ввод их в терминал занимает примерно полторы минуты.

Зачем измеряется деталь


Поскольку изделие очень ответственное, тут и замеры, и несколько систем контроля.

Одна из основных задач оператора — осматривать муфты и визуально искать брак. Ну и тут же, как я уже говорил, он делает также замеры каждой 20-й высокоточными инструментами, а затем отправляет их в MES. Это позволяет понять, что реально производит станок и какие тренды есть в его режиме на этом конкретном материале. По сути, рабочий выступает контуром обратной связи для станка.

Контроль качества в ОТК находится дальше по цепочке. У ОТК и оператора — разные задачи: первому практически всегда выгодна максимальная выработка, он проверяет только геометрию изделия, а для ОТК важно не пропустить ни одной бракованной детали.

Можно сказать, что рабочий склонен к ложноположительным ошибкам, а ОТК — к ложноотрицательным. Нужны оба этих фильтра.

Почему деталь измеряет рабочий, а не автоматика?


Это первый вопрос, который надо задать при автоматизации такого рабочего места. Причина всё та же — экономический эффект.

База устройства-ассистента стоит несколько миллионов рублей, и ещё по нескольку миллионов за каждую часть обвеса. И не факт, что для каких-то операций такой измерительный инструмент вообще существует.

Мы примерно прикидывали: нужно около 30–40 миллионов, чтобы просто оснастить автоматикой каждый станок. Ситуация сильно осложняется тем, что для этого нужно делать НИОКР, получать патенты на способы измерения и т. п., чтобы укладываться в строгие госстандарты. То есть устройство, которое даёт обратную связь станку, стоит ещё примерно полугода разработки инженерами, довольно сложной работы с документами и требует сложного внедрения. Ну и к тому же будет нуждаться в обслуживании.

Бегло прикинув эти цифры, мы поняли, что копать глубже нет никакого смысла.

В общем, живые человеки экономически в разы выгоднее и в разы понятнее производству.

Человеки надёжны. Человеки могут научиться мерить новую муфту за секунды, надо просто дать им покрутить её в руках. Человеки хорошо резервированы: достаточно четверых с учётом смен, отпусков и болезней.

Но они же и создают узкое место, потому что каждый раз, когда идут к терминалу, станок не работает. Иначе из него пойдут муфты, которые рабочий не отсмотрит вовремя.

То есть наша задача — уменьшить время простоя станка.

Почему не поставили компьютер ближе?


Второй логичный вопрос: а зачем мы канителимся с голосовым вводом, если каждому на рабочее место можно поставить терминал? Было два защищённых компьютера на четыре станка, стало четыре — по одному у каждого. В чём проблема?

Проблема в том, что на рабочем месте человек сидит в специальных перчатках, и вводить данные на компьютере всё равно не может. Зато может карандашом ставить отметки в бумаге.

Сначала ему нужно сделать все замеры, потом он уже снимает перчатки и начинает щёлкать по клавиатуре, щурясь на бумажку.

То есть фактическая экономия составила бы ровно время ходьбы от станка к терминалу. Да, она была бы, но это не очень значительный эффект.

Как я уже говорил, куда дешевле было поставить ещё одного члена профсоюза у терминалов, чтобы он вводил то, что ему передают с места событий. Это и быстрее, и нет остановки, потому что, пока оператор измеряет деталь, он видит, что выдаёт станок.

В этот момент мы поняли: человек на терминале — это и есть интерфейс голосового ввода.

Появились варианты задачи, где можно сделать по-человечески. Их можно тиражировать, и в них хорошо сходится экономика. Сходиться, кстати, она стала с появлением дефицита людей рабочих специальностей.

Первые опыты


Первое, что мы делали, — считали экономику. Для этого надо было понять, как вообще может выглядеть рабочий процесс. Взяли салфетки, палки, гугловскую голосовую приблуду и пошли ставить эксперименты.

На терминале крутится фронтенд MES-системы, который по API общается со своим бэком и получает-отдаёт данные для конкретной базы, связанной с этим участком производства.

Мы использовали те же методы API, просто написав свою довольно простую обёртку.

Выглядела она как чат-бот, который задаёт вопросы оператору.

Сценарий такой: оператор жмякает на большую заметную кнопку перчаткой, робот спрашивает голосом:

— Какой диаметр?

Рабочий измеряет диаметр и говорит:

— 72!

Робот задаёт следующий вопрос:

— Какой тип резьбы?

Рабочий смотрит на муфту и сообщает тип резьбы.

В этом месте мы сломались первый раз, потому что рабочие знают такие слова, которых не знают стандартные словари распознавалок. Тем не менее с числами всё прошло хорошо, и стало принципиально понятно, что проект возможен.

Мы беспокоились, что в цехе шумно, но микрофон около оператора (петличка или устройство на столе перед ним) полностью решал проблему. Оставался только один тип шума — это когда одна муфта бьётся в другую. Случается это не так чтобы постоянно, но если это произойдёт в момент ответа, то распознаться может криво. Это решается!

Во время тестов сама гугловая тулза не знала, когда останавливать запись, не могла корректно разбирать концы фраз, поэтому пришлось останавливать её вручную — тоже кнопкой.

MVP


Посчитали проект, защитили его, пошли собирать прототип. Взяли спичкит от Яндекса. На рынке есть ещё несколько готовых решений, например, из подходящих нам точно был ещё Сбер. Что приятно, у обоих были и пакетные, и посекундные тарифы. То есть пока проект не стал промышленным, нам выгодно платить не за год, а по факту использованного времени распознавания.

Тут дальше надо сказать, что подключение поставщика облачных услуг — это отдельный вид танцев с бубном. Там изрядно бюрократии (нужно обосновать выбор, согласовать с безопасниками, заключить договор и прочее), а ещё надо решить и технические вопросы (описать и наладить сетевую связанность, настроить мониторинг, логи, разобраться с особенностями тарификации и биллинга). Это занимает от двух месяцев до полугода.

Выбор между Яндексом и Сбером был сделан в пользу Яндекса, т. к. весь путь подключения мы с ними уже прошли, есть канал связи до их ЦОДа — не через публичный Интернет. А это суперважно для защиты передаваемого голоса! Есть договор. Есть интеграция инфраструктур.

В общем, дальше, может быть, и сменим поставщика, если понадобится, но пока выбрали их.

Вторая важная особенность — они легко дообучают свой спичкит. Все те сложные слова и термины, которыми просто сыпали рабочие, мы аккуратно занесли в словарь.

Например, рабочий может сказать: «НКТН», «ОТТГ», «ОМК ПОЛАР», «МНС 5-1-1 муфты под фосфатное покрытие», «168 батресс группы прочности Д». Ну и ещё спичкит обижается на слово «соосность». Но нет, это не пожелание роботу и не оценка качества его работы.

Самого робота сделали на готовой платформе для чат-ботов. Просто нарисовали сценарий, и он по нему бегает. Добавили простой фронт на Vue, бэк для связи с API MES на Питоне. Пока всё очень и очень просто. Поставили в тестах на обычные телефоны. Рабочий жмякает кнопку, робот его опрашивает, в конце данные заносятся в MES.

Сначала хотели сделать навык для Алисы вместо всего этого, но там «из коробки» мало что подходит. Во-первых, оператор станка после дня тестов дома назвал жену Алисой, за что жестоко пострадал. Правда, он так называл всех встречных, кажется, но с женой — очень зря. Во-вторых, есть проблема «лакей-пугало» (это слово для вызова гугл-ассистента: «Окей, гугл»). Алиса «из коробки» ничего не сечёт в производстве, увы, никак.

Нюансы


Во-первых, устройства — те, которые телефоны или планшеты. Сначала мы искали промышленного класса в ударопрочном корпусе, но потом решили, что достаточно обычных планшетов.

Во-вторых, надо было прорабатывать варианты, как сотрудник мог бы, не снимая перчаток, стартануть диалог. Рабочие посоветовались и попросили специальную палку, чтобы тыкать ею в кнопку: так им удобнее, чем снимать перчатку. А если тачскрин будет неудобен, то можно будет использовать и просто карандаш с ластиком.

В-третьих, рабочие начали воспринимать робота как крайне тупое существо, которое всё же должно реагировать на команды. Пришлось добавлять ветки диалога на повторный ввод данных и понимать, что некоторые одинаковые слова в разных частях диалога значат разное.

— Диаметр?

— 71. #% твою мать! ?%#@r%(@, %#ка, то есть 72!

— Не разобрал, какой диаметр?

— Да 72, блин, 72!

— Диаметр 72, верно?

— Да.

Сразу скажу, что такие диалоги — редкость, и операторы станков — вежливые интеллигентные люди. Но при виде дефекта они могут быть очень взволнованы и требовать немедленной реакции на специальном заводском языке, преимущественно состоящем из коротких специальных контекстно зависимых терминов.

То есть, если робот не уверен, он должен повторить то, что разобрал за человеком, и попросить подтверждения.

В-четвёртых, нужна ещё одна защита на случай неверного распознавания. Например, если диаметр вдруг стал 74 мм при нормативе производства до 72,3 мм, то робот удивляется, останавливает оператора и спрашивает, уверен ли тот. То есть случайные неверные распознавания ещё контролируются тем, что робот ожидает, в каком довольно жёстком интервале они будут. Это ещё больше логики бэка и ещё одна связка с MES.

В-пятых, тот самый лязг соударяющихся муфт. Разработчики разных спичкитов говорили: они могут докрутить инструменты так, что некоторые эти частоты будут давиться, либо что можно переобучить с учётом этих звуков и перекрытий ими, и проблема решится. Похоже, что проблема действительно решится, но пока её особо и нет: лязг редко попадает на числа, а если он помешал, то робот переспрашивает.

В-шестых, оказалось, что операторы могут сказать роботу: «Стой, я там пять минут назад не то сказал». Тут уж его полномочия — всё: робот грустно сообщает, что если накосячил, — надо вставать, идти к терминалу и там всё исправлять, как обычно.

В-седьмых, мы хотим определение ключевого слова. «Эй, железяка!» — и дальше уже включается запись. Вот эта пусковая часть «Эй, железяка!» должна быть полностью на нашей стороне, потому что мы точно не хотим, чтобы какой-то сторонний софт постоянно слушал завод.

Понадобится простой ASR-движок для локального распознавания прямо в приложении.

Практика внедрения


В эксплуатацию ещё не сдавали, потому что вон сколько доработок! А мужики в цехе ждут, ведь им очень не нравится возиться с терминалом.

Через несколько коррекций сценария (он становится всё разветвлённее) мы выйдем на тестовую эксплуатацию. Думаю, что к концу ноября. Но уже сейчас понятно, что даже тот MVP, который есть сейчас, отлично решает нашу локальную задачу. Операторы уже не останавливают станок, весело препираются с роботом, если что-то не нравится — по старинке идут к терминалу. Теперь всё это надо сделать не на коленке, а с нормальной архитектурой, без костылей, правильно с точки зрения ИБ, задокументировать, настроить бекапы и резервирование на случай отказа и всё такое.

Удивительно то, что это задача, где голосовой ввод — не для того, чтобы он был, а потому, что оказался самым практичным и удобным вариантом. И это точно покажет реальный экономический эффект!

За помощь в подготовке поста большое спасибо Эдуарду Голубеву.

Комментарии (37)


  1. iamoblomov
    08.11.2023 07:24
    +9

    у китайцев видел в аналогичной ситуации сидит китаянка, у нее китайские электронные штанген и рейсмус, на них кнопки, она меряет, давит кнопку, данные уходят (по блютуз скорее всего, но там может и кастомный радиопротокол, китайцы такие китайцы).

    в принципе если инструмент не сложнее штангена и микрометра - отличная схема, но если там кастомная оснастка какая то да, человека посадить удобнее


    1. Radisto
      08.11.2023 07:24

      Вот это наверное самый перспективный подход


    1. tlv
      08.11.2023 07:24
      +1

      Инструмент на заводе весь поверенный и сертифицированный три раза, купить штанген с блютусом - это будет только первый шаг на длинном и дорогом пути, лайт версия с автоматизированным измерением, описанным автором в статье, считай.


      1. iamoblomov
        08.11.2023 07:24

        ну в моем наблюдении китайский полуподвал, где штангена с его 5соток точности вполне, а тут может быть вполне себе топовое производство, где допуски в микрометрах меряются, но да, человек как прокладка между измерительным инструментом и базой данных выглядит как костыль)


        1. Vytian
          08.11.2023 07:24

          "Штангель -- это просто калиброванная рука." По-английски даже прямо так и называется -- caliper, калибр, а разговорно так вообще scale. Штангель прикладывает по-любому человек, и от навыка прикладывания у человека зависит ну вот приблизительно всё.

          Блютус, конечно, делает всё лучше. Но качественный и надежный в условиях цеха беспроводной инструмент, даже штангель с контролем усилия и помехоустойчивым мощным модулем связи/приемником (каковых еще поискать на рынке), требует совсем непростого софта на базе САП, и гибкого взаимодействия с этим софтом, либо очень кастомной тулзы и разработчика этой тулзы в шаговой доступности. И там кончно нужен интерактивный ввод с контролем и редактированием... ну или голосовой интерфейс, штатно отрабатывающий "&%$! @#$%& сказал, дык, там 72.3 заушина, абономат".

          Ну а совсем уж высший пилотаж, -- это калиброванный 3Д-сканер с кастомым софтом на борту, что-то вроде Artec Leo, но там экономика мягко говоря взрывается уже на этапе разработки.

          Ваш К. О.


  1. diakin
    08.11.2023 07:24

    Можно стукнуть молоточком, деталь должна откликаться на определенной частоте. При любом отклонении собственная частота колебаний будет изменяться. Может отсюда что-то удастся вытащить.


    1. defecator
      08.11.2023 07:24

      вряд ли это будет работать в условиях шума станков и производства


      1. diakin
        08.11.2023 07:24
        +1

        Это надо конкретно смотреть. Для начала надо взять эталонную деталь и разные дефектные и сравнить отклик где-нибудь в тихом месте, работает ли вообще.
        Второй момент - а почему вообще может возникать брак? То есть 10 деталей нормально, а 11-я с брачком? А потом опять все нормально? Типа заготовка может встать кривовато и от этого брак?


        1. Radisto
          08.11.2023 07:24
          +1

          Так обычно и бывает. Или заготовка неформатная. Или свойства материала отличаются от среднего (партия материала сменилась, к примеру), или толщина (на толщину например есть допуски, и вам может на стадии отработки технологии попасться партия вблизи минусового допуска, а потом снабженцы купят вблизи плюсового. И то и то соответствует стандартам, а если вы требуете точность выше стандартов, с вас могут содрать три шкуры или вы не найдете поставщиков, если вы маленький и небогатый)


    1. Radisto
      08.11.2023 07:24

      Метод свободных колебаний называется. Геометрические параметры так не снять, если нужно точнее чем плюс-минус лапоть


  1. heleo
    08.11.2023 07:24
    -2

    А почему нельзя автоматизировать сам процесс контрольных измерений?


    1. NikolayProklov Автор
      08.11.2023 07:24
      +2

      В основном потому что это дорогостоящий и не особо рентабельный проект, так как нужно дополнительно оборудовать каждый станок.

      Подробнее об этом — в самой статье, часть «Почему деталь измеряет рабочий, а не автоматика?»)


  1. ZvoogHub
    08.11.2023 07:24
    +12

    но это ж явный регресс.

    Просто нажать на ручном терминале кнопки 7, 2, Ентер будет быстрее, проще и понятней. Терминал в ударопрочном корпусе с экраном который можно нажимать в промасленных перчатках стоит порядка 100т.р.

    А тут вы всем работу нашли. Программисты программируют, рабочие обучаются, отдел обучения проводит семинары "как правильно произносить цифры", отдел кадров при приёме на работу проверяет чтоб у рабочего не было дефектов речи и он хорошо говорил по-русски.


    1. aik
      08.11.2023 07:24

      Терминалу нужны свободные руки.То есть двумя руками рабочий измеряет, а ещё двумя - вводит информацию в терминал. Если же "измерил- ввёл" - не особо отличается от похода к компьютеру, измерялку придётся положить.


  1. Glays
    08.11.2023 07:24
    +4

    Проблема в том, что на рабочем месте человек сидит в специальных перчатках, и вводить данные на компьютере всё равно не может. Зато может карандашом ставить отметки в бумаге.

    То есть вместо стандартного интерфейса ввода отчёта и стандартной клавиатуры планшета (которая тоже умеет использовать голосовой ввод) сделали "мастер" с голосовым озвучанием интерфейса с вводом ответов голосом?

    Надеюсь планшет хотя бы показывает обратную связь для рабочего, чтобы ему не приходилось переспрашивать?


    1. NikolayProklov Автор
      08.11.2023 07:24

      Сделали голосового ассистента, который идет по сценарию, спрашивая сотрудника поочередно об проделанных им геометрических измерениях. В стандартной клавиатуре планшета использовать голосовой ввод не удалось, потому что нет возможности распознавать большое количество специализированных производственных слов.

      Планшет конечно же показывает сотруднику, что именно он вводит, для сокращения времени проверки вводимых данных и поднятия доверия к системе.


      1. Glays
        08.11.2023 07:24

        Сделали голосового ассистента, который идет по сценарию, спрашивая сотрудника поочередно об проделанных им геометрических измерениях.

        До того как появились голосовые ассистенты, в интерфейсах начали использоваться визуальные ассистенты https://ru.wikipedia.org/wiki/Мастер_(интерфейс_пользователя)

        В стандартной клавиатуре планшета использовать голосовой ввод не удалось, потому что нет возможности распознавать большое количество специализированных производственных слов.

        Насколько кастомизировать голосовой ввод было проще чем добавить большое количество специализированных производственных слов в выпадающие списки интерфейса или на крайний случай словарь клавиатуры?


        1. NikolayProklov Автор
          08.11.2023 07:24

          Добавление большого количества специализированных производственных слов в выпадающие списки неудобно тем, что сотрудник будет вынужден руками тыкать в списки. Нам же нужно, чтобы он не отвлекался от ручных измерений и параллельно вводил данные.

          Кастомизация словаря прошла не сложно. Мы вместе с сотрудниками цеха составили глоссарий, отправили в Яндекс и они дообучили свою языковую модель нужными нам словами/аббревиатурами.


  1. SquareRootOfZero
    08.11.2023 07:24
    +4

    Голосовой ввод обычно никому не нужен.

    Я себе вот буквально на днях сделал "голосовой ввод", распознающий единственное "слово" - щелчок языком, и интерпретирующий его как команду поставить на паузу видео в активном плэере (youtube в браузере, VLC). Делая что-то по дому, часто слушаю что-то по беспроводным наушникам - типа, я на кухне, мою посуду, и тут вдруг кто-то из членов семьи и домочадцев подходит и начинает чего-то задвигать - обычно надо тарелку в раковину положить, руки сполоснуть, воду закрыть, руки вытереть, в комнату к себе сбегать, паузу на компе нажать, вернуться, сказать: "Давай всё то же второй раз излагай." Дослушав, обратным порядком действий возобновить мытьё посуды. А тут - языком щёлкнул, видео застопорилось, щёлкнул опять - заиграло. Вот только иногда бывают ложные срабатывания на звон тарелок. Потому что "распознаётся", фактически, только резкий пик уровня звука: поставишь слишком высокий порог срабатывания - не с первого раза удаётся достаточно громко и резко языком щёлкнуть, поставишь слишком низкий - то и дело на звяканье столовых приборов реагирует. А прикручивать прям реальное распознавание речи чо-то неохота...


    1. event1
      08.11.2023 07:24

      отличная идея. Сразу пришло в голову, что можно срабатывать на два щелчка, чтобы отсеять ложноположительные срабатывания.


  1. Arkasha
    08.11.2023 07:24

    Мы примерно прикидывали: нужно около 30–40 миллионов, чтобы просто оснастить автоматикой каждый станок

    А что измерять нужно, если не секрет?


    1. NikolayProklov Автор
      08.11.2023 07:24

      Измеряем наружный диаметр, отклонение высоты профиля, отклонение шага, конусность, диаметр расточки, диаметр резьбы, резьбовой калибр, натяг.


      1. Arkasha
        08.11.2023 07:24

        Можно повесить 4 2d сканера на раму и прогонять трубу через неё, и математика там несложная. А у вас с каким подходом столько денег на рабочее место получилось?


        1. NikolayProklov Автор
          08.11.2023 07:24

          В посте, в разделе "Почему деталь измеряет рабочий, а не автоматика" подробно рассказываем почему не пошли в использование автоматики в данном кейсе.


  1. HiLander
    08.11.2023 07:24
    +1

    У меня очень странный вопрос, скорее всего на который имеется вполне логичный ответ, но в рамках статьи я его не увидел (недопонял). Какова реакция системы на выход одного из измерений за расчетный параметр? Станок ведь останавливается для перенастройки, верно? Разбор полетов там, так ведь? При ЛЮБОМ неверном измерении? Может к каждому контролеру (не путать с контроллером)))) вместо навороченного планшета просто провести большую кнопку СТОП? (или пару кнопок, если действительно разница есть). А голосом он уже наладчику будет в понятных терминах объяснять что пошло не так?


    1. NikolayProklov Автор
      08.11.2023 07:24

      Если какой-либо параметр выходит за норматив, то да, станок останавливают и проверяют настройки и режущий инструмент. Не совсем понял на какие контроллеры вешать кнопки СТОП и кто на них будет нажимать))


  1. GeorgeTudosi
    08.11.2023 07:24
    +2

    Отличный рассказ, спасибо.

    Проблема в том, что на рабочем месте человек сидит в специальных перчатках, и вводить данные на компьютере всё равно не может. Зато может карандашом ставить отметки в бумаге. 

    А почему нельзя сделать клавиатуру с кнопками размером с кулак?


    1. NikolayProklov Автор
      08.11.2023 07:24

      Можно, но штангенциркуль из рук все равно придется выпустить.


      1. GeorgeTudosi
        08.11.2023 07:24

        Оказывается, такое уже сделали.


  1. fivlabor
    08.11.2023 07:24
    +1

    Решение с голосовым вводом данной задачи выглядит как "Надо повысить наукоемкость производства, например, внедрить ИИ, придумайте там что-нибудь".

    Еще Вы пишите "рабочий склонен к ложноположительным ошибкам", но при этом делаете голосовой ввод значений - не будет ли рабочий умышленно говорить "нужные", а не измеренные числа?

    Может лучше ему выдать электронный штангенциркуль с передачей данных (есть блютузные, есть проводные, опредяются как клавиатура), да монитор поближе переставить, чтобы значения по кнопке записывались куда надо? Возможно понадобится пульт с тремя кнопками, но его как угодно можно делать, лишь бы перчатки нажимать позволяли. Пульт с тремя кнопками "отменить предыдущий замер", "начать замер изделия сначала" и "отправить замер" - тут прикинуть надо, какие нужны.


    1. NikolayProklov Автор
      08.11.2023 07:24

      Изменение процесса ввода значений не приводит к изменению принятия решений у рабочих.

      Насчет электронного штангерциркуля и поставить поближе монитор подробно написано в статье, почему мы не стали так делать.


  1. event1
    08.11.2023 07:24
    +1

    Во-первых, это просто великолепно:

    требовать немедленной реакции на специальном заводском языке, преимущественно состоящем из коротких специальных контекстно зависимых терминов.

    Во-вторых, если рабочий может держать карандаш в перчатках, то он может этим же карандашом (или любой другой палкой) нажимать кнопочки цифровой клавиатуре 3х4 (или чуть больше). Тот же мастер будет его водить от поля к полю и просить вводить данные. Эффект примерно тот же, но не нужен ни голосовой помощник, ни даже тачскрин.


  1. SergioT4
    08.11.2023 07:24
    +1

    Не пробовали открытую модель whisper v3 у неё ж MIT лицензия?

    Говорят качество очень на уровне - гонять потоки никуда не надо.


    1. NikolayProklov Автор
      08.11.2023 07:24

      Мы как раз сейчас пробуем использовать whisper v3 для запуска бота по ключевой фразе.


      1. SergioT4
        08.11.2023 07:24

        Почему только ключевой? Он всю фразу хуже распознает? Или вы урезанную версию на cpu используете?


        1. NikolayProklov Автор
          08.11.2023 07:24

          Цифры хорошо распознает, а вот со словами пока есть проблемы. Разбираемся как можно можно поднять точность. Если есть мысли как это можно сделать, буду рад))


  1. brodroid
    08.11.2023 07:24

    Как высказались в комментариях 2д сканер или умный измерительный инструмент будет гораздо более правильным решением.

    Что касается голосового ввода, то очевидно, что вам надо искать edge SDK, а не Клауд. То есть, если отбросить всю остальную критику и принять ваш подход правильным то cloud - самый большой concern для всей архитектуры. Как максимум - локальный деплой, однако edge это самое правильное.