odolopo
блог · стройка

Голосовой ввод в кабинете строителя — что замеряли

2 мин чтениясобственникСИК ОПОРА · одновременно соучредитель odolopo

Когда мы запускали голосовой ввод, гипотеза была «прораб с телефона в перчатках на стройке — печатать сложно, диктовать удобно». Замеряли — гипотеза подтвердилась с поправкой: важна не только скорость, но и приватность.

Почему свой Whisper, а не облако

Очевидное решение — Google Cloud Speech / Yandex SpeechKit. Не сделали по двум причинам:

  1. 152-ФЗ — голос с упоминанием объекта, клиента, цены — это персональные данные плюс коммерческая тайна. Отправлять в чужое облако — лишний риск согласований.
  2. Цена в долгую — облачные API считаются в копейках за минуту, но при 50 пользователях × 30 минут диктовки в день × месяц получается ощутимая сумма. Свой сервер за фиксированную цену амортизируется за 2-3 месяца.

Поэтому собрали свой инференс на faster-whisper, модель small (для русского достаточно, не нужна large-v3), пинит порт 8787 на нашем VDS. Запрос с фронта → audio chunk → транскрипт → подставляется в поле. Голос с сервера никуда не уходит.

Что замеряли

В Москве и Краснодарском крае на разных устройствах. Конкретные цифры:

  • iPhone 13, Chrome iOS, тихий офис — точность 96-98%, латентность 1.2-1.8 сек.
  • Android 9 (Samsung A20), Chrome Android, стройка с шумом — точность 87-91%, латентность 1.8-2.5 сек.
  • Старый Lenovo K6 (Android 7), родной браузер — MediaRecorder работает, точность 84-89%, латентность 2.5-3.5 сек.

Главный сюрприз — старый Android отрабатывает приемлемо. Хуже всего — bluetooth-гарнитуры в шумных условиях, там точность падает до 75-80%. Решение — диктовать в микрофон телефона напрямую.

Где работает

Поля «описание задачи», «заметки в карточке клиента», «комментарии в ленте проекта», «строка позиции в смете». Везде, где есть видимая иконка микрофона.

В планах — голосовая навигация («открой смету Петрова», «новая задача прорабу Иванову»). Пока — только заполнение полей.

Где попробовать

На app.odolopo.com в любой карточке задачи или сметы. Иконка микрофона справа от текстового поля. Первый раз браузер запросит разрешение на микрофон — это разовое.

Подробнее про модуль — на /platform. Полный список фич мая — на /news.

Попробуйте бесплатно

Регистрация 30 секунд: email, пароль, название компании. Реквизиты заполнятся автоматически по ИНН. База материалов уже в каталоге. 14 дней Pro без банковской карты.