Автор Тема: Голосовое управление в умном доме уже реальность  (Прочитано 1319 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Сергей Горбачевский

  • Administrator
  • Знаменитый писатель
  • *****
  • Сообщений: 73385
  • Репутация: +321/-4
  • Пол: Мужской
  • Киевстар и Коболев одна шайка
    • Награды
Голосовое управление в умном доме уже реальность
« : 23, Октябрь 2014, Четверг, 22:21:55 pm »
Серверное распознавание речи с использованием Google ASR или Яндекс SpeechKit давно уже не новость. Но у такого распознавания есть ряд своих минусов. Это скорость обработки, её стоимость и ну и ряд других, более второстепенных.

Так вот серверному распознаванию есть альтернатива - локальное распознавание, да ещё и с открытым кодом. Есть замечательный проект CMU Sphinx - Open Source Toolkit For Speech Recognition, Project by Carnegie Mellon University - http://cmusphinx.sourceforge.net/

По-русски - движок распознавания речи с открытым исходным кодом. Он есть под основные мобильные платформы, в том числе и Андроид. Такое распознавание, реализованное на смартфоне или другом устройстве на ОС, называют ещё сверхбыстрым, в противовес серверному распознаванию.

Справедливости ради, нужно отметить, что речь в данном случае идёт о распознавании не слитной речи. Зато этот движок легко приспосабливается под любой язык, в том числе и русский.

Для этого составляется фиксированный словарь из слов, которые нужно распознавать, а для каждого слова пишется транскрипция - последовательность звуков.

Ударная гласная записывается записывается удвоением этих гласных, согласная, за которой идёт гласная, тоже удваивается.

Все возможные комбинации для всех звуков русского языка можно найти в самой языковой модели - http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Russian%20Voxforge/

С помощью этого движка можно и решать обратную задачу - синтезировать речь.

В сети уже достаточно много примеров конкретных применений упомянутого движка. Не всё там влёт, некоторые параметры нужно подбирать экспериментальным путём, например, чувствительность микрофона и интервалы между словами. Плюс распознавание более сложная задача, чем синтез, хотя это вроде бы и обратные задачи. Поэтому "игрушек" с приличным синтезом куда больше, чем с приличным распознаванием.

Исходя из сказанного, можно предположить, что в ближайшее время будет появляться всё больше "интеллектуальных" устройств, распознающих голосовые команды, причём цена не будет космической, поскольку инструмент - ПО с открытым кодом.

Вкратце как-то так.  ;)