КомпактныйПри использовании словаря из 35 000 слов «Лингурус» весит 80 Мб, |
ТочныйТочность распознавания на общем словаре из 35 000 слов — 90 %. |
БыстрыйСредняя скорость распознавания сравнима с реальной скоростью произношения. |
АдаптивныйЯзыковую модель «Лингуруса» |
Автономный«Лингурусу» не нужно подключение |
ПлатформонезависимыйИнтегрируется в любую среду. |
Мы бы хотели не стучать по клавишам, а говорить и видеть, как слова превращаются в печатный текст. Врач, наверняка, захочет освободиться от писанины, которой он вынужден заниматься во время приема пациента, и просто диктовать машине результаты обследования и диагноз. Мы бы, конечно, хотели поговорить с человеком, который не владеет ни одним из языков, которыми владеем сами, и при этом компьютер –прямо как в Star Trek – понимал нашу речь, переводил ее на язык нашего собеседника и произносил. Есть много ситуаций, когда у нас заняты руки, и мы бы хотели использовать свободный в этот момент канал связи – речевой.
«Иногда эта функция промышленных и бытовых устройств становится особенно актуальной: она нужна тем, кто находится за рулем автомобиля; выполняет работы на высоте или при низких температурах; больным и инвалидам. Также голосовое управление поможет при необходимости экстренной остановки устройств и механизмов», – говорит Дмитрий Козин, руководитель отдела перспективных разработок компании «ИнтэлЛекс» и проекта «Лингурус».
«Главная трудность подобных разработок… заключается в значительной мере в синтетическом характере языка. В русском языке употребляется огромное число словоформ. Как следствие, возникает необходимость работы с большим словарем в миллионы словоформ», — уточняет Дмитрий Козин.
Распознавание речи – это задача искусственного интеллекта. Человек умеет ее решать, но и человек распознает речь только с некоторой точностью, в зависимости от внешних условий.
В проекте «Лингурус» реализована собственная система автоматической транскрипции в акустическую модель. «Наша система базируется на собственном фонетическом "алфавите", в котором все звуки речи (псевдофонемы) могут быть охарактеризованы по суперпозиции некоторого множества численных признаков. На основе этих признаков мы можем дать вероятностный ответ – какая из псевдофонем звучит на данном конкретном участке речевого сигнала. Таким образом, имея словарь с транскрипциями, мы можем вычислить вероятность звучания каждого слова целиком… Отличительной чертой транскрипций, которые используются в "Лингурусе", является учет возможной редукции и подмены безударных гласных звуков, ассимиляции звуков по мягкости и звонкости, а также многих других особенностей произношения, характерных для беглой речи», – описывает ее работу Дмитрий Козин.
Качество распознавания речи при фиксированной тематике и минимальном шуме сегодня очень высокое. У ведущих компаний точность превышает 95–97% (примерно такая же, как и у человека). При распознавании слитной речи произвольного диктора (то есть такого, чей голос программа не знает заранее) и наличии шумов точность распознавания резко падает. Человек справляется с такого рода задачей лучше, чем компьютер. Но и в этом направлении ведущие компании предлагают решения, которые в среднесрочной перспективе (5–10 лет) вполне могут приблизиться по качеству распознавания слитной речи компьютером к возможностям человека.
Читайте полный текст статьи на РБК
17 ноября 2014 г.