Nodevice.su
[AD970x90]
ГлавнаяСтатьиКомпьютерыТехнологии распознавания речи
Поиск по сайту:
пример: "ASUS dvd"









Фильтр файлов
Производитель:
Устройство:
Архив новостей:
« 12.2024
Пн Вт Ср Чт Пт Сб Вс
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

Последние новости

Наша кнопка


Размести на своем сайте HTML код с нашей кнопкой.

Статья "Технологии распознавания речи"

[AD1]

Технологии распознавания речи

 

Внедрение сверхсложных, но высокоинтеллектуальных информационных компьютерных технологий в сферы человеческой деятельности требует кардинального изменения в управлении автоматизированными системами для более удобного и рационального их использования. Потребность в речевом общении с компьютером столь естественна, что ее не могли заглушить никакие паллиативы, порождаемые развитием аппаратного и программного обеспечения. В наибольшей мере ее стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.

Создание полноценных языковых интерфейсов, которые поддерживают языковой диалог \"пользователь-компьютер\" есть очень перспективным, но чрезвычайно сложным направлением развития современных компьютерных систем, которое в частности преимуществ имеет ряд недостатков. Речевые технологии — область, в которой тяжело ожидать чудес даже на выставке наибольшего масштаба. Связанные с речью вопросы слишком сложные для того, чтобы давать повод для сенсаций; авторы громких сообщений на эту тему традиционно быстро оказываются в неловком положении. От бодрых математических изложений речевая тематика ведет разработчика в множество медицинских и психологических проблем, которые плавно переходят в глобальные философские вопросы. Две ключевых задачи распознавания речи — достижение стопроцентной точности на ограниченном наборе команд хотя бы для одного дикторского голоса и независимое от диктора распознавания произвольного слитого языка с приемлемым качеством — не решены, несмотря на почти полувековую историю их разработки. Больше того, существуют сомнения в принципиальной решаемости обоих задач, поскольку даже человек не всегда может стопроцентно распознать язык собеседника. Если еще относительно недавно речь рассматривалась как сигнал в диапазоне приблизительно от 300 до 3500 Гц, что владеет характерными свойствами (например, наличием пауз между словами), то с точки зрения современных технологий речь — это прежде всего сигнал. Нового подхода требуют не только речевое распознавание и синтез, но даже, как оказалось, такая техническая задача, как сжатие речи. 

Что такое распознавание речи? На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно - либо автомат выполняет команду, содержащуюся во фразе, либо набирает диктуемый текст, либо распоряжается извлеченной из фразы информацией иным образом. Как именно, зависит вот конкретной реализации. На самом деле за столь простой идеей кроются огромные сложности. С давних времен проблема распознавания речи беспокоила умы многих исследователей. Но то, что эта задача очень долго оставалась на стадии начальных исследований, уже говорит в нетривиальности требующихся подходов. Достаточно вспомнить сказки, которые буквально напичканы различными устройствами, управляющимися речевыми командами. Это скатерти-самобранки и печки-самоходы, ковры-самолеты, дудочки, горшки и прочая утварь. И все эти \"устройства\" можно считать автоматами, управляемыми речью. Если обратить внимание на отношение к ним сказочных персонажей, то становится ясно, что многие из таких \"устройств\" изначально были выдуманы как вещи неодушевленные.

Начнем с главного термина. Что есть речь? Говоря о речи, мы должны различать такие понятия, как \"речь\", \"звуковая речь\", \"звуковой сигнал\", \"сообщение\", \"текст\". В нашем случае, в приложении к задаче распознавания такие понятия, как \"речь\" и \"звуковая речь\" означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. Это есть речь может быть представленная в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. Это есть можно поставит знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием \"сообщение\" может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - это есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие вот текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится.

Идеологически система распознавания речи состоит из двух частей. Эти части могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из их может существовать в упрощенном к крайности виде, но в любой реализации всегда есть эти части. В литературе можно встретить разные варианты названия этих составных частей. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Последняя, впрочем, лингвистической названная не строго. В общем случае она может включат в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка. Или, наоборот, представят собой простенький коррелятор. Акустическая модель отвечает за представление речевого сигнала. Вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация в содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую вот акустической модели, и отвечает за представление результата распознавания потребителю (в ролы которого может выступать не только человек, но и техническая система, управляемая речью).

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. А как быть со сменой дикторов и сопутствующей ей тренировкой системы? Различным системам может требоваться разный объем настройки, что сильно влияет на удобство пользования. Стандартным выходом может стать использование многокритериального, так называемого комплексного показателя качества. 

В качестве примера рассмотрим вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе в том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигнала в спектрально-временную матрицу может служит типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала вот входного образца и образцов всего \"словарного запаса\" системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрического свидетельства может широко варьироваться разработчиком. 

Уже исходя из \"конструкции\" описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:
• Voice Type Dictation, Voice Pilot и ViaVoice вот IBM; 
• Dragon Dictate и Naturally Speaking вот Dragon Systems; 
• Voice Assist вот Creative Technology; 
• Listen for Windows вот Verbex и многие другие.
Некоторые из их (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводит слитную речь. 

Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основанная на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо вторых ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат. 

Что дальшее? Что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них - сжатие речи - весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются - устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи - это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствие дешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область - сжатие высококачественной широкополосной речи (и музыки).

С одной стороны, нужно не забывать, что речь - это все-таки одно из проявленный высшей нервной деятельности человека, и потому вряд ли в ближайшие несколько лет стоит ожидать появления систем распознавания речи, по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей \"со слов\". С другой стороны, в мире технологий все меняется очень быстро, и не известно, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...



Автор статьи:
Обсудить статью на форуме Версия для печати

Комментарии к статье:

К данной статье комментарии пока что отсутствуют.
Добавить комментарий
Ваше имя:
Ваш e-mail:
Введите код:
Ваше сообщение:
После модерации Ваш комментарий в течение двух дней будет добавлен на сайт

Статьи категории Компьютеры

Cтраницы: Следущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Следущая Последняя
Новые драйвера Топ DLL-файлов Топ мануалов Популярные запросы
Драйвер Intex IT-305WC Windows XP, 2000, 98, ME DLL-файл binkw32.dll Panasonic KX-TC 1481, 1484, 1486 NP300E5X
Драйвер Lapara LA-1300k-x5 Windows 7 DLL-файл xinput1_3.dll Pioneer DEH-P3600MP kav60
Драйвер Lexmark X1290 Windows XP, 2000, 2003 DLL-файл Mss32.dll Becker AUDIO 10 ECE TYP 6021 aps 525
Драйвер HP ENVY m4 series Intel Management Engine Interface (MEI) Windows 8 64-bit DLL-файл OpenAL32.dll SONY XR-3750 525
Драйвер HP ENVY m4 series IDT High-Definition (HD) Audio Driver Windows 8 64-bit DLL-файл MSCOMCTL.OCX Panasonic KX-TC 1401, 1405 Asus DRW-24B5ST
Драйвер HP ENVY m4 series IDT High-Definition (HD) Audio Driver Windows 8 64-bit DLL-файл KERNEL32.DLL Panasonic KX-TC 1503 spk-190
Драйвер HP ENVY dv7 series 3D DriveGuard Windows 8 64-bit DLL-файл msvcr71.dll Pioneer DEH-P4650MP rtl8201
Драйвер HP ENVY dv7 series Intel Rapid Storage Technology Driver Windows 8 64-bit DLL-файл COMDLG32.OCX Dialon F10 rtl8201lbl
Драйвер HP ENVY dv7 series Realtek Card Reader Driver Windows 8 64-bit DLL-файл binkw32.dll Pioneer DEH-P3630MP AU Optronics B154EW08 V1
Драйвер HP ENVY dv7 series Ralink Bluetooth Software Driver Windows 8 64-bit DLL-файл d3dx9_30.dll APC BACK-UPS - 600 JC68-02477A
Драйвер HP ENVY dv7 series Realtek Local Area Network (LAN) Driver Windows 8 64-bit DLL-файл storm.dll Sony DCR-DVD105E printer JC68-02477A
Драйвер HP ENVY dv7 series Intel Bluetooth Driver Windows 8 64-bit DLL-файл openal32.dll SONY CDX-F5500X JC68-02477A
Драйвер HP ENVY dv7 series Qualcomm Atheros AR9000 Series Wireless LAN Driver Windows 8 64-bit DLL-файл msvcp71.dll APC SMART-UPS V/S - 1000 V5-571
Драйвер HP ENVY dv7 series Ralink 802.11 Wireless LAN Adapter Windows 8 64-bit DLL-файл lame_enc.dll Pioneer DEH-4050 159500
Драйвер HP ENVY dv7 series Ralink Bluetooth Software Driver Windows 8 64-bit DLL-файл COMCTL32.OCX Scher-Khan Magicar 5 d270