Всего:

драйвера - 85137

dll-файлы - 19620

мануалы - 7659

устройства - 32734

статьи - 531

Добавить в избранное Сделать стартовой

[AD970x90]

Главная Статьи КомпьютерыТехнологии распознавания речи

Фильтр файлов

Производитель:
Устройство:

Архив новостей:

Последние новости

Наша кнопка

скачать драйвера

Размести на своем сайте HTML код с нашей кнопкой.

Обмен ссылками Выделить

Статья "Технологии распознавания речи"

[AD1]

Технологии распознавания речи
Внедрение сверхсложных, но высокоинтеллектуальных информационных компьютерных технологий в сферы человеческой деятельности требует кардинального изменения в управлении автоматизированными системами для более удобного и рационального их использования. Потребность в речевом общении с компьютером столь естественна, что ее не могли заглушить никакие паллиативы, порождаемые развитием аппаратного и программного обеспечения. В наибольшей мере ее стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения. Создание полноценных языковых интерфейсов, которые поддерживают языковой диалог \"пользователь-компьютер\" есть очень перспективным, но чрезвычайно сложным направлением развития современных компьютерных систем, которое в частности преимуществ имеет ряд недостатков. Речевые технологии — область, в которой тяжело ожидать чудес даже на выставке наибольшего масштаба. Связанные с речью вопросы слишком сложные для того, чтобы давать повод для сенсаций; авторы громких сообщений на эту тему традиционно быстро оказываются в неловком положении. От бодрых математических изложений речевая тематика ведет разработчика в множество медицинских и психологических проблем, которые плавно переходят в глобальные философские вопросы. Две ключевых задачи распознавания речи — достижение стопроцентной точности на ограниченном наборе команд хотя бы для одного дикторского голоса и независимое от диктора распознавания произвольного слитого языка с приемлемым качеством — не решены, несмотря на почти полувековую историю их разработки. Больше того, существуют сомнения в принципиальной решаемости обоих задач, поскольку даже человек не всегда может стопроцентно распознать язык собеседника. Если еще относительно недавно речь рассматривалась как сигнал в диапазоне приблизительно от 300 до 3500 Гц, что владеет характерными свойствами (например, наличием пауз между словами), то с точки зрения современных технологий речь — это прежде всего сигнал. Нового подхода требуют не только речевое распознавание и синтез, но даже, как оказалось, такая техническая задача, как сжатие речи. Что такое распознавание речи? На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно - либо автомат выполняет команду, содержащуюся во фразе, либо набирает диктуемый текст, либо распоряжается извлеченной из фразы информацией иным образом. Как именно, зависит вот конкретной реализации. На самом деле за столь простой идеей кроются огромные сложности. С давних времен проблема распознавания речи беспокоила умы многих исследователей. Но то, что эта задача очень долго оставалась на стадии начальных исследований, уже говорит в нетривиальности требующихся подходов. Достаточно вспомнить сказки, которые буквально напичканы различными устройствами, управляющимися речевыми командами. Это скатерти-самобранки и печки-самоходы, ковры-самолеты, дудочки, горшки и прочая утварь. И все эти \"устройства\" можно считать автоматами, управляемыми речью. Если обратить внимание на отношение к ним сказочных персонажей, то становится ясно, что многие из таких \"устройств\" изначально были выдуманы как вещи неодушевленные. Начнем с главного термина. Что есть речь? Говоря о речи, мы должны различать такие понятия, как \"речь\", \"звуковая речь\", \"звуковой сигнал\", \"сообщение\", \"текст\". В нашем случае, в приложении к задаче распознавания такие понятия, как \"речь\" и \"звуковая речь\" означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. Это есть речь может быть представленная в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. Это есть можно поставит знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием \"сообщение\" может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, - это есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие вот текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится. Идеологически система распознавания речи состоит из двух частей. Эти части могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из их может существовать в упрощенном к крайности виде, но в любой реализации всегда есть эти части. В литературе можно встретить разные варианты названия этих составных частей. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Последняя, впрочем, лингвистической названная не строго. В общем случае она может включат в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка. Или, наоборот, представят собой простенький коррелятор. Акустическая модель отвечает за представление речевого сигнала. Вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация в содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую вот акустической модели, и отвечает за представление результата распознавания потребителю (в ролы которого может выступать не только человек, но и техническая система, управляемая речью). Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. А как быть со сменой дикторов и сопутствующей ей тренировкой системы? Различным системам может требоваться разный объем настройки, что сильно влияет на удобство пользования. Стандартным выходом может стать использование многокритериального, так называемого комплексного показателя качества. В качестве примера рассмотрим вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе в том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигнала в спектрально-временную матрицу может служит типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала вот входного образца и образцов всего \"словарного запаса\" системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрического свидетельства может широко варьироваться разработчиком. Уже исходя из \"конструкции\" описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями: • Voice Type Dictation, Voice Pilot и ViaVoice вот IBM; • Dragon Dictate и Naturally Speaking вот Dragon Systems; • Voice Assist вот Creative Technology; • Listen for Windows вот Verbex и многие другие. Некоторые из их (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводит слитную речь. Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основанная на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо вторых ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат. Что дальшее? Что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них - сжатие речи - весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются - устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи - это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствие дешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область - сжатие высококачественной широкополосной речи (и музыки). С одной стороны, нужно не забывать, что речь - это все-таки одно из проявленный высшей нервной деятельности человека, и потому вряд ли в ближайшие несколько лет стоит ожидать появления систем распознавания речи, по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей \"со слов\". С другой стороны, в мире технологий все меняется очень быстро, и не известно, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль...
Автор статьи:
Обсудить статью на форуме	Версия для печати

Комментарии к статье:
К данной статье комментарии пока что отсутствуют.

Статьи категории Компьютеры
Расшифровка рейтингов мобильных процессоров Intel для ноутбуков
Чем тестируют ВОЛС (волоконно-оптические линии связи)?
Высокоскоростные сетевые карты не так уж и быстры?
Алюминиевый корпус Thermaltake Xaser III
Быстрый взгляд на производительность Intel Pentium 4 c 800 МГц FSB
Тестирование Gigabyte 7VAXP-A Ultra: KT400A в массы!
ABIT BH7 (845PE): 800 МГц FSB и дёшево!
Печатные платы
Программаторы. Краткий обзор.
Измерение джиттера в цифровых системах

Cтраницы:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Новые драйвера	Топ DLL-файлов	Топ мануалов	Популярные запросы
Драйвер Intex IT-305WC Windows XP, 2000, 98, ME	DLL-файл binkw32.dll	Panasonic KX-TC 1481, 1484, 1486	PRO11.MSI
Драйвер Lapara LA-1300k-x5 Windows 7	DLL-файл xinput1_3.dll	Pioneer DEH-P3600MP	F21-7000-B
Драйвер Lexmark X1290 Windows XP, 2000, 2003	DLL-файл Mss32.dll	Becker AUDIO 10 ECE TYP 6021	ez-700
Драйвер HP ENVY m4 series Intel Management Engine Interface (MEI) Windows 8 64-bit	DLL-файл OpenAL32.dll	SONY XR-3750	srx2216
Драйвер HP ENVY m4 series IDT High-Definition (HD) Audio Driver Windows 8 64-bit	DLL-файл MSCOMCTL.OCX	Panasonic KX-TC 1401, 1405	srx2216
Драйвер HP ENVY m4 series IDT High-Definition (HD) Audio Driver Windows 8 64-bit	DLL-файл KERNEL32.DLL	Panasonic KX-TC 1503	ыкч2216
Драйвер HP ENVY dv7 series 3D DriveGuard Windows 8 64-bit	DLL-файл msvcr71.dll	Pioneer DEH-P4650MP	IDT 92HD81B1X
Драйвер HP ENVY dv7 series Intel Rapid Storage Technology Driver Windows 8 64-bit	DLL-файл COMDLG32.OCX	Dialon F10	IDT 92HD81B1X
Драйвер HP ENVY dv7 series Realtek Card Reader Driver Windows 8 64-bit	DLL-файл binkw32.dll	Pioneer DEH-P3630MP	W03
Драйвер HP ENVY dv7 series Ralink Bluetooth Software Driver Windows 8 64-bit	DLL-файл d3dx9_30.dll	APC BACK-UPS - 600	ASUS swd generic
Драйвер HP ENVY dv7 series Realtek Local Area Network (LAN) Driver Windows 8 64-bit	DLL-файл storm.dll	Sony DCR-DVD105E
Драйвер HP ENVY dv7 series Intel Bluetooth Driver Windows 8 64-bit	DLL-файл openal32.dll	SONY CDX-F5500X
Драйвер HP ENVY dv7 series Qualcomm Atheros AR9000 Series Wireless LAN Driver Windows 8 64-bit	DLL-файл msvcp71.dll	APC SMART-UPS V/S - 1000
Драйвер HP ENVY dv7 series Ralink 802.11 Wireless LAN Adapter Windows 8 64-bit	DLL-файл lame_enc.dll	Pioneer DEH-4050
Драйвер HP ENVY dv7 series Ralink Bluetooth Software Driver Windows 8 64-bit	DLL-файл COMCTL32.OCX	Scher-Khan Magicar 5

драйвера (download drivers) | мануалы (manuals) | производители (brand) | dll файлы (dll files) | новости (news) | статьи (articles) | скачать программы (soft) | скачать кодеки | форум (forum) | заказ драйвера | каталог оборудования (devices) | вопросы и ответы (faq) | отзывы посетителей | связаться с нами (feed back) | реклама на сайте (advertising) | полезные ссылки (partners) | драйвер скачать драйвера usb драйвер

Все права защищены и охраняются законом. © 2005 - 2024. Разработка и поддержка сайта ООО "НИТ". Автоматизированное извлечение информации сайта запрещено. При использовании материалов сайта, ссылка на источник обязательна. Наименования и товарные знаки являются собственностью соответствующих владельцев.