RU2216052C2 - Автоматическое распознавание речи - Google Patents
Автоматическое распознавание речи Download PDFInfo
- Publication number
- RU2216052C2 RU2216052C2 RU2001104348/09A RU2001104348A RU2216052C2 RU 2216052 C2 RU2216052 C2 RU 2216052C2 RU 2001104348/09 A RU2001104348/09 A RU 2001104348/09A RU 2001104348 A RU2001104348 A RU 2001104348A RU 2216052 C2 RU2216052 C2 RU 2216052C2
- Authority
- RU
- Russia
- Prior art keywords
- speech
- command
- spoken
- identifier
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 6
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000006719 Cassia obtusifolia Nutrition 0.000 description 1
- 235000014552 Cassia tora Nutrition 0.000 description 1
- 244000201986 Cassia tora Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Fluid-Driven Valves (AREA)
- Magnetically Actuated Valves (AREA)
- Reciprocating, Oscillating Or Vibrating Motors (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Machine Translation (AREA)
Abstract
Изобретение относится к распознаванию речи и, в частности, к управлению программными средствами компьютера с помощью произносимых команд. Его использование позволяет получить технический результат в виде повышения синхронизации при реагировании компьютерной системой на произносимые команды и повышения точности процесса распознавания речи. Технический результат достигается за счет дополнительного соотношения речевых команд с идентификаторами, соотношения идентификаторов с действиями, предпринимаемыми при реагировании на каждую речевую команду, определения идентификатора для произносимой речевой команды, направления идентификатора в объект программного обеспечения и конкретизации некоторого объекта в контейнере и сообщения указанного идентификатора указанному объекту при произнесении определенной речевой команды. 1 з.п. ф-лы, 7 ил.
Description
Уровень техники
Изобретение в общем относится к распознаванию речи и, в частности, к управлению программными средствами компьютера с помощью произносимых команд.
Изобретение в общем относится к распознаванию речи и, в частности, к управлению программными средствами компьютера с помощью произносимых команд.
Имеющиеся в настоящее время программные средства распознавания речи распознают отдельные произносимые слова или содержащиеся в словах фонемы для идентифицирования произносимых команд. Обработку произносимых команд обычно осуществляют с помощью т.н. речевого механизма. Независимо от используемых отдельных терминов или фонем речевой механизм должен быть вызван прикладной программой, для которой требуется обслуживание по распознаванию речи.
Операционные системы могут включать в себя обслуживающие программы Прикладного Программного Интерфейса (ППИ), которые обеспечивают распознавание речи. Прикладная программа может включать в себя вызов речевого ППИ, либо распознавание речи может обеспечиваться извне с помощью второй прикладной программы, которая перехватывает речь и подает первой прикладной программе моделированные ключи или команды на основании речевого ввода.
Если речевой ППИ содержит вызов прикладной программы, то для него требуется, чтобы данная прикладная программа полностью знала данный речевой ППИ, но, что более важно, ППИ принуждает данную прикладную программу обрабатывать входные данные из многих источников и синхронизировать эти входные данные. В любой данный момент времени прикладная программа может принять произнесенную команду, может принять обратный сигнал от речевого ППИ и может также обрабатывать сенсорные входные данные, такие как соответствующие нажатия клавиш. Эта усложненность делает прикладную программу подверженной ошибкам состояния. Причем вторая прикладная программа для перехвата произносимых команд не всегда может быть возможной и ей нужен внешний сервер, полностью знающий каждую обслуживаемую им прикладную программу.
Поэтому имеется потребность в такой системе распознавания речи, которая действует с речевым механизмом, не имея при этом проблем синхронизации. Помимо этого, имеется потребность в такой системе, которая сможет направлять прикладные команды, при реагировании либо на речь, либо на сенсорный ввод. Также желательно обеспечить систему распознавания речи, обладающую относительно высокой надежностью с точки зрения возможности устойчивого распознавания основных команд.
Сущность изобретения
В соответствии с одним из аспектов данного изобретения способ распознавания речи предусматривает обеспечение речевого механизма некоторым словарем наборов команд. Соответствующий набор команд для текущей прикладной программы сообщают в речевой механизм.
В соответствии с одним из аспектов данного изобретения способ распознавания речи предусматривает обеспечение речевого механизма некоторым словарем наборов команд. Соответствующий набор команд для текущей прикладной программы сообщают в речевой механизм.
В соответствии с другим аспектом данного изобретения способ распознавания речи содержит операцию соотнесения речевых единиц с идентификатором. Идентификатор также соотносят с действием, предпринимаемым при реагировании на данную речевую единицу. Для данной произносимой речевой единицы определяют идентификатор, и идентификатор обеспечивают для некоторого объекта программного обеспечения.
Краткое описание чертежей
Фиг.1 изображает блок-схему системы распознавания речи;
Фиг. 2-4 - последовательность операций для системы распознавания речи, изображаемой в фиг.1;
Фиг.5 схематически изображает дисплей компьютера с двумя активными окнами;
Фиг.6 - блок-схему программы в соответствии с одним из вариантов осуществления и
Фиг. 7 - блок-схему аппаратурной системы для использования с системой распознавания речи.
Фиг.1 изображает блок-схему системы распознавания речи;
Фиг. 2-4 - последовательность операций для системы распознавания речи, изображаемой в фиг.1;
Фиг.5 схематически изображает дисплей компьютера с двумя активными окнами;
Фиг.6 - блок-схему программы в соответствии с одним из вариантов осуществления и
Фиг. 7 - блок-схему аппаратурной системы для использования с системой распознавания речи.
Подробное описание
Обращаясь к фиг.1: система 11 распознавания речи использует прикладную программу 10, которая должна срабатывать на произносимые команды. Например, прикладная программа 10 может быть выполнена с помощью различных графических пользовательских интерфейсов, или окон, совместно с операционной системой Windows. Для указанных окон может потребоваться, чтобы пользователь сделал выбор различных задач или управляющих входных данных. Прикладная программа 10 может реагировать либо на произносимые команды, либо на сенсорные входные данные. Сенсорные входные данные могут включать в себя нажатие клавиши клавиатуры, прикосновение к экрану дисплея или щелчок мыши на визуальном интерфейсе.
Обращаясь к фиг.1: система 11 распознавания речи использует прикладную программу 10, которая должна срабатывать на произносимые команды. Например, прикладная программа 10 может быть выполнена с помощью различных графических пользовательских интерфейсов, или окон, совместно с операционной системой Windows. Для указанных окон может потребоваться, чтобы пользователь сделал выбор различных задач или управляющих входных данных. Прикладная программа 10 может реагировать либо на произносимые команды, либо на сенсорные входные данные. Сенсорные входные данные могут включать в себя нажатие клавиши клавиатуры, прикосновение к экрану дисплея или щелчок мыши на визуальном интерфейсе.
Система 11 распознавания речи может иметь целесообразное применение при подключении к разным компьютерным системам. Одно из применений для системы 11 заключается в подключении к автомобильным системам персонального компьютера. Эти системы могут быть установлены в автомобилях и могут обеспечивать обычные функции компьютера наряду с функциями навигации, безопасности и развлекательными функциями. Может быть желательной возможность для водителя автомобиля давать произносимые команды для компьютерной системы в целях выполнения различных функций без применения сенсорных входных данных. Это дает возможность водителю сосредоточится на вождении. Например, при подключении к навигационной прикладной программе пользователь сможет использовать произносимые команды для инициирования этой прикладной программы, для вызова соответствующей карты и инициирования нужной функции, такой как предоставление маршрутов к определенному месту.
Прикладная программа 10 осуществляет связь с сервером 12. В объектно ориентированном языке программирования сервер 12 может быть контейнером. В иллюстрируемом осуществлении сервер 12 осуществляет связь со средством 14 управления, которое может быть объектом или элементом управления ActiveX, например. Средство 14 управления также осуществляет непосредственное соединение с прикладной программой 10.
Сервер 12 выполнен с возможностью вызова механизма 16 распознавания речи. При этом кнопочный драйвер 18 может подавать входные данные в сервер 12 и средство 14 управления. Так, в некоторых осуществлениях средство 14 управления может принимать либо произносимые, либо сенсорные входные данные (от кнопочного драйвера 18), и действует, реагируя на каждый тип входных данных, по существу одинаково.
Обращаясь к фиг.2: программа для распознавания речи может предусматривать начало прикладной программы (блок 90), для которой необходимо обслуживание по распознаванию речи. Речевой механизм обеспечивают словарем наборов команд для активного экрана или задачи - указано в блоке 92. Наборы команд могут быть словарем для каждой из различных прикладных программ, которые выполняются определенной компьютерной системой. Набор команд для текущей прикладной программы, выполняемой в данное время, сообщают в сервер 12 или в средство 14 управления (блок 94). Затем речь распознают и принимают соответствующие действия - указано в блоке 96.
Другой вариант осуществления (фиг.3) также начинается тем, что запускают прикладную программу - указано в блоке 98. Подлежащие декодированию речевые единицы соотносят с идентификаторами (блок 100). Затем идентификаторы можно соотнести с определенным действием, предпринимаемым в данной прикладной программе при реагировании на произносимую команду (блок 102). Затем поток определяет идентификатор для определенной произносимой речевой единицы (блок 104). Данный идентификатор подают в такой программный объект, как средство 14 управления - указано в блоке 106. Событие запускают, когда данный объект принимает команду - изображено в блоке 108. Данное событие может быть запущено объектом независимо от того, является ли данная команда результатом произносимой команды или сенсорно-сформированной командой.
Обращаясь к фиг. 4: прикладная программа 10 направляет грамматическую таблицу в сервер 12 (блок 20). В частности, данная прикладная программа инициирует грамматику с помощью речевых идентификаторов, соотнесенных с каждой произносимой командой, используемой в данной прикладной программе. Эти команды составляют все наборы команд для данного механизма. Грамматика является набором команд, которые могут содержать альтернативные фразы. Например, простой грамматикой может быть (запуск/начало)(навигатор). Эта грамматика будет реагировать на произносимые команды "пуск навигатора" и "начало навигатора".
Механизм 16 распознавания речи может работать на фонемах или отдельных терминах. Прикладная программа обеспечивает определенный набор команд (который является подмножеством имеющихся у механизма команд) активным применением. Это облегчает распознавание речи, т.к. механизму распознавания речи можно сообщить конкретные слова (набор команд), которые, вероятно, будут использованы в конкретном идущем сейчас применении. Поэтому механизму распознавания речи нужно только сопоставить произносимые слова с меньшим суб-словарем. Например, если действует функция навигатора, то нужно декодировать только набор команд из слов, соотносимых с этим применением.
При срабатывании сервер 12 инициирует речевой механизм 16 (блок 22). Сервер 12 имеет таблицу 36 фраз и идентификаторов, изображаемую в фиг.1. Прикладная программа 10 также посылает идентификаторы речи, соотнесенные с данными произносимыми командами, в средство 14 управления или сервер 12 (блок 24). При приведении в действие средства 14 управления в контейнере или сервере это средство управления может вызвать способ OnControlInfoChanged в интерфейсе IOleControlSite в осуществлении, использующем средства управления ActiveX. Это предусматривает передачу информации из средства 14 управления в сервер 12 (блок 26). Сервер в свою очередь может вызвать способ GetControlInfo из интерфейса IОleControl, который обеспечивает возможность осуществления сообщения от сервера или контейнера 12 в средство 14 управления (блок 28).
Сервер использует способ GetControlInfo в интерфейсе IOleControl и способ OnMnemonic в IOleControl, чтобы запрашивать идентификаторы у средства управления. Средство управления может подавать эту информацию по интерфейсу IOleControlSite и с помощью способа OnControlInfoChanged, используя, например, методику ActiveX.
Сервер 12 приводит в действие речевой механизм 16 (блок 30) для любых активных команд из таблицы 36 сервера. Сервер пользуется таблицей 36 из прикладной программы, чтобы выделить определенные прикладные программы. Средство управления обеспечивает эффект, сравнимый с эффектом оперативной клавиши. Именно, обеспечивает функцию, которую можно вызвать из любого окна или обращения к кадру. Прикладная программа обеспечивает речевые идентификаторы и соотносит идентификаторы с действием, осуществляемым средством управления.
Серверу известно, какой именно словарь нужно использовать, исходя из прогоняемой в данное время задачи. Таким образом, если в данное время прогоняют программу-штурман, то серверу известно, какой именно суб-словарь должен быть распознан речевым механизмом.
По получении сервером речевого сообщения он вызывает речевой ППИ в механизме 16. При обнаружении какой-либо фразы механизм подает эту фразу в сервер, например, в виде текстового сообщения. Контейнер справляется в таблице (блок 32). При согласовании фразы и идентификатора сервер 12 может вызвать способ OnMnemonic интерфейса IOleControl, направив идентификатор в средство управления. Средство управления соблюдает запрограммированные правила и исполняет соответствующее действие (блок 34). Средство управления может обработать это сообщение автономно или отправить данное событие в сервер.
В качестве простого примера: данный экран может содержать две кнопки: "ок" или "стереть". Когда прикладная программа вступает в действие, она отправляет грамматику для этого экрана в сервер. Например, грамматика для "ок" может включать в себя: "ок", "правильно" и "верно".
Прикладная программа затем соотносит "ок" с идентификатором, который соответствует определенному средству управления, и делает то же самое с термином "стереть". Идентификатор является просто указателем или описателем объекта, который является особым, в данной прикладной программе, для определенной команды. Таблица 36 содержит фразы "ок" и "стереть", идентификатор для каждой фразы и идентификатор для средства управления, которое обрабатывает данную команду.
Когда средство управления конкретизировано, прикладная программа обеспечивает его идентификатором. Средство управления запрограммировано на действие, которое оно выполнит, когда сервер сообщит средству управления о том, что его идентификатор вызван.
При произнесении слова речевой механизм направляет его в сервер. Сервер проверят фразы в таблице 36, чтобы проверить, находится ли это слово в активном перечне. В простом примере: если отправленное речевым механизмом слово не является фразой "ок" или "стереть", то его отбрасывают. Это будет означать ошибку речевого механизма. Если между словом и активным словарем имеется согласование, то сервер направляет соответствующий идентификатор управления в соответствующее средство управления, которое затем действует согласно своим запрограммированным командам.
Речевой механизм, действующий на фонемах и имеющий большой словарь, может быть использован с высокой степенью надежности, поскольку данный механизм в любое данное время сосредоточен на ограниченном словаре. Целесообразно, чтобы в любой данный момент этот ограниченный словарь содержал менее 20 слов в таблице 36.
Это обстоятельство освобождает прикладную программу от необходимости слежения за активным словарем. Сервер может указать серверу, за какими именно словами нужно следить в данный момент, исходя из словаря активной задачи.
Независимо от активного экрана может всегда иметься в наличии общий словарь. Например, может иметься команда "переход" для переключения экранов или команда "выключить" для прекращения выполнения активной задачи.
Существующие оперативные клавиши выбора или "клавиши быстрого вызова" в программном обеспечении Microsoft Windows можно рационально использовать для осуществления распознавания речи. Например, способу OnMnemonic можно придать новую функцию направления информации от сервера в средство управления, соответствующее произносимой команде.
Несмотря на то, что данная методология описывается в связи со средством управления ActiveX, можно также использовать прочие технологии ориентированного на объект программирования, включая, например, Javabeans и СОМ. Помимо этого, в будущем могут быть разработаны еще и другие технологии.
Варианты осуществления данного изобретения обеспечивают эффект, сравнимый с эффектом оперативной клавиши. При этом обеспечивается выделение данной команды сообразно конкретному применению. Поэтому речь можно использовать для выделения той или иной из двух рабочих задач. Например, согласно фиг.5: если два окна А и В открыты одновременно на экране 76, то произносимую команду можно распознать как относимую к одному из двух окон или кадров активной задачи. Обращаясь к фиг.6: после распознания команды (блок 78) прикладная программа обеспечивает информацию о том, что именно является первичной, текущей рабочей задачей; и речь можно соотнести с этой определенной задачей, чтобы обеспечить выделение (блок 80). Затем направляют входные данные в одну из задач (и не в другую) - как указано в блоке 82. При этом распознавание речи выполняют таким образом, который фактически незаметен для прикладной программы. С точки зрения прикладной программы это выглядит так, как будто операционная система действительно выполняет функцию распознавания речи. Синхронизация по существу не является необходимой.
Сообщение, отправляемое в средство управления ActiveX из контейнера, может содержать поле, которое позволяет прикладной программе узнать, сформирована ли данная команда речью. Это может быть целесообразным, например, в том случае, когда желателен произносимый ответ на произносимую команду. В ином случае прикладная программа в основном забывает, была ли данная команда сформирована как речевая или сенсорная.
Когда прикладная программа загружает идентификаторы в средства управления ActiveX (когда их конкретизируют), средства управления и контейнер осуществляют все распознавание речи для слов команды. Средство управления и его контейнер осуществляют администрирование, когда слова действительны, и отправляют соответствующие сообщения в прикладную программу. Поэтому контейнер и сервер осуществляют все сообщение с ППИ распознавания речи. Контейнер может осуществлять сообщение со средствами управления ActiveX с помощью таких стандартных интерфейсов, как IOleControl. Поэтому сокращается число ошибок состояния, которые могли бы произойти в ином случае, если бы прикладной программе пришлось самой обрабатывать распознавание речи.
Обращаясь к фиг.7: аппаратурная система для выполнения иллюстрируемого на фиг.1 варианта осуществления может содержать процессор 36, подключенный к мостовой схеме 40 и системной памяти 38. Мостовая схема 40 связана с шиной 42. Шина 42 может содержать интерфейсы 48 и 44, которые осуществляют связь, например, с камерой 50 и визуальным дисплеем или монитором 46 в иллюстрируемом варианте осуществления. Мостовая схема 40 также осуществляет связь с мостовой схемой 52. Мостовая схема 52 может быть обеспечена соединением с дополнительной шиной 56 и с входом 54 системы глобального позиционирования. Шина 56 в свою очередь сообщается с интерфейсом 58 и жестким диском 60. Жесткий диск 60 может содержать прикладные программы 62, 64 и 66, которые могут предназначаться, например, для функции программы-штурмана, быть развлекательным пакетом программ и телевизионным пакетом программ, например, в системе, которая осуществляет автомобильную компьютерную систему. Шина 56 может также осуществлять сообщение по интерфейсу 68 с помощью микрофона 70 для приема произносимых команд. Интерфейс 72 соединяет клавиатуру, которую, как вариант, можно использовать в автомобильной компьютерной системе. Клавиатура 74 может быть сокращенной клавиатурой, которая, например, соотносит данные элементы на дисплее с определенными клавишами, с которыми можно работать. Кроме этого, она может содержать одну или более клавиш специальной функции.
Несмотря на то, что данное изобретение изложено относительно ограниченного числа предпочтительных вариантов осуществления, специалистам данной области техники будут очевидны возможные в нем многочисленные модификации и различные изменения. Подразумевается, что прилагаемая формула изобретения включает в себя все эти модификации и изменения, которые входят в концепцию и рамки данного изобретения.
Claims (2)
1. Способ распознавания речи, заключающийся в том, что речевой механизм обеспечивают словарем наборов команд, по меньшей мере, для двух задач, и сообщают соответствующий набор команд для активной задачи в речевой механизм, отличающийся тем, что дополнительно соотносят речевые команды с идентификаторами, соотносят идентификаторы с действиями, предпринимаемыми при реагировании на каждую речевую команду, определяют идентификатор для произносимой речевой команды, направляют идентификатор в объект программного обеспечения и конкретизируют некоторый объект в контейнере и сообщают указанный идентификатор указанному объекту, когда произносится определенная речевая команда.
2. Способ по п. 1, отличающийся тем, что сообщают информацию о первой речевой команде в контейнер, проверяют перечень активного словаря в контейнере, чтобы определить, является ли первая речевая команда командой, используемой в активной задаче, и, если первая речевая команда является командой, используемой в активной задаче, передают объекту идентификатор для указанной речевой команды.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/115,359 US7082391B1 (en) | 1998-07-14 | 1998-07-14 | Automatic speech recognition |
US09/115,359 | 1998-07-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2001104348A RU2001104348A (ru) | 2003-01-20 |
RU2216052C2 true RU2216052C2 (ru) | 2003-11-10 |
Family
ID=22360880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2001104348/09A RU2216052C2 (ru) | 1998-07-14 | 1999-06-17 | Автоматическое распознавание речи |
Country Status (9)
Country | Link |
---|---|
US (1) | US7082391B1 (ru) |
EP (1) | EP1095372B1 (ru) |
JP (1) | JP2002520681A (ru) |
AT (1) | ATE225977T1 (ru) |
AU (1) | AU762025B2 (ru) |
DE (1) | DE69903432T2 (ru) |
IL (1) | IL140619A0 (ru) |
RU (1) | RU2216052C2 (ru) |
WO (1) | WO2000004533A1 (ru) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014145960A3 (en) * | 2013-03-15 | 2015-03-05 | Short Kevin M | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
RU2571519C2 (ru) * | 2009-06-04 | 2015-12-20 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Распознавание с помощью повторного распознавания и статистической классификации |
RU2589873C2 (ru) * | 2012-12-31 | 2016-07-10 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство обработки ввода |
US10497381B2 (en) | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
US10957336B2 (en) | 2012-05-04 | 2021-03-23 | Xmos Inc. | Systems and methods for source signal separation |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7765581B1 (en) * | 1999-12-10 | 2010-07-27 | Oracle America, Inc. | System and method for enabling scalable security in a virtual private network |
US7747442B2 (en) * | 2006-11-21 | 2010-06-29 | Sap Ag | Speech recognition application grammar modeling |
US20080154590A1 (en) * | 2006-12-22 | 2008-06-26 | Sap Ag | Automated speech recognition application testing |
WO2009007131A1 (en) * | 2007-07-11 | 2009-01-15 | Vandinburg Gmbh | Speech control of computing devices |
US8688443B2 (en) * | 2009-12-23 | 2014-04-01 | At&T Intellectual Property I, L.P. | Multimodal augmented reality for location mobile information service |
CN103310790A (zh) * | 2012-03-08 | 2013-09-18 | 富泰华工业(深圳)有限公司 | 电子装置及语音识别方法 |
CA3017121C (en) * | 2016-01-29 | 2020-12-29 | Liquid Analytics, Inc. | Systems and methods for dynamic prediction of workflows |
CN107799115A (zh) * | 2016-08-29 | 2018-03-13 | 法乐第(北京)网络科技有限公司 | 一种语音识别方法及装置 |
CN110088422B (zh) * | 2016-12-14 | 2022-03-08 | 福特全球技术公司 | 车库门控制系统和方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69326431T2 (de) * | 1992-12-28 | 2000-02-03 | Kabushiki Kaisha Toshiba, Kawasaki | Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist |
CA2115210C (en) * | 1993-04-21 | 1997-09-23 | Joseph C. Andreshak | Interactive computer system recognizing spoken commands |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US5799279A (en) | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5983190A (en) * | 1997-05-19 | 1999-11-09 | Microsoft Corporation | Client server animation system for managing interactive user interface characters |
-
1998
- 1998-07-14 US US09/115,359 patent/US7082391B1/en not_active Expired - Lifetime
-
1999
- 1999-06-17 WO PCT/US1999/013718 patent/WO2000004533A1/en active IP Right Grant
- 1999-06-17 EP EP99931823A patent/EP1095372B1/en not_active Expired - Lifetime
- 1999-06-17 AU AU48249/99A patent/AU762025B2/en not_active Ceased
- 1999-06-17 DE DE69903432T patent/DE69903432T2/de not_active Expired - Lifetime
- 1999-06-17 JP JP2000560572A patent/JP2002520681A/ja active Pending
- 1999-06-17 RU RU2001104348/09A patent/RU2216052C2/ru not_active IP Right Cessation
- 1999-06-17 IL IL14061999A patent/IL140619A0/xx not_active IP Right Cessation
- 1999-06-17 AT AT99931823T patent/ATE225977T1/de not_active IP Right Cessation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2571519C2 (ru) * | 2009-06-04 | 2015-12-20 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Распознавание с помощью повторного распознавания и статистической классификации |
US10497381B2 (en) | 2012-05-04 | 2019-12-03 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
US10957336B2 (en) | 2012-05-04 | 2021-03-23 | Xmos Inc. | Systems and methods for source signal separation |
US10978088B2 (en) | 2012-05-04 | 2021-04-13 | Xmos Inc. | Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation |
RU2589873C2 (ru) * | 2012-12-31 | 2016-07-10 | Хуавэй Текнолоджиз Ко., Лтд. | Способ и устройство обработки ввода |
WO2014145960A3 (en) * | 2013-03-15 | 2015-03-05 | Short Kevin M | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US9728182B2 (en) | 2013-03-15 | 2017-08-08 | Setem Technologies, Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US10410623B2 (en) | 2013-03-15 | 2019-09-10 | Xmos Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
US11056097B2 (en) | 2013-03-15 | 2021-07-06 | Xmos Inc. | Method and system for generating advanced feature discrimination vectors for use in speech recognition |
Also Published As
Publication number | Publication date |
---|---|
EP1095372A1 (en) | 2001-05-02 |
ATE225977T1 (de) | 2002-10-15 |
WO2000004533A1 (en) | 2000-01-27 |
EP1095372B1 (en) | 2002-10-09 |
DE69903432T2 (de) | 2003-07-03 |
AU762025B2 (en) | 2003-06-19 |
DE69903432D1 (de) | 2002-11-14 |
US7082391B1 (en) | 2006-07-25 |
AU4824999A (en) | 2000-02-07 |
JP2002520681A (ja) | 2002-07-09 |
IL140619A0 (en) | 2002-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2216052C2 (ru) | Автоматическое распознавание речи | |
US8494862B2 (en) | Method for triggering at least one first and second background application via a universal language dialog system | |
US6615176B2 (en) | Speech enabling labeless controls in an existing graphical user interface | |
US5893063A (en) | Data processing system and method for dynamically accessing an application using a voice command | |
KR100620826B1 (ko) | 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법 | |
US7069220B2 (en) | Method for determining and maintaining dialog focus in a conversational speech system | |
US8831956B2 (en) | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands | |
US6526381B1 (en) | Remote control with speech recognition | |
EP1076288A2 (en) | Method and system for multi-client access to a dialog system | |
GB2378776A (en) | Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other | |
US6212541B1 (en) | System and method for switching between software applications in multi-window operating system | |
EP0962014B1 (en) | Speech recognition device using a command lexicon | |
US7206747B1 (en) | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands | |
US7818671B2 (en) | Virtual navigation of menus | |
JPH10222337A (ja) | コンピュータシステム | |
JP2002169588A (ja) | テキスト表示装置、テキスト表示制御方法、記憶媒体、プログラム伝送装置及び応対支援方法 | |
US5897618A (en) | Data processing system and method for switching between programs having a same title using a voice command | |
CN109144458B (zh) | 用于执行与语音输入相对应的操作的电子设备 | |
KR20190021012A (ko) | 인공지능 기기에서의 연속 대화 기능 | |
WO1999005671A1 (en) | Universal voice operated command and control engine | |
JP2003195939A (ja) | プラント監視制御システム | |
EP1473626A1 (en) | Enhanced graphical development environment for controlling mixed initiative applications | |
US6708271B1 (en) | Interactive multi-module system having a communication manager for achieving linked operation of plurality of modules and for defining whether and how an individual module can access a particular function | |
JP7465124B2 (ja) | 音声処理システム、音声処理方法、及び音声処理プログラム | |
JPH07219586A (ja) | 情報処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20110618 |