RU2216052C2 - Автоматическое распознавание речи - Google Patents

Автоматическое распознавание речи Download PDF

Info

Publication number
RU2216052C2
RU2216052C2 RU2001104348/09A RU2001104348A RU2216052C2 RU 2216052 C2 RU2216052 C2 RU 2216052C2 RU 2001104348/09 A RU2001104348/09 A RU 2001104348/09A RU 2001104348 A RU2001104348 A RU 2001104348A RU 2216052 C2 RU2216052 C2 RU 2216052C2
Authority
RU
Russia
Prior art keywords
speech
command
spoken
identifier
speech recognition
Prior art date
Application number
RU2001104348/09A
Other languages
English (en)
Other versions
RU2001104348A (ru
Inventor
Джон МЕРРИЛЛ
Original Assignee
Интел Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Интел Корпорейшн filed Critical Интел Корпорейшн
Publication of RU2001104348A publication Critical patent/RU2001104348A/ru
Application granted granted Critical
Publication of RU2216052C2 publication Critical patent/RU2216052C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fluid-Driven Valves (AREA)
  • Magnetically Actuated Valves (AREA)
  • Reciprocating, Oscillating Or Vibrating Motors (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к распознаванию речи и, в частности, к управлению программными средствами компьютера с помощью произносимых команд. Его использование позволяет получить технический результат в виде повышения синхронизации при реагировании компьютерной системой на произносимые команды и повышения точности процесса распознавания речи. Технический результат достигается за счет дополнительного соотношения речевых команд с идентификаторами, соотношения идентификаторов с действиями, предпринимаемыми при реагировании на каждую речевую команду, определения идентификатора для произносимой речевой команды, направления идентификатора в объект программного обеспечения и конкретизации некоторого объекта в контейнере и сообщения указанного идентификатора указанному объекту при произнесении определенной речевой команды. 1 з.п. ф-лы, 7 ил.

Description

Уровень техники
Изобретение в общем относится к распознаванию речи и, в частности, к управлению программными средствами компьютера с помощью произносимых команд.
Имеющиеся в настоящее время программные средства распознавания речи распознают отдельные произносимые слова или содержащиеся в словах фонемы для идентифицирования произносимых команд. Обработку произносимых команд обычно осуществляют с помощью т.н. речевого механизма. Независимо от используемых отдельных терминов или фонем речевой механизм должен быть вызван прикладной программой, для которой требуется обслуживание по распознаванию речи.
Операционные системы могут включать в себя обслуживающие программы Прикладного Программного Интерфейса (ППИ), которые обеспечивают распознавание речи. Прикладная программа может включать в себя вызов речевого ППИ, либо распознавание речи может обеспечиваться извне с помощью второй прикладной программы, которая перехватывает речь и подает первой прикладной программе моделированные ключи или команды на основании речевого ввода.
Если речевой ППИ содержит вызов прикладной программы, то для него требуется, чтобы данная прикладная программа полностью знала данный речевой ППИ, но, что более важно, ППИ принуждает данную прикладную программу обрабатывать входные данные из многих источников и синхронизировать эти входные данные. В любой данный момент времени прикладная программа может принять произнесенную команду, может принять обратный сигнал от речевого ППИ и может также обрабатывать сенсорные входные данные, такие как соответствующие нажатия клавиш. Эта усложненность делает прикладную программу подверженной ошибкам состояния. Причем вторая прикладная программа для перехвата произносимых команд не всегда может быть возможной и ей нужен внешний сервер, полностью знающий каждую обслуживаемую им прикладную программу.
Поэтому имеется потребность в такой системе распознавания речи, которая действует с речевым механизмом, не имея при этом проблем синхронизации. Помимо этого, имеется потребность в такой системе, которая сможет направлять прикладные команды, при реагировании либо на речь, либо на сенсорный ввод. Также желательно обеспечить систему распознавания речи, обладающую относительно высокой надежностью с точки зрения возможности устойчивого распознавания основных команд.
Сущность изобретения
В соответствии с одним из аспектов данного изобретения способ распознавания речи предусматривает обеспечение речевого механизма некоторым словарем наборов команд. Соответствующий набор команд для текущей прикладной программы сообщают в речевой механизм.
В соответствии с другим аспектом данного изобретения способ распознавания речи содержит операцию соотнесения речевых единиц с идентификатором. Идентификатор также соотносят с действием, предпринимаемым при реагировании на данную речевую единицу. Для данной произносимой речевой единицы определяют идентификатор, и идентификатор обеспечивают для некоторого объекта программного обеспечения.
Краткое описание чертежей
Фиг.1 изображает блок-схему системы распознавания речи;
Фиг. 2-4 - последовательность операций для системы распознавания речи, изображаемой в фиг.1;
Фиг.5 схематически изображает дисплей компьютера с двумя активными окнами;
Фиг.6 - блок-схему программы в соответствии с одним из вариантов осуществления и
Фиг. 7 - блок-схему аппаратурной системы для использования с системой распознавания речи.
Подробное описание
Обращаясь к фиг.1: система 11 распознавания речи использует прикладную программу 10, которая должна срабатывать на произносимые команды. Например, прикладная программа 10 может быть выполнена с помощью различных графических пользовательских интерфейсов, или окон, совместно с операционной системой Windows. Для указанных окон может потребоваться, чтобы пользователь сделал выбор различных задач или управляющих входных данных. Прикладная программа 10 может реагировать либо на произносимые команды, либо на сенсорные входные данные. Сенсорные входные данные могут включать в себя нажатие клавиши клавиатуры, прикосновение к экрану дисплея или щелчок мыши на визуальном интерфейсе.
Система 11 распознавания речи может иметь целесообразное применение при подключении к разным компьютерным системам. Одно из применений для системы 11 заключается в подключении к автомобильным системам персонального компьютера. Эти системы могут быть установлены в автомобилях и могут обеспечивать обычные функции компьютера наряду с функциями навигации, безопасности и развлекательными функциями. Может быть желательной возможность для водителя автомобиля давать произносимые команды для компьютерной системы в целях выполнения различных функций без применения сенсорных входных данных. Это дает возможность водителю сосредоточится на вождении. Например, при подключении к навигационной прикладной программе пользователь сможет использовать произносимые команды для инициирования этой прикладной программы, для вызова соответствующей карты и инициирования нужной функции, такой как предоставление маршрутов к определенному месту.
Прикладная программа 10 осуществляет связь с сервером 12. В объектно ориентированном языке программирования сервер 12 может быть контейнером. В иллюстрируемом осуществлении сервер 12 осуществляет связь со средством 14 управления, которое может быть объектом или элементом управления ActiveX, например. Средство 14 управления также осуществляет непосредственное соединение с прикладной программой 10.
Сервер 12 выполнен с возможностью вызова механизма 16 распознавания речи. При этом кнопочный драйвер 18 может подавать входные данные в сервер 12 и средство 14 управления. Так, в некоторых осуществлениях средство 14 управления может принимать либо произносимые, либо сенсорные входные данные (от кнопочного драйвера 18), и действует, реагируя на каждый тип входных данных, по существу одинаково.
Обращаясь к фиг.2: программа для распознавания речи может предусматривать начало прикладной программы (блок 90), для которой необходимо обслуживание по распознаванию речи. Речевой механизм обеспечивают словарем наборов команд для активного экрана или задачи - указано в блоке 92. Наборы команд могут быть словарем для каждой из различных прикладных программ, которые выполняются определенной компьютерной системой. Набор команд для текущей прикладной программы, выполняемой в данное время, сообщают в сервер 12 или в средство 14 управления (блок 94). Затем речь распознают и принимают соответствующие действия - указано в блоке 96.
Другой вариант осуществления (фиг.3) также начинается тем, что запускают прикладную программу - указано в блоке 98. Подлежащие декодированию речевые единицы соотносят с идентификаторами (блок 100). Затем идентификаторы можно соотнести с определенным действием, предпринимаемым в данной прикладной программе при реагировании на произносимую команду (блок 102). Затем поток определяет идентификатор для определенной произносимой речевой единицы (блок 104). Данный идентификатор подают в такой программный объект, как средство 14 управления - указано в блоке 106. Событие запускают, когда данный объект принимает команду - изображено в блоке 108. Данное событие может быть запущено объектом независимо от того, является ли данная команда результатом произносимой команды или сенсорно-сформированной командой.
Обращаясь к фиг. 4: прикладная программа 10 направляет грамматическую таблицу в сервер 12 (блок 20). В частности, данная прикладная программа инициирует грамматику с помощью речевых идентификаторов, соотнесенных с каждой произносимой командой, используемой в данной прикладной программе. Эти команды составляют все наборы команд для данного механизма. Грамматика является набором команд, которые могут содержать альтернативные фразы. Например, простой грамматикой может быть (запуск/начало)(навигатор). Эта грамматика будет реагировать на произносимые команды "пуск навигатора" и "начало навигатора".
Механизм 16 распознавания речи может работать на фонемах или отдельных терминах. Прикладная программа обеспечивает определенный набор команд (который является подмножеством имеющихся у механизма команд) активным применением. Это облегчает распознавание речи, т.к. механизму распознавания речи можно сообщить конкретные слова (набор команд), которые, вероятно, будут использованы в конкретном идущем сейчас применении. Поэтому механизму распознавания речи нужно только сопоставить произносимые слова с меньшим суб-словарем. Например, если действует функция навигатора, то нужно декодировать только набор команд из слов, соотносимых с этим применением.
При срабатывании сервер 12 инициирует речевой механизм 16 (блок 22). Сервер 12 имеет таблицу 36 фраз и идентификаторов, изображаемую в фиг.1. Прикладная программа 10 также посылает идентификаторы речи, соотнесенные с данными произносимыми командами, в средство 14 управления или сервер 12 (блок 24). При приведении в действие средства 14 управления в контейнере или сервере это средство управления может вызвать способ OnControlInfoChanged в интерфейсе IOleControlSite в осуществлении, использующем средства управления ActiveX. Это предусматривает передачу информации из средства 14 управления в сервер 12 (блок 26). Сервер в свою очередь может вызвать способ GetControlInfo из интерфейса IОleControl, который обеспечивает возможность осуществления сообщения от сервера или контейнера 12 в средство 14 управления (блок 28).
Сервер использует способ GetControlInfo в интерфейсе IOleControl и способ OnMnemonic в IOleControl, чтобы запрашивать идентификаторы у средства управления. Средство управления может подавать эту информацию по интерфейсу IOleControlSite и с помощью способа OnControlInfoChanged, используя, например, методику ActiveX.
Сервер 12 приводит в действие речевой механизм 16 (блок 30) для любых активных команд из таблицы 36 сервера. Сервер пользуется таблицей 36 из прикладной программы, чтобы выделить определенные прикладные программы. Средство управления обеспечивает эффект, сравнимый с эффектом оперативной клавиши. Именно, обеспечивает функцию, которую можно вызвать из любого окна или обращения к кадру. Прикладная программа обеспечивает речевые идентификаторы и соотносит идентификаторы с действием, осуществляемым средством управления.
Серверу известно, какой именно словарь нужно использовать, исходя из прогоняемой в данное время задачи. Таким образом, если в данное время прогоняют программу-штурман, то серверу известно, какой именно суб-словарь должен быть распознан речевым механизмом.
По получении сервером речевого сообщения он вызывает речевой ППИ в механизме 16. При обнаружении какой-либо фразы механизм подает эту фразу в сервер, например, в виде текстового сообщения. Контейнер справляется в таблице (блок 32). При согласовании фразы и идентификатора сервер 12 может вызвать способ OnMnemonic интерфейса IOleControl, направив идентификатор в средство управления. Средство управления соблюдает запрограммированные правила и исполняет соответствующее действие (блок 34). Средство управления может обработать это сообщение автономно или отправить данное событие в сервер.
В качестве простого примера: данный экран может содержать две кнопки: "ок" или "стереть". Когда прикладная программа вступает в действие, она отправляет грамматику для этого экрана в сервер. Например, грамматика для "ок" может включать в себя: "ок", "правильно" и "верно".
Прикладная программа затем соотносит "ок" с идентификатором, который соответствует определенному средству управления, и делает то же самое с термином "стереть". Идентификатор является просто указателем или описателем объекта, который является особым, в данной прикладной программе, для определенной команды. Таблица 36 содержит фразы "ок" и "стереть", идентификатор для каждой фразы и идентификатор для средства управления, которое обрабатывает данную команду.
Когда средство управления конкретизировано, прикладная программа обеспечивает его идентификатором. Средство управления запрограммировано на действие, которое оно выполнит, когда сервер сообщит средству управления о том, что его идентификатор вызван.
При произнесении слова речевой механизм направляет его в сервер. Сервер проверят фразы в таблице 36, чтобы проверить, находится ли это слово в активном перечне. В простом примере: если отправленное речевым механизмом слово не является фразой "ок" или "стереть", то его отбрасывают. Это будет означать ошибку речевого механизма. Если между словом и активным словарем имеется согласование, то сервер направляет соответствующий идентификатор управления в соответствующее средство управления, которое затем действует согласно своим запрограммированным командам.
Речевой механизм, действующий на фонемах и имеющий большой словарь, может быть использован с высокой степенью надежности, поскольку данный механизм в любое данное время сосредоточен на ограниченном словаре. Целесообразно, чтобы в любой данный момент этот ограниченный словарь содержал менее 20 слов в таблице 36.
Это обстоятельство освобождает прикладную программу от необходимости слежения за активным словарем. Сервер может указать серверу, за какими именно словами нужно следить в данный момент, исходя из словаря активной задачи.
Независимо от активного экрана может всегда иметься в наличии общий словарь. Например, может иметься команда "переход" для переключения экранов или команда "выключить" для прекращения выполнения активной задачи.
Существующие оперативные клавиши выбора или "клавиши быстрого вызова" в программном обеспечении Microsoft Windows можно рационально использовать для осуществления распознавания речи. Например, способу OnMnemonic можно придать новую функцию направления информации от сервера в средство управления, соответствующее произносимой команде.
Несмотря на то, что данная методология описывается в связи со средством управления ActiveX, можно также использовать прочие технологии ориентированного на объект программирования, включая, например, Javabeans и СОМ. Помимо этого, в будущем могут быть разработаны еще и другие технологии.
Варианты осуществления данного изобретения обеспечивают эффект, сравнимый с эффектом оперативной клавиши. При этом обеспечивается выделение данной команды сообразно конкретному применению. Поэтому речь можно использовать для выделения той или иной из двух рабочих задач. Например, согласно фиг.5: если два окна А и В открыты одновременно на экране 76, то произносимую команду можно распознать как относимую к одному из двух окон или кадров активной задачи. Обращаясь к фиг.6: после распознания команды (блок 78) прикладная программа обеспечивает информацию о том, что именно является первичной, текущей рабочей задачей; и речь можно соотнести с этой определенной задачей, чтобы обеспечить выделение (блок 80). Затем направляют входные данные в одну из задач (и не в другую) - как указано в блоке 82. При этом распознавание речи выполняют таким образом, который фактически незаметен для прикладной программы. С точки зрения прикладной программы это выглядит так, как будто операционная система действительно выполняет функцию распознавания речи. Синхронизация по существу не является необходимой.
Сообщение, отправляемое в средство управления ActiveX из контейнера, может содержать поле, которое позволяет прикладной программе узнать, сформирована ли данная команда речью. Это может быть целесообразным, например, в том случае, когда желателен произносимый ответ на произносимую команду. В ином случае прикладная программа в основном забывает, была ли данная команда сформирована как речевая или сенсорная.
Когда прикладная программа загружает идентификаторы в средства управления ActiveX (когда их конкретизируют), средства управления и контейнер осуществляют все распознавание речи для слов команды. Средство управления и его контейнер осуществляют администрирование, когда слова действительны, и отправляют соответствующие сообщения в прикладную программу. Поэтому контейнер и сервер осуществляют все сообщение с ППИ распознавания речи. Контейнер может осуществлять сообщение со средствами управления ActiveX с помощью таких стандартных интерфейсов, как IOleControl. Поэтому сокращается число ошибок состояния, которые могли бы произойти в ином случае, если бы прикладной программе пришлось самой обрабатывать распознавание речи.
Обращаясь к фиг.7: аппаратурная система для выполнения иллюстрируемого на фиг.1 варианта осуществления может содержать процессор 36, подключенный к мостовой схеме 40 и системной памяти 38. Мостовая схема 40 связана с шиной 42. Шина 42 может содержать интерфейсы 48 и 44, которые осуществляют связь, например, с камерой 50 и визуальным дисплеем или монитором 46 в иллюстрируемом варианте осуществления. Мостовая схема 40 также осуществляет связь с мостовой схемой 52. Мостовая схема 52 может быть обеспечена соединением с дополнительной шиной 56 и с входом 54 системы глобального позиционирования. Шина 56 в свою очередь сообщается с интерфейсом 58 и жестким диском 60. Жесткий диск 60 может содержать прикладные программы 62, 64 и 66, которые могут предназначаться, например, для функции программы-штурмана, быть развлекательным пакетом программ и телевизионным пакетом программ, например, в системе, которая осуществляет автомобильную компьютерную систему. Шина 56 может также осуществлять сообщение по интерфейсу 68 с помощью микрофона 70 для приема произносимых команд. Интерфейс 72 соединяет клавиатуру, которую, как вариант, можно использовать в автомобильной компьютерной системе. Клавиатура 74 может быть сокращенной клавиатурой, которая, например, соотносит данные элементы на дисплее с определенными клавишами, с которыми можно работать. Кроме этого, она может содержать одну или более клавиш специальной функции.
Несмотря на то, что данное изобретение изложено относительно ограниченного числа предпочтительных вариантов осуществления, специалистам данной области техники будут очевидны возможные в нем многочисленные модификации и различные изменения. Подразумевается, что прилагаемая формула изобретения включает в себя все эти модификации и изменения, которые входят в концепцию и рамки данного изобретения.

Claims (2)

1. Способ распознавания речи, заключающийся в том, что речевой механизм обеспечивают словарем наборов команд, по меньшей мере, для двух задач, и сообщают соответствующий набор команд для активной задачи в речевой механизм, отличающийся тем, что дополнительно соотносят речевые команды с идентификаторами, соотносят идентификаторы с действиями, предпринимаемыми при реагировании на каждую речевую команду, определяют идентификатор для произносимой речевой команды, направляют идентификатор в объект программного обеспечения и конкретизируют некоторый объект в контейнере и сообщают указанный идентификатор указанному объекту, когда произносится определенная речевая команда.
2. Способ по п. 1, отличающийся тем, что сообщают информацию о первой речевой команде в контейнер, проверяют перечень активного словаря в контейнере, чтобы определить, является ли первая речевая команда командой, используемой в активной задаче, и, если первая речевая команда является командой, используемой в активной задаче, передают объекту идентификатор для указанной речевой команды.
RU2001104348/09A 1998-07-14 1999-06-17 Автоматическое распознавание речи RU2216052C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/115,359 US7082391B1 (en) 1998-07-14 1998-07-14 Automatic speech recognition
US09/115,359 1998-07-14

Publications (2)

Publication Number Publication Date
RU2001104348A RU2001104348A (ru) 2003-01-20
RU2216052C2 true RU2216052C2 (ru) 2003-11-10

Family

ID=22360880

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2001104348/09A RU2216052C2 (ru) 1998-07-14 1999-06-17 Автоматическое распознавание речи

Country Status (9)

Country Link
US (1) US7082391B1 (ru)
EP (1) EP1095372B1 (ru)
JP (1) JP2002520681A (ru)
AT (1) ATE225977T1 (ru)
AU (1) AU762025B2 (ru)
DE (1) DE69903432T2 (ru)
IL (1) IL140619A0 (ru)
RU (1) RU2216052C2 (ru)
WO (1) WO2000004533A1 (ru)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014145960A3 (en) * 2013-03-15 2015-03-05 Short Kevin M Method and system for generating advanced feature discrimination vectors for use in speech recognition
RU2571519C2 (ru) * 2009-06-04 2015-12-20 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание с помощью повторного распознавания и статистической классификации
RU2589873C2 (ru) * 2012-12-31 2016-07-10 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство обработки ввода
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US10957336B2 (en) 2012-05-04 2021-03-23 Xmos Inc. Systems and methods for source signal separation

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7765581B1 (en) * 1999-12-10 2010-07-27 Oracle America, Inc. System and method for enabling scalable security in a virtual private network
US7747442B2 (en) * 2006-11-21 2010-06-29 Sap Ag Speech recognition application grammar modeling
US20080154590A1 (en) * 2006-12-22 2008-06-26 Sap Ag Automated speech recognition application testing
WO2009007131A1 (en) * 2007-07-11 2009-01-15 Vandinburg Gmbh Speech control of computing devices
US8688443B2 (en) * 2009-12-23 2014-04-01 At&T Intellectual Property I, L.P. Multimodal augmented reality for location mobile information service
CN103310790A (zh) * 2012-03-08 2013-09-18 富泰华工业(深圳)有限公司 电子装置及语音识别方法
CA3017121C (en) * 2016-01-29 2020-12-29 Liquid Analytics, Inc. Systems and methods for dynamic prediction of workflows
CN107799115A (zh) * 2016-08-29 2018-03-13 法乐第(北京)网络科技有限公司 一种语音识别方法及装置
CN110088422B (zh) * 2016-12-14 2022-03-08 福特全球技术公司 车库门控制系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69326431T2 (de) * 1992-12-28 2000-02-03 Kabushiki Kaisha Toshiba, Kawasaki Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US5799279A (en) 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2571519C2 (ru) * 2009-06-04 2015-12-20 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание с помощью повторного распознавания и статистической классификации
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
US10957336B2 (en) 2012-05-04 2021-03-23 Xmos Inc. Systems and methods for source signal separation
US10978088B2 (en) 2012-05-04 2021-04-13 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
RU2589873C2 (ru) * 2012-12-31 2016-07-10 Хуавэй Текнолоджиз Ко., Лтд. Способ и устройство обработки ввода
WO2014145960A3 (en) * 2013-03-15 2015-03-05 Short Kevin M Method and system for generating advanced feature discrimination vectors for use in speech recognition
US9728182B2 (en) 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US10410623B2 (en) 2013-03-15 2019-09-10 Xmos Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US11056097B2 (en) 2013-03-15 2021-07-06 Xmos Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition

Also Published As

Publication number Publication date
EP1095372A1 (en) 2001-05-02
ATE225977T1 (de) 2002-10-15
WO2000004533A1 (en) 2000-01-27
EP1095372B1 (en) 2002-10-09
DE69903432T2 (de) 2003-07-03
AU762025B2 (en) 2003-06-19
DE69903432D1 (de) 2002-11-14
US7082391B1 (en) 2006-07-25
AU4824999A (en) 2000-02-07
JP2002520681A (ja) 2002-07-09
IL140619A0 (en) 2002-02-10

Similar Documents

Publication Publication Date Title
RU2216052C2 (ru) Автоматическое распознавание речи
US8494862B2 (en) Method for triggering at least one first and second background application via a universal language dialog system
US6615176B2 (en) Speech enabling labeless controls in an existing graphical user interface
US5893063A (en) Data processing system and method for dynamically accessing an application using a voice command
KR100620826B1 (ko) 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
US7069220B2 (en) Method for determining and maintaining dialog focus in a conversational speech system
US8831956B2 (en) Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6526381B1 (en) Remote control with speech recognition
EP1076288A2 (en) Method and system for multi-client access to a dialog system
GB2378776A (en) Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US6212541B1 (en) System and method for switching between software applications in multi-window operating system
EP0962014B1 (en) Speech recognition device using a command lexicon
US7206747B1 (en) Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US7818671B2 (en) Virtual navigation of menus
JPH10222337A (ja) コンピュータシステム
JP2002169588A (ja) テキスト表示装置、テキスト表示制御方法、記憶媒体、プログラム伝送装置及び応対支援方法
US5897618A (en) Data processing system and method for switching between programs having a same title using a voice command
CN109144458B (zh) 用于执行与语音输入相对应的操作的电子设备
KR20190021012A (ko) 인공지능 기기에서의 연속 대화 기능
WO1999005671A1 (en) Universal voice operated command and control engine
JP2003195939A (ja) プラント監視制御システム
EP1473626A1 (en) Enhanced graphical development environment for controlling mixed initiative applications
US6708271B1 (en) Interactive multi-module system having a communication manager for achieving linked operation of plurality of modules and for defining whether and how an individual module can access a particular function
JP7465124B2 (ja) 音声処理システム、音声処理方法、及び音声処理プログラム
JPH07219586A (ja) 情報処理方法及び装置

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20110618