RU2571519C2 - Распознавание с помощью повторного распознавания и статистической классификации - Google Patents

Распознавание с помощью повторного распознавания и статистической классификации Download PDF

Info

Publication number
RU2571519C2
RU2571519C2 RU2011149321/08A RU2011149321A RU2571519C2 RU 2571519 C2 RU2571519 C2 RU 2571519C2 RU 2011149321/08 A RU2011149321/08 A RU 2011149321/08A RU 2011149321 A RU2011149321 A RU 2011149321A RU 2571519 C2 RU2571519 C2 RU 2571519C2
Authority
RU
Russia
Prior art keywords
recognition
grammar
results
computer
context
Prior art date
Application number
RU2011149321/08A
Other languages
English (en)
Other versions
RU2011149321A (ru
Inventor
Шуанюй ЧАН
Майкл ЛЕВИТ
Брюс БУНЧУХ
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43298454&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2571519(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2011149321A publication Critical patent/RU2011149321A/ru
Application granted granted Critical
Publication of RU2571519C2 publication Critical patent/RU2571519C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • Fuzzy Systems (AREA)
  • Epidemiology (AREA)
  • Computer Hardware Design (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)

Abstract

Изобретение относится к области распознавания речи. Техническими результатами являются уменьшение задержки распознавания речи, увеличение точности распознавания речи, а также увеличение общего грамматического охвата в распознавании речи. При распознавании речи применяется общая грамматика как набор зависящих от контекста грамматик для распознавания входных данных, каждая из которых отвечает за конкретный контекст. Грамматики вместе охватывают всю область. Используются множественные распознавания параллельно по отношению к одним и тем же входным данным, причем каждое распознавание использует зависящие от контекста грамматики. Множественные промежуточные результаты распознавания от различных пар распознаватель-грамматика согласуются посредством запуска повторного распознавания с помощью динамически составленной грамматики на основе множественных результатов распознавания и знаний другой области или выбора победителя с помощью статистического классификатора, работающего по классифицирующим признакам, извлеченным из множественных результатов распознавания и знаний другой области. 5 н. и 17 з.п. ф-лы, 9 ил.

Description

Область техники, к которой относится изобретение
Настоящее изобретение относится к области распознавания речи, в частности к способу и системе для распознавания речи.
Уровень техники
Эффективность распознавания речи зачастую является субоптимальной, когда затрагивается большая грамматическая область поиска, такая как задача голосового поиска, которая охватывает большое число названий предприятий, запросов веб-поиска, запросов голосового набора номера и т.д. Три основных субоптимальности, которые зачастую проявляются, включают в себя длительную задержку распознавания, плохую точность распознавания и недостаточный грамматический охват.
Одно существующее мобильное приложение голосового поиска использует общенациональную грамматику, перечисляющую коммерческие предприятия, плюс грамматику местности на первом этапе и повторно распознает один и тот же фрагмент речи с помощью характерной для местности грамматики, перечисляющей коммерческие предприятия, на втором этапе (где местность была определена на первом этапе). Этот подход не решает проблему задержки, но может улучшать охват и точность в очень специфичных ситуациях. Другой подход пытается уменьшить вероятность ошибочного слова, выбирая среди выходных данных отдельных распознавателей на субфрагментарном уровне. Подход и его развития, в целом, предполагают, что каждый распознаватель делает попытку распознавания с помощью полной грамматики для задачи в целом.
Сущность изобретения
Последующий текст представляет упрощенную сущность, чтобы предоставить основное понимание некоторых аспектов изобретения, описанных в данном документе. Эта сущность не является всесторонним обзором, и она не предназначена для того, чтобы определять его ключевые/важнейшие элементы или ограничивать объем. Ее единственная цель - представить некоторые концепции в упрощенной форме в качестве вступления в более подробное описание, которое представлено далее.
Раскрытая архитектура принимает входные данные для распознавания и применяет различные варианты зависящих от контекста ограничений к входным данным для процесса распознавания. Отдельные варианты ограничений, взятые вместе, предоставляют общую контекстную область для предоставленных входных данных. Выполняя распознавание параллельно, например, в зависимости от этих образцов ограничений, задержка распознавания, точность распознавания и охват области распознавания улучшаются. Кроме того, процессом распознавания отдельных путей распознавания можно управлять посредством наложения временных ограничений на то, как долго система будет ожидать выводимого результата.
В контексте распознавания речи, архитектура применяет общую грамматику в форме разделения меньших отдельных зависящих от контекста грамматик для распознавания входных данных фрагмента речи, каждая из которых отвечает за конкретный контекст, такой как категория подзадачи, географический регион и т.д. Грамматики вместе охватывают всю область. Кроме того, несколько распознаваний могут работать параллельно по отношению к одним и тем же входным данным, причем каждый путь распознавания использует одну или более зависящих от контекста грамматик.
Множественные промежуточные результаты распознавания из различных путей «распознаватель-грамматика» согласуются посредством запуска повторного распознавания с помощью динамически составленной грамматики на основе множественных результатов распознавания и, потенциально, знаний другой области или выбора победителя с помощью статистического классификатора, работающего по классифицирующим признакам, извлеченным из множественных результатов распознавания и знаний другой области.
Для осуществления вышеуказанных и связанных целей определенные иллюстративные аспекты описаны в данном документе в связи с последующим описанием и прилагаемыми чертежами. Эти аспекты показывают различные способы, посредством которых принципы, раскрытые в данном документе, могут осуществляться на практике, и подразумевается, что все аспекты и их эквиваленты находятся в рамках заявленного объекта изобретения. Другие преимущества и новые признаки станут очевидными из следующего подробного описания при рассмотрении вместе с чертежами.
Краткое описание чертежей
Фиг.1 иллюстрирует реализованную с помощью компьютера систему распознавания в соответствии с раскрытой архитектурой.
Фиг.2 иллюстрирует альтернативный вариант осуществления системы, который применяет правила для определения единого результата распознавания.
Фиг.3 иллюстрирует систему распознавания зависящих от контекста ограничений, которая применяет повторное распознавание, и где ограничения являются грамматиками для распознавания речи.
Фиг.4 иллюстрирует систему распознавания с зависящими от контекста ограничениями, которая применяет статистическую классификацию, и где ограничения являются грамматиками для параллельного распознавания речи.
Фиг.5 иллюстрирует реализованный с помощью компьютера способ распознавания.
Фиг.6 иллюстрирует дополнительные аспекты способа на фиг.5.
Фиг.7 иллюстрирует дополнительные аспекты способа на фиг.5.
Фиг.8 иллюстрирует блок-схему вычислительной системы, функционирующей, чтобы выполнять распознавание в соответствии с раскрытой архитектурой.
Фиг.9 иллюстрирует схематическую блок-схему вычислительного окружения, которое обеспечивает параллельное распознавание в соответствии с раскрытой архитектурой.
Подробное описание изобретения
Раскрытая архитектура является системой распознавания, которая сначала выполняет независимое распознавание одних и тех же входных данных (например, фрагмента речи) с использованием зависящих от контекста ограничений. Эти независимые распознавания могут выполняться либо последовательно, либо параллельно. Каждое из зависящих от контекста ограничений меньше, чем ограничение, которое пытается объединять все знания области. Согласование множественных результатов распознавания может выполняться с помощью последующего распознавания (повторного распознавания) и/или через статистическую классификацию.
Архитектура решает проблемы задержки распознавания, точности распознавания и недостаточного грамматического охвата, ассоциированные с традиционным подходом с одной грамматикой и одним распознаванием. Относительно задержки распознавания, каждый вариант распознавания при параллельном распознавании существует по отношению к меньшей грамматике, чем к одной большой грамматике, которая может охватывать те же задачи. Кроме того, этап повторного распознавания существует по отношению к небольшой динамической грамматике. Два объединенных этапа распознавания максимальной задержки из параллельных распознаваний, например, плюс задержка повторного распознавания могут иметь меньшую задержку, чем распознавание с одной большой грамматикой, особенно в непотоковых случаях.
С одним распознаванием точность распознавания зачастую теряется вследствие отсечения во время поиска предположения. Наличие множественных распознаваний смягчает это ограничение, поскольку может поддерживаться гораздо больший набор предположений. Кроме того, зависящие от контекста ограничения, такие как грамматики, более вероятно должны иметь более хорошую точность по фрагментам речи, например, из целевого контекста, чем единая, общая грамматика, охватывающая множество контекстов. Таким образом, существует большая вероятность, что результаты множественных распознаваний содержат правильный результат, и согласование множественных результатов распознавания с помощью повторного распознавания или классификатора более вероятно должно сформировать правильный результат, чем подход с одной грамматикой и одним распознаванием.
Относительно недостаточного охвата грамматики, например, зачастую существуют практические ограничения (например, аппаратные, программные) того, насколько большой может быть одна грамматика и/или насколько большими могут быть грамматики в одном распознавании. Запуск множества распознаваний параллельно, например, может значительно увеличить общий грамматический охват, поскольку каждое распознавание может потенциально работать в отдельных процессах программного обеспечения и/или аппаратных ресурсах.
Рассмотрим применение раскрытой архитектуры к крупномасштабной задаче распознавания речи. Последующий пример иллюстрирует концепцию с помощью задачи голосового поиска в качестве примера, которая может включать в себя неограниченный поиск веб-страниц, местных предприятий, персональных контактов и т.д. Варианты и улучшения возможны в различных частях решения.
Грамматика распознавания предоставляется как множество меньших и возможно перекрывающихся зависящих от контекста грамматик, каждая из которых охватывает конкретный поднабор оригинального пространства задачи. Контекст для разделения может быть основан на категории подзадачи (например, названия фирм в сравнении с названиями кинофильмов), географическом местоположении (например, фирмы в Калифорнии в сравнении с фирмами в Нью-Йорке), демографическими источниками (например, молодежно-ориентированное содержимое в сравнении с содержимым для взрослых) и т.д. Каждая зависящая от контекста грамматика может быть построена отдельно, привлекая знания, структуру и другую доступную информацию, релевантную для каждого контекста, чтобы максимизировать долю успешных попыток распознавания для ожидаемых входных пользовательских данных из каждого контекста.
Далее приводится ссылка на чертежи, на которых аналогичные ссылки с номерами используются для того, чтобы ссылаться на аналогичные элементы по всему описанию. В следующем описании, в целях пояснения, многие конкретные детали объяснены, чтобы обеспечить полное понимание изобретения. Тем не менее может быть очевидным, что новые варианты осуществления могут применяться на практике без этих конкретных деталей. В других случаях, распространенные структуры и устройства показаны в форме блок-схемы, чтобы упростить их описание. Намерение состоит в том, чтобы охватывать все модификации, эквиваленты, и варианты, попадающие в рамки сущности и объема заявленного предмета изобретения.
Фиг.1 иллюстрирует реализованную с помощью компьютера систему 100 распознавания в соответствии с раскрытой архитектурой. Система 100 включает в себя компонент 102 ограничений для зависящих от контекста ограничений 104 для процесса распознавания входных данных 106 в результаты 108 распознавания, и компонент 110 согласования для согласования результатов 108 распознавания в единый результат 112 распознавания.
Система 100 может дополнительно содержать компонент 114 распознавания для отдельного процесса распознавания соответствующих зависящих от контекста ограничений 104 параллельными способами и/или последовательно. Например, зависящие от контекста ограничения 104 могут включать в себя грамматики для процесса распознавания грамматик по отношению к входным данным 106 параллельными способами и/или последовательными способами. Отдельные наборы зависящих от контекста ограничений 104 могут включать в себя разделенный и пересекающийся охват контекста. Другими словами, один набор ограничений может иметь некое перекрывание с ограничениями из другого набора ограничений. Существует также случай, где некоторые наборы ограничений не перекрываются с ограничениями из других наборов ограничений.
Компонент 110 согласования может согласовывать результаты 108 распознавания с помощью повторного распознавания, чтобы повторно формировать единый результат 112 распознавания, применяя динамически составленную грамматику на основе результатов 108 распознавания.
Альтернативно, компонент 110 согласования может согласовывать результаты 108 с помощью статистического классификатора, который работает по классификационным признакам, извлеченным из результатов 108 распознавания, чтобы формировать единый результат 112 распознавания.
Процесс согласования может также обрабатывать релевантные для задачи данные, чтобы достигать единого результата 112 распознавания. Релевантные для задачи данные могут включать в себя, по меньшей мере, одно из распознанных строк, оценок достоверности уровня фрагмента речи и уровня субфрагмента речи, охвата речи, относительных задержек среди одновременных распознаваний, априорных вероятностей контекстов, относительной трудности каждого распознавания или согласованности между результатами распознавания. Кроме того, множество установленных вручную и/или автоматически полученных правил, отражающих конкретные требования задачи, могут влиять на процесс согласования множества гипотетических результатов распознавания.
Фиг.2 иллюстрирует альтернативный вариант осуществления системы 200, которая применяет правила для определения единого результата 112 распознавания. Система 200 включает в себя компонент 102 ограничений для зависящих от контекста ограничений 104 для процесса распознавания входных данных 106 в результаты 108 распознавания, и компонент 110 согласования для согласования результатов 108 распознавания в единый результат 112 распознавания, и компонент 114 распознавания для отдельного процесса распознавания соответствующих зависящих от контекста ограничений 104 параллельными способами и/или последовательно.
Компонент 202 правил предусматривается, чтобы применять правила (например, приоритет) для декларирования одного или более результатов 108 распознавания и/или единого результата 112 распознавания (например, конечного результата). Например, может быть создано и применено правило, которое определяет, что, если конкретный распознаватель возвращает конкретный результат с достаточно высокой оценкой достоверности, тогда этот результат может быть принят в качестве конечного для процесса этого соответствующего распознавателя или даже в качестве единого результата 112 распознавания.
Фиг.3 иллюстрирует систему 300 распознавания зависящих от контекста ограничений, которая применяет повторное распознавание, и где ограничения являются грамматиками для распознавания речи. Система 300 включает в себя N пар распознаватель-грамматика, работающих параллельно, где каждая пара включает в себя одну или более зависящих от контекста грамматик и распознаватель (обозначенных как распознавание N). Как иллюстрировано, грамматики являются различными, однако, может быть некоторое частичное совпадение одной грамматики с другой грамматикой, хотя это необязательно. Вместо создания и использования одной большой грамматики, как в существующих системах распознавания, система 300 поддерживает отдельные грамматики (вместо слияния в одну большую грамматику) и запускает распознавание входных данных 302 фрагмента речи по каждой из грамматик.
Другими словами, входные данные 302 фрагмента речи обрабатываются посредством первого распознавателя 304 и ассоциированной первой зависящей от контекста грамматики 306, создающих первый результат(ы) 308, а также посредством второго распознавателя 310 и ассоциированной второй зависящей от контекста грамматики 312, создающих второй результат(ы) 314, и т.д., до требуемого числа N распознавателей и грамматик, таким образом, создавая N результат(ов). Результат(ы) используются, чтобы формировать динамическую грамматику 316, которая может затем быть использована для повторного распознавания 318, чтобы выводить конечный результат 320 распознавания.
C другой стороны, с входным фрагментом 302 речи пользователя, отдельное распознавание запускается по отношению к каждой из зависящих от контекста грамматик. Это иллюстрируется как действие, происходящее параллельным образом в одно и то же время или приблизительно в одно и то же время. Каждое из параллельных распознаваний может применять один и тот же вид или различный вид распознавателя (например, встроенные в сравнении с сетевыми распознавателями, сетевые распознаватели с различными акустическими моделями и т.д.) и использовать одинаковые или различные параметры распознавания. Вплоть до максимального периода ожидания система 300 собирает все доступные результаты распознавания (например, результат(ы) 308, результат(ы) 314 и т.д.) и определяет конечный результат 320 распознавания посредством повторного распознавания.
Динамическая грамматика 316 формируется, чтобы включать в себя конкурирующие элементы, полученные из всех результатов распознавания, которые могут включать в себя строки распознавания, интерпретации и оценки достоверности из N лучших результатов распознавания, и/или структуру распознавания, если доступно. Повторное распознавание первоначальных входных данных 302 фрагмента речи выполняется по отношению к этой динамической грамматике 316. Результат повторного распознавания 318, включающий в себя оценки достоверности, принимается в качестве конечного результата 320 распознавания.
Необязательно, определенные правила приоритета могут быть включены компонентом 202 правил, чтобы объявлять конечный результат 320 распознавания, прежде чем все распознавания завершатся, например, если определенный распознаватель возвращает конкретный результат с достаточно высокой оценкой достоверности, этот результат может быть принят в качестве конечного. Необязательно, знания 322 другой области, которые являются релевантными для задачи, могут быть предоставлены в качестве входных данных для динамической грамматики, чтобы обеспечивать более сфокусированный процесс распознавания. Эти знания 322 могут включать в себя пользовательские предпочтения, содержимое, относящееся к тому, о чем говорится в фрагменте речи, аппаратным/программным средствам, местности и т.д.
Фиг.4 иллюстрирует систему 400 распознавания зависящих от контекста ограничений, которая применяет статистическую классификацию, и где ограничения являются грамматиками для параллельного распознавания речи. Множественные числовые и/или категориальные признаки 402 могут быть получены из всех результатов распознавания (например, результата(ов) 308, результата(ов) 314 и т.д.) и, потенциально, знаний 322 другой области, релевантных для задачи распознавания. Статистический классификатор используется, чтобы определять, насколько вероятно каждый результат отражает фактические пользовательские входные данные. Результат с наивысшей классификационной оценкой может быть выбран в качестве конечного результата 320 распознавания, и классификационная оценка может быть нормализована, чтобы быть конечной достоверностью распознавания.
Система 400 включает в себя N пар распознаватель-грамматика, работающих параллельно, где каждая пара включает в себя зависящую от контекста грамматику (обозначенную как зависящая от контекста грамматика N) и распознаватель (обозначенный как распознавание N). Как ранее иллюстрировано и описано, грамматики являются различными, однако, может быть некоторое частичное совпадение одной грамматики с другой грамматикой, хотя это необязательно. Вместо создания и использования одной большой грамматики, как в существующих системах распознавания, система 400 поддерживает отдельные грамматики (вместо слияния в одну большую грамматику) и запускает распознавание входных данных 302 фрагмента речи по каждой из грамматик.
Другими словами, входные данные 302 фрагмента речи обрабатываются посредством первого распознавателя 304 и ассоциированной первой зависящей от контекста грамматики 306, создающих первый результат(ы) 308, а также посредством второго распознавателя 310 и ассоциированной второй зависящей от контекста грамматики 312, создающих второй результат(ы) 314, и т.д., до требуемого числа N распознавателей и грамматик, таким образом, создавая N результат(ов). Результат(ы) (результат(ы) 308, результат(ы) 314, …, результат(ы) N) используются, чтобы формировать признаки 402, которые затем передаются для статистической классификации 404 для конечного результата 320 распознавания.
Как ранее иллюстрировано и описано на фиг.3, необязательно, определенные правила приоритета могут быть включены компонентом 202 правил, чтобы объявлять конечный результат 320 распознавания, прежде чем все распознавания завершатся, например, если определенный распознаватель возвращает конкретный результат с достаточно высокой оценкой достоверности, этот результат может быть принят в качестве конечного. Необязательно, знания 322 другой области, которые являются релевантными для задачи, могут быть предоставлены в качестве входных данных для динамической грамматики, чтобы обеспечивать более сфокусированный процесс распознавания. Эти знания 322 могут включать в себя пользовательские предпочтения, содержимое, относящееся к тому, о чем говорится в фрагменте речи, аппаратным/программным средствам, местности и т.д.
Отметим, что описание в данном документе охватывает то, как архитектура работает при приеме входных данных фрагмента речи пользователя в режиме онлайн. Другой аспект решения представлен для того, чтобы выбирать соответствующие настройки, признаки и т.д., используемые системой, в частности, во время согласования множества результатов распознавания. Для подхода с повторным распознаванием и подхода со статическим классификатором могут быть использованы данные режима обучения, и автономный процесс обучения может применяться, чтобы выбирать оптимальную конфигурацию и параметризацию.
Для подхода с повторным распознаванием также возможно необязательное выполнение статистического анализа, такого как регрессия, чтобы назначать относительные весовые коэффициенты путям в повторном распознавании динамической грамматики. Выводом знаний 322 другой области можно управлять, чтобы влиять на динамическую грамматику 316 для каждого процесса повторного распознавания.
В любом подходе один или более следующих признаков 402 могут быть применены, некоторые признаки непосредственно получаются из результатов параллельного распознавания, а другие признаки получаются из релевантных для задачи знаний. Признаки 402 могут включать в себя, но не только, распознанные строки, оценки достоверности на уровне фрагмента речи и уровне субфрагмента речи, охват речи (например, доля фрагмента речи, предполагаемая как речь), относительные задержки среди распознаваний (например, параллельных), априорные вероятности контекстов (например, как часто пользователь запрашивает названия предприятий по сравнению с результатами спортивных соревнований), относительную трудность каждого зависящего от контекста распознавания (например, запутанность зависящих от контекста грамматик в пределах точности распознавания контекста), допустимость каждой грамматики (например, грамматика веб-поиска может принимать большое разнообразие запросов) и согласованность между результатами распознавания.
Отметим, что отдельные процессы распознавания могут быть распределены между различными машинами, такими как сервер, клиенты или комбинация серверов и клиентов. Это применяется к параллельному распознаванию, а также к последовательному распознаванию как в сценарии классификации, так и повторного распознавания.
Предлагая другой способ, раскрытая архитектура является компьютерно-реализуемой системой распознавания, которая содержит компонент ограничений зависящих от контекста грамматик для процесса распознавания входных данных фрагмента речи в результаты распознавания, компонент распознавания для отдельного процесса распознавания входных данных фрагмента речи параллельными путями с помощью соответствующих зависящих от контекста грамматик и компонент согласования для согласования результатов распознавания в конечный результат распознавания.
Компонент согласования применяет динамически составленную грамматику из результатов распознавания и согласовывает результаты распознавания с помощью повторного распознавания, чтобы формировать конечный результат распознавания. Необязательно, компонент согласования согласовывает результаты распознавания, применяя статистический анализ, такой как регрессия, перед повторным распознаванием, чтобы определять конечный результат распознавания. Альтернативно, компонент согласования согласовывает результаты распознавания с помощью статистической классификации, которая работает по признакам, извлеченным из результатов распознавания, чтобы формировать конечный результат распознавания. Кроме того, компонент правил накладывает одно или более правил, которые задают определение конечного результата распознавания, и знания другой области могут влиять на признаки для согласования с помощью статистической классификации и динамическую грамматику для согласования с помощью повторного распознавания.
В данный документ включен набор блок-схем последовательности операций способа, представляющих примерные технологии для выполнения новых аспектов раскрытой архитектуры. Хотя в целях упрощения пояснения технологии одна или более технологий, показанных в данном документе, например, в форме блок-схемы алгоритма или блок-схемы последовательности операций, показаны и описаны как последовательность действий, необходимо понимать и принимать во внимание, что технологии не ограничены порядком действий, поскольку некоторые действия могут, в соответствии с ним, выполняться в другом порядке и/или параллельно с действиями, отличными от действий, показанных и описанных в данном документе. Например, специалисты в данной области техники должны понимать и принимать во внимание, что технология альтернативно может быть представлена как последовательность взаимосвязанных состояний или событий, к примеру, на диаграмме состояний. Кроме того, не все действия, проиллюстрированные в технологии, могут потребоваться для реализации изобретения.
Фиг.5 иллюстрирует реализованный с помощью компьютера способ распознавания. На этапе 500 отдельные зависящие от контекста грамматики принимаются для обработки входных данных фрагмента речи. На этапе 502 входные данные фрагмента речи распознаются параллельными путями с помощью соответствующей зависящей от контекста грамматики для каждого пути. На этапе 504 промежуточный результат распознавания формируется для каждого пути. На этапе 506 промежуточные результаты распознавания согласуются в конечный результат распознавания.
Фиг.6 иллюстрирует дополнительные аспекты способа на фиг.5. На этапе 600 промежуточные результаты распознавания согласовываются с помощью повторного распознавания для динамической грамматики, сформированной из результатов распознавания. На этапе 602 знания другой области вводятся во время согласования промежуточных результатов распознавания посредством повторного распознавания. На этапе 604 одно или более правил накладываются, чтобы формировать конечный результат распознавания. На этапе 606 знания другой области вводятся во время согласования промежуточных результатов распознавания посредством статистической классификации. На этапе 608 одно или более правил накладываются, чтобы формировать конечный результат распознавания.
Фиг.7 иллюстрирует дополнительные аспекты способа на фиг.5. На этапе 700 выполняется статистический анализ, такой как регрессия. Анализ выполняется по всем путям одновременно. На этапе 702 относительные весовые коэффициенты назначаются каждому пути в повторном распознавании динамической грамматики. На этапе 704 выжидается предварительно определенный интервал времени для формирования промежуточного результата распознавания пути. На этапе 706 конечный результат распознавания формируется на основе промежуточных результатов распознавания, которые формируются в течение интервала времени.
При использовании в данной заявке термины "компонент" и "система" предназначены, чтобы ссылаться на связанную с вычислительной машиной объектную сущность, либо аппаратные средства, сочетание аппаратных средств и программного обеспечения, программное обеспечение или программное обеспечение в ходе исполнения. Например, компонент может быть, но не только, процессом, запущенным на процессоре, процессором, жестким диском, несколькими накопителями хранения (оптического, твердотельного и/или магнитного носителя хранения), объектом, исполняемым файлом, потоком исполнения, программой и/или компьютером. В качестве иллюстрации, и приложение, запущенное на сервере, и сервер может быть компонентом. Один или более компонентов могут храниться внутри процесса и/или потока исполнения, и компонент может быть локализован на компьютере и/или распределен между двумя и более компьютерами. Слово "примерный" используется в материалах настоящей заявки, чтобы означать служащий в качестве примера, экземпляра или иллюстрации. Любой аспект или схема, описанные в данном документе как "примерные", не обязательно должны быть истолкованы как предпочтительные или преимущественные в сравнении с другими аспектами или схемами.
Обращаясь теперь к фиг.8, иллюстрируется блок-схема вычислительной системы 800, функционирующей, чтобы выполнять распознавание в соответствии с раскрытой архитектурой. Для того, чтобы предусмотреть дополнительный контекст для различных аспектов, фиг.8 и последующее обсуждение имеют намерение предоставлять краткое общее описание подходящей вычислительной системы 800, в которой различные аспекты могут быть реализованы. Хотя вышеприведенное описание дано в общем контексте компьютерно-исполняемых инструкций, которые могут выполняться на одном или более компьютеров, специалисты в данной области техники должны признавать, что вариант осуществления изобретения также может быть реализован в комбинации с другими программными модулями и/или как комбинация аппаратных средств и программного обеспечения.
Вычислительная система 800 для реализации различных аспектов включает в себя компьютер 802, имеющий процессор(ы) 804, системное запоминающее устройство 806 и системную шину 808. Процессор(ы) 804 может быть любым из различных предлагаемых на рынке процессоров, такие как однопроцессорные, многопроцессорные, одноядерные модули и многоядерные модули. Кроме того, специалисты в данной области техники должны принимать во внимание, что новые способы могут осуществляться на практике с другими конфигурациями компьютерных систем, включающими в себя миникомпьютеры, мэйнфреймы, а также персональные компьютеры (например, настольные, переносные компьютеры и т.д.), карманные вычислительные устройства, микропроцессорные или программируемые бытовые электронные приборы и т.п., каждое из которых может быть функционально связано с одним или более ассоциированных устройств.
Системное запоминающее устройство 806 может включать в себя энергозависимое (энергозависим.) запоминающее устройство 810 (например, оперативное запоминающее устройство (RAM)) и энергонезависимое (энергонезависим.) запоминающее устройство 812 (например, ROM, EPROM, EEPROM и т.д.). Базовая система ввода-вывода (BIOS) может сохраняться в энергонезависимом запоминающем устройстве 812 и включает в себя базовые процедуры, которые упрощают передачу данных и сигналов между компонентами в рамках компьютера 802, к примеру, во время запуска. Энергозависимое запоминающее устройство 810 также может включать в себя высокоскоростное RAM, к примеру, статическое RAM для кэширования данных.
Системная шина 808 предоставляет интерфейс для системных компонентов, включающих в себя, но не только, подсистему 806 запоминающего устройства для процессора(ов) 804. Системная шина 808 может быть любой из нескольких типов шинной структуры, которая дополнительно может соединяться с шиной запоминающего устройства (с или без контроллера запоминающего устройства) и периферийной шиной (например, PCI, PCIe, AGP, LPC и т.д.), с использованием любой из множества предлагаемых на рынке шинных архитектур.
Компьютер 802 дополнительно включает в себя подсистему(ы) 814 хранения данных и интерфейс(ы) 816 хранения данных для обеспечения взаимодействия(й) подсистемы 814 хранения данных с системной шиной 808 и другими требуемыми компьютерными компонентами. Подсистема(ы) 814 хранения данных может включать в себя, например, одно или более из жесткого диска (HDD), накопителя на гибких магнитных дисках (FDD) и/или накопителя хранения данных на оптических дисках (например, накопителя на CD-ROM, накопителя на DVD). Интерфейс(ы) 816 хранения данных может включать в себя такие интерфейсные технологии, как, например, EIDE, ATA, SATA и IEEE 1394.
Одна или более программ и данных могут быть сохранены в подсистеме 806 памяти, подсистеме 818 съемной памяти (например, по технологии форм-фактора флэш-памяти) и/или в подсистеме(ах) 814 хранения данных (например, оптической, магнитной, твердотельной), включающих в себя операционную систему 820, одну или более прикладных программ 822, других программных модулей 824 и программные данные 826.
Одна или более прикладных программ 822, другие программные модули 824 и программные данные 826 могут включать в себя компоненты, объекты и результаты системы 100 на фиг.1, компоненты, объекты и результаты системы 200 на фиг.2, компоненты, объекты и результаты системы 300 на фиг.3, компоненты, объекты и результаты системы 400 на фиг.4 и способы и дополнительные аспекты, предоставленные на фиг.5-7, например.
Как правило, программы включают в себя алгоритмы, способы, структуры данных, другие компоненты программного обеспечения и т.д., которые выполняют отдельные задачи или реализуют отдельные абстрактные типы данных. Все или части операционной системы 820, приложений 822, модулей 824 и/или данных 826 также могут кэшироваться в запоминающем устройстве, таком как, например, энергозависимое запоминающее устройство 810. Следует принимать во внимание, что раскрытая архитектура может быть реализована с различными предлагаемыми на рынке операционными системами или комбинациями операционных систем (например, как виртуальные машины).
Подсистема(ы) 814 хранения данных и подсистемы (806 и 818) запоминающего устройства служат в качестве компьютерно-читаемых носителей для энергозависимого и энергонезависимого хранения данных, структур данных, компьютерно-исполняемых инструкций и т.д. Компьютерно-читаемыми носителями могут быть любые доступные носители, доступ к которым может быть осуществлен посредством компьютера 802, и включает в себя энергозависимые и энергонезависимые носители, съемные и несъемные носители. Для компьютера 802, носители приспосабливают хранение данных в любом подходящем цифровом формате. Специалисты в данной области техники должны принимать во внимание, что могут использоваться другие типы компьютерно-читаемых носителей, такие как накопители на Zip-дисках, магнитная лента, карты флэш-памяти, картриджи и т.п., для сохранения компьютерно-исполняемых инструкций для выполнения новых способов раскрытой архитектуры.
Пользователь может взаимодействовать с компьютером 802, программами и данными с помощью внешних устройств 828 пользовательского ввода, такими как клавиатура и мышь. Другие внешние устройства 828 пользовательского ввода могут включать в себя микрофон, IR (инфракрасное) дистанционное управление, джойстик, игровой планшет, системы распознавания с камерами, перо, сенсорный экран, системы распознавания жестов (например, перемещение глаз, перемещение головы и т.д.) и/или т.п. Пользователь может взаимодействовать с компьютером 802, программами и данными с помощью встроенных устройств 830 пользовательского ввода, таких как сенсорная панель, микрофон, клавиатура и т.д., при этом компьютер 802 является портативным компьютером, например. Эти и другие устройства ввода подключаются к процессору(ам) 804 посредством интерфейса(ов) 832 устройства ввода-вывода через системную шину 808, но могут подключаться посредством других интерфейсов, таких как параллельный порт, последовательный порт IEEE 1394, игровой порт, USB-порт, IR-интерфейс и т.д. Интерфейс(ы) 832 устройства ввода-вывода также упрощает использование периферийных устройств 834 вывода, таких как принтер, аудиоустройств, видеокамер и т.д., к примеру, звуковой карты и/или встроенной поддержки аудиообработки.
Один или более графических интерфейсов 836 (также обычно называемых графическими процессорами (GPU)) предоставляют графические и видеосигналы между компьютером 802 и внешним дисплеем(ями) 838 (например, ЖК-дисплеем, плазменным дисплеем) и/или встроенными дисплеями 840 (например, для портативного компьютера). Графический интерфейс(ы) 836 также может быть изготовлен как часть компьютерной системной платы.
Компьютер 802 может работать в сетевом окружении (например, IP) с использованием логических соединений через подсистему 842 проводной/беспроводной связи с одной или более сетей и/или других компьютеров. Другие компьютеры могут включать в себя рабочие станции, серверы, маршрутизаторы, персональные компьютеры, микропроцессорные электронные бытовые устройства, равноправные устройства или другие общие сетевые узлы и в типичном варианте включают в себя многие или все элементы, описанные относительно компьютера 802. Логические соединения могут включать в себя возможности проводного/беспроводного подключения к локальной вычислительной сети (LAN), глобальной вычислительной сети (WAN), точке доступа и т.д. Сетевые окружения LAN и WAN являются общераспространенными в офисах и компаниях и упрощают корпоративные компьютерные сети, к примеру, сети intranet (локальная сеть, использующая технологии Интернет), все из которых могут подключаться к глобальной сети связи, например, сети Интернет.
При использовании в сетевом окружении, компьютер 802 подключается к сети через подсистему 842 проводной/беспроводной связи (например, сетевой интерфейсный адаптер, встроенную подсистему приемо-передающего устройства и т.д.), чтобы обмениваться данными с проводными/беспроводными сетями, проводными/беспроводными принтерами, проводными/беспроводными устройствами 844 ввода и т.д. Компьютер 802 может включать в себя модем или имеет другое средство для установления связи по сети. В сетевом окружении, программы и данные относительно компьютера 802 могут сохраняться в удаленном запоминающем устройстве/устройстве хранения данных, поскольку ассоциированы с распределенной системой. Будет принято во внимание, что показанные сетевые соединения являются примерными, и может быть использовано другое средство установления линии связи между компьютерами.
Компьютер 802 выполнен с возможностью обмениваться данными с проводными/беспроводными устройствами или объектами с использованием таких технологий радиосвязи, как семейство стандартов IEEE 802.xx, такие как беспроводные устройства, функционально расположенные в беспроводной связи (например, технологии модуляции по радиоинтерфейсу согласно IEEE 802.11), например, с принтером, сканером, настольным и/или портативным компьютером, персональным цифровым устройством (PDA), спутником связи, любым фрагментом оборудования или местоположением, ассоциированным с обнаруживаемым беспроводными средствами тегом (например, киоском, газетным киоском, уборной), и телефоном. Это включает в себя, по меньшей мере, беспроводные технологии Wi-Fi (или стандарт высококачественной беспроводной связи) для точек доступа, WiMax и Bluetooth™. Таким образом, связь может быть заранее заданной структурой, как в случае традиционной сети, или просто специальной связью, по меньшей мере, между двумя устройствами. Сети Wi-Fi используют радио-технологии, названные IEEE 802.11x (a, b, g и т.д.), чтобы предоставлять возможность защищенного, надежного высокоскоростного беспроводного соединения. Wi-Fi-сеть может использоваться для того, чтобы подключать компьютеры друг к другу к Интернету и к проводным сетям (которые используют среды и функции на основе IEEE 802.3).
Обращаясь теперь к фиг.9, иллюстрируется схематическая блок-схема вычислительного окружения 900, которое обеспечивает параллельное распознавание в соответствии с раскрытой архитектурой. Окружение 900 включает в себя один или более клиентов 902. Клиентом(ами) 902 могут быть аппаратные средства и/или программное обеспечение (к примеру, потоки, процессы, вычислительные устройства). Клиент(ы) 902 может размещать, например, cookie-файл(ы) и/или ассоциированную контекстную информацию.
Окружение 900 также включает в себя один или более серверов 904. Сервером(ами) 904 также могут быть аппаратные средства и/или программное обеспечение (к примеру, потоки, процессы, вычислительные устройства). Серверы 904, например, могут содержать потоки, чтобы выполнять преобразования, например, посредством применения архитектуры. Один из возможных обменов данными между клиентом 902 и сервером 904 может выполняться в форме пакета данных, выполненного с возможностью передачи между двумя или более вычислительными процессами. Пакет данных, например, может включать в себя cookie-файл и/или ассоциированную контекстную информацию. Окружение 900 включает в себя инфраструктуру 906 связи (например, глобальную сеть передачи данных, такую как сеть Интернет), которая может быть использована, чтобы содействовать связи между клиентом(ами) 902 и сервером(ами) 904.
Связь может быть облегчена посредством проводной (в том числе оптоволоконной) и/или беспроводной технологии. Клиент(ы) 902 функционально подключены к одному или более клиентских хранилищ 908 данных, которые могут быть использованы для того, чтобы сохранять информацию локально по отношению к клиенту(ам) 902 (например, cookie-файл(ы) и/или ассоциированную контекстную информацию). Аналогично, серверы 904 функционально подключены к одному или более серверных хранилищ 910 данных, которые могут быть использованы для того, чтобы сохранять информацию локально по отношению к серверам 904.
Клиент(ы) 902 могут включать в себя клиента, через которого голосовые сигналы принимаются для процесса распознавания посредством сервера(ов) 904 или другого клиента(ов) 902. Грамматики могут быть сохранены в клиентском хранилище(ах) 908 данных и/или серверном хранилище(ах) 910 данных.
То, что описано выше, включает в себя примеры раскрытой архитектуры. Конечно, невозможно описать каждую вероятную комбинацию компонентов и/или технологий, но специалистам в данной области техники будет понятно, что множество дополнительных комбинаций и перестановок являются допустимыми. Следовательно, подразумевается, что новая архитектура охватывает все такие изменения, модификации и варианты, которые попадают в пределы сущности и объема прилагаемой формулы изобретения. Кроме того, подразумевается, что термин "включает в себя", используемый либо в подробном описании, либо в формуле изобретения, аналогичен термину "содержит".

Claims (22)

1. Компьютерно-реализуемая система распознавания речи, содержащая:
- компонент ограничений для множества зависящих от контекста ограничений, выполненный с возможностью обработки независимого распознавания одних и тех же входных данных по множеству путей распознавания в соответствующее множество результатов распознавания, причем отдельные варианты ограничений, взятые вместе, предоставляют общую контекстную область для входных данных;
- компонент согласования, выполненный с возможностью формирования динамической грамматики с использованием множества результатов распознавания и выполненный с возможностью выполнения регрессионного анализа для назначения относительных весовых коэффициентов каждому из путей распознавания в динамической грамматике и определения конечного результата распознавания; и
- микропроцессор, выполненный с возможностью исполнения компьютерно-исполняемых инструкций в памяти, связанных с компонентом ограничений и компонентом согласования.
2. Система по п. 1, в которой ограничения включают в себя грамматики для обработки распознавания входных данных параллельными путями.
3. Система по п. 1, в которой компонент согласования согласовывает результаты с помощью повторного распознавания, чтобы формировать единый результат распознавания.
4. Система по п. 3, в которой повторное распознавание применяет динамически составленную грамматику на основе результатов распознавания.
5. Система по п. 1, в которой компонент согласования согласовывает результаты с помощью статистического классификатора, который работает по классификационным признакам, извлеченным из результатов распознавания, чтобы формировать единый результат распознавания.
6. Система по п. 1, в которой зависящие от контекста ограничения включают в себя непересекающийся и пересекающийся охват контекста.
7. Система по п. 1, в которой обработка распознавания обрабатывает релевантные для задачи данные, чтобы достичь единого результата распознавания, причем релевантные для задачи данные включают в себя, по меньшей мере, одно из распознанных строк, оценок достоверности уровня фрагмента речи и уровня субфрагмента речи, охвата речи, относительных задержек среди одновременных распознаваний, априорных вероятностей контекстов, относительной трудности каждого распознавания или согласованности между результатами распознавания.
8. Система по п. 1, дополнительно содержащая компонент распознавания, сконфигурированный для отдельной обработки распознавания входных данных с помощью соответствующего зависящего от контекста ограничения в каждом из параллельных путей.
9. Система по п. 1, дополнительно содержащая компонент правил, выполненный с возможностью наложения одного или более правил, которые задают определение единого результата распознавания.
10. Компьютерно-считываемое запоминающее устройство, содержащее компьютерно-исполняемые инструкции, которые при исполнении в процессоре активируют систему распознавания речи, содержащую:
- компонент ограничений для множества зависящих от контекста ограничений, выполненный с возможностью выполнения обработки независимого распознавания одних и тех же входных данных по множеству путей распознавания в соответствующее множество результатов распознавания, причем отдельные варианты ограничений, взятые вместе, предоставляют общую контекстную область для входных данных; и
- компонент согласования, выполненный с возможностью формирования динамической грамматики с использованием множества результатов распознавания и выполненный с возможностью выполнения регрессионного анализа для назначения относительных весовых коэффициентов каждому из путей распознавания в динамической грамматике и определения конечного результата распознавания.
11. Компьютерно-считываемое запоминающее устройство по п. 10, причем компонент согласования применяет динамически составленную грамматику результатов распознавания и согласовывает результаты распознавания с помощью повторного распознавания, чтобы формировать конечный результат распознавания.
12. Компьютерно-считываемое запоминающее устройство по п. 10, причем компонент согласования согласовывает результаты распознавания с помощью классификации, которая работает по признакам, извлеченным из результатов распознавания, чтобы формировать конечный результат распознавания.
13. Компьютерно-считываемое запоминающее устройство по п. 10, дополнительно содержащее компонент правил для наложения одного или более правил, которые задают определение конечного результата распознавания, и знания другой области, которые влияют на признаки для согласования с помощью классификации и динамическую грамматику для согласования с помощью повторного распознавания.
14. Компьютерно-считываемое запоминающее устройство по п. 10, причем компонент согласования согласовывает результаты распознавания путем применения регрессионного анализа до повторного распознавания для определения конечного результата распознавания.
15. Компьютерно-реализуемый способ распознавания речи, выполняемый компьютерной системой, исполняющей компьютерно-считываемые инструкции, содержащий этапы, на которых:
- принимают грамматику распознавания, составленную из отдельных зависящих от контекста грамматик, каждая из которых охватывает конкретный поднабор оригинального пространства задачи, для обработки входных данных фрагмента речи;
- распознают входные данные фрагмента речи параллельными путями с помощью соответствующей зависящей от контекста грамматики для каждого пути;
- формируют промежуточный результат распознавания от каждого пути;
- формируют динамическую грамматику с использованием промежуточного результата распознавания от каждого пути;
- выполняют регрессионный анализ для назначения относительных весовых коэффициентов каждому из путей распознавания в динамической грамматике и определения конечного результата распознавания; и
- конфигурируют микропроцессор для исполнения инструкций в памяти, связанных с этапами приема, распознавания, формирования промежуточного распознавания, формирования динамической грамматики и выполнения.
16. Способ по п. 15, дополнительно содержащий этап, на котором согласовывают промежуточные результаты распознавания с помощью повторного распознавания динамической грамматики, сформированной из промежуточных результатов распознавания.
17. Способ по п. 15, дополнительно содержащий этапы, на которых:
- вводят знания другой области во время согласования промежуточных результатов распознавания посредством повторного распознавания; и
- накладывают одно или более правил, чтобы формировать конечный результат распознавания.
18. Способ по п. 15, дополнительно содержащий этапы, на которых:
- вводят знания другой области во время согласования промежуточных результатов распознавания посредством классификации; и
- накладывают одно или более правил, чтобы формировать конечный результат распознавания.
19. Способ по п. 15, дополнительно содержащий этапы, на которых:
- выполняют анализ классификации; и
- назначают относительные весовые коэффициенты каждому пути в динамической грамматике для повторного распознавания.
20. Способ по п. 15, дополнительно содержащий этапы, на которых:
- ожидают в течение предварительно определенного интервала времени для формирования промежуточного результата распознавания пути; и
- формируют конечный результат распознавания на основе промежуточных результатов распознавания, которые формируются в течение интервала времени.
21. Компьютерно-реализуемая система распознавания речи, содержащая:
- компонент ограничений для множества зависящих от контекста ограничений, выполненный с возможностью выполнения обработки независимого распознавания входных данных по множеству путей распознавания в соответствующее множество результатов распознавания, причем отдельные варианты ограничений, взятые вместе, предоставляют общую контекстную область для входных данных;
- компонент согласования, выполненный с возможностью формирования динамической грамматики с использованием множества результатов распознавания и выполненный с возможностью выполнения статистического анализа для назначения относительных весовых коэффициентов каждому из путей распознавания в динамической грамматике и определения конечного результата распознавания;
- компонент повторного распознавания, выполненный с возможностью обработки входных данных с использованием динамической грамматики, чтобы формировать конечный результат распознавания; и
- микропроцессор, выполненный с возможностью исполнения компьютерно-исполняемых инструкций в памяти, связанных с компонентом ограничений, компонентом согласования и компонентом повторного распознавания.
22. Компьютерно-реализуемый способ распознавания речи, выполняемый компьютерной системой, исполняющей компьютерно-считываемые инструкции, содержащий этапы, на которых:
- распознают входные данные фрагмента речи параллельными путями с помощью грамматики распознавания, которая содержит разные или пересекающиеся зависящие от контекста грамматики для каждого пути;
- формируют динамическую грамматику с использованием промежуточного результата распознавания от одного или более путей;
- выполняют статистический анализ для назначения относительных весовых коэффициентов каждому из путей распознавания в динамической грамматике;
- выполняют обработку повторного распознавания входных данных фрагмента речи, используя динамическую грамматику для формирования конечного результата распознавания; и
- конфигурируют микропроцессор для исполнения инструкций в памяти, связанных с этапами распознавания, формирования, выполнения статистического анализа и выполнения обработки повторного распознавания.
RU2011149321/08A 2009-06-04 2010-06-01 Распознавание с помощью повторного распознавания и статистической классификации RU2571519C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/477,918 2009-06-04
US12/477,918 US8930179B2 (en) 2009-06-04 2009-06-04 Recognition using re-recognition and statistical classification
PCT/US2010/036964 WO2010141513A2 (en) 2009-06-04 2010-06-01 Recognition using re-recognition and statistical classification

Publications (2)

Publication Number Publication Date
RU2011149321A RU2011149321A (ru) 2013-06-10
RU2571519C2 true RU2571519C2 (ru) 2015-12-20

Family

ID=43298454

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011149321/08A RU2571519C2 (ru) 2009-06-04 2010-06-01 Распознавание с помощью повторного распознавания и статистической классификации

Country Status (10)

Country Link
US (1) US8930179B2 (ru)
EP (1) EP2438533B1 (ru)
JP (2) JP2012529080A (ru)
KR (1) KR101700466B1 (ru)
CN (1) CN102460423B (ru)
AU (1) AU2010256788B2 (ru)
BR (1) BRPI1014550B1 (ru)
CA (1) CA2760992C (ru)
RU (1) RU2571519C2 (ru)
WO (1) WO2010141513A2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2764215C1 (ru) * 2020-04-09 2022-01-14 Ниппон Стил Инджиниринг Ко., Лтд. Устройство вывода информации, система вывода информации, способ вывода информации, серверное устройство и способ вывода данных

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN103077718B (zh) * 2013-01-09 2015-11-25 华为终端有限公司 语音处理方法、系统和终端
US9414004B2 (en) 2013-02-22 2016-08-09 The Directv Group, Inc. Method for combining voice signals to form a continuous conversation in performing a voice search
US20140365218A1 (en) * 2013-06-07 2014-12-11 Microsoft Corporation Language model adaptation using result selection
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9786276B2 (en) * 2014-08-25 2017-10-10 Honeywell International Inc. Speech enabled management system
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
US20180366123A1 (en) * 2015-12-01 2018-12-20 Nuance Communications, Inc. Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base
KR102019757B1 (ko) * 2015-12-15 2019-09-10 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법
DE102016005629B4 (de) * 2016-05-06 2020-06-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu系统的并行化游客识别方法
CN107943452B (zh) * 2017-11-20 2020-07-14 中国运载火箭技术研究院 一种多用户协同开发的体系结构设计平台
US11360872B2 (en) 2018-10-18 2022-06-14 Hewlett-Packard Development Company, L.P. Creating statistical analyses of data for transmission to servers
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
US11238884B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited Systems and methods for recording quality driven communication management
US11961511B2 (en) 2019-11-08 2024-04-16 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
RU2216052C2 (ru) * 1998-07-14 2003-11-10 Интел Корпорейшн Автоматическое распознавание речи
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6265089A (ja) 1985-09-18 1987-03-24 株式会社リコー 音声認識装置
JPS6346496A (ja) 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
US5390279A (en) 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5677990A (en) 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US6434524B1 (en) 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
JP2000181487A (ja) 1998-12-14 2000-06-30 Toshiba Tec Corp 音声認識装置
DE19910234A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
JP2001249684A (ja) 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US7213027B1 (en) 2000-03-21 2007-05-01 Aol Llc System and method for the transformation and canonicalization of semantically structured data
US6973429B2 (en) 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP2003029783A (ja) 2001-07-17 2003-01-31 Oki Electric Ind Co Ltd 音声認識制御方式
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7797157B2 (en) 2004-01-12 2010-09-14 Voice Signal Technologies, Inc. Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JP2006039382A (ja) 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
US7747437B2 (en) 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
RU2216052C2 (ru) * 1998-07-14 2003-11-10 Интел Корпорейшн Автоматическое распознавание речи
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2764215C1 (ru) * 2020-04-09 2022-01-14 Ниппон Стил Инджиниринг Ко., Лтд. Устройство вывода информации, система вывода информации, способ вывода информации, серверное устройство и способ вывода данных

Also Published As

Publication number Publication date
US8930179B2 (en) 2015-01-06
KR20120029413A (ko) 2012-03-26
AU2010256788B2 (en) 2014-09-11
CN102460423A (zh) 2012-05-16
EP2438533A4 (en) 2016-05-11
WO2010141513A3 (en) 2011-03-03
US20100312546A1 (en) 2010-12-09
EP2438533A2 (en) 2012-04-11
JP2016026326A (ja) 2016-02-12
AU2010256788A1 (en) 2011-11-17
CA2760992C (en) 2017-04-25
KR101700466B1 (ko) 2017-01-26
RU2011149321A (ru) 2013-06-10
WO2010141513A2 (en) 2010-12-09
EP2438533B1 (en) 2019-01-23
BRPI1014550A2 (pt) 2016-04-05
CA2760992A1 (en) 2010-12-09
BRPI1014550B1 (pt) 2020-05-05
JP2012529080A (ja) 2012-11-15
CN102460423B (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
RU2571519C2 (ru) Распознавание с помощью повторного распознавания и статистической классификации
US20230100423A1 (en) Crowdsourced on-boarding of digital assistant operations
JP6978520B2 (ja) 自動アシスタントのためのコマンドバンドル提案の提供
US10971135B2 (en) System and method for crowd-sourced data labeling
US9053708B2 (en) System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US10490183B2 (en) Fully managed and continuously trained automatic speech recognition service
JP2023029973A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
EP3611723B1 (en) Graphical user interface voice control apparatus/system and method
US10698654B2 (en) Ranking and boosting relevant distributable digital assistant operations
US11966389B2 (en) Natural language to structured query generation via paraphrasing
CN116830075A (zh) 助理命令的被动消歧
US20230132894A1 (en) Chat bot control device, chat bot control method, and chat bot control device system
JP2022522926A (ja) 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識
US11074163B2 (en) Method and system for generating unit tests using machine learning
WO2023216857A1 (en) Multi-agent chatbot with multi-intent recognition
US20180350350A1 (en) Sharing commands and command groups across digital assistant operations
US11568858B2 (en) Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
US11557284B2 (en) Cognitive analysis for speech recognition using multi-language vector representations
US11580968B1 (en) Contextual natural language understanding for conversational agents
CN112489632A (zh) 实施校正模型以减少自动语音识别错误的传播
US11600260B1 (en) Utterance generation and evaluation
Huang et al. Reconciling requirements and implementation via reengineering for context-aware service evolution
US20230259965A1 (en) System and method for automating sponsored-search data pipelines

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant