RU2688277C1 - Повторное распознавание речи с внешними источниками данных - Google Patents
Повторное распознавание речи с внешними источниками данных Download PDFInfo
- Publication number
- RU2688277C1 RU2688277C1 RU2018117655A RU2018117655A RU2688277C1 RU 2688277 C1 RU2688277 C1 RU 2688277C1 RU 2018117655 A RU2018117655 A RU 2018117655A RU 2018117655 A RU2018117655 A RU 2018117655A RU 2688277 C1 RU2688277 C1 RU 2688277C1
- Authority
- RU
- Russia
- Prior art keywords
- transcription
- terms
- variant
- generating
- language model
- Prior art date
Links
- 238000013518 transcription Methods 0.000 claims abstract description 172
- 230000035897 transcription Effects 0.000 claims abstract description 172
- 239000012634 fragment Substances 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims description 29
- 230000007774 longterm Effects 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000218657 Picea Species 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Изобретение относится к средствам для получения транскрипции речевого фрагмента. Технический результат заключается в повышении точности транскрипции речевого фрагмента. Получают первоначальный вариант транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи. Идентифицируют, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, один или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции. При этом определение, аналогичны ли фонетически термины, предусматривают определение меры сходства и сравнение меры с порогом, или определение, превышает ли мера сходства меры сходства, относящиеся к другим парам терминов. Генерируют один или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов. Выбирают транскрипцию из вариантов транскрипции. 3 н. и 17 з.п. ф-лы, 3 ил.
Description
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0001] Настоящее изобретение относится к автоматизированному распознаванию речи.
УРОВЕНЬ ТЕХНИКИ
[0002] Распознавание речи относится к транскрипции произнесенных слов в текст с использованием автоматизированного распознавателя речи (ASR). В традиционных системах ASR, принятый аудиосигнал преобразуется в компьютерно-считываемые звуки, которые затем сравниваются со словарем слов, которые связаны с данным языком.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0003] В общем случае, один аспект изобретения, описанный в этом описании изобретения, можно реализовать в способах, которые улучшают распознавание речи с использованием внешнего источника данных. Например, автоматизированный распознаватель речи может принимать аудиоданные, кодирующие речевой фрагмент и обеспечивать первоначальный вариант транскрипции речевого фрагмента с использованием первой языковой модели. Затем система может применять вторую, другую языковую модель к первоначальному варианту транскрипции для генерирования альтернативных вариантов транскрипции, которые (i) звучат фонетически аналогично первоначальному варианту транскрипции и (ii) с высокой степенью вероятности появляются в данном языке. Затем система может выбирать транскрипцию из вариантов транскрипции на основе (i) фонетического сходства между аудиоданными и вариантами транскрипции и (ii) правдоподобия варианта транскрипции, появляющегося в данном языке.
[0004] Реализации могут включать в себя один или более из следующих признаков. Например, в некоторых реализациях, способ включает в себя получение первоначального варианта транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи, идентификацию, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, одного или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции, генерирование одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов, и выбор транскрипции из вариантов транскрипции.
[0005] Другие версии включают в себя соответствующие системы, компьютерные программы, выполненные с возможностью осуществлять действия способов, закодированных на компьютерных запоминающих устройствах, и компьютерные программы, выполненные с возможностью предписывать вычислительному устройству осуществлять действия способов.
[0006] Одна или более реализаций может включать в себя следующие необязательные признаки. Например, в некоторых реализациях, языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включает в себя один или более терминов, отсутствующих в языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции. В некоторых аспектах, обе из языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, и языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включают в себя последовательность из одного или более терминов, но указывают, что последовательность имеет разные правдоподобия появления.
[0007] В некоторых аспектах, языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, указывает правдоподобия появления слов или последовательностей слов. В некоторых реализациях, действия включают в себя, для каждого из вариантов транскрипции, определение показателя правдоподобия, который отражает, насколько часто ожидается произнесение варианта транскрипции, и для каждого из вариантов транскрипции, определение показателя акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом, причем выбор транскрипции из вариантов транскрипции основан на показателях акустического совпадения и показателях правдоподобия. В некоторых аспектах, определение показателя акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом, включает в себя получение показателей акустического совпадения подслов от автоматизированного распознавателя речи, идентификацию подмножества показателей акустического совпадения подслов, которые соответствуют варианту транскрипции, и генерирование показателя акустического совпадения на основе подмножества показателей акустического совпадения подслов, которые соответствуют варианту транскрипции.
[0008] В некоторых аспектах, определение показателя правдоподобия, который отражает, насколько часто ожидается произнесение варианта транскрипции, включает в себя определение показателя правдоподобия на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции. В некоторых реализациях, генерирование одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов включает в себя замену идентифицированных одного или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции, на один или более терминов, которые уже присутствуют в первоначальном варианте транскрипции.
[0009] Технические преимущества могут включать в себя предоставление возможности использовать данные из внешнего источника данных при генерировании более точной транскрипции без модификации существующего автоматизированного распознавателя речи. Например, применение выходного сигнала автоматизированного распознавателя речи к обновленной языковой модели позволяет избегать вычислительно затратной перекомпиляции автоматизированного распознавателя речи для использования обновленной языковой модели. Другое преимущество может состоять в том, что система может распознавать дополнительные термины, отличные от терминов, которые может распознавать автоматизированный распознаватель речи, используемый для генерирования первоначальной транскрипции. Еще одно преимущество может состоять в том, что могут быть включены разные архитектуры языковых моделей, которые обычно непригодны для декодера распознавания речи в реальном времени. Например, текстовый файл, который включает в себя список всех песен, когда-либо прослушанных пользователем, может быть трудно эффективно включать в распознаватель речи в реальном времени. Однако в этой системе после того, как распознаватель речи выводит первоначальный вариант транскрипции, информация из текстового файла может быть включена для определения окончательной транскрипции.
[0010] Определение, аналогичны ли фонетически термины, предусматривают определение меры сходства и сравнение меры с порогом, или определение, превышает ли мера сходства меры сходства, относящиеся к другим парам терминов.
[0011] Подробности одной или более реализаций изложены в прилагаемых чертежах и нижеследующем описании. Другие возможные признаки и преимущества явствуют из описания, чертежей и формулы изобретения.
[0012] Другие реализации этих аспектов включают в себя соответствующие системы, устройство и компьютерные программы, выполненные с возможностью осуществлять действия способов, закодированные на компьютерных запоминающих устройствах.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0013] фиг. 1 демонстрирует иллюстративную систему, которая может использоваться для улучшения распознавания речи с использованием внешнего источника данных.
[0014] фиг. 2 демонстрирует иллюстративный процесс для улучшения распознавания речи с использованием внешнего источника данных.
[0015] фиг. 3 - блок-схема вычислительных устройств, на которых могут быть реализованы описанные здесь процессы или их части.
[0016] В чертежах, аналогичные ссылочные позиции представляют соответствующие части.
ПОДРОБНОЕ ОПИСАНИЕ
[0017] Фиг. 1 демонстрирует иллюстративную систему 100, которая может использоваться для улучшения распознавания речи с использованием внешнего источника данных. Кратко, система 100 может включать в себя автоматизированный распознаватель 110 речи (ASR), который включает в себя акустическую модель 112 и языковую модель 114, вторую языковую модель 120, фонетический расширитель 130 и блок 140 повторного определения показателя.
[0018] В частности, ASR 110 может принимать акустические данные, кодирующие речевой фрагмент. Например, ASR 110 может принимать акустические данные, соответствующие речевому фрагменту ʺCityZen reservationʺ. Акустические данные могут включать в себя, например, первичные данные формы волны, коэффициенты косинусного преобразования Фурье мел-правдоподобие или любое другое акустическое или фонетическое представление аудиосигнала.
[0019] Акустическая модель 112 ASR 110 может принимать акустические данные и генерировать акустические показатели для слов или подслов, например, фонем, соответствующих акустическим данным. Акустические показатели могут отражать фонетическое сходство между словами или подсловами и акустическими данными. Например, акустическая модель может принимать акустические данные для ʺCityZen reservationʺ и генерировать акустические показатели ʺSE - 0,9/0/0 /...,...EE - 0/0/0,9 /...I - 0/0,7/0 /....ʺ Иллюстративные акустические показатели могут указывать, что для фонемы ʺSEʺ существует 90%-ое акустическое совпадение для первого подслова в речевом фрагменте, 0%-ое акустическое совпадение для второго подслова в речевом фрагменте и 0%-ое акустическое совпадение для третьего подслова в речевом фрагменте, для фонемы ʺEEʺ существует 0%-ое акустическое совпадение для первого подслова в речевом фрагменте, 0%-ое совпадение для второго подслова в речевом фрагменте и 90%-ое совпадение для третьего подслова в речевом фрагменте, и для фонемы ʺIʺ существует 0%-ое акустическое совпадение для первого подслова в речевом фрагменте, 0%-ое акустическое совпадение для второго подслова в речевом фрагменте и 70%-ое акустическое совпадение для третьего подслова в речевом фрагменте. В вышеприведенном примере, акустическая модель 112 может выводить акустический показатель для каждой комбинации фонемы и позиции подслова в речевом фрагменте.
[0020] Акустическая модель 112 может генерировать акустические показатели на основе сравнения форм волны, указанных акустическими данными, с формами волны, указанными как соответствующие конкретным подсловам. Например, акустическая модель 112 может принимать акустические данные для речевого фрагмента ʺCityZen reservationʺ и идентифицировать, что начало акустических данных представляет форму волны, имеющую 90%-ое совпадение с сохраненной формой волны для фонемы ʺSE,ʺ и, в ответ, генерировать акустический показатель 0,9 для первой фонемы в речевом фрагменте, то есть фонемы ʺSEʺ.
[0021] Языковая модель 114 ASR 110 может принимать акустические показатели и генерировать первоначальный вариант транскрипции на основе акустических показателей. Например, языковая модель 114 ASR 110 может принимать акустические показатели ʺSE - 0,9/0/0 /...,...EE - 0/0/0,9 /...I - 0/0/0,7 /....ʺ, и, в ответ, генерировать первоначальный вариант транскрипции ʺCitizen reservationʺ.
[0022] Языковая модель 114 может генерировать первоначальный вариант транскрипции на основе правдоподобия присутствия последовательностей слов и акустических показателей. Например, языковая модель 114 может генерировать вариант транскрипции ʺCitizen reservationʺ на основе того, что правдоподобие присутствия слов "CityZen reservation" равно 0%, например, поскольку слово ʺCityZenʺ отсутствует в языковой модели 114, правдоподобие присутствия слов "Citizen reservation" равно 70%, акустические показатели для "CityZen reservation", которые указывают, что звучание речевого фрагмента акустически больше похоже на "City", после которого следует "Zen", чем "Citizen," и генерировать первоначальный вариант транскрипции "Citizen reservation".
[0023] В некоторых реализациях, языковая модель 114 может указывать правдоподобие последовательностей слов посредством показателя правдоподобия, и при генерировании первоначального варианта транскрипции языковая модель 114 может перемножать показатели акустического совпадения и показатели правдоподобия. Например, для фонем ʺSE-ET-EE-ZEʺ языковая модель 114 может перемножать показатели акустического совпадения 0,9, 0,9, 0,9, 0,7 с показателем правдоподобия 0,0 для ʺCityʺ, после которого следует ʺZenʺ, получая показатель 0, и для фонем ʺSE-ET-I-ZEʺ языковая модель 114 может перемножать показатели акустического совпадения 0,9, 0,9, 0,7, 0,9 с показателем правдоподобия 0,9 для ʺCitizenʺ, получая показатель 0,45, и затем выбирать слово ʺCitizenʺ, поскольку его показатель 0,45 лучше, чем показатель 0 для ʺCityʺ, после которого следует ʺZenʺ.
[0024] ASR 110 может выводить первоначальную транскрипцию, сгенерированную языковой моделью 114. Например, ASR 110 может выводить первоначальную транскрипцию ʺCitizen reservationʺ, сгенерированную языковой моделью 114, приняв акустические показатели на основе акустических данных для речевого фрагмента ʺCityZen reservationʺ.
[0025] Вторая языковая модель 120 может принимать первоначальную транскрипцию и генерировать дополнительные варианты транскрипции. Например, вторая языковая модель 120 может принимать первоначальную транскрипцию ʺCitizen reservationʺ и, в ответ, генерировать дополнительные транскрипции ʺCityZen reservationʺ и ʺSooty bin reservationʺ.
[0026] Вторая языковая модель 120 может генерировать дополнительные варианты транскрипции на основе идентификации одного или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции, и замены одного или более терминов, которые уже присутствуют в первоначальном варианте транскрипции, на идентифицированные один или более фонетически аналогичными терминов. Например, вторая языковая модель 120 может принимать первоначальный вариант транскрипции ʺCitizen reservationʺ, идентифицировать оба термина ʺCityZenʺ и ʺSooty binʺ как фонетически аналогичные термину ʺCitizenʺ, и, в ответ, генерировать дополнительные варианты транскрипции ʺCityZen reservationʺ и ʺSooty bin reservationʺ, заменяя ʺCitizenʺ на ʺCityZenʺ и ʺSooty binʺ, соответственно.
[0027] В некоторых реализациях, вторая языковая модель 120 может идентифицировать фонетически аналогичные термины на основе сохранения фонетических представлений слов и идентификации фонетически аналогичных терминов на основе сохраненных фонетических представлений. Например, вторая языковая модель 120 может сохранять информацию, которая указывает, что ʺCitizenʺ можно представить фонемами ʺSE-ET-I-ZE-ENʺ, и что ʺCityʺ и ʺZenʺ можно представить фонемами ʺSE-ET-EE-ZE-ENʺ, принимать термин ʺCitizenʺ в первоначальной транскрипции, определять, что термин соответствует фонемам ʺSE-ET-I-ZE-ENʺ, определять, что фонемы ʺSE-ET-I-ZE-ENʺ аналогичны фонемам ʺSE-ET-EE-ZE-ENʺ, которые связаны с ʺCityʺ и ʺZenʺ, и, в ответ, определять что термин ʺCitizenʺ фонетически аналогичен термину ʺCityZenʺ.
[0028] В некоторых реализациях, вторая языковая модель 120 может определять, насколько аналогично звучат фонемы, на основе акустических представлений фонем. Например, вторая языковая модель 120 может определять, что фонема ʺEEʺ и фонема ʺIʺ более аналогичны друг другу, чем фонема ʺEEʺ и фонема ʺZAʺ, на основе определения, что акустическое представление для фонемы ʺEEʺ более аналогично акустическому представлению фонемы ʺIʺ, чем акустическое представление фонемы ʺZAʺ. В некоторых реализациях, вторая языковая модель 120 может, дополнительно или альтернативно, идентифицировать фонетически аналогичные термины на основе явного указания аналогично звучащих слов. Например, вторая языковая модель 120 может включать в себя информацию, которая явно указывает, что ʺFloorʺ и ʺFlourʺ звучат фонетически аналогично.
[0029] Вторая языковая модель 120 может генерировать дополнительные варианты транскрипции на основе правдоподобия последовательности слов в присутствующих вариантах транскрипции. Например, вторая языковая модель 120 может определять, что последовательность слов ʺCityZen reservationʺ имеет высокое правдоподобие присутствия, и, в ответ, принимать решение выводить ʺCityZen reservationʺ в качестве дополнительного варианта. В другом примере, вторая языковая модель 120 может определять, что последовательность слов ʺSooty zen reservationʺ имеет низкое правдоподобие присутствия, и, в ответ, принимать решение не выводить ʺSooty zen reservationʺ в качестве дополнительного варианта.
[0030] В некоторых реализациях, вторая языковая модель 120 может генерировать варианты транскрипции на основе комбинации фонетического сходства с первоначальным вариантом транскрипции и правдоподобия присутствия варианта транскрипции. Например, вторая языковая модель 120 может принять решение не выводить ʺSooty zen reservationʺ, но выводить ʺSooty bin reservationʺ поскольку, хотя ʺSooty zen reservationʺ по звучанию фонетически больше походит на ʺCitizen reservationʺ, ʺSooty zen reservationʺ имеет очень низкое правдоподобие присутствия согласно второй языковой модели 120, и ʺSooty bin reservationʺ, хотя звучит чуть менее похоже на ʺCitizen reservationʺ, имеет умеренное правдоподобие присутствия.
[0031] Вторая языковая модель 120 может выводить варианты транскрипции с соответствующими показателями правдоподобия. Например, приняв ʺCitizen reservationʺ, вторая языковая модель 120 может выводить ʺCitizen reservationʺ, связанный с умеренным показателем правдоподобия 0,6, выводить ʺCityZen reservationʺ, связанный с высоким показателем правдоподобия 0,9, и выводить ʺSooty bin reservationʺ с умеренным показателем правдоподобия 0,4. Показатели правдоподобия могут отражать правдоподобие последовательности из одного или более слов в варианте транскрипции, присутствующим в данном языке.
[0032] В некоторых реализациях, вторая языковая модель 120 может определять показатель правдоподобия для варианта транскрипции на основе хранения показателей правдоподобия для последовательностей из одного или более слов, идентификации последовательностей из одного или более слов, находящихся в варианте транскрипции, и генерирования показателя правдоподобия для варианта транскрипции на основе показателей правдоподобия для последовательностей из одного или более слов, идентифицированных находящимися в варианте транскрипции. В одном примере, вторая языковая модель 120 может определять, что последовательности из ʺSooty binʺ и ʺreservationʺ находятся в варианте транскрипции ʺSooty bin reservationʺ и предварительно связаны с показателями правдоподобия 0,8 и 0,5, соответственно, и генерировать показатель правдоподобия для варианта транскрипции ʺSooty bin reservationʺ умножением показателей правдоподобия 0,8 и 0,5, в результате чего получается 0,4. В другом примере, вторая языковая модель 120 может определять, что вся последовательность ʺCityZen reservationʺ предварительно связана с показателем правдоподобия 0,9 и полностью совпадает с вариантом транскрипции ʺCityZen reservationʺ, и, в ответ, определять, что показатель правдоподобия варианта транскрипции ʺCityZen reservationʺ равен 0,9.
[0033] Фонетический расширитель 130 может принимать варианты транскрипции от второй языковой модели 120 и расширять варианты транскрипции на подслова. Например, фонетический расширитель 130 может принимать ʺCitizen reservationʺ и генерировать фонетическое расширение ʺSE-ET-I-ZE...ʺ, принимать ʺCityZen reservationʺ и генерировать фонетическое расширение ʺSE-ET-EE-ZE...ʺ, и принимать ʺSooty bin reservationʺ и генерировать фонетическое расширение ʺSO-OT-EE-BI...ʺ. В некоторых реализациях фонетический расширитель 130 может расширять варианты транскрипции на подслова на основе заранее определенных правил расширения. Например, правило может устанавливать, что ʺSOOʺ расширяется на фонему ʺSOʺ. В другом примере, правило может устанавливать, что слово ʺSootyʺ расширяется на фонемы ʺSO-OT-EEʺ.
[0034] Блок 140 повторного определения показателя может принимать фонетические расширения для каждого из вариантов транскрипции от фонетического расширителя, принимать соответствующий показатель правдоподобия для каждого из вариантов транскрипции от второй языковой модели 120, принимать акустические показатели от акустической модели 112, генерировать общий показатель для вариантов транскрипции на основе комбинации показателей правдоподобия и акустических показателей от акустической модели 112, и выбирать транскрипцию из вариантов транскрипции на основе общих показателей. Например, блок повторного определения показателя может принимать вариант транскрипции ʺCitizen reservationʺ, связанный с умеренным показателем правдоподобия 0,6 и фонетическим расширением ʺSE-ET-I-ZE...ʺ, вариант транскрипции ʺCityZen reservationʺ, связанный с высоким показателем правдоподобия 0,9 и фонетическим расширением ʺSE-ET-EE-ZE...ʺ, и вариант транскрипции ʺSooty bin reservationʺ, связанный с умеренным показателем правдоподобия 0,4 и фонетическим расширением ʺSO-OT-EE-BI...ʺ, принимать акустические показатели "SE - 0,9/0/0 /...,...EE - 0/0/0,9 /...I - 0/0,7/0 /....", генерировать общий показатель 0,8 для ʺCityZen reservationʺ, общий показатель 0,6 для ʺCitizen reservationʺ, и общий показатель 0,3 для ʺSooty bin reservationʺ, и выбирать ʺCityZen reservationʺ, поскольку он имеет наивысший общий показатель.
[0035] В некоторых реализациях, блок 140 повторного определения показателя может генерировать общий показатель на основе комбинации показателя правдоподобия и показателя акустического совпадения для варианта речевого фрагмента. Например, блок 140 повторного определения показателя может генерировать общий показатель 0,7 для варианта транскрипции, перемножая показатель правдоподобия 0,9 для варианта транскрипции и показатель акустического совпадения 0,8 для варианта транскрипции.
[0036] В некоторых реализациях, блок 140 повторного определения показателя может генерировать показатель акустического совпадения для варианта речевого фрагмента на основе акустических показателей от акустической модели 112 и фонетических расширений от фонетического расширителя 130. В частности, блок 140 повторного определения показателя может принимать фонетические расширения, которые включают в себя множественные подслова, идентифицировать акустические показатели, соответствующие каждому из множественных подслов, и генерировать показатель акустического совпадения для каждого варианта речевого фрагмента на основе акустических показателей множественных подслов, включенных в фонетическое расширение варианта речевого фрагмента. Например, блок 140 повторного определения показателя может принимать фонетическое расширение ʺSE-ET-EE-ZE...ʺ для ʺCityZen reservationʺ, идентифицировать акустические показатели, принятые от акустической модели 112 для каждой из фонем ʺSE-ET-EE-ZE...ʺ, и перемножать идентифицированные акустические показатели для генерирования показателя акустического совпадения для ʺCityZen reservationʺ.
[0037] В некоторых реализациях, блок 140 повторного определения показателя может не принимать все акустические показатели от акустической модели 112. Вместо этого, блок 140 повторного определения показателя может принимать фонетические расширения от фонетического расширителя 130 и запрашивать у акустический модели 112 только акустические показатели, которые соответствуют подсловам в фонетических расширениях, принятых от фонетического расширителя 130. Например, блок 140 повторного определения показателя может запрашивать у акустической модели 112 акустические показатели для фонем ʺSEʺ, ʺETʺ, ʺIʺ, ʺZEʺ и других фонем, которые появляются в фонетических расширениях, но не фонем ʺBAʺ, ʺFUʺ, ʺKAʺ, и других фонем, которые не появляются в фонетических расширениях.
[0038] В некоторых реализациях, блок 140 повторного определения показателя может учитывать другие факторы при выборе транскрипции из вариантов транскрипции. Например, блок 140 повторного определения показателя может идентифицировать текущее местоположение пользователя и взвешивать выбор к идентификации вариантов транскрипции, более тесно связанных с текущим местоположением пользователя. В другом примере, блок 140 повторного определения показателя может идентифицировать текущее время суток и взвешивать выбор к идентификации вариантов транскрипции, более тесно связанных с временем суток. В еще одном примере, блок 140 повторного определения показателя может идентифицировать предпочтения пользователя, обеспечивающего речевой фрагмент, и взвешивать выбор к идентификации вариантов транскрипции, более тесно связанных с идентифицированными предпочтениями пользователя.
[0039] Могут использоваться разные конфигурации системы 100, где функциональные возможности акустической модели 112, языковой модели 114, автоматизированного распознавателя 110 речи, второй языковой модели 120, фонетического расширителя 130 и блока 140 повторного определения показателя можно объединить, дополнительно разделять, распределять или взаимозаменять. Система 100 может быть реализована в едином устройстве или распределяться по множественным устройствам.
[0040] На фиг. 2 показана блок-схема операций иллюстративного процесса 200 для улучшения распознавания речи на основе внешних источников данных. Ниже описана обработка 200, осуществляемая компонентами системы 100, которые описаны со ссылкой на фиг. 1. Однако процесс 200 может осуществляться другими системами или конфигурациями системы.
[0041] Процесс 200 может включать в себя получение первоначального варианта транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи (210). Например, автоматизированный распознаватель 110 речи может принимать акустические данные для речевого фрагмента ʺZaytinya reservationʺ и выводить первоначальный вариант транскрипции ʺSay tin ya reservationʺ.
[0042] Процесс 200 может включать в себя идентификацию, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, одного или более дополнительных терминов, фонетически аналогичных первоначальному варианту транскрипции (220). Например, вторая языковая модель 120 может идентифицировать, что термины ʺZaytinyaʺ и ʺSay ten yaʺ звучат фонетически аналогично ʺSay tin yaʺ.
[0043] Процесс 200 может включать в себя генерирование одного или более дополнительных вариантов транскрипции на основе одного или более дополнительных терминов (230). Например, вторая языковая модель 120 может генерировать дополнительные варианты транскрипции ʺZaytinya reservationʺ и ʺSay ten ya reservationʺ на основе замены ʺSay tin yaʺ на ʺZaytinyaʺ и ʺSay ten yaʺ в первоначальном варианте речевого фрагмента ʺSay tin ya reservationʺ.
[0044] Процесс 200 может включать в себя выбор транскрипции из вариантов транскрипции (240). Например, блок 140 повторного определения показателя может выбирать транскрипцию ʺZaytinya reservationʺ из вариантов транскрипции ʺSay tin ya reservationʺ, ʺZaytinya reservationʺ и ʺSay ten ya reservationʺ. Выбор может базироваться на показателях правдоподобия и показателях акустического совпадения для каждого из вариантов транскрипции. Например, выбор может базироваться на идентификации варианта транскрипции с показателем правдоподобия, который указывает высокое правдоподобие варианта речевого фрагмента, присутствующего в данном языке, и показателем акустического совпадения, который указывает близкое акустическое сходство варианта речевого фрагмента с акустическими данными.
[0045] На фиг. 3 показана блок-схема вычислительных устройств 300, 350, которые могут использоваться для реализации систем и способов, описанных в этом документе, в качестве клиента или в качестве сервера или множества серверов. Вычислительное устройство 300 предназначено для представления различных форм цифровых компьютеров, например, портативных компьютеров, настольных компьютеров, рабочих станций, персональных цифровых помощников, серверов, ячеечных серверов, универсальных компьютеров и других подходящих компьютеров. Вычислительное устройство 350 предназначено для представления различных форм мобильных устройств, например, персональных цифровых помощников, сотовых телефонов, смартфонов и других аналогичных вычислительных устройств. Дополнительно вычислительное устройство 300 или 350 может включать в себя флеш-накопители на универсальной последовательной шине (USB). На флеш-накопителях на USB могут храниться операционные системы и другие приложения. Флеш-накопители на USB могут включать в себя компоненты ввода/вывода, например, беспроводной передатчик или разъем USB, который можно вставлять в порт USB другого вычислительного устройства. Показанные здесь компоненты, их соединения и отношения, и их функции, следует рассматривать только в порядке иллюстрации, но не ограничения, реализаций изобретения, описанного и/или заявленного в этом документе.
[0046] Вычислительное устройство 300 включает в себя процессор 302, память 304, запоминающее устройство 306, высокоскоростной интерфейс 308, подключенный к памяти 304 и высокоскоростным портам 310 расширения, и низкоскоростной интерфейс 312, подключенный к низкоскоростной шине 314 и запоминающему устройству 306. Все компоненты 302, 304, 306, 308, 310 и 312, соединены между собой с использованием различных шин, и могут быть установлены на общей материнской плате или другими способами при необходимости. Процессор 302 может обрабатывать инструкции, выполняющиеся на вычислительном устройстве 300, в том числе, инструкции, хранящиеся в памяти 304 или на запоминающем устройстве 306, для отображения графической информации для GUI на внешнем устройстве ввода/вывода, например, дисплее 316, подключенном к высокоскоростному интерфейсу 308. В других реализациях, множественные процессоры и/или множественные шины могут использоваться, при необходимости, совместно с множественными блоками памяти и типами памяти. Кроме того, множественные вычислительные устройства 300 могут быть соединены с каждым устройством, обеспечивающим части необходимых операций, например, банком серверов, группой ячеечных серверов или многопроцессорной системой.
[0047] В памяти 304 хранится информация в вычислительном устройстве 300. В одной реализации, память 304 представляет собой блок или блоки энергозависимой памяти. В другой реализации, память 304 представляет собой блок или блоки энергонезависимой памяти. Память 304 также может представлять собой другую форму компьютерно-считываемого носителя, например, магнитного или оптического диска.
[0048] Запоминающее устройство 306 способно обеспечивать хранилище данных большой емкости для вычислительного устройства 300. В одной реализации, запоминающее устройство 306 может представлять собой или содержать компьютерно-считываемый носитель, например, устройство флоппи-диск, устройство жесткого диска, устройство оптического диска или ленточное устройство, флеш-память или другое аналогичное твердотельное запоминающее устройство или массив устройств, включающий в себя устройства в сети области хранения или других конфигурациях. Компьютерный программный продукт может быть материально воплощен в носителе информации. Компьютерный программный продукт также может содержать инструкции, которые, при исполнении, осуществляют один или более способов, например, описанных выше. Носитель информации представляет собой компьютерно- или машиночитаемый носитель, например, память 304, запоминающее устройство 306 или память на процессоре 302.
[0049] Высокоскоростной контроллер 308 управляет широкополосными операциями для вычислительного устройства 300, тогда как низкоскоростной контроллер 312 управляет более узкополосными операциями. Такое выделение функций является только иллюстративной. В одной реализации, высокоскоростной контроллер 308 подключен к памяти 304, дисплею 316, например, через графический процессор или ускоритель, и к высокоскоростным портам 310 расширения, которые могут принимать различные карты расширения (не показаны). В реализации, низкоскоростной контроллер 312 подключен к запоминающему устройству 306 и низкоскоростному порту 314 расширения. Низкоскоростной порт расширения, который может включать в себя различные коммуникационные порты, например, USB, Bluetooth, Ethernet, беспроводного Ethernet, может быть подключен к одному или более устройствам ввода/вывода, например, клавиатуре, указательному устройству, паре микрофон/громкоговоритель, сканеру или через сетевой адаптер. Вычислительное устройство 300 может быть реализовано в нескольких разных формах, как показано на фигуре. Например, оно может быть реализовано в виде стандартного сервера 320, или несколько раз в группе таких серверов. Оно также может быть реализовано как часть системы 324 стойки серверов. Кроме того, оно может быть реализовано в персональном компьютере, например, портативном компьютере 322. Альтернативно, компоненты вычислительного устройства 300 можно объединить с другими компонентами в мобильном устройстве (не показано), например, устройстве 350. Каждое из таких устройств может содержать одно или более из вычислительных устройств 300, 350, и вся система может состоять из множественных вычислительных устройств 300, 350, осуществляющих связь друг с другом.
[0050] Вычислительное устройство 300 может быть реализовано в нескольких разных формах, как показано на фигуре. Например, оно может быть реализовано в виде стандартного сервера 320, или несколько раз в группе таких серверов. Оно также может быть реализовано как часть системы 324 стойки серверов. Кроме того, оно может быть реализовано в персональном компьютере, например, портативном компьютере 322. Альтернативно, компоненты вычислительного устройства 300 можно объединить с другими компонентами в мобильном устройстве (не показано), например, устройстве 350. Каждое из таких устройств может содержать одно или более из вычислительных устройств 300, 350, и вся система может состоять из множественных вычислительных устройств 300, 350, осуществляющих связь друг с другом.
[0051] Вычислительное устройство 350 включает в себя процессор 352, память 364 и устройство ввода/вывода, например, дисплей 354, интерфейс 366 связи и приемопередатчик 368, помимо других компонентов. Устройство 350 также может быть снабжено запоминающим устройством, например, микроприводом или другим устройством, для обеспечения дополнительного хранилища. Каждый из компонентов 350, 352, 364, 354, 366 и 368, соединены между собой с использованием различные шин, и некоторые компоненты могут быть установлены на общей материнской плате или другими способами при необходимости.
[0052] Процессор 352 может выполнять инструкции в вычислительном устройстве 350, в том числе инструкции, хранящиеся в памяти 364. Процессор может быть реализован как набор микросхем, состоящий из микросхем, которые включают в себя отдельные и множественные аналоговые и цифровые процессоры. Дополнительно, процессор может быть реализован с использованием разнообразных архитектур. Например, процессор 310 может представлять собой процессор CISC (с полным набором команд), процессор RISC (с сокращенным набором команд) или процессор MISC (с минимальным набором команд). Процессор может обеспечивать, например, для координации других компонентов устройства 350, например, управление пользовательскими интерфейсами, приложениями, выполняющимися устройством 350, и беспроводной связью, осуществляемой устройством 350.
[0053] Процессор 352 может осуществлять связь с пользователем через управляющий интерфейс 358 и интерфейс 356 дисплея, подключенный к дисплею 354. Дисплей 354 может представлять собой, например, TFT-дисплей (жидкокристаллический дисплей на тонкопленочных транзисторах) или дисплей OLED (на органических светодиодах) или другую подходящую технологию дисплея. Интерфейс 356 дисплея может содержать подходящую схему для возбуждения дисплея 354 для представления графической и другой информации пользователю. Управляющий интерфейс 358 может принимать команды от пользователя и преобразовывать их для подачи на процессор 352. Кроме того, может быть обеспечен внешний интерфейс 362, осуществляющий связь с процессором 352, для обеспечения связи в ближней зоне устройства 350 с другими устройствами. Внешний интерфейс 362 может обеспечивать, например, проводную связь в некоторых реализациях, или беспроводную связь в других реализациях, и также могут использоваться множественные интерфейсы.
[0054] В памяти 364 хранится информация в вычислительном устройстве 350. Память 364 может быть реализована в виде одного или более из компьютерно-считываемого носителя или носителей, блока или блоков энергозависимой памяти или блока или блоков энергонезависимой памяти. Дополнительная память 374 также может быть обеспечена и подключена к устройству 350 через интерфейс 372 расширения, который может включать в себя, например, интерфейс карты SIMM (модуля памяти с односторонним расположением микросхем). Такая дополнительная память 374 может обеспечивать дополнительное пространство хранения для устройства 350, или также может сохранять приложения или другую информацию для устройства 350. В частности, дополнительная память 374 может включать в себя инструкции для осуществления или дополнения процессов, описанных выше, и также может включать в себя защищенную информацию. Таким образом, например, дополнительная память 374 может быть обеспечена как модуль безопасности для устройства 350, и может быть запрограммирована инструкциями, которые допускают безопасное использование устройства 350. Кроме того, защищенные приложения могут быть обеспечены посредством карт SIMM, совместно с дополнительной информацией, например, размещения идентификационной информации на карте SIMM с защитой от атак.
[0055] Память может включать в себя, например, флеш-память и/или память NVRAM, как рассмотрено ниже. В одной реализации, компьютерный программный продукт материально воплощен в носителе информации. Компьютерный программный продукт содержит инструкции, которые, при исполнении, осуществляют один или более способов, например, описанных выше. Носитель информации представляет собой компьютерно- или машиночитаемый носитель, например, память 364, дополнительную память 374 или память на процессоре 352, который может приниматься, например, через приемопередатчик 368 или внешний интерфейс 362.
[0056] Устройство 350 может осуществлять беспроводную связь через интерфейс 366 связи, который, при необходимости, может включать в себя схему обработки цифрового сигнала. Интерфейс 366 связи может обеспечивать связь в различных режимах или протоколах, например, речевые вызовы GSM, обмен сообщениями SMS, EMS или MMS, CDMA, TDMA, PDC, WCDMA, CDMA2000 или GPRS, в том числе. Такая связь может осуществляться, например, посредством радиовероятностного приемопередатчика 368. Кроме того, может осуществляться связь ближнего действия, например, с использованием Bluetooth, WiFi или другого такого приемопередатчика (не показан). Кроме того, модуль 370 приема GPS (глобальной системы позиционирования) может выдавать дополнительные беспроводные данные, связанные с навигацией и определением местоположения на устройство 350, которые могут, при необходимости, использоваться приложениями, выполняющимися на устройстве 350.
[0057] Устройство 350 также может осуществлять звуковую связь с использованием аудиокодека 360, который может принимать произнесенную информацию от пользователя и преобразовывать ее в полезную цифровую информацию. Аудиокодек 360 может аналогично генерировать слышимый звук для пользователя, например, через громкоговоритель, например, в устройствах 350 телефонной трубки. Такой звук может включать в себя звук из речевых телефонных вызовов, может включать в себя записанный звук, например, речевые сообщения, музыкальные файлы и т.д. и также может включать в себя звук, сгенерированный приложениями, действующими на устройстве 350.
[0058] Вычислительное устройство 350 может быть реализовано в нескольких разных формах, как показано на фигуре. Например, оно может быть реализовано как сотовый телефон 480. Оно также может быть реализовано как часть смартфона 382, персонального цифрового помощника или другого аналогичного мобильного устройства.
[0059] Различные реализации описанных здесь систем и способов возможны в виде цифровой электронной схемы, интегральной схемы, специально сконструированных ASIC (специализированных интегральных схем), компьютерного оборудования, программно-аппаратного обеспечения, программного обеспечения и/или сочетаний таких реализаций. Эти различные реализации могут включать в себя реализацию в одной или более компьютерных программах, исполнимых и/или интерпретируемых в программируемой системе, включающей в себя, по меньшей мере, один программируемый процессор, специального или общего назначения, подключенный для приема данных и инструкций от, и для передачи данных и инструкций в, систему хранения, по меньшей мере, одно устройство ввода и по меньшей мере, одно устройство вывода.
[0060] Эти компьютерные программы (также известные как программы, программное обеспечение, прикладные программы или код) включают в себя машинные инструкции для программируемого процессора, и могут быть реализованы на высокоуровневом процедурном и/или объектно-ориентированном языке программирования и/или на ассемблере/машинном языке. Используемые здесь термины "машиночитаемый носитель", "компьютерно-считываемый носитель" относятся к любому компьютерному программному продукту, устройству и/или оборудованию, например, магнитным дискам, оптическим дискам, памяти, программируемым логическим устройствам (PLD), используемым для подачи машинных инструкций и/или данных на программируемый процессор, включающим в себя машиночитаемый носитель, который принимает машинные инструкции в качестве машиночитаемого сигнала. Термин "машиночитаемый сигнал" относится к любому сигналу, используемому для подачи машинных инструкций и/или данных на программируемый процессор.
[0061] Для обеспечения взаимодействия с пользователем, описанные здесь системы и методы могут быть реализованы на компьютере, имеющем устройство отображения, например, монитор типа CRT (электронно-лучевой трубки) или LCD (жидкокристаллического дисплея) для отображения информации пользователю и клавиатуру и указательное устройство, например, мышь или шаровой манипулятор, с помощью которого пользователь может обеспечивать ввод в компьютер. Для обеспечения взаимодействия с пользователем также могут использоваться другие виды устройств; например, обратная связь, предоставляемая пользователю, может принимать любую форму чувственной обратной связи, например, зрительной обратной связи, слуховой обратной связи или тактильной обратной связи; и ввод от пользователя может приниматься в любой форме, включающий в себя акустический, речевой или тактильный ввод.
[0062] Описанные здесь системы и методы могут быть реализованы в вычислительной системе, которая включает в себя скрытый компонент, например, сервер данных, или включает в себя компонент промежуточного программного обеспечения, например, сервер приложений, или включает в себя интерфейсный компонент, например, компьютер-клиент, имеющий графический пользовательский интерфейс или веб-браузер через который пользователь может взаимодействовать с реализацией описанных здесь систем и методов, или любой комбинацией таких скрытых, промежуточных программных или интерфейсных компонентов. Компоненты системы могут соединяться между собой носителем для передачи цифровых данных в любой форме, например, сети связи. Примеры сетей связи включают в себя локальную сеть ("LAN"), глобальную сеть ("WAN") и интернет.
[0063] Вычислительная система может включать в себя клиенты и серверы. Клиент и сервер, в общем случае, удалены друг от друга и обычно взаимодействуют через сеть связи. Отношение клиента и сервера обусловлено компьютерными программами, выполняющимися на соответствующих компьютерах, связанными друг с другом отношением клиент-сервер.
[0064] Было описано несколько вариантов осуществления. Тем не менее, следует понимать, что можно предложить различные модификации, не выходящие за рамки сущности и объема изобретения. Кроме того, последовательности логических операций, изображенные на фигурах, не требуют конкретного показанного порядка, или последовательного порядка, для достижения желаемых результатов. Кроме того, можно обеспечивать другие этапы, или исключать некоторые этапы из описанных последовательностей логических операций, и другие компоненты можно добавлять к, или удалять из, описанных систем. Соответственно, другие варианты осуществления подлежат включению в объем нижеследующей формулы изобретения.
Claims (44)
1. Компьютерно-реализуемый способ получения транскрипции речевого фрагмента, содержащий этапы, на которых:
получают первоначальный вариант транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи;
идентифицируют, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, один или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции;
генерируют один или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов и
выбирают транскрипцию из вариантов транскрипции.
2. Способ по п.1, в котором языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включает в себя один или более терминов, отсутствующих в языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции.
3. Способ по п.1 или 2, в котором обе из языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, и языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включают в себя последовательность из одного или более терминов, но указывают, что эта последовательность имеет разные вероятности появления.
4. Способ по любому из предыдущих пунктов, в котором языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, указывает вероятности появления слов или последовательностей слов.
5. Способ по любому из предыдущих пунктов, содержащий этапы, на которых:
для каждого из вариантов транскрипции, определяют вероятностный показатель, который отражает, насколько часто ожидается произнесение варианта транскрипции; и
для каждого из вариантов транскрипции, определяют показатель акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом,
причем выбор транскрипции из вариантов транскрипции основывается на показателях акустического совпадения и вероятностных показателях.
6. Способ по п.5, в котором этап определения показателя акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом, содержит этапы, на которых:
получают показатели акустического совпадения подслов от автоматизированного распознавателя речи;
идентифицируют подмножество показателей акустического совпадения подслов, которые соответствуют варианту транскрипции; и
генерируют показатель акустического совпадения на основе подмножества показателей акустического совпадения подслов, которые соответствуют варианту транскрипции.
7. Способ по п.5 или 6, в котором этап определения вероятностного показателя, который отражает, насколько часто ожидается произнесение варианта транскрипции, содержит этап, на котором определяют вероятностный показатель на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции.
8. Способ по любому из предыдущих пунктов, в котором этап генерирования одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов содержит этап, на котором заменяют идентифицированными одним или более терминами, фонетически аналогичными одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции, эти один или более терминов, которые уже присутствуют в первоначальном варианте транскрипции.
9. Система для получения транскрипции речевого фрагмента, содержащая один или более компьютеров и одно или более запоминающих устройств, хранящих инструкции, которые приспособлены при их исполнении на одном или более компьютерах предписывать одному или более компьютерам осуществлять операции, содержащие:
получение первоначального варианта транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи;
идентификацию, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, одного или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции;
генерирование одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов и
выбор транскрипции из вариантов транскрипции.
10. Система по п.9, в которой языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включает в себя один или более терминов, отсутствующих в языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции.
11. Система по п.9 или 10, в которой обе из языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, и языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включают в себя последовательность из одного или более терминов, но указывают, что эта последовательность имеет разные вероятности появления.
12. Система по любому из пп.9-11, в которой языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, указывает вероятности появления слов или последовательностей слов.
13. Система по любому из пп.9-12, в которой операции содержат:
для каждого из вариантов транскрипции, определение вероятностного показателя, который отражает, насколько часто ожидается произнесение варианта транскрипции; и
для каждого из вариантов транскрипции, определение показателя акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом,
причем выбор транскрипции из вариантов транскрипции основывается на показателях акустического совпадения и вероятностных показателях.
14. Система по п.13, в которой определение показателя акустического совпадения, который отражает фонетическое сходство между вариантом транскрипции и речевым фрагментом, содержит:
получение показателей акустического совпадения подслов от автоматизированного распознавателя речи;
идентификацию подмножества показателей акустического совпадения подслов, которые соответствуют варианту транскрипции; и
генерирование показателя акустического совпадения на основе подмножества показателей акустического совпадения подслов, которые соответствуют варианту транскрипции.
15. Система по п.13 или 14, в которой определение вероятностного показателя, который отражает, насколько часто ожидается произнесение варианта транскрипции, содержит определение вероятностного показателя на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции.
16. Система по любому из пп.9-15, в которой генерирование одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов содержит замену идентифицированными одним или более терминами, фонетически аналогичными одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции, этих одного или более терминов, которые уже присутствуют в первоначальном варианте транскрипции.
17. Долговременный машиночитаемый носитель, хранящий программное обеспечение, содержащее инструкции, исполняемые одним или более компьютерами, которые, при таком исполнении, предписывают одному или более компьютерам осуществлять операции, содержащие:
получение первоначального варианта транскрипции речевого фрагмента с использованием автоматизированного распознавателя речи;
идентификацию, на основе языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, одного или более терминов, фонетически аналогичных одному или более терминам, которые уже присутствуют в первоначальном варианте транскрипции;
генерирование одного или более дополнительных вариантов транскрипции на основе идентифицированных одного или более терминов и
выбор транскрипции из вариантов транскрипции.
18. Носитель по п.17, при этом языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включает в себя один или более терминов, отсутствующих в языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции.
19. Носитель по п.17, при этом обе из языковой модели, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, и языковой модели, используемой автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, включают в себя последовательность из одного или более терминов, но указывают, что эта последовательность имеет разные вероятности появления.
20. Носитель по п.17, при этом языковая модель, которая не используется автоматизированным распознавателем речи при генерировании первоначального варианта транскрипции, указывает вероятности появления слов или последовательностей слов.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/016,609 US20170229124A1 (en) | 2016-02-05 | 2016-02-05 | Re-recognizing speech with external data sources |
US15/016,609 | 2016-02-05 | ||
PCT/US2016/062753 WO2017136016A1 (en) | 2016-02-05 | 2016-11-18 | Re-recognizing speech with external data sources |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2688277C1 true RU2688277C1 (ru) | 2019-05-21 |
Family
ID=57530835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018117655A RU2688277C1 (ru) | 2016-02-05 | 2016-11-18 | Повторное распознавание речи с внешними источниками данных |
Country Status (8)
Country | Link |
---|---|
US (2) | US20170229124A1 (ru) |
EP (1) | EP3360129B1 (ru) |
JP (1) | JP6507316B2 (ru) |
KR (1) | KR102115541B1 (ru) |
CN (1) | CN107045871B (ru) |
DE (2) | DE102016125954A1 (ru) |
RU (1) | RU2688277C1 (ru) |
WO (1) | WO2017136016A1 (ru) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106297797B (zh) | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
KR102449181B1 (ko) * | 2017-11-24 | 2022-09-29 | 삼성전자 주식회사 | 전자장치 및 그 제어방법 |
JP6763527B2 (ja) * | 2018-08-24 | 2020-09-30 | ソプラ株式会社 | 認識結果補正装置、認識結果補正方法、およびプログラム |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10978069B1 (en) * | 2019-03-18 | 2021-04-13 | Amazon Technologies, Inc. | Word selection for natural language interface |
WO2020226948A1 (en) * | 2019-05-03 | 2020-11-12 | Google Llc | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models |
US11189264B2 (en) * | 2019-07-08 | 2021-11-30 | Google Llc | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data |
WO2021006917A1 (en) * | 2019-07-08 | 2021-01-14 | Google Llc | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data |
KR20210016767A (ko) | 2019-08-05 | 2021-02-17 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11961511B2 (en) | 2019-11-08 | 2024-04-16 | Vail Systems, Inc. | System and method for disambiguation and error resolution in call transcripts |
CN111326144B (zh) * | 2020-02-28 | 2023-03-03 | 网易(杭州)网络有限公司 | 语音数据处理方法、装置、介质和计算设备 |
US11580959B2 (en) | 2020-09-28 | 2023-02-14 | International Business Machines Corporation | Improving speech recognition transcriptions |
US20220101835A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Speech recognition transcriptions |
US12002451B1 (en) * | 2021-07-01 | 2024-06-04 | Amazon Technologies, Inc. | Automatic speech recognition |
US12033618B1 (en) * | 2021-11-09 | 2024-07-09 | Amazon Technologies, Inc. | Relevant context determination |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2119196C1 (ru) * | 1997-10-27 | 1998-09-20 | Яков Юноевич Изилов | Способ лексической интерпретации слитной речи и система для его реализации |
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US8041566B2 (en) * | 2003-11-21 | 2011-10-18 | Nuance Communications Austria Gmbh | Topic specific models for text formatting and speech recognition |
US9047868B1 (en) * | 2012-07-31 | 2015-06-02 | Amazon Technologies, Inc. | Language model data collection |
RU153322U1 (ru) * | 2014-09-30 | 2015-07-10 | Закрытое акционерное общество "ИстраСофт" | Устройство для обучения разговорной(устной) речи с визуальной обратной связью |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5233681A (en) * | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
CN1157712C (zh) * | 2000-02-28 | 2004-07-14 | 索尼公司 | 语音识别方法和装置 |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP4269625B2 (ja) * | 2002-10-08 | 2009-05-27 | 三菱電機株式会社 | 音声認識辞書作成方法及びその装置と音声認識装置 |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
WO2008106655A1 (en) * | 2007-03-01 | 2008-09-04 | Apapx, Inc. | System and method for dynamic learning |
WO2009026850A1 (en) * | 2007-08-23 | 2009-03-05 | Google Inc. | Domain dictionary creation |
JP5377430B2 (ja) * | 2009-07-08 | 2013-12-25 | 本田技研工業株式会社 | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
JP2011170087A (ja) * | 2010-02-18 | 2011-09-01 | Fujitsu Ltd | 音声認識装置 |
JP5148671B2 (ja) * | 2010-09-15 | 2013-02-20 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
US9009041B2 (en) * | 2011-07-26 | 2015-04-14 | Nuance Communications, Inc. | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data |
US8996371B2 (en) * | 2012-03-29 | 2015-03-31 | Nice-Systems Ltd. | Method and system for automatic domain adaptation in speech recognition applications |
KR20140028174A (ko) * | 2012-07-13 | 2014-03-10 | 삼성전자주식회사 | 음성 인식 방법 및 이를 적용한 전자 장치 |
JPWO2014049998A1 (ja) * | 2012-09-27 | 2016-08-22 | 日本電気株式会社 | 情報検索システム、情報検索方法およびプログラム |
US8589164B1 (en) * | 2012-10-18 | 2013-11-19 | Google Inc. | Methods and systems for speech recognition processing using search query information |
JP5396530B2 (ja) * | 2012-12-11 | 2014-01-22 | 株式会社Nttドコモ | 音声認識装置および音声認識方法 |
US9293129B2 (en) * | 2013-03-05 | 2016-03-22 | Microsoft Technology Licensing, Llc | Speech recognition assisted evaluation on text-to-speech pronunciation issue detection |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
EP2862164B1 (en) * | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
JP2015060095A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
JP6165619B2 (ja) * | 2013-12-13 | 2017-07-19 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
US20150179169A1 (en) * | 2013-12-19 | 2015-06-25 | Vijay George John | Speech Recognition By Post Processing Using Phonetic and Semantic Information |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
JP6188831B2 (ja) * | 2014-02-06 | 2017-08-30 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
US20150371628A1 (en) * | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
KR102292546B1 (ko) * | 2014-07-21 | 2021-08-23 | 삼성전자주식회사 | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10127904B2 (en) * | 2015-05-26 | 2018-11-13 | Google Llc | Learning pronunciations from acoustic sequences |
US9576578B1 (en) * | 2015-08-12 | 2017-02-21 | Google Inc. | Contextual improvement of voice query recognition |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US9984677B2 (en) * | 2015-09-30 | 2018-05-29 | Nice Ltd. | Bettering scores of spoken phrase spotting |
-
2016
- 2016-02-05 US US15/016,609 patent/US20170229124A1/en not_active Abandoned
- 2016-11-18 EP EP16809254.2A patent/EP3360129B1/en active Active
- 2016-11-18 RU RU2018117655A patent/RU2688277C1/ru active
- 2016-11-18 JP JP2018524838A patent/JP6507316B2/ja active Active
- 2016-11-18 KR KR1020187013507A patent/KR102115541B1/ko active IP Right Grant
- 2016-11-18 WO PCT/US2016/062753 patent/WO2017136016A1/en active Application Filing
- 2016-12-29 CN CN201611243688.1A patent/CN107045871B/zh active Active
- 2016-12-30 DE DE102016125954.3A patent/DE102016125954A1/de not_active Withdrawn
- 2016-12-30 DE DE202016008230.3U patent/DE202016008230U1/de active Active
-
2017
- 2017-06-29 US US15/637,526 patent/US20170301352A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
RU2119196C1 (ru) * | 1997-10-27 | 1998-09-20 | Яков Юноевич Изилов | Способ лексической интерпретации слитной речи и система для его реализации |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US8041566B2 (en) * | 2003-11-21 | 2011-10-18 | Nuance Communications Austria Gmbh | Topic specific models for text formatting and speech recognition |
US9047868B1 (en) * | 2012-07-31 | 2015-06-02 | Amazon Technologies, Inc. | Language model data collection |
US20150242386A1 (en) * | 2014-02-26 | 2015-08-27 | Google Inc. | Using language models to correct morphological errors in text |
RU153322U1 (ru) * | 2014-09-30 | 2015-07-10 | Закрытое акционерное общество "ИстраСофт" | Устройство для обучения разговорной(устной) речи с визуальной обратной связью |
Also Published As
Publication number | Publication date |
---|---|
JP2019507362A (ja) | 2019-03-14 |
JP6507316B2 (ja) | 2019-04-24 |
DE202016008230U1 (de) | 2017-05-04 |
KR102115541B1 (ko) | 2020-05-26 |
CN107045871B (zh) | 2020-09-15 |
DE102016125954A1 (de) | 2017-08-10 |
US20170301352A1 (en) | 2017-10-19 |
US20170229124A1 (en) | 2017-08-10 |
EP3360129B1 (en) | 2020-08-12 |
CN107045871A (zh) | 2017-08-15 |
WO2017136016A1 (en) | 2017-08-10 |
EP3360129A1 (en) | 2018-08-15 |
KR20180066216A (ko) | 2018-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2688277C1 (ru) | Повторное распознавание речи с внешними источниками данных | |
US11721327B2 (en) | Generating representations of acoustic sequences | |
US10535354B2 (en) | Individualized hotword detection models | |
US20230109903A1 (en) | Language model biasing modulation | |
EP3469489B1 (en) | Follow-up voice query prediction | |
US9741339B2 (en) | Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores | |
US9576578B1 (en) | Contextual improvement of voice query recognition | |
US10055767B2 (en) | Speech recognition for keywords | |
CN107066494B (zh) | 语音查询的搜索结果预获取 | |
US10102852B2 (en) | Personalized speech synthesis for acknowledging voice actions | |
US20150379983A1 (en) | Utterance selection for automated speech recognizer training |