RU2319221C1 - Идентификация естественных речевых пауз в текстовой строке - Google Patents
Идентификация естественных речевых пауз в текстовой строке Download PDFInfo
- Publication number
- RU2319221C1 RU2319221C1 RU2006114740/09A RU2006114740A RU2319221C1 RU 2319221 C1 RU2319221 C1 RU 2319221C1 RU 2006114740/09 A RU2006114740/09 A RU 2006114740/09A RU 2006114740 A RU2006114740 A RU 2006114740A RU 2319221 C1 RU2319221 C1 RU 2319221C1
- Authority
- RU
- Russia
- Prior art keywords
- word
- words
- speech
- text string
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000013518 transcription Methods 0.000 claims description 23
- 230000035897 transcription Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Изобретение относится к области синтеза речи из текста. Техническим результатом заявленного изобретения является повышение точности выполняемой идентификации естественных речевых пауз для различных речевых паттернов на входе. Технический результат достигается тем, что проводят анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с указанным словом, причем анализ основан, по меньшей мере, на одном заранее определенном пороговом значении для этого слова, при этом указанное заранее определенное пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки. 5 з.п. ф-лы, 5 ил.
Description
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение в общем случае относится к синтезу речи по тексту (РПТ, TTS). Изобретение особенно полезно для определения естественных пауз в синтезированном произношении текстового сегмента.
УРОВЕНЬ ТЕХНИКИ
Преобразование текста в речь (TTS, РПТ), часто называемое синтезом связанной речи по тексту, позволяет электронным устройствам принимать на входе текстовую строку и выдавать преобразованное представление строки в форме синтезированной речи. Однако в устройстве, которое может потребоваться при синтезе речи, источником которой является неопределенное количество получаемых текстовых строк, сложно обеспечить синтезированную речь высокого качества, подобную реальной. Это происходит, потому что произношение каждого слова или слога (для китайских иероглифов и т.п.), которые необходимо синтезировать, зависит от контекста и местоположения. Например, произношение слова в конце предложения (входной текстовой строки) может быть выделено или растянуто. Произношение того же самого слова может быть еще более растянутым, если слово встречается в середине предложения там, где в естественной речи требуется смысловое ударение в виде паузы.
В большинстве языков произношение слова зависит от акустических просодических параметров, содержащих тон (высоту), силу (мощность или амплитуду) и длительность. Значения просодических параметров для слова зависят от позиции слова во фразе и расположения естественных речевых пауз. Однако при синтезе речи по тексту (РПТ, TTS) сложно выполнять идентификацию естественных речевых пауз для различных случайных речевых паттернов на входе.
В настоящем описании, включая формулу изобретения, термин "содержит", "содержащий" или аналогичные термины предназначены для обозначения открытого включения, при котором способ или устройство, содержащее список элементов, не включает исключительно эти элементы, но также может включать и другие элементы, не вошедшие в список.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Согласно одному из аспектов настоящего изобретения предоставляется способ для автоматической идентификации естественных речевых пауз в текстовой строке, причем паузы предназначены для использования при преобразовании текста в речь, выполняемом на электронном устройстве, при этом способ содержит:
получение текстовой строки, содержащей два конца, причем указанные два конца представляют собой начало строки и конец строки;
анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с этим словом, причем анализ основан на, по меньшей мере, одном заранее определенном пороговом значении для этого слова, при этом пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки; и
вставку естественной речевой паузы в выходной сигнал синтезированной речи, представляющий текстовую строку.
Соответственно, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение Р_слов, основанное на количестве слогов между началом строки и этим словом.
Соответственно, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение F_слов, основанное на количестве слогов между концом строки и этим словом.
Предпочтительно, по меньшей мере, одно заранее определенное пороговое значение определяют при помощи этапов, на которых:
предоставляют обучающий набор транскрипций с, по меньшей мере, одной естественной речевой паузой, идентифицируемой вставленным идентификатором;
идентифицируют слова в каждой из транскрипций как Р_слова и F_слова;
статистически анализируют Р_слова и F_слова в обучающем наборе;
определяют пороговое значение F_слов и пороговое значение P_слов из результатов статистического анализа.
Соответственно, вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные прерывания в образцах части речи (ЧР, POS).
Соответственно, вставка естественная речевая пауза также может включать в себя паузы, идентифицируемые как естественные паузы в составных словах.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Для лучшего понимания и практической реализации изобретения ниже приведен предпочтительный вариант настоящего изобретения в качестве иллюстрации со ссылками на прилагаемые чертежи, на которых:
фиг.1 представляет собой блок-схему электронного устройства согласно настоящему изобретению;
на фиг.2 показан способ 200 определения пороговых значений, связанных с естественными речевыми паузами в текстовых строках;
на фиг.3А-3D показаны примеры транскрипций, используемые для способа по фиг.2;
на фиг.4 показан способ автоматической идентификации естественных речевых пауз в текстовой строке; и
на фиг.5 подробно показан этап анализа по фиг.4.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
На фиг.1 показано электронное устройство 100, в виде радиотелефона, содержащее процессор 102 устройства, оперативно связанный посредством шины 103 с пользовательским интерфейсом 104, который обычно представляет собой сенсорный экран или в качестве альтернативы экран дисплея или клавиатуру. Электронное устройство 100 также содержит совокупность 106 фрагментов активной речи, синтезатор 110 речи, энергонезависимую память 120, постоянное запоминающее устройство 118 и модуль 116 радиосвязи, каждое из которых соединено с процессором 102 при помощи шины 103. Синтезатор 110 речи имеет выход, соединенный с драйвером микрофона 112. Совокупность 106 включает в себя представления слов или фонем и связанных дискретизированных, оцифрованных и обработанных сигналов фрагментов активной речи PUW. Другими словами, и как описано ниже, энергонезависимая память 120 (модуль памяти) предоставляет текстовые строки, используемые для синтеза речи по тексту (РПТ, TTS) (текст может быть получен при помощи модуля 116 или каким-либо иным способом). Также совокупность сигналов фрагментов речи содержит транскрипции, представляющие фразы и соответствующие дискретизированные и оцифрованные сигналы фрагментов речи, текстовые строки в позициях, соотнесенных с границами в естественных фразах, как описано ниже.
Как очевидно специалистам в данной области техники, радиочастотный блок 116 связи обычно представляет собой комбинацию приемника и передатчика, которые имеют общую антенну. Радиочастотный блок 116 связи имеет приемопередатчик, связанный с антенной через радиочастотный усилитель. Приемопередатчик также соединен с комбинацией модулятор/демодулятор, которые соединяют блок 116 связи с процессором 102. Также в данном варианте осуществления энергонезависимая память 120 (модуль памяти) хранит программируемую пользователем базу данных Db телефонной книги, а постоянное запоминающее устройство 118 хранит исполняемый код (ИК, ОС) для процессора 102 устройства.
На фиг.2 показан способ 200 определения пороговых значений, связанных с естественными речевыми паузами в текстовых строках. Пороговые значения основаны на количестве предшествующих и последующих слогов в транскрипциях в обучающем наборе TS. После начального этапа 210 способ 200 переходит к этапу 220 для предоставления обучающего набора TS транскрипций, обычно предложений, с по меньшей мере, одной естественной речевой паузой, идентифицируемой знаком препинания или идентификатором "|", установленным вручную. Примеры такой транскрипции или предложений показаны на фиг.3А-3D. Одна из таких транскрипций 300 представляет собой "Based on our history|in China", имеет естественную речевую паузу 310 между словами "history" и "China". Также у транскрипции 300 имеется начало 305 строки и конец 315 строки. Как очевидно специалистам в данной области техники все транскрипции 300 на фиг.3А-3D имеют, по меньшей мере, одну естественную речевую паузу 310, начало 305 строки конец 315 строки. Дальнейший анализ транскрипции дает следующее:
Based=2 слога
on=1 слог
our=1 слог
history=3 слога
in=1 слог
China=2 слога.
Также каждое слово в транскрипции может быть обозначено, как (i) Р_слово, которое идентифицируют как слово в транскрипции, непосредственно перед которым стоит естественная пауза, идентифицируемая знаком пунктуации "|"; (ii) F_слово, которое идентифицируют как слово в транскрипции, сразу за которым следует естественная пауза, идентифицируемая знаком пунктуации "|"; (iii) нейтральное слово, которое по транскрипции не имеет естественной смежно расположенной речевой паузы. После этапа 220, этап 230 идентификации предоставляет для идентификации слова в каждой из транскрипций как (i) Р_слово; (ii) F_слово; или (iii) нейтральное слово. Таким образом, для транскрипции "Based on our history | in China", приведенная ниже таблица 1 идентифицирует атрибуты каждого слова в этой транскрипции.
Таблица 1 | ||||
Анализ транскрипции "Based on our history|in China" | ||||
Слово | P_слово | F_слово | #_слоги | прерывания |
Based | N | N | 0 | N |
on | N | N | 2 | N |
our | N | N | 3 | N |
history | N | Y | 4 | после |
in | Y | N | 7 | перед |
China | N | N | 1 | N |
Затем способ 200 переходит к этапу 240 статистического анализа. На этапе 240, если предоставленный обучающий набор TS имеет 90000 транскрипций (например, предложений) и, допуская, что слово "in" имеет в обучающем наборе 10000 вхождений, то для этих 10000 случаев "in" может иметь место нижеследующий статистический анализ:
(i) количество вхождений (OPW) "in" как Р_слово=8000 случаев;
(ii) количество вхождений (OFW) "in" как F_слово=1000 случаев;
(iii) количество вхождений (ONW) "in" как нейтральное слово (слово, которое не представляет собой ни Р_слово, ни F_слово)=1000 случаев.
Кроме того, для 8000 вхождений Р_слова (OPW) "in", идентифицированных в обучающем наборе TS, может иметь место нижеследующий статистический:
(i) вхождения (OPS), 8 или более предшествующих слогов=0;
(ii) вхождения (OPS), 7 предшествующих слогов=400;
(iii) вхождения (OPS), 6 предшествующих слогов=600;
(iv) вхождения (OPS), 5 предшествующих слогов=2000;
(v) вхождения (OPS), 4 предшествующих слогов=3000;
(vi) вхождения (OPS), 3 предшествующих слога=1000;
(vii) вхождения (OPS), 2 предшествующих слога=1000;
(viii) вхождения (OPS), 1 предшествующий слог=0.
Эвристическое соотношение HR, равное 0,75, выбранное интуитивно и экспериментально, используется для определения порогового значения РТ прерываний для Р_слов для слова "in". Это пороговое значение РТ определяется на этапе 250 определения порогового значения следующим образом:
- начиная с максимального количества имеющихся слогов, до минимального количества имеющихся слогов ВЫПОЛНЯТЬ, начиная с наибольшего OPS, до тех пор, пока:
Sum OPS/OPW>=0,75;
- выбрать PT как количество имеющихся слогов, указанных последним значением OPS из Sum OPS
- конец ВЫПОЛНЕНИЯ.
Таким образом, на этапе 250, РТ для "in" может быть определен следующим образом:
400/8,000=0,05 для 7 предшествующих слогов;
(400+600)/8,000=0,125 для 6 предшествующих слогов;
(400+600+2,000)/8,000=0,375 для 5 предшествующих слогов;
(400+600+2,000+3,000)/8,000=0,75 для 4 предшествующих слогов;
и таким образом РТ выбирают равным 4.
Аналогичный статистический анализ используется на этапе 250 для определения порогового значения FT прерываний для F_слов для "in", и в этом случае используя эвристическое соотношение 0,75. Значения РТ и FT также используются для всех других случаев для P_слов и F_слов для всех других слов в обучающем наборе TS (используя эвристическое соотношение HR, равное 0,75). Затем, на этапе 260, способ 200 завершается, и все случаи P_слов и F_слов для всех слов в обучающем наборе TS сохраняют в энергонезависимой памяти 120.
На фиг.4 показан способ автоматической идентификации естественных речевых пауз в текстовой строке STR, причем паузы используются для преобразования текста в речь, выполняемого на электронном устройстве 100. После начального этапа 410 способ переходит к этапу 420 получения текстовой строки STR, содержащей два конца, причем эти концы представляют собой начало строки SE и конец строки FE. На этапе 430 выбора слова выбирают одно слово (или составное слово CW), и на этапе 440 анализа обеспечивают анализ, по меньшей мере, одного слова (или составного слова CW) в текстовой строке STR для определения, находится ли естественная речевая пауза, расположенная смежно с этим словом (или составным словом CW), причем анализ основан на, по меньшей мере, заданном пороговом значении (PT или FT) для этого слова, при этом пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки. Пороговое значение включает в себя пороговое значение РТ P_слов, основанное на количестве слогов между начальным концом и этим словом. Аналогично, пороговое значение включает в себя пороговое значение FT F_слов, основанное на количестве слогов между началом строки и этим словом.
Если на этапе 450 определяют, что на этапе 440 идентифицирована пауза, то на этапе 460 при синтезе речи вставляют естественную речевую паузу. В противном случае, для слова, которое было выбрано на этапе 430, паузу не вставляют. Затем на этапе 470 выполняют проверку для определения, все ли слова в текстовой строке STR проанализированы, и если остались не проанализированные слова, способ возвращается на этап 230. В противном случае, на этапе 480 синтеза речи выполняют синтез речи в синтезаторе 110, используя совокупность 106, при котором в синтезированном речевом выходном сигнале, представляющем текстовую строку STR, вводят естественную речевую паузу или паузы (вставленные в текстовую строку STR на этапе 460).
На фиг.5 показана более подробная диаграмма этапа 440 анализа. Сначала, на этапе 441, текстовую строку STR проверяют, чтобы определить, имеется ли естественное прерывание в виде паузы в образце части речи (ОЧР, POS). Примеры естественных пауз прерывания в образце POS выглядят следующим образом:
1. Числительное+существительное
Например: two thousand books (две тысячи книг).
2. Глагол+наречие
Например: look carefully (смотри внимательно)
3. Предлог+существительное
Например: with telescopes (с телескопом)
4. Определение+существительное
Например: beautiful city (красивый город)
Если на этапе 441 определено прерывание, то выполняется этап 446, и прерывание идентифицируют как прерывание для F_слов. Если на этапе 441 прерывание не определено, то на этапе 442 происходит проверка текстовой строки STR, чтобы определить, имеется ли естественная пауза прерывания в составном слове. Примеры естественных пауз прерывания в составном слове выглядят следующим образом:
a bit of
a body of
a few
a fleet of
a flooding of
a fraction of
a function of
a good deal
a good deal of
a great deal
a great deal of
a growing number of
a hint of
a large body of
a large number of
a lot of land
a majority of
Если на этапе 442 определяют прерывание, то переходят на этап 446, и прерывание идентифицируют как прерывание для F_слов. Если на этапе 442 прерывание не идентифицируют, то на этапе 443 определяют, достигнуто ли для выбранного слова пороговое значение РТ Р_слов. Это определяют путем сравнения количества слогов в текстовой строке STR между началом строки и выбранным словом. Если пороговое значение РТ Р_слов достигнуто, то на этапе 444 определяют естественное прерывание и идентифицируют как прерывание для Р_слов. В качестве альтернативы, если на этапе 443 прерывание не идентифицировано, то на этапе 445 определяют, было ли для выбранного слова достигнуто пороговое значение РТ N_слова. Это определяют путем сравнения количества слогов в текстовой строке STR между концом строки и выбранным словом. Если пороговое значение РТ F_слов достигнуто, то на этапе 446 определяют естественное прерывание и идентифицируют как прерывание для F_слова. В противном случае, на этапе 447 прерывание не идентифицируют.
Преимущественно, настоящее изобретение позволяет идентифицировать естественные речевые паузы в текстовых строках для использования в синтезе речи по тексту (РПТ, TTS), таким образом, улучшая качество синтезированной речи.
Подробное описание предоставляет только преимущественный иллюстративный вариант осуществления, и не предназначено для ограничения объема, применимости или конфигурации настоящего изобретения. Напротив, подробное описание предпочтительного иллюстративного варианта осуществления обеспечивает специалистов в данной области техники описанием для реализации предпочтительного иллюстративного варианта осуществления настоящего изобретения. Следует принять во внимание, что могут быть сделаны различные изменения в функциях и в компоновке элементов без отступления от сущности и объема настоящего изобретения, как определено ниже в прилагаемой формуле изобретения.
Claims (6)
1. Способ для автоматической идентификации естественных речевых пауз в текстовой строке, причем паузы предназначены для использования в преобразовании текста в речь, выполняемого на электронном устройстве, при этом способ содержит получение текстовой строки, содержащей два конца текстовой строки, причем указанные два конца текстовой строки представляют собой начало текстовой строки и окончание текстовой строки; анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с указанным словом, причем анализ основан, по меньшей мере, на одном заранее определенном пороговом значении для этого слова, при этом указанное заранее определенное пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки; и в случае идентификации естественной речевой паузы, ее вставку в выходной сигнал синтезированной речи, соответствующий указанной текстовой строке.
2. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение Р_слов, основанное на количестве слогов между началом текстовой строки и указанным словом.
3. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение F_слов, основанное на количестве слогов между окончанием текстовой строки и указанным словом.
4. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение определяют при помощи этапов, на которых предоставляют обучающий набор транскрипций с, по меньшей мере, одной естественной речевой паузой, идентифицируемой вставленным идентификатором; идентифицируют слова в каждой из транскрипций как Р_слова и F_слова; статистически анализируют Р_слова и F_слова в обучающем наборе транскрипций; определяют пороговое значение F_слов и пороговое значение Р_слов из результатов статистического анализа.
5. Способ по п.1, в котором вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные прерывания в образцах части речи.
6. Способ по п.1, в котором вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные паузы прерывания в составных словах.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN03132708.7 | 2003-09-29 | ||
CNB031327087A CN1320482C (zh) | 2003-09-29 | 2003-09-29 | 标识文本串中的自然语音停顿的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2319221C1 true RU2319221C1 (ru) | 2008-03-10 |
Family
ID=34398361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2006114740/09A RU2319221C1 (ru) | 2003-09-29 | 2004-09-17 | Идентификация естественных речевых пауз в текстовой строке |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1668631A4 (ru) |
KR (1) | KR20060056403A (ru) |
CN (1) | CN1320482C (ru) |
RU (1) | RU2319221C1 (ru) |
WO (1) | WO2005034085A1 (ru) |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN1260704C (zh) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | 语音合成方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008075076A2 (en) * | 2006-12-21 | 2008-06-26 | Symbian Software Limited | Communicating information |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9542929B2 (en) * | 2014-09-26 | 2017-01-10 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110970013A (zh) * | 2019-12-23 | 2020-04-07 | 出门问问信息科技有限公司 | 一种语音合成方法、装置以及计算机可读存储介质 |
CN111667816B (zh) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN114664283A (zh) * | 2022-02-28 | 2022-06-24 | 阿里巴巴(中国)有限公司 | 语音合成中的文本处理方法及电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05160773A (ja) * | 1991-12-03 | 1993-06-25 | Toshiba Corp | 音声通信装置 |
JP3060422B2 (ja) * | 1992-08-11 | 2000-07-10 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声規則合成装置 |
US5692104A (en) * | 1992-12-31 | 1997-11-25 | Apple Computer, Inc. | Method and apparatus for detecting end points of speech activity |
EP0692135B1 (en) * | 1993-03-12 | 2000-08-16 | Sri International | Method and apparatus for voice-interactive language instruction |
DE69427525T2 (de) * | 1993-10-15 | 2002-04-18 | At&T Corp., New York | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes |
CN1032391C (zh) * | 1994-04-01 | 1996-07-24 | 清华大学 | 基于波形编辑的汉语文字-语音转换方法及系统 |
CN1139038C (zh) * | 2000-06-22 | 2004-02-18 | 上海贝尔有限公司 | 一种实现互联网拨号上网业务旁路的方法 |
JP3690502B2 (ja) * | 2001-04-19 | 2005-08-31 | 日本電信電話株式会社 | 韻律情報設定方法及び装置並びにプログラム及び記録媒体 |
JP4635384B2 (ja) * | 2001-07-03 | 2011-02-23 | 日本電気株式会社 | 音声合成システム、音声合成方法および音声合成用プログラム |
-
2003
- 2003-09-29 CN CNB031327087A patent/CN1320482C/zh not_active Expired - Lifetime
-
2004
- 2004-09-17 EP EP04784433A patent/EP1668631A4/en not_active Withdrawn
- 2004-09-17 WO PCT/US2004/030570 patent/WO2005034085A1/en active Application Filing
- 2004-09-17 KR KR1020067006094A patent/KR20060056403A/ko not_active IP Right Cessation
- 2004-09-17 RU RU2006114740/09A patent/RU2319221C1/ru not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20060056403A (ko) | 2006-05-24 |
EP1668631A1 (en) | 2006-06-14 |
EP1668631A4 (en) | 2008-05-14 |
CN1604183A (zh) | 2005-04-06 |
WO2005034085A1 (en) | 2005-04-14 |
CN1320482C (zh) | 2007-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2319221C1 (ru) | Идентификация естественных речевых пауз в текстовой строке | |
US6076060A (en) | Computer method and apparatus for translating text to sound | |
US7277851B1 (en) | Automated creation of phonemic variations | |
US6490563B2 (en) | Proofreading with text to speech feedback | |
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
US8126714B2 (en) | Voice search device | |
KR970029143A (ko) | 문자인식 번역시스템 및 음성인식 번역시스템 | |
KR100859532B1 (ko) | 대응 문형 패턴 기반 자동통역 방법 및 장치 | |
US20060229877A1 (en) | Memory usage in a text-to-speech system | |
WO1992003819A1 (en) | Method and apparatus for speech recognition | |
JP2000137596A (ja) | 対話型音声応答システム | |
US20060129393A1 (en) | System and method for synthesizing dialog-style speech using speech-act information | |
RU2320026C2 (ru) | Преобразование буквы в звук для синтезированного произношения сегмента текста | |
JPH0420998A (ja) | 音声合成装置 | |
Tjalve et al. | Pronunciation variation modelling using accent features | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
KR100554950B1 (ko) | 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법 | |
CN1629933B (zh) | 用于语音合成的设备、方法和转换器 | |
Roux et al. | Data-driven approach to rapid prototyping Xhosa speech synthesis | |
JPH09237096A (ja) | 漢字説明方法及び装置 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JPH03217900A (ja) | テキスト音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20110310 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20180918 |