RU2319221C1

RU2319221C1 - Идентификация естественных речевых пауз в текстовой строке

Info

Publication number: RU2319221C1
Application number: RU2006114740/09A
Authority: RU
Inventors: Гуй-Линь ЧЭНЬ; И-Цин ЦЗУ
Original assignee: Моторола, Инк.
Priority date: 2003-09-29
Filing date: 2004-09-17
Publication date: 2008-03-10
Also published as: KR20060056403A; EP1668631A1; EP1668631A4; CN1604183A; WO2005034085A1; CN1320482C

Abstract

Изобретение относится к области синтеза речи из текста. Техническим результатом заявленного изобретения является повышение точности выполняемой идентификации естественных речевых пауз для различных речевых паттернов на входе. Технический результат достигается тем, что проводят анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с указанным словом, причем анализ основан, по меньшей мере, на одном заранее определенном пороговом значении для этого слова, при этом указанное заранее определенное пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки. 5 з.п. ф-лы, 5 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение в общем случае относится к синтезу речи по тексту (РПТ, TTS). Изобретение особенно полезно для определения естественных пауз в синтезированном произношении текстового сегмента.

УРОВЕНЬ ТЕХНИКИ

Преобразование текста в речь (TTS, РПТ), часто называемое синтезом связанной речи по тексту, позволяет электронным устройствам принимать на входе текстовую строку и выдавать преобразованное представление строки в форме синтезированной речи. Однако в устройстве, которое может потребоваться при синтезе речи, источником которой является неопределенное количество получаемых текстовых строк, сложно обеспечить синтезированную речь высокого качества, подобную реальной. Это происходит, потому что произношение каждого слова или слога (для китайских иероглифов и т.п.), которые необходимо синтезировать, зависит от контекста и местоположения. Например, произношение слова в конце предложения (входной текстовой строки) может быть выделено или растянуто. Произношение того же самого слова может быть еще более растянутым, если слово встречается в середине предложения там, где в естественной речи требуется смысловое ударение в виде паузы.

В большинстве языков произношение слова зависит от акустических просодических параметров, содержащих тон (высоту), силу (мощность или амплитуду) и длительность. Значения просодических параметров для слова зависят от позиции слова во фразе и расположения естественных речевых пауз. Однако при синтезе речи по тексту (РПТ, TTS) сложно выполнять идентификацию естественных речевых пауз для различных случайных речевых паттернов на входе.

В настоящем описании, включая формулу изобретения, термин "содержит", "содержащий" или аналогичные термины предназначены для обозначения открытого включения, при котором способ или устройство, содержащее список элементов, не включает исключительно эти элементы, но также может включать и другие элементы, не вошедшие в список.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Согласно одному из аспектов настоящего изобретения предоставляется способ для автоматической идентификации естественных речевых пауз в текстовой строке, причем паузы предназначены для использования при преобразовании текста в речь, выполняемом на электронном устройстве, при этом способ содержит:

получение текстовой строки, содержащей два конца, причем указанные два конца представляют собой начало строки и конец строки;

анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с этим словом, причем анализ основан на, по меньшей мере, одном заранее определенном пороговом значении для этого слова, при этом пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки; и

вставку естественной речевой паузы в выходной сигнал синтезированной речи, представляющий текстовую строку.

Соответственно, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение Р_слов, основанное на количестве слогов между началом строки и этим словом.

Соответственно, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение F_слов, основанное на количестве слогов между концом строки и этим словом.

Предпочтительно, по меньшей мере, одно заранее определенное пороговое значение определяют при помощи этапов, на которых:

предоставляют обучающий набор транскрипций с, по меньшей мере, одной естественной речевой паузой, идентифицируемой вставленным идентификатором;

идентифицируют слова в каждой из транскрипций как Р_слова и F_слова;

статистически анализируют Р_слова и F_слова в обучающем наборе;

определяют пороговое значение F_слов и пороговое значение P_слов из результатов статистического анализа.

Соответственно, вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные прерывания в образцах части речи (ЧР, POS).

Соответственно, вставка естественная речевая пауза также может включать в себя паузы, идентифицируемые как естественные паузы в составных словах.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания и практической реализации изобретения ниже приведен предпочтительный вариант настоящего изобретения в качестве иллюстрации со ссылками на прилагаемые чертежи, на которых:

фиг.1 представляет собой блок-схему электронного устройства согласно настоящему изобретению;

на фиг.2 показан способ 200 определения пороговых значений, связанных с естественными речевыми паузами в текстовых строках;

на фиг.3А-3D показаны примеры транскрипций, используемые для способа по фиг.2;

на фиг.4 показан способ автоматической идентификации естественных речевых пауз в текстовой строке; и

на фиг.5 подробно показан этап анализа по фиг.4.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

На фиг.1 показано электронное устройство 100, в виде радиотелефона, содержащее процессор 102 устройства, оперативно связанный посредством шины 103 с пользовательским интерфейсом 104, который обычно представляет собой сенсорный экран или в качестве альтернативы экран дисплея или клавиатуру. Электронное устройство 100 также содержит совокупность 106 фрагментов активной речи, синтезатор 110 речи, энергонезависимую память 120, постоянное запоминающее устройство 118 и модуль 116 радиосвязи, каждое из которых соединено с процессором 102 при помощи шины 103. Синтезатор 110 речи имеет выход, соединенный с драйвером микрофона 112. Совокупность 106 включает в себя представления слов или фонем и связанных дискретизированных, оцифрованных и обработанных сигналов фрагментов активной речи PUW. Другими словами, и как описано ниже, энергонезависимая память 120 (модуль памяти) предоставляет текстовые строки, используемые для синтеза речи по тексту (РПТ, TTS) (текст может быть получен при помощи модуля 116 или каким-либо иным способом). Также совокупность сигналов фрагментов речи содержит транскрипции, представляющие фразы и соответствующие дискретизированные и оцифрованные сигналы фрагментов речи, текстовые строки в позициях, соотнесенных с границами в естественных фразах, как описано ниже.

Как очевидно специалистам в данной области техники, радиочастотный блок 116 связи обычно представляет собой комбинацию приемника и передатчика, которые имеют общую антенну. Радиочастотный блок 116 связи имеет приемопередатчик, связанный с антенной через радиочастотный усилитель. Приемопередатчик также соединен с комбинацией модулятор/демодулятор, которые соединяют блок 116 связи с процессором 102. Также в данном варианте осуществления энергонезависимая память 120 (модуль памяти) хранит программируемую пользователем базу данных Db телефонной книги, а постоянное запоминающее устройство 118 хранит исполняемый код (ИК, ОС) для процессора 102 устройства.

На фиг.2 показан способ 200 определения пороговых значений, связанных с естественными речевыми паузами в текстовых строках. Пороговые значения основаны на количестве предшествующих и последующих слогов в транскрипциях в обучающем наборе TS. После начального этапа 210 способ 200 переходит к этапу 220 для предоставления обучающего набора TS транскрипций, обычно предложений, с по меньшей мере, одной естественной речевой паузой, идентифицируемой знаком препинания или идентификатором "|", установленным вручную. Примеры такой транскрипции или предложений показаны на фиг.3А-3D. Одна из таких транскрипций 300 представляет собой "Based on our history|in China", имеет естественную речевую паузу 310 между словами "history" и "China". Также у транскрипции 300 имеется начало 305 строки и конец 315 строки. Как очевидно специалистам в данной области техники все транскрипции 300 на фиг.3А-3D имеют, по меньшей мере, одну естественную речевую паузу 310, начало 305 строки конец 315 строки. Дальнейший анализ транскрипции дает следующее:

Based=2 слога

on=1 слог

our=1 слог

history=3 слога

in=1 слог

China=2 слога.

Также каждое слово в транскрипции может быть обозначено, как (i) Р_слово, которое идентифицируют как слово в транскрипции, непосредственно перед которым стоит естественная пауза, идентифицируемая знаком пунктуации "|"; (ii) F_слово, которое идентифицируют как слово в транскрипции, сразу за которым следует естественная пауза, идентифицируемая знаком пунктуации "|"; (iii) нейтральное слово, которое по транскрипции не имеет естественной смежно расположенной речевой паузы. После этапа 220, этап 230 идентификации предоставляет для идентификации слова в каждой из транскрипций как (i) Р_слово; (ii) F_слово; или (iii) нейтральное слово. Таким образом, для транскрипции "Based on our history | in China", приведенная ниже таблица 1 идентифицирует атрибуты каждого слова в этой транскрипции.

Таблица 1
Анализ транскрипции "Based on our history\|in China"
Слово	P_слово	F_слово	#_слоги	прерывания
Based	N	N	0	N
on	N	N	2	N
our	N	N	3	N
history	N	Y	4	после
in	Y	N	7	перед
China	N	N	1	N

Затем способ 200 переходит к этапу 240 статистического анализа. На этапе 240, если предоставленный обучающий набор TS имеет 90000 транскрипций (например, предложений) и, допуская, что слово "in" имеет в обучающем наборе 10000 вхождений, то для этих 10000 случаев "in" может иметь место нижеследующий статистический анализ:

(i) количество вхождений (OPW) "in" как Р_слово=8000 случаев;

(ii) количество вхождений (OFW) "in" как F_слово=1000 случаев;

(iii) количество вхождений (ONW) "in" как нейтральное слово (слово, которое не представляет собой ни Р_слово, ни F_слово)=1000 случаев.

Кроме того, для 8000 вхождений Р_слова (OPW) "in", идентифицированных в обучающем наборе TS, может иметь место нижеследующий статистический:

(i) вхождения (OPS), 8 или более предшествующих слогов=0;

(ii) вхождения (OPS), 7 предшествующих слогов=400;

(iii) вхождения (OPS), 6 предшествующих слогов=600;

(iv) вхождения (OPS), 5 предшествующих слогов=2000;

(v) вхождения (OPS), 4 предшествующих слогов=3000;

(vi) вхождения (OPS), 3 предшествующих слога=1000;

(vii) вхождения (OPS), 2 предшествующих слога=1000;

(viii) вхождения (OPS), 1 предшествующий слог=0.

Эвристическое соотношение HR, равное 0,75, выбранное интуитивно и экспериментально, используется для определения порогового значения РТ прерываний для Р_слов для слова "in". Это пороговое значение РТ определяется на этапе 250 определения порогового значения следующим образом:

- начиная с максимального количества имеющихся слогов, до минимального количества имеющихся слогов ВЫПОЛНЯТЬ, начиная с наибольшего OPS, до тех пор, пока:

Sum OPS/OPW>=0,75;

- выбрать PT как количество имеющихся слогов, указанных последним значением OPS из Sum OPS

- конец ВЫПОЛНЕНИЯ.

Таким образом, на этапе 250, РТ для "in" может быть определен следующим образом:

400/8,000=0,05 для 7 предшествующих слогов;

(400+600)/8,000=0,125 для 6 предшествующих слогов;

(400+600+2,000)/8,000=0,375 для 5 предшествующих слогов;

(400+600+2,000+3,000)/8,000=0,75 для 4 предшествующих слогов;

и таким образом РТ выбирают равным 4.

Аналогичный статистический анализ используется на этапе 250 для определения порогового значения FT прерываний для F_слов для "in", и в этом случае используя эвристическое соотношение 0,75. Значения РТ и FT также используются для всех других случаев для P_слов и F_слов для всех других слов в обучающем наборе TS (используя эвристическое соотношение HR, равное 0,75). Затем, на этапе 260, способ 200 завершается, и все случаи P_слов и F_слов для всех слов в обучающем наборе TS сохраняют в энергонезависимой памяти 120.

На фиг.4 показан способ автоматической идентификации естественных речевых пауз в текстовой строке STR, причем паузы используются для преобразования текста в речь, выполняемого на электронном устройстве 100. После начального этапа 410 способ переходит к этапу 420 получения текстовой строки STR, содержащей два конца, причем эти концы представляют собой начало строки SE и конец строки FE. На этапе 430 выбора слова выбирают одно слово (или составное слово CW), и на этапе 440 анализа обеспечивают анализ, по меньшей мере, одного слова (или составного слова CW) в текстовой строке STR для определения, находится ли естественная речевая пауза, расположенная смежно с этим словом (или составным словом CW), причем анализ основан на, по меньшей мере, заданном пороговом значении (PT или FT) для этого слова, при этом пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки. Пороговое значение включает в себя пороговое значение РТ P_слов, основанное на количестве слогов между начальным концом и этим словом. Аналогично, пороговое значение включает в себя пороговое значение FT F_слов, основанное на количестве слогов между началом строки и этим словом.

Если на этапе 450 определяют, что на этапе 440 идентифицирована пауза, то на этапе 460 при синтезе речи вставляют естественную речевую паузу. В противном случае, для слова, которое было выбрано на этапе 430, паузу не вставляют. Затем на этапе 470 выполняют проверку для определения, все ли слова в текстовой строке STR проанализированы, и если остались не проанализированные слова, способ возвращается на этап 230. В противном случае, на этапе 480 синтеза речи выполняют синтез речи в синтезаторе 110, используя совокупность 106, при котором в синтезированном речевом выходном сигнале, представляющем текстовую строку STR, вводят естественную речевую паузу или паузы (вставленные в текстовую строку STR на этапе 460).

На фиг.5 показана более подробная диаграмма этапа 440 анализа. Сначала, на этапе 441, текстовую строку STR проверяют, чтобы определить, имеется ли естественное прерывание в виде паузы в образце части речи (ОЧР, POS). Примеры естественных пауз прерывания в образце POS выглядят следующим образом:

1. Числительное+существительное

Например: two thousand books (две тысячи книг).

2. Глагол+наречие

Например: look carefully (смотри внимательно)

3. Предлог+существительное

Например: with telescopes (с телескопом)

4. Определение+существительное

Например: beautiful city (красивый город)

Если на этапе 441 определено прерывание, то выполняется этап 446, и прерывание идентифицируют как прерывание для F_слов. Если на этапе 441 прерывание не определено, то на этапе 442 происходит проверка текстовой строки STR, чтобы определить, имеется ли естественная пауза прерывания в составном слове. Примеры естественных пауз прерывания в составном слове выглядят следующим образом:

a bit of

a body of

a few

a fleet of

a flooding of

a fraction of

a function of

a good deal

a good deal of

a great deal

a great deal of

a growing number of

a hint of

a large body of

a large number of

a lot of land

a majority of

Если на этапе 442 определяют прерывание, то переходят на этап 446, и прерывание идентифицируют как прерывание для F_слов. Если на этапе 442 прерывание не идентифицируют, то на этапе 443 определяют, достигнуто ли для выбранного слова пороговое значение РТ Р_слов. Это определяют путем сравнения количества слогов в текстовой строке STR между началом строки и выбранным словом. Если пороговое значение РТ Р_слов достигнуто, то на этапе 444 определяют естественное прерывание и идентифицируют как прерывание для Р_слов. В качестве альтернативы, если на этапе 443 прерывание не идентифицировано, то на этапе 445 определяют, было ли для выбранного слова достигнуто пороговое значение РТ N_слова. Это определяют путем сравнения количества слогов в текстовой строке STR между концом строки и выбранным словом. Если пороговое значение РТ F_слов достигнуто, то на этапе 446 определяют естественное прерывание и идентифицируют как прерывание для F_слова. В противном случае, на этапе 447 прерывание не идентифицируют.

Преимущественно, настоящее изобретение позволяет идентифицировать естественные речевые паузы в текстовых строках для использования в синтезе речи по тексту (РПТ, TTS), таким образом, улучшая качество синтезированной речи.

Подробное описание предоставляет только преимущественный иллюстративный вариант осуществления, и не предназначено для ограничения объема, применимости или конфигурации настоящего изобретения. Напротив, подробное описание предпочтительного иллюстративного варианта осуществления обеспечивает специалистов в данной области техники описанием для реализации предпочтительного иллюстративного варианта осуществления настоящего изобретения. Следует принять во внимание, что могут быть сделаны различные изменения в функциях и в компоновке элементов без отступления от сущности и объема настоящего изобретения, как определено ниже в прилагаемой формуле изобретения.

Claims

1. Способ для автоматической идентификации естественных речевых пауз в текстовой строке, причем паузы предназначены для использования в преобразовании текста в речь, выполняемого на электронном устройстве, при этом способ содержит получение текстовой строки, содержащей два конца текстовой строки, причем указанные два конца текстовой строки представляют собой начало текстовой строки и окончание текстовой строки; анализ, по меньшей мере, одного слова в текстовой строке для определения, имеется ли естественная речевая пауза, расположенная смежно с указанным словом, причем анализ основан, по меньшей мере, на одном заранее определенном пороговом значении для этого слова, при этом указанное заранее определенное пороговое значение связано с количеством слогов между этим словом и одним из двух концов текстовой строки; и в случае идентификации естественной речевой паузы, ее вставку в выходной сигнал синтезированной речи, соответствующий указанной текстовой строке.

2. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение Р_слов, основанное на количестве слогов между началом текстовой строки и указанным словом.

3. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение включает в себя пороговое значение F_слов, основанное на количестве слогов между окончанием текстовой строки и указанным словом.

4. Способ по п.1, в котором указанное, по меньшей мере, одно заранее определенное пороговое значение определяют при помощи этапов, на которых предоставляют обучающий набор транскрипций с, по меньшей мере, одной естественной речевой паузой, идентифицируемой вставленным идентификатором; идентифицируют слова в каждой из транскрипций как Р_слова и F_слова; статистически анализируют Р_слова и F_слова в обучающем наборе транскрипций; определяют пороговое значение F_слов и пороговое значение Р_слов из результатов статистического анализа.

5. Способ по п.1, в котором вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные прерывания в образцах части речи.

6. Способ по п.1, в котором вставка естественной речевой паузы также может включать в себя паузы, идентифицируемые как естественные паузы прерывания в составных словах.