JPS6373298A - 文―音声変換装置に用いる複合語処理装置 - Google Patents
文―音声変換装置に用いる複合語処理装置Info
- Publication number
- JPS6373298A JPS6373298A JP61218316A JP21831686A JPS6373298A JP S6373298 A JPS6373298 A JP S6373298A JP 61218316 A JP61218316 A JP 61218316A JP 21831686 A JP21831686 A JP 21831686A JP S6373298 A JPS6373298 A JP S6373298A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- words
- character string
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 150000001875 compounds Chemical class 0.000 description 42
- 230000007704 transition Effects 0.000 description 22
- 239000000470 constituent Substances 0.000 description 7
- 238000000926 separation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[概 要]
英語、独逸語、仏蘭西語等の欧米系言語の文−音声変換
装置においては、文章から音韻記号列を生成しこれによ
って音声を出力している。
装置においては、文章から音韻記号列を生成しこれによ
って音声を出力している。
このとき、高頻度単語や例外的な発音の単語は、辞書に
登録し、その他の単語は予め定めた規則によって、アク
セントや発音を決定している。
登録し、その他の単語は予め定めた規則によって、アク
セントや発音を決定している。
任意の文章の文−音声変換を行う場合、文章の中の複合
語については、該複合語を構成している単語が、辞書に
登録されているのであれば、比較的簡単に分割が可能で
ある。
語については、該複合語を構成している単語が、辞書に
登録されているのであれば、比較的簡単に分割が可能で
ある。
しかし、複合語を構成する単語が辞書に登録されていな
い単語である場合、複合語は構成単語に分割されず、1
つの単語として取り扱われ、規則によってアクセントお
よび発音が決定される。
い単語である場合、複合語は構成単語に分割されず、1
つの単語として取り扱われ、規則によってアクセントお
よび発音が決定される。
そのため、従来複合語の文−音声変換に際し、該複合語
を構成する単語が辞書に登録されていない場合には出力
される音声の発音やアクセントが不自然なものになるこ
とがあると言う問題点があった0本発明は、このような
従来の問題点を解決するため、該当する言語系について
、複合語を含まない単語を対象として、ある文字の次に
並ぶ文字の出現確率を予め求めておいて、その値を基準
として複合語を判定することにより正しい発音とアクセ
ントの音声出力を得ることの可能な文−音声変換装置に
ついて開示している。
を構成する単語が辞書に登録されていない場合には出力
される音声の発音やアクセントが不自然なものになるこ
とがあると言う問題点があった0本発明は、このような
従来の問題点を解決するため、該当する言語系について
、複合語を含まない単語を対象として、ある文字の次に
並ぶ文字の出現確率を予め求めておいて、その値を基準
として複合語を判定することにより正しい発音とアクセ
ントの音声出力を得ることの可能な文−音声変換装置に
ついて開示している。
[産業上の利用分野]
本発明は欧米系の言語を対象とする文−音声変換装置の
制御に関するものであって、特に文章から音韻記号を生
成する際の、複数の単語が結合した複合語についての処
理方式に係わる。
制御に関するものであって、特に文章から音韻記号を生
成する際の、複数の単語が結合した複合語についての処
理方式に係わる。
[従来の技術]
欧米系の言語(英、独、仏語等)の文−音声変換を行う
場合、文章から音韻記号列を生成するには、高頻度の単
語や例外的な発音の単語は、辞書に登録し、その他の単
語は予め定めた規則によって、アクセントや発音を決定
している。
場合、文章から音韻記号列を生成するには、高頻度の単
語や例外的な発音の単語は、辞書に登録し、その他の単
語は予め定めた規則によって、アクセントや発音を決定
している。
任意の文章を音声に変換する場合、文章中に含まれる複
合語は、構成単語に分割され、各単語ごとにアクセント
および発音が決定され、さらに、複合語としてのアクセ
ントが決定されることが必要である0通常の文章の中に
は、当然、単語どうしが結合した複合語が含まれている
。
合語は、構成単語に分割され、各単語ごとにアクセント
および発音が決定され、さらに、複合語としてのアクセ
ントが決定されることが必要である0通常の文章の中に
は、当然、単語どうしが結合した複合語が含まれている
。
この場合、複合語を構成している単語が、辞書に登録さ
れているのであれば、最長一致法等を用いて、比較的簡
単に分割が可能であるが辞書に登録されていない場合に
は複合語として認識することが出来ない、そのため、従
来の文−音声変換装置では複合語を構成する単語が辞書
に登録されていない単語である場合、複合語は構成単語
に分割されず、1つの単語として取り扱われ、予め定め
た規則によってアクセントおよび発音が決定されていた
。
れているのであれば、最長一致法等を用いて、比較的簡
単に分割が可能であるが辞書に登録されていない場合に
は複合語として認識することが出来ない、そのため、従
来の文−音声変換装置では複合語を構成する単語が辞書
に登録されていない単語である場合、複合語は構成単語
に分割されず、1つの単語として取り扱われ、予め定め
た規則によってアクセントおよび発音が決定されていた
。
[発明が解決しようとする問題点コ
上述したように従来の文−音声変換装置においては、複
合語を構成する単語が辞書に登録されていない単語であ
る場合、複合語は構成単語に分割されず、1つの単語と
して取り扱われ、予め定めた規則によって一意的にアク
セントおよび発音が決定されていたので出力される音声
の発音やアクセントが正しくなかったり不自然である場
合があると言う問題点があった。
合語を構成する単語が辞書に登録されていない単語であ
る場合、複合語は構成単語に分割されず、1つの単語と
して取り扱われ、予め定めた規則によって一意的にアク
セントおよび発音が決定されていたので出力される音声
の発音やアクセントが正しくなかったり不自然である場
合があると言う問題点があった。
例えば、複合名詞の場合、−a的には、前の単語に第1
アクセント、後の単語に第2アクセントが置かれるが該
複合名詞が分割されずに、1つの単語として取り扱われ
ると、正しいアクセント位置を決定することはできない
。
アクセント、後の単語に第2アクセントが置かれるが該
複合名詞が分割されずに、1つの単語として取り扱われ
ると、正しいアクセント位置を決定することはできない
。
これをbedroom”という複合語を例にとって説明
すると、複合語と認識された場合“bed″に第1アク
セントが、“room″に第2アクセントがそれぞれ置
かれる。しかし、構成単語に分割されなければ、接頭辞
“be”と語幹“droom”という単語と見なされ、
第2音節に第1アクセントが置かれ、第1音節はアクセ
ントのない弱音節となってしまう。
すると、複合語と認識された場合“bed″に第1アク
セントが、“room″に第2アクセントがそれぞれ置
かれる。しかし、構成単語に分割されなければ、接頭辞
“be”と語幹“droom”という単語と見なされ、
第2音節に第1アクセントが置かれ、第1音節はアクセ
ントのない弱音節となってしまう。
また、1文字どうしならば、それぞれに発音が定まるが
、その文字が連続したとき、特別な発音となるような文
字の組が存在している。そのため、その一方の文字で終
わる単語と、もう一方の文字で始まる単語が結合して、
複合語を形成する場合、構成単語に分割されなければ、
2つの文字が連続していると見なされ、正しい発音を得
ることはできない。
、その文字が連続したとき、特別な発音となるような文
字の組が存在している。そのため、その一方の文字で終
わる単語と、もう一方の文字で始まる単語が結合して、
複合語を形成する場合、構成単語に分割されなければ、
2つの文字が連続していると見なされ、正しい発音を得
ることはできない。
たとえば、“toで終わる単語と、“hoで終わる単語
が結合して、複合語になった場合、分割されなければ、
”th” の発音規則によって、〔θ〕または〔11〕
と発音が決定されてしまう。
が結合して、複合語になった場合、分割されなければ、
”th” の発音規則によって、〔θ〕または〔11〕
と発音が決定されてしまう。
本発明は、このような従来の問題点に鑑み、複合語を構
成する単語が辞書に登録されていない場合であっても、
該複合語を複合語として認識することが可能で、これに
よって複合語についての発音やアクセントを正しく出力
することの出来る文−音声変換装置を提供することを目
的としている。
成する単語が辞書に登録されていない場合であっても、
該複合語を複合語として認識することが可能で、これに
よって複合語についての発音やアクセントを正しく出力
することの出来る文−音声変換装置を提供することを目
的としている。
[問題点を解決するための手段]
本発明によれば上述の目的は、前記特許請求の範囲に記
載のとおり、文字あるいは記号で記述されている文章か
ら前値記号列を生成して該音韻記号列に基づき音声を出
力する装置であって、 一定数の実在する単語について、予め統計的に求めた所
の或る文字あるいは文字列の次に或る文字あるいは文字
列が出現する確率に係る値を保持して置く記憶手段と、
複合語であるか否かを判定すべき文字列について、該文
字列中の文字あるいは文字列の一部ごとにその後位に隣
接する文字あるいは文字列の一部が出現する確率に係る
値を前記記憶手段を検索して求める手段と、上記手段に
より求めた確率に係わる値を予め定めた閾値と比較して
その結果を出力する手段とを具備することを特徴とする
文−音声変換装置により達成される。
載のとおり、文字あるいは記号で記述されている文章か
ら前値記号列を生成して該音韻記号列に基づき音声を出
力する装置であって、 一定数の実在する単語について、予め統計的に求めた所
の或る文字あるいは文字列の次に或る文字あるいは文字
列が出現する確率に係る値を保持して置く記憶手段と、
複合語であるか否かを判定すべき文字列について、該文
字列中の文字あるいは文字列の一部ごとにその後位に隣
接する文字あるいは文字列の一部が出現する確率に係る
値を前記記憶手段を検索して求める手段と、上記手段に
より求めた確率に係わる値を予め定めた閾値と比較して
その結果を出力する手段とを具備することを特徴とする
文−音声変換装置により達成される。
[作 用コ
ある文字列1が、次の文字列2に遷移する確率(遷移確
率)p(文字列11文字列2)は、多数の単語セット内
の文字列における、文字列1の出現回数で、文字列1と
文字列2が、同時に(連続して)起こる状態の出現回数
を割れば、求められる。
率)p(文字列11文字列2)は、多数の単語セット内
の文字列における、文字列1の出現回数で、文字列1と
文字列2が、同時に(連続して)起こる状態の出現回数
を割れば、求められる。
たとえば、1文字の遷移を考えると、3゜が“toに遷
移する確率は、′3°の出現回数で、“st”の出現回
数を割れば、求めることができる。
移する確率は、′3°の出現回数で、“st”の出現回
数を割れば、求めることができる。
文字列1が文字列2に遷移する確率:
p(文字列21文字列1)−
文字列1の出現回数
多数の単語を含む(ただし、複合語は含まない)単語セ
ットの中の、各単語のつづりを調べることによって、各
文字列の、次の文字列への遷移確率を求めて、テーブル
として持つようにする。
ットの中の、各単語のつづりを調べることによって、各
文字列の、次の文字列への遷移確率を求めて、テーブル
として持つようにする。
複合語を処理する場合、その単語内の各文字列の遷移確
率をテーブルから引き出し、闇値以下となる遷移確率を
持つ、文字列の連続部分を、構成単語の境界の候補とし
て、選択する。
率をテーブルから引き出し、闇値以下となる遷移確率を
持つ、文字列の連続部分を、構成単語の境界の候補とし
て、選択する。
[実 施 例]
第1図は本発明の一実施例のブロック図であって、欧米
系の言語の文−音声変換装置における単語−発音記号変
換部の論理構成を示しており、1は例外語処理部1.2
は接辞分離処理部、3は複合語処理部、4はアクセント
決定部1.5は文字−発音記号変換部、6は例外語辞書
、7は遷移確率テーブル、8はアクセント規則、9は発
音規則、10は接辞分離規則を表わしている。
系の言語の文−音声変換装置における単語−発音記号変
換部の論理構成を示しており、1は例外語処理部1.2
は接辞分離処理部、3は複合語処理部、4はアクセント
決定部1.5は文字−発音記号変換部、6は例外語辞書
、7は遷移確率テーブル、8はアクセント規則、9は発
音規則、10は接辞分離規則を表わしている。
第1図において、入力された単語は、まず接辞分離処理
部3によって接辞を分離され、例外1房であるかどうか
調べられる0例外語であれば、単語を発音記号へ変換後
、処理を終える0例外語でなければ、語幹部分に対して
、複合語処理を行う、複合語であれば、単語境界を示す
記号を単語内に挿入する。さらに、単語のアクセントを
決定して、最後に、つづり字を発音記号に変換して、処
理を終える。
部3によって接辞を分離され、例外1房であるかどうか
調べられる0例外語であれば、単語を発音記号へ変換後
、処理を終える0例外語でなければ、語幹部分に対して
、複合語処理を行う、複合語であれば、単語境界を示す
記号を単語内に挿入する。さらに、単語のアクセントを
決定して、最後に、つづり字を発音記号に変換して、処
理を終える。
遷移確率テーブルは、十分に、多くの単語を含む単語セ
ット(複合語は含んでいない)を用意し、それらの中の
単語について、各文字列の遷移確率を計算してそれらの
値を格納したものである。
ット(複合語は含んでいない)を用意し、それらの中の
単語について、各文字列の遷移確率を計算してそれらの
値を格納したものである。
複合語処理部3は第2図の流れ図に示すような制御によ
って、複合語の分割位置の候補を選択する。
って、複合語の分割位置の候補を選択する。
すなわち、複合語を処理゛する場合には、単語を指すボ
インクptrに単語の先頭を設定し、ptrが指してい
る文字以下の文字数が、n文字より少ないならば、処理
を終了する。そうでなければ、ptrに続くn文字を切
り出す9次に、切り出した文字列の遷移確率をテーブル
から引き出す、その遷移確率が、闇値以下であれば、そ
の位置を単語境界の候補とする。さらに、ptrに次の
文字を設定し、再び、A点に戻る。
インクptrに単語の先頭を設定し、ptrが指してい
る文字以下の文字数が、n文字より少ないならば、処理
を終了する。そうでなければ、ptrに続くn文字を切
り出す9次に、切り出した文字列の遷移確率をテーブル
から引き出す、その遷移確率が、闇値以下であれば、そ
の位置を単語境界の候補とする。さらに、ptrに次の
文字を設定し、再び、A点に戻る。
たとえば、英語の複合語′″earthquake”が
入力された場合を考える。ここで用いる遷移確率のテー
ブルは、1文字から1文字への遷移確率を、約2万語の
単語から算出したものである6 ”earthqua
ke’のそれぞれの文字について、テーブルから引き出
した遷移確率を、第3図に示す、数値が小さい程、文字
と文字の結付きが弱いことになる9図では、“h。
入力された場合を考える。ここで用いる遷移確率のテー
ブルは、1文字から1文字への遷移確率を、約2万語の
単語から算出したものである6 ”earthqua
ke’のそれぞれの文字について、テーブルから引き出
した遷移確率を、第3図に示す、数値が小さい程、文字
と文字の結付きが弱いことになる9図では、“h。
から°q°への遷移確率が0で、この文字の連続は、l
単語中には、存在しないことを示している。そこで、°
h°とq゛の間に単語の境界記号を挿入して、複合語の
分割を行う。
単語中には、存在しないことを示している。そこで、°
h°とq゛の間に単語の境界記号を挿入して、複合語の
分割を行う。
この場合は、遷移確率が0となる位置を単語境界とした
。しかし、閾値の取り方によって、単語境界と成り得る
位置が複数個、存在したり、まった(、存在しなかった
りする。そのため、境界候補の位置より前の文字列が、
語尾へ遷移する、あるいは、語頭から境界候補の位置よ
り前の文字列へ遷移する確率を、テーブルから引き出し
て、その値が、闇値を越える境界候補を選べば、さらに
候補を絞ることができる。
。しかし、閾値の取り方によって、単語境界と成り得る
位置が複数個、存在したり、まった(、存在しなかった
りする。そのため、境界候補の位置より前の文字列が、
語尾へ遷移する、あるいは、語頭から境界候補の位置よ
り前の文字列へ遷移する確率を、テーブルから引き出し
て、その値が、闇値を越える境界候補を選べば、さらに
候補を絞ることができる。
[発明の効果コ
以上説明したように本発明によれば、辞書に登録されて
いない単語によって構成される複合語が入力された場合
でも、文字列の遷移確率を利用することによって、正し
く構成単語に分割できるから、正しいアクセント及び発
音の音声を得ることが出来る利点がある。
いない単語によって構成される複合語が入力された場合
でも、文字列の遷移確率を利用することによって、正し
く構成単語に分割できるから、正しいアクセント及び発
音の音声を得ることが出来る利点がある。
第1図は本発明の一実施例のブロック図、第2図は複合
語処理部の制御を示す流れ図、第3図は遷移確率の例を
示す図である。 ■・・・・・・例外語処理部、2・・・・・・接辞分離
処理部、3・・・・・・複合語処理部、4・・・・・・
アクセント決定部、5・・・・・・文字−発音記号変換
部、6・・・・・・例外語辞書、7・・・・・・遷移確
率テーブル、8・・・・・・アクセント規則、9・・・
・・・発音規則、10・・・・・・接辞分離規則 代理人 弁理士 井 桁 貞 一 本発明め一実施Ffi+のブロック間 第 l 図 本εaと1′h+quとにε* 遷移在率の伊影示すス 第3 図
語処理部の制御を示す流れ図、第3図は遷移確率の例を
示す図である。 ■・・・・・・例外語処理部、2・・・・・・接辞分離
処理部、3・・・・・・複合語処理部、4・・・・・・
アクセント決定部、5・・・・・・文字−発音記号変換
部、6・・・・・・例外語辞書、7・・・・・・遷移確
率テーブル、8・・・・・・アクセント規則、9・・・
・・・発音規則、10・・・・・・接辞分離規則 代理人 弁理士 井 桁 貞 一 本発明め一実施Ffi+のブロック間 第 l 図 本εaと1′h+quとにε* 遷移在率の伊影示すス 第3 図
Claims (1)
- 【特許請求の範囲】 文字あるいは記号で記述されている文章から音韻記号列
を生成して該音韻記号列に基づき音声を出力する装置で
あって、 一定数の実在する単語について予め統計的に求めた所の
或る文字あるいは文字列の次に或る文字あるいは文字列
が出現する確率に係る値を保持して置く記憶手段と、 複合語であるか否かを判定すべき文字列について、該文
字列中の文字あるいは文字列の一部ごとにその後位に隣
接する文字あるいは文字列の一部が出現する確率に係る
値を前記記憶手段を検索して求める手段と、 上記手段により求めた確率に係る値を予め定めた閾値と
比較してその結果を出力する手段とを具備することを特
徴とする文−音声変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61218316A JPH0827635B2 (ja) | 1986-09-17 | 1986-09-17 | 文―音声変換装置に用いる複合語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61218316A JPH0827635B2 (ja) | 1986-09-17 | 1986-09-17 | 文―音声変換装置に用いる複合語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6373298A true JPS6373298A (ja) | 1988-04-02 |
JPH0827635B2 JPH0827635B2 (ja) | 1996-03-21 |
Family
ID=16717940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61218316A Expired - Lifetime JPH0827635B2 (ja) | 1986-09-17 | 1986-09-17 | 文―音声変換装置に用いる複合語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0827635B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02224000A (ja) * | 1988-11-23 | 1990-09-06 | Digital Equip Corp <Dec> | 入力語の起源の言語群の判定方法及び合成器による音素の発生方法 |
JP2005293582A (ja) * | 2004-03-31 | 2005-10-20 | Oce Technol Bv | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
-
1986
- 1986-09-17 JP JP61218316A patent/JPH0827635B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02224000A (ja) * | 1988-11-23 | 1990-09-06 | Digital Equip Corp <Dec> | 入力語の起源の言語群の判定方法及び合成器による音素の発生方法 |
JP2005293582A (ja) * | 2004-03-31 | 2005-10-20 | Oce Technol Bv | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH0827635B2 (ja) | 1996-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6094633A (en) | Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases | |
US20070255567A1 (en) | System and method for generating a pronunciation dictionary | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
CN113409761B (zh) | 语音合成方法、装置、电子设备以及计算机可读存储介质 | |
Lee | Reading machine: From text to speech | |
JPS6373298A (ja) | 文―音声変換装置に用いる複合語処理装置 | |
JP2008009507A (ja) | 外国語の発音のカタカナ表記方法 | |
JP3366253B2 (ja) | 音声合成装置 | |
JP2002132282A (ja) | 電子テキスト読み上げ装置 | |
JP2016197184A (ja) | 発音学習コンテンツ提供装置、システム、プログラム及び方法 | |
JP2002123281A (ja) | 音声合成装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JP2002189490A (ja) | ピンイン音声入力の方法 | |
JPH0229797A (ja) | テキスト音声変換装置 | |
JPH11250063A (ja) | 検索装置及び検索方法 | |
JPS59180597A (ja) | 音声分割方式 | |
JP2615643B2 (ja) | 単語音声認識装置 | |
JPH04127199A (ja) | 外国語単語の日本語発音決定方法 | |
JP2000010579A (ja) | 音声合成装置及びコンピュータ可読記録媒体 | |
KR20140059910A (ko) | 언어의 발음표기를 기반으로 하는 만국어 음성 출력장치 | |
CN112988955A (zh) | 多语语音识别及主题语意分析方法与装置 | |
Silamu et al. | HMM-based uyghur continuous speech recognition system | |
Singh et al. | Punjabi text-to-speech synthesis system | |
Louw | A new definition of Xhosa grapheme-to-phoneme rules for automatic transcription | |
JPS63153596A (ja) | 音声文章入力装置 |