JPS6373298A

JPS6373298A - 文―音声変換装置に用いる複合語処理装置

Info

Publication number: JPS6373298A
Application number: JP61218316A
Authority: JP
Inventors: 達郎松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-09-17
Filing date: 1986-09-17
Publication date: 1988-04-02
Anticipated expiration: 2011-03-21
Also published as: JPH0827635B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概　　要］英語、独逸語、仏蘭西語等の欧米系言語の文−音声変換
装置においては、文章から音韻記号列を生成しこれによ
って音声を出力している。

このとき、高頻度単語や例外的な発音の単語は、辞書に
登録し、その他の単語は予め定めた規則によって、アク
セントや発音を決定している。

任意の文章の文−音声変換を行う場合、文章の中の複合
語については、該複合語を構成している単語が、辞書に
登録されているのであれば、比較的簡単に分割が可能で
ある。

しかし、複合語を構成する単語が辞書に登録されていな
い単語である場合、複合語は構成単語に分割されず、１
つの単語として取り扱われ、規則によってアクセントお
よび発音が決定される。

そのため、従来複合語の文−音声変換に際し、該複合語
を構成する単語が辞書に登録されていない場合には出力
される音声の発音やアクセントが不自然なものになるこ
とがあると言う問題点があった０本発明は、このような
従来の問題点を解決するため、該当する言語系について
、複合語を含まない単語を対象として、ある文字の次に
並ぶ文字の出現確率を予め求めておいて、その値を基準
として複合語を判定することにより正しい発音とアクセ
ントの音声出力を得ることの可能な文−音声変換装置に
ついて開示している。

［産業上の利用分野］本発明は欧米系の言語を対象とする文−音声変換装置の
制御に関するものであって、特に文章から音韻記号を生
成する際の、複数の単語が結合した複合語についての処
理方式に係わる。

［従来の技術］欧米系の言語（英、独、仏語等）の文−音声変換を行う
場合、文章から音韻記号列を生成するには、高頻度の単
語や例外的な発音の単語は、辞書に登録し、その他の単
語は予め定めた規則によって、アクセントや発音を決定
している。

任意の文章を音声に変換する場合、文章中に含まれる複
合語は、構成単語に分割され、各単語ごとにアクセント
および発音が決定され、さらに、複合語としてのアクセ
ントが決定されることが必要である０通常の文章の中に
は、当然、単語どうしが結合した複合語が含まれている
。

この場合、複合語を構成している単語が、辞書に登録さ
れているのであれば、最長一致法等を用いて、比較的簡
単に分割が可能であるが辞書に登録されていない場合に
は複合語として認識することが出来ない、そのため、従
来の文−音声変換装置では複合語を構成する単語が辞書
に登録されていない単語である場合、複合語は構成単語
に分割されず、１つの単語として取り扱われ、予め定め
た規則によってアクセントおよび発音が決定されていた
。

［発明が解決しようとする問題点コ上述したように従来の文−音声変換装置においては、複
合語を構成する単語が辞書に登録されていない単語であ
る場合、複合語は構成単語に分割されず、１つの単語と
して取り扱われ、予め定めた規則によって一意的にアク
セントおよび発音が決定されていたので出力される音声
の発音やアクセントが正しくなかったり不自然である場
合があると言う問題点があった。

例えば、複合名詞の場合、−ａ的には、前の単語に第１
アクセント、後の単語に第２アクセントが置かれるが該
複合名詞が分割されずに、１つの単語として取り扱われ
ると、正しいアクセント位置を決定することはできない
。

これをｂｅｄｒｏｏｍ”という複合語を例にとって説明
すると、複合語と認識された場合“ｂｅｄ″に第１アク
セントが、“ｒｏｏｍ″に第２アクセントがそれぞれ置
かれる。しかし、構成単語に分割されなければ、接頭辞
“ｂｅ”と語幹“ｄｒｏｏｍ”という単語と見なされ、
第２音節に第１アクセントが置かれ、第１音節はアクセ
ントのない弱音節となってしまう。

また、１文字どうしならば、それぞれに発音が定まるが
、その文字が連続したとき、特別な発音となるような文
字の組が存在している。そのため、その一方の文字で終
わる単語と、もう一方の文字で始まる単語が結合して、
複合語を形成する場合、構成単語に分割されなければ、
２つの文字が連続していると見なされ、正しい発音を得
ることはできない。

たとえば、“ｔｏで終わる単語と、“ｈｏで終わる単語
が結合して、複合語になった場合、分割されなければ、
”ｔｈ”　の発音規則によって、〔θ〕または〔１１〕
と発音が決定されてしまう。

本発明は、このような従来の問題点に鑑み、複合語を構
成する単語が辞書に登録されていない場合であっても、
該複合語を複合語として認識することが可能で、これに
よって複合語についての発音やアクセントを正しく出力
することの出来る文−音声変換装置を提供することを目
的としている。

［問題点を解決するための手段］本発明によれば上述の目的は、前記特許請求の範囲に記
載のとおり、文字あるいは記号で記述されている文章か
ら前値記号列を生成して該音韻記号列に基づき音声を出
力する装置であって、一定数の実在する単語について、予め統計的に求めた所
の或る文字あるいは文字列の次に或る文字あるいは文字
列が出現する確率に係る値を保持して置く記憶手段と、
複合語であるか否かを判定すべき文字列について、該文
字列中の文字あるいは文字列の一部ごとにその後位に隣
接する文字あるいは文字列の一部が出現する確率に係る
値を前記記憶手段を検索して求める手段と、上記手段に
より求めた確率に係わる値を予め定めた閾値と比較して
その結果を出力する手段とを具備することを特徴とする
文−音声変換装置により達成される。

［作　　用コある文字列１が、次の文字列２に遷移する確率（遷移確
率）ｐ（文字列１１文字列２）は、多数の単語セット内
の文字列における、文字列１の出現回数で、文字列１と
文字列２が、同時に（連続して）起こる状態の出現回数
を割れば、求められる。

たとえば、１文字の遷移を考えると、３゜が“ｔｏに遷
移する確率は、′３°の出現回数で、“ｓｔ”の出現回
数を割れば、求めることができる。

文字列１が文字列２に遷移する確率：ｐ（文字列２１文字列１）− 文字列１の出現回数多数の単語を含む（ただし、複合語は含まない）単語セ
ットの中の、各単語のつづりを調べることによって、各
文字列の、次の文字列への遷移確率を求めて、テーブル
として持つようにする。

複合語を処理する場合、その単語内の各文字列の遷移確
率をテーブルから引き出し、闇値以下となる遷移確率を
持つ、文字列の連続部分を、構成単語の境界の候補とし
て、選択する。

［実　施　例］第１図は本発明の一実施例のブロック図であって、欧米
系の言語の文−音声変換装置における単語−発音記号変
換部の論理構成を示しており、１は例外語処理部１．２
は接辞分離処理部、３は複合語処理部、４はアクセント
決定部１．５は文字−発音記号変換部、６は例外語辞書
、７は遷移確率テーブル、８はアクセント規則、９は発
音規則、１０は接辞分離規則を表わしている。

第１図において、入力された単語は、まず接辞分離処理
部３によって接辞を分離され、例外１房であるかどうか
調べられる０例外語であれば、単語を発音記号へ変換後
、処理を終える０例外語でなければ、語幹部分に対して
、複合語処理を行う、複合語であれば、単語境界を示す
記号を単語内に挿入する。さらに、単語のアクセントを
決定して、最後に、つづり字を発音記号に変換して、処
理を終える。

遷移確率テーブルは、十分に、多くの単語を含む単語セ
ット（複合語は含んでいない）を用意し、それらの中の
単語について、各文字列の遷移確率を計算してそれらの
値を格納したものである。

複合語処理部３は第２図の流れ図に示すような制御によ
って、複合語の分割位置の候補を選択する。

すなわち、複合語を処理゛する場合には、単語を指すボ
インクｐｔｒに単語の先頭を設定し、ｐｔｒが指してい
る文字以下の文字数が、ｎ文字より少ないならば、処理
を終了する。そうでなければ、ｐｔｒに続くｎ文字を切
り出す９次に、切り出した文字列の遷移確率をテーブル
から引き出す、その遷移確率が、闇値以下であれば、そ
の位置を単語境界の候補とする。さらに、ｐｔｒに次の
文字を設定し、再び、Ａ点に戻る。

たとえば、英語の複合語′″ｅａｒｔｈｑｕａｋｅ”が
入力された場合を考える。ここで用いる遷移確率のテー
ブルは、１文字から１文字への遷移確率を、約２万語の
単語から算出したものである６　　”ｅａｒｔｈｑｕａ
ｋｅ’のそれぞれの文字について、テーブルから引き出
した遷移確率を、第３図に示す、数値が小さい程、文字
と文字の結付きが弱いことになる９図では、“ｈ。

から°ｑ°への遷移確率が０で、この文字の連続は、ｌ
単語中には、存在しないことを示している。そこで、°
ｈ°とｑ゛の間に単語の境界記号を挿入して、複合語の
分割を行う。

この場合は、遷移確率が０となる位置を単語境界とした
。しかし、閾値の取り方によって、単語境界と成り得る
位置が複数個、存在したり、まった（、存在しなかった
りする。そのため、境界候補の位置より前の文字列が、
語尾へ遷移する、あるいは、語頭から境界候補の位置よ
り前の文字列へ遷移する確率を、テーブルから引き出し
て、その値が、闇値を越える境界候補を選べば、さらに
候補を絞ることができる。

［発明の効果コ以上説明したように本発明によれば、辞書に登録されて
いない単語によって構成される複合語が入力された場合
でも、文字列の遷移確率を利用することによって、正し
く構成単語に分割できるから、正しいアクセント及び発
音の音声を得ることが出来る利点がある。

【図面の簡単な説明】

第１図は本発明の一実施例のブロック図、第２図は複合
語処理部の制御を示す流れ図、第３図は遷移確率の例を
示す図である。 ■・・・・・・例外語処理部、２・・・・・・接辞分離
処理部、３・・・・・・複合語処理部、４・・・・・・
アクセント決定部、５・・・・・・文字−発音記号変換
部、６・・・・・・例外語辞書、７・・・・・・遷移確
率テーブル、８・・・・・・アクセント規則、９・・・
・・・発音規則、１０・・・・・・接辞分離規則代理人　弁理士　井　桁　貞　一本発明め一実施Ｆｆｉ＋のブロック間第　ｌ　図本εａと１′ｈ＋ｑｕとにε＊遷移在率の伊影示すス第３　図

Claims

【特許請求の範囲】文字あるいは記号で記述されている文章から音韻記号列
を生成して該音韻記号列に基づき音声を出力する装置で
あって、一定数の実在する単語について予め統計的に求めた所の
或る文字あるいは文字列の次に或る文字あるいは文字列
が出現する確率に係る値を保持して置く記憶手段と、複合語であるか否かを判定すべき文字列について、該文
字列中の文字あるいは文字列の一部ごとにその後位に隣
接する文字あるいは文字列の一部が出現する確率に係る
値を前記記憶手段を検索して求める手段と、上記手段により求めた確率に係る値を予め定めた閾値と
比較してその結果を出力する手段とを具備することを特
徴とする文−音声変換装置。