WO2015040751A1

WO2015040751A1 - 音声選択支援装置、音声選択方法、およびプログラム

Info

Publication number: WO2015040751A1
Application number: PCT/JP2013/075581
Authority: WO
Inventors: 鈴木　優; 薫平野
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2013-09-20
Filing date: 2013-09-20
Publication date: 2015-03-26
Also published as: JP6320397B2; JPWO2015040751A1; CN105531757B; CN105531757A; US20160189704A1; US9812119B2

Abstract

　テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備える。

Description

音声選択支援装置、音声選択方法、およびプログラム

　本発明の実施形態は、音声選択支援装置、音声選択方法、およびプログラムに関する。

　音声合成を利用する際、話者（音声辞書）を選択するためには実際に音声を聞く必要があるため多数の候補から選ぶことが難しい。従来提供された話者の選択においては、選択肢である話者が多くても１０種類程度であったが、近年８００種類以上の音声辞書が提供されるようになってきている。そのため、話者を選択する手段として属性（性別、年代、属性（クール／ハスキー／萌え等）を指定して検索する手段が提供されている。また、テキストのメタデータで指定された話者の音声辞書が再生環境に存在しない場合に、メタデータに記述された属性（前述の属性と同様）に基づいて代替の音声を選択し、選択した音声を再生する技術がある。

特開２０１３―７２９５７号公報

　しかしながら、属性を指定して話者を検索する手法では、入力テキストの読み上げに相応しい話者の属性を利用者が適切に設定することが困難である。また音声辞書が多量にある場合には属性によって検索しても話者の候補がたくさん提示されて絞り込めない恐れがある。

　本発明の実施形態は、上記に鑑みてなされたものであって、容易に利用者が所望の話者を選択することができる音声選択支援装置を提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明の実施形態は、テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備えることを特徴とする。

実施形態の音声選択支援装置の機能構成を示すブロック図。実施形態の音声属性の例を示す図。実施形態のテキスト解析処理の流れを示すフロー図。実施形態のテキスト解析知識の例を示す図。実施形態の話者の類似度を評価する処理の流れを示すフロー図。実施形態の変形例の音声属性の例を示す図。実施形態の変形例の音声選択支援装置の機能構成を示すブロック図。実施形態の変形例の話者の選択履歴の例を示す図。実施形態の選択履歴から話者の音声属性を更新する処理のフロー図。実施形態の音声選択支援装置のハードウェア構成を示すブロック図。

　以下、本発明の実施の形態について図面を参照して説明する。
　（第１実施形態）

　第１の実施形態は、テキスト文書を入力すると、複数の話者の音声辞書の中から合成音声による読み上げに用いる音声辞書の候補を提示することのできる音声選択支援装置を説明するものである。図１は本実施形態の音声選択支援装置１の機能構成を示すブロック図である。音声選択支援装置１は、受理部１０１、解析部１０２、評価部１０４、候補提示部１０６、選択受理部１０９、結果出力部１１０、音声合成部１０７、解析知識記憶部１０３、音声属性記憶部１０５、音声辞書記憶部１０８を備えている。なお、これらの各部はソフトウェアによって実現してもよいし、電子回路などのハードウェアによって実現するようにしてもよい。

　受理部１０１は、ユーザによる、音声合成での読み上げの対象となるテキストの入力を受理する。解析部１０２は、解析知識記憶部１０３に記憶されたテキスト解析知識を参照しながら、受理部１０１がユーザから受理したテキストを解析する。テキスト解析知識の詳細については、後述する。

　評価部１０４は、音声属性記憶部１０５に記憶された、音声合成の話者毎の音声の特徴を表す音声属性と、解析部１０２の解析結果とを比較のうえ評価し、入力されたテキストを音声合成で読上げるのに適した話者の候補を選出する。候補提示部１０６は、評価部１０４によって選出された一つ乃至は複数の話者の情報をユーザに提示する。その際、音声合成部１０７を用いて、音声辞書記憶部１０８から各話者に相当する音声辞書に切り替えて、入力されたテキストの全体、又は一部を音声合成してもよい。

　選択受理部１０９は、候補提示部１０６が提示した話者の中から入力されたテキストを読み上げるのにユーザが最も適切と判断した話者の選択を受理する。結果出力部１１０は、選択受理部１０９が受理したユーザによる判断の結果をユーザに提示する。

　続いて、音声属性記憶部１０５に記憶された、音声合成の話者毎の音声の特徴を示す音声属性について図２を用いて説明する。図２に音声属性記憶部１０５に記憶された音声属性の例を示している。図２に示されるように、音声属性は、性別、年齢層、タイプ、スタイル、形式、特徴、の項目によって表現されている。スタイルについては、読上げ（ですます）、読上げ（である）、会話（フォーマル）、会話（フランク）、の観点で表現される。形式については、小説、学習書、メール、会話、アナウンス、の観点で表現される。また特徴については、各話者が読み上げるのに適した文章に特徴的な単語のリストで表現される。

　また、話者ごとの性別をＭ（男性）／Ｆ（女性）、年齢層をＣ（子供）／Ｙ（若者）／Ｍ（成人）／Ｈ（高齢者）、タイプをＣ（クール）／Ｈ（ハスキー）／Ｋ（かわいい）／Ｍ（萌え）／Ｇ（優しい）という記号で表記し、スタイルと形式はそれぞれの項目が合計１００になるような数値で表記している。

　例えば図２の２０１は、若者の男性のクールな声で、比較的フォーマルな会話調のスタイルに向いており、小説やアナウンスの形式に向いていることを示している。また特徴として科学技術系の内容に比較的向いていると考えられる。一方、図２の２０２は、若者の男性のクールな声である点は２０１と同様であるが、スタイルはフランクな会話に向いており、形式としてはメールや会話に向いていることを示している。また特徴としてはデザインやファッションといった比較的カジュアルな内容に向いていると考えられる。

　このように性別や年齢層、タイプが同じであっても、スタイルや形式や内容の向き不向きが異なる場合がある。このような音声属性は、例えば自身の声の特徴を説明するためにそれぞれの話者が自分で設定してもよいし、各話者が例えばナレータや声優などであれば、過去に自身の肉声で読上げた文章群を、後述する解析部１０２の処理によって解析したり、当該文章群に含まれる語句の頻度等から特徴的な語句をリスト化したりするなどして、音声属性として用いてもよい。

　なお、図２での観点の種類や各観点の表現方法については本実施形態を具体的に説明するための例であり、本発明の内容をこれらの種類や表現方法に限定するものではない。また図２では説明のため話者６人分の音声属性のみを記載しているが、本実施形態では、実際にはさらに多くの話者の音声属性が音声属性記憶部１０５に記憶されているものとする。

　また音声属性のラベルを「話者名」と表記しているが、各音声属性及び音声辞書は必ずしも特定の人物に対応している必要はない。複数の人物の音声を組み合わせたり、ある人物の音声辞書に変更を加えたりすることで実在しない人物の音声属性や音声辞書を作成してもよいし、同じ人物が声音を変えることで、一人の話者に対して複数の音声属性や音声辞書が対応するようにしてもよい。

　続いて、本実施形態の動作を説明する例として、ユーザが「花子は混雑を避け書店の奥で待った。（中略）見覚えのある本である。」という文章を読上げさせる場合について説明する。なお、この文章は小説の一部を模した例である。実際には小説全体が入力されることが想定されるが、ここでは説明のため一部のみを例として考える。

　ユーザが入力した文章は受理部１０１が受理し、続いて解析部１０２に送られる。続いて解析部１０２は図３のフローに従い、解析知識記憶部１０３に記憶されたテキスト解析知識を参照しながら、入力された文章を解析する。具体的には、図３に示されるように、まず解析部１０２は、入力された文章を形態素解析する（ステップＳ３０１）。形態素解析とは文章を単語に分割し品詞を付与する処理であり、公知の手法によって実現可能なためここでは詳説しない。形態素解析の結果の例を以下に示す。

　「花子＜人名（名）＞＋は＜助詞＞／混雑＜名詞＞＋を＜助詞＞／避け＜動詞＞／書店＜名詞＞＋の＜助詞＞／奥＜名詞＞＋で＜助詞＞／待っ＜動詞＞＋た＜助動詞＞／。＜句点＞（中略）見覚え＜名詞＞＋の＜助詞＞／ある＜動詞＞／本＜名詞＞＋である＜助動詞＞／。＜句点＞」

　ここで「＜○○＞」は品詞、「＋」は単語の切れ目、「／」は文節の切れ目を表す。また、品詞の「人名（名）」は人名（固有名詞）の姓名の名を表し、その他は表記通りの品詞を表している。

　次に解析部１０２は、解析知識記憶部１０３からテキスト解析知識を一つずつ取り出す（ステップＳ３０２）。図４は、テキスト解析知識の例を示す図である。テキスト解析知識はパタン、属性、重みの３つの値で構成される。このうち「パタン」は前述の形態素解析処理の結果と同様の表現で記述されており、後段の処理（ステップＳ３０４）において入力文の形態素解析結果と比較される。また「属性」は音声属性のうち対応する属性を表している。「重み」はパタンがマッチした場合に後段の処理（ステップＳ３０５）において対応する属性に加算される点数を表す。

　例えば図４の４０１は、入力された文章の形態素解析結果の一部が「＋です＜助動詞＞＋。＜句点＞」と一致した場合に「読上げ（ですます）」という属性に１を加算する、ということを表している。テキスト解析知識が一つ取り出せた場合（ステップＳ３０３：Ｙｅｓ）、解析部１０２は、取り出したテキスト解析知識の「パタン」と入力文章の形態素解析結果とを比較し、一致するか否かを判定する（ステップＳ３０４）。比較の結果パタンが一致した場合には（ステップＳ３０４：Ｙｅｓ）、解析部１０２は、テキスト解析知識の「属性」に対して「重み」の値を加算する（ステップＳ３０５）。

　パタンが一致しなかった場合（ステップＳ３０４：Ｎｏｏ）、あるいはステップＳ３０５の後、再びステップＳ３０２に戻り、解析部１０２は、解析知識記憶部１０３から次のテキスト解析知識を取り出す。このようにステップＳ３０２からＳ３０５を繰り返し、すべてのテキスト解析知識を取り出して新たなテキスト解析知識が取り出せなくなると（ステップＳ３０３：Ｎｏ）、解析部１０２は、ステップＳ３０６に進み加算された重みを正規化する（ステップＳ３０６）。

　正規化は図２に例を示した音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が１００になるように正規化する。ただし同一分類内のいずれの属性についても値が０であった場合は正規化は行われない。

　例えば前述の形態素解析結果の例Ａの場合、ステップＳ３０４で図４の４０２と４０３が一致し、音声属性の「読上げ（ですます）」と「小説」にそれぞれ重みが１ずつ加算される。また「読上げ（ですます）」と「小説」はそれぞれ異なる分類（「スタイル」と「形式」）に属するため、ステップＳ３０６での正規化の結果、それぞれの値が１００に変更され、ステップＳ３０７で入力文章及び入力文章の形態素解析結果と共に評価部１０４へと出力される。

　なおテキスト解析知識は必ずしも図４のような形式である必要はなく、例えば形態素のＮグラム（パタン）と属性との対応（重み）を確率的に表現することも考えられる。このようなテキスト解析知識は、人手によるなど本実施形態には含まれない手段で具体的な文章と適切な属性を対応づけておき、文章に含まれるＮグラムと属性とを統計的に関係づけるなどの処理によって作成することができる。

　図５は、評価部１０４が解析部１０２からの入力を受け、音声属性記憶部１０５に記憶された音声属性を評価する処理の流れを示している。まず評価部１０４は、Ｓｍａｘ＝０、Ｖｍａｘ＝ｎｕｌｌと初期化を行う（ステップＳ５０１）。Ｓｍａｘは総合類似度の最大値を示す変数である。Ｖｍａｘは、総合類似度が最大の話者を示す変数である。続いて、評価部１０４は、音声属性記憶部１０５から音声属性を一つずつ取り出す（ステップＳ５０２）。

　評価部１０４は、音声属性の取出しが成功したか否かを判定する（ステップＳ５０３）。音声属性の取出しが失敗した場合（ステップＳ５０３：Ｎｏ）、すなわち全ての音声属性についての類似度が算出し終わった場合、評価部１０４は、Ｖｍａｘを出力して処理を終了する（ステップＳ５１０）。一方、音声属性の取出しが成功した場合（ステップＳ５０３：Ｙｅｓ）、評価部１０４は、解析部１０２の結果と音声属性の「スタイル」の値との内積であるＳ１を計算する（ステップＳ５０４）。

　次いで、評価部１０４は、解析部１０２の結果と音声属性の「形式」の値との内積であるＳ２を計算する（ステップＳ５０５）。そして、評価部１０４は、音声属性の「特徴」の単語リストの中で入力文章の形態素解析結果に含まれる単語の数であるＳ３を計算する（ステップＳ５０６）。なお、例えば正規化のため単語リストをベクトル化して内積を求めてもよい。

　最後に、評価部１０４は、Ｓｉｍ＝α・Ｓ１＋β・Ｓ２＋γ・Ｓ３の式によって総合類似度Ｓｉｍを計算する（ステップＳ５０７）。α、β、γは、スタイル、形式、特徴をどう重要視するかによって調整可能な、予め設定されるパラメータである。そして、評価部１０４は、Ｓｉｍ＞Ｓｍａｘであるかを判定する（ステップＳ５０８）。Ｓｉｍ＞Ｓｍａｘであるなら（ステップＳ５０８：Ｙｅｓ）、評価部１０４は、Ｓｍａｘを更新し、Ｖｍａｘに話者名を記憶させる（ステップＳ５０９）。

　例えばα＝１、β＝１、γ＝０．１とすると、
話者Ａ：Ｓ１＝０．２、Ｓ２＝０．３、Ｓ３＝０、Ｓｉｍ＝０．５
話者Ｂ：Ｓ１＝０．４、Ｓ２＝０．３、Ｓ３＝１、Ｓｉｍ＝０．８
話者Ｃ：Ｓ１＝０．３、Ｓ２＝０．０、Ｓ３＝０、Ｓｉｍ＝０．３
話者Ｄ：Ｓ１＝０．１、Ｓ２＝０．１、Ｓ３＝０、Ｓｉｍ＝０．２
話者Ｅ：Ｓ１＝０．２、Ｓ２＝０．３、Ｓ３＝１、Ｓｉｍ＝０．６
話者Ｆ：Ｓ１＝０．１、Ｓ２＝０．１、Ｓ３＝０、Ｓｉｍ＝０．２
となり、Ｖｍａｘ＝話者Ｂが出力される。

　なお図５のフローではＳｉｍが最大となる話者が１名だけ出力されるが、例えばＳｉｍの降順にＮ人の話者を候補として評価部１０４が出力してもよい。

　候補提示部１０６は、評価部１０４の処理結果を受け入力文章を読み上げるのに適していると評価された話者をユーザに提示する。この時、話者名だけでなく、当該話者の音声属性を参照して性別、年齢層、タイプなどの情報を併せて提示してもよい。

　さらに候補提示部１０６はユーザからの入力文章と評価部１０４が出力した話者名を音声合成部１０７に送る。音声合成部１０７は、音声辞書記憶部１０８に記憶された音声辞書のうち、入力された話者名に該当する話者の音声辞書を参照して、入力された文章を合成音声で出力する。ここでは話者Ｂの音声辞書でユーザが入力した文章が読上げられることになる。なお入力された文章が予め設定された文章長よりも長い場合には、音声合成部１０７は入力された文章の一部分だけを読み上げてもよい。

　候補提示部１０６と音声合成部１０７の出力を確認したユーザは、提示された話者を選択するか否かを選択受理部１０９を通じて入力する。ユーザが話者を選択した場合には、選択受理部１０９はユーザが話者を選択したことを結果出力部１１０に伝える。結果出力部１１０は、選択された話者の情報を出力すると共に、音声合成部１０７に対して当該話者の音声辞書でユーザが入力した文章を読み上げるよう指示し、音声合成部１０７が合成音声を出力する。

　ユーザが候補提示部１０６が提示した話者を選択しなかった場合には、選択受理部１０９が当該話者が選択されなかったことを評価部１０４に伝える。評価部１０４は、当該話者以外の話者の音声属性について再び同様の評価を行い、次の候補となる話者を候補提示部１０６に出力する。候補提示部１０６が出力した話者が選択されるまでこの処理が繰り返される。

　なお評価部１０４がＳｉｍの降順にＮ人の候補を出力する場合には、候補提示部１０６がこれらの候補を列挙して表示し、選択受理部１０９がＮ人の候補の中からユーザが選択した候補を受理するように動作してもよい。この場合、音声合成部１０７はＮ人の候補の音声辞書で一度に読上げを行うのではなく、提示された候補と音声の対応づけがわかるように候補提示部１０６が表示を制御しながら順に読上げたり、候補提示部１０６がユーザからの指示を受けて指定された話者の音声辞書で読上げを行うよう音声合成部１０７を制御したりしてもよい。

　以上に示した本実施形態の音声選択支援装置１にあっては、スタイル、及び形式において、入力されたテキストの解析が自動で行われ、テキストの解析による評価結果と近い音声属性を有する話者が選択されて利用者に対して提示される。したがって、利用者が自らの判断で、検索を行う必要がなく、容易に適した話者を選択することができるようになる。

　なお、第１の実施形態ではユーザが入力した文章を音声合成で読み上げるのに相応しい話者を提示する例を示したが、その変形例１として、入力した文書を読み上げるのに相応しくない話者が選択されにくくなるように制御することも考えられる。このような変形例について図６で示した音声属性の例に基づいて説明する。

　図６の６０１は、性別＝女性、年齢層＝若者、タイプ＝萌え、である話者Ｄがスタイル＝読上げ（である）の文章で選択されないようにする例である。具体的には、スタイル＝読上げ（である）の値を「－１００」に設定し、スタイル＝読上げ（である）の文章に対して評価部１０４の処理においてスタイル類似度Ｓ１が負の値になるようにすることで選択されにくくしている。この時、読上げ（である）以外のスタイルの値については、読上げ（である）以外のスタイルの値だけで合計値が１００になるよう正規化している。

　また図６の６０２は、性別＝男性、年齢層＝若者、タイプ＝クール、である話者Ｆが「俺」という語を含む文章で選択されにくくする例である。「特徴」に列挙される単語リストの中に、「－」を冒頭に付けて「俺」という単語を記載している。

　評価部１０４が、冒頭に「－」が付加されている語句が入力文章に含まれる場合に特徴類似度Ｓ３の値を小さくする、あるいは、負にするなどの制御を行うことで、当該語句が含まれる入力文章に対して当該話者が選択されにくくなるよう制御できる。

　さらには相応しくない話者を選択されにくくするだけでなく、候補として全く提示されないよう評価部１０４が制御してもよい。

　この変形例１により、例えば年齢制限が求められたり公序良俗に反したりする文章や、イメージに合わない文章の読み上げに自身の音声辞書が使われないよう話者自身が制御することもできる。

　また、第１の実施形態の別の変形例として、ユーザが入力した文章と選択した話者の情報を用いて音声属性記憶部１０５に記憶された音声情報を更新することができるようにすることもできる。図７は、この変形例における音声選択支援装置１ａの機能構成を示す図である。図７に示されるように、図１の構成に加え、音声選択支援装置１ａは、選択履歴記憶部７０１と音声属性更新部７０２とを新たに備える。選択履歴記憶部７０１は結果出力部１１０から選択結果及び入力文章を選択履歴として受け取り記憶する。音声属性更新部７０２は、選択履歴記憶部７０１に記憶された選択履歴に基づいて音声属性を更新する。

　図８に、結果出力部１１０から出力され選択履歴記憶部７０１に記憶される選択履歴の例を示す。図８の選択履歴は、選択受理部１０９が受理したユーザの選択結果である話者名、ユーザが入力した文章から解析部１０２が求めたスタイルと形式の各属性の正規化された重み、ユーザが入力した文章を解析部１０２が形態素解析した解析結果に含まれる普通名詞を結果出力部１１０が抽出して列挙したキーワード、から構成される。例えば図８の８０１は第１の実施形態において説明した具体例に対応する選択履歴である。

　ここで、キーワードとしてユーザが入力した文章を解析部１０２が形態素解析した解析結果に含まれる普通名詞のみを考えたが、固有名詞や動詞、形容詞など他の品詞の単語を含めてもよい。

　またユーザが入力した文章が例えば小説全体など長い文章群であることも考えられるため、ユーザが入力した文章に含まれる全ての語句ではなく、出現頻度等の統計量によって優先順位を付けて一定個数以下の単語のみをキーワードとして選択履歴に含めるなどしてもよい。

　次に、音声属性更新部７０２が図９のフローチャートに従って音声属性記憶部１０５に記憶された音声属性を更新する。まず、音声属性更新部７０２は、選択履歴を選択結果（話者）毎にまとめる（ステップＳ９０１）。例えば図８の８０１と８０２は選択結果がいずれも話者Ｂであるのでまとめられる。次いで、音声属性更新部７０２は、話者毎に各属性の平均値を求める（ステップＳ９０２）。例えば図８の話者Ｂについては、読上げ（ですます）の値が８０、読上げ（である）の値が５、会話（フォーマル）の値が１５、会話（フランク）の値が０、小説の値が６５、学習書の値が０、メールの値が５、会話の値が１０、アナウンスの値が２０、となる。

　またキーワードもたし合わせる。例えば図８の話者Ｂについてはキーワードが「混雑、書店、奥、見覚え、本、本日、来店、案内、…」となる。そして、音声属性更新部７０２は、話者毎に音声属性を更新する（ステップＳ９０３）。音声属性記憶部１０５からＳ９０１でまとめた話者の音声属性を取り出し、各属性の値にＳ９０２で求めた平均値にパラメータδを乗じて加算する。例えばパラメータδ＝０．１とすると、図２で話者Ｂに対応する２０３は、読上げ（ですます）の値が４８、読上げ（である）の値が１０．５、会話（フォーマル）の値が３１．５、会話（フランク）の値が１０、小説の値が３６．５、学習書の値が０、メールの値が１０．５、会話の値が２１、アナウンスの値が４２、となる。さらに、音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が１００になるように正規化する。

　なお、ここでは説明のためパラメータδの値を仮に設定したが、パラメータδの値は選択履歴をどの程度音声属性に反映するかを調整する値であり、δ＝０．１よりさらに小さい値に設定することが考えられる。またパラメータδは定数である必要はなく、例えば選択履歴の数などの関数であってもよい。次に、音声属性の「特徴」にＳ９０２で足し合わせた選択履歴の「キーワード」を追加する。

　音声属性の更新後、評価部１０４が音声属性記憶部１０５を参照して評価を実行することで、話者の候補の選択に選択履歴が反映されることになる。この時、選択履歴記憶部７０１が選択履歴をユーザ毎に個別に管理し、音声属性更新部７０２もユーザ毎の個別の選択履歴に基づいて音声属性を個別に更新し、音声属性記憶部１０５も更新された音声属性をユーザ毎に個別に管理すると、個々のユーザの話者選択の傾向（好み）が評価部１０４の評価に反映されることになる。

　一方、選択履歴記憶部７０１が全てのユーザの選択履歴をまとめて管理する場合には、ユーザ群全体の話者選択の傾向が評価部１０４の評価に反映されることになり、評価部１０４による評価の精度が向上することが期待できる。

　また本変形例では音声属性更新部７０２が音声属性記憶部１０５に記憶された音声属性を更新する構成としたが、例えば音声属性記憶部１０５に記憶された音声属性を更新することはせず、評価部１０４が評価を実行する際に選択履歴記憶部７０１に記憶された選択履歴を参照することで、選択履歴を反映した評価を行う、という構成によって変形例と同様の動作を実現してもよい。

　以上の各実施形態の音声選択装置１は、図１０に示されるように例えばＣＰＵ１０などの制御装置と、ＲＯＭ１１（Read　Only　Memory）やＲＡＭ１２などの記憶装置と、ＨＤＤ１３、ＣＤドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置１４と、キーボードやマウスなどの入力装置１５を備えており、通常のコンピュータを利用したハードウェア構成となっている。

　以上の各実施形態の音声選択装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

　また、以上の各実施形態のプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、以上の各実施形態の音声選択装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

　また、以上の各実施形態のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　また、以上の各実施形態の音声選択装置はで実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　テキストの入力を受ける受理部と、
　入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、
　前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
　音声辞書ごとの音声属性を記憶する属性記憶手段と、
　前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
　前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する提示手段と、
　を備えることを特徴とする音声選択支援装置。
　前記音声辞書を記憶する辞書記憶手段と、
　利用者からの指示に基づいて、提示された前記音声辞書の候補の前記音声辞書を用いて、入力テキストの全部、又は一部を音声化して利用者に提示する音声合成部と、
　利用者による前記音声辞書の選択指示を受け付ける選択受理部と、
　選択結果を出力する結果出力部と、
　を更に備えることを特徴とする請求項１に記載の音声選択支援装置。
　前記音声属性記憶部は、前記音声辞書の前記音声属性を、当該音声辞書を所定の前記特徴を有する前記テキストに対して、前記類似度が低くなる態様で記憶する
　ことを特徴とする請求項１、又は２に記載の音声選択支援装置。
　前記結果出力部から受け取った前記選択結果、及び前記テキストを選択履歴として記憶する履歴記憶手段と、
　前記履歴記憶手段に記憶された前記選択履歴に基づいて前記音声辞書の音声属性を更新する更新手段と、
　を更に備えることを特徴とする請求項２に記載の音声選択支援装置。
　受理部がテキストの入力を受けるステップと、
　解析部が入力された前記テキストの特徴分析に用いられるテキスト解析知識を参照して前記テキストの特徴を分析するステップと、
　評価部が、音声辞書の音声属性と前記テキストの特徴との類似度を評価するステップと、
　候補提示部が前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示するステップと、
　を含むことを特徴とする音声選択方法。
　コンピュータを
　テキストの入力を受ける受理部と、
　入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶するテキスト
解析知識記憶手段と、
　前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
　音声辞書ごとの音声属性を記憶する音声属性記憶部と、
　前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
　前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、
　として実行させるためのプログラム。