JPWO2015040751A1 - 音声選択支援装置、音声選択方法、およびプログラム - Google Patents

音声選択支援装置、音声選択方法、およびプログラム Download PDF

Info

Publication number
JPWO2015040751A1
JPWO2015040751A1 JP2015537534A JP2015537534A JPWO2015040751A1 JP WO2015040751 A1 JPWO2015040751 A1 JP WO2015040751A1 JP 2015537534 A JP2015537534 A JP 2015537534A JP 2015537534 A JP2015537534 A JP 2015537534A JP WO2015040751 A1 JPWO2015040751 A1 JP WO2015040751A1
Authority
JP
Japan
Prior art keywords
text
voice
unit
speech
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015537534A
Other languages
English (en)
Other versions
JP6320397B2 (ja
Inventor
鈴木 優
優 鈴木
薫 平野
薫 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of JPWO2015040751A1 publication Critical patent/JPWO2015040751A1/ja
Application granted granted Critical
Publication of JP6320397B2 publication Critical patent/JP6320397B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備える。

Description

本発明の実施形態は、音声選択支援装置、音声選択方法、およびプログラムに関する。
音声合成を利用する際、話者(音声辞書)を選択するためには実際に音声を聞く必要があるため多数の候補から選ぶことが難しい。従来提供された話者の選択においては、選択肢である話者が多くても10種類程度であったが、近年800種類以上の音声辞書が提供されるようになってきている。そのため、話者を選択する手段として属性(性別、年代、属性(クール/ハスキー/萌え等)を指定して検索する手段が提供されている。また、テキストのメタデータで指定された話者の音声辞書が再生環境に存在しない場合に、メタデータに記述された属性(前述の属性と同様)に基づいて代替の音声を選択し、選択した音声を再生する技術がある。
特開2013―72957号公報
しかしながら、属性を指定して話者を検索する手法では、入力テキストの読み上げに相応しい話者の属性を利用者が適切に設定することが困難である。また音声辞書が多量にある場合には属性によって検索しても話者の候補がたくさん提示されて絞り込めない恐れがある。
本発明の実施形態は、上記に鑑みてなされたものであって、容易に利用者が所望の話者を選択することができる音声選択支援装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の実施形態は、テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備えることを特徴とする。
実施形態の音声選択支援装置の機能構成を示すブロック図。 実施形態の音声属性の例を示す図。 実施形態のテキスト解析処理の流れを示すフロー図。 実施形態のテキスト解析知識の例を示す図。 実施形態の話者の類似度を評価する処理の流れを示すフロー図。 実施形態の変形例の音声属性の例を示す図。 実施形態の変形例の音声選択支援装置の機能構成を示すブロック図。 実施形態の変形例の話者の選択履歴の例を示す図。 実施形態の選択履歴から話者の音声属性を更新する処理のフロー図。 実施形態の音声選択支援装置のハードウェア構成を示すブロック図。
以下、本発明の実施の形態について図面を参照して説明する。
(第1実施形態)
第1の実施形態は、テキスト文書を入力すると、複数の話者の音声辞書の中から合成音声による読み上げに用いる音声辞書の候補を提示することのできる音声選択支援装置を説明するものである。図1は本実施形態の音声選択支援装置1の機能構成を示すブロック図である。音声選択支援装置1は、受理部101、解析部102、評価部104、候補提示部106、選択受理部109、結果出力部110、音声合成部107、解析知識記憶部103、音声属性記憶部105、音声辞書記憶部108を備えている。なお、これらの各部はソフトウェアによって実現してもよいし、電子回路などのハードウェアによって実現するようにしてもよい。
受理部101は、ユーザによる、音声合成での読み上げの対象となるテキストの入力を受理する。解析部102は、解析知識記憶部103に記憶されたテキスト解析知識を参照しながら、受理部101がユーザから受理したテキストを解析する。テキスト解析知識の詳細については、後述する。
評価部104は、音声属性記憶部105に記憶された、音声合成の話者毎の音声の特徴を表す音声属性と、解析部102の解析結果とを比較のうえ評価し、入力されたテキストを音声合成で読上げるのに適した話者の候補を選出する。候補提示部106は、評価部104によって選出された一つ乃至は複数の話者の情報をユーザに提示する。その際、音声合成部107を用いて、音声辞書記憶部108から各話者に相当する音声辞書に切り替えて、入力されたテキストの全体、又は一部を音声合成してもよい。
選択受理部109は、候補提示部106が提示した話者の中から入力されたテキストを読み上げるのにユーザが最も適切と判断した話者の選択を受理する。結果出力部110は、選択受理部109が受理したユーザによる判断の結果をユーザに提示する。
続いて、音声属性記憶部105に記憶された、音声合成の話者毎の音声の特徴を示す音声属性について図2を用いて説明する。図2に音声属性記憶部105に記憶された音声属性の例を示している。図2に示されるように、音声属性は、性別、年齢層、タイプ、スタイル、形式、特徴、の項目によって表現されている。スタイルについては、読上げ(ですます)、読上げ(である)、会話(フォーマル)、会話(フランク)、の観点で表現される。形式については、小説、学習書、メール、会話、アナウンス、の観点で表現される。また特徴については、各話者が読み上げるのに適した文章に特徴的な単語のリストで表現される。
また、話者ごとの性別をM(男性)/F(女性)、年齢層をC(子供)/Y(若者)/M(成人)/H(高齢者)、タイプをC(クール)/H(ハスキー)/K(かわいい)/M(萌え)/G(優しい)という記号で表記し、スタイルと形式はそれぞれの項目が合計100になるような数値で表記している。
例えば図2の201は、若者の男性のクールな声で、比較的フォーマルな会話調のスタイルに向いており、小説やアナウンスの形式に向いていることを示している。また特徴として科学技術系の内容に比較的向いていると考えられる。一方、図2の202は、若者の男性のクールな声である点は201と同様であるが、スタイルはフランクな会話に向いており、形式としてはメールや会話に向いていることを示している。また特徴としてはデザインやファッションといった比較的カジュアルな内容に向いていると考えられる。
このように性別や年齢層、タイプが同じであっても、スタイルや形式や内容の向き不向きが異なる場合がある。このような音声属性は、例えば自身の声の特徴を説明するためにそれぞれの話者が自分で設定してもよいし、各話者が例えばナレータや声優などであれば、過去に自身の肉声で読上げた文章群を、後述する解析部102の処理によって解析したり、当該文章群に含まれる語句の頻度等から特徴的な語句をリスト化したりするなどして、音声属性として用いてもよい。
なお、図2での観点の種類や各観点の表現方法については本実施形態を具体的に説明するための例であり、本発明の内容をこれらの種類や表現方法に限定するものではない。また図2では説明のため話者6人分の音声属性のみを記載しているが、本実施形態では、実際にはさらに多くの話者の音声属性が音声属性記憶部105に記憶されているものとする。
また音声属性のラベルを「話者名」と表記しているが、各音声属性及び音声辞書は必ずしも特定の人物に対応している必要はない。複数の人物の音声を組み合わせたり、ある人物の音声辞書に変更を加えたりすることで実在しない人物の音声属性や音声辞書を作成してもよいし、同じ人物が声音を変えることで、一人の話者に対して複数の音声属性や音声辞書が対応するようにしてもよい。
続いて、本実施形態の動作を説明する例として、ユーザが「花子は混雑を避け書店の奥で待った。(中略)見覚えのある本である。」という文章を読上げさせる場合について説明する。なお、この文章は小説の一部を模した例である。実際には小説全体が入力されることが想定されるが、ここでは説明のため一部のみを例として考える。
ユーザが入力した文章は受理部101が受理し、続いて解析部102に送られる。続いて解析部102は図3のフローに従い、解析知識記憶部103に記憶されたテキスト解析知識を参照しながら、入力された文章を解析する。具体的には、図3に示されるように、まず解析部102は、入力された文章を形態素解析する(ステップS301)。形態素解析とは文章を単語に分割し品詞を付与する処理であり、公知の手法によって実現可能なためここでは詳説しない。形態素解析の結果の例を以下に示す。
「花子<人名(名)>+は<助詞>/混雑<名詞>+を<助詞>/避け<動詞>/書店<名詞>+の<助詞>/奥<名詞>+で<助詞>/待っ<動詞>+た<助動詞>/。<句点>(中略)見覚え<名詞>+の<助詞>/ある<動詞>/本<名詞>+である<助動詞>/。<句点>」
ここで「<○○>」は品詞、「+」は単語の切れ目、「/」は文節の切れ目を表す。また、品詞の「人名(名)」は人名(固有名詞)の姓名の名を表し、その他は表記通りの品詞を表している。
次に解析部102は、解析知識記憶部103からテキスト解析知識を一つずつ取り出す(ステップS302)。図4は、テキスト解析知識の例を示す図である。テキスト解析知識はパタン、属性、重みの3つの値で構成される。このうち「パタン」は前述の形態素解析処理の結果と同様の表現で記述されており、後段の処理(ステップS304)において入力文の形態素解析結果と比較される。また「属性」は音声属性のうち対応する属性を表している。「重み」はパタンがマッチした場合に後段の処理(ステップS305)において対応する属性に加算される点数を表す。
例えば図4の401は、入力された文章の形態素解析結果の一部が「+です<助動詞>+。<句点>」と一致した場合に「読上げ(ですます)」という属性に1を加算する、ということを表している。テキスト解析知識が一つ取り出せた場合(ステップS303:Yes)、解析部102は、取り出したテキスト解析知識の「パタン」と入力文章の形態素解析結果とを比較し、一致するか否かを判定する(ステップS304)。比較の結果パタンが一致した場合には(ステップS304:Yes)、解析部102は、テキスト解析知識の「属性」に対して「重み」の値を加算する(ステップS305)。
パタンが一致しなかった場合(ステップS304:Noo)、あるいはステップS305の後、再びステップS302に戻り、解析部102は、解析知識記憶部103から次のテキスト解析知識を取り出す。このようにステップS302からS305を繰り返し、すべてのテキスト解析知識を取り出して新たなテキスト解析知識が取り出せなくなると(ステップS303:No)、解析部102は、ステップS306に進み加算された重みを正規化する(ステップS306)。
正規化は図2に例を示した音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が100になるように正規化する。ただし同一分類内のいずれの属性についても値が0であった場合は正規化は行われない。
例えば前述の形態素解析結果の例Aの場合、ステップS304で図4の402と403が一致し、音声属性の「読上げ(ですます)」と「小説」にそれぞれ重みが1ずつ加算される。また「読上げ(ですます)」と「小説」はそれぞれ異なる分類(「スタイル」と「形式」)に属するため、ステップS306での正規化の結果、それぞれの値が100に変更され、ステップS307で入力文章及び入力文章の形態素解析結果と共に評価部104へと出力される。
なおテキスト解析知識は必ずしも図4のような形式である必要はなく、例えば形態素のNグラム(パタン)と属性との対応(重み)を確率的に表現することも考えられる。このようなテキスト解析知識は、人手によるなど本実施形態には含まれない手段で具体的な文章と適切な属性を対応づけておき、文章に含まれるNグラムと属性とを統計的に関係づけるなどの処理によって作成することができる。
図5は、評価部104が解析部102からの入力を受け、音声属性記憶部105に記憶された音声属性を評価する処理の流れを示している。まず評価部104は、Smax=0、Vmax=nullと初期化を行う(ステップS501)。Smaxは総合類似度の最大値を示す変数である。Vmaxは、総合類似度が最大の話者を示す変数である。続いて、評価部104は、音声属性記憶部105から音声属性を一つずつ取り出す(ステップS502)。
評価部104は、音声属性の取出しが成功したか否かを判定する(ステップS503)。音声属性の取出しが失敗した場合(ステップS503:No)、すなわち全ての音声属性についての類似度が算出し終わった場合、評価部104は、Vmaxを出力して処理を終了する(ステップS510)。一方、音声属性の取出しが成功した場合(ステップS503:Yes)、評価部104は、解析部102の結果と音声属性の「スタイル」の値との内積であるS1を計算する(ステップS504)。
次いで、評価部104は、解析部102の結果と音声属性の「形式」の値との内積であるS2を計算する(ステップS505)。そして、評価部104は、音声属性の「特徴」の単語リストの中で入力文章の形態素解析結果に含まれる単語の数であるS3を計算する(ステップS506)。なお、例えば正規化のため単語リストをベクトル化して内積を求めてもよい。
最後に、評価部104は、Sim=α・S1+β・S2+γ・S3の式によって総合類似度Simを計算する(ステップS507)。α、β、γは、スタイル、形式、特徴をどう重要視するかによって調整可能な、予め設定されるパラメータである。そして、評価部104は、Sim>Smaxであるかを判定する(ステップS508)。Sim>Smaxであるなら(ステップS508:Yes)、評価部104は、Smaxを更新し、Vmaxに話者名を記憶させる(ステップS509)。
例えばα=1、β=1、γ=0.1とすると、
話者A:S1=0.2、S2=0.3、S3=0、Sim=0.5
話者B:S1=0.4、S2=0.3、S3=1、Sim=0.8
話者C:S1=0.3、S2=0.0、S3=0、Sim=0.3
話者D:S1=0.1、S2=0.1、S3=0、Sim=0.2
話者E:S1=0.2、S2=0.3、S3=1、Sim=0.6
話者F:S1=0.1、S2=0.1、S3=0、Sim=0.2
となり、Vmax=話者Bが出力される。
なお図5のフローではSimが最大となる話者が1名だけ出力されるが、例えばSimの降順にN人の話者を候補として評価部104が出力してもよい。
候補提示部106は、評価部104の処理結果を受け入力文章を読み上げるのに適していると評価された話者をユーザに提示する。この時、話者名だけでなく、当該話者の音声属性を参照して性別、年齢層、タイプなどの情報を併せて提示してもよい。
さらに候補提示部106はユーザからの入力文章と評価部104が出力した話者名を音声合成部107に送る。音声合成部107は、音声辞書記憶部108に記憶された音声辞書のうち、入力された話者名に該当する話者の音声辞書を参照して、入力された文章を合成音声で出力する。ここでは話者Bの音声辞書でユーザが入力した文章が読上げられることになる。なお入力された文章が予め設定された文章長よりも長い場合には、音声合成部107は入力された文章の一部分だけを読み上げてもよい。
候補提示部106と音声合成部107の出力を確認したユーザは、提示された話者を選択するか否かを選択受理部109を通じて入力する。ユーザが話者を選択した場合には、選択受理部109はユーザが話者を選択したことを結果出力部110に伝える。結果出力部110は、選択された話者の情報を出力すると共に、音声合成部107に対して当該話者の音声辞書でユーザが入力した文章を読み上げるよう指示し、音声合成部107が合成音声を出力する。
ユーザが候補提示部106が提示した話者を選択しなかった場合には、選択受理部109が当該話者が選択されなかったことを評価部104に伝える。評価部104は、当該話者以外の話者の音声属性について再び同様の評価を行い、次の候補となる話者を候補提示部106に出力する。候補提示部106が出力した話者が選択されるまでこの処理が繰り返される。
なお評価部104がSimの降順にN人の候補を出力する場合には、候補提示部106がこれらの候補を列挙して表示し、選択受理部109がN人の候補の中からユーザが選択した候補を受理するように動作してもよい。この場合、音声合成部107はN人の候補の音声辞書で一度に読上げを行うのではなく、提示された候補と音声の対応づけがわかるように候補提示部106が表示を制御しながら順に読上げたり、候補提示部106がユーザからの指示を受けて指定された話者の音声辞書で読上げを行うよう音声合成部107を制御したりしてもよい。
以上に示した本実施形態の音声選択支援装置1にあっては、スタイル、及び形式において、入力されたテキストの解析が自動で行われ、テキストの解析による評価結果と近い音声属性を有する話者が選択されて利用者に対して提示される。したがって、利用者が自らの判断で、検索を行う必要がなく、容易に適した話者を選択することができるようになる。
なお、第1の実施形態ではユーザが入力した文章を音声合成で読み上げるのに相応しい話者を提示する例を示したが、その変形例1として、入力した文書を読み上げるのに相応しくない話者が選択されにくくなるように制御することも考えられる。このような変形例について図6で示した音声属性の例に基づいて説明する。
図6の601は、性別=女性、年齢層=若者、タイプ=萌え、である話者Dがスタイル=読上げ(である)の文章で選択されないようにする例である。具体的には、スタイル=読上げ(である)の値を「−100」に設定し、スタイル=読上げ(である)の文章に対して評価部104の処理においてスタイル類似度S1が負の値になるようにすることで選択されにくくしている。この時、読上げ(である)以外のスタイルの値については、読上げ(である)以外のスタイルの値だけで合計値が100になるよう正規化している。
また図6の602は、性別=男性、年齢層=若者、タイプ=クール、である話者Fが「俺」という語を含む文章で選択されにくくする例である。「特徴」に列挙される単語リストの中に、「−」を冒頭に付けて「俺」という単語を記載している。
評価部104が、冒頭に「−」が付加されている語句が入力文章に含まれる場合に特徴類似度S3の値を小さくする、あるいは、負にするなどの制御を行うことで、当該語句が含まれる入力文章に対して当該話者が選択されにくくなるよう制御できる。
さらには相応しくない話者を選択されにくくするだけでなく、候補として全く提示されないよう評価部104が制御してもよい。
この変形例1により、例えば年齢制限が求められたり公序良俗に反したりする文章や、イメージに合わない文章の読み上げに自身の音声辞書が使われないよう話者自身が制御することもできる。
また、第1の実施形態の別の変形例として、ユーザが入力した文章と選択した話者の情報を用いて音声属性記憶部105に記憶された音声情報を更新することができるようにすることもできる。図7は、この変形例における音声選択支援装置1aの機能構成を示す図である。図7に示されるように、図1の構成に加え、音声選択支援装置1aは、選択履歴記憶部701と音声属性更新部702とを新たに備える。選択履歴記憶部701は結果出力部110から選択結果及び入力文章を選択履歴として受け取り記憶する。音声属性更新部702は、選択履歴記憶部701に記憶された選択履歴に基づいて音声属性を更新する。
図8に、結果出力部110から出力され選択履歴記憶部701に記憶される選択履歴の例を示す。図8の選択履歴は、選択受理部109が受理したユーザの選択結果である話者名、ユーザが入力した文章から解析部102が求めたスタイルと形式の各属性の正規化された重み、ユーザが入力した文章を解析部102が形態素解析した解析結果に含まれる普通名詞を結果出力部110が抽出して列挙したキーワード、から構成される。例えば図8の801は第1の実施形態において説明した具体例に対応する選択履歴である。
ここで、キーワードとしてユーザが入力した文章を解析部102が形態素解析した解析結果に含まれる普通名詞のみを考えたが、固有名詞や動詞、形容詞など他の品詞の単語を含めてもよい。
またユーザが入力した文章が例えば小説全体など長い文章群であることも考えられるため、ユーザが入力した文章に含まれる全ての語句ではなく、出現頻度等の統計量によって優先順位を付けて一定個数以下の単語のみをキーワードとして選択履歴に含めるなどしてもよい。
次に、音声属性更新部702が図9のフローチャートに従って音声属性記憶部105に記憶された音声属性を更新する。まず、音声属性更新部702は、選択履歴を選択結果(話者)毎にまとめる(ステップS901)。例えば図8の801と802は選択結果がいずれも話者Bであるのでまとめられる。次いで、音声属性更新部702は、話者毎に各属性の平均値を求める(ステップS902)。例えば図8の話者Bについては、読上げ(ですます)の値が80、読上げ(である)の値が5、会話(フォーマル)の値が15、会話(フランク)の値が0、小説の値が65、学習書の値が0、メールの値が5、会話の値が10、アナウンスの値が20、となる。
またキーワードもたし合わせる。例えば図8の話者Bについてはキーワードが「混雑、書店、奥、見覚え、本、本日、来店、案内、…」となる。そして、音声属性更新部702は、話者毎に音声属性を更新する(ステップS903)。音声属性記憶部105からS901でまとめた話者の音声属性を取り出し、各属性の値にS902で求めた平均値にパラメータδを乗じて加算する。例えばパラメータδ=0.1とすると、図2で話者Bに対応する203は、読上げ(ですます)の値が48、読上げ(である)の値が10.5、会話(フォーマル)の値が31.5、会話(フランク)の値が10、小説の値が36.5、学習書の値が0、メールの値が10.5、会話の値が21、アナウンスの値が42、となる。さらに、音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が100になるように正規化する。
なお、ここでは説明のためパラメータδの値を仮に設定したが、パラメータδの値は選択履歴をどの程度音声属性に反映するかを調整する値であり、δ=0.1よりさらに小さい値に設定することが考えられる。またパラメータδは定数である必要はなく、例えば選択履歴の数などの関数であってもよい。次に、音声属性の「特徴」にS902で足し合わせた選択履歴の「キーワード」を追加する。
音声属性の更新後、評価部104が音声属性記憶部105を参照して評価を実行することで、話者の候補の選択に選択履歴が反映されることになる。この時、選択履歴記憶部701が選択履歴をユーザ毎に個別に管理し、音声属性更新部702もユーザ毎の個別の選択履歴に基づいて音声属性を個別に更新し、音声属性記憶部105も更新された音声属性をユーザ毎に個別に管理すると、個々のユーザの話者選択の傾向(好み)が評価部104の評価に反映されることになる。
一方、選択履歴記憶部701が全てのユーザの選択履歴をまとめて管理する場合には、ユーザ群全体の話者選択の傾向が評価部104の評価に反映されることになり、評価部104による評価の精度が向上することが期待できる。
また本変形例では音声属性更新部702が音声属性記憶部105に記憶された音声属性を更新する構成としたが、例えば音声属性記憶部105に記憶された音声属性を更新することはせず、評価部104が評価を実行する際に選択履歴記憶部701に記憶された選択履歴を参照することで、選択履歴を反映した評価を行う、という構成によって変形例と同様の動作を実現してもよい。
以上の各実施形態の音声選択装置1は、図10に示されるように例えばCPU10などの制御装置と、ROM11(Read Only Memory)やRAM12などの記憶装置と、HDD13、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置14と、キーボードやマウスなどの入力装置15を備えており、通常のコンピュータを利用したハードウェア構成となっている。
以上の各実施形態の音声選択装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、以上の各実施形態のプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、以上の各実施形態の音声選択装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、以上の各実施形態のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
また、以上の各実施形態の音声選択装置はで実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (6)

  1. テキストの入力を受ける受理部と、
    入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、
    前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
    音声辞書ごとの音声属性を記憶する属性記憶手段と、
    前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
    前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する提示手段と、
    を備えることを特徴とする音声選択支援装置。
  2. 前記音声辞書を記憶する辞書記憶手段と、
    利用者からの指示に基づいて、提示された前記音声辞書の候補の前記音声辞書を用いて、入力テキストの全部、又は一部を音声化して利用者に提示する音声合成部と、
    利用者による前記音声辞書の選択指示を受け付ける選択受理部と、
    選択結果を出力する結果出力部と、
    を更に備えることを特徴とする請求項1に記載の音声選択支援装置。
  3. 前記音声属性記憶部は、前記音声辞書の前記音声属性を、当該音声辞書を所定の前記特徴を有する前記テキストに対して、前記類似度が低くなる態様で記憶する
    ことを特徴とする請求項1、又は2に記載の音声選択支援装置。
  4. 前記結果出力部から受け取った前記選択結果、及び前記テキストを選択履歴として記憶する履歴記憶手段と、
    前記履歴記憶手段に記憶された前記選択履歴に基づいて前記音声辞書の音声属性を更新する更新手段と、
    を更に備えることを特徴とする請求項2に記載の音声選択支援装置。
  5. 受理部がテキストの入力を受けるステップと、
    解析部が入力された前記テキストの特徴分析に用いられるテキスト解析知識を参照して前記テキストの特徴を分析するステップと、
    評価部が、音声辞書の音声属性と前記テキストの特徴との類似度を評価するステップと、
    候補提示部が前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示するステップと、
    を含むことを特徴とする音声選択方法。
  6. コンピュータを
    テキストの入力を受ける受理部と、
    入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶するテキスト
    解析知識記憶手段と、
    前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
    音声辞書ごとの音声属性を記憶する音声属性記憶部と、
    前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
    前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、
    として実行させるためのプログラム。
JP2015537534A 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム Active JP6320397B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/075581 WO2015040751A1 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017044979A Division JP2017122928A (ja) 2017-03-09 2017-03-09 音声選択支援装置、音声選択方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2015040751A1 true JPWO2015040751A1 (ja) 2017-03-02
JP6320397B2 JP6320397B2 (ja) 2018-05-09

Family

ID=52688432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015537534A Active JP6320397B2 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム

Country Status (4)

Country Link
US (1) US9812119B2 (ja)
JP (1) JP6320397B2 (ja)
CN (1) CN105531757B (ja)
WO (1) WO2015040751A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017122928A (ja) * 2017-03-09 2017-07-13 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
US10453456B2 (en) * 2017-10-03 2019-10-22 Google Llc Tailoring an interactive dialog application based on creator provided content
US10417328B2 (en) * 2018-01-05 2019-09-17 Searchmetrics Gmbh Text quality evaluation methods and processes
WO2020031292A1 (ja) * 2018-08-08 2020-02-13 株式会社ウフル 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム
CN111916065A (zh) * 2020-08-05 2020-11-10 北京百度网讯科技有限公司 用于处理语音的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247696A (ja) * 1989-03-20 1990-10-03 Ricoh Co Ltd テキスト音声合成装置
JP2004362419A (ja) * 2003-06-06 2004-12-24 Matsushita Electric Ind Co Ltd 情報処理装置および方法
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013080362A (ja) * 2011-10-04 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> 対話型情報発信装置、対話型情報発信方法、及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000214874A (ja) * 1999-01-26 2000-08-04 Canon Inc 音声合成装置及びその方法、コンピュ―タ可読メモリ
US6751593B2 (en) * 2000-06-30 2004-06-15 Fujitsu Limited Data processing system with block attribute-based vocalization mechanism
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
CN100517463C (zh) * 2004-11-01 2009-07-22 英业达股份有限公司 语音合成系统以及方法
CN101000765B (zh) * 2007-01-09 2011-03-30 黑龙江大学 基于韵律特征的语音合成方法
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
JP4840476B2 (ja) * 2009-06-23 2011-12-21 セイコーエプソン株式会社 音声データ作成装置および音声データ作成方法
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
JP2013072957A (ja) 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247696A (ja) * 1989-03-20 1990-10-03 Ricoh Co Ltd テキスト音声合成装置
JP2004362419A (ja) * 2003-06-06 2004-12-24 Matsushita Electric Ind Co Ltd 情報処理装置および方法
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013080362A (ja) * 2011-10-04 2013-05-02 Nippon Telegr & Teleph Corp <Ntt> 対話型情報発信装置、対話型情報発信方法、及びプログラム

Also Published As

Publication number Publication date
CN105531757A (zh) 2016-04-27
WO2015040751A1 (ja) 2015-03-26
JP6320397B2 (ja) 2018-05-09
US9812119B2 (en) 2017-11-07
US20160189704A1 (en) 2016-06-30
CN105531757B (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
US11823678B2 (en) Proactive command framework
JP4263181B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
US9548052B2 (en) Ebook interaction using speech recognition
JP6320397B2 (ja) 音声選択支援装置、音声選択方法、およびプログラム
US20130080160A1 (en) Document reading-out support apparatus and method
WO2018200268A1 (en) Automatic song generation
JPWO2008016102A1 (ja) 類似度計算装置及び情報検索装置
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP5221768B2 (ja) 翻訳装置、及びプログラム
JP2013083897A (ja) 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法
JP2010048953A (ja) 対話文生成装置
JP2018190077A (ja) 発話生成装置、発話生成方法及び発話生成プログラム
WO2003085550A1 (en) Conversation control system and conversation control method
JP2007102104A (ja) 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2015219582A (ja) 対話方法、対話装置、対話プログラム及び記録媒体
JP6260208B2 (ja) テキスト要約装置
Otake et al. Lexical selection in action: Evidence from spontaneous punning
JP2017122928A (ja) 音声選択支援装置、音声選択方法、およびプログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2019203998A (ja) 会話装置、ロボット、会話装置制御方法及びプログラム
JP2014109998A (ja) 対話装置及びコンピュータ対話方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180403

R150 Certificate of patent or registration of utility model

Ref document number: 6320397

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150