JPWO2009050809A1

JPWO2009050809A1 - 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体

Info

Publication number: JPWO2009050809A1
Application number: JP2009537818A
Authority: JP
Inventors: 正太郎依田
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2007-10-18
Filing date: 2007-10-18
Publication date: 2011-02-24
Also published as: WO2009050809A1

Abstract

音声出力装置であって、第１の感情特性決定手段は、コンテンツの主語または対主語に対する感情特性を決定する。そして、関連性決定手段は、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する。そして、第２の感情特性決定手段は、第１の感情特性決定手段により決定した感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する。そして、音声特性決定手段は、第２の感情特性決定手段により決定した感情特性から音声特性を決定する。これにより、音声出力装置は、音声の感情表現を適切に調整することができる。

Description

本発明は、音声の感情表現を適切に調整し、音声出力を行う手法に関する。

従来、音声合成を使ったサービスとして、コールセンターなどの電話応答、電子辞書の単語や説明文の読み上げ、ナビゲーションにおける音声案内などが挙げられる。これに対し、話者の発話の意味内容と話者の感情状態によって、出力する音声を調整することで、バリエーションに富んだ対話を実現する音声出力装置がある（例えば、特許文献１参照）。

特開２００４−０２１１２１号公報

しかし、上記のような音声出力装置では、情報を伝える人の意図や感情や個性、または情報を聞く人の考えや感情や個性等といった感情表現に影響を与える各要素を限定的にしか考慮していないという問題点がある。また、放送局のナレータがニュース等の文章（コンテンツ）を放送する場合では、情報を伝える人と、文章を作成する著作者とが異なる人物になるため、各々の人物の意図等を考慮する必要がある。

本発明が解決しようとする課題としては、上記のようなものが例として挙げられる。本発明は、様々な情報を音声で伝える局面において、その情報を伝える人、情報を聞く人、そして情報を作成した人の意図や感情や個性を総合して考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整することができる音声出力装置を提供することを可能とする。

請求項１に記載の発明では、音声出力装置は、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備えることを特徴とする。ここで、対主語とは、主語の行為を受ける側の名詞を指す。

請求項６に記載の発明では、音声出力方法は、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定工程と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、前記第１の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定工程と、前記第２の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、を備えることを特徴とする。

請求項７に記載の発明では、コンピュータを備える装置によって実行される音声出力プログラムは、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、として前記コンピュータを機能させることを特徴とする。

音声出力装置の構成を示す図である。音声特性を定義した表を示す図である。固有情報及び固有情報を格納する配列のリストの一例である。感情特性判定で使用するデータベースの一例である。関連性情報を求めるためのフローチャートである。関連性値及び関連性レベルを定義した表を示す図である。語彙関連性情報データベースの一例である。関連性情報の値を決定する際に使用する表の一例である。３者の感情特性を求める際に使用するテーブルの一例である。音声特性を決定するのに使用するテーブルの一例である。音声特性を求めるためのフローチャートである。

符号の説明

１音声出力装置
２０主記憶装置
２２ＣＰＵ
２３ＲＯＭ
２４ＲＡＭ
３６外部記憶装置
３６ａ固有情報メモリ
３６ｂコンテンツメモリ
６０入力装置
７０音声生成装置
７１スピーカ

本発明の１つの観点では、音声出力装置であって、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備える。

上記の音声出力装置は、コンテンツと、著作者の固有情報と、ナレータの固有情報と、リスナーの固有情報と、を保持している。コンテンツは、主に、単文からなる。そして、第１の感情特性決定手段が、コンテンツから主語または対主語若しくはその両方を抽出し、これらに対する感情特性を決定し、関連性決定手段が、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する。第２の感情特性決定手段は、第１の感情特性決定手段により決定した主語及び対主語の感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する。そして、音声特性決定手段が、第２の感情特性決定手段により決定した３者の感情特性から音声特性を決定し、音声出力手段が、音声特性決定手段により決定した音声特性に従い、コンテンツの音声を出力する。

これにより、音声出力装置が情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性等を総合して考慮した上で、音声の感情表現を適切に調整し、音声出力することができる。

上記の音声出力装置の一態様では、前記第１の感情特性決定手段は、述語と前記述語に対応する感情特性とを少なくとも構成要素として有するデータベースを用いることで前記感情特性を決定する。この場合、コンテンツの述語に対応する述語を上記データベースから検索することで、コンテンツの主語または対主語の感情特性を、高速かつ一意に決定することができる。

上記の音声出力装置の他の一態様では、前記関連性決定手段は、登録語彙と関連語彙情報とを少なくとも構成要素として有するデータベースを用いることで前記関連性情報を決定する。

前記関連性情報の好適な例として、前記関連性情報は、関連性の有無に関する情報を表す値と、関連の程度を表す値と、から構成される。

上記の音声出力装置の他の一態様では、前記音声特性決定手段は、指定したシチュエーションごとに決定される音声特性が異なる。これにより、予めコンテンツの著作者の感情を優先させたい場合等において、決定される音声特性を上記場合を考慮した音声特性を決定をすることができる。

本発明の他の観点では、音声出力方法であって、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定工程と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、前記第１の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定工程と、前記第２の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、備える。

この方法によっても、音声出力装置が情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性等を総合して考慮した上で、音声の感情表現を適切に調整し、音声出力することができる。

本発明の更に別の観点では、コンピュータを備える装置によって実行される音声出力プログラムであって、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させる。

このプログラムを、各種装置上で実行することにより、本発明の音声出力装置を実現することができる。なお、この音声出力プログラムは、記録媒体に記録した状態で好適に取り扱うことができる。

以下、図面を参照して本発明の好適な実施例について説明する。

［音声出力装置の構成］
図１に、本実施例における音声出力装置の構成を示す。本実施例では、音声出力装置１は、主記憶装置２０、ＣＰＵ２２、外部記憶装置３６、音声生成装置７０、スピーカ７１及び入力装置６０を備える。そして各装置は、バス３０を介して相互に接続され、各装置間で必要な情報が伝送可能なように構成されている。

ＣＰＵ２２は、主記憶装置２０や外部記憶装置３６にあらかじめ格納されているプログラムによって所定の動作を行う。

主記憶装置２０は、作業エリアとして機能したり、必要なプログラムを格納する機能等を有する。主記憶装置２０は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２４及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２３を有する。そして、例えば作業エリアとしての機能はＲＡＭが行い、必要なプログラムを格納する機能はＲＯＭが行うことができる。

外部記憶装置３６は、音声出力装置１の動作を制御するためのプログラムを保存したり、音声出力装置１の動作に必要な情報を保持したりするためのものである。外部記憶装置３６は、例えば、ハードディスク（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）、半導体ディスク、光ディスク等によって実現できる。本実施例に係る外部記憶装置３６は、固有情報メモリ３６ａと、コンテンツメモリ３６ｂと、を少なくとも有する。固有情報メモリ３６ａは、後述する固有情報についてのデータを格納するためのメモリ領域であり、コンテンツメモリ３６ｂは、音声出力装置１が感情表現の調整及び音声出力を行う対象となる文章（以後、「コンテンツ」と呼ぶ。）のデータを格納するためのメモリ領域である。

音声生成装置７０は、ＣＰＵ２２によって算出された感情表現に関する情報と、コンテンツとをバス３０を通じて取得し、取得した感情表現に合わせコンテンツを生成する。音声生成装置７０は、スピーカ７１に接続されており、スピーカ７１によって音声を出力する。この処理は、ＣＰＵ２２によって実行されるか、または音声生成装置７０が内蔵するＣＰＵによって実行されることが一例として考えられる。

入力装置６０は、装置の管理者等が音声出力装置１に対して必要な命令や情報を入力するための要素である。入力装置６０は、例えばＴＶ受信機で使用されるリモートコントローラや、ＰＣで使用されるキーボード、マウス等によって実現できる。

上記の構成において、ＣＰＵ２２は第１及び第２の感情特性決定手段、関連性決定手段及び音声特性決定手段として機能し、音声生成装置７０及びスピーカ７１は音声出力手段として機能する。

なお、図１に音声出力装置１の構成は一例であり、必ずしも、この通りのものである必要はない。例えば、固有情報メモリ３６ａとコンテンツメモリ３６ｂとが別個の外部記憶装置によって実現されてもよい。

［音声特性の決定方法］
以下で、音声出力装置１がコンテンツに対する感情表現を決定するための音声の特性（以後、「音声特性」と呼ぶ。）の決定方法について具体的に説明する。まず、音声で伝える情報を読み上げる際の、最適な音声特性の要素について定義する。音声特性の要素は、感情種別と感情レベルからなる。図２（ａ）は、感情種別を定義した表の一例を示す。表５０に示すように、感情種別を、嬉しさ１０１、悲しみ１０２、平常１０３、怒り１０４、と分類し、それぞれＡ乃至Ｄの記号を割り当てる。なお、これよりも詳細に感情種別を定義してもよい。これにより詳細に音声特性を定義することが可能である。

図２（ｂ）は、感情レベルを定義した表の一例を示す。表５１に示すように、感情レベルを、強い１０５、やや強い１０６、普通１０７、と分類し、それぞれ２乃至０の数値を割り当てる。なお、これよりも詳細に感情レベルを定義してもよい。これにより、詳細に音声特性を定義することが可能である。

次に、思考、感情の元になる固有の情報（以後、「固有情報」と呼ぶ。）について定義する。固有情報は、音声特性を求める際に使用される。固有情報は、コンテンツの著作者、コンテンツを放送するナレータ、コンテンツの放送を聴く人または組織であるリスナー、に対してそれぞれ設定される。ここで、ナレータとは、地上波放送、衛星放送、インタネットなどを使用する放送局、またはそれらの番組の司会者、アナウンサー、パーソナリティ、出演者、音声ガイド装置（公共施設での案内装置、電話応対センターの案内装置、ナビゲーション装置を含む）等であり、リスナーとは、各放送メディアが発信する情報を受信、再生できる装置を使って、情報を視聴する視聴者等である。

図３に、固有情報及び固有情報を格納するための配列のリストの一例を示す。図３の項目１１５は、音声特性を決定する因子に関係する項目から構成される。配列１１６は、項目１１５の各項目ごとに対応する、コンテンツの著作者、ナレータ及びリスナー（以後、「３者」と呼ぶ。）が有する情報を格納するための配列である。そして、固有情報は、３者の各々に対し、配列１１６に格納される値の全体を指す。即ち、配列１１６は、３者の各々に対して用意され、３者の各々に対して固有情報が１つ定まる。

例えば、リスナーに対し、固有情報を設定する場合、リスナーが技術営業及び設計部門のマネージャーである場合には、項目１１５の最初の項目に対応する配列ａに、“技術営業”、“設計”、“マネージャー”が格納される。このように、項目１１５の全ての項目に対し、固有情報を求めたい対象者の情報を抽出し、配列１１６に格納する。なお、図３に列挙される項目１１５の各項目は一例であり、これらの項目に限定されるものではない。

次に、コンテンツの内容が、主語または主語の行為を受ける側（以後、「対主語」と呼ぶ。）にとって、どのような感情結果をもたらすものかの判定（以後、「感情特性判定」と呼ぶ。）を行う方法について述べる。まず、コンテンツを、主語、主語の修飾部、述語、述語の修飾部、目的語、目的語の修飾部、に分解する。この分解は、一般的な形態素解析手法により行うことができる。そして、抽出された述語から、主語に対する感情種別及び感情レベル、対主語に対する感情種別及び感情レベル、を割り当てる。

この割り当ては、例えばあらかじめデータベースを作成し、それを用いることによって行うことができる。図４に、主語に対する上述したデータベースの一例を示す。データベース５４は、主に動詞からなる述語１１７と、感情種別１１８と、感情レベル１１９と、から構成される。データベース５４から、コンテンツから分けられた述語により、感情種別１１８と、感情レベル１１９とを取得することができる。例えば、コンテンツが“ＡＡジャイアンツはＢＢドラゴンズに５−０で快勝しました。”という文（以後、「代表例文」と呼ぶ。）である場合、主語は“ＡＡジャイアンツ”、述語は“快勝しました”、対主語は“ＢＢドラゴンズ”と分けられる。次に、述語中の動詞である“快勝する”を検索キーとしてデータベース５４の述語１１７から検索することで、当該述語に対応する感情種別１１８は「Ａ」、感情レベル１１９は「２」と求めることができる。以後、上記感情種別１１８及び感情レベル１１９を並べた値を「感情特性」と定義する。

対主語に対する感情特性、即ち感情種別及び感情レベルの算出も、主語の場合と同様に、あらかじめデータベースを用意することで求めることができる。即ち、データベース５４と同一形式のデータベースを対主語用に作成し、このデータベースから、コンテンツから抽出した述語を検索することにより、感情種別１１８と、感情レベル１１９とを取得することができる。

なお、主語及び対主語をコンテンツから抽出する方法をいくつか用意し、複雑なコンテンツの場合にこれらの方法を適宜切り替えてもよい。この場合、予めコンテンツの種類を判別しておき、上記コンテンツの種類の情報を、事前にコンテンツの付加情報としてコンテンツのデータとともにコンテンツメモリ３６ｂに格納し、この付加情報に基づき上記方法を切り替えることが考えられる。

また、ＣＰＵ２２や主記憶装置２０の処理負荷を軽減するため、主語または対主語のいずれか一方の感情特性のみをＣＰＵ２２が算出し、以後の処理を進めてもよい。

次に、３者の各固有情報と、コンテンツの主語と、の関連性の有無を数値化した値（以後、「関連性値」と呼ぶ。）及びその関連性の程度（以後、「関連性レベル」と呼ぶ。）を求める方法について説明する。以後、関連値及び関連性レベルを合わせて「関連性情報」と定義する。

３者の各固有情報とコンテンツの主語との関連性情報を求めるには、配列に格納された固有情報の個々の情報（以後、「キーワード」と呼ぶ。）と、コンテンツの主語と、の関連性情報を求め、全てのキーワードに対する後者の関連性情報から前者の関連性情報を求める。後者の関連性情報を求めるためのキーワードの選択方法については、配列に格納された全てのキーワード（例えば、図３に示す配列１１６の配列ａ乃至ｏ）を配列ａに格納されたキーワードから順に選択することが一例として考えられる。なお、使用する固有情報を限定できる場合は、その固有情報に対応するキーワードを優先的に選択する。例えば、コンテンツがスポーツ記事等である場合は、図３に示す配列１１６の配列ｇに格納されたキーワードのみを選択することで、処理の高速化が実現できる。

キーワードとコンテンツの主語との関連性情報を求める手順を示したフローチャートを図５に示す。上記フローチャートは、キーワードに対して行う処理のアルゴリズムである。なお、図５のフローチャートに示した処理を実現するところのプログラムは、ＲＯＭ２３に記憶されており、ＲＡＭ２４に展開されてＣＰＵ２２によって実行されるものである。

まず、ＣＰＵ２２は、コンテンツの主語と、キーワードとを上記プログラムに入力する（ステップＳ１）。ここで、「ＭｓＫｙｗ」は、コンテンツの主語を表す。「ＳｌＫｙｗ」は、キーワードを表す。

次に、ＣＰＵ２２は、ＭｓｋｙｗとＳｌｋｙｗとが等しいか判定する（ステップＳ２）。そして、等しい場合（ステップＳ２：Ｙｅｓ）は、ＣＰＵ２２は、関連性値と関連性レベルとを出力し、上記プログラムを終了する（ステップＳ３）。ここで関連性値は、登録語彙と関連語彙との関係が「間接的」であれば「０」、「直接的」であれば「１」、「無関係」であれば「−１」とする。関連性レベルは、関連性が強いほどその数値を大きく設定し、かつ関連性が一番強い場合、即ち同一の語彙である場合を０と設定することにする。以上の説明をまとめた表を図６に示す。また、関連性値が「無関係」、即ち「−１」の場合、関連性レベルの値が問題となるが、ここでは、便宜上、関連性値が「−１」の場合に関連性レベルを自動的に「１」と設定することにする。以上により、ステップＳ３では、コンテンツの主語とキーワードが等しいため、主語とキーワードとが直接的な関連性があり、かつその関連性が強いと判断し、図６に従い関連性値を１、関連性レベルを０と出力する。

一方、ＭｓｋｙｗとＳｌｋｙｗとが等しくなかった場合（ステップＳ２：Ｎｏ）、ＣＰＵ２２は、Ｍｓｋｙｗを、後述するデータベースに格納される登録語彙の中から検索する（ステップＳ４）。ここで、上述のデータベースは、特定の語彙と、その語彙と関連のある語彙の情報と、で構成されるデータベース（以後、「語彙関連性情報データベース」と呼ぶ。）である。登録語彙とは、語彙関連性情報データベースに登録されている、上述した特定の語彙、をいう。

図７に、語彙関連性情報データベースの一例を示す。語彙関連性情報データベース５５は、オフセット１２０、登録語彙１２１、及び複数の関連語彙情報１２２、から構成される。オフセット１２０は、各登録語彙のデータベース上の位置を表すための番号である。登録語彙１２１は、主に名詞からなり、コンテンツ中に使用される可能性がある単語をなるべく網羅するように登録されている。関連語彙情報１２２は、登録語彙と関連がある他の登録語彙（以後、「関連語彙」と呼ぶ。）の情報を表す。上記情報は、関連語彙と、登録語彙と関連語彙との関連性情報と、から構成される。

関連性情報、即ち、関連性値及び関連性レベルの設定方法の一例について図８を用いて説明する。図８は、登録語彙同士の関係を階層化した表の一例を示す。表５６は、“スポーツ”を最上位概念として、表の右の行に向かって下位概念を配置している。この表５６を参照することで、関連性値及び関連性レベルを決定できる。例えば表５６において、同一の上位概念を有するものの、両登録語彙が直接に上位概念、下位概念の関係にあたらなければ、関連性値を「間接的」を表す「０」と決定する。例として、“プロ野球”と“メジャーリーグ”とは、表５６において、“野球”という共通の上位概念を有するが、両者が直接に、上位概念、下位概念の関係にはあたらないので、関連性値を「０」と決定する。一方、登録語彙同士が、互いに上位概念と下位概念との関係にある場合は、「直接的」を表す「１」と決定できる。よって“プロ野球”と“ＡＡジャイアンツ”とは、直接に、上位概念、下位概念の関係にあるので、関連性値を「１」と決定できる。また、関連性レベルについては、表での横の階層が離れた分だけ関連性レベルの数値を０から１ずつ減算することで決定することができる。

上述の方法で関連性値及び関連性レベルを設定する例として、主語“野球”と、これに対する固有情報のキーワード“ＡＡジャイアンツ”と、の関連性値及び関連性レベルを求める場合、表５６より、“ＡＡジャイアンツ”は“野球”に含まれ、かつ階層が２つ違うため、関連性値が「１」、関連性レベルが「−２」と決定することができる。また、主語“メジャーリーグ”と、これに対する固有情報のキーワード“ＡＡジャイアンツ”と、の関連性値及び関連性レベルを求める場合、表５６より、“ＡＡジャイアンツ”は“メジャーリーグ”と、“野球”という共通の上位概念を有するが、両者が直接に上位概念、下位概念の関係に当たらず、かつ階層が１つ違うため、関連性値が「０」、関連性レベルが「−１」と決定することができる。そしてこのように、全ての関連語彙に対し、対応する登録語彙との関連性値と関連性レベルとを設定し、データベース５５に格納しておく。図７のデータベース５５に示すように、登録語彙“ＡＡジャイアンツ”の関連語彙情報の１つである“野球”の欄には、関連語彙と、カッコで囲まれた関連性値及び関連性レベルの組である関連性情報と、が表示されている。なお、関連性情報は、カッコ内の左の値が関連性値を表し、カッコ内の右の値が関連性レベルを表す。

そして、Ｍｓｋｙｗをデータベース５５の全ての登録語彙の中から検索した結果、登録語彙中にＭｓｋｙｗが存在した場合（ステップＳ５：Ｙｅｓ）、ＣＰＵ２２は該当した登録語彙の関連語彙の中に、ＳｌＫｙｗと一致する関連語彙がないか検索する（ステップＳ６）。一方、Ｍｓｋｙｗを全ての登録語彙の中から検索した結果、登録語彙中にＭｓｋｙｗが存在しなかった場合（ステップＳ５：Ｎｏ）、検索エラーとなる。よって、エラー処理の一例として、ＣＰＵ２２は関連性値を「−１」、関連性レベルを「１」と出力し、プログラムを終了する（ステップＳ７）。

次に、ステップＳ６で全ての関連語彙の中に、ＳｌＫｙｗと一致する関連語彙がないか検索した結果、上記関連語彙が存在しない場合（ステップＳ８：Ｎｏ）、ＣＰＵ２２は関連性を「−１」、関連性レベルを「１」と出力し、プログラムを終了する（ステップＳ９）。一方、上記関連語彙が存在した場合（ステップＳ８：Ｙｅｓ）、その関連語彙とともに関連語彙情報としてデータベース５５に格納されている関連性値及び関連性レベルが出力され、プログラムは終了する。

そして、ＣＰＵ２２は、上記プログラムを、コンテンツの主語と、全てのキーワードと、に対して行い、最終的に主語の関連性値及び関連性レベルを決定する。最終的な関連性値及び関連性レベルの決定方法は、例えば、全てのキーワードに対する関連性値及び関連性レベルの結果のうち、関連性レベルが高いものを選択することが考えられる。または、関連性値が高いものを優先的に選択してもよい。なお、固有情報のキーワードの全てに対し関連性値及び関連性レベルを求めず、一部の固有情報、例えば図３の項目１１５のうち、趣味等の項目のみに対応するキーワードに限定して求めてもよい。これにより、処理を高速化することができる。

次に、感情特性判定で求めた、感情種別及び感情レベルから構成される感情特性と、データベース５５を用いて求めた関連性及び関連性レベルと、から、著作者、ナレータ、リスナーのそれぞれの感情特性を求める方法について述べる。

図９に、３者それぞれの感情特性を求めるためのテーブルの一例を示す。テーブル５７は、破線枠１３０内に位置する値が、主語または対主語の感情特性を表し、破線枠１３１内に位置する値等は、関連性値及び関連性レベルを表す。なお、表中に表記されている“レベル”は関連性レベルを表す。そして、破線枠１３２内に位置する値が、３者の各感情特性である。そして、テーブル５７から、３者の各感情特性を求める場合は、参照する行を関連性値及び関連性レベルによって決定し、参照する列を主語または対主語の感情特性によって決定することによって、求めることができる。例えば、代表例文において、コンテンツの主語の感情特性が「Ａ２」であり、著作者の固有情報と主語との関連性情報が（１、−２）であった場合、ＣＰＵ２２は、テーブル５７から著作者の感情特性を、破線枠１３２内の１列目かつ２行目に該当する「Ａ１」と求めることができる。

次にテーブル５７から求めた上記３者の感情特性から最終的なナレータの感情特性（以後、「音声特性」と呼ぶ。）を求める方法について述べる。図１０に、３者の各感情特性から最終的なナレータの音声特性を求めるためのテーブルの一例を示す。テーブル５８は、著作者感情特性１４０、ナレータ感情特性１４１、リスナー感情特性１４２の値、即ち、破線枠１４５内の値と、シチュエーション１４３を定めることで、最終的な音声特性の値、即ち、破線枠１４７内の値を求めるものである。シチュエーション１４３とは、番組の性格上、著作者の感情特性を採用した方が良い場合、著作者の感情特性を採用する場合、番組の性格上、ナレータの個性を優先する場合、等のナレータがコンテンツを発声する際のシチュエーションをいう。音声出力装置１の管理者または使用者等（以後、「ユーザ」と呼ぶ。）は、上記シチュエーションに応じてどの感情特性を優先するかを決定しておくことができる。したがって、ユーザは、適切なシチュエーション１４３を選択することで、状況に応じた適切な音声特性を求めることができる。

［音声特性を求める処理フロー］
次に、図１１に示すフローチャートを用いて音声特性を求める処理の手順について説明する。なお、図１１のフローチャートに示した処理を実現するところのプログラムは、ＲＯＭ２３に記憶されており、ＲＡＭ２４に展開されてＣＰＵ２２によって実行されるものである。

まず、ユーザは、著作者、ナレータ、リスナーそれぞれの固有情報を登録する（ステップＳ１０１）。よって、代表例文である“ＡＡジャイアンツはＢＢドラゴンズに５−０で快勝しました。”においては、ユーザは、代表例文の著作者、代表例文を読み上げるナレータ、及び代表例文を聞くリスナーそれぞれの固有情報を登録する。

なお、上記登録の作業は、音声出力装置１に対しあらかじめ行っておいてもよい。この場合、ユーザは著作者またはナレータ若しくはリスナーの対象となりえる人物の固有情報をあらかじめ外部記憶装置３６等に登録しておく。そして、ユーザは、再生するコンテンツに付加データとして、３者各々に対応する固有情報の保存場所を示すデータを、コンテンツのデータに付加し、音声出力装置１に入力する。これにより、コンテンツを再生する度に３者の固有情報を入力する、という作業を省くことができる。

次に、ＣＰＵ２２は、コンテンツの分析を行う（ステップＳ１０２）。具体的には、コンテンツから、主語及び対主語を抽出し、コンテンツの述語からこれらに対する感情特性を決定する。代表例においては、主語は、“ＡＡジャイアンツ”、対主語は、“ＢＢドラゴンズ”、述語は“快勝しました”となる。ＣＰＵ２２は、データベース５４に示すような述語と感情特性の要素から構成されるデータベースを用いて、述語を検索キーとして、主語及び対主語の感情特性を求める。例えば、主語の感情特性は、「Ａ２」、対主語の感情特性は「Ｂ２」、のように決定される。なお、処理の高速化のため、ステップＳ１０２で主語または対主語のみに対して感情特性を求め、以後の処理を進めてもよい。

そして、ＣＰＵ２２は、コンテンツに対する関連性を分析し、関連性情報を算出する（ステップＳ１０３）。具体的には、ＣＰＵ２２は、コンテンツの主語または対主語と、３者の各固有情報と、の関連性値及び関連性レベルをそれぞれ求める。このとき、主語と３者の各固有情報との関連性が認められる場合（例えば、関連性値が「−１」以外である場合）には、対主語と３者の各固有情報との関連性情報を求める処理を省略することができる。これにより、処理の高速化を図ることができる。

代表例文においては、ＣＰＵ２２は、主語の“ＡＡジャイアンツ”及び対主語の“ＢＢドラゴンズ”と、コンテンツの著作者、ナレータ、リスナーそれぞれの固有情報とを比較する。例えば、対主語と著作者の固有情報から関連性値及び関連性レベルを決定する場合、対主語“ＡＡジャイアンツ”をデータベース５５のような語彙関連性情報データベースの登録語彙１２１から検索すると、対主語“ＡＡジャイアンツ”にはオフセット１２０の値ｋの行が該当する。次にＣＰＵ２２は、オフセット１２０の値ｋの行の関連語彙情報１２２の関連語彙と、著作者の固有情報の各キーワードと、を比較する。そして、著作者の固有情報のキーワードの１つが“野球”であった場合は、キーワード“野球”にはオフセット１２０の値ｋの行で、かつ関連語彙情報１２２の１列である関連語彙情報１の欄が該当し、関連性値が「１」、関連性レベルが「−２」と決定される。ＣＰＵ２２は“野球”以外のキーワードについても同様に検索を行う。そして、ＣＰＵ２２は、例えば一番関連性レベルが高いキーワードの関連性値及び関連性レベルの組を、著作者と主語との関連性情報とする。よって著作者のキーワードのうち、主語との関連性レベルが一番高いキーワードが“野球”であった場合は、著作者と主語との関連性情報は（１、−２）となる。同様にＣＰＵ２２は著作者と対主語との関連性情報を求め、さらにナレータ及びリスナーについても上述の処理を行う。

次に、ＣＰＵ２２は、ステップＳ１０２及びステップＳ１０３で求めた値から、３者それぞれの感情特性を求める（ステップＳ１０４）。ステップＳ１０３において、３者各々に対し主語に対する関連性値及び関連性レベル、または、対主語に対する関連性値及び関連性レベル、が求まっている。以後、ステップＳ１０３において、主語及び対主語の両方の関連性情報が求めた場合について説明する。まず、ＣＰＵ２２はこれらから３者各々が主語と対主語のどちらと関連が強いかを決定する。この決定方法は、例えば、関連性レベルの数値が大きい方を関連が強いとみなし、関連性レベルが同じであれば、主語の方が関連が強い、と取り決めるなどの方法が考えられる。次に、ＣＰＵ２２は、関連が強い方の関連性値及び関連性レベルと、ステップＳ１０２で求めた主語及び対主語の感情特性のうち、関連が強い方の感情特性と、から３者それぞれの感情特性を求める。なお、ステップＳ１０２及びステップＳ１０３において、主語または対主語の一方のみについて処理した場合についても、ＣＰＵ２２は、求めた関連性値及び関連性レベルと、感情特性と、から３者それぞれの感情特性を求める。

例えば、代表例文における著作者の感情特性を求めるときには、ステップＳ１０４において主語との関連性情報が（１、−２）、対主語との関連性情報が（１、−５）であった場合、ＣＰＵ２２は、主語との関連性が対主語との関連性より強いとみなす。そして、ＣＰＵ２２は、主語との関連性情報と、主語の感情特性と、から例えばテーブル５７を用いて、著作者の感情特性を求める。代表例文では、主語の感情特性が「Ａ２」であり、主語との関連性情報が（１、−２）であるので、ＣＰＵ２２は、テーブル５７から著作者の感情特性を「Ａ１」と求めることができる。同様に、ＣＰＵ２２はナレータ及びリスナーの感情特性についても上述の処理を行うことで決定することができる。

次に、ＣＰＵ２２は、ステップＳ１０４で求めた３者それぞれの感情特性から音声特性を求める（ステップＳ１０５）。この音声特性は、例えば、図１０の表５８によって求めることができる。表５８では、各シチュエーション１４３を正しく設定することで、より正確な音声特性を求めることができる。

代表例文おいて、著作者感情特性が「Ａ１」、ナレータ感情特性が「Ａ２」、リスナー感情特性が「Ｂ２」の場合でかつ、シチュエーション１４３を「著作者の意図、感情を優先する場合」に設定してある場合には、音声特性は、「Ａ１」に決定される。

最後に、ステップＳ１０６において、ＣＰＵ２２はコンテンツと音声特性とを音声生成装置７０へ入力し、再生する。代表例文においては、音声特性が「Ａ１」、即ち感情分類表のうち、嬉しさ１０１表５１のうち、やや強い１０８、と決定しているので、“ＡＡジャイアンツはＢＢ中日ドラゴンズに５−０で快勝しました。”という文を嬉しさをやや強調して音声を出力する。

各音声特性に対するコンテンツの音声については、コンテンツメモリ３６ｂにあらかじめ格納しておき、ステップＳ１０５において出力された音声特性から対応する感情表現を有するコンテンツを取り出して再生するなどの方法が一例として考えられる。これにより、様々な情報を音声で伝える局面において、情報の内容に対して、その情報を伝える人の意図、感情、個性と、情報を聞く側の考え、感情、個性を考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に行うことが可能となる。

以上に述べたように、音声出力装置１は、コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、第１の感情特性決定手段により決定した感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、第２の感情特性決定手段により決定した感情特性から音声特性を決定する音声特性決定手段と、を備える。

これによれば、音声出力装置１は、様々な情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性を総合して考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整し、音声出力することができる。

本発明は、各文章を音声にて出力する音声出力装置に利用することができる。本発明の音声出力装置を用いることで、様々な情報を音声で伝える局面において、その情報を伝える人、情報を聞く人、そして情報を作成した人の意図や感情や個性を総合して考慮した上で、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整し音声出力することができる。

請求項１に記載の発明では、音声出力装置は、所定のコンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者、ナレータ、リスナーの各々に対する感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備えることを特徴とする。ここで、対主語とは、主語の行為を受ける側の名詞を指す。

請求項５に記載の発明では、音声出力方法は、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段を備える音声出力装置が実行する音声出力方法であって、所定のコンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定工程と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定工程と、前記第１の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者、ナレータ、リスナーの各々に対する感情特性を決定する第２の感情特性決定工程と、前記第２の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、を備えることを特徴とする。

請求項６に記載の発明では、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段を備えるコンピュータによって実行される音声出力プログラムであって、所定のコンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定手段と、前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者、ナレータ、リスナーの各々に対する感情特性を決定する第２の感情特性決定手段と、前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させることを特徴とする。

Claims

コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、
コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、
前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、
前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、
前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、
を備えることを特徴とする音声出力装置。
前記第１の感情特性決定手段は、述語と前記述語に対応する感情特性とを少なくとも構成要素として有するデータベースを用いることで前記感情特性を決定することを特徴とする請求項１に記載の音声出力装置。
前記関連性決定手段は、登録語彙と関連語彙情報とを少なくとも構成要素として有するデータベースを用いることで前記関連性情報を決定することを特徴とする請求項１または２に記載の音声出力装置。
前記関連性情報は、関連性の有無に関する情報を表す値と、関連の程度を表す値と、から構成することを特徴とする請求項１乃至３のいずれか一項に記載の音声出力装置。
前記音声特性決定手段は、指定したシチュエーションごとに決定される音声特性が異なることを特徴とする請求項１乃至４のいずれか一項に記載の音声出力装置。
コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定工程と、
コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、
前記第１の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定工程と、
前記第２の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、
前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と
を備えることを特徴とする音声出力方法。
コンピュータを備える装置によって実行される音声出力プログラムであって、
コンテンツの主語または対主語に対する感情特性を決定する第１の感情特性決定手段と、
コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、
前記第１の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第２の感情特性決定手段と、
前記第２の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、
前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させることを特徴とする音声出力プログラム。
請求項７に記載の音声出力プログラムを記憶したことを特徴とする記憶媒体。