JPWO2009050809A1 - 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体 - Google Patents

音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体 Download PDF

Info

Publication number
JPWO2009050809A1
JPWO2009050809A1 JP2009537818A JP2009537818A JPWO2009050809A1 JP WO2009050809 A1 JPWO2009050809 A1 JP WO2009050809A1 JP 2009537818 A JP2009537818 A JP 2009537818A JP 2009537818 A JP2009537818 A JP 2009537818A JP WO2009050809 A1 JPWO2009050809 A1 JP WO2009050809A1
Authority
JP
Japan
Prior art keywords
relevance
characteristic
emotion
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009537818A
Other languages
English (en)
Inventor
正太郎 依田
正太郎 依田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of JPWO2009050809A1 publication Critical patent/JPWO2009050809A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

音声出力装置であって、第1の感情特性決定手段は、コンテンツの主語または対主語に対する感情特性を決定する。そして、関連性決定手段は、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する。そして、第2の感情特性決定手段は、第1の感情特性決定手段により決定した感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する。そして、音声特性決定手段は、第2の感情特性決定手段により決定した感情特性から音声特性を決定する。これにより、音声出力装置は、音声の感情表現を適切に調整することができる。

Description

本発明は、音声の感情表現を適切に調整し、音声出力を行う手法に関する。
従来、音声合成を使ったサービスとして、コールセンターなどの電話応答、電子辞書の単語や説明文の読み上げ、ナビゲーションにおける音声案内などが挙げられる。これに対し、話者の発話の意味内容と話者の感情状態によって、出力する音声を調整することで、バリエーションに富んだ対話を実現する音声出力装置がある(例えば、特許文献1参照)。
特開2004−021121号公報
しかし、上記のような音声出力装置では、情報を伝える人の意図や感情や個性、または情報を聞く人の考えや感情や個性等といった感情表現に影響を与える各要素を限定的にしか考慮していないという問題点がある。また、放送局のナレータがニュース等の文章(コンテンツ)を放送する場合では、情報を伝える人と、文章を作成する著作者とが異なる人物になるため、各々の人物の意図等を考慮する必要がある。
本発明が解決しようとする課題としては、上記のようなものが例として挙げられる。本発明は、様々な情報を音声で伝える局面において、その情報を伝える人、情報を聞く人、そして情報を作成した人の意図や感情や個性を総合して考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整することができる音声出力装置を提供することを可能とする。
請求項1に記載の発明では、音声出力装置は、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備えることを特徴とする。ここで、対主語とは、主語の行為を受ける側の名詞を指す。
請求項6に記載の発明では、音声出力方法は、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定工程と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、前記第1の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定工程と、前記第2の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、を備えることを特徴とする。
請求項7に記載の発明では、コンピュータを備える装置によって実行される音声出力プログラムは、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、として前記コンピュータを機能させることを特徴とする。
音声出力装置の構成を示す図である。 音声特性を定義した表を示す図である。 固有情報及び固有情報を格納する配列のリストの一例である。 感情特性判定で使用するデータベースの一例である。 関連性情報を求めるためのフローチャートである。 関連性値及び関連性レベルを定義した表を示す図である。 語彙関連性情報データベースの一例である。 関連性情報の値を決定する際に使用する表の一例である。 3者の感情特性を求める際に使用するテーブルの一例である。 音声特性を決定するのに使用するテーブルの一例である。 音声特性を求めるためのフローチャートである。
符号の説明
1 音声出力装置
20 主記憶装置
22 CPU
23 ROM
24 RAM
36 外部記憶装置
36a 固有情報メモリ
36b コンテンツメモリ
60 入力装置
70 音声生成装置
71 スピーカ
本発明の1つの観点では、音声出力装置であって、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備える。
上記の音声出力装置は、コンテンツと、著作者の固有情報と、ナレータの固有情報と、リスナーの固有情報と、を保持している。コンテンツは、主に、単文からなる。そして、第1の感情特性決定手段が、コンテンツから主語または対主語若しくはその両方を抽出し、これらに対する感情特性を決定し、関連性決定手段が、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する。第2の感情特性決定手段は、第1の感情特性決定手段により決定した主語及び対主語の感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する。そして、音声特性決定手段が、第2の感情特性決定手段により決定した3者の感情特性から音声特性を決定し、音声出力手段が、音声特性決定手段により決定した音声特性に従い、コンテンツの音声を出力する。
これにより、音声出力装置が情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性等を総合して考慮した上で、音声の感情表現を適切に調整し、音声出力することができる。
上記の音声出力装置の一態様では、前記第1の感情特性決定手段は、述語と前記述語に対応する感情特性とを少なくとも構成要素として有するデータベースを用いることで前記感情特性を決定する。この場合、コンテンツの述語に対応する述語を上記データベースから検索することで、コンテンツの主語または対主語の感情特性を、高速かつ一意に決定することができる。
上記の音声出力装置の他の一態様では、前記関連性決定手段は、登録語彙と関連語彙情報とを少なくとも構成要素として有するデータベースを用いることで前記関連性情報を決定する。
前記関連性情報の好適な例として、前記関連性情報は、関連性の有無に関する情報を表す値と、関連の程度を表す値と、から構成される。
上記の音声出力装置の他の一態様では、前記音声特性決定手段は、指定したシチュエーションごとに決定される音声特性が異なる。これにより、予めコンテンツの著作者の感情を優先させたい場合等において、決定される音声特性を上記場合を考慮した音声特性を決定をすることができる。
本発明の他の観点では、音声出力方法であって、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定工程と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、前記第1の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定工程と、前記第2の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、備える。
この方法によっても、音声出力装置が情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性等を総合して考慮した上で、音声の感情表現を適切に調整し、音声出力することができる。
本発明の更に別の観点では、コンピュータを備える装置によって実行される音声出力プログラムであって、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させる。
このプログラムを、各種装置上で実行することにより、本発明の音声出力装置を実現することができる。なお、この音声出力プログラムは、記録媒体に記録した状態で好適に取り扱うことができる。
以下、図面を参照して本発明の好適な実施例について説明する。
[音声出力装置の構成]
図1に、本実施例における音声出力装置の構成を示す。本実施例では、音声出力装置1は、主記憶装置20、CPU22、外部記憶装置36、音声生成装置70、スピーカ71及び入力装置60を備える。そして各装置は、バス30を介して相互に接続され、各装置間で必要な情報が伝送可能なように構成されている。
CPU22は、主記憶装置20や外部記憶装置36にあらかじめ格納されているプログラムによって所定の動作を行う。
主記憶装置20は、作業エリアとして機能したり、必要なプログラムを格納する機能等を有する。主記憶装置20は、RAM(Random Access Memory)24及びROM(Read Only Memory)23を有する。そして、例えば作業エリアとしての機能はRAMが行い、必要なプログラムを格納する機能はROMが行うことができる。
外部記憶装置36は、音声出力装置1の動作を制御するためのプログラムを保存したり、音声出力装置1の動作に必要な情報を保持したりするためのものである。外部記憶装置36は、例えば、ハードディスク(HDD:Hard Disk Drive)、半導体ディスク、光ディスク等によって実現できる。本実施例に係る外部記憶装置36は、固有情報メモリ36aと、コンテンツメモリ36bと、を少なくとも有する。固有情報メモリ36aは、後述する固有情報についてのデータを格納するためのメモリ領域であり、コンテンツメモリ36bは、音声出力装置1が感情表現の調整及び音声出力を行う対象となる文章(以後、「コンテンツ」と呼ぶ。)のデータを格納するためのメモリ領域である。
音声生成装置70は、CPU22によって算出された感情表現に関する情報と、コンテンツとをバス30を通じて取得し、取得した感情表現に合わせコンテンツを生成する。音声生成装置70は、スピーカ71に接続されており、スピーカ71によって音声を出力する。この処理は、CPU22によって実行されるか、または音声生成装置70が内蔵するCPUによって実行されることが一例として考えられる。
入力装置60は、装置の管理者等が音声出力装置1に対して必要な命令や情報を入力するための要素である。入力装置60は、例えばTV受信機で使用されるリモートコントローラや、PCで使用されるキーボード、マウス等によって実現できる。
上記の構成において、CPU22は第1及び第2の感情特性決定手段、関連性決定手段及び音声特性決定手段として機能し、音声生成装置70及びスピーカ71は音声出力手段として機能する。
なお、図1に音声出力装置1の構成は一例であり、必ずしも、この通りのものである必要はない。例えば、固有情報メモリ36aとコンテンツメモリ36bとが別個の外部記憶装置によって実現されてもよい。
[音声特性の決定方法]
以下で、音声出力装置1がコンテンツに対する感情表現を決定するための音声の特性(以後、「音声特性」と呼ぶ。)の決定方法について具体的に説明する。まず、音声で伝える情報を読み上げる際の、最適な音声特性の要素について定義する。音声特性の要素は、感情種別と感情レベルからなる。図2(a)は、感情種別を定義した表の一例を示す。表50に示すように、感情種別を、嬉しさ101、悲しみ102、平常103、怒り104、と分類し、それぞれA乃至Dの記号を割り当てる。なお、これよりも詳細に感情種別を定義してもよい。これにより詳細に音声特性を定義することが可能である。
図2(b)は、感情レベルを定義した表の一例を示す。表51に示すように、感情レベルを、強い105、やや強い106、普通107、と分類し、それぞれ2乃至0の数値を割り当てる。なお、これよりも詳細に感情レベルを定義してもよい。これにより、詳細に音声特性を定義することが可能である。
次に、思考、感情の元になる固有の情報(以後、「固有情報」と呼ぶ。)について定義する。固有情報は、音声特性を求める際に使用される。固有情報は、コンテンツの著作者、コンテンツを放送するナレータ、コンテンツの放送を聴く人または組織であるリスナー、に対してそれぞれ設定される。ここで、ナレータとは、地上波放送、衛星放送、インタネットなどを使用する放送局、またはそれらの番組の司会者、アナウンサー、パーソナリティ、出演者、音声ガイド装置(公共施設での案内装置、電話応対センターの案内装置、ナビゲーション装置を含む)等であり、リスナーとは、各放送メディアが発信する情報を受信、再生できる装置を使って、情報を視聴する視聴者等である。
図3に、固有情報及び固有情報を格納するための配列のリストの一例を示す。図3の項目115は、音声特性を決定する因子に関係する項目から構成される。配列116は、項目115の各項目ごとに対応する、コンテンツの著作者、ナレータ及びリスナー(以後、「3者」と呼ぶ。)が有する情報を格納するための配列である。そして、固有情報は、3者の各々に対し、配列116に格納される値の全体を指す。即ち、配列116は、3者の各々に対して用意され、3者の各々に対して固有情報が1つ定まる。
例えば、リスナーに対し、固有情報を設定する場合、リスナーが技術営業及び設計部門のマネージャーである場合には、項目115の最初の項目に対応する配列aに、“技術営業”、“設計”、“マネージャー”が格納される。このように、項目115の全ての項目に対し、固有情報を求めたい対象者の情報を抽出し、配列116に格納する。なお、図3に列挙される項目115の各項目は一例であり、これらの項目に限定されるものではない。
次に、コンテンツの内容が、主語または主語の行為を受ける側(以後、「対主語」と呼ぶ。)にとって、どのような感情結果をもたらすものかの判定(以後、「感情特性判定」と呼ぶ。)を行う方法について述べる。まず、コンテンツを、主語、主語の修飾部、述語、述語の修飾部、目的語、目的語の修飾部、に分解する。この分解は、一般的な形態素解析手法により行うことができる。そして、抽出された述語から、主語に対する感情種別及び感情レベル、対主語に対する感情種別及び感情レベル、を割り当てる。
この割り当ては、例えばあらかじめデータベースを作成し、それを用いることによって行うことができる。図4に、主語に対する上述したデータベースの一例を示す。データベース54は、主に動詞からなる述語117と、感情種別118と、感情レベル119と、から構成される。データベース54から、コンテンツから分けられた述語により、感情種別118と、感情レベル119とを取得することができる。例えば、コンテンツが“AAジャイアンツはBBドラゴンズに5−0で快勝しました。”という文(以後、「代表例文」と呼ぶ。)である場合、主語は“AAジャイアンツ”、述語は“快勝しました”、対主語は“BBドラゴンズ”と分けられる。次に、述語中の動詞である“快勝する”を検索キーとしてデータベース54の述語117から検索することで、当該述語に対応する感情種別118は「A」、感情レベル119は「2」と求めることができる。以後、上記感情種別118及び感情レベル119を並べた値を「感情特性」と定義する。
対主語に対する感情特性、即ち感情種別及び感情レベルの算出も、主語の場合と同様に、あらかじめデータベースを用意することで求めることができる。即ち、データベース54と同一形式のデータベースを対主語用に作成し、このデータベースから、コンテンツから抽出した述語を検索することにより、感情種別118と、感情レベル119とを取得することができる。
なお、主語及び対主語をコンテンツから抽出する方法をいくつか用意し、複雑なコンテンツの場合にこれらの方法を適宜切り替えてもよい。この場合、予めコンテンツの種類を判別しておき、上記コンテンツの種類の情報を、事前にコンテンツの付加情報としてコンテンツのデータとともにコンテンツメモリ36bに格納し、この付加情報に基づき上記方法を切り替えることが考えられる。
また、CPU22や主記憶装置20の処理負荷を軽減するため、主語または対主語のいずれか一方の感情特性のみをCPU22が算出し、以後の処理を進めてもよい。
次に、3者の各固有情報と、コンテンツの主語と、の関連性の有無を数値化した値(以後、「関連性値」と呼ぶ。)及びその関連性の程度(以後、「関連性レベル」と呼ぶ。)を求める方法について説明する。以後、関連値及び関連性レベルを合わせて「関連性情報」と定義する。
3者の各固有情報とコンテンツの主語との関連性情報を求めるには、配列に格納された固有情報の個々の情報(以後、「キーワード」と呼ぶ。)と、コンテンツの主語と、の関連性情報を求め、全てのキーワードに対する後者の関連性情報から前者の関連性情報を求める。後者の関連性情報を求めるためのキーワードの選択方法については、配列に格納された全てのキーワード(例えば、図3に示す配列116の配列a乃至o)を配列aに格納されたキーワードから順に選択することが一例として考えられる。なお、使用する固有情報を限定できる場合は、その固有情報に対応するキーワードを優先的に選択する。例えば、コンテンツがスポーツ記事等である場合は、図3に示す配列116の配列gに格納されたキーワードのみを選択することで、処理の高速化が実現できる。
キーワードとコンテンツの主語との関連性情報を求める手順を示したフローチャートを図5に示す。上記フローチャートは、キーワードに対して行う処理のアルゴリズムである。なお、図5のフローチャートに示した処理を実現するところのプログラムは、ROM23に記憶されており、RAM24に展開されてCPU22によって実行されるものである。
まず、CPU22は、コンテンツの主語と、キーワードとを上記プログラムに入力する(ステップS1)。ここで、「MsKyw」は、コンテンツの主語を表す。「SlKyw」は、キーワードを表す。
次に、CPU22は、MskywとSlkywとが等しいか判定する(ステップS2)。そして、等しい場合(ステップS2:Yes)は、CPU22は、関連性値と関連性レベルとを出力し、上記プログラムを終了する(ステップS3)。ここで関連性値は、登録語彙と関連語彙との関係が「間接的」であれば「0」、「直接的」であれば「1」、「無関係」であれば「−1」とする。関連性レベルは、関連性が強いほどその数値を大きく設定し、かつ関連性が一番強い場合、即ち同一の語彙である場合を0と設定することにする。以上の説明をまとめた表を図6に示す。また、関連性値が「無関係」、即ち「−1」の場合、関連性レベルの値が問題となるが、ここでは、便宜上、関連性値が「−1」の場合に関連性レベルを自動的に「1」と設定することにする。以上により、ステップS3では、コンテンツの主語とキーワードが等しいため、主語とキーワードとが直接的な関連性があり、かつその関連性が強いと判断し、図6に従い関連性値を1、関連性レベルを0と出力する。
一方、MskywとSlkywとが等しくなかった場合(ステップS2:No)、CPU22は、Mskywを、後述するデータベースに格納される登録語彙の中から検索する(ステップS4)。ここで、上述のデータベースは、特定の語彙と、その語彙と関連のある語彙の情報と、で構成されるデータベース(以後、「語彙関連性情報データベース」と呼ぶ。)である。登録語彙とは、語彙関連性情報データベースに登録されている、上述した特定の語彙、をいう。
図7に、語彙関連性情報データベースの一例を示す。語彙関連性情報データベース55は、オフセット120、登録語彙121、及び複数の関連語彙情報122、から構成される。オフセット120は、各登録語彙のデータベース上の位置を表すための番号である。登録語彙121は、主に名詞からなり、コンテンツ中に使用される可能性がある単語をなるべく網羅するように登録されている。関連語彙情報122は、登録語彙と関連がある他の登録語彙(以後、「関連語彙」と呼ぶ。)の情報を表す。上記情報は、関連語彙と、登録語彙と関連語彙との関連性情報と、から構成される。
関連性情報、即ち、関連性値及び関連性レベルの設定方法の一例について図8を用いて説明する。図8は、登録語彙同士の関係を階層化した表の一例を示す。表56は、“スポーツ”を最上位概念として、表の右の行に向かって下位概念を配置している。この表56を参照することで、関連性値及び関連性レベルを決定できる。例えば表56において、同一の上位概念を有するものの、両登録語彙が直接に上位概念、下位概念の関係にあたらなければ、関連性値を「間接的」を表す「0」と決定する。例として、“プロ野球”と“メジャーリーグ”とは、表56において、“野球”という共通の上位概念を有するが、両者が直接に、上位概念、下位概念の関係にはあたらないので、関連性値を「0」と決定する。一方、登録語彙同士が、互いに上位概念と下位概念との関係にある場合は、「直接的」を表す「1」と決定できる。よって“プロ野球”と“AAジャイアンツ”とは、直接に、上位概念、下位概念の関係にあるので、関連性値を「1」と決定できる。また、関連性レベルについては、表での横の階層が離れた分だけ関連性レベルの数値を0から1ずつ減算することで決定することができる。
上述の方法で関連性値及び関連性レベルを設定する例として、主語“野球”と、これに対する固有情報のキーワード“AAジャイアンツ”と、の関連性値及び関連性レベルを求める場合、表56より、“AAジャイアンツ”は“野球”に含まれ、かつ階層が2つ違うため、関連性値が「1」、関連性レベルが「−2」と決定することができる。また、主語“メジャーリーグ”と、これに対する固有情報のキーワード“AAジャイアンツ”と、の関連性値及び関連性レベルを求める場合、表56より、“AAジャイアンツ”は“メジャーリーグ”と、“野球”という共通の上位概念を有するが、両者が直接に上位概念、下位概念の関係に当たらず、かつ階層が1つ違うため、関連性値が「0」、関連性レベルが「−1」と決定することができる。そしてこのように、全ての関連語彙に対し、対応する登録語彙との関連性値と関連性レベルとを設定し、データベース55に格納しておく。図7のデータベース55に示すように、登録語彙“AAジャイアンツ”の関連語彙情報の1つである“野球”の欄には、関連語彙と、カッコで囲まれた関連性値及び関連性レベルの組である関連性情報と、が表示されている。なお、関連性情報は、カッコ内の左の値が関連性値を表し、カッコ内の右の値が関連性レベルを表す。
そして、Mskywをデータベース55の全ての登録語彙の中から検索した結果、登録語彙中にMskywが存在した場合(ステップS5:Yes)、CPU22は該当した登録語彙の関連語彙の中に、SlKywと一致する関連語彙がないか検索する(ステップS6)。一方、Mskywを全ての登録語彙の中から検索した結果、登録語彙中にMskywが存在しなかった場合(ステップS5:No)、検索エラーとなる。よって、エラー処理の一例として、CPU22は関連性値を「−1」、関連性レベルを「1」と出力し、プログラムを終了する(ステップS7)。
次に、ステップS6で全ての関連語彙の中に、SlKywと一致する関連語彙がないか検索した結果、上記関連語彙が存在しない場合(ステップS8:No)、CPU22は関連性を「−1」、関連性レベルを「1」と出力し、プログラムを終了する(ステップS9)。一方、上記関連語彙が存在した場合(ステップS8:Yes)、その関連語彙とともに関連語彙情報としてデータベース55に格納されている関連性値及び関連性レベルが出力され、プログラムは終了する。
そして、CPU22は、上記プログラムを、コンテンツの主語と、全てのキーワードと、に対して行い、最終的に主語の関連性値及び関連性レベルを決定する。最終的な関連性値及び関連性レベルの決定方法は、例えば、全てのキーワードに対する関連性値及び関連性レベルの結果のうち、関連性レベルが高いものを選択することが考えられる。または、関連性値が高いものを優先的に選択してもよい。なお、固有情報のキーワードの全てに対し関連性値及び関連性レベルを求めず、一部の固有情報、例えば図3の項目115のうち、趣味等の項目のみに対応するキーワードに限定して求めてもよい。これにより、処理を高速化することができる。
次に、感情特性判定で求めた、感情種別及び感情レベルから構成される感情特性と、データベース55を用いて求めた関連性及び関連性レベルと、から、著作者、ナレータ、リスナーのそれぞれの感情特性を求める方法について述べる。
図9に、3者それぞれの感情特性を求めるためのテーブルの一例を示す。テーブル57は、破線枠130内に位置する値が、主語または対主語の感情特性を表し、破線枠131内に位置する値等は、関連性値及び関連性レベルを表す。なお、表中に表記されている“レベル”は関連性レベルを表す。そして、破線枠132内に位置する値が、3者の各感情特性である。そして、テーブル57から、3者の各感情特性を求める場合は、参照する行を関連性値及び関連性レベルによって決定し、参照する列を主語または対主語の感情特性によって決定することによって、求めることができる。例えば、代表例文において、コンテンツの主語の感情特性が「A2」であり、著作者の固有情報と主語との関連性情報が(1、−2)であった場合、CPU22は、テーブル57から著作者の感情特性を、破線枠132内の1列目かつ2行目に該当する「A1」と求めることができる。
次にテーブル57から求めた上記3者の感情特性から最終的なナレータの感情特性(以後、「音声特性」と呼ぶ。)を求める方法について述べる。図10に、3者の各感情特性から最終的なナレータの音声特性を求めるためのテーブルの一例を示す。テーブル58は、著作者感情特性140、ナレータ感情特性141、リスナー感情特性142の値、即ち、破線枠145内の値と、シチュエーション143を定めることで、最終的な音声特性の値、即ち、破線枠147内の値を求めるものである。シチュエーション143とは、番組の性格上、著作者の感情特性を採用した方が良い場合、著作者の感情特性を採用する場合、番組の性格上、ナレータの個性を優先する場合、等のナレータがコンテンツを発声する際のシチュエーションをいう。音声出力装置1の管理者または使用者等(以後、「ユーザ」と呼ぶ。)は、上記シチュエーションに応じてどの感情特性を優先するかを決定しておくことができる。したがって、ユーザは、適切なシチュエーション143を選択することで、状況に応じた適切な音声特性を求めることができる。
[音声特性を求める処理フロー]
次に、図11に示すフローチャートを用いて音声特性を求める処理の手順について説明する。なお、図11のフローチャートに示した処理を実現するところのプログラムは、ROM23に記憶されており、RAM24に展開されてCPU22によって実行されるものである。
まず、ユーザは、著作者、ナレータ、リスナーそれぞれの固有情報を登録する(ステップS101)。よって、代表例文である“AAジャイアンツはBBドラゴンズに5−0で快勝しました。”においては、ユーザは、代表例文の著作者、代表例文を読み上げるナレータ、及び代表例文を聞くリスナーそれぞれの固有情報を登録する。
なお、上記登録の作業は、音声出力装置1に対しあらかじめ行っておいてもよい。この場合、ユーザは著作者またはナレータ若しくはリスナーの対象となりえる人物の固有情報をあらかじめ外部記憶装置36等に登録しておく。そして、ユーザは、再生するコンテンツに付加データとして、3者各々に対応する固有情報の保存場所を示すデータを、コンテンツのデータに付加し、音声出力装置1に入力する。これにより、コンテンツを再生する度に3者の固有情報を入力する、という作業を省くことができる。
次に、CPU22は、コンテンツの分析を行う(ステップS102)。具体的には、コンテンツから、主語及び対主語を抽出し、コンテンツの述語からこれらに対する感情特性を決定する。代表例においては、主語は、“AAジャイアンツ”、対主語は、“BBドラゴンズ”、述語は“快勝しました”となる。CPU22は、データベース54に示すような述語と感情特性の要素から構成されるデータベースを用いて、述語を検索キーとして、主語及び対主語の感情特性を求める。例えば、主語の感情特性は、「A2」、対主語の感情特性は「B2」、のように決定される。なお、処理の高速化のため、ステップS102で主語または対主語のみに対して感情特性を求め、以後の処理を進めてもよい。
そして、CPU22は、コンテンツに対する関連性を分析し、関連性情報を算出する(ステップS103)。具体的には、CPU22は、コンテンツの主語または対主語と、3者の各固有情報と、の関連性値及び関連性レベルをそれぞれ求める。このとき、主語と3者の各固有情報との関連性が認められる場合(例えば、関連性値が「−1」以外である場合)には、対主語と3者の各固有情報との関連性情報を求める処理を省略することができる。これにより、処理の高速化を図ることができる。
代表例文においては、CPU22は、主語の“AAジャイアンツ”及び対主語の“BBドラゴンズ”と、コンテンツの著作者、ナレータ、リスナーそれぞれの固有情報とを比較する。例えば、対主語と著作者の固有情報から関連性値及び関連性レベルを決定する場合、対主語“AAジャイアンツ”をデータベース55のような語彙関連性情報データベースの登録語彙121から検索すると、対主語“AAジャイアンツ”にはオフセット120の値kの行が該当する。次にCPU22は、オフセット120の値kの行の関連語彙情報122の関連語彙と、著作者の固有情報の各キーワードと、を比較する。そして、著作者の固有情報のキーワードの1つが“野球”であった場合は、キーワード“野球”にはオフセット120の値kの行で、かつ関連語彙情報122の1列である関連語彙情報1の欄が該当し、関連性値が「1」、関連性レベルが「−2」と決定される。CPU22は“野球”以外のキーワードについても同様に検索を行う。そして、CPU22は、例えば一番関連性レベルが高いキーワードの関連性値及び関連性レベルの組を、著作者と主語との関連性情報とする。よって著作者のキーワードのうち、主語との関連性レベルが一番高いキーワードが“野球”であった場合は、著作者と主語との関連性情報は(1、−2)となる。同様にCPU22は著作者と対主語との関連性情報を求め、さらにナレータ及びリスナーについても上述の処理を行う。
次に、CPU22は、ステップS102及びステップS103で求めた値から、3者それぞれの感情特性を求める(ステップS104)。ステップS103において、3者各々に対し主語に対する関連性値及び関連性レベル、または、対主語に対する関連性値及び関連性レベル、が求まっている。以後、ステップS103において、主語及び対主語の両方の関連性情報が求めた場合について説明する。まず、CPU22はこれらから3者各々が主語と対主語のどちらと関連が強いかを決定する。この決定方法は、例えば、関連性レベルの数値が大きい方を関連が強いとみなし、関連性レベルが同じであれば、主語の方が関連が強い、と取り決めるなどの方法が考えられる。次に、CPU22は、関連が強い方の関連性値及び関連性レベルと、ステップS102で求めた主語及び対主語の感情特性のうち、関連が強い方の感情特性と、から3者それぞれの感情特性を求める。なお、ステップS102及びステップS103において、主語または対主語の一方のみについて処理した場合についても、CPU22は、求めた関連性値及び関連性レベルと、感情特性と、から3者それぞれの感情特性を求める。
例えば、代表例文における著作者の感情特性を求めるときには、ステップS104において主語との関連性情報が(1、−2)、対主語との関連性情報が(1、−5)であった場合、CPU22は、主語との関連性が対主語との関連性より強いとみなす。そして、CPU22は、主語との関連性情報と、主語の感情特性と、から例えばテーブル57を用いて、著作者の感情特性を求める。代表例文では、主語の感情特性が「A2」であり、主語との関連性情報が(1、−2)であるので、CPU22は、テーブル57から著作者の感情特性を「A1」と求めることができる。同様に、CPU22はナレータ及びリスナーの感情特性についても上述の処理を行うことで決定することができる。
次に、CPU22は、ステップS104で求めた3者それぞれの感情特性から音声特性を求める(ステップS105)。この音声特性は、例えば、図10の表58によって求めることができる。表58では、各シチュエーション143を正しく設定することで、より正確な音声特性を求めることができる。
代表例文おいて、著作者感情特性が「A1」、ナレータ感情特性が「A2」、リスナー感情特性が「B2」の場合でかつ、シチュエーション143を「著作者の意図、感情を優先する場合」に設定してある場合には、音声特性は、「A1」に決定される。
最後に、ステップS106において、CPU22はコンテンツと音声特性とを音声生成装置70へ入力し、再生する。代表例文においては、音声特性が「A1」、即ち感情分類表のうち、嬉しさ101表51のうち、やや強い108、と決定しているので、“AAジャイアンツはBB中日ドラゴンズに5−0で快勝しました。”という文を嬉しさをやや強調して音声を出力する。
各音声特性に対するコンテンツの音声については、コンテンツメモリ36bにあらかじめ格納しておき、ステップS105において出力された音声特性から対応する感情表現を有するコンテンツを取り出して再生するなどの方法が一例として考えられる。これにより、様々な情報を音声で伝える局面において、情報の内容に対して、その情報を伝える人の意図、感情、個性と、情報を聞く側の考え、感情、個性を考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に行うことが可能となる。
以上に述べたように、音声出力装置1は、コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、第1の感情特性決定手段により決定した感情特性と、関連性決定手段により決定した関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、第2の感情特性決定手段により決定した感情特性から音声特性を決定する音声特性決定手段と、を備える。
これによれば、音声出力装置1は、様々な情報を音声で伝える局面において、コンテンツの著作者やナレータ、そしてリスナーの意図や感情や個性を総合して考慮することで、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整し、音声出力することができる。
本発明は、各文章を音声にて出力する音声出力装置に利用することができる。本発明の音声出力装置を用いることで、様々な情報を音声で伝える局面において、その情報を伝える人、情報を聞く人、そして情報を作成した人の意図や感情や個性を総合して考慮した上で、その情報を伝える側の声質、口調といった音声の感情表現を適切に調整し音声出力することができる。
請求項1に記載の発明では、音声出力装置は、所定のコンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者ナレータリスナーの各々に対する感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、を備えることを特徴とする。ここで、対主語とは、主語の行為を受ける側の名詞を指す。
請求項に記載の発明では、音声出力方法は、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段を備える音声出力装置が実行する音声出力方法であって、所定のコンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定工程と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定工程と、前記第1の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者ナレータリスナーの各々に対する感情特性を決定する第2の感情特性決定工程と、前記第2の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と、を備えることを特徴とする。
請求項に記載の発明では、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段を備えるコンピュータによって実行される音声出力プログラムであって、所定のコンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、特定の語彙と、当該語彙と関連のある語彙の情報とを備えるデータベースを記憶する記憶手段と、著作者、ナレータ、リスナーの各々の固有情報に対して、前記所定のコンテンツとの関連性に関する情報である関連性情報を、当該固有情報の個々の情報であるキーワードと前記所定のコンテンツの主語とに基づき前記データベースを用いて決定する関連性決定手段と、前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者ナレータリスナーの各々に対する感情特性を決定する第2の感情特性決定手段と、前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させることを特徴とする。

Claims (8)

  1. コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、
    コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性に関する情報である関連性情報を決定する関連性決定手段と、
    前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、
    前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、
    前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段と、
    を備えることを特徴とする音声出力装置。
  2. 前記第1の感情特性決定手段は、述語と前記述語に対応する感情特性とを少なくとも構成要素として有するデータベースを用いることで前記感情特性を決定することを特徴とする請求項1に記載の音声出力装置。
  3. 前記関連性決定手段は、登録語彙と関連語彙情報とを少なくとも構成要素として有するデータベースを用いることで前記関連性情報を決定することを特徴とする請求項1または2に記載の音声出力装置。
  4. 前記関連性情報は、関連性の有無に関する情報を表す値と、関連の程度を表す値と、から構成することを特徴とする請求項1乃至3のいずれか一項に記載の音声出力装置。
  5. 前記音声特性決定手段は、指定したシチュエーションごとに決定される音声特性が異なることを特徴とする請求項1乃至4のいずれか一項に記載の音声出力装置。
  6. コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定工程と、
    コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定工程と、
    前記第1の感情特性決定工程により決定した前記感情特性と、前記関連性決定工程により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定工程と、
    前記第2の感情特性決定工程により決定した前記感情特性から音声特性を決定する音声特性決定工程と、
    前記音声特性決定工程により決定した音声特性に従い音声を出力する音声出力工程と
    を備えることを特徴とする音声出力方法。
  7. コンピュータを備える装置によって実行される音声出力プログラムであって、
    コンテンツの主語または対主語に対する感情特性を決定する第1の感情特性決定手段と、
    コンテンツと、著作者またはナレータ若しくはリスナーの固有情報と、の関連性情報を決定する関連性決定手段と、
    前記第1の感情特性決定手段により決定した前記感情特性と、前記関連性決定手段により決定した前記関連性情報と、から著作者またはナレータ若しくはリスナーの感情特性を決定する第2の感情特性決定手段と、
    前記第2の感情特性決定手段により決定した前記感情特性から音声特性を決定する音声特性決定手段と、
    前記音声特性決定手段により決定した音声特性に従い音声を出力する音声出力手段、として前記コンピュータを機能させることを特徴とする音声出力プログラム。
  8. 請求項7に記載の音声出力プログラムを記憶したことを特徴とする記憶媒体。
JP2009537818A 2007-10-18 2007-10-18 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体 Pending JPWO2009050809A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/070345 WO2009050809A1 (ja) 2007-10-18 2007-10-18 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
JPWO2009050809A1 true JPWO2009050809A1 (ja) 2011-02-24

Family

ID=40567101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009537818A Pending JPWO2009050809A1 (ja) 2007-10-18 2007-10-18 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体

Country Status (2)

Country Link
JP (1) JPWO2009050809A1 (ja)
WO (1) WO2009050809A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772888A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 情報処理装置
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2004233709A (ja) * 2003-01-31 2004-08-19 Hitachi Ltd 情報処理装置、コンテンツ提供方法及び端末装置
JP2006184730A (ja) * 2004-12-28 2006-07-13 Canon Inc 音声合成方法
JP2007164210A (ja) * 2007-01-25 2007-06-28 Oki Electric Ind Co Ltd コンテンツ音声化提供システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772888A (ja) * 1993-09-01 1995-03-17 Matsushita Electric Ind Co Ltd 情報処理装置
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2004233709A (ja) * 2003-01-31 2004-08-19 Hitachi Ltd 情報処理装置、コンテンツ提供方法及び端末装置
JP2006184730A (ja) * 2004-12-28 2006-07-13 Canon Inc 音声合成方法
JP2007164210A (ja) * 2007-01-25 2007-06-28 Oki Electric Ind Co Ltd コンテンツ音声化提供システム

Also Published As

Publication number Publication date
WO2009050809A1 (ja) 2009-04-23

Similar Documents

Publication Publication Date Title
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US10657965B2 (en) Conversational audio assistant
US20100082329A1 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
US20100082347A1 (en) Systems and methods for concatenation of words in text to speech synthesis
US8751238B2 (en) Systems and methods for determining the language to use for speech generated by a text to speech engine
US8805691B2 (en) Providing programming information in response to spoken requests
JP2013025648A (ja) 対話装置、対話方法および対話プログラム
US20230169112A1 (en) Systems and methods for providing search query responses having contextually relevant voice output
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
US11574627B2 (en) Masking systems and methods
WO2015040751A1 (ja) 音声選択支援装置、音声選択方法、およびプログラム
Otake et al. Lexical selection in action: Evidence from spontaneous punning
US20220138428A1 (en) Systems and methods for inserting dialogue into a query response
JP5533377B2 (ja) 音声合成装置、音声合成プログラムおよび音声合成方法
JPWO2009050809A1 (ja) 音声出力装置、音声出力方法、音声出力プログラム及び記憶媒体
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2005242720A (ja) データベース検索方法、データベース検索装置およびデータベース検索プログラム
Baumann et al. The spoken wikipedia corpus collection

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121030