WO2010109575A1

WO2010109575A1 - 音声情報出力装置

Info

Publication number: WO2010109575A1
Application number: PCT/JP2009/055634
Authority: WO
Inventors: 謙一大塚
Original assignee: パイオニア株式会社
Priority date: 2009-03-23
Filing date: 2009-03-23
Publication date: 2010-09-30
Also published as: JPWO2010109575A1

Abstract

【課題】情報の出力における不自然さをなくす。【解決手段】データ受信部４１が文字列データ形式で受信した文字列情報データに対して、データ属性特定部４２がそのジャンルと緊急度の属性を解析して特定する。そしてデータ変換部４３が文字列情報データを音声データ形式の音声情報データＥＤに変換する。データ合成部４４は、音声情報データＥＤの属性に対応する導入語句音声データＢＤ、接続語句音声データＣＤ及び終了語句音声データＦＤを選択し、それらを音声情報データＥＤに結合して音声データ形式の音声出力情報データを合成する。ユーザに対する音声出力情報データの出力においては、音声情報データＥＤの出力前の宣言や、音声情報データＥＤ間をつなぐ言葉や、音声情報データＥＤの出力の終了の伝達を自然な言葉使いで表現する。　

Description

音声情報出力装置

　本発明は、ユーザが認識可能な文字列データ形式の複数の情報を受信し、これらを音声データ形式に変換してユーザに対し出力する音声情報出力装置に関する。

　従来より、パーソナルコンピュータや車載用ナビゲーション装置などの情報機器においては、ネットワーク通信機能の発達によりユーザが特に操作しなくとも自動的に各種の情報を受信して取得することができる。そしてユーザがパーソナルコンピュータで作業を行っていたり、車両の運転をしているなどで手が離せない状態では、操作のための手間をかけることなく取得した情報を自動的に出力できるようになっている。

　そして近年では、ユーザが情報機器を注視せずとも取得した情報の内容を知ることができるよう、文字列データ形式の情報に対しても自動的に音声データ形式に変換してその内容を発音させるいわゆるＴＴＳ（Ｔｅｘｔ　ｔｏ　Ｓｐｅｅｃｈ）技術が提案されている（例えば、特許文献１参照）。
特開２００８－２９９１８３号公報

　しかしながら従来の情報機器では、複数の情報を取得してそれらを自動的に出力させる場合には、単に情報の内容だけを取得した順番で続けて出力するものであった。そのため、ユーザにとっては関連のない複数の情報の羅列が唐突に出力されることになり、通常時の人どうしの自然な会話と比較して非常に不自然な伝達形態となっているため、無機質で機械的な印象を与えてしまう弊害があった。従来の情報機器では、そのような情報の出力の不自然さに対処する機能がなかった。

　本発明が解決しようとする課題には、上記した問題が一例として挙げられる。

　上記課題を解決するために、請求項１に記載の発明は、文字列データ形式の情報を音声データ形式の情報に変換して出力する音声情報出力装置であって、外部から情報通信網を介して少なくとも１つの文字列情報データを受信するデータ受信手段と、前記文字列情報データを音声データ形式の音声情報データに変換するデータ変換手段と、前記少なくとも１つの文字列情報データを補完する補完語句音声データを記憶する記憶手段と、前記少なくとも１つの音声情報データの内容に適した前記補完語句音声データを選択して当該音声情報データに結合させ、全体を音声出力情報データとして合成するデータ合成手段と、合成された前記音声出力情報データを音声で出力する音声出力手段と、を有する。

音声情報出力装置であるナビゲーション装置と車外のサーバを含むナビゲーションシステムの構成例を示すシステム構成図である。ナビゲーション装置の電気的なハードウェア構成例を示すブロック図である。図２に示すナビゲーション装置において動作する情報出力プログラムのソフトウェア構成例を示すブロック図である。データ合成部の制御によって３つの文字列情報データから出力情報データを合成する過程の一例を説明する図である。図３に示す導入語句音声データが記録保持される導入語句音声データテーブルの構成例を示す図である。図３に示す接続語句音声データが記録保持される接続語句音声データテーブルの構成例を示す図である。図３に示す終了語句音声データが記録保持される終了語句音声データテーブルの構成例を示す図である。情報データ出力処理の手順例を示すフローチャートである。ディスプレイ上における文字列データ形式の出力情報データの表示出力の一例を表した図である。

　以下、本発明の一実施の形態を図面を参照しつつ説明する。

　図１は、本実施形態の音声情報出力装置であるナビゲーション装置と車外のサーバを含むナビゲーションシステムの構成例を示すシステム構成図である。

　ナビゲーションシステム２００は、本実施形態の音声情報出力装置としてのナビゲーション装置１００、ネットワーク２０１、基地局２０２及びサーバＳＶで構成される。これらナビゲーション装置１００、サーバＳＶ及び基地局２０２は、それぞれネットワーク２０１によって接続されており、互いに予め定められたプロトコルに従ってデータ通信を行うことができる。

　車両に取り付けられているナビゲーション装置１００は、後述する受信部及びデータ受信部の制御により基地局２０２との間で無線によってデータ通信を行い、ネットワーク２０１を経由してサーバＳＶから各種の情報を受信する機能を有する。基地局２０２は、ネットワーク２０１に接続されており、ナビゲーション装置１００との間で無線によりデータ通信を行う機能を有する。

　サーバＳＶは、車両の外部に配置されたサーバコンピュータである。サーバＳＶは、基地局２０２及びネットワーク２０１を介して受信した各種の情報を記憶し、送信する機能を有する。なお、サーバＳＶが送信する情報の種類については、後に詳述するように、多様なジャンルのニュースコンテンツや他者から送信されたメールなどがあり、また緊急性を有するものと緊急性を有しない通常のものとがある。そして本実施形態の例では、サーバＳＶが送信する情報は文字列データ形式、いわゆるテキストデータ形式の文字列情報データである。

　図２は、車両が搭載する本実施形態のナビゲーション装置１００の電気的なハードウェア構成例を示すブロック図である。

　この図２において、ナビゲーション装置１００は、ＣＰＵ１１、受信装置１２、記憶部１３、スピーカ１４及びディスプレイ１５を有している。なお、図中には音声情報出力装置として必要な構成部分のみを示しており、その他に車載用ナビゲーション装置特有の経路探索や誘導案内のために必要な構成部分については、図示と説明を省略する。

　ＣＰＵ１１は、所定のプログラムの動作によって各種の演算を行うとともに、他の各部との間でデータの交換や各種の制御指示を出力することで、ナビゲーション装置１００全体を制御する機能を有する。

　受信装置１２は、車両外部に設けられた上記サーバＳＶとの間で無線通信を介してデータの受信を行う機能を有する。この受信装置１２は、サーバＳＶから不定期に送信されてくる各種の上記文字列情報データを、常に受信できるようになっている。

　記憶部１３は、ＲＯＭ１３ａ、ＲＡＭ１３ｂ及び記憶媒体１３ｃを有する。ＲＯＭ１３ａは、後述する各種の処理プログラムやその他必要な情報が予め書き込まれた情報記憶媒体である。ＲＡＭ１３ｂは、上記各種のプログラムを実行する上で必要な情報の書き込み及び読み出しが行われる情報記憶媒体である。記憶媒体１３ｃは、例えばフラッシュメモリ、ハードディスクなどの情報記憶媒体である。この記憶媒体１３ｃは記憶手段に相当し、上記サーバＳＶから送信されて受信装置１２が受信した各種の上記文字列情報データを音声データ形式に変換した音声情報データと、後述する補完語句音声データとをそれぞれ異なる記憶領域で不揮発的に記憶する機能を有する（後述の図３参照）。

　スピーカ１４は音声出力手段に相当し、ＣＰＵ１１の制御によって音声を出力する機能を有する。また、ディスプレイ１５は文字列出力手段に相当し、ＣＰＵ１１の制御によって地図画像や各種の文字列データ形式の情報を表示する機能を有する（後述の図９参照）。

　図３は、図２に示すナビゲーション装置１００において動作する情報出力プログラムのソフトウェア構成例を示すブロック図である。

　音声情報出力プログラムは、その機能としてデータ受信部４１、データ属性特定部４２、データ変換部４３、データ合成部４４、音声出力部４５及び制御部４６を有し、後述する各機能をナビゲーション装置１００において発揮させる。

　データ受信部４１はデータ受信手段に相当し、サーバＳＶから送信されてくる文字列データ形式の各種の文字列情報データを受信する。

　データ属性特定部４２はデータ属性特定手段に相当し、データ受信部４１が受信した文字列情報データの内容の文字列の中からキーワードとなる語句を抽出し、それらキーワードに基づいて当該文字列情報データを解析し、属性（後述の図４参照）を特定する。

　データ変換部４３はデータ変換手段に相当し、データ受信部４１が受信した文字列データ形式の文字列情報データを、いわゆる公知のＴＴＳ（Ｔｅｘｔ　ｔｏ　Ｓｐｅｅｃｈ）音声変換技術により音声データ形式の音声情報データにデータ形式変換して、それを音声情報データＥＤとして上記記憶媒体１３ｃの所定の記憶領域に記憶する。

　データ合成部４４はデータ合成手段に相当し、記憶媒体１３ｃに記憶した音声データ形式の音声情報データＥＤと、記憶媒体１３ｃの他の所定の記憶領域に予め記憶されている音声データ形式の補完語句音声データＷＤとを組み合わせて情報データの列を形成し、ユーザに対して出力する音声データ形式の音声出力情報データを合成する。記憶媒体１３ｃが記憶している補完語句音声データＷＤには、音声出力情報データ内において結合する配置位置別に、導入語句音声データＢＤ、接続語句音声データＣＤ及び終了語句音声データＦＤの３種の音声データがある。そして、各音声データごとに多数の種類のものが用意されているうちから、上記データ属性特定部４２で特定した属性に対応するものが選択され、上記データ変換後の音声情報データＥＤに結合される（詳細は後述）。

　音声出力部４５は音声出力手段に相当し、上記データ合成部４４で合成した音声データ形式の音声出力情報データの内容をスピーカ１４から音声で出力させる。

　制御部４６は、上述したデータ受信部４１、データ属性特定部４２、データ変換部４３、データ合成部４４及び音声出力部４５の各部との間でデータの送受と指示命令の出力を行い、音声情報出力プログラム全体の処理を制御する。

　図４は、上記データ属性特定部４２、上記データ変換部４３及び上記データ合成部４４の制御によって少なくとも１つ（この例では３つ）の文字列情報データから音声出力情報データを合成する過程の一例を説明する図である。

　この図４に示す例において、まず図中上段に示すように、受信装置１２及びデータ受信部４１がサーバＳＶから３つの文字列データ形式の情報、つまり文字列情報データＩ，ＩＩ，ＩＩＩを受信する。なお、受信装置１２及びデータ受信部４１が最初に受信した文字列情報データが文字列情報データＩであり、２番目に受信したものが文字列情報データＩＩ、３番目に受信したものが文字列情報データＩＩＩである。

　これにより、データ属性特定部４２は、各文字列情報データＩ，ＩＩ，ＩＩＩのそれぞれの内容の文字列の中からキーワードとなる語句を抽出し、それらキーワードに基づいて各文字列情報データＩ，ＩＩ，ＩＩＩのそれぞれの属性を解析する。ここで、文字列情報データの属性とは、当該文字列情報データが伝える情報内容の種類や特性で特定される分類であり、この例で、は一つの文字列情報データについてその情報内容の種類を表す「ジャンル」と、緊急性の有無を示す「緊急度」の２つの属性で分類される。

　図示する例では、文字列情報データＩは、その情報内容の文字列の中から「選手」、「ゴルフトーナメント」及び「初優勝」のキーワードが抽出されており、これらのキーワードから、ジャンル属性がスポーツであることが特定されている。なお、緊急度に関係するキーワードは抽出されていないため、文字列情報データＩの情報内容は特に緊急性を有するものでないと判定され、緊急度の属性については通常に特定されている。

　また、文字列情報データＩＩは、その情報内容の文字列の中から「緊急」、「気象」及び「台風」のキーワードが抽出されており、これらのキーワードから文字列情報データＩＩのジャンル属性が気象であることが特定されている。また「緊急」のキーワードが特に情報内容の文字列に含まれることからユーザへの伝達に緊急性を有するものであると判定され、緊急度の属性については緊急に特定されている。

　なお、この緊急度の特定については、情報内容が例えば「今日、警視庁で緊急対策会議が開かれた。」である場合のように、「緊急」のキーワードは抽出されるが情報内容の本質としてはユーザへの伝達に緊急性を有さない場合がある。このように緊急度の特定には、抽出されたキーワードの文言だけでなく、文字列情報データの文字列中におけるその配置位置などといった他の要素も考慮して特定してもよい（ここでは特に詳細な説明は省略）。上述した文字列情報データＩＩの例では、一般的に「緊急」のキーワードが冒頭に位置している場合、その情報の伝達に緊急性があることから、緊急度の属性が緊急に特定されている。

　また、文字列情報データＩＩＩは、その情報内容の文字列の中から「知事選挙」及び「初当選」のキーワードが抽出されており、これらのキーワードから文字列情報データＩＩＩのジャンル属性が政治であることが特定されている。なお、緊急度に関係するキーワードは抽出されていないため、緊急度の属性については通常に特定されている。

　次にデータ変換部４３が、属性解析が終わった３つの文字列情報データＩ，ＩＩ，ＩＩＩに対してそれぞれ音声データ方式の音声情報データＩ′，ＩＩ′，ＩＩＩ′にデータ変換する。

　そしてデータ合成部４４が、データ方式変換された３つの音声情報データＩ′，ＩＩ′，ＩＩＩ′に対して、それぞれの緊急度の高い順で一列に並べて音声情報データ列を形成する。この音声情報データ列における音声情報データの順番はユーザに対して出力する順番となり、つまり緊急度の高いものから順にユーザに伝達されることになる。なお、この例では、緊急度の属性が緊急と通常の２段階しかないため、緊急の音声情報データが音声情報データ列の先頭に並べられ、それ以外の通常の音声情報データがその後に並べられる。

　そしてデータ合成部４４は、この音声情報データ列における最初の音声情報データの前に、上記記憶媒体１３ｃに記憶されている複数の導入語句音声データＷＤの中から、当該最初の音声情報データのジャンル属性及び緊急度属性に対応する導入語句音声データＷＤを選択し、最初の音声情報データに結合する。図示する例では、ただ一つだけ緊急度属性が緊急であるために最初に位置してジャンル属性が気象である音声情報データＩＩ′の前に、それら２つの属性内容に対応する「只今情報が入りました。まずは緊急気象情報です。」の導入語句音声データＷＤが結合されている。

　また、データ合成部４４は、音声情報データ列において隣り合う２つの音声情報データの間に、上記記憶媒体１３ｃに記憶されている複数の接続語句音声データＣＤの中から当該２つの音声情報データのうち少なくとも一方のジャンル属性及び緊急度属性に対応する接続語句音声データＣＤを選択し、結合する。このとき、２つの音声情報データそれぞれのジャンル属性及び緊急度属性の前後関係を考慮するようにしてもよい。

　つまり、図示する例において、緊急度属性が緊急であってジャンル属性が気象である最初の音声情報データＩＩ′と、緊急度属性が通常であってジャンル属性がスポーツである２番目の音声情報データＩ′との間には、当該２つの音声情報データのそれぞれの属性内容の前後関係に対応した「緊急気象情報に続いて、スポーツの話題です。」の接続語句音声データＣＤが結合されている。同様にして、緊急度属性が通常であってジャンル属性がスポーツである２番目の音声情報データＩ′と、緊急度属性が通常であってジャンル属性が政治である３番目の音声情報データＩＩＩ′との間には、「スポーツの話題に続いては、」の接続語句音声データＣＤが結合されている。

　そしてさらにデータ合成部４４は、音声情報データ列における最後の音声情報データの後に、上記記憶媒体１３ｃに記憶されている複数の終了語句音声データＦＤの中から当該最後の音声情報データのジャンル属性及び緊急度属性に対応する終了語句音声データＦＤを選択し、当該最後の音声情報データに結合する。図示する例では、緊急度属性が通常であってジャンル属性が政治である音声情報データＩＩＩ′の後に、それら２つの属性内容に対応する「以上、政治関連の情報をお伝えして終わります。」の終了語句音声データＦＤが結合されている。

　以上のようにして、データ属性特定部４２、データ変換部４３及びデータ合成部４４は、複数の音声情報データを出力順に並べて、適宜の導入語句音声データＢＤ、接続語句音声データＣＤ及び終了語句音声データＦＤを選択して結合することにより、音声出力情報データを合成する。なお、詳細な説明を省略するが、文字列情報データが１つしか入力されなかった場合は、この文字列情報データを変換した１つの音声情報データに対し、その内容に合致した導入語句音声データＢＤと、終了語句音声データＦＤとをそれぞれ選択して結合する（後述の図８のステップＳ２５、及びその後のステップＳ６０参照）。

　なお、この例では、各文字列情報データが文字列データ形式で構成されている以外は、各音声情報データと、導入語句音声データＢＤ、接続語句音声データＣＤ及び終了語句音声データＦＤが全て音声データ形式で構成されており、合成された音声出力情報データもまた全体が音声データ形式で構成されている。

　図５は、図３に示す導入語句音声データＢＤが記録保持される導入語句音声データテーブルの構成例を示す図である。

　この導入語句音声データテーブルは、図２に示す記憶媒体１３ｃに記録保持される情報である。図示する例では、ジャンルの属性内容の種類として、政治、社会、気象、交通、芸能、スポーツ及びメールの７つが設定されている。メールのジャンルは、上述したように、受信した文字列情報データの情報内容がユーザ以外の他者から受け取ったメールに対応するものである。

　そして、最初の音声情報データのジャンルを表す「先頭ジャンル」として、緊急と通常の２つの緊急度別に導入語句音声データＢＤが記憶されている。なお、芸能とスポーツのジャンルのニュースコンテンツは緊急性を持つことがないとして、それらの緊急の緊急度に対応する導入語句音声データＢＤは記憶されていない。

　図示する例では、政治のジャンルにおいて、緊急の緊急度に対応する導入語句音声データＢＤは「只今情報が入りました。政治関連の緊急情報です。」が記憶され、通常の緊急度に対応する導入語句音声データＢＤは「只今情報が入りました。まずは政治の話題から。」が記憶されており、互いに緊急性の違いに対応した異なる内容となっている。なお、それら以外の導入語句音声データＢＤの例については、図示の煩雑を避けるため省略している。

　図６は、図３に示す接続語句音声データＣＤが記録保持される接続語句音声データＣＤテーブルの構成例を示す図である。

　この接続語句音声データＣＤテーブルは、図２に示す記憶媒体１３ｃに記録保持される情報である。この図６に示す接続語句テーブルにおいては、接続語句音声データＣＤの挿入位置の前に位置する、音声情報データのジャンルを表す「前ジャンル」７つと、挿入位置の後に位置する、音声情報データのジャンルを表す「後ジャンル」７つとの、組み合わせで大きく区分されている。そして、さらにそれら各区分においては、前と後のそれぞれ音声情報データの緊急と通常の組み合わせにより、４つの接続語句音声データＣＤが記憶されている。

　図示する例では、前ジャンルが気象で後ジャンルがスポーツである場合の組み合わせにおいて、前の音声情報データの緊急の緊急度に対応する接続語句音声データＣＤは「緊急気象情報に続いて、スポーツの話題です。」（上述の図４参照）が記憶されており、前の音声情報データの通常の緊急度に対応する接続語句音声データＣＤは「気象情報に続いて、スポーツの話題です。」が記憶されている。なお、上述した導入語句音声データと同様に、スポーツのジャンルでは緊急の緊急度に対応する接続語句音声データＣＤが記憶されていないため、後の音声情報データの通常の緊急度に対応する接続語句音声データＣＤだけが示されている。

　また、前ジャンルがスポーツで後ジャンルがメールである場合の組み合わせにおいて、後の音声情報データの緊急の緊急度に対応する接続語句音声データＣＤは「スポーツの話題に続き、＊＊＊さんから緊急で以下のメールが届きました。」が記憶されており、後の音声情報データの通常の緊急度に対応する接続語句音声データＣＤは「スポーツの話題に続き、＊＊＊さんから以下のメールが届きました。」が記憶されている。このように、メールの場合はその本体の情報内容と別に差出人名も伝達する必要があるため、メールの音声情報データの前後に隣接する位置で結合される補完語句音声データ中には、「＊＊＊さん」で差出人名のデータを付加する部分を設けている（詳細な説明は省略）。

　図７は、図３に示す終了語句音声データＦＤが記録保持される終了語句音声データＦＤテーブルの構成例を示す図である。

　この終了語句音声データＦＤテーブルは、図２に示す記憶媒体１３ｃに記録保持される情報である。図示する例では、最後の音声情報データのジャンルを表す「末尾ジャンル」として、緊急と通常の２つの緊急度別に終了語句音声データＦＤが記憶されている。

　図示する例では、政治のジャンルにおいて、緊急の緊急度に対応する終了語句音声データＦＤは「以上、政治関連の緊急情報をお伝えして終わります。」が記憶されており、通常の緊急度に対応する終了語句音声データＦＤは「以上、政治関連の情報をお伝えして終わります。」が記憶されており、互いに緊急性の違いに対応した異なる内容となっている。

　以上のように導入語句音声データテーブル、接続語句音声データテーブル及び終了語句音声データテーブルが構成されていることにより、それぞれジャンルと緊急度の２つの属性内容に対応した補完語句音声データＷＤを容易に検索して取得することができる。

　図８は、情報データ出力処理の手順例を示すフローチャートである。この情報データ出力処理は、上記音声情報出力プログラムがＣＰＵ１１の制御によって動作することにより実現される手順を含んでいる。

　まず、例えばユーザがナビゲーション装置１００に対して所定の操作を行う。この所定の操作は、例えば、目的地設定のための操作や経路探索を開始させるための操作である。この操作指令を受けると、ＣＰＵ１１の制御によって制御部４６による処理が開始され、以下のように動作する。

　まず、ステップＳ５では、受信装置１２及びデータ受信部４１がサーバＳＶから文字列情報データを受信したか否かを判定し、情報を受信していない間は同じステップＳ５の判定手順を繰り返してループ待機する。一方、サーバＳＶから文字列情報データを受信した場合は、判定が満たされ、次のステップＳ１０へ移る。

　ステップＳ１０では、上記ステップＳ５で受信した文字列情報データの情報内容からキーワードを抽出してジャンルと緊急度の属性内容を特定するよう解析する。

　次にステップＳ１５へ移り、上記ステップＳ５で受信した文字列データ形式の文字列情報データを上述したＴＴＳ変換により音声データ形式の音声情報データＥＤに変換する。

　次にステップＳ２０へ移り、上記ステップＳ５で受信した文字列情報データ、つまりこの時点の音声情報データＥＤは一つだけであるか否かを判定する。音声情報データＥＤが一つだけである場合、判定が満たされ、ステップＳ２５に移る。ステップＳ２５では、上記ステップＳ１０の解析によって特定した当該音声情報データＥＤのジャンルと緊急度の属性内容に対応する導入語句音声データＢＤを、上記導入語句音声データテーブルから選択し、後述するステップＳ６０へ移る。一方、音声情報データＥＤが複数である場合、ステップＳ２０の判定が満たされず、ステップＳ３０へ移る。

　ステップＳ３０では、複数の音声情報データＥＤを緊急度の高い順に並べて音声情報データ列を形成する。なお、緊急度が緊急である音声情報データＥＤどうし、又は緊急度が通常である音声情報データＥＤどうしの並び順は受信した順番でもよいし、又は他の要素で優先順位を設定してもよい。

　次にステップＳ３５へ移り、上記ステップＳ３０で形成した音声情報データ列の最初の音声情報データＥＤのジャンルと緊急度の属性内容に対応する導入語句音声データＢＤを、上記導入語句音声データテーブルから選択する。

　次にステップＳ４０へ移り、２番目の音声情報データＥＤを現データに設定して次のステップＳ４５へ移る。この現データとは、以下に説明する接続語句音声データＣＤの選択においてその接続語句音声データＣＤの後に位置する音声情報データに相当するものである。

　ステップＳ４５では、上記ステップＳ３０で形成された音声情報データ列において、現データの直前の位置の音声情報データＥＤと、現データのそれぞれのジャンル及び緊急度の属性内容の前後関係に対応する接続語句音声データＣＤを上記接続語句音声データテーブルから選択する。

　次にステップＳ５０へ移り、音声情報データ列において現データに設定されている音声情報データＥＤが最後であるか否かを判定する。現データが最後の音声情報データＥＤでない場合、つまり現データより後にまだ音声情報データＥＤが残っている場合、判定は満たされず、すなわちまだ他にも接続語句音声データＣＤを選択する必要があるものとみなされ、ステップＳ５５に移る。そしてステップＳ５５で次の音声情報データＥＤを現データに設定し、ステップＳ４５に戻って同様の手順を繰り返す。一方、現データが最後の音声情報データＥＤである場合、判定が満たされ、次のステップＳ６０へ移る。

　ステップＳ６０では、上記ステップＳ５で一つだけ受信した文字列情報データに対応する音声情報データＥＤ、又は、現データに設定されている最後の音声情報データＥＤのジャンルと緊急度の属性内容に対応する、終了語句音声データＦＤを、上記終了語句音声データテーブルから選択する。

　次にステップＳ６５へ移り、上記一つだけの音声情報データＥＤ、又は、上記ステップＳ３０で形成した音声情報データ列に対して、選択された導入語句音声データＢＤ、接続語句音声データＣＤ、及び終了語句音声データＦＤをそれぞれの配置位置に結合して並べ、全体を音声データ形式の音声出力情報データとして合成する。

　次にステップＳ７０へ移り、ナビゲーション装置１００が音声出力情報データを出力するのに適切なタイミングにあるか否かを判定し、適切な出力タイミングにない間は同じステップＳ７０の判定手順を繰り返してループ待機する。一方、適切な出力タイミングとなった場合は、判定が満たされ、次のステップＳ７５へ移る。

　ステップＳ７５では、音声データ形式の音声出力情報データをスピーカ１４で発音して出力する。そしてこのフローを終了する。

　本実施形態では、文字列データ形式で受信した情報を音声情報データＥＤとし、そのジャンルと緊急度の属性内容に対応する導入語句音声データＢＤ、接続語句音声データＣＤ、及び終了語句音声データＥＤを結合して音声データ形式の音声出力情報データを合成する。そして、この音声データ形式の音声出力情報データをスピーカ１４で発音出力する。このとき、音声出力情報データをスピーカ１４で発音する場合は、それまでに流れていたＢＧＭの曲間や曲の途中で停止させた無音の状態で発音させたり、またはＢＧＭの音量を下げて音声出力情報データの音声を重ねるように発音させるようにしてもよい。

　上記実施形態におけるナビゲーション装置１００においては、文字列データ形式の情報を音声データ形式の情報に変換して出力するナビゲーション装置１００（音声情報出力装置に相当）であって、外部からネットワーク２０１及び基地局２０２（それぞれ情報通信網に相当）を介して少なくとも１つの文字列情報データを受信するデータ受信部４１（データ受信手段に相当）と、前記文字列情報データを音声データ形式の音声情報データＥＤに変換するデータ変換部４３（データ変換手段に相当）と、前記少なくとも１つの文字列情報データを補完する補完語句音声データＷＤを記憶する記憶媒体１３ｃ（記憶手段に相当）と、前記少なくとも１つの音声情報データＥＤの内容に適した前記補完語句音声データＷＤを選択して当該音声情報データＥＤに結合させ、全体を音声出力情報データとして合成するデータ合成部４４（データ合成手段に相当）と、合成された前記音声出力情報データを音声で出力する音声出力部４５（音声出力手段に相当）と、を有する。

　このようにすると、文字列データ形式（テキスト形式）で入力された文字列情報データをいわゆるＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）の手法により音声情報データＥＤに変換してユーザに出力する場合、その音声情報データＥＤに補完語句音声データＷＤを結合させることで、文字列情報データの情報内容を考慮した自然な言葉使いでユーザに聞かせることができる。したがって、通常の人間どうしの自然な会話に近い伝達形態で印象のよい情報伝達をユーザに対し行うことができ、ユーザによる、音声情報データＥＤの情報内容の理解を助けることができる。

　なお、本実施形態では音声情報出力装置の具体的構成として車載用ナビゲーション装置１００に適用した例を示したが、本発明はこれに限られず、他にも携帯電話やパーソナルコンピュータなど情報通信網を介して各種の情報を受信可能な情報機器に適用することも可能である。しかしながら、ナビゲーション装置１００等の車載用機器に適用する場合、安全上の理由により文字による表示よりも音声による出力のほうが好ましいため、本実施形態の手法が特に有効である。

　また、上記のような音声データの出力と共に、音声データ形式である音声出力情報データの情報内容をそのまま文字列データ形式の文字列出力情報データにデータ形式変換し、それをディスプレイ１５上で文字列情報として表示させてもよい。この場合は、例えば図９に示すようにディスプレイ１５の画面上において、ナビゲーション機能により表示している地図画像を大きく遮らないように、上方の一部分２１で横方向にスクロールさせて表示させるようにするとよい。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記文字列情報データからキーワードを抽出し、このキーワードに基づいて当該文字列情報データについての緊急度及びジャンルの属性を特定するデータ属性特定部４２（データ属性特定手段に相当）を有し、前記データ合成部４４は、結合対象となる音声情報データＥＤの属性に対応して、補完語句音声データＷＤを選択する。

　このようにすると、文字列情報データをその情報内容に考慮して分類することができ、当該文字列情報データを機能的に処理することができるようになる。特に、文字列情報データの情報内容を、ユーザに伝達する緊急性やジャンルを用いて分類することにより、補完語句音声データＷＤにその態様を表す語句を選択することで、ユーザに対しその緊急性の大きさを報知したり、ジャンルを報知してユーザによる情報選択の便宜を図ることができる。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記記憶媒体１３ｃ（記憶手段に相当）は、前記補完語句音声データＷＤとして、前記少なくとも１つの音声情報データＥＤの冒頭に付加するための導入語句音声データＢＤを記憶しており、前記データ合成部４４は、結合対象となる前記音声情報データＥＤの前に、当該音声情報データＥＤの内容に適した前記導入語句音声データＢＤを選択して結合させ、全体を前記音声出力情報データとして合成する。

　このようにすると、ユーザの操作によらずにナビゲーション装置１００が自動的に音声出力情報データを出力する場合でも、まず初めに導入語句音声データで最初の情報の内容を考慮した自然な言葉使いで情報の出力を宣言するため、ユーザは唐突な印象を受けることなく円滑に情報を受け入れることができる。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記記憶媒体１３ｃは、前記補完語句音声データＷＤとして、前記少なくとも１つの音声情報データＥＤの末尾に付加するための終了語句音声データＦＤを記憶しており、前記データ合成部４４は、結合対象となる前記音声情報データＥＤの後に、当該音声情報データＥＤの内容に適した前記終了語句音声データＦＤを選択して結合させ、全体を前記音声出力情報データとして合成する。

　このようにすると、ユーザの操作によらずにナビゲーション装置１００が自動的に音声出力情報データを出力開始後、その出力を終了する際にも、終了語句音声データＦＤで最後の情報の内容を考慮した自然な言葉使いで情報の出力を終了する旨を伝えるため、ユーザは情報の受け入れに注意を払うことをやめて他のことに意識を集中できるようになる。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記データ受信部４１は、複数の前記文字列情報データを受信し、前記データ変換部４３は、前記複数の文字列情報データを、対応する複数の前記音声情報データＥＤに変換し、前記記憶媒体１３ｃは、前記補完語句音声データＷＤとして、前記複数の音声情報データＥＤの間に挿入するための接続語句音声データＣＤを記憶しており、前記データ合成部４４は、前記複数の音声情報データＥＤを出力順に並べて音声情報データ列を形成し、結合対象となる隣り合う２つの音声情報データＥＤ，ＥＤの間に、当該２つの音声情報データＥＤのうち少なくとも一方の内容に適した前記接続語句音声データＣＤを選択して挿入結合させ、全体を前記音声出力情報データとして合成する。

　このようにすると、それぞれ情報内容に関連性のない複数の音声情報データＥＤを自動的に連続してユーザに出力する場合でも、それら音声情報データＥＤどうしの間に接続語句音声データＣＤを挿入して前後の情報内容を考慮した自然な言葉使いでつなぐことができるため、それぞれの音声情報データＥＤの情報内容の理解を助けるとともに、通常時の人どうしの自然な会話に近い伝達形態で印象のよい情報の出力が可能となる。

　なお、上記の導入語句音声データＢＤ、接続語句音声データＣＤ、及び終了語句音声データＦＤのそれぞれの文言内容についてはバリエーションを持たせるようにしてもよく、例えばいわゆるラジオ番組のディスクジョッキーのような軽快な語り口で表現させるなどユーザの好みに合わせて設定できるようにしてもよい。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記データ合成部４４は、前記データ属性特定部４２の特定結果に応じ、前記複数の音声情報データＥＤのそれぞれの緊急度の高い順で出力するよう並べて、前記音声情報データ列を形成する。

　このようにすると、ユーザに伝達する緊急性の高い順で音声情報データＥＤを聞かせることができ、ユーザは重要な情報をいち早く受け入れることができる。

　上記実施形態における音声情報出力装置としてのナビゲーション装置１００においては、上述した構成に加えてさらに、前記音声出力部４５から出力される音声出力情報データに対応した、文字列データ形式の文字列出力情報データを表示するディスプレイ１５（文字列出力手段に相当）を有する。

　このようにすると、音声のみならず文字によっても情報を得ることができるので、さらに確実にユーザが情報内容を認識することができる。

　なお、適宜の導入語句音声データＢＤ、接続語句音声データＣＤ及び終了語句音声データＦＤに格納された音声データの内容は、上記の例に限られるものではない。上記の例以外のジャンルを含んだり、語調・口調やいいまわしの異なるバリエーションを種々用意して、適宜に選択できるようにしてもよい。その場合、アナウンサー風、若者風、子供風、メルヘン風、ドラマチック風、クラブ・ディスコ・ライブハウス等のＤＪ風、実況放送風、ゲーム風、などをユーザの好みによって使い分けるようにしてもよい。また、それらのバリエーションを予め固定的に用意していてもよいが、ネットワーク通信やその他の接続により、各種放送やサーバ等の装置外部のソースより適宜に取得したり更新できるようにしてもよい。さらに、それらをナビゲーション機能と連動させ、走行している場所や走行状態等に応じて、選ばれるソースや選ばれる語句の内容を変化させるようにしてもよい。

　また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。

符号の説明

　１１　　　　　　　ＣＰＵ
　１２　　　　　　　受信部
　１３　　　　　　　記憶部
　１３ｃ　　　　　　記憶媒体（記憶手段に相当）
　１４　　　　　　　スピーカ（音声出力手段に相当）
　１５　　　　　　　ディスプレイ（文字列出力手段に相当）
　４１　　　　　　　データ受信部（データ受信手段に相当）
　４２　　　　　　　データ属性特定部（データ属性特定手段に相当）
　４３　　　　　　　データ変換部（データ変換手段に相当）
　４４　　　　　　　データ合成部（データ合成手段に相当）
　４５　　　　　　　音声出力部（音声出力手段に相当）
　４６　　　　　　　制御部
　１００　　　　　　ナビゲーション装置
　２００　　　　　　ナビゲーションシステム
　２０１　　　　　　ネットワーク（情報通信網に相当）
　２０２　　　　　　基地局（情報通信網に相当）
　ＳＶ　　　　　　　サーバ
　ＥＤ　　　　　　　音声情報データ
　ＷＤ　　　　　　　補完語句音声データ
　ＢＤ　　　　　　　導入語句音声データ
　ＣＤ　　　　　　　接続語句音声データ
　ＦＤ　　　　　　　終了語句音声データ

Claims

　文字列データ形式の情報を音声データ形式の情報に変換して出力する音声情報出力装置であって、
　外部から情報通信網を介して少なくとも１つの文字列情報データを受信するデータ受信手段と、
　前記文字列情報データを音声データ形式の音声情報データに変換するデータ変換手段と、
　前記少なくとも１つの文字列情報データを補完する補完語句音声データを記憶する記憶手段と、
　前記少なくとも１つの音声情報データの内容に適した前記補完語句音声データを選択して当該音声情報データに結合させ、全体を音声出力情報データとして合成するデータ合成手段と、
　合成された前記音声出力情報データを音声で出力する音声出力手段と、
を有することを特徴とする音声情報出力装置。
　前記文字列情報データからキーワードを抽出し、このキーワードに基づいて当該文字列情報データについての緊急度及びジャンルの属性を特定するデータ属性特定手段を有し、
　前記データ合成手段は、
　結合対象となる音声情報データの属性に対応して、前記補完語句音声データを選択する
ことを特徴とする請求項１に記載の音声情報出力装置。
　前記記憶手段は、
　前記補完語句音声データとして、
　前記少なくとも１つの音声情報データの冒頭に結合するための導入語句音声データを記憶しており、
　前記データ合成手段は、
　結合対象となる前記音声情報データの前に、当該音声情報データの内容に適した前記導入語句音声データを選択して結合させ、全体を前記音声出力情報データとして合成する
ことを特徴とする請求項１または２に記載の音声情報出力装置。
　前記記憶手段は、
　前記補完語句音声データとして、
　前記少なくとも１つの音声情報データの末尾に結合するための終了語句音声データを記憶しており、
　前記データ合成手段は、
　結合対象となる前記音声情報データの後に、当該音声情報データの内容に適した前記終了語句音声データを選択して結合させ、全体を前記音声出力情報データとして合成する
ことを特徴とする請求項１または２に記載の音声情報出力装置。
　前記データ受信手段は、
　複数の前記文字列情報データを受信し、
　前記データ変換手段は、
　前記複数の文字列情報データを、対応する複数の前記音声情報データに変換し、
　前記記憶手段は、
　前記補完語句音声データとして、
　前記複数の音声情報データの間に挿入するための接続語句音声データを記憶しており、
　前記データ合成手段は、
　前記複数の音声情報データを出力順に並べて音声情報データ列を形成し、結合対象となる隣り合う２つの音声情報データの間に、当該２つの音声情報データのうち少なくとも一方の内容に適した前記接続語句音声データを選択して挿入結合させ、全体を前記音声出力情報データとして合成する、
ことを特徴とする請求項２に記載の音声情報出力装置。
　前記データ合成手段は、
　前記データ属性特定手段の特定結果に応じ、前記複数の音声情報データのそれぞれの緊急度の高い順で出力するよう並べて、前記音声情報データ列を形成する
ことを特徴とする請求項５に記載の音声情報出力装置。
　前記音声出力手段から出力される音声出力情報データに対応した、文字列データ形式の文字列出力情報データを表示する文字列出力手段を有する
ことを特徴とする請求項１～６のいずれか１項に記載の音声情報出力装置。