WO2006068123A1

WO2006068123A1 - 音声による選択装置、及び選択方法

Info

Publication number: WO2006068123A1
Application number: PCT/JP2005/023336
Authority: WO
Inventors: Kazuya Nomura
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-12-21
Filing date: 2005-12-20
Publication date: 2006-06-29
Also published as: CN1969315B; EP1768103A4; EP1768103A1; US20070219805A1; US7698134B2; CN1969315A; JP2006201749A; EP1768103B1

Abstract

　選択項目をガイドするガイド音声を出力する出力部（１０１）と、出力部（１０１）よって出力されたガイド音声の出力中又はその出力終了後に一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識部（１０６）と、音声認識部（１０６）によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択部（１０７）とを備えることにより、出力部（１０１）によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識部（１０６）によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

Description

明細書

音声による選択装置、及び選択方法

技術分野

[0001] 本発明は、システムによって提示された項目を音声により選択するための音声による選択装置、及び選択方法に関するものである。

背景技術

[0002] 従来、音声による選択装置として、制御対象を音声により特定した後に制御内容の選択項目を順次音声で出力し、選択するものが知られている（例えば、特開平 3— 2 93400号公報）。

[0003] 特開平 3— 293400号公報に記載のものによれば、スィッチを制御して音声制御システムを動作可能な状態にし、この状態で制御対象となる機器の名称を発声することにより、その名称が認識され、その名称の機器の制御項目が順次音声合成によって発せられ、適当な制御項目が発せられた段階で「YES」と発することにより、その項目に合った制御を実行することができる。

[0004] また、パソコンの画面をプロジェクタを用いて大画面にして表示し、その画面を基に、その画面に表示された項目を発することによりその項目が強調表示され、実行ボタンを操作すると、その項目の詳細が表示され、その項目の詳細の監視、制御が可能になると、うものも知られて、る（例えば、特開平 6 - 149534号公報)。

[0005] しかしながら、特開平 3— 293400号公報及び特開平 6— 149534号公報に記載されたものでは、具体的にシステムが提示する選択項目と重なったユーザーの声を受理する方法を与えておらず、従って、通常の音声認識方法では選択項目を合成音声により出力中は音声認識させることが困難であると同時に、システム力も提示される選択項目の出力方法も音声に限定され、例えば、音楽や画像などの選択を音声により直接行うことはできな、と、う問題を有して、た。

発明の開示

[0006] 本発明は、このような従来の問題に対処してなされたものであり、選択項目を合成音声により出力中でも、音楽や画像、その他を選択項目とした場合でも音声認識させることができる音声による選択装置、および選択方法を提供するものである。

[0007] 本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力部と、出力部よつて出力されたガイド音声の出力中又はその出力終了後に一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識部と、音声認識部によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択部とを備えた構成を有する。

[0008] この構成により、出力部によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識部によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

[0009] また、本発明の音声による選択装置は、出力部よつて出力されたガイド音声の出力中又はその出力終了後に一定時間内に選択指示が発声されな力つた場合、対話制御'結果選択部が出力部に選択項目の次の選択項目をガイドするガイド音声を出力するよう制御する構成を有する。

[0010] この構成により、選択項目を選択する音声を発しない場合には、次々と一定時間後に次の選択項目をガイドするガイド音声が出力されることになり、好きな選択項目で任意に選択指示を発し、該当の選択項目を選択することができる。

[0011] また、本発明の音声による選択装置は、音声認識部が、音声認識部に入力される音声カゝら出力部よつて出力されたガイド音声を減じる音声除去部を備えた構成を有する。

[0012] この構成により、出力部よつて出力されたガイド音声が音声認識部に入力され、音声認識部による選択指示の音声認識に支障を与えるのを極力排除することができ、ガイド音声出力中でも正確に選択指示を認識することができる。

[0013] また、本発明の音声による選択装置は、ガイド音声に対応する楽曲の一部または全部を再生する楽曲再生部をさらに備え、音声認識部が、楽曲再生部によって音楽を再生している間又はその後一定時間内に入力された選択指示を音声認識する構成を有する。

[0014] この構成により、ガイド音声に対応する楽曲の再生中、又は、その後一定時間内に選択項目を選択指示する音声を発するだけで、その楽曲を選択し、聴取することができる。

[0015] また、本発明の音声による選択装置は、ガイド音声に対応する画像を生成する画像生成部をさらに備え、音声認識部が、画像生成部によって画像を生成している間又はその後一定時間内に入力された選択指示を音声認識する構成を有する。

[0016] この構成により、ガイド音声に対応する画像を生成し表示している間、又は、その後一定時間内に選択項目を選択指示する音声を発するだけで、その画像を選択し、例えば、静止画であれば、静止画をそのまま継続してみることができ、動画であれば、その動画を引続いて見ることができることになる。

[0017] また、本発明の音声による選択装置は、出力部よつて出力されたガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部をさらに備え、音声認識部は、入力待ち時間設定部によって設定された一定時間内に発声された、選択項目を選択するための選択指示を認識する構成を有する。

[0018] この構成により、出力部によってガイド音声が出力されている間、その出力が終了し一定時間設けられた入力待ち時間が経過するまでに選択項目を選択する音声を発することで、音声認識部によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目をより確実に選択することができる。

[0019] さらに、本発明の音声による選択方法は、選択項目をガイドするガイド音声を出力する出力手順と、出力手順において出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手順と、音声認識手順によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択手順とを備えた構成を有する。

[0020] この構成により、出力手順においてガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識手順によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

[0021] 以上のように、本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力部と、出力部よつて出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識部と、音声認識部によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択部とを備えたものであり、出力部によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、その選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

[0022] また、本発明の音声による選択方法は、選択項目をガイドするガイド音声を出力する出力手順と、出力手順において出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手順と、音声認識手順によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択手順とを備えたものであり、出力手順においてガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、その選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

[0023] また、本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力部と、出力部よつて出力されたガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部と、入力待ち時間設定部によって設定された一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識部と、音声認識部によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択部とを備えたものであり、出力部によってガイド音声が出力されている間、その出力が終了し一定時間設けられた入力待ち時間が経過するまでに選択項目を選択する音声を発することで、音声認識部によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目をより確実に選択することができる。

図面の簡単な説明

[0024] [図 1]図 1は、本発明の実施の形態 1における音声による選択装置の概略構成を示すブロック図である。

[図 2]図 2は、本発明の実施の形態 1における音声による選択装置の動作を示すフロ一チャートである。

[図 3]図 3は、本発明の実施の形態 1における音声による選択装置の動作を示すタイムチャートである。

[図 4]図 4は、本発明の実施の形態 2における音声による選択装置の概略構成を示すブロック図である。

[図 5]図 5は、本発明の実施の形態 2における音声による選択装置の動作を示すフロ一チャートである。

[図 6]図 6は、本発明の実施の形態 2における音声による選択装置の動作を示すタイムチャートである。

[図 7]図 7は、本発明の実施の形態 3における音声による選択装置の概略構成を示すブロック図である。

[図 8]図 8は、本発明の実施の形態 3における音声による選択装置の動作を示すフロ一チャートである。

[図 9]図 9は、本発明の実施の形態 3における音声による選択装置の動作を示すタイムチャートである。

[図 10]図 10は、本発明の実施の形態 4における音声による選択装置の概略構成を示すブロック図である。

[図 11]図 11は、本発明の実施の形態 4における音声による選択装置の動作を示すフローチャートである。

[図 12]図 12は、本発明の実施の形態 4における音声による選択装置の動作を示すタィムチャートである。

符号の説明

101 スピーカ

102 マイクロホン

103 システム音声除去部

104 フィルタ係数学習部

105 適応フィルタ部

106 音声認識部 107, 1007 対話制御 ·結果選択部

108, 1008 応答生成部

109 応答音声データベース

110 減算器

411 音楽再生部

412 音楽データベース

413 ミキサー部

700 ディスプレイ

711 画像生成部

712 画像'動画データベース

1011 入力待ち時間設定部

発明を実施するための最良の形態

[0026] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0027] (実施の形態 1)

図 1は、本発明の実施の形態 1における音声による選択装置の概略構成を示すブロック図である。

[0028] 本発明の実施の形態 1における音声による選択装置は、図 1に示すように、ユーザ一に対してガイドとなる音声や音声応答といったシステム側の音声を出力する出力部としてのスピーカ（音声出力部） 101と、ユーザーが発した音声を音声信号に変換するマイクロホン 102と、スピーカ 101で出力されたガイド音に相当する出力相当信号を、マイクロホン 102から出力された音声信号から除去する音声除去部としてのシステム音声除去部 103と、マイクロホン 102から出力され、システム音声除去部 103によって重畳信号分を除去して得た音声信号に基づき、ユーザー音声の発話内容を認識する音声認識部 106と、音声認識部 106で得たユーザー音声の内容に基づき、対応する応答音声を選択してユーザーとの対話を制御すると同時に結果を選択する対話制御'結果選択部 107と、応答音声データを記憶した応答音声データベース 109と、対話制御 ·結果選択部 107の出力に基づき、応答音声データベース 109のデータを利用してスピーカ 101や音声応答除去部 103に出力するための音声応答信号を生成する応答生成部 108とを備えている。

[0029] システム音声除去部 103は、マイクロホン 102から出力された音声信号と応答生成部 108から出力された応答音声信号とに基づき、例えば、 LMS (Least Mean Sq uare) Zニュートンアルゴリズムを利用して得たフィルタ係数 (インパルス応答）を学習しながら最適に調整するフィルタ係数学習部 104と、フィルタ係数学習部 104からの出力であるインパルス応答により応答音声信号を補正して出力する適応フィルタ 105 と、マイクロホン 102より出力された音声信号力も適応フィルタ 105より出力された出力信号を減算する減算器 110とを有して、る。

[0030] 音声認識部 106は、マイクロホン 102から出力され、システム音声除去部 103で音声応答の相当重畳分を減算した音声信号を音響処理する音響処理部と、音響処理部で得た音声の最小単位を基に最もそれらしい音素候補を選びだし識別する音素識別部と、音声対話システムの利用目的に関連する単語等を記憶した辞書データべースと、音素認識部で得られた音素と辞書データベース力の音声データとを基にして単語の候補を選定し、構文、意味、文脈等の言語情報を利用しながら正しい文章を得るための言語処理を実行する言語処理部とを有している。

[0031] なお、音響処理部は、例えば、 LPCケプストラム（Linear Predictor Coefficien t Cepstrum:線形予測係数ィ匕ケプストラム)等を利用して、マイクロホン 102から出力された音声信号を特徴量ベクトルという時系列のベクトルに変換し、音声スペクトルの概形 (スペクトル包絡)を推定するように構成して、る。

[0032] また、音素識別部は、例えば、 HMM (Hidden Markov Model:隠れマルコフモデル)法等を利用して、入力された音声を基に音響処理部で抽出した音響パラメータを用い、音声信号の音素記号化を行い、予め用意してある標準音素モデルと比較し、最もそれらし、音素の候補を選び出すように構成して、る。

[0033] 一方、対話制御 ·結果選択部 107は、音声認識部 106で認識した音声信号の内容に基づき、応答内容を選択制御して応答生成部 108へ出力すると同時に結果を選択出力するようにしてある。

[0034] 応答生成部 108は、対話制御 ·結果選択部 107で決定した内容に基づき、応答音声データベース 109からのデータを利用して応答音声信号を生成し、スピーカ 101 に出力する。

[0035] 次に、本発明の実施の形態 1における音声による選択装置の動作を図 2、図 3を用いて詳細に説明する。

[0036] なお、図 2は、本発明の実施の形態 1における音声による選択装置の動作を説明するフローチャート、図 3は、タイムチャートである。

[0037] まず、選択開始動作に入ると、対話制御，結果選択部 107の制御の基で、選択項目のカウンタ Nが 1にセットされる（ステップ 201)。選択項目のカウンタ Nが 1にセットされると、次に、応答生成部 108が対話制御 ·結果選択部 107からの指令に基づき応答音声データベース 109からガイド音声をスピーカ 101へ出力する（ステップ 202)

[0038] 例えば、図 3のシステムのタイムチャートに示すように、「次の中からご希望の曲名を選んでください。」というようなガイド音声（301)をスピーカ 101へ出力する。

[0039] ガイド音声がスピーカ 101から出力されると、次に、ユーザーからの選択指示を音声認識できるように音声認識の起動を行う (ステップ 203)。これにより、音声認識部 1 06力図 3に示すように、起動する（302)。

[0040] 音声認識部 106が起動すると、次に、対話制御，結果選択部 107の制御の基で、応答生成部 108が応答音声データベース 109をアクセスし、第 1番目の選択項目に対応する音声データを出力する (ステップ 204)。

[0041] すなわち、これにより、例えば、図 3に示すように、「めだかの学校。」というガイド音声 (303)をスピーカ 101へ出力する。そして、「めだかの学校。」というガイド音声 (303 )が出力されている間 308Aと、その出力が終了した後の一定時間（入力待ち時間） 3 08Bは、第 1番目の選択項目である「めだかの学校」を選択できる時間 308となる。したがって、この間 308にユーザーが選択を指示する言葉、例えば、「これだ！」という言葉を発声すれば、「めだかの学校」を選択することができる。

[0042] 「めだかの学校」を選択することができる期間 308に、ユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声しな力つた場合には、選択項目のカウンタ N に 1を加え、次の選択項目に対応するガイド音声を出力する状態になる。

[0043] すなわち、選択項目に対応する音声を出力すると (ステップ 204)、その選択項目の提示中、または提示終了後一定時間内にユーザーが選択を指示する言葉を発声した力どうかの判定を対話制御 ·結果選択部 107が実施する (ステップ 205)。

[0044] ユーザーが選択指示した場合 (ステップ 205にお、て「は、」の場合）には、そこで

、例えば、「めだかの学校」が選択されるが、選択指示しな力つた場合 (ステップ 205 にお、て「、え」の場合）には、選択項目のカウンタ Nに 1を加え (ステップ 206)、次の選択項目に対応する音声、すなわち、第 2番目の選択項目に対応するガイド音声を出力する状態になる (ステップ 204)。

[0045] これにより応答生成部 108が、応答音声データベース 109をアクセスし、 2番目のガイド音声である、例えば「てるてる坊主。」というガイド音声（304)をスピーカ 101に出力する。

[0046] この場合も、「てるてる坊主。」というガイド音声 (304)を出力している間 309Aと、その出力が終了した後の一定時間 (入力待ち時間） 309Bは、第 2番目の選択項目である「てるてる坊主」を選択できる時間 309となり、この期間 309にユーザーが選択指示する言葉、例えば、「これだ！」という言葉を発声すれば、第 2番目の選択項目である「てるてる坊主」を選択することができるようになる。

[0047] 選択項目提示中、または、提示終了後一定時間内に、ユーザーが選択を指示する言葉、例えば「これだ！」という言葉を発声しな力つた場合には、それが対話制御'結果選択部 107で判定され (ステップ 205)、その判定後、「いいえ」のパスに分岐し、先と同様に、選択項目のカウンタ Nに 1をカ卩ぇ (ステップ 206)、次の第 3番目の選択項目に対応するガイド音声を出力するようになる (ステップ 204)。

[0048] そして、これにより応答生成部 108が、応答音声データベース 109をアクセスし、第 3番目のガイド音声として、例えば「キラキラ星。」というガイド音声 (305)をスピーカ 10 1へ出力する。

[0049] 第 3番目のガイド音声「キラキラ星。」（305)が出力されている期間 310Aと、出力が終了した後の一定時間 (入力待ち時間） 310Bは、第 3番目の選択項目である「キラキラ星」を選択できる時間 310であり、この期間 310にユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声すれば、第 3番目の選択項目である「キラキラ星」を選択できるようになる。 [0050] 図 3では、ユーザーが第 3番目の選択項目である「キラキラ星」を選択指示するために、第 3番目のガイド音声「キラキラ星。」(305)が出力されている間、または、その後一定期間の間に、それを選択するための音声、例えば「これだ！」という指示音声 (3

06)を発声したものとして!/、る。

[0051] ここで、ガイド音声「キラキラ星。」（305)を出力している間に、ユーザーが「これだ！」という指示音声（306)と発声すれば、ガイド音声「キラキラ星。」（305)と、「これだ！」（306)という指示音声が重なってマイクロホン 102に入力される力音声応答除去部 103にてガイド音声相当分の信号、すなわち、「キラキラ星。」（305)の音声相当分の信号がマイクロホン 102に入力された信号から除去され、音声認識部 106ではュ一ザ一が発声した指示音声「これだ！」（306)を正しく認識することができる。

[0052] 図 2において、選択項目提示中、または提示終了後一定時間内に、ユーザーが選択指示する言葉、例えば「これだ！」と言う言葉を発声した場合には、それが音声認識部 106で認識され、対話制御 ·結果選択部 107で判定され (ステップ 205)、「はい」のパスに分岐する。

[0053] 「はい」のパスに分岐すると、音声認識を行ってその音声認識を終了し (ステップ 20

7)、そのときの選択項目を選択し (ステップ 208)、以降、選択された結果、例えば「キラキラ星」に基づいて、対話制御 ·結果選択部 107が対話制御を行う。

[0054] なお、図示していないが、最後の選択項目が提示された段階で、一定時間経過しても選択指示する言葉がユーザー力発声せられない場合、スピーカ 101からタイムアウトと、う警告を行、、音声認識を終了して選択を中止するように構成して、る。

[0055] 以上のように、本発明の実施の形態 1によれば、システムが音声による選択項目を提示している期間、または、提示終了後一定時間設けられた入力待ち時間内に、ュ一ザ一が選択指示を行う言葉を発声した場合には、その選択指示する言葉を発した段階の選択項目を選択することができる。

[0056] (実施の形態 2)

図 4は、本発明の実施の形態 2における音声による選択装置の概略構成を示すブロック図、図 5は、同装置の動作を説明するフローチャート、図 6は、同装置の動作を説明するタイムチャートである。 [0057] なお、図 4〜図 6において、図 1〜図 3に示した実施の形態 1と同一の符号、番号などを付したものは、図 1〜図 3に示した実施の形態 1と同一の構成、同一の内容のものを示しており、ここではその詳細な説明は省略する。

[0058] 本実施の形態では、実施の形態 1の構成に加え、更に、対話制御'結果選択部 10

7の指令により制御される音楽再生部 411と、音楽を複数蓄積した音楽データベース

412とを備えている。

[0059] 音楽再生部 411は、対話制御 ·結果選択部 107からの指示により音楽データべ一ス 412をアクセスし、対話制御 ·結果選択部 107にお、て指示した音楽を再生するように構成されている。そして、音楽再生部 411で再生された音楽は、ミキサー 413を介して応答生成部 108からの出力と共にスピーカ 101に出力するように構成されている。

[0060] 図 6において、音楽出力によるガイド音楽 603〜605は、図 3のガイド音声 303〜3 05にそれぞれ対応して!/、る。

[0061] したがって、本実施の形態によれば、図 5、図 6に示すように、選択項目となるガイド音声を出力するだけでなぐその選択項目に対応する音楽、そのものを同時に出力することになり、音楽を選択する場合により便利である。

[0062] すなわち、本実施の形態によれば、実施の形態 1にお!、て、第 N番目の選択項目に対応するガイド音声を出力するステップ 204が、第 N番目の選択項目に対応する音楽を出力するステップ 504になっており、このステップ 504において、第 N番目の選択項目に対応するガイド音声と、第 N番目の選択項目に対応する音楽の両方を順に出力すれば、先ず、曲名が出力され、続いて音楽が出力されるため、音楽を選択する場合に、より便利〖こなる。

[0063] なお、ここで、選択のために出力する音楽は、音楽全部（ひとつの楽曲全体)でなくてもよく、例えば、イントロだけ、或いは、サビ部分だけで充分である。そして、選択のために出力する音楽が全部であってもイントロやサビの部分だけであっても、選択のために出力した音楽が選択された場合、音楽生成部 411により、その音楽をそのまま継続して出力することもできるし、一旦音楽の最初に戻って力出力することも可能である。 [0064] このように、本実施の形態によれば、音楽を選択項目として提示し、その間、または

、提示終了後一定時間内にユーザーが選択指示する言葉を発声すれば、そのユーザ一が希望した音楽を容易に選択することができる。

[0065] (実施の形態 3)

図 7は、本発明の実施の形態 2における音声による選択装置の概略構成を示すブロック図、図 8は、同装置の動作を説明するフローチャート、図 9は、同装置の動作を説明するタイムチャートである。

[0066] なお、図 7〜図 9において、図 1〜図 3に示した実施の形態 1と同一の符号、番号などを付したものは、図 1〜図 3に示した実施の形態 1と同一の構成、同一の内容のものを示して!/、るので、ここではその詳細な説明は省略する。

[0067] 本実施の形態では、実施の形態 1の構成に加え、更に、対話制御'結果選択部 10

7の指令により制御される画像生成部 711と、静止画、動画などの画像を複数蓄積した画像データベース 712と、画像生成部 711で生成された画像を表示するディスプレイ 700とを備えている。

[0068] 画像生成部 711は、対話制御 ·結果選択部 107からの指示により画像データべ一ス 712をアクセスし、対話制御'結果選択部 107において指示した静止画、動画などの画像データを出力し、画像を生成するように構成されている。そして、画像生成部

711で生成された画像は、ディスプレイ 700で表示される。

[0069] 図 9において、音声出力によるガイド音声 901、ディスプレイへの表示によるによるガイド画像 903〜905ίま、図 3のガイド音声 301、 303〜305【こそれぞれ対応して!/ヽる。

[0070] したがって、本実施の形態によれば、図 8、図 9に示すように、選択項目となるガイド音声を出力するだけでなぐその選択項目に対応する画像をも同時にディスプレイ 7 00で表示することになり、選択項目を選択する場合により便利である。

[0071] すなわち、本実施の形態によれば、実施の形態 1において、第 Ν番目の選択項目に対応するガイド音声を出力するステップ 204が、第 Ν番目の選択項目に対応する画像を出力するステップ 804になり、このステップ 804において、第 Ν番目の選択項目に対応するガイド音声と、第 Ν番目の選択項目に対応する画像の両方を出力し、前者はスピーカ 101から音声として、後者はディスプレイ 700で画像、又は、動画として表示される。そのため、これらを基に、選択項目をより容易に選択することができるようになる。

[0072] なお、選択のために出力する画像が動画である場合、その動画の全部でなくてもよぐ例えば、最初の、あるいはサビの一定時間だけで充分である。そして、選択のために出力する画像が全部であっても一定時間だけであっても、選択のために出力した画像が選択された場合、画像生成部 711により、その画像をそのまま継続して表示することもできるし、ー且動画の最初に戻って力も表示することも可能である。

[0073] このように、本実施の形態によれば、選択項目のガイド音声に加え、それに対応する画像をも選択項目として提示し、その提示の時間、または、提示終了後一定時間内にユーザーが選択指示する言葉を発声すれば、そのユーザーが希望した選択項目を選択できるようにしているため、例えば、絵画や映画といった画像そのものでも良いが、音楽の場合、ジャケットの画像を提示することによって、音楽をより選択しやすくすることができるという効果を有する。

[0074] (実施の形態 4)

上記各実施の形態では、例えば図 3に示す、選択のための時間 308B、 309B等を積極的に設ける構成は有していないが、この選択のための時間 308B、 309B等を設ける入力待ち時間設定部を有する音声による選択装置について図 10から図 12を用いて説明する。

[0075] この入力待ち時間設定部を備えることで、より確実に音声認識を行うことが出来る。

[0076] 図 10は、本発明の実施の形態 4における音声による選択装置の概略構成を示すブロック図、図 11は、同装置の動作を説明するフローチャート、図 12は、同装置の動作を説明するタイムチャートである。

[0077] 図 10において、本実施の形態の基本的な構成は、上記実施の形態 1記載の音声による選択装置の構成図と同様であるため、両者の相違点につ、てのみここでは説明し、その他の基本的な構成、動作については省略する。

[0078] 本実施の形態の対話制御 ·結果選択部 1007と応答生成部 1008は、実施の形態 1 のそれらとは異なる機能を有しており、さらに本実施の形態では、対話制御'結果選択部 1007と応答生成部 1008とに接続される入力待ち時間設定部 1011を有している。

[0079] 実施の形態 1と同様に、対話制御，結果選択部 1007の制御の下、音声認識部 106 が起動すると、応答生成部 1008が応答音声データベース 109をアクセスし、選択項目に対応する音声データを出力する。

[0080] さらに、対話制御，結果選択部 1007では、選択項目に対応する音声データが出力され終わった力否かを判定する。

[0081] 対話制御 ·結果選択部 1007の判定の結果、音声データが出力されたことが確認されたとき、ユーザーが応答するための期間を設定する入力待ち時間設定部 1011により、入力待ち時間が設定される。

[0082] 応答生成部 1008では、この入力待ち時間の間、対話制御'結果選択部 1007により、その動作が禁止される。

[0083] 次に、本実施の形態の音声による選択装置による動作について、図 11と図 12とを用いて説明するが、音声認識の起動まで (ステップ 201〜ステップ 203)は、実施の形態 1の動作と同様であるので、ここでは省略する。

[0084] ステップ 203で音声認識部 106が起動すると、次に、対話制御'結果選択部 1007 の制御の基で、応答生成部 1008が応答音声データベース 109をアクセスし、第 1番目の選択項目に対応する音声データを出力する (ステップ 204)。

[0085] すなわち、これにより、例えば、図 12に示すように、「めだかの学校。」というガイド音声 (303)をスピーカ 101へ出力する。

[0086] 次に、対話制御 ·結果選択部 1007は、「めだかの学校。」というガイド音声 (303)の出力が終了した力否かの判定を行う。

[0087] 判定の結果、ガイド音声 (303)の出力が終了している場合は、入力待ち時間設定部 1011は、対話制御 ·結果選択部 1007の制御の下、入力待ち時間 1208Bを設定する（ステップ 1109)。

[0088] そして、「めだかの学校。」というガイド音声 (303)が出力されている間 308Aと、その出力が終了した後の一定時間 1208Bは、第 1番目の選択項目である「めだかの学校」を選択できる時間 1208となる。したがって、この間 1208にユーザーが選択を指示する言葉、例えば、「これだ！」という言葉を発声すれば、「めだかの学校」を選択することができる。

[0089] 対話制御，結果選択部 1007は、入力待ち時間設定部 1011で設定された入力時間の間、応答生成部 1008により、次のガイド音声、または、誤作動によるガイド音声等が起きないように応答生成部 1008の動作を禁止する。

[0090] 応答生成部 1008の動作を禁止する力否かは、入力待ち時間設定部 1011で設定された時間が経過したか否かの判定により行う。

[0091] 次に、「めだかの学校」を選択することができる期間 1208に、ユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声しな力つた場合には、選択項目のカウンタ Nに 1を加え、次の選択項目に対応するガイド音声を出力する状態になる。

[0092] すなわち、ステップ 204で選択項目に対応する音声を出力すると、その選択項目の提示中、または提示終了後、ステップ S1109で設定された入力待ち時間の一定時間内にユーザーが選択を指示する言葉を発声した力どうかの判定を、対話制御 ·結果選択部 1007が行う（ステップ 1105)。

[0093] 次に、入力待ち時間中にユーザーが選択を指示する言葉を発声した場合 (ステツプ 1105において「はい」の場合）には、そこで、例えば、「めだかの学校」が選択される力選択を指示する言葉を発声しなかった場合 (ステップ 1105にお、て「、、え」の場合）には、選択項目のカウンタ Nに 1をカ卩ぇ (ステップ 1106)、次の選択項目に対応する音声、すなわち、第 2番目の選択項目に対応するガイド音声を出力する状態になる（ステップ 204)。

[0094] このとき、図 12において、第 2番目または第 3番目の選択項目に対しては、ガイド音声（304または 305)が出力している間 309Aまたは 310Aと、それぞれの出力が終了した後のそれぞれの一定時間 1209Bまたは 1210B力第 2番目または第 3番目の選択項目を選択できる時間 1209または 1210となる。

[0095] その後の処理は、実施の形態 1の図 2に示す動作と同様である。

[0096] 以上より、本実施の形態では、入力待ち時間設定部 1011を備えることで、ユーザ一の応答を待つ、積極的な待ち時間を設定することができる。

[0097] このように積極的に待ち時間を設定することで、次のガイド音声等が誤って入力待ち時間中に出力されて、入力待ち時間を侵食するということなぐ確実にユーザーの応答できる期間を必ず設けることができる。

[0098] 本実施の形態の入力待ち時間設定部 1011を備えた構成は、上記実施の形態 2や実施の形態 3の構成にも適用して、本実施の形態と同様の動作および効果が得られることは、言うまでもなヽことである。

[0099] なお、本発明は、上記各実施の形態を適宜組み合わせて、例えば、選択項目のガイド音声に加え、それに対応する画像及び楽曲をも選択項目として提示し、その提示の時間、または、提示終了後一定時間設けられた入力待ち時間内にユーザーが選択指示する言葉を発声することにより、そのユーザーが希望した選択項目を選択できるようにしても良い。

産業上の利用可能性

[0100] 本発明にかかる音声による選択装置は，選択項目をガイドするガイド音声を出力する出力部と、出力部よつて出力されたガイド音声の出力中又はその出力終了後設けられた入力待ち時間一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識部と、音声認識部によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御 ·結果選択部とを備えた構成を有し、カーオーディオ、カーエアコンなどの車載用電子機器や、電子黒板、プロジェクタなどの電子事務機器、体の不自由な方用の家庭用電子機器などとして幅広く有用である。

Claims

請求の範囲

[1] 選択項目をガイドするガイド音声を出力する出力部と、前記出力部よつて出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に発声された、前記選択項目を選択するための選択指示を認識する音声認識部と、前記音声認識部によつて前記選択指示が認識された場合、前記選択指示された選択項目を選択する対話制御，結果選択部とを備えた音声による選択装置。

[2] 前記出力部よつて出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に選択指示が発声されなかった場合、前記対話制御 ·結果選択部が前記出力部に前記選択項目の次の選択項目をガイドするガイド音声を出力するよう制御することを特徴とする請求項 1記載の音声による選択装置。

[3] 前記音声認識部が、前記音声認識部に入力される音声力前記出力部よつて出力された前記ガイド音声を減じる音声除去部を備えた請求項 1に記載の音声による選択装置。

[4] 前記ガイド音声に対応する楽曲の一部または全部を再生する楽曲再生部をさらに備え、前記音声認識部が、前記楽曲再生部によって前記楽曲を再生している間又は再生終了後に一定時間内に入力された選択指示を音声認識することを特徴とする請求項 1に記載の音声による選択装置。

[5] 前記ガイド音声に対応する画像を生成する画像生成部をさらに備え、前記音声認識部力前記画像生成部によって前記画像を生成している間又は生成後に一定時間内に入力された選択指示を音声認識することを特徴とする請求項 1に記載の音声による選択装置。

[6] 前記出力部よつて出力された前記ガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部をさらに備え、前記音声認識部は、前記入力待ち時間設定部によって設定された前記一定時間内に発声された、前記選択項目を選択するための選択指示を認識することを特徴とする請求項 1に記載の音声による選択装置。

[7] 選択項目をガイドするガイド音声を出力する出力手順と、前記出力手順において出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に発声された、前記選択項目を選択するための選択指示を認識する音声認識手順と、前記音声認識手順によって前記選択指示が認識された場合、前記選択指示された選択項目を選択する対話制御 ·結果選択手順とを備えた音声による選択方法。