JPWO2019130399A1

JPWO2019130399A1 - 音声認識装置、音声認識システム及び音声認識方法

Info

Publication number: JPWO2019130399A1
Application number: JP2019561409A
Authority: JP
Inventors: 直哉馬場; 匠武井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-04-23
Also published as: DE112017008305T5; US20200411012A1; WO2019130399A1; CN111556826A

Abstract

音声認識装置（１００）は、車両（１）における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部（１４）と、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部（１５）と、発話者特定部（１５）による特定結果に応じて、発話者に対する応答の態様を設定する応答態様設定処理を実行する応答態様設定部（１７）とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様を設定する処理である。

Description

本発明は、音声認識装置、音声認識システム及び音声認識方法に関する。

従来、車両内の情報機器に対する操作入力用の音声認識装置が開発されている。以下、車両における音声認識の対象となる座席を「音声認識対象座席」という。また、音声認識対象座席に着座している搭乗者のうちの操作入力用の音声を発話した搭乗者を「発話者」という。また、発話者により発話された操作入力用の音声を「発話音声」という。

特許文献１には、音声認識対象座席である運転席及び助手席のうちの発話者が着座している座席を特定する技術が開示されている。これにより、音声認識対象座席に複数人の搭乗者が着座している場合における適切な操作入力を実現している。

特開平１１−６５５８７号公報

近年、いわゆる「対話型」のＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）に対応した音声認識装置が開発されている。すなわち、発話音声に対する音声認識を実行することにより操作入力を受け付けるのに加えて、当該発話音声に対する応答用の音声（以下「応答用音声」という。）をスピーカに出力させたり、又は当該発話音声に対する応答用の画像（以下「応答用画像」という。）をディスプレイに表示させたりするＵＩが開発されている。以下、対話型のＵＩにおける応答用音声及び応答用画像などを総称して単に「応答」ということがある。

対話型のＵＩに対応した音声認識装置においては、音声認識対象座席に複数人の搭乗者が着座している場合、当該複数人の搭乗者のうちの発話者に対する応答が出力される。このとき、当該複数人の搭乗者の各々が、応答が自身に対するものであるか否かを識別し難いという問題があった。特に、複数人の発話者に対する応答が略同時に出力された場合、識別が更に困難になるという問題があった。

本発明は、上記のような課題を解決するためになされたものであり、音声認識対象座席に着座している複数人の搭乗者の各々に、対話型のＵＩにおける応答が自身に対するものであるか否かを知らせることを目的とする。

本発明の音声認識装置は、車両における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部と、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部と、発話者特定部による特定結果に応じて、発話者に対する応答の態様を設定する応答態様設定処理を実行する応答態様設定部とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様を設定する処理であることを特徴とするものである。

本発明によれば、上記のように構成したので、音声認識対象座席に着座している複数人の搭乗者の各々に、対話型のＵＩにおける応答が自身に対するものであるか否かを知らせることができる。

本発明の実施の形態１に係る音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。表示装置に応答用画像が表示されている状態を示す説明図である。表示装置に他の応答用画像が表示されている状態を示す説明図である。図４Ａは、本発明の実施の形態１に係る音声認識装置が設けられている情報機器のハードウェア構成を示すブロック図である。図４Ｂは、本発明の実施の形態１に係る音声認識装置が設けられている情報機器の他のハードウェア構成を示すブロック図である。本発明の実施の形態１に係る音声認識装置が設けられている情報機器の動作を示すフローチャートである。本発明の実施の形態１に係る音声認識装置のうちの音声認識部の詳細な動作を示すフローチャートである。本発明の実施の形態１に係る音声認識システムの要部を示すブロック図である。本発明の実施の形態２に係る音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。本発明の実施の形態２に係る音声認識装置のうちの搭乗者特定部の動作を示すフローチャートである。本発明の実施の形態２に係る音声認識装置のうちの搭乗者特定部の詳細な動作を示すフローチャートである。本発明の実施の形態２に係る音声認識装置が設けられている情報機器のうちの搭乗者特定部を除く部位の動作を示すフローチャートである。本発明の実施の形態２に係る音声認識装置のうちの音声認識部の詳細な動作を示すフローチャートである。本発明の実施の形態２に係る他の音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。本発明の実施の形態２に係る他の音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。本発明の実施の形態２に係る音声認識システムの要部を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
図１は、実施の形態１に係る音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。図１を参照して、実施の形態１の音声認識装置１００について、車両１内の情報機器２に設けられている例を中心に説明する。

図中、３は集音装置である。集音装置３は、例えば、車両１の車室内前方部に設けられたＮ個のマイク３_１〜３_Ｎにより構成されている（Ｎは２以上の整数）。より具体的には、例えば、マイク３_１〜３_Ｎの各々が無指向性マイクにより構成されており、一定間隔に配列されたマイク３_１〜３_Ｎによりアレイマイクが構成されている。集音装置３は、マイク３_１〜３_Ｎにより集音された音声に対応する信号（以下「音声信号」という。）Ｓ_１〜Ｓ_Ｎを出力するものである。すなわち、音声信号Ｓ_１〜Ｓ_Ｎはマイク３_１〜３_Ｎと一対一に対応するものである。

音声信号取得部１１は、集音装置３により出力された音声信号Ｓ_１〜Ｓ_Ｎを取得するものである。音声信号取得部１１は、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）により、音声信号Ｓ_１〜Ｓ_Ｎに対するアナログデジタル変換（以下「Ａ／Ｄ変換」という。）を実行するものである。音声信号取得部１１は、Ａ／Ｄ変換後の音声信号Ｓ_１’〜Ｓ_Ｎ’を音声信号処理部１２に出力するものである。

音声信号処理部１２は、集音装置３に対する発話音声の入力方向（以下「発話方向」という。）を推定するものである。具体的には、例えば、集音装置３は、車両１の車室内前方部において車両１の左右方向に対する中心部に配置されている。以下、集音装置３の配置位置を通り、かつ、車両１の前後方向に対して平行な軸を「中心軸」という。音声信号処理部１２は、音声信号Ｓ_１’〜Ｓ_Ｎ’間のパワーの差分値又は音声信号Ｓ_１’〜Ｓ_Ｎ ’間の位相差などに基づき、集音装置３の配置位置を基準とする中心軸に対する左右方向の角度θにより表される発話方向を推定する。

また、音声信号処理部１２は、音声信号Ｓ_１’〜Ｓ_Ｎ’のうちの当該推定された発話方向と異なる方向から集音装置３に入力された音声に対応する成分を除去することにより、発話音声と異なる音声に対応する成分（以下「ノイズ成分」という。）を除去するものである。音声信号処理部１２は、ノイズ成分が除去された音声信号Ｓ_１”〜Ｓ_Ｍ”を音声認識処理部１３に出力するものである。なお、ＭはＮ以下の整数であり、例えば音声認識対象座席の座席数に対応する値である。

ノイズ成分は、例えば、車両１の走行により発生した騒音に対応する成分、及び車両１の搭乗者のうちの発話者と異なる搭乗者により発話された音声に対応する成分（すなわち搭乗者間の会話などにより発生した非操作入力用の音声に対応する成分）などを含むものである。音声信号処理部１２におけるノイズ成分の除去には、ビームフォーミング法、バイナリマスキング法又はスペクトルサブトラクション法などの公知の種々の方法を用いることができる。このため、音声信号処理部１２におけるノイズ成分の除去についての詳細な説明は省略する。

音声認識処理部１３は、音声信号Ｓ_１”〜Ｓ_Ｍ”のうちの発話音声に対応する音声区間（以下「発話区間」という。）を検出するものである。音声認識処理部１３は、発話区間内の音声信号Ｓ_１”〜Ｓ_Ｍ”から音声認識処理用の特徴量（以下「第１特徴量」という。）を抽出するものである。音声認識処理部１３は、第１特徴量を用いて音声認識処理を実行するものである。

音声認識処理部１３における音声認識処理には、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法などの公知の種々の方法を用いることができる。このため、音声認識処理部１３における音声認識処理についての詳細な説明は省略する。

また、音声認識処理部１３は、発話区間内の音声信号Ｓ_１”〜Ｓ_Ｍ”から、発話者の個人を特定する処理（以下「個人特定処理」という。）用の特徴量（以下「第２特徴量」という。）を抽出するものである。

音声信号取得部１１、音声信号処理部１２及び音声認識処理部１３により、音声認識部１４が構成されている。すなわち、音声認識部１４は、発話音声に対する音声認識を実行するものである。

なお、発話者が１人である場合、音声認識部１４は当該１人の発話者による発話音声に対する音声認識を実行するものとなる。他方、発話者が複数人である場合、音声認識部１４は当該複数人の発話者の各々による発話音声に対する音声認識を実行するものとなる。

発話者特定部１５は、音声認識処理部１３により抽出された第２特徴量を用いて個人特定処理を実行するものである。

具体的には、例えば、発話者特定部１５には、第２特徴量に対応する複数人分の特徴量を含むデータベースが予め記憶されている。発話者特定部１５は、音声認識処理部１３により抽出された第２特徴量を当該複数人分の特徴量の各々と比較することにより、発話者の個人を特定する。

または、発話者特定部１５は、音声信号処理部１２により推定された発話方向に基づき、音声認識対象座席のうちの発話者が着座している座席を特定する処理（以下「座席特定処理」という。）を実行するものである。

具体的には、例えば、集音装置３の配置位置を基準とする中心軸に対する各音声認識対象座席の位置を示す角度（以下「実角度」という。）φが予め計測されており、各音声認識対象座席の実角度φが発話者特定部１５に予め記憶されている。発話者特定部１５は、音声信号処理部１２により推定された発話方向が示す角度θを各音声認識対象座席に対応する実角度φと比較することにより、発話者が着座している座席を特定する。

一例として、車両１の運転席及び助手席が音声認識対象座席であり、運転席に対応する実角度φである＋２０°と助手席に対応する実角度φである−２０°とが発話者特定部１５に予め記憶されているものとする。この場合において、音声信号処理部１２により推定された発話方向の示す角度θが＋１８°であるとき、発話者特定部１５は、発話者の着座している座席が運転席であると特定する。

または、発話者特定部１５は、個人特定処理及び座席特定処理の両方を実行するものである。

なお、発話者が１人である場合、個人特定処理は当該１人の発話者の個人を特定する処理となり、座席特定処理は当該１人の発話者が着座している座席を特定する処理となる。他方、発話者が複数人である場合、個人特定処理は当該複数人の発話者の各々の個人を特定する処理となり、座席特定処理は当該複数人の発話者の各々が着座している座席を特定する処理となる。

また、発話者特定部１５が個人特定処理のみを実行するものである場合、図１に示す音声信号処理部１２と発話者特定部１５間の接続線は不要である。また、発話者特定部１５が座席特定処理のみを実行するものである場合、音声認識処理部１３による第２特徴点の抽出は不要であり、かつ、図１に示す音声認識処理部１３と発話者特定部１５の接続線は不要である。

応答内容設定部１６は、発話音声に対する応答の内容（以下「応答内容」という。）を設定する処理（以下「応答内容設定処理」という。）を実行するものである。応答態様設定部１７は、発話音声に対する応答の態様（以下「応答態様」という。）を設定する処理（以下「応答態様設定処理」という。）を実行するものである。応答出力制御部１８は、応答内容設定部１６により設定された応答内容及び応答態様設定部１７により設定された応答態様に基づき、発話音声に対する応答を出力する制御（以下「応答出力制御」という。）を実行するものである。

具体的には、例えば、応答態様設定部１７は、応答用音声の出力態様を設定する。応答出力制御部１８は、いわゆる「音声合成」により、応答態様設定部１７により設定された出力態様に基づく応答用音声を生成する。応答出力制御部１８は、当該生成された応答用音声を音声出力装置４に出力させる制御を実行する。音声出力装置４は、例えば、複数個のスピーカにより構成されている。

応答出力制御部１８における音声合成には、公知の種々の方法を用いることができる。このため、応答出力制御部１８における音声合成についての詳細な説明は省略する。

また、例えば、応答態様設定部１７は、応答用画像の表示態様を設定する。応答出力制御部１８は、応答態様設定部１７により設定された表示態様に基づく応答用画像を生成する。応答出力制御部１８は、当該生成された応答用画像を表示装置５に表示させる制御を実行する。表示装置５は、例えば、液晶ディスプレイ又は有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどのディスプレイにより構成されている。

なお、発話者が１人である場合、応答内容設定処理は当該１人の発話者に対する応答の内容を設定する処理となり、応答内容態様設定処理は当該１人の発話者に対する応答の態様を設定する処理となり、応答出力制御は当該１人の発話者に対する応答を出力する制御となる。他方、発話者が複数人である場合、応答内容設定処理は当該複数人の発話者の各々に対する応答の内容を設定する処理となり、応答内容態様設定処理は当該複数人の発話者の各々に対する応答の態様を設定する処理となり、応答出力制御は当該複数人の発話者の各々に対する応答を出力する制御となる。

以下、応答内容設定処理、応答態様設定処理及び応答出力制御の具体例について説明する。

〈応答内容設定処理の具体例〉
応答内容設定部１６は、音声認識処理部１３による音声認識処理の結果を取得する。応答内容設定部１６は、予め記憶されている複数個の応答文のうちの音声認識処理の結果に対応する応答文を選択する。このときの選択は、音声認識処理の結果と予め記憶されている複数個の応答文との対応関係に関する所定のルールに基づくものであっても良く、又は大量の対話文例を用いた機械学習の結果による統計モデルに基づくものであっても良い。

なお、応答内容設定部１６は、いわゆる「クラウド」から天気情報又はスケジュール情報などを取得して、これらの情報を含む応答文を生成するものであっても良い。

〈応答態様設定処理及び応答出力制御の第１具体例〉
応答態様設定部１７は、発話者特定部１５による個人特定処理の結果を取得する。また、応答態様設定部１７は、応答内容設定部１６により選択又は生成された応答文（以下「出力用応答文」という。）を取得する。応答態様設定部１７は、個人特定処理の結果が示す発話者の氏名などに基づき、発話者に対する呼称を出力用応答文に付加する。応答出力制御部１８は、当該呼称を含む出力用応答文に対応する応答用音声又は応答用画像を生成する。

例えば、運転席に着座している発話者による「迂回ルートを検索して。」という発話音声に対して、個人特定処理の結果が当該発話者の氏名「Ａ」を示しており、応答内容設定部１６が「迂回ルートを検索しました。案内します。」という出力用応答文を選択したものとする。この場合、応答態様設定部１７は、応答内容設定部１６により選択された出力用応答文の先頭部に呼称を付加することにより、「Ａさん、迂回ルートを検索しました。案内します。」という出力用応答文を生成する。応答出力制御部１８は、応答態様設定部１７により生成された出力用応答文に対応する応答用音声又は応答用画像を生成する。図２に、この場合における応答用画像Ｉの一例を示す。

または、例えば、運転席に着座している発話者による「今日のスケジュールを教えて。」という発話音声に対して、個人特定処理の結果が当該発話者の氏名「Ａ」を示しており、応答内容設定部１６がスケジュール情報を用いて「今日は１４時より歯医者の予約が入っています。」という出力用応答文を生成したものとする。また、助手席に着座している発話者による「私のスケジュールも教えて。」という発話音声に対して、個人特定処理の結果が当該発話者の氏名「Ｂ」を示しており、応答内容設定部１６がスケジュール情報を用いて「今日は１７時より友人との飲み会が入っています。」という出力用応答文を生成したものとする。

この場合、応答態様設定部１７は、応答内容設定部１６により生成された各出力用応答文の先頭部に呼称を付加することにより、「Ａさん、今日は１４時より歯医者の予約が入っています。」という出力用応答文と「Ｂさん、今日は１７時より友人との飲み会が入っています。」という出力用応答文とを生成する。応答出力制御部１８は、これらの出力用応答文の各々に対応する応答用音声又は応答用画像を生成する。

または、応答態様設定部１７は、発話者特定部１５による座席特定処理の結果を取得する。また、応答態様設定部１７は、応答内容設定部１６により選択又は生成された出力用応答文を取得する。応答態様設定部１７は、座席特定処理の結果が示す座席の名称などに基づき、発話者に対する呼称を出力用応答文に付加する。応答出力制御部１８は、当該呼称を含む出力用応答文に対応する応答用音声又は応答用画像を生成する。

例えば、運転席に着座している発話者による「近くの駐車場を教えて。」という発話音声に対して、座席特定処理の結果が「運転席」を示しており、応答内容設定部１６が「近くの駐車場が３件見つかりました。」という出力用応答文を生成したものとする。また、助手席に着座している発話者による「音楽聴きたい。」という発話音声に対して、座席特定処理の結果が「助手席」を示しており、応答内容設定部１６が「どのようなジャンルの音楽をお探しですか？」という出力用応答文を選択したものとする。

この場合、応答態様設定部１７は、応答内容設定部１６により生成又は選択された各出力用応答文の先頭部に呼称を付加することにより、「運転手さん、近くの駐車場が３件見つかりました。」という出力用応答文と「助手席乗員さん、どのようなジャンルの音楽をお探しですか？」という出力用応答文とを生成する。応答出力制御部１８は、これらの出力用応答文の各々に対応する応答用音声又は応答用画像を生成する。

〈応答態様設定処理及び応答出力制御の第２具体例〉
応答態様設定部１７は、発話者特定部１５による個人特定処理の結果を取得する。応答出力制御部１８における音声合成は、応答用音声の話者を複数人の話者の中から選択自在になっている。応答態様設定部１７は、個人特定処理の結果が示す発話者に応じて、応答用音声の話者を異なる話者に設定する。

または、応答態様設定部１７は、発話者特定部１５による座席特定処理の結果を取得する。応答出力制御部１８における音声合成は、応答用音声の話者を複数人の話者の中から選択自在になっている。応答態様設定部１７は、座席特定処理の結果が示す座席に応じて、応答用音声の話者を異なる話者に設定する。

〈応答態様設定処理及び応答出力制御の第３具体例〉
応答態様設定部１７は、発話者特定部１５による座席特定処理の結果を取得する。応答態様設定部１７は、座席特定処理の結果が示す座席の位置に応じて、音声出力装置４に含まれる複数個のスピーカのうちの応答用音声の出力に用いられるスピーカを設定する。応答出力制御部１８は、応答態様設定部１７により設定されたスピーカから応答用音声が出力されるように制御する。

例えば、音声出力装置４が左右一対のフロントスピーカにより構成されており、座席特定処理の結果が「運転席」を示しているものとする。この場合、応答態様設定部１７は、フロントスピーカのうちの運転席側のスピーカを応答用音声の出力に用いられるスピーカに設定する。応答出力制御部１８は、フロントスピーカのうちの運転席側のスピーカから応答用音声が出力されるように制御する。

同様に、音声出力装置４が左右一対のフロントスピーカにより構成されており、座席特定処理の結果が「助手席」を示しているものとする。この場合、応答態様設定部１７は、フロントスピーカのうちの助手席側のスピーカを応答用音声の出力に用いられるスピーカに設定する。応答出力制御部１８は、フロントスピーカのうちの助手席側のスピーカから応答用音声が出力されるように制御する。

〈応答態様設定処理及び応答出力制御の第４具体例〉
応答態様設定部１７は、発話者特定部１５による座席特定処理の結果を取得する。応答出力制御部１８は、応答用音声が出力されるときの車両１の車室内における音場を制御する機能を有している。応答態様設定部１７は、座席特定処理の結果が示す座席の位置に応じて、応答用音声が出力されるときの音場を設定する。応答出力制御部１８は、応答態様設定部１７により設定された音場が車両１の車室内に形成されるように、音声出力装置４に応答用音声を出力させる。

例えば、座席特定処理の結果が「運転席」を示しているものとする。この場合、応答態様設定部１７は、運転席における応答用音声の音量が他の座席における応答用音声の音量よりも大きくなるように音場を設定する。応答出力制御部１８は、かかる音場が車両１の車室内に形成されるように、音声出力装置４に応答用音声を出力させる。

同様に、座席特定処理の結果が「助手席」を示しているものとする。この場合、応答態様設定部１７は、助手席における応答用音声の音量が他の座席における応答用音声の音量よりも大きくなるように音場を設定する。応答出力制御部１８は、かかる音場が車両１の車室内に形成されるように、音声出力装置４に応答用音声を出力させる。

〈応答態様設定処理及び応答出力制御の第５具体例〉
応答態様設定部１７は、発話者特定部１５による座席特定処理の結果を取得する。応答態様設定部１７は、座席特定処理の結果が示す座席の位置に応じて、表示装置５の表示領域のうちの応答用画像が表示される部位を設定する。応答出力制御部１８は、応答態様設定部１７により設定された部位に応答用画像を表示させる。

例えば、運転席に着座している発話者による「今日のスケジュールを教えて。」という発話音声に対して、応答内容設定部１６がスケジュール情報を用いて「今日は１４時より歯医者の予約が入っています。」という出力用応答文を生成したものとする。また、助手席に着座している発話者による「私のスケジュールも教えて。」という発話音声に対して、応答内容設定部１６がスケジュール情報を用いて「今日は１７時より友人との飲み会が入っています。」という出力用応答文を生成したものとする。

この場合、応答態様設定部１７は、運転席に着座している発話者に対する出力用応答文に対応する応答用画像が、表示装置５の表示領域のうちの運転席側の半部に表示されるように設定する。また、応答態様設定部１７は、助手席に着座している発話者に対する出力用応答文に対応する応答用画像が、表示装置５の表示領域のうちの助手席側の半部に表示されるように設定する。図３に、この場合における応答用画像Ｉ_１，Ｉ_２の一例を示す。

応答態様設定部１７は、第１具体例〜第５具体例のうちの少なくとも一つによる応答態様設定処理を実行する。これにより、音声認識対象座席に着座している複数人の搭乗者の各々は、応答が自身に対するものであるか否かを容易に識別することができる。特に、複数人の発話者に対する応答が略同時に出力されたとき、当該複数人の発話者の各々が、これらの応答が自身に対するものであるか否かを容易に識別することができる。

なお、応答態様設定部１７が第１具体例による応答態様設定処理を実行するものである場合、呼称を含む出力用応答文が応答態様設定部１７から応答出力制御部１８に出力される。他方、応答態様設定部１７が第１具体例による応答態様設定処理を実行しないものである場合、応答内容設定部１６により選択又は生成された出力用応答文が応答内容設定部１６から応答出力制御部１８に出力される。また、第２具体例〜第５具体例は、いずれも、応答態様設定処理に出力用応答文を用いないものである。

このため、応答態様設定部１７が第１具体例による応答態様設定処理を実行するものである場合、図１に示す応答内容設定部１６と応答出力制御部１８間の接続線は不要である。他方、応答態様設定部１７が第１具体例による応答態様設定処理を実行しないものである場合（すなわち応答態様設定部１７が第２具体例〜第５具体例のうちの少なくとも一つによる応答態様設定処理のみを実行するものである場合）、図１に示す応答内容設定部１６と応答態様設定部１７間の接続線は不要である。

音声認識部１４、発話者特定部１５及び応答態様設定部１７により、音声認識装置１００の要部が構成されている。音声認識装置１００、応答内容設定部１６及び応答出力制御部１８により、情報機器２の要部が構成されている。

情報機器２は、例えば、車両１に搭載されたカーナビゲーション装置、カーオーディオ装置又はディスプレイオーディオ装置などの車載情報機器により構成されている。または、例えば、情報機器２は、車両１に持ち込まれたスマートフォン、タブレットＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）若しくはＰＮＤ（ＰｏｒｔａｂｌｅＮａｖｉｇａｔｉｏｎＤｅｖｉｃｅ）などの携帯情報端末により構成されている。

次に、図４を参照して、情報機器２の要部のハードウェア構成について説明する。

図４Ａに示す如く、情報機器２はコンピュータにより構成されており、プロセッサ２１及びメモリ２２を有している。メモリ２２には、当該コンピュータを音声認識部１４、発話者特定部１５、応答内容設定部１６、応答態様設定部１７及び応答出力制御部１８として機能させるためのプログラムが記憶されている。メモリ２２に記憶されたプログラムをプロセッサ２１が読み出して実行することにより、音声認識部１４、発話者特定部１５、応答内容設定部１６、応答態様設定部１７及び応答出力制御部１８の機能が実現される。

プロセッサ２１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などを用いたものである。メモリ２２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）若しくはＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）などの半導体メモリ、磁気ディスク、光ディスク又は光磁気ディスクなどを用いたものである。

または、図４Ｂに示す如く、音声認識部１４、発話者特定部１５、応答内容設定部１６、応答態様設定部１７及び応答出力制御部１８の機能が専用の処理回路２３により実現されるものであっても良い。処理回路２３は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＳｏＣ（Ｓｙｓｔｅｍ−ｏｎ−ａ−Ｃｈｉｐ）又はシステムＬＳＩ（Ｌａｒｇｅ−ＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）などを用いたものである。

または、音声認識部１４、発話者特定部１５、応答内容設定部１６、応答態様設定部１７及び応答出力制御部１８のうちの一部の機能がプロセッサ２１及びメモリ２２により実現され、かつ、残余の機能が処理回路２３により実現されるものであっても良い。

次に、図５及び図６のフローチャートを参照して、情報機器２の動作について説明する。なお、図６に示すステップＳＴ１１〜ＳＴ１７は、図５に示すステップＳＴ１内の詳細な処理内容を示している。

まず、ステップＳＴ１にて、音声認識部１４が発話音声に対する音声認識を実行する。

すなわち、ステップＳＴ１１にて、音声信号取得部１１は、集音装置３により出力された音声信号Ｓ_１〜Ｓ_Ｎを取得する。音声信号取得部１１は、音声信号Ｓ_１〜Ｓ_Ｎに対するＡ／Ｄ変換を実行する。音声信号取得部１１は、Ａ／Ｄ変換後の音声信号Ｓ_１’〜Ｓ_Ｎ’を音声信号処理部１２に出力する。

次いで、ステップＳＴ１２にて、音声信号処理部１２は、音声信号Ｓ_１’〜Ｓ_Ｎ’間のパワーの差分値又は音声信号Ｓ_１’〜Ｓ_Ｎ ’間の位相差などに基づき、集音装置３に対する発話音声の入力方向、すなわち発話方向を推定する。

次いで、ステップＳＴ１３にて、音声信号処理部１２は、ステップＳＴ１２で推定された発話方向に基づき、音声信号Ｓ_１’〜Ｓ_Ｎ’のうちの発話音声と異なる音声に対応する成分、すなわちノイズ成分を除去する。音声信号処理部１２は、ノイズ成分が除去された音声信号Ｓ_１”〜Ｓ_Ｍ”を音声認識処理部１３に出力する。

次いで、ステップＳＴ１４にて、音声認識処理部１３は、音声信号Ｓ_１”〜Ｓ_Ｍ”のうちの発話音声に対応する音声区間、すなわち発話区間を検出する。

次いで、ステップＳＴ１５にて、音声認識処理部１３は、発話区間内の音声信号Ｓ_１”〜Ｓ_Ｍ”から音声認識処理用の第１特徴量を抽出する。次いで、ステップＳＴ１６にて、音声認識処理部１３は、第１特徴量を用いて音声認識処理を実行する。

また、発話者特定部１５が個人特定処理を実行するものである場合、ステップＳＴ１４に次いで、ステップＳＴ１７にて、音声認識処理部１３は、発話区間内の音声信号Ｓ_１”〜Ｓ_Ｍ”から個人特定処理用の第２特徴量を抽出する。なお、発話者特定部１５が個人特定処理を実行しないものである場合（すなわち発話者特定部１５が座席特定処理のみを実行するものである場合）、ステップＳＴ１７の処理は不要である。

ステップＳＴ１に次いで、ステップＳＴ２にて、発話者特定部１５が個人特定処理又は座席特定処理のうちの少なくとも一方を実行する。個人特定処理の具体例及び座席特定処理の具体例は既に説明したとおりであるため、再度の説明は省略する。

次いで、ステップＳＴ３にて、応答内容設定部１６が応答内容設定処理を実行する。応答内容設定処理の具体例は既に説明したとおりであるため、再度の説明は省略する。

次いで、ステップＳＴ４にて、応答態様設定部１７が応答態様設定処理を実行する。応答態様設定処理の具体例は既に説明したとおりであるため、再度の説明は省略する。

次いで、ステップＳＴ５にて、応答出力制御部１８が応答出力制御を実行する。応答出力制御の具体例は既に説明したとおりであるため、再度の説明は省略する。

なお、集音装置３は複数個の無指向性マイクにより構成されたアレイマイクに限定されるものではない。例えば、各音声認識対象座席に対する前方部に少なくとも１個の指向性マイクが設けられており、これらの指向性マイクにより集音装置３が構成されているものであっても良い。この場合、音声信号処理部１２において、発話方向を推定する処理及び当該推定された発話方向に基づきノイズ成分を除去する処理は不要である。また、座席特定処理は、例えば、発話音声に対応する成分を含む音声信号が出力された指向性マイクに対応する座席に発話者が着座していると特定する処理となる。

また、応答態様設定処理は、音声認識対象座席に着座している複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別できるように応答態様を設定するものであれば良く、第１具体例〜第５具体例に限定されるものではない。また、応答態様設定処理は、応答用音声の出力態様を設定する処理又は応答用画像の表示態様を設定する処理に限定されるものではない。

例えば、各音声認識対象座席に対する前方部にＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などの発光素子が設けられており、応答態様設定部１７は、座席特定処理の結果に基づき、これらの発光素子のうちの発話者が着座している座席に対する前方部に設けられている発光素子を点灯対象に設定するものであっても良い。応答出力制御部１８は、応答態様設定部１７により点灯対象に設定された発光素子を点灯させる制御を実行するものであっても良い。

また、例えば、発話者が複数人である場合、応答態様設定部１７は、当該複数人の発話者のうちの一部の発話者のみに対する応答の態様を設定するものであっても良い。応答出力制御部１８は、当該複数人の発話者のうちの一部の発話者に対する応答は応答態様設定部１７により設定された応答態様に基づき出力する一方、当該複数人の発話者のうちの残余の発話者に対する応答は初期設定の応答態様に基づき出力する制御を実行するものであっても良い。すなわち、応答態様設定処理は、当該複数人の発話者のうちの少なくとも１人の発話者に対する応答の態様を設定するものであれば良い。

また、音声認識処理部１３は、発話区間を検出するとき、個々の発話音声の始点を検出するものであっても良い。応答態様設定部１７は、１人目の発話者（以下「第１発話者」という。）による発話音声の始点が検出された後、第１発話者に対する応答の出力が開始される前に２人目の発話者（以下「第２発話者」という。）による発話音声の始点が検出された場合にのみ、応答態様設定処理を実行するものであっても良い。そのほかの場合、応答態様設定部１７は応答態様設定処理を実行せずに、応答出力制御部１８は初期設定の応答態様に基づく応答を出力する制御を実行するものであっても良い。

また、前者の場合において、第１発話者に対する応答態様の設定が第１発話者に対する応答の出力開始に間に合わない場合（例えば第１発話者に対する応答の出力が開始される直前に第２発話者による発話音声の始点が検出された場合）、応答態様設定部１７は、第１発話者に対する応答態様設定処理は実行せずに、第２発話者に対する応答態様設定処理のみを実行するものであっても良い。この場合、第１発話者に対する応答は、初期設定の応答態様により出力されるものであっても良い。

または、応答態様設定部１７は、第１発話者による発話音声の始点が検出された後、所定の時間（以下「基準時間」という。）が経過する前に第２発話者による発話音声の始点が検出された場合にのみ、応答態様設定処理を実行するものであっても良い。そのほかの場合、応答態様設定部１７は応答態様設定処理を実行せずに、応答出力制御部１８は初期設定の応答態様に基づく応答を出力する制御を実行するものであっても良い。基準時間は、例えば、個々の発話音声の発話時間の実測値の統計値（例えば平均値）に対応する値であり、応答態様設定部１７に予め記憶されている。

すなわち、１人の発話者による発話音声のみが入力された場合、当該１人の発話者に対する応答のみが出力される。また、複数人の発話者による発話音声が時間的に重複せずに入力された場合、当該１人の発話者に対する応答も時間的に重複せずに出力される。このような場合、応答態様設定処理が実行されなくても、応答が誰に対するものであるのかは明確である。このような場合に応答態様設定処理をキャンセルことにより、情報機器２の処理負荷を低減することができる。また、このような場合に例えば第１具体例による応答態様設定処理をキャンセルことにより、応答用音声又は応答用画像に含まれる呼称が発話者に煩わしさを与えるのを抑制することができる。

また、図７に示す如く、車両１の外部に情報機器２と通信自在なサーバ装置６が設けられており、このサーバ装置６に音声認識処理部１３が設けられているものであっても良い。すなわち、情報機器２に設けられた音声信号取得部１１、音声信号処理部１２、発話者特定部１５及び応答態様設定部１７とサーバ装置６に設けられた音声認識処理部１３とにより、音声認識システム２００の要部が構成されているものであっても良い。これにより、音声認識処理部１３における音声認識処理の精度を向上することができる。

なお、音声認識システム２００のシステム構成は図７に示す例に限定されるものではない。すなわち、音声信号取得部１１、音声信号処理部１２、音声認識処理部１３、発話者特定部１５、応答内容設定部１６、応答態様設定部１７及び応答出力制御部１８の各々は、車両１に搭載自在な車載情報機器、車両１に持ち込み自在な携帯情報端末、又は当該車載情報機器若しくは当該携帯情報端末と通信自在なサーバ装置のうちのいずれに設けられているものであっても良い。当該車載情報機器、当該携帯情報端末又は当該サーバ装置のうちのいずれか二以上が連携することにより、音声認識システム２００が実現されるものであれば良い。

以上のように、実施の形態１の音声認識装置１００は、車両１における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部１４と、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部１５と、発話者特定部１５による特定結果に応じて、発話者に対する応答の態様（応答態様）を設定する応答態様設定処理を実行する応答態様設定部１７とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様（応答態様）を設定する処理である。これにより、音声認識対象座席に着座している複数人の搭乗者の各々は、応答が自身に対するものであるか否かを容易に識別することができる。特に、複数人の発話者に対する応答が略同時に出力されたとき、当該複数人の発話者の各々が、これらの応答が自身に対するものであるか否かを容易に識別することができる。

また、応答態様設定部１７は、複数人の発話者のうちの第１発話者による発話音声の始点が検出された後、基準時間が経過する前に複数人の発話者のうちの第２発話者による発話音声の始点が検出された場合、応答態様設定処理を実行する。これにより、処理負荷を低減することができ、かつ、発話者に与える煩わしさを低減することができる。

また、応答態様設定部１７は、複数人の発話者のうちの第１発話者による発話音声の始点が検出された後、第１発話者に対する応答の出力が開始される前に複数人の発話者のうちの第２発話者による発話音声の始点が検出された場合、応答態様設定処理を実行する。これにより、処理負荷を低減することができ、かつ、発話者に与える煩わしさを低減することができる。

また、発話者特定部１５は、音声認識部１４により抽出された特徴量（第２特徴量）を用いて個人特定処理を実行する。これにより、個人特定処理用の専用のカメラ又はセンサ類を不要とすることができる。

また、応答態様設定処理は、発話者特定部１５による特定結果に基づく呼称を応答に含める処理である。第１具体例により、複数人の発話者の各々が応答が自身に対するものであるか否かを容易に識別可能な応答態様を実現することができる。

また、応答態様設定処理は、発話者特定部１５による特定結果に応じて応答用の音声（応答用音声）の話者を変更する処理である。第２具体例により、複数人の発話者の各々が応答が自身に対するものであるか否かを容易に識別可能な応答態様を実現することができる。

また、応答態様設定処理は、座席特定処理の結果が示す座席の位置に応じて応答用の音声（応答用音声）が出力されるスピーカを変更する処理、又は座席特定処理の結果が示す座席の位置に応じて応答用の音声（応答用音声）が出力されるときの音場を変更する処理である。第３具体例又は第４具体例により、複数人の発話者の各々が応答が自身に対するものであるか否かを容易に識別可能な応答態様を実現することができる。

また、実施の形態１の音声認識システム２００は、車両１における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部１４と、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部１５と、発話者特定部１５による特定結果に応じて、発話者に対する応答の態様（応答態様）を設定する応答態様設定処理を実行する応答態様設定部１７とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様（応答態様）を設定する処理である。これにより、音声認識装置１００による上記効果と同様の効果を得ることができる。

また、実施の形態１の音声認識方法は、音声認識部１４が、車両１における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行するステップＳＴ１と、発話者特定部１５が、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行するステップＳＴ２と、応答態様設定部１７が、発話者特定部１５による特定結果に応じて、発話者に対する応答の態様（応答態様）を設定する応答態様設定処理を実行するステップＳＴ４とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様（応答態様）を設定する処理である。これにより、音声認識装置１００による上記効果と同様の効果を得ることができる。

実施の形態２．
図８は、実施の形態２に係る音声認識装置が車両内の情報機器に設けられている状態を示すブロック図である。図８を参照して、実施の形態２の音声認識装置１００ａについて、車両１内の情報機器２に設けられている例を中心に説明する。なお、図８において、図１に示すブロックと同様のブロックには同一符号を付して説明を省略する。

図中、７は車室内撮像用のカメラである。カメラ７は、例えば、車両１の車室内前方部に設けられた赤外線カメラ又は可視光カメラにより構成されている。カメラ７は、少なくとも、音声認識対象座席（例えば運転席及び助手席）に着座している搭乗者の顔を含む範囲を撮像可能な画角を有している。

搭乗者特定部１９は、一定周期（例えば３０ＦＰＳ（ＦｒａｍｅｓＰｅｒＳｅｃｏｎｄ）の周期）にて、カメラ７による撮像画像を示す画像データを取得するものである。搭乗者特定部１９は、当該取得された画像データに対する画像認識処理を実行することにより、各音声認識対象座席における搭乗者の有無を判定するとともに、音声認識対象座席に着座している各搭乗者の個人を特定する処理（以下「搭乗者特定処理」という。）を実行するものである。

具体的には、例えば、搭乗者特定部１９は、画像認識処理を実行することにより、撮像画像のうちの音声認識対象座席に着座している搭乗者の顔に対応する領域（以下「顔領域」という。）を検出するとともに、個々の顔領域から搭乗者特定処理用の特徴量（以下「第３特徴量」という。）を抽出する。搭乗者特定部１９は、撮像画像における個々の顔領域のサイズ及び位置などに基づき、各音声認識対象座席における搭乗者の有無を判定する。また、搭乗者特定部１９には、第３特徴量に対応する複数人分の特徴量を含むデータベースが予め記憶されている。搭乗者特定部１９は、個々の顔領域から抽出された第３特徴量を当該複数人分の特徴量の各々と比較することにより、音声認識対象座席に着座している各搭乗者の個人を特定する。

搭乗者特定部１９は、搭乗者特定処理の結果を発話者特定部１５ａに出力する。搭乗者特定処理の結果は、例えば、音声認識対象座席に着座している各搭乗者の氏名などを示す情報と、当該各搭乗者が着座している座席の名称及び位置などを示す情報とを含むものである。なお、音声認識対象座席のうちの一部の座席に搭乗者が着座していない場合、搭乗者特定処理の結果は、これらの情報のみを含むものであっても良く、又は、これらの情報に加えて当該一部の座席が空席であることを示す情報を含むものであっても良い。

発話者特定部１５ａは、音声信号処理部１２により推定された発話方向及び搭乗者特定部１９による搭乗者特定処理の結果を用いて、発話者の個人を特定する処理、すなわち個人特定処理を実行するものである。

具体的には、例えば、発話者特定部１５ａには、実施の形態１における座席特定処理用の実角度φと同様の実角度φが予め記憶されている。発話者特定部１５ａは、音声信号処理部１２により推定された発話方向が示す角度θを各音声認識対象座席に対応する実角度φと比較することにより、発話者が着座している座席を特定する。発話者特定部１５ａは、搭乗者特定部１９による搭乗者特定処理の結果を用いて、当該特定された座席に着座している搭乗者、すなわち発話者の個人を特定する。

すなわち、発話者特定部１５ａは、実施の形態１の音声認識装置１００における発話者特定部１５と異なり、個人特定処理に第２特徴量を用いないものである。このため、実施の形態２の音声認識装置１００ａにおいて、音声認識処理部１３による第２特徴量の抽出は不要である。

応答態様設定部１７は、発話者特定部１５ａによる個人特定処理の結果を応答態様設定処理に用いるようになっている。応答態様設定処理の具体例は実施の形態１にて説明したとおりであるため、再度の説明は省略する。

音声認識部１４、発話者特定部１５ａ、応答態様設定部１７及び搭乗者特定部１９により、音声認識装置１００ａの要部が構成されている。音声認識装置１００ａ、応答内容設定部１６及び応答出力制御部１８により、情報機器２の要部が構成されている。

情報機器２の要部のハードウェア構成は、実施の形態１にて図４を参照して説明したものと同様であるため、再度の説明は省略する。すなわち、発話者特定部１５ａの機能はプロセッサ２１及びメモリ２２により実現されるものであっても良く、又は処理回路２３により実現されるものであっても良い。同様に、搭乗者特定部１９の機能はプロセッサ２１及びメモリ２２により実現されるものであっても良く、又は処理回路２３により実現されるものであっても良い。

次に、図９及び図１０のフローチャートを参照して、搭乗者特定部１９の動作について説明する。なお、図１０に示すステップＳＴ３１〜ＳＴ３４は、図９に示すステップＳＴ２１内の詳細な処理内容を示している。

車両１のアクセサリー電源がオンされている状態にて、一定周期にて、搭乗者特定部１９はカメラ７による撮像画像を示す画像データを取得して、当該取得された画像データを用いて搭乗者特定処理を実行する（ステップＳＴ２１）。

すなわち、ステップＳＴ３１にて、搭乗者特定部１９は、カメラ７による撮像画像を示す画像データを取得する。

次いで、ステップＳＴ３２にて、搭乗者特定部１９は、ステップＳＴ３１で取得された画像データに対する画像認識処理を実行することにより、撮像画像のうちの顔領域を検出するとともに、個々の顔領域から搭乗者特定処理用の第３特徴量を抽出する。

次いで、ステップＳＴ３３にて、搭乗者特定部１９は、ステップＳＴ３２で検出された個々の顔領域のサイズ及び位置などに基づき、各音声認識対象座席における搭乗者の有無を判定する。

次いで、ステップＳＴ３４にて、搭乗者特定部１９は、ステップＳＴ３３で抽出された第３特徴量を用いて、音声認識対象座席に着座している各搭乗者の個人を特定する。搭乗者特定部１９は、搭乗者特定処理の結果を発話者特定部１５ａに出力する。

次に、図１１及び図１２のフローチャートを参照して、情報機器２のうちの搭乗者特定部１９を除く部位の動作について説明する。なお、図１２に示すステップＳＴ５１〜ＳＴ５６は、図１１に示すステップＳＴ４１内の詳細な処理内容を示している。

まず、ステップＳＴ４１にて、音声認識部１４が発話音声に対する音声認識を実行する。

すなわち、ステップＳＴ５１にて、音声信号取得部１１は、集音装置３により出力された音声信号Ｓ_１〜Ｓ_Ｎを取得する。音声信号取得部１１は、音声信号Ｓ_１〜Ｓ_Ｎに対するＡ／Ｄ変換を実行する。音声信号取得部１１は、Ａ／Ｄ変換後の音声信号Ｓ_１’〜Ｓ_Ｎ’を音声信号処理部１２に出力する。

次いで、ステップＳＴ５２にて、音声信号処理部１２は、音声信号Ｓ_１’〜Ｓ_Ｎ’間のパワーの差分値又は音声信号Ｓ_１’〜Ｓ_Ｎ ’間の位相差などに基づき、集音装置３に対する発話音声の入力方向、すなわち発話方向を推定する。

次いで、ステップＳＴ５３にて、音声信号処理部１２は、ステップＳＴ５２で推定された発話方向に基づき、音声信号Ｓ_１’〜Ｓ_Ｎ’のうちの発話音声と異なる音声に対応する成分、すなわちノイズ成分を除去する。音声信号処理部１２は、ノイズ成分が除去された音声信号Ｓ_１”〜Ｓ_Ｍ”を音声認識処理部１３に出力する。

次いで、ステップＳＴ５４にて、音声認識処理部１３は、音声信号Ｓ_１”〜Ｓ_Ｍ”のうちの発話音声に対応する音声区間、すなわち発話区間を検出する。

次いで、ステップＳＴ５５にて、音声認識処理部１３は、発話区間内の音声信号Ｓ_１”〜Ｓ_Ｍ”から音声認識処理用の第１特徴量を抽出する。次いで、ステップＳＴ５６にて、音声認識処理部１３は、第１特徴量を用いて音声認識処理を実行する。

ステップＳＴ４１に次いで、ステップＳＴ４２にて、発話者特定部１５ａが個人特定処理を実行する。すなわち、発話者特定部１５ａは、ステップＳＴ５２で音声信号処理部１２により推定された発話方向とステップＳＴ３４で搭乗者特定部１９により出力された搭乗者特定処理の結果とを用いて、上記の具体例より発話者の個人を特定する。

次いで、ステップＳＴ４３にて、応答内容設定部１６が応答内容設定処理を実行する。応答内容設定処理の具体例は実施の形態１にて説明したとおりであるため、再度の説明は省略する。

次いで、ステップＳＴ４４にて、応答態様設定部１７が応答態様設定処理を実行する。応答態様設定処理の具体例は実施の形態１にて説明したとおりであるため、再度の説明は省略する。

次いで、ステップＳＴ４５にて、応答出力制御部１８が応答出力制御を実行する。応答出力制御の具体例は実施の形態１にて説明したとおりであるため、再度の説明は省略する。

このように、搭乗者特定部１９を設けることにより、個人特定処理において音声信号Ｓ_１”〜Ｓ_Ｍ”から抽出された第２特徴量を不要とすることができる。この結果、個人特定処理の騒音耐性を向上することができるため、個人特定処理の精度を向上することができる。

なお、搭乗者特定部１９における画像認識処理により、音声認識対象座席に着座している各搭乗者の頭部の三次元位置座標、より好ましくは当該各搭乗者の口の三次元位置座標が検出されるものであっても良い。音声信号処理部１２は、搭乗者特定部１９により検出された三次元位置座標を用いて、より鋭い指向性による発話方向（例えば集音装置３の配置位置を基準とする中心軸に対する左右方向の角度θ及び上下方向の角度ψにより表される発話方向）を推定するものであっても良い。これにより、発話方向の推定精度を向上することができるため、ノイズ成分の除去精度を向上することができる。図８において、この場合における搭乗者特定部１９と音声信号処理部１２間の接続線は図示を省略している。

また、発話者特定部１５ａは、カメラ７による撮像画像を示す画像データを取得して、当該取得された画像データに対する画像認識処理を実行することにより、音声認識対象座席に着座している搭乗者のうちの口を動かしている搭乗者を検出するものであっても良い。発話者特定部１５ａは、搭乗者特定部１９による搭乗者特定処理の結果を用いて、当該口を動かしている搭乗者、すなわち発話者の個人を特定するものであっても良い。この場合、個人特定処理において音声信号処理部１２により推定された発話方向は不要であるため、図８に示す音声信号処理部１２と発話者特定部１５ａ間の接続線は不要となる。また、図８において、この場合におけるカメラ７と発話者特定部１５ａ間の接続線は図示を省略している。

また、図１３に示す如く、各音声認識対象座席の座面部に着座センサ８が設けられており、搭乗者特定部１９は、これらの着座センサ８による検出値を用いて搭乗者特定処理を実行するものであっても良い。すなわち、個々の着座センサ８は、例えば、複数個の圧力センサにより構成されている。当該複数個の圧力センサにより検出される圧力分布は、対応する座席に着座している搭乗者の体重、着座姿勢及び臀部形状などに応じて異なるものとなる。搭乗者特定部１９は、かかる圧力分布を特徴量に用いて搭乗者特定処理を実行する。かかる圧力分布を特徴量に用いて個人を特定する方法については、公知の種々の方法を用いることができるものであり、詳細な説明は省略する。

また、搭乗者特定部１９は、カメラ７による撮像画像を用いた搭乗者特定処理と着座センサ８による検出値を用いた搭乗者特定処理との両方を実行するものであっても良い。これにより、搭乗者特定処理の精度を向上することができる。この場合のブロック図を図１４に示す。

また、図１５に示す如く、情報機器２に設けられた音声信号取得部１１、音声信号処理部１２、発話者特定部１５ａ、応答態様設定部１７及び搭乗者特定部１９とサーバ装置６に設けられた音声認識処理部１３とにより、音声認識システム２００ａの要部が構成されているものであっても良い。これにより、音声認識処理部１３における音声認識処理の精度を向上することができる。

また、音声認識システム２００ａにおいて、発話者特定部１５ａは、カメラ７による撮像画像に代えて又は加えて着座センサ８による検出値を用いて搭乗者特定処理を実行するものであっても良い。この場合のブロック図は図示を省略する。

そのほか、音声認識装置１００ａは、実施の形態１にて説明したものと同様の種々の変形例、すなわち図１に示す音声認識装置１００と同様の種々の変形例を採用することができる。同様に、音声認識システム２００ａは、実施の形態１にて説明したものと同様の種々の変形例、すなわち図７に示す音声認識システム２００と同様の種々の変形例を採用することができる。

以上のように、実施の形態２の音声認識装置１００ａは、車室内撮像用のカメラ７又は着座センサ８のうちの少なくとも一方を用いて、複数人の搭乗者の各々の個人を特定する搭乗者特定処理を実行する搭乗者特定部１９を備え、発話者特定部１５ａは、搭乗者特定処理の結果を用いて個人特定処理を実行する。これにより、個人特定処理の騒音耐性を向上することができるため、個人特定処理の精度を向上することができる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

本発明の音声認識装置は、例えば、車両内の情報機器に対する操作入力に用いることができる。

１車両、２情報機器、３集音装置、３_１〜３_Ｎマイク、４音声出力装置、５表示装置、６サーバ装置、７カメラ、８着座センサ、１１音声信号取得部、１２音声信号処理部、１３音声認識処理部、１４音声認識部、１５，１５ａ発話者特定部、１６応答内容設定部、１７応答態様設定部、１８応答出力制御部、１９搭乗者特定部、２１プロセッサ、２２メモリ、２３処理回路、１００，１００ａ音声認識装置、２００，２００ａ音声認識システム。

本発明の音声認識装置は、車両における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部と、発話者の個人を特定する個人特定処理又は発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部と、複数人の前記発話者に対する応答が時間的に重複する可能性がある場合に、発話者特定部による特定結果に応じて、発話者に対する応答の態様を設定する応答態様設定処理を実行する応答態様設定部とを備え、応答態様設定処理は、複数人の搭乗者の各々が応答が自身に対するものであるか否かを識別可能な態様に応答の態様を設定する処理であることを特徴とするものである。

すなわち、１人の発話者による発話音声のみが入力された場合、当該１人の発話者に対する応答のみが出力される。また、複数人の発話者による発話音声が時間的に重複せずに入力された場合、当該１人の発話者に対する応答も時間的に重複せずに出力される。このような場合、応答態様設定処理が実行されなくても、応答が誰に対するものであるのかは明確である。このような場合に応答態様設定処理をキャンセルすることにより、情報機器２の処理負荷を低減することができる。また、このような場合に例えば第１具体例による応答態様設定処理をキャンセルすることにより、応答用音声又は応答用画像に含まれる呼称が発話者に煩わしさを与えるのを抑制することができる。

Claims

車両における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部と、
前記発話者の個人を特定する個人特定処理又は前記発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部と、
前記発話者特定部による特定結果に応じて、前記発話者に対する応答の態様を設定する応答態様設定処理を実行する応答態様設定部と、を備え、
前記応答態様設定処理は、前記複数人の搭乗者の各々が前記応答が自身に対するものであるか否かを識別可能な態様に前記応答の態様を設定する処理である
ことを特徴とする音声認識装置。
前記応答態様設定部は、複数人の前記発話者のうちの第１発話者による前記発話音声の始点が検出された後、基準時間が経過する前に複数人の前記発話者のうちの第２発話者による前記発話音声の始点が検出された場合、前記応答態様設定処理を実行することを特徴とする請求項１記載の音声認識装置。
前記応答態様設定部は、複数人の前記発話者のうちの第１発話者による前記発話音声の始点が検出された後、前記第１発話者に対する前記応答の出力が開始される前に複数人の前記発話者のうちの第２発話者による前記発話音声の始点が検出された場合、前記応答態様設定処理を実行することを特徴とする請求項１記載の音声認識装置。
前記発話者特定部は、前記音声認識部により抽出された特徴量を用いて前記個人特定処理を実行することを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
車室内撮像用のカメラ又は着座センサのうちの少なくとも一方を用いて、前記複数人の搭乗者の各々の個人を特定する搭乗者特定処理を実行する搭乗者特定部を備え、
前記発話者特定部は、前記搭乗者特定処理の結果を用いて前記個人特定処理を実行する
ことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
前記応答態様設定処理は、前記発話者特定部による特定結果に基づく前記発話者に対する呼称を前記応答に含める処理であることを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
前記応答態様設定処理は、前記呼称を前記応答用の音声に含める処理であることを特徴とする請求項６記載の音声認識装置。
前記応答態様設定処理は、前記呼称を前記応答用の画像に含める処理であることを特徴とする請求項６記載の音声認識装置。
前記応答態様設定処理は、前記発話者特定部による特定結果に応じて前記応答用の音声の話者を変更する処理であることを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
前記応答態様設定処理は、前記座席特定処理の結果が示す座席の位置に応じて前記応答用の音声が出力されるスピーカを変更する処理、又は前記座席特定処理の結果が示す座席の位置に応じて前記応答用の音声が出力されるときの音場を変更する処理であることを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
車両における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行する音声認識部と、
前記発話者の個人を特定する個人特定処理又は前記発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行する発話者特定部と、
前記発話者特定部による特定結果に応じて、前記発話者に対する応答の態様を設定する応答態様設定処理を実行する応答態様設定部と、を備え、
前記応答態様設定処理は、前記複数人の搭乗者の各々が前記応答が自身に対するものであるか否かを識別可能な態様に前記応答の態様を設定する処理である
ことを特徴とする音声認識システム。
音声認識部が、車両における音声認識対象座席に着座している複数人の搭乗者のうちの発話者による操作入力用の発話音声に対する音声認識を実行するステップと、
発話者特定部が、前記発話者の個人を特定する個人特定処理又は前記発話者が着座している座席を特定する座席特定処理のうちの少なくとも一方を実行するステップと、
応答態様設定部が、前記発話者特定部による特定結果に応じて、前記発話者に対する応答の態様を設定する応答態様設定処理を実行するステップと、を備え、
前記応答態様設定処理は、前記複数人の搭乗者の各々が前記応答が自身に対するものであるか否かを識別可能な態様に前記応答の態様を設定する処理である
ことを特徴とする音声認識方法。