WO2023144574A1

WO2023144574A1 - 音声認識方法及び音声認識装置

Info

Publication number: WO2023144574A1
Application number: PCT/IB2022/000056
Authority: WO
Inventors: 充伸神沼
Original assignee: 日産自動車株式会社; ルノーエス．ア．エス．
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2023-08-03
Also published as: WO2023144574A8

Abstract

車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する音声認識方法では、発話内容に基づいて発話内容で言及された位置である言及位置を特定し（S4）複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する（S5）。

Description

音声認識方法及び音声認識装置

　本発明は、音声認識方法及び音声認識装置に関する。

　近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う音声入力システムが提案されている。例えば、下記特許文献１には、ユーザがエアコンの操作方法に関する質問をしたことを検知すると、エアコンのスイッチを照明し、その照明エリアに表示されたポインタをスイッチの操作方向に沿って移動させる車両用照明装置が記載されている。

特許第６６６８２９６号明細書

　音声入力システムによれば、車両の利用者の音声による質問に対して、車両を構成している構成物の意味（例えばランプの意味）や、操作方法（スイッチの操作方法）を回答することができる。
　このような音声入力システムでは、利用者が言及した構成物を正確に特定する必要がある。しかしながら、構成物（例えばランプやスイッチ）を正確に特定するだけの特徴を発話することが難しい場合がある。例えば、利用者が車両の運転をしている場合のように他の作業をしていると、適切な発話が困難な場合がある。
　本発明では、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上することを目的とする。

　本発明の一態様によれば、車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する音声認識方法が与えられる。音声認識方法では、発話内容に基づいて発話内容で言及された位置である言及位置を特定する処理と、複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する処理と、をコントローラに実行させる。

　本発明によれば、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上できる。
　本発明の目的及び利点は、特許請求の範囲に示した要素及びその組合せを用いて具現化され達成される。前述の一般的な記述及び以下の詳細な記述の両方は、単なる例示及び説明であり、特許請求の範囲のように本発明を限定するものでないと解するべきである。

実施形態の音声認識装置を備えた車両の一例の概略構成図である。実施形態の音声認識装置の機能構成の一例を示すブロック図である。車両を構成する構成物の一例の模式図である。車両を構成する構成物の他の一例の模式図である。構成物位置情報の一例の模式図である。実施形態の音声認識方法の一例のフローチャートである。

　（構成）
　図１は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両１には、車両１を構成している構成物２と、車載機器コントローラ３と、車内センサ４と、ヒューマンマシンインタフェース（以下「ＨＭＩ」と表記する）６と、音声認識装置７を備える。
　構成物２は、車両１に搭載されて車両１を構成している各種車載機器である。

　例えば構成物２は、車両１の運転席のインストルメントパネルのメータクラスタやＡピラー付近に配置された警告灯や表示灯などのランプであってよい。例えば構成物２は、センタクラスタやセンタコンソールに設けられた表示装置（ディスプレイ）であってよい。ランプや表示装置は、車両１の車内に設けられて利用者に視覚情報を提示する機器の一例である。
　また例えば構成物２は、例えば車両１の利用者に警報音を出力する警報装置であってもよい。警報装置は、車両の車内に設けられて利用者に聴覚情報を提示する機器の一例である。
　また例えば構成物２は、測位装置（例えば全地球型測位システム（ＧＮＳＳ）受信機など）により測定された車両１の現在位置と地図情報とに基づいて走行経路を設定し、この走行経路に従って乗員に経路案内を行うナビゲーションシステムであってもよい。
　また例えば構成物２は、車両１のドアに設けられた窓であってよい。

　車載機器コントローラ３は、車載機器である構成物２の動作を制御する電子制御ユニット（ＥＣＵ：Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）であり、構成物２を制御するための制御信号を生成する。車載機器コントローラ３は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ−Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であってよい。
　記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等のメモリを含んでよい。

　なお、車載機器コントローラ３を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ３は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ３はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Ｆｉｅｌｄ−Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のプログラマブル・ロジック・デバイス（ＰＬＤ：Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）等を有していてもよい。

　車内センサ４は、車両１の車内の状態を検出するセンサである。例えば車内センサ４は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための圧力センサやシートベルトセンサであってもよく、乗員の生体情報を検出する生体センサであってもよく、車両１から発生する音を検出するためのマイクロフォンであってよい。
　ＨＭＩ６は、音声認識装置７と利用者との間で情報を授受するインタフェース装置である。ＨＭＩ６は、車両１の利用者が視認可能な表示装置（例えば、ナビゲーションシステムの表示画面）や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
　またＨＭＩ６は、利用者からの音声入力を取得する音声入力装置（例えばマイクロフォン）を備える。

　音声認識装置７は、車両１の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する電子制御ユニットである。音声認識装置７は、利用者の発話内容で言及された構成物２を推定して、言及された構成物２に関連する情報をＨＭＩ６から出力して利用者に提供する。または音声認識装置７は、利用者の発話内容で言及された構成物２を動作させる。

　音声認識装置７は、プロセッサ８と、記憶装置９等の周辺部品とを含む。プロセッサ８は、例えばＣＰＵやＭＰＵであってよい。
　記憶装置９は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置９は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ及びＲＡＭ等のメモリを含んでよい。以下に説明する音声認識装置７の機能は、例えばプロセッサ８が、記憶装置９に格納されたコンピュータプログラムを実行することにより実現される。
　なお、音声認識装置７を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置７は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置７はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。

　図２は、音声認識装置７の機能構成の一例を示すブロック図である。音声認識装置７は、音声認識部１０と、自然言語理解部１１と、入力信号取得部１２と、構成物特定部１３と、制御部１４として動作する。
　音声認識部１０は、ＨＭＩ６が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部１０は、音声入力を変換して生成した言語情報を自然言語理解部１１に出力する。

　自然言語理解部１１は、音声認識部１０から出力された言語情報を自然言語処理によって解析し、利用者の発話意図と、利用者が言及した構成物２に関連したキーワードを抽出する。例えば自然言語理解部１１は、構成物２に関連したキーワードとして、発話内容で言及された構成物２の位置を示すキーワードを抽出する。発話内容から抽出されたキーワードが示す位置（すなわち構成物２の位置を示す位置）は、特許請求の範囲に記載の「言及位置」の一例である。
　例えば、キーワードとその類義語を予め定義しておき、利用者の発話内容に含まれている類義語をキーワードに変換してよい。

　例えば、利用者が点灯したランプの意味を質問するために「メータの上のランプ何？」と発話した場合に、自然言語理解部１１は構成物の意味を照会する発話意図「意味の照会」を抽出し、キーワードとして「メータ」、「上」、「ランプ」を抽出する。
　この場合、例えばキーワード「メータ」の類義語として「計器」、「インジケータ」、「メータ」、等を予め定義し、キーワード「上」の類義語として「上方」、「直上」、「上」等を予め定義し、キーワード「ランプ」の類義語として「警告灯」、「表示灯」等を予め定義しておけばよい。
　また、自然言語理解部１１が抽出する利用者の発話意図には、「意味の照会」以外に、構成物２である車載機器の作動を指示する作動指示（例えば「窓の開放」）など様々な発話意図が含まれる。

　また、例えば自然言語理解部１１は、発話内容で言及された構成物２の位置を示すキーワードとして、構成物２の位置を示すための基準となる位置（以下「基準位置」と表記することがある）を示すキーワードと、基準位置に対する構成物２の相対位置を示すキーワードを抽出する。例えば前述の例では基準位置を示すキーワードとして「メータ」を抽出し、基準位置（メータの位置）に対する構成物２の相対位置を示すキーワードとして「上」を抽出する。
　例えば基準位置を示すキーワードは、発話内容で言及された構成物２以外の構成物であってよい。例えば上記の発話の例では、発話内容で言及された構成物２はいずれかのランプであり、基準位置となる構成物２はランプ以外の構成物２であるメータである。
　図３は、構成物２の一例であるランプやメータの配置の一例の模式図である。メータクラスタ２０には、タコメータ２１とスピードメータ２２とともに、複数のランプやメータが配置されている。以下、メータクラスタ２０を単に「メータ２０」と表記する。

　図３の例では、メータ２０の上のランプとしてタイヤ空気圧警告灯３０が配置されている。また、メータ２０の左上のランプやタコメータ２１の上のランプとして、フォグランプ表示灯３１ａや、ハイビーム警告灯３１ｂ、ヘッドライト表示灯３１ｃ、エンジン警告灯３１ｄが配置されている。また、メータ２０の右上のランプやスピードメータ２２の上のランプとしてＶＤＣ（Ｖｅｈｉｃｌｅ　Ｄｙｎａｍｉｃｓ　Ｃｏｎｔｒｏｌ）警告灯３２が配置されている。また、スピードメータ左下のランプとしてオートブレーキホールド表示灯３３が配置されている。
　また、タコメータ２１内のランプとして、アイドリングストップ表示灯３４や、ブレーキ警告灯３５ａや油圧警告灯３５ｂ、低水温表示灯３６ａが配置されている。タコメータ２１内のメータとしてＨＥＶパワー計３６ｂが配置されている。
　また、スピードメータ２２内のランプとしてシートベルト警告灯３７や、ヒルディセントコントロール表示灯３８、踏み間違い衝突防止アシストＯＦＦ表示灯３９ａ、燃料残量警告灯３９ｂが配置されている。スピードメータ２２内のメータとして燃料計３９ｃが配置されている。

　例えば、利用者がタイヤ空気圧警告灯３０の意味を質問するために「メータの上のランプ何？」と発話した場合には、自然言語理解部１１は、キーワード「メータ」、「上」、「ランプ」を抽出してよい。キーワード「メータ」は、構成物２の位置を示すための基準位置を示すキーワードであり、「上」は、基準位置（メータ２０の位置）に対する構成物２の相対位置を示すキーワードである。
　また例えば、利用者がオートブレーキホールド表示灯３３の意味を質問するために「スピードメータの左下のランプ何？」と発話した場合には、自然言語理解部１１は、キーワード「スピードメータ」、「左下」、「ランプ」を抽出してよい。キーワード「スピードメータ」は、構成物２の位置を示すための基準位置を示すキーワードであり、「左下」は、基準位置（スピードメータ２２の位置）に対する構成物２の相対位置を示すキーワードである。

　また例えば、利用者が油圧警告灯３５ｂの意味を質問するために「ビックリマークのランプの下のランプ何？」と発話した場合には、自然言語理解部１１は、キーワード「ビックリマーク」、「ランプ」、「下」を抽出してよい。キーワード「ビックリマーク」及び「ランプ」は、構成物２の位置を示すための基準位置を示すキーワードであり、図３の例ではブレーキ警告灯３５ａを示している。「左下」は、基準位置（ブレーキ警告灯３５ａの位置）に対する構成物２の相対位置を示すキーワードである。
　また例えば、利用者がエンジン警告灯３１ｄの意味を質問するために「ライトの表示灯の並びにある一番右のランプ何？」と発話した場合には、自然言語理解部１１は、キーワード「ライト」、「ランプ」、「並び」、「一番右」を抽出してよい。キーワード「ライト」、「ランプ」、「並び」は、構成物２の位置を示すための基準位置を示すキーワードであり、図３の例ではフォグランプ表示灯３１ａ、ハイビーム警告灯３１ｂ、ヘッドライト表示灯３１ｃの配列を示している。「一番右」は、基準位置（ランプ３１ａ~３１ｃの配列の位置）に対する構成物２の相対位置を示すキーワードである。

　図４は、構成物２の他の一例であるステアリングホイールスイッチの配置の一例の模式図である。ステアリングホイールスイッチ４１~４６とは、ステアリングホイール４０に設けられたスイッチである。
　例えば、ステアリングホイールスイッチ４１~４３は、車両１の自律走行制御機能を利用するためのスイッチ群である。例えば、ステアリングホイール４０の右側の一番右のスイッチ４１は、車両１の自律走行制御機能をオン／オフするメインスイッチである。ステアリングホイール４０の真ん中のスイッチ４２は、自律走行制御機能を開始するセット・コーストスイッチである。ステアリングホイール４０の右側の一番左のスイッチ４３は、自律走行制御機能を解除するキャンセルスイッチ４３である。キャンセルスイッチ４３は、利用者がステアリングホイール４０を把持した場合（すなわち利用者がステアリングホイール４０に指を置いた場合）に、利用者の右手の親指付近に位置するスイッチである。

　また例えば、ステアリングホイールスイッチ４４~４５は、車両１のオーディオ機能を利用するためのスイッチ群である。例えばステアリングホイール４０の左側の下のスイッチ４４は、車両１のオーディオ機能による楽曲の再生／停止を指示する再生停止スイッチである。ステアリングホイール４０の左側の一番右のスイッチ４５は、車両１のオーディオ機能の音量を大きくする音量スイッチである。音量スイッチ４５は、利用者がステアリングホイール４０を把持した場合に、利用者の左手の親指付近に位置するスイッチである。ステアリングホイール４０の左側の一番左のスイッチ４６は、車両１のオーディオ機能の音量を小さくする音量スイッチである。

　例えば、利用者が再生停止スイッチ４４の意味を質問するために「ハンドル左側の下にあるスイッチ何？」と発話した場合には、自然言語理解部１１は、キーワード「ハンドル」、「左側」、「下」、「スイッチ」を抽出してよい。キーワード「ハンドル」は、構成物２の位置を示すための基準位置を示すキーワードであり、「左側」、「下」は、基準位置（ステアリングホイール４０の位置）に対する構成物２の相対位置を示すキーワードである。
　また例えば、基準位置を示すキーワードは、利用者がステアリングホイール４０を把持した場合の利用者の指であってもよい。例えば利用者がキャンセルスイッチ４３の意味を質問するために「右手親指あたりのスイッチ何？」と発話した場合に、自然言語理解部１１は、キーワード「右手」、「親指」、「スイッチ」を抽出してよい。キーワード「右手」、「親指」は、構成物２の位置を示すための基準位置を示すキーワードであり、図３の例ではステアリングホイール４０に置かれた利用者の右手親指を示している。

　また例えば、利用者がセット・コーストスイッチ４２の意味を質問するために「キャンセルスイッチの右のスイッチ何？」と発話した場合には、自然言語理解部１１は、キーワード「キャンセル」、「スイッチ」、「右」を抽出してよい。キーワード「キャンセル」及び「スイッチ」は、構成物２の位置を示すための基準位置を示すキーワードであり、図３の例でキャンセルスイッチ４３を示している。「右」は、基準位置（キャンセルスイッチ４３の位置）に対する構成物２の相対位置を示すキーワードである。

　また、自然言語理解部１１は、構成物２の状態を示すキーワードを補助的に抽出してもよい。例えば自然言語理解部１１は、利用者が警告灯の意味を質問するために「今ついたランプ何？」と発話した場合に、構成物２の状態を示すキーワードとして「点灯」を抽出してよい。また、例えば警報装置が出力した警報音の意味を質問するために利用者が「左前でピッと鳴ったのは何？」と発話した場合に構成物２の状態を示すキーワード「ピッと鳴る」を抽出してもよい。
　自然言語理解部１１は、抽出した発話意図の情報と抽出したキーワードの情報を構成物特定部１３へ出力する。

　図２を参照する。入力信号取得部１２は、車載機器コントローラ３が生成した構成物２（車載機器）の制御信号を入力信号として取得する。例えば制御信号は、ランプのオンオフ信号であってもよい。また例えば制御信号は、警報装置による警報音の出力及び停止を指示する信号であってよい。また制御信号は、車両１のドアに設けられた窓を開放又は閉鎖する駆動信号や、窓の開放状態や閉鎖状態を示す状態信号であってもよい。
　また、入力信号取得部１２は、車内センサ４の出力信号を入力信号として取得する。
　入力信号取得部１２は、取得した構成物２の制御信号と車内センサ４の出力信号を、検出した状況を表現するために予め定めた特定のデータ形式に変換する。

　例えば入力信号取得部１２は、制御信号をフラグ情報に変換し、構成物２の制御状態に応じてフラグの値を設定してよい。
　例えば、対象のランプが点灯状態の場合に値「Ｔｒｕｅ」に設定され消灯状態の場合に値「Ｆａｌｓｅ」に設定されるフラグ情報に変換してよい。また例えば警報装置が動作して警報音を出力した場合に値「Ｔｒｕｅ」に設定され警報装置が動作していない場合に値「Ｆａｌｓｅ」に設定されるフラグ情報に変換してよい。また例えば窓が開放状態にある場合に値「Ｔｒｕｅ」に設定され閉鎖状態である場合に値「Ｆａｌｓｅ」に設定されるフラグ情報に変換してよい。

　また入力信号取得部１２は、車内センサ４の出力信号をフラグ情報に変換し、車内センサ４が検出した物体の状態や位置に応じてフラグの値を設定してよい。
　例えば、車内カメラ、圧力センサ、シートベルトセンサ、生体センサなどの車内センサ４の出力信号に基づいて検出した車内の利用者の着座位置に応じたフラグを設定してよい。例えば、利用者が運転席に座っている場合にフラグの値を「Ｔｒｕｅ」に設定し、助手席に座っている場合にフラグの値を「Ｆａｌｓｅ」に設定してよい。
　入力信号取得部１２は、変換後の入力信号（以下、単に「入力信号」と表記する）を構成物特定部１３へ出力する。

　構成物特定部１３は、自然言語理解部１１から出力された発話意図の情報とキーワードの情報を受信する。構成物特定部１３は、自然言語理解部１１から出力された構成物２の位置を示すキーワードに基づいて、発話内容で言及された構成物２を推定する。以下、発話内容で言及された構成物２を「対象構成物」と表記する。
　例えば、構成物特定部１３は、構成物２がそれぞれ設けられている位置である構成物位置の情報を参照して、対象構成物を推定してもよい。例えば音声認識装置７の記憶装置９は、構成物位置の情報である構成物位置情報１５を記憶してもよい。

　図５は、構成物位置情報１５の一例の模式図である。構成物位置情報１５には、複数行のレコードが格納されている。各々のレコードには、構成物の情報と、構成物に関するキーワードとが記録されている。すなわち、構成物位置情報１５には、構成物の情報と、構成物に関するキーワードとが関連付けて記憶されている。
　構成物位置情報１５に記憶されるキーワードは、少なくとも構成物の位置を示すキーワードを構成物位置の情報として含んでいる。構成物特定部１３は、自然言語理解部１１から出力されたキーワードに適合する（例えば合致する）キーワードに関連付けて構成物位置情報１５に記憶された構成物２を、対象構成物と推定する。すなわち、発話内容で言及された言及位置に適合する（例えば合致する）構成物位置に設けられている構成物２を、対象構成物と推定する。

　例えば、利用者が「メータの上のランプ何？」と発話し、自然言語理解部１１がキーワード「メータ」、「上」、「ランプ」を抽出した場合を想定する。「メータ」及び「上」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して、自然言語理解部１１が抽出したキーワード「メータ」、「上」、「ランプ」と同一のキーワードを含む第１行目のレコードを選択し、第１行目のレコードのタイヤ空気圧警告灯３０を対象構成物と推定する。
　また例えば利用者が「スピードメータの左下のランプ何？」と発話し、自然言語理解部１１がキーワード「スピードメータ」、「左下」、「ランプ」を抽出した場合を想定する。「スピードメータ」及び「左下」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して、自然言語理解部１１が抽出したキーワード「スピードメータ」、「左下」、「ランプ」と同一のキーワードを含む第２行目のレコードを選択し、第２行目のレコードのオートブレーキホールド表示灯３３を対象構成物と推定する。

　また例えば利用者が「ビックリマークのランプの下のランプ何？」と発話し、自然言語理解部１１がキーワード「ビックリマーク」、「ランプ」、「下」を抽出した場合を想定する。「ビックリマーク」、「ランプ」、「下」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して自然言語理解部１１が抽出したキーワード「ビックリマーク」、「ランプ」、「下」と同一のキーワードを含む第３行目のレコードを選択し、第３行目のレコードの油圧警告灯３５ｂを対象構成物と推定する。
　また例えば利用者が「ハンドル左側の下にあるスイッチ何？」と発話し、自然言語理解部１１がキーワード「ハンドル」、「左側」、「下」、「スイッチ」を抽出した場合を想定する。「ハンドル」、「左側」、「下」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して、自然言語理解部１１が抽出したキーワード「ハンドル」、「左側」、「下」、「スイッチ」と同一のキーワードを含む第４行目のレコードを選択し、第４行目のレコードの再生停止スイッチ４４を対象構成物と推定する。

　また例えば利用者が「右手親指あたりのスイッチ何？」と発話し、自然言語理解部１１がキーワード「右手」、「親指」、「スイッチ」を抽出した場合を想定する。「右手」及び「親指」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して、自然言語理解部１１が抽出したキーワード「右手」、「親指」、「スイッチ」と同一のキーワードを含む第５行目のレコードを選択し、第５行目のレコードのキャンセルスイッチ４３を対象構成物と推定する。なお、このケースでは自然言語理解部１１は、構成物２の位置を示すための基準位置を示すキーワード「右手」、「親指」を抽出しているが、基準位置「右手親指」に対する相対位置を示すキーワードが抽出していない。この場合、構成物位置に対する基準位置の相対位置は「近傍」であり、キーワードを用いて相対位置を示す必要がない。

　また例えば利用者が「キャンセルスイッチの右のスイッチ何？」と発話し、自然言語理解部１１がキーワード「キャンセル」、「スイッチ」、「右」を抽出した場合を想定する。「キャンセル」、「スイッチ」、「右」は言及位置を示すキーワードである。構成物特定部１３は、構成物位置情報１５を参照して、自然言語理解部１１が抽出したキーワード「キャンセル」、「スイッチ」、「右」と同一のキーワードを含む第６行目のレコードの構成物であるセット・コーストスイッチ４２を対象構成物と推定する。

　なお、利用者が「今ついたタコメータの上のランプ何？」と発話した場合のように、位置を示すキーワード「タコメータ」、「上」が、複数の構成物２（この例ではフォグランプ表示灯３１ａ、ハイビーム警告灯３１ｂ、ヘッドライト表示灯３１ｃ、エンジン警告灯３１ｄ）に該当することがある。
　この場合に、構成物特定部１３は、入力信号取得部１２から出力された入力信号に基づいて、複数の構成物２のいずれが対象構成物であるかを推定してもよい。例えば、発話内容から構成物２の状態を示すキーワードを抽出し、抽出されたキーワードが示す状態と同じ制御状態の構成物２を対象構成物と推定してもよい。
　上記の例では、発話内容「今ついた」から構成物２の状態を示すキーワード「点灯」が抽出された場合に、キーワード「タコメータ」、「上」に該当するフォグランプ表示灯３１ａ、ハイビーム警告灯３１ｂ、ヘッドライト表示灯３１ｃ、エンジン警告灯３１ｄのうち、入力信号に基づいて点灯状態にあるランプを選択して対象構成物と推定してもよい。

　また構成物特定部１３は、自然言語理解部１１から取得したキーワードの時系列に基づいて、発話内容で言及された言及位置を特定してもよい。例えば、構成物特定部１３は、自然言語理解部１１から取得したキーワードによって推定された対象構成物の時系列に基づいて言及位置を特定してもよい。例えば発話内容「右手親指あたりのスイッチ何？」に基づいてキャンセルスイッチ４３を対象構成物と推定した後に、利用者が「その右側のスイッチ何？」と発話した場合、指示詞を示すキーワード「その」に基づいて前回の発話内容から推定された対象構成物（キャンセルスイッチ４３）の位置を基準位置と特定し、基準位置（キャンセルスイッチ４３）の右側にあるセット・コーストスイッチ４２を対象構成物と推定してもよい。

　構成物特定部１３は、利用者に聴覚情報を提示する構成物２の聴覚信号が聞こえる位置に基づいて、聴覚情報を提示する対象構成物を推定してもよい。例えば利用者が「右側のスピーカから聞こえた音何？」と発話し、自然言語理解部１１がキーワード「右側」、「スピーカ」、「音」を抽出した場合に、経路案内を聴覚情報として提示するナビゲーションシステムを対象構成物と推定してもよい。
　また例えば利用者が「前から聞こえた音何？」と発話し、自然言語理解部１１がキーワード「前」、「音」を抽出した場合に、利用者に警報音を提示する警報装置を対象構成物と推定してもよい。
　また例えば利用者が「右後方で鳴っている音何？」と発話し、自然言語理解部１１がキーワード「右後方」、「音」を抽出した場合に、後側方車両接近警報装置を対象構成物と推定してもよい。

　さらに構成物特定部１３は、利用者の着座位置に対する構成物２の相対位置を言及位置として特定してもよい。この場合、構成物特定部１３は、入力信号取得部１２から出力された入力信号に基づいて、利用者の着座位置を判定する。構成物特定部１３は、利用者の着座位置の判定結果と、利用者の発話内容から抽出された相対位置を示すためにキーワードに基づいて、発話内容で言及された言及位置を特定してもよい。
　例えば、入力信号に基づいて利用者が運転席に着座していると判定され、利用者が「ここ開けて」と発話し、相対位置を示すキーワード「ここ」が抽出された場合には、言及位置は運転席の近傍である。このため、構成物特定部１３は、運転席側の窓を対象構成物と推定してもよい。

　また例えば、利用者が運転席に着座していると判定され、利用者が「反対側開けて」と発話し、相対位置を示すキーワード「反対側」が抽出された場合には、言及位置は、運転席の車幅方向反対側の助手席近傍である。このため構成物特定部１３は、助手席側の窓を対象構成物と推定してもよい。
　また構成物特定部１３は、自然言語理解部１１から取得したキーワードによって推定された対象構成物の時系列に基づいて言及位置を特定してもよい。例えば発話内容「ここ開けて」に基づいて運転席側の窓を対象構成物と推定した後に利用者が「後ろも開けて」と発話した場合を想定する。この場合に構成物特定部１３は、前回の発話内容から推定された対象構成物（運転席側の窓）の位置を基準位置と特定し、今回の発話内容から相対位置を示すキーワード「後ろ」に基づいて、運転席側の窓の後ろの窓を対象構成物と推定してもよい。

　また例えば、右ハンドル車の利用者が運転席に着座していると判定され、利用者が「左にあるディスプレイ」や「左にあるスイッチ」と発話した場合には、言及位置は右座席の左側、すなわち車幅方向中央近傍である。このため構成物特定部１３は、センタコンソールに配置されたスイッチやディスプレイを対象構成物と推定してもよい。
　なお、利用者の着座位置に対する構成物２の相対位置に基づいて対象構成物を推定する場合には、例えば、各々の構成物２に対して、利用者の着座位置に応じて異なる複数のレコードを格納し、着座位置に応じた相対位置を示すキーワードを各々のレコードに記憶すればよい。
　構成物特定部１３は、推定した対象構成物の情報と、自然言語理解部１１から出力された発話意図の情報とを制御部１４へ出力する。

　なお、構成物特定部１３は、構成物位置情報１５の代わりに構成物位置を学習した学習モデル１６を参照して対象構成物として推定してもよい。学習モデル１６としては、例えばニューラルネットワーク、ルールベース（木構造）の推論モデルなど、様々な識別機を利用できる。
　学習モデル１６に構成物位置を学習させる場合には、構成物位置を示すキーワード（例えば基準位置のキーワードと相対位置のキーワード）を例題データとして、例題のデータと正解ラベル（すなわち対象構成物）とを組み合わせた教師データを学習モデル１６に与えて、例題データに対して正解ラベルを出力するように訓練する。

　入力信号取得部１２が出力する入力信号を対象構成物の推定に用いる場合には、キーワードと入力信号とを例題データとしてもよい。
　なお、図２には構成物位置情報１５及び学習モデル１６の両方が記載されているが、音声認識装置７は、構成物位置情報１５及び学習モデル１６の両方を備える必要はない。構成物位置情報１５を備える場合に学習モデル１６を省略してもよく、学習モデル１６を備える場合に構成物位置情報１５を省略してもよい。

　制御部１４は、構成物特定部１３が特定した対象構成物と、自然言語理解部１１が抽出して構成物特定部１３を経由して入力された発話意図の情報とに基づいて、利用者の発話に対する応答を生成する。
　例えば、自然言語理解部１１が抽出した発話意図が「意味の照会」である場合に、制御部１４は推定した対象構成物に関する情報を出力するようにＨＭＩ６を制御してよい。例えば、制御部１４は、対象構成物に関する情報の通知する応答メッセージと、ＨＭＩ６に応答メッセージを出力させる命令信号を出力する。ＨＭＩ６は、応答メッセージの音声情報とテキスト情報をそれぞれスピーカから出力したり、表示装置に表示してよい。

　対象構成物に関する情報は、例えば対象構成物の機能に関する機能情報であってもよい。例えば、対象構成物がメインスイッチ４１である場合、機能情報として応答メッセージ「自律走行制御機能をオン／オフするスイッチです」を出力してよい。
　対象構成物に関する情報は、例えば対象構成物の機能を利用するための操作に関する操作情報であってもよい。例えば、対象構成物がセット・コーストスイッチ４２である場合、操作情報として応答メッセージ「自律走行制御機能を開始するには、メインスイッチをオンにしてからセット・コーストスイッチを押してください」を出力してよい。

　また例えば、自然言語理解部１１が抽出した発話意図が、車載機器の作動を指示する作動指示（例えば「窓の開放」）である場合に、制御部１４は、推定した対象構成物を作動させてもよい。例えば、発話内容が「ここ開けて」であった場合に、制御部１４は、利用者が着座する運転席側の窓を開放する命令信号を車載機器コントローラ３へ出力する。車載機器コントローラ３は、命令信号に従って運転席側の窓を開放する。
　なお、発話意図に対する応答として対象構成物を作動させる場合に、制御部１４は、対象構成物を作動させるか否かの入力を利用者に促す通知を、ＨＭＩ１６から出力してもよい。
　例えば、構成物特定部１３が利用者の発話内容から対象構成物を一意に決定できず、対象構成物の複数の候補を推定した場合に、推定した候補を作動させるか否かの入力を利用者に促す通知を、ＨＭＩ１６から出力してもよい。例えば、利用者の発話意図が窓の開放であり、対象構成物が運転席側の窓か助手席側の窓か区別できない場合に、対象構成物を作動させるか否かの入力を促す通知「運転席側の窓を開けますか」を出力してもよい。

　（動作）
　図６は、実施形態の音声認識方法の一例のフローチャートである。
　ステップＳ１においてＨＭＩ６は、利用者からの音声入力を取得する。
　ステップＳ２において音声認識部１０は、利用者からの音声入力を認識してテキストなどの言語情報に変換する。自然言語理解部１１は、音声認識部１０から出力された言語情報を自然言語処理によって解析し、利用者の発話意図を抽出する。ステップＳ３において自然言語理解部１１は、音声認識部１０から出力された言語情報から、構成物２の位置を示すキーワードを抽出する。

　ステップＳ４において自然言語理解部１１は、発話内容で言及された位置である言及位置を特定する。
　ステップＳ５において構成物特定部１３は、発話内容で言及された研究位置に基づいて、発話内容で言及された対象構成物を推定する。
　ステップＳ６において制御部１４は、構成物特定部１３が特定した対象構成物と、自然言語理解部１１が抽出した発話意図の情報とに基づいて、利用者の発話に対する応答を生成する。その後に処理は終了する。

　（実施形態の効果）
（１）音声認識装置７は、車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する。音声認識装置７は、発話内容に基づいて発話内容で言及された位置である言及位置を特定する処理と、複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する処理を実行する。
　これにより、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上できる。

　（２）構成物は、車両の車内に設けられ利用者に視覚情報を提示する機器であってもよい。これにより、視覚情報を提示する機器が発話内容で言及されているか否かを推定できる。
　（３）構成物は、車両の車内に設けられ利用者に聴覚情報を提示する機器であってもよい。これにより、聴覚情報を提示する機器が発話内容で言及されているか否かを推定できる。

　（４）音声認識装置７は、車両のインストルメンタルパネルに設けられたメータに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置７は、車両のインストルメンタルパネルに設けられたランプに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置７は、車両のステアリングホイールに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置７は、車両のステアリングホイールに設けられたスイッチに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置７は、利用者の指を車両のステアリングホイールに置いた場合の指の位置に対する構成物の相対位置を、言及位置として特定してもよい。
　また音声認識装置７は、車両における利用者の位置である利用者位置を検出し、発話内容と利用者位置とに基づいて言及位置を特定してもよい。
　これにより、利用者の発話内容に含まれる相対位置のキーワードを用いて対象構成物を推定できる。

　（５）音声認識装置７は、推定した対象構成物に関する情報を出力してもよい。例えば音声認識装置７は、推定した対象構成物の機能に関する機能情報を出力してもよい。例えば音声認識装置７は、推定した対象構成物の機能を利用するための操作に関する操作情報を出力してもよい。
　これにより、利用者の発話内容で言及された構成物についての情報を提供できる。

　（６）音声認識装置７は、対象構成物の推定結果に基づいて推定した対象構成物を作動させてもよい。これにより、車両を構成する構成物を音声入力で作動させることができる。
　（７）音声認識装置７は、対象構成物を作動させるか否かの入力を利用者に促す通知を出力してもよい。これにより例えば利用者の発話内容から対象構成物を一意に決定できず、対象構成物の複数の候補を推定した場合に、対象構成物の推定結果を利用者に確認できる。

　ここに記載されている全ての例及び条件的な用語は、読者が、本発明と技術の進展のために発明者により与えられる概念とを理解する際の助けとなるように、教育的な目的を意図したものであり、具体的に記載されている上記の例及び条件、並びに本発明の優位性及び劣等性を示すことに関する本明細書における例の構成に限定されることなく解釈されるべきものである。本発明の実施例は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であると解すべきである。

　１…車両、２…構成物、３…車載機器コントローラ、４…車内センサ、６…ヒューマンマシンインタフェース、７…音声認識装置、８…プロセッサ、９…記憶装置、１０…音声認識部、１１…自然言語理解部、１２…入力信号取得部、１３…構成物特定部、１４…制御部、１５…構成物位置情報、１６…学習モデル

Claims

　車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち前記発話内容で言及された構成物である対象構成物を推定する音声認識方法であって、
　前記発話内容に基づいて前記発話内容で言及された位置である言及位置を特定する処理と、
　前記複数の前記構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は前記構成物位置を学習した学習モデルを参照し、特定された前記言及位置と合致する前記構成物位置に設けられている構成物を、前記対象構成物として推定する処理と、
　をコントローラに実行させることを特徴とする音声認識方法。
　前記構成物は、前記車両の車内に設けられ前記利用者に視覚情報を提示する機器であることを特徴とする請求項１に記載の音声認識方法。
　前記構成物は、前記車両の車内に設けられ前記利用者に聴覚情報を提示する機器であることを特徴とする請求項１に記載の音声認識方法。
　前記車両のインストルメンタルパネルに設けられたメータに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項１又は２に記載の音声認識方法。
　前記車両のインストルメンタルパネルに設けられたランプに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項１又は２に記載の音声認識方法。
　前記車両のステアリングホイールに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項１又は２に記載の音声認識方法。
　前記車両のステアリングホイールに設けられたスイッチに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項１又は２に記載の音声認識方法。
　前記利用者の指を前記車両のステアリングホイールに置いた場合の前記指の位置に対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項１又は２に記載の音声認識方法。
　前記コントローラは、推定した前記対象構成物に関する情報を出力することを特徴とする請求項１~８のいずれか一項に記載の音声認識方法。
　前記コントローラは、前記推定した対象構成物の機能に関する機能情報を出力することを特徴とする請求項９に記載の音声認識方法。
　前記コントローラは、前記推定した前記対象構成物の機能を利用するための操作に関する操作情報を出力することを特徴とする請求項９に記載の音声認識方法。
　前記コントローラは、前記対象構成物の推定結果に基づいて前記推定した前記対象構成物を作動させることを特徴とする請求項１に記載の音声認識方法。
　前記コントローラは、前記対象構成物を作動させるか否かの入力を前記利用者に促す通知を出力することを特徴とする請求項１２に記載の音声認識方法。
　前記コントローラは、
　前記車両における前記利用者の位置である利用者位置を検出し、
　前記発話内容と前記利用者位置とに基づいて、前記言及位置を特定することを特徴とする請求項１~１３のいずれか一項に記載の音声認識方法。
　車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち前記発話内容で言及された構成物である対象構成物を推定する音声認識装置であって、
　前記発話内容に基づいて前記発話内容で言及された位置である言及位置を特定する処理と、
　前記複数の前記構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は前記構成物位置を学習した学習モデルを参照し、特定された前記言及位置と合致する前記構成物位置に設けられている構成物を、前記対象構成物として推定する処理と、
　を実行するコントローラを備えることを特徴とする音声認識装置。