WO2024009465A1

WO2024009465A1 - 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Info

Publication number: WO2024009465A1
Application number: PCT/JP2022/026995
Authority: WO
Inventors: 皓祐杉山; 雅紀前原
Original assignee: パイオニア株式会社
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-01-11

Abstract

音声入力部（１０）と、音声認識部（２０）と、判断部（３０）と、処理実行部（４０）と、調整部（５０）と、を備える、音声認識装置１である。音声入力部（１０）は、車両内の搭乗者の音声が入力される。音声認識部（２０）は、音声入力部（１０）に入力された音声を第１音声情報として認識する。判断部（３０）は、第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する。処理実行部（４０）は、類似性が所定の基準を満たしていた場合に所定の処理を実行する。調整部（５０）は、類似性の判断ルール、及び前記所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する。

Description

音声認識装置、プログラム、音声認識方法、及び音声認識システム

　本発明は、音声認識装置、プログラム、音声認識方法、及び音声認識システムに関する。

　たとえば特開２０００－１０６５９２号公報（特許文献１）には、音声応答機能の利便性を損ねること無く、周囲の雑音による音声応答機能の誤作動を良好に防止可能な音声応答機能付電話装置が開示されている。また、特開２０１６－８５４２０号公報（特許文献２）には、音声信号の入力ゲインや出力ゲインを使用環境に合わせて適切に調整し、音声認識率を向上させた音声調整装置が開示されている。

特開２０００－１０６５９２号公報特開２０１６－８５４２０号公報

　車両内において、ラジオやオーディオ音などにより、意図せず音声認識される場合がある。また、搭乗者によって声の大きさや周波数などが異なるため、音声認識されづらい場合がある。

　本発明が解決しようとする課題としては、車両内における音声認識精度を向上することが一例として挙げられる。

　請求項１に記載の発明は、
　車両内の搭乗者の音声が入力される音声入力部と、
　前記音声入力部に入力された前記音声を第１音声情報として認識する音声認識部と、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置である。

　請求項８に記載の発明は、
　音声認識装置を実現するコンピュータに、
　車両内の搭乗者の音声を入力する手順、
　音声を第１音声情報として認識する手順、
　第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する手順、
　類似性が所定の基準を満たしていた場合に所定の処理を実行する手順、
　類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する手順、を実行させるためのプログラムである。

　請求項９に記載の発明は、
　音声認識装置を実現するコンピュータが、
　車両内の搭乗者の音声を入力し、
　音声を第１音声情報として認識し、
　第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断し、
　類似性が所定の基準を満たしていた場合に所定の処理を実行し、
　類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する、音声認識方法である。

　請求項１０に記載の発明は、
　車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
　車両内の搭乗者の音声が入力される音声入力部と、
　音声入力部に入力された音声を第１音声情報として認識する音声認識部と、
　第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　類似性が所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システムである。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

第１実施形態の音声認識システム及び音声認識装置の概略を示すブロック図である。第１実施形態の判断部が類似性を判断する方法を説明するための簡略図である。複数の第２音声情報が設けられている場合において、判断部が類似性を判断する方法を説明するための簡略図である。音声認識装置のハードウエア構成例を示す図である。第１実施形態の音声認識装置が音声出力部の起動処理を実行するまでのフロー図である。第２実施形態の音声認識システム及び音声認識装置の概略を示すブロック図である。第２実施形態の記憶部に記憶された第２テキスト情報及びそれに紐づく情報のデータ構造の一例を示す図である。第２実施形態の判断部が類似性を判断する方法を説明するための簡略図である。複数の第２テキスト情報が設けられている場合において、判断部が類似性を判断する方法を説明するための簡略図である。第２実施形態の記憶部に記憶された第２テキスト情報及びそれに紐づく情報のデータ構造の別例を示す図である。第２実施形態の音声認識装置が音声出力部の起動処理を実行するまでのフロー図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

　なお、以下に示す説明において、各装置の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。各装置の各構成要素は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。

　［第１実施形態］
　図１は、第１実施形態の音声認識システム１００及び音声認識装置１の概略を示すブロック図である。図１を用いて音声認識システム１００及び音声認識装置１について説明する。

　（音声認識システム１００）
　音声認識システム１００は、車載装置２と、サーバ３とを備えている。車載装置２は、車両内に搭載されている。車載装置２は、音声出力部２ａと、マイク部２ｂと、カメラ部２ｃと、サーバ通信部２ｄとを含む。図示されていないが、車載装置２は、ディスプレイを含んでいてもよい。

　第１実施形態において、音声出力部２ａは、搭乗者からの特定の発話をトリガーに起動する。音声出力部２ａは、機械音声を出力する。音声出力部２ａは、例えば、目的地までのルート案内に関する情報を音声出力する。

　マイク部２ｂは、搭乗者Ｕ（＝ユーザ）が発話した音声を受け付ける。搭乗者Ｕは、ドライバ及び同乗者を含む。

　カメラ部２ｃは、インカメラとアウトカメラを有する（図示しない）。インカメラは、車内に向いており、運転席が撮影範囲に含まれている。インカメラは、ドライバが映るように、車両内を撮影する。アウトカメラは、車両外に向いている。アウトカメラは、車両外の様子を撮影する。

　サーバ通信部２ｄは、ネットワーク１０１を介して、サーバ３（＝車載装置通信部７０）と通信可能な構成となっている。

　第１実施形態において、サーバ３は車両外に設けられている。サーバ３は、いわゆるクラウドサーバであってもよい。

　（音声認識装置１）
　第１実施形態において、音声認識装置１は、サーバ３である。音声認識装置１は、音声入力部１０と、音声認識部２０と、判断部３０と、処理実行部４０と、調整部５０と、記憶部６０と車載装置通信部７０とを備える。

　（音声入力部１０）
　音声入力部１０は、車両内の搭乗者Ｕの音声が入力される。マイク部２ｂに入力された音声が音声入力部１０に送信されることで、音声入力部１０に搭乗者の音声が入力される。

　（音声認識部２０）
　音声入力部１０に入力された音声は、音声認識部２０に送信される。音声認識部２０は、音声入力部１０に入力された音声を第１音声情報として認識する。第１音声情報は、音声信号としての音声波形に関する情報、音声の大きさに関する情報、及び音声の周波数に関する情報の少なくともいずれか１つを含んでいる。第１実施形態において、音声認識部２０は、スコア情報を用いて、第１音声情報を認識する。スコア情報は、搭乗者Ｕの発話した音声が予め定められている用語であることの確からしさを数値化した情報である。

　（判断部３０）
　判断部３０は、音声認識部２０が認識した第１音声情報と、第２音声情報とを比較し、両者の類似性が所定の基準を満たすか否かを判断する。第２音声情報は、記憶部６０に予め記憶されている。第２音声情報は、五十音及び長音記号を含む特定の文言に対する音声波形に関する情報、音声の大きさに関する情報、及び音声の周波数に関する情報の少なくともいずれか１つを含んでいる。

　図２は、第１実施形態の判断部３０が類似性を判断する方法を説明するための簡略図である。判断部３０は、第１音声情報と第２音声情報を比較して、スコア情報を算出する。スコア情報は、たとえば、第２音声情報に対する第１音声情報の類似度を示している。スコア情報には、閾値（＝所定の基準）が設けられており、搭乗者Ｕの発話した音声の第１音声情報のスコア情報が当該閾値を超えたとき、判断部３０は、第１音声情報と、第２音声情報とが、類似している（又は同一である）と判断する。すなわち、第１音声情報のスコア情報が当該閾値を超えたとき、判断部３０は、第１音声情報と、第２音声情報との類似性が所定の基準を満たしたと判断する。

　例えば、搭乗者Ｕの「ａｂｃ（えーびーしー）」という発話を音声認識する場合について音声認識方法を説明する。音声認識部２０は、搭乗者Ｕの発話した音声（＝ａｂｃ）を第１音声情報（＝「ｘｘｘ」（図２中のＣ０１）。「ｘｘｘ」は音声波形データなどである）として認識する。判断部３０は、第１音声情報と、記憶部６０に記憶された第２音声情報である「えーびーしー」（＝図２中のＣ０２）とを比較し、スコア情報（＝図２中のＣ０３）を算出する。

　判断部３０は、算出されたスコア情報と記憶部６０に記憶された閾値（＝図２中のＣ０４）とを比較して、当該閾値を超えたか否かを判断する。当該閾値を超えた場合、判断部３０は、第１音声情報と第２音声情報が類似している（又は同一）と判断する。言い換えれば、当該閾値を超えた場合、判断部３０は、搭乗者Ｕが「ａｂｃ（えーびーしー）」と発話したと判断する（＝図２中の「判断結果：類似」）。図２の例では、算出されたスコア情報は１００であり、閾値の８０を超えているので、判断部３０は、第１音声情報と第２音声情報が類似していると判断する。

　図３は、複数の第２音声情報が設けられている場合において、判断部３０が類似性を判断する方法を説明するための簡略図である。第１実施形態において、記憶部６０には、複数の第２音声情報が記憶されている。複数の第２音声情報に対応している文言のそれぞれは、全体としては互いに異なっているが、部分的に共通している。すなわち、複数の第２音声情報の一つは、搭乗者が発話すべき文言そのものを示している（図３中の「えーびーしー」）。そして残りの第２音声情報は、搭乗者が発話すべき文言の一部（図３中の「びーしー」）、又は、搭乗者が発話すべき文言を部分的に変更した文言（図３中の「えびし」）となっている。

　判断部３０は、第１音声情報と複数の第２音声情報とをそれぞれ比較し、複数の第２音声情報それぞれに対して、スコア情報を算出する。判断部３０は、複数の第２音声情報それぞれに対して、判断結果を出力する。図３の例では、判断部３０は、第１音声情報と、「びーしー」（第２音声情報）とが類似していると判断している。

　第１実施形態において、複数の第２音声情報のそれぞれに係るスコア情報のいずれかが閾値を超えているとき、判断部３０は、第１音声情報と、第２音声情報とが、類似していると判断してもよい。すなわち、複数の第２音声情報のそれぞれに係るスコア情報のいずれかが閾値を超えているとき、判断部３０は、第１音声情報と、第２音声情報との類似性が所定の基準を満たしたと判断してもよい。

　（処理実行部４０）
　図１に示す処理実行部４０は、第１音声情報と第２音声情報との類似性が所定の基準を満たしていた場合に所定の処理を実行する。図２の例において、第１音声情報と第２音声情報との類似性が所定の基準を満たしている（＝閾値を超えている）ので、処理実行部４０は、所定の処理を実行する。

　第１実施形態において、所定の処理は、車載装置２の音声出力部２ａの起動処理を含んでいる。すなわち、第１実施形態において、搭乗者Ｕが特定のワードを発話して、そのワードが音声認識装置１に認識された場合、音声出力部２ａが起動することになる。

　（調整部５０）
　図１に示す調整部５０は、第１音声情報と第２音声情報との類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者Ｕからの入力に従って調整する。第１実施形態において、調整部５０は、搭乗者Ｕが管理する端末を介して、判断ルール及び基準の少なくとも一方を調整する。第１実施形態において、調整部５０は、搭乗者Ｕが管理する（＝所有する）端末からの入力を受け付ける。この場合、搭乗者Ｕが管理する端末と、音声認識装置１（＝サーバ３）及び車載装置２の少なくとも一方とが通信可能となっている。端末は、例えば、スマートフォン、タブレット、及びＰＣ（パーソナルコンピューター）などである。

　調整部５０が、類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者Ｕからの入力に従って調整するステップについて以下説明する。

　搭乗者Ｕからの入力を調整部５０が受け付けると、調整部５０は判断ルール及び所定の基準の少なくとも一方を調整する。

　具体的には例えば、ラジオ、オーディオ、及びその他外部の音などにより、意図せず音声認識される場合があるため、搭乗者Ｕが音声認識率を低く設定したい場合がある。このような場合、搭乗者Ｕは、音声認識装置１の音声認識率が低くなるように入力を行う。すると調整部５０は、閾値を高くするように調整する（＝所定の基準を調整する）。閾値が高くなると、第１音声情報と第２音声情報とが類似していると判断されにくくなるため、搭乗者Ｕが発話した音声が音声認識されにくくなる。これにより、音声認識装置１の音声認識率が低くなる。

　その他の例として、搭乗者Ｕの音声の特徴に起因して音声認識されづらい場合があるため、搭乗者Ｕが音声認識率を高く設定したい場合がある。このような場合、搭乗者Ｕは、音声認識装置１の音声認識率が高くなるように入力を行う。すると調整部５０は、第１音声情報との比較対象となる第２音声情報の数を増やすように調整する。言い換えると、搭乗者Ｕからの入力により、調整部５０は、判断ルール（＝第１音声情報との比較対象となる第２音声情報の数をいくつにするか）を調整する。第１音声情報と比較対象になる第２音声情報が増えることで、音声認識装置１の音声認識率が向上する。

　（ハードウエア構成例）
　図４は、音声認識装置１のハードウエア構成例を示す図である。音声認識装置１は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

　バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

　プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

　メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

　ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカードなどのリムーバブルメディア、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置であり、記録媒体を有している。ストレージデバイス１０４０の記録媒体は音声認識装置１の各機能（例えば、音声入力部１０、音声認識部２０、判断部３０、処理実行部４０、及び調整部５０）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス１０４０は記憶部６０としても機能する。

　入出力インタフェース１０５０は、音声認識装置１と各種入出力機器とを接続するためのインタフェースである。

　ネットワークインタフェース１０６０は、音声認識装置１をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。音声認識装置１は、ネットワークインタフェース１０６０を介して車載装置２と通信してもよい。

　（第１実施形態の動作例）
　図５は、第１実施形態の音声認識装置１が音声出力部２ａの起動処理を実行するまでのフロー図である。図５を用いて、音声認識装置１が音声出力部２ａの起動処理を実行するまでのフローについて説明する。

　まずステップＳ１００において、音声入力部１０に搭乗者Ｕの音声が入力される。次にステップＳ１１０において、音声認識部２０は、音声入力部１０に入力された音声を第１音声情報として認識する。次にステップＳ１２０において、判断部３０は、第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する。所定の基準を満たす場合（ステップＳ１２０でＹｅｓ）、ステップＳ１３０で音声出力部２ａの起動処理を実行する。所定の基準を満たさない場合（ステップＳ１２０でＮｏ）、再度ステップＳ１００に戻る。なお、所定の基準を満たさない場合（ステップＳ１２０でＮｏ）、制御を終了してもよい。

　本実施形態の音声認識装置１は、第１音声情報と第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部３０と、類似性が所定の基準を満たしていた場合に所定の処理を実行する処理実行部４０と、類似性の判断ルール及び所定の基準の少なくとも一方を搭乗者Ｕからの入力に従って調整する調整部５０と、を備えていることを特徴としている。

　搭乗者Ｕが発話した音声（＝キーワード）を音声認識することをトリガーとして所定の処理（音声出力部２ａの起動処理、目的地設定に関する処理、及びルート案内に関する処理など）が実行されるように制御されている場合であっても、搭乗者Ｕ自身が音声認識率を調整することができるため、意図せず誤って所定の処理が実行される可能性を抑制することができる。

　さらに、搭乗者Ｕが発話する音声が音声認識されにくい場合であっても、搭乗者Ｕが自分自身で音声認識装置１の音声認識率を上げることができる。

　したがって、上記特徴のような構成を備えることにより、車両内における音声認識装置１の音声認識精度を向上することができる。

　また、調整部５０が、搭乗者Ｕが管理する端末を介して、判断ルール及び基準の少なくとも一方を調整することにより、搭乗者Ｕ自身が簡易に音声認識率を調整することができる。

　また、処理実行部４０が音声出力部２ａの起動処理を実行する構成とすることにより、ウェイクワードの音声認識精度を向上させることができる。

　［第２実施形態］
　図６は、第２実施形態の音声認識システム１００及び音声認識装置１の概略を示すブロック図である。第１実施形態と異なり、第２実施形態の音声認識装置１は、テキスト変換部８０をさらに備えている。第１実施形態において、第１音声情報は、テキスト変換部８０により、第１テキスト情報に変換される。第１テキスト情報は、五十音及び長音記号などの文字情報を含む。

　第２テキスト情報は、記憶部６０に予め記憶されている。第２テキスト情報は、五十音及び長音記号などの文字情報を含む。

　図７は、第２実施形態の記憶部６０に記憶された第２テキスト情報及びそれに紐づく情報のデータ構造の一例を示す図である。第２実施形態において、第２テキスト情報には、ＩＤ、優先度、及び判断対象か否かの情報が紐づいている。複数の第２音声情報（＝第２テキスト情報）にはそれぞれ優先度が設定されている。

　図８は、第２実施形態の判断部３０が類似性を判断する方法を説明するための簡略図である。判断部３０は、テキスト変換部８０により変換された第１テキスト情報と、第２テキスト情報との類似性が所定の基準を満たすか否かを判断する。

　第２実施形態において、判断部３０は、第１テキスト情報の中に含まれている第２テキスト情報の割合を認識し、所定の基準を満たすか否かを判断する。以下、具体的に説明する。

　搭乗者Ｕが「えーびーしー」と発話して、音声認識部２０が当該発話の音声を第１音声情報として認識し、テキスト変換部８０が「びーしー」（＝第１テキスト情報）として変換したとする。

　判断部３０は、テキスト変換された「びーしー」と、判断対象である第２テキスト情報の「えーびーしー」を比較し、第１テキスト情報の中に第２テキスト情報がどのくらい含まれているかの割合を算出する。図８の場合、第１テキスト情報と第２テキスト情報とは、「びーしー」の部分で部分一致するため、上記割合は約６７％と算出される。

　そして、例えば、閾値を６０％以上としていた場合、上記第１テキスト情報と第２テキスト情報とは類似していると判断部３０は判断する。言い換えると、判断部３０は、第１テキスト情報と、第２テキスト情報との類似性が所定の基準を満たしていると判断する。

　図９は、複数の第２テキスト情報が設けられている場合において、判断部３０が類似性を判断する方法を説明するための簡略図である。

　今回は、搭乗者Ｕが「えーびーしー」と発話して、音声認識部２０が当該発話の音声を第１音声情報として認識し、テキスト変換部８０が「けいびーしー」（＝第１テキスト情報）として変換したとする。

　第１テキスト情報との類似の判断対象となる第２テキスト情報が、予め設定されていてもよい。図９では、「えーびーしー」と「けいびーしー」が判断対象である。

　第２テキスト情報の「えーびーしー」（図９中のＩＤ：００１）と、第１テキスト情報の「けいびーしー」とは、「びーしー」について、部分一致をしているため、上記割合は６７％と算出される。そして判断部３０は、当該割合の値と閾値とを比較し、閾値を上回っているか判断する。第２テキスト情報の「えーびーしー」については、閾値の９０％を下回っているので、判断部３０は、第１テキスト情報と第２テキスト情報は非類似と判断する。

　第２テキスト情報の「けいびーしー」（図９中のＩＤ：００３）と、第１テキスト情報の「けいびーしー」とは、完全一致をしており、上記割合は１００％と算出される。そして判断部３０は、当該割合の値と閾値とを比較し、閾値を上回っているか判断する。第２テキスト情報の「けいびーしー」については。閾値の９０％を上回っているので、判断部３０は、第１テキスト情報と第２テキスト情報は類似（又は同一）と判断する。

　第２実施形態において、複数の第２テキスト情報が設けられている場合、いずれかの第２テキスト情報の割合が閾値を超えていれば（いずれかの第２テキスト情報が第１テキスト情報と類似であれば）、判断部３０は、第１テキスト情報と、第２テキスト情報との類似性が所定の基準を満たしていると判断する。図９の例では、「えーびーしー」は閾値を超えていないが、「けいびーしー」が閾値を超えているので、判断部３０は、上記類似性が所定の基準を満たしていると判断する。

　第２実施形態においても、第１実施形態と同様に、搭乗者Ｕからの入力を受け付けると、調整部５０は、判断ルール及び所定の基準の少なくとも一方を調整する。

　第２実施形態において、判断ルールは、判断対象情報を含む。判断対象情報は、複数の第２音声情報（＝第２テキスト情報）の中から、上記類似性の判断対象となる第２音声情報（＝第２テキスト情報）を特定するための情報である。判断対象情報は、どの第２テキスト情報を第１テキスト情報との比較対象にするかの情報も含んでいる。

　図９では判断対象は、「えーびーしー」及び「けいびーしー」である。判断対象情報は、例えば、ＩＤ：００１～ＩＤ：０１０の第２テキスト情報のうち、どの第２テキスト情報を判断対象に設定するかの情報を含んでいる。

　第２実施形態において、調整部５０は、搭乗者Ｕからの入力に従って、判断対象情報を調整してもよい。すなわち、調整部５０は、搭乗者Ｕからの入力に従って、どの第２テキスト情報を判断対象にするかを調整してもよい。さらに、調整部５０は、優先度が相対的に高い第２テキスト情報を優先的に判断対象に含めてもよい。

　判断ルールによって、第１音声情報との比較に用いられる第２音声情報（＝第２テキスト情報）の数が決定される。調整部５０が判断ルールを調整することで、第１音声情報との比較に用いられる第２音声情報の数が増減する。さらに、第２音声情報に優先度が設定されている場合、調整部５０が当該第２音声情報の数を増やすときは、優先度の高い第２音声情報を優先的に増やし、当該第２音声情報の数を減らすときは、優先度の高い第２音声情報を優先的に減らしてもよい。なお、調整部５０が当該第２音声情報の数を増減させるときに、優先度の高い第２音声情報を増減させるか、優先度の低い第２音声情報を増減させるかは任意に選択可能である。

　図１０は、第２実施形態の記憶部６０に記憶された第２テキスト情報及びそれに紐づく情報のデータ構造の別例を示す図である。図９のように、１つのデータテーブルＴ０１に情報がまとまっている構造でもよいし、図１０のように、複数のデータテーブル（Ｔ０１～Ｔ１０）が設けられている構造であってもよい。

　図９の場合、調整部５０は、搭乗者Ｕからの入力に従って、第２テキスト情報及びそれに紐づく情報をデータテーブルＴ０１から追加したり削除したりする構成でもよい。図１０の場合、調整部５０は、搭乗者Ｕからの入力に従って、判断対象となるデータテーブルを増減させる構成でもよい。なお、図１０の場合、判断対象となるデータテーブルはＴ０１とＴ０２の２つである。

　（第２実施形態の動作例）
　図１１は、第２実施形態の音声認識装置１が音声出力部２ａの起動処理を実行するまでのフロー図である。第１実施形態の音声認識装置１と異なり、ステップＳ１１１では、テキスト変換部８０は第１音声情報を第１テキスト情報に変換する。ステップＳ１２１では、判断部３０は、第１テキスト情報と第２テキスト情報を比較し、第１テキスト情報と、第２テキスト情報との類似性が所定の基準を満たすか否かを判断する。所定の基準を満たす場合（ステップＳ１２１でＹｅｓ）、ステップＳ１３０で音声出力部２ａの起動処理を実行する。所定の基準を満たさない場合（ステップＳ１２１でＮｏ）、再度ステップＳ１００に戻る。なお、所定の基準を満たさない場合（ステップＳ１２１でＮｏ）、制御を終了してもよい。

　第２実施形態においても第１実施形態と同様に、車両内における音声認識装置１の音声認識精度を向上することができる。第２実施形態において、第１テキスト情報と、第２テキスト情報との類似性が所定の基準を満たすか否かを判断部３０が判断する構成とすることで、音声認識装置１の音声認識精度をより向上させることができる。

　判断部３０が、第１テキスト情報の中に含まれている第２テキスト情報の割合を認識し、所定の基準を満たすか否かを判断することにより、当該類似性を明確に判断することができるため、音声認識装置１の音声認識精度をより向上させることができる。

　調整部５０が、搭乗者Ｕからの入力に従って、判断対象情報を調整することにより、効果的に音声認識装置１の音声認識精度を向上させることができる。

　調整部５０が、優先度が相対的に高い第２音声情報を優先的に判断対象に含めることにより、より効果的に音声認識装置１の音声認識精度を向上させることができる。

　以上、図面を参照して実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　上記の説明では、音声認識装置１は、サーバ３として説明してきたが、音声認識装置１は、車載装置２であってもよい。この場合、音声入力部１０、音声認識部２０、判断部３０、処理実行部４０、及び調整部５０は、車載装置２に含まれていてもよい。

　また、音声入力部１０、音声認識部２０、判断部３０、処理実行部４０、及び調整部５０の構成のそれぞれを、車載装置２とサーバ３のどちらに搭載するかは任意に選択してもよい。

　また、記憶部６０は音声認識装置１の外部に設けられていてもよい。所定の処理は、音声出力部２ａの起動処理のほかに、車両の目的地設定に関する処理やルート案内に関する処理を含んでいてもよい。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

　以下、参考形態の例を付記する。
１．　車両内の搭乗者の音声が入力される音声入力部と、
　前記音声入力部に入力された前記音声を第１音声情報として認識する音声認識部と、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置。
２．　１．に記載の音声認識装置において、
　前記第１音声情報は、第１テキスト情報に変換され、
　前記判断部は、前記第１テキスト情報と、予め記憶された第２テキスト情報との前記類似性が前記所定の基準を満たすか否かを判断する、音声認識装置。
３．　２．に記載の音声認識装置において、
　前記判断部は、前記第１テキスト情報の中に含まれている前記第２テキスト情報の割合を認識し、前記所定の基準を満たすか否かを判断する、音声認識装置。
４．　１．から３．のいずれか一つに記載の音声認識装置において、
　前記判断ルールは、複数の前記第２音声情報の中から前記類似性の判断対象となる第２音声情報を特定するための判断対象情報を含み、
　前記調整部は、前記搭乗者からの入力に従って、前記判断対象情報を調整する、音声認識装置。
５．　４．に記載の音声認識装置において、
　前記複数の第２音声情報にはそれぞれ優先度が設定されており、
　前記調整部は、前記優先度が相対的に高い第２音声情報を優先的に前記判断対象に含める、音声認識装置。
６．　１．から５．のいずれか一つに記載の音声認識装置において、
　前記調整部は、前記搭乗者が管理する端末を介して、前記判断ルール及び前記基準の少なくとも一方を調整する、音声認識装置。
７．　１．から６．のいずれか一つに記載の音声認識装置において、
　前記所定の処理は、音声出力部の起動処理を含む、音声認識装置。
８．　音声認識装置を実現するコンピュータに、
　車両内の搭乗者の音声を入力する手順、
　前記音声を第１音声情報として認識する手順、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する手順、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する手順、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する手順、を実行させるためのプログラム。
９．　音声認識装置を実現するコンピュータが、
　車両内の搭乗者の音声を入力し、
　前記音声を第１音声情報として認識し、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断し、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行し、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する、音声認識方法。
１０．　車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
　車両内の搭乗者の音声が入力される音声入力部と、
　前記音声入力部に入力された前記音声を第１音声情報として認識する音声認識部と、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システム。

１　音声認識装置
２　車載装置
２ａ　音声出力部
３　サーバ
１０　音声入力部
２０　音声認識部
３０　判断部
４０　処理実行部
５０　調整部
６０　記憶部
７０　車載通信部
１００　音声認識システム

Claims

　車両内の搭乗者の音声が入力される音声入力部と、
　前記音声入力部に入力された前記音声を第１音声情報として認識する音声認識部と、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置。
　請求項１に記載の音声認識装置において、
　前記第１音声情報は、第１テキスト情報に変換され、
　前記判断部は、前記第１テキスト情報と、予め記憶された第２テキスト情報との前記類似性が前記所定の基準を満たすか否かを判断する、音声認識装置。
　請求項２に記載の音声認識装置において、
　前記判断部は、前記第１テキスト情報の中に含まれている前記第２テキスト情報の割合を認識し、前記所定の基準を満たすか否かを判断する、音声認識装置。
　請求項１から３のいずれか一項に記載の音声認識装置において、
　前記判断ルールは、複数の前記第２音声情報の中から前記類似性の判断対象となる第２音声情報を特定するための判断対象情報を含み、
　前記調整部は、前記搭乗者からの入力に従って、前記判断対象情報を調整する、音声認識装置。
　請求項４に記載の音声認識装置において、
　前記複数の第２音声情報にはそれぞれ優先度が設定されており、
　前記調整部は、前記優先度が相対的に高い第２音声情報を優先的に前記判断対象に含める、音声認識装置。
　請求項１から３のいずれか一項に記載の音声認識装置において、
　前記調整部は、前記搭乗者が管理する端末を介して、前記判断ルール及び前記基準の少なくとも一方を調整する、音声認識装置。
　請求項１から３のいずれか一項に記載の音声認識装置において、
　前記所定の処理は、音声出力部の起動処理を含む、音声認識装置。
　音声認識装置を実現するコンピュータに、
　車両内の搭乗者の音声を入力する手順、
　前記音声を第１音声情報として認識する手順、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する手順、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する手順、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する手順、を実行させるためのプログラム。
　音声認識装置を実現するコンピュータが、
　車両内の搭乗者の音声を入力し、
　前記音声を第１音声情報として認識し、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断し、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行し、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する、音声認識方法。
　車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
　車両内の搭乗者の音声が入力される音声入力部と、
　前記音声入力部に入力された前記音声を第１音声情報として認識する音声認識部と、
　前記第１音声情報と、予め記憶された第２音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
　前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
　前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システム。