WO2020240647A1

WO2020240647A1 - 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Info

Publication number: WO2020240647A1
Application number: PCT/JP2019/020842
Authority: WO
Inventors: 裕三丸田
Original assignee: 三菱電機株式会社
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-12-03

Abstract

本発明は、基本形の単語と語形変化した単語とで個別の音声認識辞書を作成し、あるいはそれらの音声認識辞書を用いて音声認識を行うことを目的とする。音声認識辞書作成装置（１０１）は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部（１１）と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部（１２）と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書（５１）を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書（５２）を作成する辞書作成部（１４Ａ）と、を備える。

Description

音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

　この発明は、語形変化が生じる言語の音声認識に関する。

　言語によっては、同じ意味を表す単語が、様々な条件の下で語形変化することがある。例えば、英語では、childとchildrenのように、単数と複数で語形変化が生じる。また、ロシア語またはポーランド語などのスラブ系言語では、英語またはドイツ語などの西ヨーロッパ言語と異なり、名詞が目的語になった場合に格変化が生じる。例えば、英語の名詞Moscow（モスクワ）は、目的語になってもNavigate to Moscow（モスクワへ案内する）等のように、変化しない。また、英語の名詞hospital（病院）は、目的語になってもNavigate to hospital（病院へ案内する）等のように、変化しない。これに対して、ロシア語では、名詞

が、目的語になると

等のように、語尾がａからｙへ変化する。

　また、名詞

も同様に、

等のように、語尾が変化する。

　このように、単語には言語に特有の語形変化が生じるため、高精度に音声認識を行うためには、語形変化を考慮しない音声認識辞書を用いることが求められる。

特開平９－２８８４９４号公報

　特許文献１には、語形変化していない基本形の単語データと語形変化した単語データを含む音声認識辞書が開示されている。しかし、１つの音声認識辞書が、基本形の単語データと語形変化した単語データに対応することから、基本形の単語データのみに対応する音声認識辞書に比べてデータ量が大きいという問題があった。

　本発明は、上記の問題点を解決するためになされたものであり、語形変化を伴う単語の音声認識に用いる音声認識辞書のデータ量を小さくすることを目的とする。

　本発明の第１の音声認識辞書作成装置は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書を作成する辞書作成部と、を備える。

　本発明の第１の音声認識装置は、車両の搭乗者の発話音声を取得する音声取得部と、発話音声の音響データを作成する音響分析部と、発話音声の音響データと、格変化していない基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書と、基本単語が語形変化した変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書と、を用いて、発話音声の音声認識を行う音声認識部と、を備える。

　本発明の第２の音声認識辞書作成装置は、車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部と、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部と、基本単語の音響データの変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書を作成する辞書作成部と、を備える。

　本発明の第２の音声認識装置は、車両の搭乗者の車両に搭載された対象装置に対する操作音声を取得する音声取得部と、操作音声の音響データを作成する音響分析部と、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書と、統合認識辞書とを用いて、操作音声の音声認識を行う音声認識部と、を備え、統合認識辞書は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、基本名称および格変化名称に紐づけた情報であり、音声認識部は、操作音声に含まれる名称の音響データに対応する統合音響データを対応統合音響データと特定し、コマンド認識辞書による操作音声の認識結果に動詞が含まれる場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた格変化名称と認識し、コマンド認識辞書による操作音声の認識部分に動詞が含まれない場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた基本名称と認識する。

　本発明の第１の音声認識辞書作成装置によれば、基本単語認識辞書とは別に変化単語認識辞書が作成されるため、各々の認識辞書のデータ量を小さくすることができる。また、本発明の第１の音声認識装置によれば、基本単語認識辞書と変化単語認識辞書を用いて音声認識を行うため、必要に応じていずれかまたは両方の認識辞書を用いて音声認識を行うことができる。

　本発明の第２の音声認識辞書作成装置によれば、辞書作成部が統合認識辞書を作成する。統合認識辞書は、基本単語と変化単語に対する共通の音声認識辞書であるため、語形変化に伴うデータ量の増加が抑制される。また、本発明の第２の音声認識装置によれば、音声認識部が統合認識辞書を用いて操作音声の音声認識を行うことが可能である。

　本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１の音声認識辞書作成装置の構成を示すブロック図である。実施の形態１の音声認識辞書作成装置の動作を示すフローチャートである。実施の形態１の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。実施の形態１の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。実施の形態１の音声認識装置の構成を示すブロック図である。実施の形態１の音声認識装置の動作を示すフローチャートである。実施の形態２の音声認識装置の構成を示すブロック図である。実施の形態２の音声認識装置の動作を示すフローチャートである。実施の形態３の音声認識辞書作成装置の構成を示すブロック図である。実施の形態３の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。実施の形態３の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。実施の形態３の音声認識装置の構成を示すブロック図である。実施の形態３の音声認識装置の動作を示すフローチャートである。実施の形態４の音声認識辞書作成装置の構成を示すブロック図である。実施の形態４の音声認識辞書作成装置の辞書作成部の構成を示すブロック図である。実施の形態４の音声認識辞書作成装置の辞書作成部の動作を示すフローチャートである。実施の形態４の音声認識装置の構成を示すブロック図である。音声認識辞書作成装置または音声認識装置のハードウェア構成を示す図である。音声認識辞書作成装置または音声認識装置のハードウェア構成を示す図である。車両とサーバによる音声認識辞書作成装置の構成例を示す図である。

　＜Ａ．実施の形態１＞
　＜Ａ－１．辞書作成＞
　図１は、実施の形態１の音声認識辞書作成装置１０１の構成を示すブロック図である。音声認識辞書作成装置１０１は、基本単語認識辞書５１と変化単語認識辞書５２を個別に作成する。基本単語認識辞書５１は、基本単語を音声認識するための辞書であり、変化単語認識辞書５２は、基本単語から語形変化した変化単語を音声認識するための辞書である。基本単語と変化単語は、車両に搭載された対象装置において使用される単語である。対象装置がナビゲーション装置である場合、ナビゲーション装置で使用される地名または施設の名称等が、基本単語と変化単語の例として挙げられる。音声認識辞書作成装置１０１は、対象装置に含まれていても良いし、対象装置と異なる装置であっても良い。

　図１に示すように、音声認識辞書作成装置１０１は、取得部１１、変化単語作成部１２、記憶部１３、および辞書作成部１４Ａを備えている。記憶部１３は、基本単語データベース１３１、格変化文法ルールテーブル１３２、および変化単語データベース１３３を備えている。本実施の形態では、記憶部１３を音声認識辞書作成装置１０１が備える構成として説明するが、記憶部１３は音声認識辞書作成装置１０１の外部のサーバ等に設けられていても良い。

　基本単語データベース１３１には、基本単語のテキストデータ（以下、「基本単語データ」）が格納されている。図１には、基本単語の例として、

が示されている。これらは、ナビゲーション装置において使用される地名または施設名称等のロシア語の名詞であり、語形変化が生じていない基本名詞である。これらの基本名詞は、動詞の目的語になると格変化が生じる。以下、本実施の形態では、動詞の目的語としての名詞の格変化を、語形変化の例として説明するが、名詞の単複による語形変化、または名詞以外の語形変化も本実施の形態の音声認識辞書作成装置１０１に適用可能である。

　格変化文法ルールテーブル１３２には、基本単語が動詞の目的語として格変化する際の文法ルール、すなわち格変化ルールが記載されている。格変化ルールとは、例えば、ロシア語の名詞は、動詞の目的語になると末尾のａがｙに変化する、等のルールである。

　図２は、音声認識辞書作成装置１０１の動作を示すフローチャートである。以下、図２に沿って音声認識辞書作成装置１０１の動作を説明する。まず、取得部１１は、基本単語データベース１３１から基本単語を読み込み（ステップＳ１０１）、変化単語作成部１２に出力する。

　次に、変化単語作成部１２が変化単語のテキストデータ（以下、「変化単語データ」）を作成し（ステップＳ１０２）、変化単語データベース１３３に格納する。具体的には、変化単語作成部１２は、取得部１１から取得した基本単語データの基本単語を、格変化文法ルールテーブル１３２に記載された格変化文法ルールに従って語形変化させて変化単語を作成する。例えば、変化単語作成部１２は、基本単語の

に対し、末尾のａをｙに変えるという格変化文法ルールに従って、変化単語

を作成する。

　次に、辞書作成部１４Ａは、基本単語データベース１３１に格納された基本単語データを用いて基本単語認識辞書５１を作成し、変化単語データベース１３３に格納された変化単語データを用いて変化単語認識辞書５２を作成する（ステップＳ１０３）。

　図３と図４を用いて、辞書作成部１４Ａによる基本単語認識辞書５１と変化単語認識辞書５２の作成処理について説明する。図３は、辞書作成部１４Ａの構成を示すブロック図である。図３に示すように、辞書作成部１４Ａは、音素列作成部１４１、辞書データ作成部１４２、音素変換ルールテーブル１４３、および音響データ格納部１４４を備えている。但し、音素変換ルールテーブル１４３と音響データ格納部１４４は、辞書作成部１４Ａに必須の構成ではなく、辞書作成部１４Ａの外部、さらには音声認識辞書作成装置１０１の外部のサーバなどに設けられていても良い。

　音素変換ルールテーブル１４３には、基本単語および変化単語の各文字列を音素に変換するルールが記載されている。音響データ格納部１４４には、各音素に対応する音響データが格納されている。図３には、音素ｓ，ａ，ｍ等に対応する音響データが１，２，３等のように数字で示されている。

　図４は、辞書作成部１４Ａの辞書作成処理を示すフローチャートである。以下、図４に沿って辞書作成部１４Ａの辞書作成処理を説明する。このフローは、図２のステップＳ１０３における処理の詳細に相当する。まず、音素列作成部１４１は、基本単語データベース１３１から取得した基本単語データと、変化単語データベース１３３から取得した変化単語データとを、音素変換ルールテーブル１４３に記載された音素変換ルールに従って、それぞれ音素列に変換する（ステップＳ１０３１）。この処理によって、基本単語

は、音素列

に変換され、変化単語

は、音素列

に変換される。

　次に、辞書データ作成部１４２は、音響データ格納部１４４から、音素列作成部１４１が作成した基本単語および変化単語の音素列に対応する音響データを抽出し、基本単語および変化単語の音響データを作成する（ステップＳ１０３２）。この処理によって、音素列

は音響データ「３－４－１－…－２」に変換され、音素列

は音響データ「３－４－１－…－５」に変換される。

　そして、辞書データ作成部１４２は、音響データ「３－４－１－…－２」を基本単語

のテキストデータに紐づけて、基本単語認識辞書５１を作成する。また、辞書データ作成部１４２は、音響データ「３－４－１－…－５」を変化単語

のテキストデータに紐づけて、変化単語認識辞書５２を作成する。

　＜Ａ－２．辞書作成の変形例＞
　基本単語認識辞書５１と変化単語認識辞書５２は、対象装置における音声認識処理に用いられる。音声認識辞書作成装置１０１は、対象装置が音声認識処理を行う前に、予め基本単語認識辞書５１と変化単語認識辞書５２を作成しておく。但し、音声認識辞書作成装置１０１は、必要に応じて、すなわち予め定められた条件が成立した場合に、動的に基本単語認識辞書５１と変化単語認識辞書５２を作成しても良い。例えば、対象装置であるナビゲーション装置が、車両の現在位置の属する国内に限定して地名または施設を認識する場合、音声認識辞書作成装置１０１は、車両が国境を越えた時点で、入国した国の地名または施設についての基本単語データを基本単語データベース１３１から読み込み、基本単語認識辞書５１と変化単語認識辞書５２を作成しても良い。言い換えれば、辞書作成部１４Ａは、車両の現在位置に基づき、基本単語認識辞書５１と変化単語認識辞書５２を作成する。

　あるいは、音声認識辞書作成装置１０１は、対象装置であるナビゲーション装置の設定言語が切り替えられたタイミングで、新たな言語の地名または施設に関する基本単語データを基本単語データベース１３１から読み込み、基本単語認識辞書５１と変化単語認識辞書５２を作成しても良い。言い換えれば、辞書作成部１４Ａは、対象装置の設定言語が予め定められた言語である場合に、基本単語認識辞書５１と変化単語認識辞書５２を作成する。

　これらの構成によれば、全ての国の地名または施設に関する基本単語認識辞書５１と変化単語認識辞書５２を予め作成する必要がないため、基本単語認識辞書５１と変化単語認識辞書５２のデータ量が削減される。なお、辞書作成部１４Ａは、全ての国の地名または施設に関する基本単語認識辞書５１を予め作成しておき、変化単語認識辞書５２についてのみ、予め定められた条件が成立した場合に作成しても良い。

　＜Ａ－３．音声認識＞
　図５は、実施の形態１の音声認識装置２０１の構成を示すブロック図である。音声認識装置２０１は、音声認識辞書作成装置１０１が作成した基本単語認識辞書５１と変化単語認識辞書５２の他に、コマンド認識辞書５３を用いて車両の搭乗者の音声を認識する。音声認識装置２０１は、ナビゲーション装置等の対象装置に含まれていても良いし、対象装置と異なる装置であっても良い。図５に示すように、音声認識装置２０１は、音声取得部２２、音響分析部２３、および音声認識部２４を備えている。

　図６は、音声認識装置２０１の動作を示すフローチャートである。以下、図６に沿って音声認識装置２０１の動作を説明する。まず、音声認識部２４は、基本単語認識辞書５１、変化単語認識辞書５２、およびコマンド認識辞書５３を、音声認識辞書として選択し（ステップＳ２０１）、これらの辞書に含まれる語彙が認識できるようにする。次に、音声取得部２２は、車両に搭載されたマイク２１から、車両の搭乗者の発話音声を取得し（ステップＳ２０２）、音響分析部２３に出力する。音響分析部２３は、音声取得部２２から取得した発話音声の音響データを作成する（ステップＳ２０３）。音響データとは、音響特徴量のベクトル列のことである。

　次に、音声認識部２４は、発話音声の音声認識を行う（ステップＳ２０４）。本ステップにおいて音声認識部２４は、ステップＳ２０３で音響分析部２３が作成した発話音声の音響データ列と、ステップＳ２０１で選択した音声認識辞書に登録されている音響データ列とを比較して、最も一致度が高いものを認識結果として出力する。

　ここでは、音声認識辞書として、基本単語認識辞書５１、変化単語認識辞書５２、およびコマンド認識辞書５３が用いられる。コマンド認識辞書５３とは、対象装置を操作するためのコマンドのテキストデータを、当該コマンドの音響データに紐づけた情報である。コマンドの例として、例えば

等がある。

　ユーザの発話音声が

であるとすると、音声認識部２４は

をコマンド認識辞書５３により認識し、

を変化単語認識辞書５２により認識する。

　また、ユーザの発話音声が

であるとすると、音声認識部２４は

をコマンド認識辞書５３により認識し、

を基本単語認識辞書５１により認識する。

　＜Ａ－４．効果＞
　実施の形態１の音声認識辞書作成装置１０１は、車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部１１と、基本単語の言語の語形変化ルールに基づき、基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部１２と、基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書５１を作成し、変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書５２を作成する辞書作成部１４Ａと、を備える。このように、音声認識辞書作成装置１０１は、基本単語認識辞書５１と変化単語認識辞書５２を別個に作成することによって、各認識辞書のデータ量を小さくすることができる。

　また、実施の形態１の音声認識装置２０１は、車両の搭乗者の発話音声を取得する音声取得部２２と、発話音声の音響データを作成する音響分析部２３と、発話音声の音響データと、格変化していない基本単語のテキストデータを基本単語の音響データに紐づけた情報である基本単語認識辞書５１と、基本単語が語形変化した変化単語のテキストデータを変化単語の音響データに紐づけた情報である変化単語認識辞書５２と、を用いて、発話音声の音声認識を行う音声認識部２４と、を備える。このように、音声認識装置２０１は、基本単語認識辞書５１と変化単語認識辞書５２の両方を用いて音声認識を行うことで、単語の語形変化、例えば目的語としての格変化の有無によらず正確に音声認識を行うことができる。

　＜Ｂ．実施の形態２＞
　＜Ｂ－１．構成＞
　図７は、実施の形態２の音声認識装置２０２の構成を示すブロック図である。音声認識装置２０２は、実施の形態１の音声認識辞書作成装置１０１が作成した基本単語認識辞書５１および変化単語認識辞書５２に加えて、コマンド認識辞書５３とガベジ認識辞書５４を用い、２回の音声認識処理により認識結果を確定する。

　音声認識装置２０２は、実施の形態１の音声認識装置２０１の構成に加えて、認識制御部２５、辞書切替部２６、および一時格納部２７を備えている。認識制御部２５は、音声認識部２４の１回目の認識結果に応じて２回目の音声認識に用いる音声認識辞書を決定する。辞書切替部２６は、認識制御部２５の指示を受けて音声認識に用いる音声認識辞書を切り替える。一時格納部２７は、２回目の音声認識のために、発話音声データまたは発話音声の音響データを格納する。

　＜Ｂ－２．動作＞
　図８は、音声認識装置２０２の動作を示すフローチャートである。以下、図８のフローに沿って音声認識装置２０２の動作を説明する。

　まず、辞書切替部２６は、ユーザの発話の前に、コマンド認識辞書５３とガベジ認識辞書５４を音声認識辞書として選択し（ステップＳ３０１）、これらの辞書に含まれる語彙が認識できるようにする。

　ガベジ認識辞書５４とは、ガベジ音響モデルを用いる音声認識辞書である。ガベジ音響モデルとは、一般的にどのような音声にもある程度音響的に一致する、既知の音響モデルである。ガベジ認識辞書５４によれば、「ａ」と「ｙ」を区別するようなことはできないが、無音と有音を区別することができ、何らかの発話があることを検知することができる。

　ユーザが発話を行うと、音声取得部２２がマイク２１から発話音声を取得する（ステップＳ３０２）。そして、音響分析部２３が発話音声の音響特徴を解析して音響データを作成する（ステップＳ３０３）。発話音声の音響データは、一時格納部２７に格納されると共に（ステップＳ３０４）、音声認識部２４に送られる。

　音声認識部２４は、コマンド認識辞書５３とガベジ認識辞書５４を用いて、発話音声の１回目の音声認識を行う（ステップＳ３０５）。具体的には、音声認識部２４は、ステップＳ３０３で音響分析部２３が作成した発話音声の音響データと、コマンド認識辞書５３およびガベジ認識辞書５４に登録されている音響データとを比較して、最も一致度が高いものを認識結果として出力する。

　例えば、ユーザが

と発話したとする。

　このとき、音声認識部２４は認識結果として

を１回目の認識結果として出力する。なお、＊＊はガベジ音素に対応する文字列を表しており、何らかの発話がなされているものの、何と発話しているかを認識できない部分である。

　次に、認識制御部２５は、音声認識部２４から１回目の認識結果を取得し、認識結果に動詞のコマンドが含まれるか否かを判断し（ステップＳ３０６）、判断結果に応じて辞書切替部２６に音声認識辞書を選択するよう指示する。

　１回目の認識結果に動詞のコマンドが含まれる場合、辞書切替部２６は、変化単語認識辞書５２とコマンド認識辞書５３を２回目の音声認識辞書として選択する（ステップＳ３０７）。例えば、１回目の認識結果が

の場合、動詞

が含まれているため、変化単語認識辞書５２とコマンド認識辞書５３が２回目の音声認識辞書となる。

　一方、１回目の認識結果に動詞のコマンドが含まれない場合、辞書切替部２６は基本単語認識辞書５１とコマンド認識辞書５３を２回目の認識処理に用いる音声認識辞書として選択する（ステップＳ３０８）。例えば、１回目の認識結果が

の場合、動詞が含まれていないため、基本単語認識辞書５１とコマンド認識辞書５３が２回目の音声認識辞書となる。

　その後、音声認識部２４は、再選択された音声認識辞書と、一時格納部２７に格納された発話音声の音響データとを用いて、２回目の音声認識を行う（ステップＳ３０９）。

　＜Ｂ－３．効果＞
　実施の形態２の音声認識装置２０２において、音声取得部２２は、車両に搭載された対象装置の操作音声を取得し、音声認識部２４は、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書５３と、ガベジ音響モデルを用いた認識辞書であるガベジ認識辞書５４とを用いて、発話音声の１回目の音声認識を行い、１回目の音声認識結果に動詞が含まれない場合に、コマンド認識辞書５３と基本単語認識辞書５１を用いて発話音声の２回目の音声認識を行い、１回目の音声認識結果に動詞が含まれる場合に、コマンド認識辞書５３と変化単語認識辞書５２を用いて発話音声の２回目の音声認識を行う。このように、音声認識装置２０２は、発話音声に含まれる名詞が格変化するかしないかを１回目の認識結果により把握し、それに対応して２回目の音声認識辞書を選択することによって、音声認識の精度を高めることができる。

　＜Ｃ．実施の形態３＞
　＜Ｃ－１．統合辞書作成＞
　図９は、実施の形態３の音声認識辞書作成装置１０３の構成を示すブロック図である。音声認識辞書作成装置１０３は、実施の形態１の音声認識辞書作成装置１０１において、辞書作成部１４Ａに代えて辞書作成部１４Ｂを備えたものである。辞書作成部１４Ｂは、基本単語データベース１３１から取得した基本単語データと、変化単語データベース１３３から取得した変化単語データとを用いて、統合認識辞書５５を作成する。

　図１０は、辞書作成部１４Ｂの構成を示すブロック図である。辞書作成部１４Ｂは、図３に示した実施の形態１の辞書作成部１４Ａの構成に加えて、音素置換部１４５を備えている。音素置換部１４５は、基本単語の音素列のうち、変化単語の音素列との相違部分を他の音素、具体的にはガベジ音素に置換することにより、統合音素列を作成する。

　図１１は、音声認識辞書作成装置１０３の動作を示すフローチャートである。以下、図１１のフローに沿って音声認識辞書作成装置１０３の動作を説明する。まず、音素列作成部１４１は、基本単語データベース１３１から取得した基本単語データと、変化単語データベース１３３から取得した変化単語データとを、音素変換ルールテーブル１４３に記載された音素変換ルールに従って、それぞれ音素列に変換する（ステップＳ２０３１）。本ステップは図４のステップＳ１０３１と同様である。

　次に、音素置換部１４５が統合音素列を作成する（ステップＳ２０３２）。具体的には、音素置換部１４５が基本単語の音素列を変化単語の音素列と比較し、相違部分が少なければ、相違部分をガベジ音素に置換することにより、統合音素列を作成する。

　例えば、基本単語が

であり、変化単語が

である場合、両者の相違部分は末尾の１音素だけであるため、音素置換部１４５は末尾の１音素をガベジ音素＊に置き換え、統合音素列

を作成する。

　次に、辞書データ作成部１４２は、音響データ格納部１４４から統合音素列の各音素に対応する音響データを取り出して、統合音響データ列を作成する。なお、本実施の形態では音響データ格納部１４４にガベジ音素＊に対応する音響データが「１００」として格納されているものとする。辞書データ作成部１４２は、統合音素列

に対して、「３－４－１－…－１００」という統合音響データを作成し（ステップＳ２０３３）、これを統合音素列の基となった基本単語データおよび変化単語データに紐づけて統合認識辞書５５を作成する。統合認識辞書５５は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データ、本実施の形態ではガベジ音素の音響データ、に置換した統合音響データを、基本名称および格変化名称に紐づけた情報である。

　＜Ｃ－２．音声認識処理＞
　図１２は、実施の形態３の音声認識装置２０３の構成を示すブロック図である。音声認識装置２０３は、実施の形態１の音声認識装置２０１の構成に加えて、認識制御部２５を備えている。音声認識装置２０３は、コマンド認識辞書５３と音声認識辞書作成装置１０３が作成した統合認識辞書５５とを用いて音声認識を行う。

　図１３は、音声認識装置２０３の動作を示すフローチャートである。以下、図１３のフローに沿って音声認識装置２０３の動作を説明する。まず、音声認識部２４は、音声認識辞書としてコマンド認識辞書５３と統合認識辞書５５を選択する（ステップＳ４０１）。

　ユーザが発話を行うと、音声取得部２２がマイク２１から発話音声を取得する（ステップＳ４０２）。そして、音響分析部２３が発話音声の音響特徴を解析して音響データを作成する（ステップＳ４０３）。発話音声の音響データは、音声認識部２４に送られる。

　音声認識部２４は、コマンド認識辞書５３と統合認識辞書５５を用いて、発話音声の音声認識を行う（ステップＳ４０５）。具体的には、音声認識部２４は、ステップＳ４０３で音響分析部２３が作成した発話音声の音響データと、コマンド認識辞書５３および統合認識辞書５５に登録されている音響データとを比較して、最も一致度が高いものを認識結果として出力する。

　本ステップにおいて、音声認識部２４は、コマンド認識辞書５３により発話音声のコマンド部分を認識することができる。また、音声認識部２４は、統合認識辞書５５により発話音声のコマンド以外の部分に対応する音響データ（以下、「対応統合音響データ」）を特定することができる。しかし、統合認識辞書５５において対応統合音響データは基本単語と変化単語の両方に紐づけられているため、両単語の発話音声に対する一致度は等しく、いずれが正しい認識結果であるかを特定することができない。

　そこで、認識制御部２５は、音声認識部２４の認識結果に動詞のコマンドが含まれるか否かを判断する（ステップＳ４０５）。ステップＳ４０５において認識結果が動詞のコマンドを含む場合、発話音声のコマンド以外の部分には格変化が生じていると考えられる。従って、音声認識部２４はステップＳ４０５で特定した対応統合音響データに紐づけられた変化単語を、認識結果として採用する（ステップＳ４０６）。

　ステップＳ４０５において認識結果が動詞のコマンドを含まない場合、発話音声のコマンド以外の部分に格変化が生じていないと考えられる。従って、音声認識部２４はステップＳ４０５で特定した対応統合音響データに紐づけられた基本単語を、認識結果として採用する（ステップＳ４０７）。

　＜Ｃ－３．効果＞
　実施の形態３の音声認識辞書作成装置１０３は、車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部１１と、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部１２と、基本単語の音響データの変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書５５を作成する辞書作成部１４Ｂと、を備える。統合認識辞書５５は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書５１と変化単語認識辞書５２の合計に比べてデータ量が削減される。

　実施の形態３の音声認識辞書作成方法は、車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得し、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成し、基本単語の音響データの変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書５５を作成する。統合認識辞書５５は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書５１と変化単語認識辞書５２の合計に比べてデータ量が削減される。

　実施の形態３の音声認識装置２０３は、車両の搭乗者の車両に搭載された対象装置に対する操作音声を取得する音声取得部２２と、操作音声の音響データを作成する音響分析部２３と、対象装置に対するコマンドのテキストデータをコマンドの音響データに紐づけた情報であるコマンド認識辞書５３と、統合認識辞書５５とを用いて、操作音声の音声認識を行う音声認識部２４と、を備え、統合認識辞書５５は、格変化していない基本名称の音響データのうち基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、基本名称および格変化名称に紐づけた情報であり、音声認識部２４は、操作音声に含まれる名称の音響データに対応する統合音響データを対応統合音響データと特定し、コマンド認識辞書５３による操作音声の認識結果に動詞が含まれる場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた格変化名称と認識し、コマンド認識辞書５３による操作音声の認識部分に動詞が含まれない場合に、操作音声に含まれる名称を、対応統合音響データに紐づけられた基本名称と認識する。このように、音声認識装置２０３は、少ないデータ量の統合認識辞書５５を用いて音声認識を行うことができ、音声認識辞書に用いるメモリ量が削減される。

　＜Ｄ．実施の形態４＞
　＜Ｄ－１．統合辞書作成＞
　図１４は、実施の形態４の音声認識辞書作成装置１０４の構成を示すブロック図である。音声認識辞書作成装置１０４は、実施の形態３の音声認識辞書作成装置１０３において、辞書作成部１４Ｂに代えて辞書作成部１４Ｃを備えたものである。辞書作成部１４Ｃは、基本単語データベース１３１から取得した基本単語データと、変化単語データベース１３３から取得した変化単語データとを用いて、統合認識辞書５６を作成する。

　図１５は、辞書作成部１４Ｃの構成を示すブロック図である。辞書作成部１４Ｃは、図１０に示した実施の形態３の辞書作成部１４Ｂの構成において、音素置換部１４５に代えて平均音響データ作成部１４６を備えたものである。平均音響データ作成部１４６は、基本単語データの音響データのうち、変化単語の音響データとの相違部分について、相違する２つの音響データの平均音響データを作成する。

　図１６は、音声認識辞書作成装置１０４の動作を示すフローチャートである。以下、図１６のフローに沿って音声認識辞書作成装置１０４の動作を説明する。まず、音素列作成部１４１は、基本単語データベース１３１から取得した基本単語データと、変化単語データベース１３３から取得した変化単語データとを、音素変換ルールテーブル１４３に記載された音素変換ルールに従って、それぞれ音素列に変換する（ステップＳ３０３１）。本ステップは図４のステップＳ１０３１と同様である。

　次に、平均音響データ作成部１４６が平均音響データを作成する（ステップＳ３０３２）。具体的には、音素置換部１４５が基本単語の音素列を変化単語の音素列と比較し、相違部分が少なければ、相違する２つの音響データの平均音響データを作成する。

　例えば、基本単語が

であり、変化単語が

である場合、両者の相違部分は末尾のａとｕである。平均音響データ作成部１４６は、ａとｕの平均音響データ「１０１」を作成し、音響データ格納部１４４に格納する。なお、音響データとは、周波数またはパワー等の音響特徴量のベクトル列であるため、２つの音響データの対応するベクトル同士で、これらの音響特徴量の平均値をとることにより、平均音響データが得られる。

　次に、辞書データ作成部１４２は、基本単語の音素列のうち、上記の相違部分以外の音素の音響データを音響データ格納部１４４から抽出し、平均音響データ作成部１４６が作成した平均音響データ「１０１」と結合することにより統合音響データを作成し（ステップＳ３０３３）、作成元の基本単語データおよび変化単語データに紐づけることにより統合認識辞書５６を作成する。例えば、上記の例では、統合音響データは「３－４－１－…－１０１」となる。

　＜Ｄ－２．音声認識＞
　図１７は、実施の形態４の音声認識装置２０４の構成を示すブロック図である。音声認識装置２０４は図１２に示した実施の形態３の音声認識装置２０３と同様の構成であるが、コマンド認識辞書５３と統合認識辞書５６を用いて音声認識を行う。統合認識辞書５５に代えて統合認識辞書５６を用いるという点以外で、音声認識装置２０４の動作は音声認識装置２０３と同様であるため、説明を省略する。

　＜Ｄ－３．効果＞
　実施の形態４の音声認識辞書作成装置１０４において、辞書作成部１４Ｃは、基本単語の音響データの変化単語の音響データとの相違部分を、相違部分についての両音響データの平均音響データに置換して統合音響データを作成し、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書５６を作成する。統合認識辞書５６は、基本単語のテキストデータと変化単語のテキストデータを共通の統合音響データに紐づけた情報であるため、基本単語認識辞書５１と変化単語認識辞書５２の合計に比べてデータ量が削減される。

　実施の形態４の音声認識装置２０４は、コマンド認識辞書５３と統合認識辞書５６とを用いて操作音声の音声認識を行う。従って、音声認識装置２０３は、少ないデータ量の統合認識辞書５６を用いて音声認識を行うことができ、音声認識辞書に用いるメモリ量が削減される。

　＜Ｅ．ハードウェア構成＞
　上記の音声認識辞書作成装置１０１，１０３，１０４における、取得部１１、変化単語作成部１２、記憶部１３、および辞書作成部１４Ａ，１４Ｂ，１４Ｃと、音声認識装置２０１，２０２，２０３，２０４における、音声取得部２２、音響分析部２３、音声認識部２４、認識制御部２５、辞書切替部２６、および一時格納部２７は、図１８に示す処理回路８１により実現される。すなわち、処理回路８１は、取得部１１、変化単語作成部１２、記憶部１３、および辞書作成部１４Ａ，１４Ｂ，１４Ｃ（以下、「取得部１１等」と称する）と、音声取得部２２、音響分析部２３、音声認識部２４、認識制御部２５、辞書切替部２６、および一時格納部２７（以下、「音声取得部２２等」と称する）を備える。処理回路８１には、専用のハードウェアが適用されても良いし、メモリに格納されるプログラムを実行するプロセッサが適用されても良い。プロセッサは、例えば中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）等である。

　処理回路８１が専用のハードウェアである場合、処理回路８１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたものが該当する。取得部１１等または音声取得部２２等の各部の機能それぞれは、複数の処理回路８１で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。

　処理回路８１がプロセッサである場合、取得部１１等または音声取得部２２等の機能は、ソフトウェア等（ソフトウェア、ファームウェアまたはソフトウェアとファームウェア）との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリに格納される。図１９に示すように、処理回路８１に適用されるプロセッサ８２は、メモリ８３に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識辞書作成装置１０１，１０３，１０４は、処理回路８１により実行されるときに、車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得するステップと、基本単語の言語の語形変化ルールに基づき、基本単語が格変化した変化単語のテキストデータを作成するステップと、基本単語の音響データの変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成するステップと、統合音響データを基本単語と変化単語に紐づけた情報である統合認識辞書を作成するステップと、が結果的に実行されることになるプログラムを格納するためのメモリ８３を備える。換言すれば、このプログラムは、取得部１１等または音声取得部２２等の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリ８３には、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disk）およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体であってもよい。

　以上、取得部１１等または音声取得部２２等の各機能が、ハードウェアおよびソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、取得部１１等または音声取得部２２等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば辞書作成部１４Ａ，１４Ｂ，１４Ｃについては専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ８２としての処理回路８１がメモリ８３に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

　以上のように、処理回路は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上記の各機能を実現することができる。なお、記憶部１３はメモリ８３から構成されるが、それらは単一のメモリ８３から構成されてもよいし、それぞれが個別のメモリから構成されてもよい。

　音声認識辞書作成装置１０１，１０３，１０４と音声認識装置２０１，２０２，２０３，２０４は、車載装置であっても良いし、車載装置、ＰＮＤ（Portable Navigation Device）、通信端末（例えば携帯電話、スマートフォン、およびタブレットなどの携帯端末）、およびこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせて構築されるシステムであっても良い。この場合、以上で説明した音声認識辞書作成装置１０１，１０３，１０４または音声認識装置２０１，２０２，２０３，２０４の各機能または各構成要素は、システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。その一例として、図２０には、車両７０とサーバ７１による音声認識辞書作成装置１０１の構成が示されている。図２０において、取得部１１、変化単語作成部１２、および辞書作成部１４Ａが車両７０に配置され、記憶部１３がサーバ７１に配置されている。

　なお、本発明は、その発明の範囲内において、各実施の形態および各変形例を自由に組み合わせたり、各実施の形態および各変形例を適宜、変形または省略したりすることが可能である。本発明は詳細に説明されたが、上記した説明は全ての態様において例示であり、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得る。

　１１　取得部、１２　変化単語作成部、１３　記憶部、１４Ａ，１４Ｂ，１４Ｃ　辞書作成部、２１　マイク、２２　音声取得部、２３　音響分析部、２４　音声認識部、２５　認識制御部、２６　辞書切替部、２７　一時格納部、５１　基本単語認識辞書、５２　変化単語認識辞書、５３　コマンド認識辞書、５４　ガベジ認識辞書、５５，５６　統合認識辞書、７０　車両、７１　サーバ、８１　処理回路、８２　プロセッサ、８３　メモリ、１０１，１０３，１０４　音声認識辞書作成装置、１３１　基本単語データベース、１３２　格変化文法ルールテーブル、１３３　変化単語データベース、１４１　音素列作成部、１４２　辞書データ作成部、１４３　音素変換ルールテーブル、１４４　音響データ格納部、１４５　音素置換部、１４６　平均音響データ作成部、２０１，２０２，２０３，２０４　音声認識装置。

Claims

　車両に搭載された対象装置で使用され語形変化が生じていない基本単語の、テキストデータを取得する取得部と、
　前記基本単語の言語の語形変化ルールに基づき、前記基本単語が語形変化した変化単語のテキストデータを作成する変化単語作成部と、
　前記基本単語のテキストデータを前記基本単語の音響データに紐づけた情報である基本単語認識辞書を作成し、前記変化単語のテキストデータを前記変化単語の音響データに紐づけた情報である変化単語認識辞書を作成する辞書作成部と、を備える、
音声認識辞書作成装置。
　前記基本単語は、語形変化が生じていない名詞であり、
　前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
請求項１に記載の音声認識辞書作成装置（１００１）。
　前記変化単語は、前記基本単語が目的語として格変化した名詞である、
請求項２に記載の音声認識辞書作成装置（１００１）。
　前記辞書作成部（１０４）は、前記車両の現在位置に基づき、前記変化単語認識辞書を作成する、
請求項１に記載の音声認識辞書作成装置（１００１）。
　前記辞書作成部（１０４）は、前記対象装置の設定言語が予め定められた言語である場合に、前記変化単語認識辞書を作成する、
請求項１に記載の音声認識辞書作成装置（１００１）。
　車両の搭乗者の発話音声を取得する音声取得部と、
　前記発話音声の音響データを作成する音響分析部と、
　前記発話音声の音響データと、格変化していない基本単語のテキストデータを前記基本単語の音響データに紐づけた情報である基本単語認識辞書と、前記基本単語が語形変化した変化単語のテキストデータを前記変化単語の音響データに紐づけた情報である変化単語認識辞書と、を用いて、前記発話音声の音声認識を行う音声認識部と、を備える、
音声認識装置。
　前記基本単語は、語形変化が生じていない名詞であり、
　前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
請求項６に記載の音声認識装置。
　前記変化単語は、前記基本単語が目的語として格変化した名詞である、
請求項７に記載の音声認識装置。
　前記発話音声は、前記車両に搭載された対象装置の操作音声であり、
　前記音声認識部は、
　前記対象装置に対するコマンドのテキストデータを前記コマンドの音響データに紐づけた情報であるコマンド認識辞書と、ガベジ音響モデルを用いた認識辞書であるガベジ認識辞書とを用いて、前記発話音声の１回目の音声認識を行い、
　１回目の音声認識結果に動詞が含まれない場合に、前記コマンド認識辞書と前記基本単語認識辞書を用いて前記発話音声の２回目の音声認識を行い、
　１回目の音声認識結果に前記動詞が含まれる場合に、前記コマンド認識辞書と前記変化単語認識辞書を用いて前記発話音声の２回目の音声認識を行う、
請求項８に記載の音声認識装置。
　車両に搭載された対象装置で使用され語形変化していない基本単語の、テキストデータを取得する取得部と、
　前記基本単語の言語の語形変化ルールに基づき、前記基本単語が格変化した変化単語のテキストデータを作成する変化単語作成部と、
　前記基本単語の音響データの前記変化単語の音響データとの相違部分を他の音響データに置換して統合音響データを作成し、前記統合音響データを前記基本単語と前記変化単語に紐づけた情報である統合認識辞書を作成する辞書作成部と、を備える、
音声認識辞書作成装置。
　前記基本単語は、語形変化が生じていない名詞であり、
　前記変化単語は、前記基本単語の言語の格変化ルールに基づき、前記基本単語が格変化した名詞である、
請求項１０に記載の音声認識辞書作成装置。
　前記変化単語は、前記基本単語が目的語として格変化した名詞である、
請求項１１に記載の音声認識辞書作成装置。
　前記辞書作成部は、前記基本単語の音素列の前記変化単語の音素列との相違部分を他の音素に置換して統合音素列を作成し、前記統合音素列の音響データを前記統合音響データとして作成する、
請求項１２に記載の音声認識辞書作成装置。
　前記他の音素はガベジ音素である、
請求項１３に記載の音声認識辞書作成装置。
　前記他の音響データは、前記基本単語の音響データと前記変化単語の音響データとの相違部分の平均音響データである、
請求項１０に記載の音声認識辞書作成装置。
　車両の搭乗者の前記車両に搭載された対象装置に対する操作音声を取得する音声取得部と、
　前記操作音声の音響データを作成する音響分析部と、
　前記対象装置に対するコマンドのテキストデータを前記コマンドの音響データに紐づけた情報であるコマンド認識辞書と、統合認識辞書とを用いて、前記操作音声の音声認識を行う音声認識部と、を備え、
　前記統合認識辞書は、格変化していない基本名称の音響データのうち前記基本名称から目的語として格変化した格変化名称の音響データとの相違部分を他の音響データに置換した統合音響データを、前記基本名称および前記格変化名称に紐づけた情報であり、
　前記音声認識部は、前記操作音声に含まれる名称の音響データに対応する前記統合音響データを対応統合音響データと特定し、前記コマンド認識辞書による前記操作音声の認識結果に動詞が含まれる場合に、前記操作音声に含まれる名称を、前記対応統合音響データに紐づけられた前記格変化名称と認識し、前記コマンド認識辞書による前記操作音声の認識部分に動詞が含まれない場合に、前記操作音声に含まれる名称を、前記対応統合音響データに紐づけられた前記基本名称と認識する、
音声認識装置。
　前記他の音響データはガベジ音素の音響データである、
請求項１６に記載の音声認識装置。
　前記他の音響データは、前記基本名称の音響データと前記格変化名称の音響データとの相違部分の平均音響データである、
請求項１６に記載の音声認識装置。
　車両に搭載された対象装置で使用され、語形変化していない基本単語のテキストデータを取得し、
　前記基本単語の言語の語形変化ルールに基づき、前記基本単語が格変化した変化単語のテキストデータを作成し、
　前記基本単語の音響データの前記変化単語の音響データとの相違部分が他の音響データに置換された統合音響データを作成し、
　前記統合音響データを前記基本単語と前記変化単語に紐づけた情報である統合認識辞書を作成する、
音声認識辞書作成方法。