WO2015102040A1

WO2015102040A1 - 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品

Info

Publication number: WO2015102040A1
Application number: PCT/JP2014/006172
Authority: WO
Inventors: 伊藤　正也; 義隆尾崎; 圭作林; 拡基鵜飼
Original assignee: 株式会社デンソー
Priority date: 2014-01-06
Filing date: 2014-12-11
Publication date: 2015-07-09
Also published as: JP2015130554A; JP6318621B2; US20160329060A1

Abstract

　音声処理装置（Speech Processing Apparatus）（１１）は、取得した音声データを外部の携帯端末（１２）に送信する場合に、その送信する音声データに、音声処理部（３３）によって所定の音声処理を施す。音声処理部は、その音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理とを切り替えて、実行することが可能である。

Description

音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品

関連出願の相互参照

　本開示は、２０１４年１月６日に出願された日本出願番号２０１４－２８５号に基づくもので、ここにその記載内容を援用する。

　本開示は、音声処理装置（Speech Processing Apparatus）、音声処理システム、音声処理方法、音声処理用のプログラム製品に関する。

　近年、車両に搭載される車両用機器と携帯端末とを通信可能に接続し、携帯端末を手に持たなくとも通話を可能とするいわゆるハンズフリー通話を実現する技術が普及しつつある（例えば特許文献１参照）。この種のハンズフリー通話技術においては、多くの車両用機器で採用されているＢｌｕｅｔｏｏｔｈ（登録商標）のＨＦＰ（ＨＦＰ：Hands Free Profile）を通信プロトコルとして使用しており、車両用機器は、携帯端末に送信する音声データに、当該データを最適化するための音声処理を施している。

ＪＰ　２００６－２３８１４８Ａ

　ところで、近年では、車両用機器と携帯端末とを相互に連携させながらアプリケーションを実行する技術の開発が進められており、この技術においては、ハンズフリー通話を可能とするいわゆる通話アプリケーションに限らず、例えばユーザの発声したスピーチを認識するところの音声認識（Speech　Recognition）を利用した検索アプリケーションといった通話以外のアプリケーションも実行可能である。

　この検索アプリケーションでは、車両用機器は、取得した音声データを、携帯端末を介して外部のセンターサーバに送信する。そして、センターサーバは、取得した音声データに基づき音声認識を実施し、その音声に対応する検索結果を車両用機器に返信する。ところが、従来では、車両用機器は、ハンズフリー通話の実行時において音声データを携帯端末に送信する場合、及び、音声認識を利用した検索の実行時において音声データを携帯端末に送信する場合の何れの場合においても、音声データに同一の音声処理、具体的には同一のノイズキャンセル処理、エコーキャンセル処理、ゲインコントロール処理等の音声処理を施している。一方で、通話に最適な音声処理と音声認識に最適な音声処理は、それぞれ異なる。即ち、例えば、ハンズフリー通話では、例えば人間の耳で聞こえる周波数の音に絞る音声処理を実施しているが、この音声処理と同様の処理を音声認識において実施すると、音声認識に必要な音声波形が歪んでしまい、認識率が下がってしまう。

　本開示の目的は、通話用の音声処理及び通話以外用の音声処理を何れも最適に実施することができる音声処理装置、この音声処理装置を含んで構築される音声処理システム、この音声処理装置において実行される音声処理方法、及び、この音声処理装置に組み込まれて実行される音声処理用のプログラム製品を提供することにある。

　本開示の例によれば、取得した音声データを外部の携帯端末に送信する場合に、その送信する音声データに所定の音声処理が施される。そして、その音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理とを切り替えて実行することが可能である。よって、実行されるアプリケーションに応じて通話用の第一の音声処理及び通話以外用の第二の音声処理を適宜切り替えて実行することができ、通話用の第一の音声処理及び通話以外用の第二の音声処理を何れも最適に実施することができる。

　本開示についての上記目的およびその他の目的、特徴や利点は、添付の図面を参照しながら下記の詳細な記述により、より明確になる。
一実施形態に係る音声処理システムの構成例を概略的に示す図音声処理装置の構成例を概略的に示す図携帯端末の構成例を概略的に示す図通話アプリケーションを実行する場合の制御内容の一例を示すフローチャート音声処理装置及び携帯端末が相互に連携してアプリケーションを実行する状態を概略的に示す図音声認識検索アプリケーションを実行する場合の制御内容の一例を示すフローチャート本実施形態の変形例を示す音声処理システムの概略構成図（その１）本実施形態の変形例を示す音声処理システムの概略構成図（その２）本実施形態の変形例を示す音声処理システムの概略構成図（その３）本実施形態の変形例を示す音声処理システムの概略構成図（その４）

　以下、本開示の一実施形態について図面を参照しながら説明する。図１に示すように、音声処理システム１０は、音声処理装置１１と携帯端末１２とで構築される。音声処理装置１１は、例えば車両に搭載されるナビゲーション装置で構成される。この場合、音声処理装置１１には、通話アプリケーションＡが搭載されている。この通話アプリケーションＡは、使用者が携帯端末１２を手に持たなくとも通話（電話会話）を可能とするいわゆるハンズフリー通話機能（ハンズフリー電話会話機能とも言及される）を実現するためのアプリケーションである。また、携帯端末１２は、例えば車両の搭乗者が所有する携帯通信端末であり、車室内に持ち込まれると、近距離無線通信規格の一例であるＢｌｕｅｔｏｏｔｈ通信規格（Ｂｌｕｅｔｏｏｔｈ：登録商標）により音声処理装置１１に通信可能に接続される。

　音声処理装置１１及び携帯端末１２は、通信網１００を介して外部の配信センター１４に接続することで、当該配信センター１４から配信される各種のアプリケーションを取得するように構成されている。配信センター１４は、上述の通話アプリケーションＡのほか、例えばユーザの発声したスピーチを認識するところの音声認識（Speech Recognition）を利用した検索サービスを実現する音声認識検索アプリケーションＢ、さらには、インターネットラジオを実現するアプリケーション、音楽配信サービスを実現するアプリケーションなど各種のアプリケーションを格納しており、外部の端末や機器からアプリケーションの配信要求を受けると、該当するアプリケーションを通信網１００を介して要求元に配信する。なお、配信センター１４から配信されるアプリケーションには、そのアプリケーションを実行するために必要な各種のデータなどが含まれる。

　また、音声処理装置１１及び携帯端末１２は、通信網１００を介して音声認識検索サーバ１５（以下、検索サーバ１５とも称する）にも接続可能に構成されている。この音声認識検索サーバ１５には、音声認識処理に必要な周知の辞書データ、検索処理に必要な検索処理用データなどが格納されている。検索処理用データには、地図データのほか、地図上に存在する店舗や施設などの名称や場所といったデータが含まれている。

　次に、音声処理装置１１の構成について図２を参照しながら説明する。即ち、音声処理装置１１は、制御回路２１、通信接続部２２、記憶部２３、音声入出力部２４、表示出力部２５、操作入力部２６などを備えている。制御回路２１は、図示しないＣＰＵ、ＲＡＭ、ＲＯＭ及びＩ／Ｏバスなどを有する周知のマイクロコンピュータで構成されている。制御回路２１は、ＲＯＭあるいは記憶部２３などに記憶されている各種のコンピュータプログラムに従って音声処理装置１１の動作全般を制御する。また、本実施形態では、一例として、制御回路２１は、コンピュータプログラムである音声処理プログラムを実行することにより、音声データ取得処理部３１、音声データ送信処理部３２、音声処理部３３をソフトウェアによって仮想的に実現する。但し、それぞれの処理部の各々において、機能の一部あるいは全てをハードウエアの構成要素として提供することも可能である。

　通信接続部２２は、例えば無線通信モジュールなどで構成され、携帯端末１２が備える通信接続部４２との間に無線通信回線を確立し、その無線通信回線を通じて携帯端末１２との間で各種の通信を行う。この場合、通信接続部２２は、ハンズフリー通話用のプロファイル（ＨＦＰ：Hands Free Profile）やデータ通信用のプロファイルなど種々の通信プロトコルを備える。

　記憶部２３は、例えばハードディスクドライブなどのコンピュータ読取可能な非遷移の不揮発性の記憶媒体で構成されており、各種のコンピュータプログラムやアプリケーションプログラム、外部の装置や端末と相互に連携してアプリケーションを実行する連携機能を実現する連携アプリケーションなどの各種のプログラム（インストラクションを含むプログラム製品とも言及される）、及び、各プログラムで使用される各種のデータなどを記憶している。また、記憶部２３は、取得した音声データを音声認識するための周知の辞書データなど音声認識処理に必要な各種のデータを格納している。よって、音声処理装置１１は、音声認識検索サーバ１５に依らずとも、単独でも音声認識処理が可能となっている。

　音声入出力部２４は、図示しないマイクロホン及びスピーカに接続しており、周知の音声入力機能及び音声出力機能を備える。この音声入出力部２４は、音声処理装置１１に携帯端末１２が通信可能に接続された状態で通話アプリケーションＡが起動されると、マイクロホンから入力された音声に対応する音声データを携帯端末１２に送信し、また、携帯端末１２から受信した音声データに基づき音声をスピーカから出力することが可能となる。これにより、音声処理装置１１は、携帯端末１２と協働して、いわゆるハンズフリー通話を実現可能となる。

　表示出力部２５は、例えば液晶表示器や有機ＥＬで構成されており、制御回路２１からの表示指令信号に基づいて各種の情報を表示する。この表示出力部２５の画面には、周知の感圧方式、電磁誘導方式、静電容量方式あるいはそれらを組み合わせた方式で構成されるタッチパネルスイッチが設けられる。この表示出力部２５には、アプリケーションに対する操作を入力するための操作入力画面などの入力インターフェース、アプリケーションの実行内容や実行結果を出力するための出力画面などの出力インターフェースなどの各種画面が表示される。

　操作入力部２６は、表示出力部２５の画面上に設けられるタッチパネルスイッチ、及び、表示出力部２５の周囲に設けられているメカニカルスイッチなど各種のスイッチ類を含む。操作入力部２６は、使用者による各種のスイッチの操作に応じて、その操作検知信号を制御回路２１に出力する。制御回路２１は、操作入力部２６から入力された操作検知信号を解析して使用者の操作内容を特定し、特定した操作内容に基づいて各種の処理を実行する。なお、図示はしないが、音声処理装置１１は、図示しない測位用衛星から受信する衛星電波などに基づいて音声処理装置１１の現在位置を特定するための周知の位置特定部を備えている。

　音声データ取得処理部３１は、音声データ取得部／デバイス／ミーンズとも言及され、音声入出力部２４のマイクロホンから音声が入力されると、その取得した音声に対応する音声データを生成する。

　音声データ送信処理部３２は、音声データ送信部／デバイス／ミーンズとも言及され、音声データ取得処理部３１によって取得された音声データを、通信接続部２２が確立した通信回線を介して外部の携帯端末１２に送信する。この場合、音声データ送信処理部３２は、通話用の音声データ及び通話以外用の音声データを、何れも同一の通信プロトコルによって送信するように構成されている。なお、本実施形態では、その同一の通信プロトコルとして、Ｂｌｕｅｔｏｏｔｈ通信規格のハンズフリー通話用のプロファイル（ＨＦＰ）が採用されている。しかし、採用可能な通信プロトコルは、これに限られるものではない。

　音声処理部３３は、音声処理デバイス／ミーンズとも言及され、音声データ送信処理部３２によって送信される音声データに所定の音声処理を施す。詳しくは後述するが、この音声処理部３３は、音声処理として、通話用の音声処理（第一の音声処理とも言及される）と通話以外用の音声処理（第二の音声処理とも言及される）の一例である音声認識検索用の音声処理を切り替えて実行可能に構成されている。なお、通話用の音声処理は、例えば人間の耳で聞こえる周波数の音のみに絞るための処理であり、通話用のノイズキャンセル処理、通話用のエコーキャンセル処理、通話用のゲインコントロール処理などを含む。この通話用の音声処理によれば、人間の耳で聞こえる周波数以外の音は完全にあるいは殆どキャンセルされる。一方、音声認識検索用の音声処理は、例えば人間の耳で聞こえる周波数の音を含んで音声認識が可能となる程度に音を絞るための処理であり、音声認識検索用のノイズキャンセル処理、音声認識検索用のエコーキャンセル処理、音声認識検索用のゲインコントロール処理などを含む。この音声認識検索用の音声処理によれば、人間の耳で聞こえる周波数以外の音もある程度はキャンセルされずに残る。

　基本的には、音声認識検索用の音声処理よりも通話用の音声処理の方が、音声データに対し確実なノイズキャンセル、エコーキャンセル、ゲインコントロールがかけられる。一方、音声認識検索用の音声処理では、使用者が発した音声に極力近い生の音声を拾いたいことから、音声データに対し比較的緩いノイズキャンセル、エコーキャンセル、ゲインコントロールがかけられる。即ち、音声認識検索用の音声処理では、本来の音声情報（音声波形）が変化してしまうことを極力防止することが求められる。

　例えば通話用の音声処理におけるゲインコントロールでは、音声データに含まれる各周波数帯域に対して、人の耳には聞こえにくい高周波数帯域と低周波数帯のゲインを落とし、人の耳に聞こえやすい中周波数帯域を増幅させる処理などが行われる。しかし、このような音声処理を音声認識検索用の音声データに施すと、本来の音声波形が歪んでしまうため、音声認識には向かない。因みに、音声波形は、母音や子音ごとに波形（周波数）が異なるため、本来の音声波形が崩れてしまうと、音声の認識が極めて困難となる。従って、音声認識用の音声処理におけるゲインコントロールとしては、例えば、ゲインを落とす高周波帯域や低周波数帯域の設定値（パラメタ）を変更する、ゲインの落とし方を適宜調整するなどして、本来の音声波形に極力近い音声波形が残るような処理、つまり、通話用の音声処理よりも、音声波形が原形に近い状態で残るような音声処理を行うことが好ましい。

　次に、携帯端末１２の構成について図３を参照しながら説明する。携帯端末１２は、制御回路４１、通信接続部４２、記憶部４３、音声入出力部４４、表示出力部４５、操作入力部４６、電話通信部４７などを備えている。制御回路４１は、図示しないＣＰＵ、ＲＡＭ、ＲＯＭ及びＩ／Ｏバスなどを有する周知のマイクロコンピュータで構成されている。本実施形態では、一例として、制御回路４１は、ＲＯＭあるいは記憶部４３などに記憶されているコンピュータプログラムに従って携帯端末１２の動作全般を制御する。一方、制御回路４１の機能の一部あるいは全ては、ハードウエアの構成要素によっても、実行は可能である。

　通信接続部４２は、例えば無線通信モジュールなどで構成され、音声処理装置１１が備える通信接続部２２との間に無線通信回線を確立し、その無線通信回線を通じて音声処理装置１１との間で各種の通信を行う。この場合、通信接続部４２は、ハンズフリー通話用のプロファイル（ＨＦＰ）やデータ通信用のプロファイルなど種々の通信プロトコルを備える。記憶部４３は、例えばメモリカードなどのコンピュータ読取可能な非遷移の不揮発性の記憶媒体で構成されており、各種のコンピュータプログラムやアプリケーションプログラム、外部の装置や端末と相互に連携してアプリケーションを実行する連携機能を実現する連携アプリケーションなどの各種のプログラム（インストラクションを含むプログラム製品とも言及される）、及び、各プログラムで使用される各種のデータなどを記憶している。

　音声入出力部４４は、図示しないマイクロホン及びスピーカに接続しており、周知の音声入力機能及び音声出力機能を備える。この音声入出力部４４は、携帯端末１２に音声処理装置１１が通信可能に接続された状態で音声処理装置１１にて通話アプリケーションＡが起動されている場合には、図示しない通話相手の携帯端末から入力された音声に対応する音声データを音声処理装置１１に送信し、また、音声処理装置１１から受信した音声データを通話相手の携帯端末に送信することが可能な状態となる。これにより、携帯端末１２は、音声処理装置１１と協働して、いわゆるハンズフリー通話を実現可能となる。なお、この音声入出力部４４は、携帯端末１２に音声処理装置１１が通信可能に接続されていない状態では、マイクロホンから入力された発話音声を制御回路４１に出力する一方、制御回路４１から入力される受話音声をスピーカから出力する。これにより、携帯端末１２は、単独でも通話機能を実現可能である。

　表示出力部４５は、例えば液晶表示器や有機ＥＬ表示器で構成されており、制御回路４１からの表示指令信号に基づいて各種の情報を表示する。この表示出力部４５の画面には、周知の感圧方式、電磁誘導方式、静電容量方式あるいはそれらを組み合わせた方式で構成されるタッチパネルスイッチが設けられる。この表示出力部４５には、アプリケーションに対する操作を入力するための操作入力画面などの入力インターフェース、アプリケーションの実行内容や実行結果を出力するための出力画面などの出力インターフェースなどの各種画面が表示される。

　操作入力部４６は、表示出力部４５の画面上に設けられるタッチパネルスイッチ、及び、表示出力部４５の周囲に設けられているメカニカルスイッチなど各種のスイッチ類を含む。操作入力部４６は、使用者による各種のスイッチの操作に応じて操作検知信号を制御回路４１に出力する。制御回路４１は、操作入力部４６から入力された操作検知信号を解析して使用者の操作内容を特定し、特定した操作内容に基づいて各種の処理を実行する。

　電話通信部４７は、通信網１００との間に無線の電話通信回線を確立し、この電話通信回線を介して電話通信を実行する。この場合、通信網１００は、図示しない携帯電話基地局や基地局制御装置などの周知の公衆回線網を使用する携帯電話通信サービスを提供する設備を含む。また、制御回路４１は、この電話通信部４７を介して、通信網１００に接続している配信センター１４あるいは音声認識検索サーバ１５に通信可能に接続される。

　次に、上記構成の音声処理システム１０において、通話アプリケーションＡを実行する場合における制御内容の一例について説明する。

　ここで、この出願に記載されるフローチャート、あるいは、フローチャートの処理は、複数のセクション（あるいはステップと言及される）を含み、各セクションは、たとえば、Ａ１，Ｂ１、Ｃ１，Ｄ１、Ｅ１と表現される。さらに、各セクションは、複数のサブセクションに分割されることができる、一方、複数のセクションが合わさって一つのセクションにすることも可能である。さらに、各セクションは、デバイス、モジュール、ミーンズとして言及されることができる。また、上記の複数のセクションの各々あるいは組合わさったものは、(i)ハードウエアユニット（例えば、コンピュータ）と組み合わさったソフトウエアのセクションのみならず、(ii)ハードウエア（例えば、集積回路、配線論理回路）のセクションとして、関連する装置の機能を含みあるいは含まずに実現できる。さらに、ハードウエアのセクションは、マイクロコンピュータの内部に含まれることもできる。

　例えば図４に示すように、音声処理装置１１は、当該音声処理装置１１にて通話アプリケーションＡが起動されたか否か（Ａ１）及び外部の携帯端末１２から着信操作が入力されたか否か（Ａ２）を監視している。音声処理装置１１は、通話アプリケーションＡが起動している場合（Ａ１：ＹＥＳ）には、使用者が通話アプリケーションＡを介して発信操作を入力したか否か（Ａ３）を監視する。なお、発信操作は、通話アプリケーションＡにおける自発的な操作の一例であり、外部の携帯端末に対し発信を行うことをいう。そして、音声処理装置１１は、発信操作が入力されると（Ａ３：ＹＥＳ）、通常モードからハンズフリー通話モードに移行する（Ａ４）。また、音声処理装置１１は、通話アプリケーションＡが起動されていない状態で着信操作が入力されると（Ａ２：ＹＥＳ）、通話アプリケーションＡを起動する（Ａ５）。そして、音声処理装置１１は、通常モードからハンズフリー通話モードに移行する（Ａ４）。なお、着信操作は、通話アプリケーションＡにおける他発的な操作の一例であり、外部の携帯端末から着信を受けることをいう。携帯端末１２は、外部の携帯端末から着信が有り、且つ、ハンズフリー通話モードに移行している場合には、音声処理装置１１に対し着信操作を入力するように設定されている。

　ハンズフリー通話モードでは、音声処理装置１１は、携帯端末１２との間にＨＦＰによる無線通信回線を確立して、マイクロホンから入力された音声に対応する音声データを携帯端末１２に送信し、また、携帯端末１２から受信した音声データに基づき音声をスピーカから出力することが可能な状態となる。

　一方、携帯端末１２は、図示しない外部の携帯端末から着信を受けると（Ｂ１：ＹＥＳ）、音声処理装置１１との間にＨＦＰによる無線通信回線が確立されているか否かを確認する（Ｂ２）。携帯端末１２は、音声処理装置１１との間にＨＦＰによる無線通信回線が確立されてない場合には（Ｂ２：ＮＯ）、通常通話モードにて当該携帯端末１２単独で通話を実行する（Ｂ３）。即ち、携帯端末１２と通話相手の携帯端末との間で通常の通話が行われる。

　一方、携帯端末１２は、音声処理装置１１との間にＨＦＰによる無線通信回線が確立されている場合には（Ｂ２：ＹＥＳ）、通常通話モードからハンズフリー通話モードに移行する（Ｂ４）。このハンズフリー通話モードでは、携帯端末１２は、音声処理装置１１との間に確立されているＨＦＰによる無線通信回線を介して、図示しない通話相手の携帯端末から入力された音声に対応する音声データを音声処理装置１１に送信し、また、音声処理装置１１から受信した音声データを通話相手の携帯端末に送信することが可能な状態となる。音声処理システム１０は、このように音声処理装置１１及び携帯端末１２の双方がハンズフリー通話モードに移行することにより、いわゆるハンズフリー通話が可能な状態となる。

　音声処理装置１１は、ハンズフリー通話モードに移行すると、音声データ取得処理部３１によって音声データを取得し（Ａ６）、その取得した音声データに、音声処理部３３によって通話用の音声処理を施す（Ａ７）。この場合、音声処理装置１１は、通話アプリケーションＡの自発的な操作または他発的な操作を検知しており、これにより、実行中のアプリケーションが通話アプリケーションＡであることを確認している。よって、音声処理装置１１は、音声データに施す音声処理を、通話用の音声処理に切り替えている。そして、音声処理装置１１は、通話用の音声処理を施した音声データを携帯端末１２に送信する（Ａ８）。なお、ステップＡ６の処理は、音声データ取得ステップの一例であり、ステップＡ７の処理は、音声処理ステップの一例であり、ステップＡ８の処理は、音声データ送信ステップの一例である。

　携帯端末１２は、音声処理装置１１から受信した音声データを通話相手の携帯端末に送信する（Ｂ５）。また、携帯端末１２は、通話相手の携帯端末から音声データを受信すると（Ｂ６）、その音声データを音声処理装置１１に送信する（Ｂ７）。音声処理装置１１は、携帯端末１２から音声データを受信すると、その音声データに基づき音声をスピーカから出力する（Ａ９）。これにより、通話相手の携帯端末からの受話音声が音声処理装置１１から出力されるようになる。このように、携帯端末１２を中継して音声処理装置１１と通話相手の携帯端末との間で発話音声の音声データ及び受話音声の音声データが適宜送受信されることで、いわゆるハンズフリー通話が実現される。そして、この場合、音声処理装置１１において通話アプリケーションＡの自発的な操作または他発的な操作が検知された場合には、音声処理装置１１から携帯端末１２に送信される音声データに、通話用の音声処理が施される。なお、このハンズフリー通話は、音声処理装置１１または通話相手の携帯端末にて通話が終了されるまで継続される。

　次に、上記構成の音声処理システム１０において、音声認識検索アプリケーションＢ（以下、検索アプリケーションＢとも称する）を実行する場合における制御内容の一例について説明する。即ち、例えば図５に示すように、音声処理装置１１に携帯端末１２が通信可能に接続されて、これら音声処理装置１１及び携帯端末１２にてそれぞれ連携アプリケーションが起動されると、携帯端末１２が有する音声認識検索アプリケーションＢの実行処理は当該携帯端末１２にて実行され、この音声認識検索アプリケーションＢの入力インターフェース及び出力インターフェースは音声処理装置１１にて提供される状態となる。なお、このような音声認識検索アプリケーションＢは、例えば車両が走行していない状態など走行に影響を及ぼさない状態で実行することが好ましい。

　そして、例えば図６に示すように、音声処理装置１１及び携帯端末１２の双方にて連携アプリケーションが起動されると（Ｃ１，Ｄ１）、音声処理装置１１には、携帯端末１２が有するアプリケーションの起動ボタンが表示される（Ｃ２）。なお、この起動ボタンは、入力インターフェースの一例である。そして、音声処理装置１１は、音声認識検索アプリケーションＢの起動ボタンが操作されると（Ｃ３：ＹＥＳ）、音声認識検索アプリケーションＢの起動指令信号を携帯端末１２に送信する（Ｃ４）。このとき、音声処理装置１１は、位置特定部によって得られる当該音声処理装置１１の現在位置を示す現在位置情報も携帯端末１２に送信する。

　携帯端末１２は、音声認識検索アプリケーションＢの起動指令信号を受信すると、音声認識検索アプリケーションＢを起動する（Ｄ２）。そして、携帯端末１２は、音声認識検索アプリケーションＢを起動したことを示す起動完了信号を音声認識検索サーバ１５に送信する（Ｄ３）。このとき、携帯端末１２は、音声処理装置１１から受信した現在位置情報も音声認識検索サーバ１５に送信する。

　音声認識検索サーバ１５は、音声認識検索アプリケーションＢの起動完了信号を受信すると、検索条件収集用の音声データを携帯端末１２に送信する（Ｅ１）。この場合、検索条件収集用の音声データとして、例えば「ご用件を言ってください。」といったメッセージデータが設定される。携帯端末１２は、音声認識検索サーバ１５から受信した検索条件収集用の音声データを音声処理装置１１に送信する（Ｄ４）。

　音声処理装置１１は、検索条件収集用の音声データを受信すると、その音声データに基づき検索条件収集用の音声をスピーカから出力する（Ｃ５）。この場合、例えば「ご用件を言ってください。」といった案内音声が出力される。この案内音声に応じて、使用者が例えば「イタリアン」などといった検索条件を発声すると、音声処理装置１１は、その音声データを音声データ取得処理部３１によって取得し（Ｃ６）、その取得した音声データに、音声処理部３３によって音声認識検索用の音声処理を施す（Ｃ７）。この場合、音声処理装置１１は、通話アプリケーションＡの自発的な操作または他発的な操作を検知しておらず、これにより、実行中のアプリケーションが通話アプリケーションＡ以外のアプリケーションであることを確認している。よって、音声処理装置１１は、音声データに施す音声処理を、通話以外用の音声処理の一例である音声認識検索用の音声処理に切り替えている。そして、音声処理装置１１は、音声認識検索用の音声処理を施した音声データを携帯端末１２に送信する（Ｃ８）。なお、ステップＣ６の処理は、音声データ取得ステップの一例であり、ステップＣ７の処理は、音声処理ステップの一例であり、ステップＣ８の処理は、音声データ送信ステップの一例である。

　また、本実施形態では、実行中のアプリケーションが通話アプリケーションＡ以外のアプリケーションである場合には、一律、音声認識検索用のノイズキャンセル処理を施す例を述べた。しかし、例えば、実行中のアプリケーションを特定するためのアプリ特定データを携帯端末１２から音声処理装置１１に送信し、音声処理装置１１は、そのアプリ特定データによって特定されるアプリケーションに適した音声処理を切り替えて実行するように構成してもよい。

　携帯端末１２は、音声処理装置１１から受信した音声データを音声認識検索サーバ１５に送信する（Ｄ５）。一方、音声認識検索サーバ１５は、携帯端末１２から音声データを受信すると、その音声データに基づき周知の音声認識処理を実施する（Ｅ２）。そして、音声認識検索サーバ１５は、認識した音声および音声処理装置１１の位置情報に基づき周知の検索処理を実行し（Ｅ３）、その検索結果を示す検索結果データを携帯端末１２に送信する（Ｅ４）。このとき、音声認識検索サーバ１５は、検索結果出力用の音声データも携帯端末１２に送信する。この場合、検索結果出力用の音声データとして、例えば「近くのイタリアンの店を表示します。」といったメッセージデータが設定される。即ち、音声認識検索サーバ１５は、検索結果出力用の音声データに、例えば「イタリアン」といった検索条件も反映させる。

　携帯端末１２は、音声認識検索サーバ１５から受信した検索結果データを音声処理装置１１に送信する（Ｄ６）。このとき、携帯端末１２は、音声認識検索サーバ１５から受信した検索結果出力用の音声データも音声処理装置１１に送信する。一方、音声処理装置１１は、検索結果出力用の音声データを受信すると、その音声データに基づき音声をスピーカから出力する（Ｃ９）。この場合、例えば「近くのイタリアンの店を表示します。」といった案内音声が出力される。また、音声処理装置１１は、検索結果データを受信すると、その検索結果データに基づき検索結果を表示する（Ｃ１０）。なお、これら検索結果の出力音声及び検索結果の表示画面は、出力インターフェースの一例である。このように、携帯端末１２を中継して音声処理装置１１と音声認識検索サーバ１５との間で音声データ及び検索結果データが適宜送受信されることで、音声認識を利用した検索サービスが実現される。そして、この場合、音声処理装置１１において通話アプリケーションＡの自発的な操作または他発的な操作が検知されず、従って、音声処理装置１１から携帯端末１２に送信される音声データに、音声認識用の音声処理が施される。

　本実施形態によれば、音声処理装置１１は、取得した音声データを外部の携帯端末１２に送信する場合に、その送信する音声データに所定の音声処理を施す。そして、その音声処理として、通話用の音声処理の一例である通話用の音声処理と通話以外用の音声処理の一例である音声認識検索用の音声処理とを切り替えて実行することが可能である。よって、起動中のアプリケーションに応じて通話用の音声処理及び通話以外用の音声処理を適宜切り替えて実行することができ、通話用の音声処理及び通話以外用の音声処理を何れも最適に実施することができる。なお、音声データに施す音声処理としては、ノイズキャンセル処理、エコーキャンセル処理、ノイズキャンセル処理の絞りを徐々に大きくしていくオートゲインコントロール処理などといった処理を単発で実施するように構成してもよいし、あるいは各処理を適宜組み合わせて実施するように構成してもよい。

　また、本実施形態によれば、音声処理装置１１は、通話アプリケーションＡにおける自発的な操作または他発的な操作を検知した場合に、通話用の音声処理を実行する。即ち、通話アプリケーションＡに特有の操作、換言すれば、通話アプリケーションＡ以外のアプリケーションでは発生し得ない操作を検知したか否かに基づき、音声データに施す音声処理を通話用の音声処理に切り替える。従って、通話アプリケーションＡの実行時に、確実に通話用の音声処理を実行することができる。また、通話アプリケーションＡ以外のアプリケーションの実行時には、確実に通話以外用の音声処理を実行することができる。

　また、本実施形態によれば、通話用の音声データ及び通話以外用の音声データである音声認識用の音声データを何れも同一の通信プロトコルによって送受信するように構成した。これにより、例えば通話以外用のアプリケーションを新たに追加する場合であっても、そのアプリケーションに係る音声データを同一のプロトコルで送受信することができる。また、アプリケーションを追加するたびに専用の通信プロトコルを開発する必要がなく、開発コストの低減を図ることができる。

　なお、本開示は、上述した一実施形態のみに限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能である。

　例えば、通話アプリケーションは携帯端末で実行するように構成してもよい。また、音声認識検索アプリケーションは音声処理装置で実行するように構成してもよい。

　また、音声処理装置１１、より具体的には音声処理部３３は、通話アプリケーション以外のアプリケーションが起動された場合に音声処理を実行しないように構成し、代わりに、携帯端末１２または音声認識検索サーバ１５が音声処理を実行するように構成してもよい。この構成によれば、音声処理装置１１の処理負荷を抑えることができる。また、携帯端末１２あるいは音声認識検索サーバ１５にて、特化した音声認識を実施することができる。

　即ち、例えば図７に示すように、音声処理システム１０は、音声処理装置１１では音声認識用の音声処理、換言すれば音声データの信号処理を実行せず、携帯端末１２にて音声認識用の信号処理を実行するように構成してもよい。また、例えば図８に示すように、音声処理システム１０は、音声処理装置１１及び携帯端案１２では音声認識用の信号処理を実行せず、音声認識検索サーバ１５にて音声認識用の信号処理を実行するように構成してもよい。

　また、例えば図９に示すように、音声処理システム１０は、音声処理装置１１及び携帯端末１２の双方に通話アプリを備え、音声処理装置１１にて通話用の音声データに対し通話用の音声処理を施す構成とし、携帯端末１２では通話用の音声データに対して通話用の音声処理を施さない、または、付加的な音声処理を施す構成としてもよい。なお、図示はしないが、音声処理システム１０は、音声処理装置１１では通話用の音声データに対して通話用の音声処理を施さない、または、付加的な音声処理を施す構成とし、携帯端末１２にて通話用の音声データに対し通話用の音声処理を施す構成としてもよい。

　また、例えば図１０に示すように、音声処理システム１０は、音声認識検索サーバαに対応する音声認識検索アプリα及び音声認識検索サーバβに対応する音声認識検索アプリβを携帯端末１２に備える構成としてもよい。そして、音声認識検索アプリαにより音声認識検索サーバαの検索サービスを利用する場合には、携帯端末１２では音声認識用の音声データに対して音声認識用の音声処理を施さず、音声認識検索サーバαにて音声認識用の音声データに対し音声認識用の音声処理を施す構成としてもよい。また、音声認識検索アプリβにより音声認識検索サーバβの検索サービスを利用する場合には、携帯端末１２にて音声認識用の音声データに対し音声認識用の音声処理を施し、音声認識検索サーバβでは音声認識用の音声データに対し音声認識用の音声処理を施さない構成としてもよい。つまり、音声処理システム１０は、利用する音声認識検索アプリの種類に応じて、音声データに対し音声認識用の音声処理を施す実行主体を適宜変更する構成としてもよい。

　通話アプリケーション以外のアプリケーションは、音声認識処理を要するサービスを実現するアプリケーションであればよく、音声認識検索アプリケーションに限られるものではない。

　音声処理装置１１は、例えばナビゲーション機能を有するアプリケーションプログラムがインストールされた機器で構成してもよい。また、音声処理装置１１は、車両に組み込まれる車載装置で構成してもよいし、車両に着脱可能な携帯型の無線装置などで構成してもよい。

　本開示は、実施例に準拠して記述されたが、本開示は当該実施例や構造に限定されるものではないと理解される。本開示は、様々な変形例や均等範囲内の変形をも包含する。加えて、様々な組み合わせや形態、さらには、それらに一要素のみ、それ以上、あるいはそれ以下、を含む他の組み合わせや形態をも、本開示の範疇や思想範囲に入るものである。

Claims

　音声データを取得する音声データ取得部（３１）と、
　前記音声データ取得部が取得した音声データを外部の携帯端末（１２）に送信する音声データ送信部（３２）と、
　前記音声データ送信部が送信する音声データに所定の音声処理を施す音声処理部（３３）と、を備え、
　前記音声処理部は、前記所定の音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理を切り替えて、実行可能に構成されている
　音声処理装置。
　前記音声処理部は、通話アプリケーションにおける自発的な操作または他発的な操作を検知した場合に、前記通話用の第一の音声処理を実行する請求項１に記載の音声処理装置。
　前記音声処理部は、通話アプリケーション以外のアプリケーションが起動された場合に、前記通話以外用の第二の音声処理を実行する請求項１または２に記載の音声処理装置。
　前記音声処理部は、通話アプリケーション以外のアプリケーションである音声認識アプリケーションが起動された場合に、前記通話以外用の第二の音声処理である音声認識用の音声処理を実行する請求項１から３の何れか１項に記載の音声処理装置。
　前記音声処理部は、通話以外用の、通話用の音声処理よりも音声波形が残る第二の音声処理を実行可能に構成され、通話アプリケーション以外のアプリケーションが起動された場合に、その通話以外用の第二の音声処理を実行する請求項１から４の何れか１項に記載の音声処理装置。
　前記音声処理部は、通話アプリケーション以外のアプリケーションが起動された場合に、音声処理を実行しないように構成されている請求項１に記載の音声処理装置。
　前記音声データ送信部は、通話用の第一の音声データ及び通話以外用の第二の音声データを同一の通信プロトコルによって送信する請求項１から６の何れか１項に記載の音声処理装置。
　前記音声データ送信部は、前記通信プロトコルとして、Ｂｌｕｅｔｏｏｔｈ通信規格（Ｂｌｕｅｔｏｏｔｈ：登録商標）のハンズフリー通話用のプロファイルを用いる請求項７に記載の音声処理装置。
　請求項１から８の何れかの１項に記載の音声処理装置（１１）と、
　前記音声処理装置と通信可能に接続される携帯端末（１２）と、
で構築される
　音声処理システム。
　コンピュータによって、実行される音声処理方法であって、
　音声データを取得することと、
　前記取得された音声データを外部の携帯端末に送信することと、
　前記送信される音声データに所定の音声処理を施す音声処理を実行することと、を含み、
　前記音声処理を実行することでは、前記所定の音声処理として、通話用の第一の音声処理と通話以外用の第二の音声処理を切り替えて、実行する
　音声処理方法。
　非遷移の記憶媒体に保管されるプログラム製品であり、コンピュータにより読み出されて実行されるインストラクションを含み、
　前記インストラクションは請求項１０に記載の前記音声処理方法を含む、
　音声処理用のプログラム製品。