JPWO2017154282A1 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JPWO2017154282A1
JPWO2017154282A1 JP2018503997A JP2018503997A JPWO2017154282A1 JP WO2017154282 A1 JPWO2017154282 A1 JP WO2017154282A1 JP 2018503997 A JP2018503997 A JP 2018503997A JP 2018503997 A JP2018503997 A JP 2018503997A JP WO2017154282 A1 JPWO2017154282 A1 JP WO2017154282A1
Authority
JP
Japan
Prior art keywords
voice
unit
operation mode
threshold
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018503997A
Other languages
English (en)
Other versions
JP6844608B2 (ja
Inventor
衣未留 角尾
衣未留 角尾
俊之 熊倉
俊之 熊倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017154282A1 publication Critical patent/JPWO2017154282A1/ja
Application granted granted Critical
Publication of JP6844608B2 publication Critical patent/JP6844608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識に関する処理の柔軟性を向上する。【解決手段】第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、前記閾値を動的に設定する閾値設定部と、を備える、音声処理装置。【選択図】図4

Description

本開示は、音声処理装置および音声処理方法に関する。
近日、ユーザが発した音声を機械的に認識するための音声処理装置が盛んに研究されている。ユーザの音声の認識は、ローカルな端末内で行われることも、ネットワーク上のサーバにより行われることもある。例えば、特許文献1には、端末装置とサーバの双方でユーザの音声の認識を行い、端末装置による認識の結果またはサーバによる認識の結果を選択的に利用する技術が開示されている。
特開2013−064777号公報
上記の音声認識に関し、音声の認識結果の確信度と固定的な閾値との比較に基づいて、当該音声の認識結果を利用するか否かを判断する方法が考えられる。しかし、ユーザの周辺環境または外部装置の利用の有無などの音声認識に関する状況は変化することが想定される。このため、音声認識に関する処理の柔軟性を向上することが望まれた。
本開示によれば、第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、前記閾値を動的に設定する閾値設定部と、を備える、音声処理装置が提供される。
また、本開示によれば、音声データの認識結果の確信度と閾値との比較に基づいて、前記音声データの認識結果の扱いを決定することと、前記閾値をプロセッサが動的に設定することと、を含む、音声処理方法が提供される。
以上説明したように本開示によれば、音声認識に関する処理の柔軟性を向上することが可能である。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第1の実施形態による音声処理システムを示す説明図である。 確信度の計算を示す説明図である。 語彙外音声と語彙内音声の対数尤度差の関係を示す説明図である。 本開示の第1の実施形態による音声処理装置およびサーバの構成を示す機能ブロック図である。 閾値設定部により設定される閾値の具体例を示す説明図である。 第1の実施形態による音声処理装置の動作を示すフローチャートである。 第1の変形例によるハイブリッドモードにおける閾値の設定方法を示すフローチャートである。 第2の変形例によるハイブリッドモードにおける閾値の設定方法を示すフローチャートである。 第2の実施形態による音声処理システムの構成を示す説明図である。 閾値設定部により設定される閾値の具体例を示す説明図である。 閾値設定部により設定される閾値の具体例を示す説明図である。 第2の実施形態の動作を示すフローチャートである。 音声処理装置のハードウェア構成を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
また、以下に示す項目順序に従って本開示を説明する。
1.第1の実施形態
1−1.音声処理システムの概要
1−2.構成
1−3.動作
1−4.変形例
2.第2の実施形態
2−1.構成
2−2.動作
3.ハードウェア構成
4.むすび
<<1.第1の実施形態>>
まず、本開示の第1の実施形態を説明する。本開示の第1の実施形態は、ユーザが発した音声を機械的に認識する音声処理システムに関する。音声処理システムは、ユーザが発した音声の認識結果に基づき、多様な処理を行い得る。以下、図1を参照し、本開示の第1の実施形態による音声処理システムの概要を説明する。
<1−1.音声処理システムの概要>
図1は、本開示の第1の実施形態による音声処理システムを示す説明図である。図1に示したように、第1の実施形態による音声処理システムは、音声処理装置20と、サーバ30と、を有する。音声処理装置20とサーバ30は、通信網12を介して接続される。
通信網12は、通信網12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
音声処理装置20は、ユーザが発した音声を電気的な信号である音声データに変換し、音声データを認識し、音声データの認識結果に対応する処理を実行する。例えば、音声処理装置20は、コンテンツの再生機能を有する場合、「音楽を再生」という音声データが認識されたことに基づき、音楽の再生を開始してもよい。このように、ユーザは音声で音声処理装置20を操作できるので、直感的な操作およびハンズフリー操作が実現される。例えば、ユーザは、ジョギングまたはスポーツをしながらの操作や、車を運転しながらの操作を行い得る。
また、本実施形態による音声処理装置20は、サーバ30と音声認識について連携することが可能である。例えば、音声処理装置20は、通信網12を介して音声データをサーバ30に送信し、サーバ30から音声データの認識結果を受信できる。以下では、音声処理装置20およびサーバ30の双方において音声認識が行われる動作モードをハイブリッドモードと称し、音声処理装置20において音声認識が行われてサーバ30により音声認識が行われない動作モードをローカルモードと称する。
なお、音声処理装置20は、多様な形態で実現され得る。例えば、音声処理装置20は、携帯電話、スマートフォン、PC(Personal Computer)、ゲーム機、映像再生装置またはウェアラブル装置であってもよい。ウェアラブル装置としては、腕時計型装置、イヤホン型装置、ヘッドホン型装置、ヘッドマウントディスプレイおよびネックレス型装置などが挙げられる。
サーバ30は、音声処理装置20から受信した音声データを認識し、認識結果を音声処理装置20に送信する。サーバ30から送信される音声データの認識結果は、音声の内容を示すテキスト、または音声処理装置20に対するコマンドなどの、音声認識に基づく情報であってもよい。例えば、サーバ30により「アーティストAの音楽を再生」という音声データが認識された場合、音声データの認識結果は、「アーティストAの音楽を再生」というテキストであってもよいし、音声処理装置20にアーティストAの音楽の再生を指示するコマンドであってもよい。
(音声認識の概要)
ここで、音声処理装置20が行う音声認識の概要を説明する。音声処理装置20は、音声データの信号波形から、発話内容の単語列を推定する。この単語列の推定は、下記数式1のように、音響モデルおよび言語モデルを用いて定式化される。なお、数式1においてXは音響特徴量の系列であり、lは単語系列であり、単語系列lは音声認識が利用する辞書データ内の語彙によって構成される。辞書データ内の語彙が多いほど、より多くの音声を正式に認識することが可能となるが、探索のための処理量が増加する。
Figure 2017154282
上記数式1は、辞書データの語彙外(OOV:Out Of Vocabulary)の発話が行われた場合であっても、辞書データ内の語彙の組合わせで何かしらの認識結果が出力されることを示す。発話された音声が語彙外であったか否かを検出する方法として、音声認識のためのモデルP(l)と並行してガーベージモデルP(loov)を用意する方法がある(例えば、「Hazen and I. Bazzi, “A Comparison and Combination of Methods for OOV Word Detection and Word Confidence Scoring,” Proc. of ICASSP, pp.397-400, 2001.」参照。)。
ガーベージモデルとしては、例えば音素の遷移をn−gram確率で表現するモデルが利用される。当該モデルは、下記数式2のように表現される。数式2においては、音素系列がloov{p1,p2,・・・p}と表現されている。
Figure 2017154282
音声処理装置20は、数式2に示される確率を最大化する音素系列を下記数式3により求め、数式4で示される対数尤度差を、数式1により求められた認識結果の確信度として利用し得る。なお、当該処理は、図2のように表現される。すなわち、ガーベージモデルP(loov)60および音声認識のためのモデルP(l)70が並列的に用いられ、確信度が得られる。
Figure 2017154282
Figure 2017154282
語彙外の音声について得られる確信度は、語彙内の音声について得られる確信度より低くなる傾向がある。例えば図3に示すように、語彙外の音声について得られる確信度は主に0〜0.2の範囲内に分布し、語彙外の音声は主に−0.3〜0の範囲内に分布する傾向がある。このため、音声処理装置20は、確信度が閾値を上回るか否かに基づき、発話された音声が語彙内の音声であったか否かを判断することが可能である。
(背景)
音声処理装置20は、語彙内の音声の認識結果を利用して処理を行い、語彙外の音声の認識結果を棄却し得る。また、ハイブリッドモードにおいては、音声処理装置20の辞書データでは語彙外の音声が、サーバ30の辞書データでは語彙内の音声であることが想定される。このため、音声処理装置20は、音声処理装置20の辞書データでは語彙外の音声の認識結果を棄却しつつ、サーバ30から受信される認識結果を利用し得る。
ここで、語彙内の音声と語彙外の音声とで確信度が重複する範囲が存在する。図3に示した例では、約0.01〜約0.07の範囲内に、語彙内および語彙外の音声の確信度が分布している。このため、閾値が0.07に設定されれば、語彙外の音声が語彙内の音声であると誤認識されることは防げるが、本当は語彙内の音声の認識結果が棄却される場合が生じる。一方、閾値が0.01に設定されれば、語彙内の音声の認識結果が棄却されることは防げるが、本当は語彙外の音声が語彙内の音声である誤認識される場合が生じる。
上記に鑑みると、閾値は上記の重複範囲内で適切な値に設定されることが望まれる。しかし、上記のように複数の動作モードが存在するのに対し、閾値が固定的な値であると、各動作モードにおいて好適な結果が得られないことが懸念される。例えば、ローカルモードとハイブリッドモードで同じ値が閾値に設定されると、サーバ30による精度の高い認識結果が十分に利用されず、サーバ30が有効活用されないことが懸念される。
そこで、本件発明者は、上記事情を一着眼点にして第1の実施形態による音声処理装置20を創作するに至った。第1の実施形態による音声処理装置20は、ローカルモードでの適正な処理およびハイブリブリッドモードでの適正な処理の双方を実現することが可能である。以下、このような本開示の第1の実施形態による音声処理装置20の構成および動作を順次詳細に説明する。
<1−2.構成>
図4は、本開示の第1の実施形態による音声処理装置20およびサーバ30の構成を示す機能ブロック図である。
(サーバ)
図4に示したように、サーバ30は、音声認識部324および通信部340を備える。通信部340は、音声処理装置20とのインタフェースであり、音声処理装置20から音声データを受信し、音声認識部324による音声データの認識結果を音声処理装置20に送信する。
音声認識部324は、第2の音声認識部の一例であり、通信部340により音声処理装置20から受信された音声データを、例えば「音声認識の概要」において説明した方法により、辞書データを用いて認識する。音声認識部324が利用する辞書データは、後述する音声処理装置20の音声認識部224が利用する辞書データよりも、多くの語彙のデータを含む。このため、音声認識部324による音声認識は認識精度の面で優れる。以下では、サーバ30の音声認識部324により得られた認識結果をサーバ認識結果と称する。
(音声処理装置)
音声処理装置20は、図4に示したように、収音部220と、音声認識部224と、確信度計算部228と、決定部232と、動作モード制御部236と、通信部240と、閾値設定部244と、を備える。
収音部220は、空気的な振動で表現される音声を、電気的な信号に変換する。当該収音部220の機能は、例えばマイクロフォンにより実現される。本明細書では、収音部220により得られた電気的な信号(PCM:Pulse Code Modulation)を、音声データと称する。
音声認識部224は、第1の音声認識部の一例であり、収音部220から入力される音声データを、例えば「音声認識の概要」において説明した方法により、辞書データを用いて認識する。当該音声認識部224が利用する辞書データのデータ量はサーバ30が利用する辞書データよりも容量が小さいこと、および、音声認識部224による音声認識には通信網12を介した通信が必須でないことから、音声認識部224による音声認識は応答速度の面で優れる。
確信度計算部228は、音声認識部224により得られた音声データの認識結果(以下、ローカル認識結果と称する。)の確信度を計算する。例えば、確信度計算部228は、数式4に示した対数尤度差の演算により確信度を計算してもよい。
決定部232は、ローカル認識結果の扱いを、確信度計算部228により計算された確信度と、閾値設定部244により設定された閾値との比較に基づいて決定する。例えば、決定部232は、確信度計算部228により計算された確信度が閾値を上回る場合、ローカル認識結果の利用を決定する。一方、決定部232は、確信度計算部228により計算された確信度が閾値以下である場合、ローカル認識結果を棄却する。ハイブリッドモードにおいては、決定部232は、ローカル認識結果を棄却した場合、サーバ認識結果の利用を決定する。
動作モード制御部236は、音声処理装置20の音声認識に関する動作モードを、ローカルモード(第1の動作モード)とハイブリッドモード(第2の動作モード)との間で制御する。例えば、動作モード制御部236は、通信部240がサーバ30と接続されている場合には動作モードをハイブリッドモードにして、通信部240がサーバ30と接続されていない場合には動作モードをローカルモードにしてもよい。また、動作モード制御部236は、音声処理装置20のバッテリ残量が所定値を上回っている場合には動作モードをハイブリッドモードにして、バッテリ残量が所定値以下である場合には動作モードをローカルモードにしてもよい。また、動作モード制御部236は、ユーザからの操作に従って動作モードを制御してもよい。
通信部240は、サーバ30とのインタフェースである。通信部240は、ハイブリッドモードにおいて、収音部220から入力される音声データをサーバ30に送信し、サーバ認識結果をサーバ30から受信する。
閾値設定部244は、ローカル認識結果の扱いを決定部232が決定する際に用いられる閾値を動的に設定する。例えば、閾値設定部244は、動作モードがローカルモードまたはハイブリッドモードのいずれであるかに応じて、閾値を設定する。以下、図5を参照して、閾値設定部244により設定される閾値の具体例を説明する。
図5は、閾値設定部244により設定される閾値の具体例を示す説明図である。閾値設定部244は、ハイブリッドモードの閾値を、ローカルモードの閾値よりも高い値に設定する。例えば、図5に示したように、ハイブリッドモードの閾値Rcは、ローカルモードの閾値Rnより高い値に設定される。かかる構成によれば、ハイブリッドモードにおいて、ローカルモードにおいてよりもローカル認識結果が棄却され易くなるので、サーバ認識結果の有効活用を実現することが可能である。
ここで、ローカルモードの閾値Rnは、語彙外の音声が語彙内の音声である誤認識されるエラー率と、語彙内の音声が語彙外の音声である誤認識されるエラー率の合計が最小になる値であってもよい。このような閾値Rnの設定においては、ユーザがジョギング中に「lap time」という音声を発した場合、音声認識部224が利用する辞書データに含まれる「what's the time」がローカル認識結果として得られ、かつ、「time」が重複するので「what's the time」の確信度が閾値Rnを上回ることが起こり得る。この場合、ローカルモードにおいては「what's the time」に対応して現在時刻が出力されてしまう。一方、ハイブリッドモードにおいては閾値Rnより高い閾値Rcが設定されているので、「what's the time」の確信度が閾値Rcを下回り、ローカル認識結果の「what's the time」が棄却され、サーバ認識結果の利用が決定されることが期待される。すなわち、ハイブリッドモードの閾値Rcをローカルモードの閾値Rnより高い値とすることで、ハイブリッドモードにおいて積極的にサーバ認識結果を利用することが可能となる。なお、サーバ認識結果の利用は通信遅延を伴うが、ローカル認識結果の確信度が閾値Rcを上回る場合には、決定部232がローカル認識結果の利用を決定することで迅速な応答を実現することが可能である。
<1−3.動作>
以上、第1の実施形態による音声処理装置20およびサーバ30の構成を説明した。続いて、図6を参照し、第1の実施形態による音声処理装置20の動作を整理する。
図6は、第1の実施形態による音声処理装置20の動作を示すフローチャートである。図6に示したように、まず、収音部220から音声認識部224に音声データが入力されると(S504)、音声認識部224は音声データを認識する(S508)。
そして、動作モードがローカルモードである場合(S512/no)、閾値設定部244が閾値をRnに設定する(S516)。また、確信度計算部228がローカル認識結果の確信度を計算する(S520)。決定部232は、ローカル認識結果の確信度が閾値Rnを上回っていればローカル認識結果の利用を決定し(S524/yes、S528)、ローカル認識結果の確信度が閾値Rn以下であればローカル認識結果を棄却し、音声データの認識に失敗したことを示す信号を出力する(S524/no、S532)。
一方、動作モードがハイブリッドモードである場合(S512/yes)、通信部240が音声データをサーバ30に送信し(S536)、閾値設定部244が閾値をRcに設定する(S540)。また、確信度計算部228がローカル認識結果の確信度を計算する(S544)。決定部232は、ローカル認識結果の確信度が閾値Rcを上回っている場合、ローカル認識結果の利用を決定する(S548/yes、S528)。一方、ローカル認識結果の確信度が閾値Rc以下である場合、通信部240によりサーバ認識結果が受信され(S552)、決定部232がサーバ認識結果の利用を決定する(S556)。
上記では、ローカル認識結果を利用するか否かが決定される前に音声データをサーバ30に送信される動作例を説明した。当該動作例によれば、音声データの入力からサーバ認識結果が受信されるまでの時間を短縮することができる。ただし、音声処理装置20は、ローカル認識結果が棄却された後に、音声データをサーバ30に送信してもよい。かかる構成によれば、音声処理装置20とサーバ30との通信量および処理負荷を低減することが可能である。
<1−4.変形例>
以上、本開示の第1の実施形態を説明した。以下では、本開示の第1の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で第1の実施形態に適用されてもよいし、組み合わせで第1の実施形態に適用されてもよい。また、各変形例は、第1の実施形態で説明した構成に代えて適用されてもよいし、第1の実施形態で説明した構成に対して追加的に適用されてもよい。
(第1の変形例)
上記では、ハイブリッドモードでは閾値Rcが設定される例を説明したが、ハイブリッドモードにおいても閾値は動的に設定されてもよい。例えば、閾値設定部244は、製造時に開発者によりプリセットされる設定、またはユーザにより初期、包括的または音声認識の度に指定される設定に基づいて、ハイブリッドモードにおける閾値を設定してもよい。以下、図7を参照して当該第1の変形例について具体的に説明する。
図7は、第1の変形例によるハイブリッドモードにおける閾値の設定方法を示すフローチャートである。図7に示したように、閾値設定部244は、サーバ30を積極的に利用する設定が採用されている場合(S580/yes)、ローカルモードにおける閾値Rnより大きいRcを閾値として設定する(S582)。
一方、閾値設定部244は、ローカルを積極的に利用する設定が採用されている場合(S584/yes)、ローカルモードにおける閾値Rnより小さいRtを閾値として設定する(S586)。サーバ30を積極的に利用する設定およびローカルを積極的に利用する設定のいずれも採用されていない場合(S584/no)、閾値設定部244は、ローカルモードと同様のRnを閾値として設定する(S588)。
なお、確信度が例えば数式4で示される対数尤度差のフレーム平均値である場合、Rnは0.02〜0.06の範囲内の値であり、Rcは0.09〜0.11の範囲内の値(特に、0.1)であり、Rtは−0.01から0.02の範囲内の値(特に、0.0)であってもよい。Rnが0.02〜0.06の範囲内であれば、音声処理装置20の語彙外の音声が語彙内の音声である誤認識されるエラー率と、語彙内の音声が語彙外の音声である誤認識されるエラー率の合計の最小化を実現し得る。0.09〜0.11の範囲内の値であるRcがハイブリッドモードにおける閾値に設定されれば、ローカル認識結果が棄却され易くなるので、サーバ認識結果が利用され易くなる。かかるRcの設定によれば、認識精度の向上を実現できる。また、−0.01から0.02の範囲内の値であるRtがハイブリッドモードにおける閾値に設定されれば、ローカル認識結果が利用され易くなるので、サーバ認識結果が利用され難くなる。かかるRtの設定によれば、応答性の向上を実現することが可能である。
(第2の変形例)
また、閾値設定部244は、音声処理装置20とサーバ30との間の通信の状況に応じて、ハイブリッドモードにおける閾値を設定してもよい。例えば、音声処理装置20とサーバ30との間の通信の状況が悪いほど、サーバ30からサーバ認識結果が得られるタイミングが遅くなり得る。このため、ローカル認識結果が棄却された場合、応答までの遅延も大きくなる。そこで、応答速度の観点からは、音声処理装置20とサーバ30との間の通信の状況が所定の基準を下回る場合にはローカル認識結果が積極的に採用されることが望まれる。以下、図8を参照し、上記概念に沿った第2の変形例による動作を説明する。
図8は、第2の変形例によるハイブリッドモードにおける閾値の設定方法を示すフローチャートである。図8に示したように、閾値設定部244は、通信の状況が良好である場合には(S590/yes)、ローカルモードにおける閾値Rnより大きいRcを閾値として設定する(S592)。一方、閾値設定部244は、通信の状況が良好でない場合には(S590/no)、Rn<Rm<Rcを満たすRmを閾値として設定する(S594)。
なお、通信の状況が良好であるか否かは、通信エラー率および通信遅延時間などの状況が上述したように所定の基準を上回るか否かにより判断されてもよい。また、上記ではRmがRnを上回る例を示したが、RmはRn未満であってもよい。かかる構成によれば、ローカル認識結果が一層利用され易くなるので、応答性のさらなる向上を実現することが可能である。
(第3の変形例)
次に、第3の変形例を説明する。第1の変形例および第2の変形例では、ハイブリッドモードにおいて閾値が動的に設定され得ることを説明した。第3の変形例は、ローカルモードにおいても閾値を動的に設定するための構成に関する。
確信度計算部228により計算される確信度は、ユーザが同じ内容の音声を同じ様に発した場合であっても、音声データに含まれるノイズ成分に応じて変化し得る。そこで、閾値設定部244は、ローカルモードにおいても、音声データに含まれるノイズ成分に応じて閾値を設定してもよい。
例えば、ノイズ成分が比較的高い場合には、図5に示したヒストグラムが全体的に低い値側にシフトすると考えられる。そこで、閾値設定部244は、音声データに含まれるノイズ成分が大きいほど、ローカルモードにおける閾値を小さな値に設定してもよい。かかる構成により、音声処理装置20の周辺環境に応じた適切な処理を実現することが可能となる。なお、ノイズ成分の検出は、例えばウェーブレット変換を用いて実現され得るが、ノイズ成分の検出方法は特に限定されない。
また、上記では、ローカルモードにおける閾値の動的な設定方法の一例として、ノイズ成分に応じた閾値の設定方法を説明したが、動的な設定方法はかかる例に限定されない。例えば、ユーザが発した音声の時間長が、音声処理装置20が認識可能な音声に対応する最長のテキストに対して長い場合、ユーザが発した音声は語彙外である可能性が高い。このため、ローカル認識結果も誤りである可能性が高いので、閾値設定部244は、上記場合にはローカル認識結果が棄却されるよう、他の場合よりも閾値を高い値に設定してもよい。
また、閾値設定部244は、ハイブリッドモードにおいても同様に当該第3の変形例を適用してもよい。また、閾値がAPIとして公開され、プログラマブルとなる場合、前記APIを使う外部アプリケーションプログラム(図示しない)が、実行時、動的に閾値設定部244に閾値を設定できるようにしてもよい。更に、その場合、APIとしてプログラマブルになる閾値は抽象化されてもよく、ハイブリッドモード、ローカルモードのいずれに適用することができる。
<<2.第2の実施形態>>
以上、本開示の第1の実施形態を説明した。続いて、本開示の第2の実施形態を説明する。本開示の第2の実施形態は、音声認識をより多くの装置で行うシステムの提案に関する。
<2−1.構成>
図9は、第2の実施形態による音声処理システムの構成を示す説明図である。図9に示したように、第2の実施形態による音声処理システムは、音声処理装置22と、サーバ30と、ユーザ装置40と、を備える。
第2の実施形態においては、音声処理装置22として、腕時計型装置、イヤホン型装置、ヘッドホン型装置、ヘッドマウントディスプレイおよびネックレス型装置などのウェアラブル装置を想定し、ユーザ装置40として、上記音声処理装置22と近距離無線通信方式(例えば、無線LAN)で通信するスマートフォンのような情報処理装置を想定する。サーバ30の構成は第1の実施形態で説明した通りであるので、ここでのサーバ30の詳細な説明は省略する。
(ユーザ装置)
図9に示したように、ユーザ装置40は、音声認識部424、確信度計算部428および通信部440を備える。通信部440は、音声処理装置22とのインタフェースであり、音声処理装置22から音声データを受信し、音声認識部424による音声データの認識結果および確信度計算部428により計算された確信度を音声処理装置22に送信する。
音声認識部424は、第3の音声認識部の一例であり、通信部440により音声処理装置22から受信された音声データを、例えば「音声認識の概要」において説明した方法により、辞書データを用いて認識する。音声認識部424が利用する辞書データに含まれる語彙は、音声処理装置22の音声認識部224が利用する辞書データよりも多く、サーバ30の音声認識部324が利用する辞書データよりも少ない。
確信度計算部428は、音声認識部424により得られた音声データの認識結果の確信度を計算する。例えば、確信度計算部428は、数式4に示した対数尤度差の演算により確信度を計算してもよい。
なお、ユーザ装置40としては上述したように音声処理装置22と近距離無線通信方式で通信する情報処理装置が想定される。一方、音声処理装置22とサーバ30との通信は通信網12を介して行われる。このため、音声処理装置22から見た音声認識の応答性は、サーバ30よりユーザ装置40の方が高くなることが期待される。
(音声処理装置)
音声処理装置22は、図9に示したように、収音部220と、音声認識部224と、確信度計算部228と、決定部234と、動作モード制御部238と、通信部240と、閾値設定部246と、を備える。収音部220、音声認識部224および確信度計算部228の構成は第1の実施形態において説明した通りであるので、ここでの収音部220、音声認識部224および確信度計算部228の詳細な説明は省略する。
決定部234は、ローカル認識結果の扱いを、確信度計算部228により計算された確信度と、閾値設定部246により設定された閾値との比較に基づいて決定する。また、決定部234は、動作モードが後述するユーザ装置モードまたは併用モードである場合、ユーザ装置40からの認識結果の扱いを、当該認識結果の確信度と閾値設定部246により設定された閾値との比較に基づいて決定する。
動作モード制御部238は、音声処理装置22の音声認識に関する動作モードを、ローカルモード、ハイブリッドモード、ユーザ装置モードおよび併用モードを含む複数の動作モードの間で制御する。ユーザ装置モードは、音声処理装置20およびユーザ装置40において音声認識が行われ、サーバ30により音声認識が行われない動作モードである。併用モードは、第3の動作モードの一例であり、音声処理装置20、ユーザ装置40およびサーバ30の三者により音声認識が行われる動作モードである。動作モード制御部238は、サーバ30と通信部240との接続状況、およびユーザ装置40と通信部240との接続状況に応じて動作モードを設定してもよい。また、動作モード制御部238は、ユーザからの操作に従って動作モードを制御してもよい。
閾値設定部246は、ローカル認識結果の扱いを決定部232が決定する際に用いられる閾値を動的に設定する。例えば、閾値設定部244は、動作モードがローカルモード、ハイブリッドモード、ユーザ装置モードまたは併用モードのいずれであるかに応じて、閾値を設定する。以下、図10を参照して、閾値設定部246により設定される閾値の具体例を説明する。
図10は、閾値設定部246により設定される閾値の具体例を示す説明図である。閾値設定部246は、ユーザ装置モードの閾値を、ローカルモードの閾値よりも高い値に設定する。例えば、図10に示したように、ユーザ装置モードの閾値Ruは、ローカルモードの閾値Rnより高い値に設定される。かかる構成によれば、ユーザ装置モードにおいて、ローカルモードにおいてよりもローカル認識結果が棄却され易くなるので、ユーザ装置40からの認識結果の有効活用を実現することが可能である。また、ユーザ装置モードの閾値Ruは、図10に示したように、ハイブリッドモードの閾値Rcよりも低い値に設定される。ユーザ装置40の音声認識部424が参照する辞書データの語彙はサーバ30の音声認識部324が参照する辞書データの語彙よりも少ないので、ユーザ装置40からの認識結果の信頼性は、サーバ認識結果の信頼性ほど高くない。このため、ユーザ装置40からの認識結果が積極的に利用され過ぎないよう、上記のように、ユーザ装置モードの閾値Ruはハイブリッドモードの閾値Rcよりも低い値に設定される。
一方、閾値設定部246は、併用モードの閾値を、ハイブリッドモードの閾値よりも高い値に設定する。例えば、図10に示したように、併用モードの閾値Rcuは、ハイブリッドモードの閾値Rcよりも高い値に設定される。かかる構成によれば、ローカル認識結果が棄却され易くなり、サーバ認識結果またはユーザ装置40からの認識結果が利用され易くなる。ここで、併用モードにおいて音声認識を行うユーザ装置40およびサーバ30は、音声処理装置22よりも高精度に音声認識を行い得る。従って、上記のように併用モードの閾値がハイブリッドモードの閾値よりも高い値に設定されることにより、決定部234がより適切な認識結果の利用を決定することが可能となる。
なお、閾値設定部246は、ユーザ装置40からの認識結果を決定部232が決定する際に用いられる閾値Rxも設定する。当該閾値Rxは、例えば、図11に示したように、ユーザ装置40の語彙外の音声と語彙内の音声とで確信度が重複する範囲内の値であり得る。
<2−2.動作>
以上、第2の実施形態による音声処理システムの構成を説明した。続いて、図12を参照し、第2の実施形態の動作を整理する。
図12は、第2の実施形態の動作を示すフローチャートである。具体的には、図12は、併用モードにおける音声処理装置22の動作を示している。
まず、図12に示したように、収音部220から音声認識部224に音声データが入力されると(S604)、音声認識部224は音声データを認識する(S608)。そして、確信度計算部228がローカル認識結果の確信度を計算する(S610)。
ここで、ローカル認識結果の確信度が閾値Rcuを上回っている場合(S612/yes)、決定部234は、ローカル認識結果の利用を決定する(S616)。
一方、ローカル認識結果の確信度が閾値Rcu以下である場合(S612/no)、通信部240が、音声データをサーバ30およびユーザ装置40に送信する(S620)。その後、通信部240がユーザ装置40から認識結果および確信度を受信すると(S624)、決定部234は、受信された確信度と閾値Rxを比較する(S628)。
そして、受信された確信度が閾値Rxを上回っている場合(S628/yes)、決定部234は、ユーザ装置40からの認識結果の利用を決定する(S632)。一方、受信された確信度が閾値Rx以下である場合(S628/no)、通信部240がサーバ認識結果を受信した後(S636)、決定部234は、当該サーバ認識結果の利用を決定する(S640)。
なお、S612においてローカル認識結果の確信度が閾値Rcu以下であると判断された場合に通信部240が音声データをサーバ30およびユーザ装置40に送信する例を説明したが、通信部240は、S604〜S612の間に音声データをサーバ30およびユーザ装置40に送信してもよい。かかる構成によれば、音声処理システムの応答性を向上することが可能である。
あるいは、サーバ30への音声データの送信は、S628においてユーザ装置40から受信された確信度が閾値Rx以下であると判断された場合に行われてもよい。かかる構成によれば、サーバ30との通信量が抑制されるので、消費電力を削減することが可能である。
<<3.ハードウェア構成>>
以上、本開示の実施形態を説明した。上述した音声認識および確信度の計算などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
図13は、音声処理装置20のハードウェア構成を示した説明図である。図13に示したように、音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、入力装置208と、出力装置210と、ストレージ装置211と、ドライブ212と、撮像装置213と、通信装置215とを備える。
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、音声認識部224、確信度計算部228および閾値設定部244(246)などの機能が実現され得る。
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置210は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。さらに、出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。
ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置211は、CPU201が実行するプログラムや各種データを格納する。
ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
撮像装置213は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびCCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。
通信装置215は、例えば、通信網12に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置215は、無線LAN(Local Area Network)対応通信装置であっても、LTE(Long Term Evolution)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
<<4.むすび>>
以上説明したように、本開示の実施形態によれば、音声の認識結果の扱いを決定する際に用いられる閾値を動的に設定することが可能である。従って、本開示の実施形態によれば、ユーザの周辺環境または外部装置の利用の有無などに適した音声認識に関する処理を柔軟に実現することが可能である。
なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記では音声処理装置22が音声認識を行う例を説明したが、音声処理装置22は音声認識を行わなくてもよい。この場合、音声処理装置22は、ユーザ装置40による音声認識が行われる動作モード、ユーザ装置40およびサーバ30による音声認識が行われる動作モード、サーバ30による音声認識が行われる動作モードのうちのいずれかで動作し得る。音声処理装置22は、動作モードがいずれの動作モードであるかに応じ、上述したように閾値を設定することで、各動作モードに適した処理を実現することが可能である。
また、本明細書の音声処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、音声処理装置20に内蔵されるCPU201、ROM202およびRAM203などのハードウェアに、上述した音声処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、以下のような構成も本開示の技術的範囲に属する。
(1)
第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、
前記閾値を動的に設定する閾値設定部と、
を備える、音声処理装置。
(2)
前記閾値設定部は、前記第1の音声認識部による音声データの認識が行われる第1の動作モード、および前記第1の音声認識部および第2の音声認識部による音声データの認識が行われる第2の動作モードを含む複数の動作モードのうちで該当する動作モードに応じて閾値を設定する、前記(1)に記載の音声処理装置。
(3)
前記音声処理装置は、
前記第1の音声認識部と、
前記第1の音声認識部により得られた認識結果の確信度を計算する確信度計算部と、
前記第2の動作モードにおいて、前記第2の音声認識部を有する外部装置に前記音声データを送信し、前記外部装置から音声認識に基づく情報を受信する通信部と、
を備える、前記(2)に記載の音声処理装置。
(4)
前記閾値設定部は、動作モードが前記第2の動作モードである場合には、動作モードが前記第1の動作モードである場合よりも、前記閾値として高い値を設定する、前記(2)または(3)に記載の音声処理装置。
(5)
前記閾値設定部は、動作モードが前記第2の動作モードである場合には、事前に用意された複数の値に含まれるいずれかの値を前記閾値として設定する、前記(2)または(3)に記載の音声処理装置。
(6)
前記複数の値は、前記第1の動作モードにおいて前記閾値として設定される値より大きい値および小さい値を含む、前記(5)に記載の音声処理装置。
(7)
前記通信部は、前記第2の動作モードにおいて、前記決定部により前記第1の音声認識部により得られた音声認識結果の扱いが決定される前に、前記音声データを前記外部装置に送信する、前記(3)に記載の音声処理装置。
(8)
前記決定部は、前記第2の動作モードにおいて、前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下であることに基づき、前記第2の音声認識部により得られた前記音声認識に基づく情報の利用を決定する、前記(3)に記載の音声処理装置。
(9)
前記決定部は、前記第1の動作モードにおいて前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下である場合、前記音声データの認識に失敗したことを示す信号を出力する、前記(2)に記載の音声処理装置。
(10)
前記閾値設定部は、前記第2の動作モードにおいて、前記外部装置と前記通信部との間の通信の状況に応じて前記閾値を設定する、前記(3)に記載の音声処理装置。
(11)
前記閾値設定部は、前記音声データに含まれるノイズ成分に応じて前記閾値を設定する、前記(1)に記載の音声処理装置。
(12)
前記複数の動作モードは、前記第1の音声認識部、前記第2の音声認識部および第3の音声認識部により音声データの認識が行われる第3の動作モードを含み、
前記閾値設定部は、動作モードが前記第3の動作モードである場合には、前記閾値として、動作モードが前記第1の動作モードである場合よりも高い値であって、動作モードが前記第2の動作モードである場合よりも低い値を設定する、前記(2)に記載の音声処理装置。
(13)
前記決定部は、第3の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第3の音声認識部により得られた音声データの認識結果の扱いを決定し、
前記閾値設定部は、前記第3の音声認識部により得られた認識結果の確信度との対比のための閾値を、前記第1の音声認識部により得られた認識結果との対比のための閾値とは異なる値に設定する、前記(2)に記載の音声処理装置。
(14)
前記第3の音声認識部は、前記第1の音声認識部より語彙データが多い辞書データを用いて音声認識を行い、
前記第2の音声認識部は、前記第3の音声認識部より語彙データが多い辞書データを用いて音声認識を行う、前記(12)または(13)に記載の音声処理装置。
(15)
音声データの認識結果の確信度と閾値との比較に基づいて、前記音声データの認識結果の扱いを決定することと、
前記閾値を動的に設定することと、
を含む、音声処理方法。
20、22 音声処理装置
30 サーバ
40 ユーザ装置
220 収音部
224 音声認識部
228 確信度計算部
232、234 決定部
236、238 動作モード制御部
240 通信部
244、246 閾値設定部
324 音声認識部
340 通信部
424 音声認識部
428 確信度計算部
440 通信部

Claims (15)

  1. 第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、
    前記閾値を動的に設定する閾値設定部と、
    を備える、音声処理装置。
  2. 前記閾値設定部は、前記第1の音声認識部による音声データの認識が行われる第1の動作モード、および前記第1の音声認識部および第2の音声認識部による音声データの認識が行われる第2の動作モードを含む複数の動作モードのうちで該当する動作モードに応じて閾値を設定する、請求項1に記載の音声処理装置。
  3. 前記音声処理装置は、
    前記第1の音声認識部と、
    前記第1の音声認識部により得られた認識結果の確信度を計算する確信度計算部と、
    前記第2の動作モードにおいて、前記第2の音声認識部を有する外部装置に前記音声データを送信し、前記外部装置から音声認識に基づく情報を受信する通信部と、
    を備える、請求項2に記載の音声処理装置。
  4. 前記閾値設定部は、動作モードが前記第2の動作モードである場合には、動作モードが前記第1の動作モードである場合よりも、前記閾値として高い値を設定する、請求項2に記載の音声処理装置。
  5. 前記閾値設定部は、動作モードが前記第2の動作モードである場合には、事前に用意された複数の値に含まれるいずれかの値を前記閾値として設定する、請求項2に記載の音声処理装置。
  6. 前記複数の値は、前記第1の動作モードにおいて前記閾値として設定される値より大きい値および小さい値を含む、請求項5に記載の音声処理装置。
  7. 前記通信部は、前記第2の動作モードにおいて、前記決定部により前記第1の音声認識部により得られた音声認識結果の扱いが決定される前に、前記音声データを前記外部装置に送信する、請求項3に記載の音声処理装置。
  8. 前記決定部は、前記第2の動作モードにおいて、前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下であることに基づき、前記第2の音声認識部により得られた前記音声認識に基づく情報の利用を決定する、請求項3に記載の音声処理装置。
  9. 前記決定部は、前記第1の動作モードにおいて前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下である場合、前記音声データの認識に失敗したことを示す信号を出力する、請求項2に記載の音声処理装置。
  10. 前記閾値設定部は、前記第2の動作モードにおいて、前記外部装置と前記通信部との間の通信の状況に応じて前記閾値を設定する、請求項3に記載の音声処理装置。
  11. 前記閾値設定部は、前記音声データに含まれるノイズ成分に応じて前記閾値を設定する、請求項1に記載の音声処理装置。
  12. 前記複数の動作モードは、前記第1の音声認識部、前記第2の音声認識部および第3の音声認識部により音声データの認識が行われる第3の動作モードを含み、
    前記閾値設定部は、動作モードが前記第3の動作モードである場合には、前記閾値として、動作モードが前記第1の動作モードである場合よりも高い値であって、動作モードが前記第2の動作モードである場合よりも低い値を設定する、請求項2に記載の音声処理装置。
  13. 前記決定部は、第3の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第3の音声認識部により得られた音声データの認識結果の扱いを決定し、
    前記閾値設定部は、前記第3の音声認識部により得られた認識結果の確信度との対比のための閾値を、前記第1の音声認識部により得られた認識結果との対比のための閾値とは異なる値に設定する、請求項2に記載の音声処理装置。
  14. 前記第3の音声認識部は、前記第1の音声認識部より語彙データが多い辞書データを用いて音声認識を行い、
    前記第2の音声認識部は、前記第3の音声認識部より語彙データが多い辞書データを用いて音声認識を行う、請求項12に記載の音声処理装置。
  15. 音声データの認識結果の確信度と閾値との比較に基づいて、前記音声データの認識結果の扱いを決定することと、
    前記閾値をプロセッサが動的に設定することと、
    を含む、音声処理方法。
JP2018503997A 2016-03-10 2016-11-28 音声処理装置および音声処理方法 Active JP6844608B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016046466 2016-03-10
JP2016046466 2016-03-10
PCT/JP2016/085245 WO2017154282A1 (ja) 2016-03-10 2016-11-28 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JPWO2017154282A1 true JPWO2017154282A1 (ja) 2019-01-10
JP6844608B2 JP6844608B2 (ja) 2021-03-17

Family

ID=59789200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018503997A Active JP6844608B2 (ja) 2016-03-10 2016-11-28 音声処理装置および音声処理方法

Country Status (4)

Country Link
US (1) US10636414B2 (ja)
EP (1) EP3428917B1 (ja)
JP (1) JP6844608B2 (ja)
WO (1) WO2017154282A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3511931A4 (en) * 2016-09-09 2019-08-21 Sony Corporation SPEECH PROCESSING DEVICE, INFORMATION PROCESSING DEVICE, SPEECH PROCESSING METHOD, AND INFORMATION PROCESSING METHOD
US10607606B2 (en) * 2017-06-19 2020-03-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for execution of digital assistant
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
JP7230804B2 (ja) * 2017-08-01 2023-03-01 ソニーグループ株式会社 情報処理装置、及び情報処理方法
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
JP7459791B2 (ja) * 2018-06-29 2024-04-02 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020017046A (ja) * 2018-07-25 2020-01-30 スターライト工業株式会社 管理システム
WO2020245912A1 (ja) * 2019-06-04 2020-12-10 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
CA2785081C (en) * 2009-12-31 2021-03-30 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
US9953653B2 (en) * 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
JP5658641B2 (ja) * 2011-09-15 2015-01-28 株式会社Nttドコモ 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
JP2014081441A (ja) * 2012-10-15 2014-05-08 Sharp Corp コマンド判定装置およびその制御方法、コマンド判定プログラム
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
US20150120296A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method for selecting network-based versus embedded speech processing
EP2930716B1 (en) * 2014-04-07 2018-10-31 Samsung Electronics Co., Ltd Speech recognition using electronic device and server

Also Published As

Publication number Publication date
EP3428917B1 (en) 2021-05-19
US20190027130A1 (en) 2019-01-24
EP3428917A1 (en) 2019-01-16
EP3428917A4 (en) 2019-01-16
WO2017154282A1 (ja) 2017-09-14
JP6844608B2 (ja) 2021-03-17
US10636414B2 (en) 2020-04-28

Similar Documents

Publication Publication Date Title
JP6844608B2 (ja) 音声処理装置および音声処理方法
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10089974B2 (en) Speech recognition and text-to-speech learning system
US9275638B2 (en) Method and apparatus for training a voice recognition model database
CN105190746B (zh) 用于检测目标关键词的方法和设备
WO2018047421A1 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US11367443B2 (en) Electronic device and method for controlling electronic device
CN105580071B (zh) 用于训练声音识别模型数据库的方法和装置
JP2019133182A (ja) 音声制御装置、音声制御方法、コンピュータプログラム及び記録媒体
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
CN108055617A (zh) 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN110830368A (zh) 即时通讯消息发送方法及电子设备
WO2019239659A1 (ja) 情報処理装置および情報処理方法
US20200402498A1 (en) Information processing apparatus, information processing method, and program
JP2021113835A (ja) 音声処理装置および音声処理方法
US11940896B2 (en) Information processing device, information processing method, and program
WO2019187543A1 (ja) 情報処理装置および情報処理方法
KR101611224B1 (ko) 오디오 인터페이스
JP2016014897A (ja) 音声対話支援装置、方法、およびプログラム
JP2009020352A (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R151 Written notification of patent or utility model registration

Ref document number: 6844608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151