JPWO2017154282A1 - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JPWO2017154282A1 JPWO2017154282A1 JP2018503997A JP2018503997A JPWO2017154282A1 JP WO2017154282 A1 JPWO2017154282 A1 JP WO2017154282A1 JP 2018503997 A JP2018503997 A JP 2018503997A JP 2018503997 A JP2018503997 A JP 2018503997A JP WO2017154282 A1 JPWO2017154282 A1 JP WO2017154282A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- operation mode
- threshold
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 150
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000004891 communication Methods 0.000 claims description 66
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 description 19
- 230000004048 modification Effects 0.000 description 17
- 238000012986 modification Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000004043 responsiveness Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
1.第1の実施形態
1−1.音声処理システムの概要
1−2.構成
1−3.動作
1−4.変形例
2.第2の実施形態
2−1.構成
2−2.動作
3.ハードウェア構成
4.むすび
まず、本開示の第1の実施形態を説明する。本開示の第1の実施形態は、ユーザが発した音声を機械的に認識する音声処理システムに関する。音声処理システムは、ユーザが発した音声の認識結果に基づき、多様な処理を行い得る。以下、図1を参照し、本開示の第1の実施形態による音声処理システムの概要を説明する。
図1は、本開示の第1の実施形態による音声処理システムを示す説明図である。図1に示したように、第1の実施形態による音声処理システムは、音声処理装置20と、サーバ30と、を有する。音声処理装置20とサーバ30は、通信網12を介して接続される。
ここで、音声処理装置20が行う音声認識の概要を説明する。音声処理装置20は、音声データの信号波形から、発話内容の単語列を推定する。この単語列の推定は、下記数式1のように、音響モデルおよび言語モデルを用いて定式化される。なお、数式1においてXは音響特徴量の系列であり、lは単語系列であり、単語系列lは音声認識が利用する辞書データ内の語彙によって構成される。辞書データ内の語彙が多いほど、より多くの音声を正式に認識することが可能となるが、探索のための処理量が増加する。
音声処理装置20は、語彙内の音声の認識結果を利用して処理を行い、語彙外の音声の認識結果を棄却し得る。また、ハイブリッドモードにおいては、音声処理装置20の辞書データでは語彙外の音声が、サーバ30の辞書データでは語彙内の音声であることが想定される。このため、音声処理装置20は、音声処理装置20の辞書データでは語彙外の音声の認識結果を棄却しつつ、サーバ30から受信される認識結果を利用し得る。
図4は、本開示の第1の実施形態による音声処理装置20およびサーバ30の構成を示す機能ブロック図である。
図4に示したように、サーバ30は、音声認識部324および通信部340を備える。通信部340は、音声処理装置20とのインタフェースであり、音声処理装置20から音声データを受信し、音声認識部324による音声データの認識結果を音声処理装置20に送信する。
音声処理装置20は、図4に示したように、収音部220と、音声認識部224と、確信度計算部228と、決定部232と、動作モード制御部236と、通信部240と、閾値設定部244と、を備える。
以上、第1の実施形態による音声処理装置20およびサーバ30の構成を説明した。続いて、図6を参照し、第1の実施形態による音声処理装置20の動作を整理する。
以上、本開示の第1の実施形態を説明した。以下では、本開示の第1の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で第1の実施形態に適用されてもよいし、組み合わせで第1の実施形態に適用されてもよい。また、各変形例は、第1の実施形態で説明した構成に代えて適用されてもよいし、第1の実施形態で説明した構成に対して追加的に適用されてもよい。
上記では、ハイブリッドモードでは閾値Rcが設定される例を説明したが、ハイブリッドモードにおいても閾値は動的に設定されてもよい。例えば、閾値設定部244は、製造時に開発者によりプリセットされる設定、またはユーザにより初期、包括的または音声認識の度に指定される設定に基づいて、ハイブリッドモードにおける閾値を設定してもよい。以下、図7を参照して当該第1の変形例について具体的に説明する。
また、閾値設定部244は、音声処理装置20とサーバ30との間の通信の状況に応じて、ハイブリッドモードにおける閾値を設定してもよい。例えば、音声処理装置20とサーバ30との間の通信の状況が悪いほど、サーバ30からサーバ認識結果が得られるタイミングが遅くなり得る。このため、ローカル認識結果が棄却された場合、応答までの遅延も大きくなる。そこで、応答速度の観点からは、音声処理装置20とサーバ30との間の通信の状況が所定の基準を下回る場合にはローカル認識結果が積極的に採用されることが望まれる。以下、図8を参照し、上記概念に沿った第2の変形例による動作を説明する。
次に、第3の変形例を説明する。第1の変形例および第2の変形例では、ハイブリッドモードにおいて閾値が動的に設定され得ることを説明した。第3の変形例は、ローカルモードにおいても閾値を動的に設定するための構成に関する。
以上、本開示の第1の実施形態を説明した。続いて、本開示の第2の実施形態を説明する。本開示の第2の実施形態は、音声認識をより多くの装置で行うシステムの提案に関する。
図9は、第2の実施形態による音声処理システムの構成を示す説明図である。図9に示したように、第2の実施形態による音声処理システムは、音声処理装置22と、サーバ30と、ユーザ装置40と、を備える。
図9に示したように、ユーザ装置40は、音声認識部424、確信度計算部428および通信部440を備える。通信部440は、音声処理装置22とのインタフェースであり、音声処理装置22から音声データを受信し、音声認識部424による音声データの認識結果および確信度計算部428により計算された確信度を音声処理装置22に送信する。
音声処理装置22は、図9に示したように、収音部220と、音声認識部224と、確信度計算部228と、決定部234と、動作モード制御部238と、通信部240と、閾値設定部246と、を備える。収音部220、音声認識部224および確信度計算部228の構成は第1の実施形態において説明した通りであるので、ここでの収音部220、音声認識部224および確信度計算部228の詳細な説明は省略する。
以上、第2の実施形態による音声処理システムの構成を説明した。続いて、図12を参照し、第2の実施形態の動作を整理する。
以上、本開示の実施形態を説明した。上述した音声認識および確信度の計算などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
以上説明したように、本開示の実施形態によれば、音声の認識結果の扱いを決定する際に用いられる閾値を動的に設定することが可能である。従って、本開示の実施形態によれば、ユーザの周辺環境または外部装置の利用の有無などに適した音声認識に関する処理を柔軟に実現することが可能である。
(1)
第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、
前記閾値を動的に設定する閾値設定部と、
を備える、音声処理装置。
(2)
前記閾値設定部は、前記第1の音声認識部による音声データの認識が行われる第1の動作モード、および前記第1の音声認識部および第2の音声認識部による音声データの認識が行われる第2の動作モードを含む複数の動作モードのうちで該当する動作モードに応じて閾値を設定する、前記(1)に記載の音声処理装置。
(3)
前記音声処理装置は、
前記第1の音声認識部と、
前記第1の音声認識部により得られた認識結果の確信度を計算する確信度計算部と、
前記第2の動作モードにおいて、前記第2の音声認識部を有する外部装置に前記音声データを送信し、前記外部装置から音声認識に基づく情報を受信する通信部と、
を備える、前記(2)に記載の音声処理装置。
(4)
前記閾値設定部は、動作モードが前記第2の動作モードである場合には、動作モードが前記第1の動作モードである場合よりも、前記閾値として高い値を設定する、前記(2)または(3)に記載の音声処理装置。
(5)
前記閾値設定部は、動作モードが前記第2の動作モードである場合には、事前に用意された複数の値に含まれるいずれかの値を前記閾値として設定する、前記(2)または(3)に記載の音声処理装置。
(6)
前記複数の値は、前記第1の動作モードにおいて前記閾値として設定される値より大きい値および小さい値を含む、前記(5)に記載の音声処理装置。
(7)
前記通信部は、前記第2の動作モードにおいて、前記決定部により前記第1の音声認識部により得られた音声認識結果の扱いが決定される前に、前記音声データを前記外部装置に送信する、前記(3)に記載の音声処理装置。
(8)
前記決定部は、前記第2の動作モードにおいて、前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下であることに基づき、前記第2の音声認識部により得られた前記音声認識に基づく情報の利用を決定する、前記(3)に記載の音声処理装置。
(9)
前記決定部は、前記第1の動作モードにおいて前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下である場合、前記音声データの認識に失敗したことを示す信号を出力する、前記(2)に記載の音声処理装置。
(10)
前記閾値設定部は、前記第2の動作モードにおいて、前記外部装置と前記通信部との間の通信の状況に応じて前記閾値を設定する、前記(3)に記載の音声処理装置。
(11)
前記閾値設定部は、前記音声データに含まれるノイズ成分に応じて前記閾値を設定する、前記(1)に記載の音声処理装置。
(12)
前記複数の動作モードは、前記第1の音声認識部、前記第2の音声認識部および第3の音声認識部により音声データの認識が行われる第3の動作モードを含み、
前記閾値設定部は、動作モードが前記第3の動作モードである場合には、前記閾値として、動作モードが前記第1の動作モードである場合よりも高い値であって、動作モードが前記第2の動作モードである場合よりも低い値を設定する、前記(2)に記載の音声処理装置。
(13)
前記決定部は、第3の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第3の音声認識部により得られた音声データの認識結果の扱いを決定し、
前記閾値設定部は、前記第3の音声認識部により得られた認識結果の確信度との対比のための閾値を、前記第1の音声認識部により得られた認識結果との対比のための閾値とは異なる値に設定する、前記(2)に記載の音声処理装置。
(14)
前記第3の音声認識部は、前記第1の音声認識部より語彙データが多い辞書データを用いて音声認識を行い、
前記第2の音声認識部は、前記第3の音声認識部より語彙データが多い辞書データを用いて音声認識を行う、前記(12)または(13)に記載の音声処理装置。
(15)
音声データの認識結果の確信度と閾値との比較に基づいて、前記音声データの認識結果の扱いを決定することと、
前記閾値を動的に設定することと、
を含む、音声処理方法。
30 サーバ
40 ユーザ装置
220 収音部
224 音声認識部
228 確信度計算部
232、234 決定部
236、238 動作モード制御部
240 通信部
244、246 閾値設定部
324 音声認識部
340 通信部
424 音声認識部
428 確信度計算部
440 通信部
Claims (15)
- 第1の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第1の音声認識部により得られた音声データの認識結果の扱いを決定する決定部と、
前記閾値を動的に設定する閾値設定部と、
を備える、音声処理装置。 - 前記閾値設定部は、前記第1の音声認識部による音声データの認識が行われる第1の動作モード、および前記第1の音声認識部および第2の音声認識部による音声データの認識が行われる第2の動作モードを含む複数の動作モードのうちで該当する動作モードに応じて閾値を設定する、請求項1に記載の音声処理装置。
- 前記音声処理装置は、
前記第1の音声認識部と、
前記第1の音声認識部により得られた認識結果の確信度を計算する確信度計算部と、
前記第2の動作モードにおいて、前記第2の音声認識部を有する外部装置に前記音声データを送信し、前記外部装置から音声認識に基づく情報を受信する通信部と、
を備える、請求項2に記載の音声処理装置。 - 前記閾値設定部は、動作モードが前記第2の動作モードである場合には、動作モードが前記第1の動作モードである場合よりも、前記閾値として高い値を設定する、請求項2に記載の音声処理装置。
- 前記閾値設定部は、動作モードが前記第2の動作モードである場合には、事前に用意された複数の値に含まれるいずれかの値を前記閾値として設定する、請求項2に記載の音声処理装置。
- 前記複数の値は、前記第1の動作モードにおいて前記閾値として設定される値より大きい値および小さい値を含む、請求項5に記載の音声処理装置。
- 前記通信部は、前記第2の動作モードにおいて、前記決定部により前記第1の音声認識部により得られた音声認識結果の扱いが決定される前に、前記音声データを前記外部装置に送信する、請求項3に記載の音声処理装置。
- 前記決定部は、前記第2の動作モードにおいて、前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下であることに基づき、前記第2の音声認識部により得られた前記音声認識に基づく情報の利用を決定する、請求項3に記載の音声処理装置。
- 前記決定部は、前記第1の動作モードにおいて前記第1の音声認識部によって得られた前記音声データの認識結果の確信度が前記閾値以下である場合、前記音声データの認識に失敗したことを示す信号を出力する、請求項2に記載の音声処理装置。
- 前記閾値設定部は、前記第2の動作モードにおいて、前記外部装置と前記通信部との間の通信の状況に応じて前記閾値を設定する、請求項3に記載の音声処理装置。
- 前記閾値設定部は、前記音声データに含まれるノイズ成分に応じて前記閾値を設定する、請求項1に記載の音声処理装置。
- 前記複数の動作モードは、前記第1の音声認識部、前記第2の音声認識部および第3の音声認識部により音声データの認識が行われる第3の動作モードを含み、
前記閾値設定部は、動作モードが前記第3の動作モードである場合には、前記閾値として、動作モードが前記第1の動作モードである場合よりも高い値であって、動作モードが前記第2の動作モードである場合よりも低い値を設定する、請求項2に記載の音声処理装置。 - 前記決定部は、第3の音声認識部により得られた音声データの認識結果の確信度と閾値との比較に基づいて、前記第3の音声認識部により得られた音声データの認識結果の扱いを決定し、
前記閾値設定部は、前記第3の音声認識部により得られた認識結果の確信度との対比のための閾値を、前記第1の音声認識部により得られた認識結果との対比のための閾値とは異なる値に設定する、請求項2に記載の音声処理装置。 - 前記第3の音声認識部は、前記第1の音声認識部より語彙データが多い辞書データを用いて音声認識を行い、
前記第2の音声認識部は、前記第3の音声認識部より語彙データが多い辞書データを用いて音声認識を行う、請求項12に記載の音声処理装置。 - 音声データの認識結果の確信度と閾値との比較に基づいて、前記音声データの認識結果の扱いを決定することと、
前記閾値をプロセッサが動的に設定することと、
を含む、音声処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016046466 | 2016-03-10 | ||
JP2016046466 | 2016-03-10 | ||
PCT/JP2016/085245 WO2017154282A1 (ja) | 2016-03-10 | 2016-11-28 | 音声処理装置および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017154282A1 true JPWO2017154282A1 (ja) | 2019-01-10 |
JP6844608B2 JP6844608B2 (ja) | 2021-03-17 |
Family
ID=59789200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018503997A Active JP6844608B2 (ja) | 2016-03-10 | 2016-11-28 | 音声処理装置および音声処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10636414B2 (ja) |
EP (1) | EP3428917B1 (ja) |
JP (1) | JP6844608B2 (ja) |
WO (1) | WO2017154282A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3511931A4 (en) * | 2016-09-09 | 2019-08-21 | Sony Corporation | SPEECH PROCESSING DEVICE, INFORMATION PROCESSING DEVICE, SPEECH PROCESSING METHOD, AND INFORMATION PROCESSING METHOD |
US10607606B2 (en) * | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
JP7230804B2 (ja) * | 2017-08-01 | 2023-03-01 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
US10984799B2 (en) * | 2018-03-23 | 2021-04-20 | Amazon Technologies, Inc. | Hybrid speech interface device |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
JP7459791B2 (ja) * | 2018-06-29 | 2024-04-02 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2020017046A (ja) * | 2018-07-25 | 2020-01-30 | スターライト工業株式会社 | 管理システム |
WO2020245912A1 (ja) * | 2019-06-04 | 2020-12-10 | 日本電信電話株式会社 | 音声認識制御装置、音声認識制御方法、およびプログラム |
KR20210136463A (ko) | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US7657433B1 (en) * | 2006-09-08 | 2010-02-02 | Tellme Networks, Inc. | Speech recognition accuracy with multi-confidence thresholds |
CA2785081C (en) * | 2009-12-31 | 2021-03-30 | Volt Delta Resources, Llc | Method and system for processing multiple speech recognition results from a single utterance |
US9953653B2 (en) * | 2011-01-07 | 2018-04-24 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
JP5658641B2 (ja) * | 2011-09-15 | 2015-01-28 | 株式会社Nttドコモ | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
EP2930716B1 (en) * | 2014-04-07 | 2018-10-31 | Samsung Electronics Co., Ltd | Speech recognition using electronic device and server |
-
2016
- 2016-11-28 US US16/063,052 patent/US10636414B2/en active Active
- 2016-11-28 JP JP2018503997A patent/JP6844608B2/ja active Active
- 2016-11-28 EP EP16893606.0A patent/EP3428917B1/en active Active
- 2016-11-28 WO PCT/JP2016/085245 patent/WO2017154282A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP3428917B1 (en) | 2021-05-19 |
US20190027130A1 (en) | 2019-01-24 |
EP3428917A1 (en) | 2019-01-16 |
EP3428917A4 (en) | 2019-01-16 |
WO2017154282A1 (ja) | 2017-09-14 |
JP6844608B2 (ja) | 2021-03-17 |
US10636414B2 (en) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
US9275638B2 (en) | Method and apparatus for training a voice recognition model database | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
WO2018047421A1 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
CN105580071B (zh) | 用于训练声音识别模型数据库的方法和装置 | |
JP2019133182A (ja) | 音声制御装置、音声制御方法、コンピュータプログラム及び記録媒体 | |
JP2005084253A (ja) | 音響処理装置、方法、プログラム及び記憶媒体 | |
JP2013200423A (ja) | 音声対話支援装置、方法、およびプログラム | |
JP2017535809A (ja) | サウンド検出モデルを生成するためのサウンドサンプル検証 | |
CN108055617A (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN110830368A (zh) | 即时通讯消息发送方法及电子设备 | |
WO2019239659A1 (ja) | 情報処理装置および情報処理方法 | |
US20200402498A1 (en) | Information processing apparatus, information processing method, and program | |
JP2021113835A (ja) | 音声処理装置および音声処理方法 | |
US11940896B2 (en) | Information processing device, information processing method, and program | |
WO2019187543A1 (ja) | 情報処理装置および情報処理方法 | |
KR101611224B1 (ko) | 오디오 인터페이스 | |
JP2016014897A (ja) | 音声対話支援装置、方法、およびプログラム | |
JP2009020352A (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200923 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210208 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6844608 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |