JPWO2019021953A1 - 音声操作装置及びその制御方法 - Google Patents
音声操作装置及びその制御方法 Download PDFInfo
- Publication number
- JPWO2019021953A1 JPWO2019021953A1 JP2019532562A JP2019532562A JPWO2019021953A1 JP WO2019021953 A1 JPWO2019021953 A1 JP WO2019021953A1 JP 2019532562 A JP2019532562 A JP 2019532562A JP 2019532562 A JP2019532562 A JP 2019532562A JP WO2019021953 A1 JPWO2019021953 A1 JP WO2019021953A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- speaker
- voice operation
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012937 correction Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/01—Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
図1は、第1実施形態に係る音声操作装置の構成を概略的に示すブロック図である。図1は、本実施形態の音声操作装置をAIスピーカーに対して適用した例を示している。本図は一例に過ぎず、本実施形態の音声操作装置は、例えば利用者による音声操作を認識可能なロボット、スマートフォン、カーナビ等に対して適用することも可能である。本実施形態の音声操作装置は、スピーカー1、マイクロフォン2、音声出力部11、音声入力部21、及び制御演算部3を備えて構成される。典型的なAIスピーカーでは、これらの構成要素はスピーカー1の筐体内に格納される。
s2=Σ{f1(t)−f0(t)}2 (1)
s2=Σ{F1(k)−F0(k)}2 (2)
図4は、第2実施形態に係る音声操作装置の構成を概略的に示すブロック図である。本実施形態の音声操作装置は、GPS装置41及び位置算出部341を備えている点が、先の第1実施形態と異なっている。その他の構成については、第1実施形態と概ね同じである。以下では、主に第1実施形態と異なる構成について説明する。
図6は、第3実施形態に係る音声操作装置の構成を概略的に示すブロック図である。本実施形態の音声操作装置は、アレイマイク42及び音声方向算出部342を備えている点が、先の第1実施形態と異なっている。その他の構成については、第1実施形態と概ね同じである。以下では、主に第1実施形態と異なる構成について説明する。
図7は、第4実施形態に係る音声操作装置の構成を概略的に示すブロック図である。本実施形態の音声操作装置は、測距センサ43及び距離算出部343を備えている点が、先の第1実施形態と異なっている。その他の構成については、第1実施形態と概ね同じである。以下では、主に第1実施形態と異なる構成について説明する。
図8は、第5実施形態に係る音声操作装置の構成を概略的に示すブロック図である。本実施形態の音声操作装置は、時計44及び時刻算出部344を備えている点が、先の第1実施形態と異なっている。その他の構成については、第1実施形態と概ね同じである。以下では、主に第1実施形態と異なる構成について説明する。
図9は、第6実施形態に係る音声操作装置の構成を概略的に示すブロック図である。本実施形態の音声操作装置は、上述の実施形態の構成を組み合わせた構成を有している。図9に示す補助情報取得装置40は、上述の実施形態のGPS装置41、アレイマイク42、測距センサ43、時計44のうちの少なくとも1つ含んでいる。また、図9に示す補助情報算出部34は、上述の実施形態の音声操作認識部32、位置算出部341、音声方向算出部342、距離算出部343、時刻算出部344のうちの、補助情報取得装置40が出力する補助情報を処理可能な構成を少なくとも含んでいる。ここで、補助情報算出部34は、補助情報取得装置40に含まれる構成としてもよい。
なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
音声情報と予め登録された利用者の声質モデルに基づいて前記利用者を音声操作の話者として識別する話者識別部と、
前記音声情報を音声認識して音声操作情報を生成する音声操作認識部と、
を備えた音声操作装置であって、
前記話者識別部は、前記音声操作情報、音声操作装置の位置情報、話者の方向情報、話者の距離情報、時刻情報のうちの少なくとも1つを補助情報として用いて話者を識別する
音声操作装置。
音声振動を前記音声情報に変換するマイクロフォンと、
前記利用者の前記声質モデルが予め登録された登録利用者情報と、
を更に備える
付記1に記載の音声操作装置。
前記登録利用者情報は前記利用者ごとに複数の前記声質モデルを有し、
前記話者識別部は前記補助情報に応じて前記声質モデルを選択する
付記2に記載の音声操作装置。
前記話者識別部は、前記補助情報に応じて前記利用者ごとのデータベースである前記声質モデルを選択する
付記3に記載の音声操作装置。
前記話者識別部は、前記音声情報と前記声質モデルの類似度を算出し、前記類似度に基づいて話者を識別する
付記2から4のいずれか1項に記載の音声操作装置。
前記話者識別部は、前記類似度が最も大きい前記利用者を音声操作の話者として識別する
付記5に記載の音声操作装置。
前記登録利用者情報は、前記利用者に特徴的な情報を前記補助情報と関連付けて有し、
前記話者識別部は前記補助情報に応じて前記類似度を補正する
付記5又は6に記載の音声操作装置。
前記登録利用者情報は前記類似度の補正値を前記利用者ごとに有し、
前記話者識別部は話者を識別した結果を前記補正値に反映させて、前記補助情報と前記補正値との相関性を学習する
付記5から7のいずれか1項に記載の音声操作装置。
前記登録利用者情報は前記利用者に特徴的なキーワードを含み、
前記話者識別部は前記音声操作情報に含まれる前記キーワードに応じて前記類似度を補正する
付記5から8のいずれか1項に記載の音声操作装置。
前記マイクロフォンは、音声操作の話者の方向を前記方向情報として取得するアレイマイクであり、
前記話者識別部は前記方向情報を用いて話者を識別する
付記2から9のいずれか1項に記載の音声操作装置。
前記音声操作の話者までの距離を前記距離情報として取得する測距センサを更に備え、
前記話者識別部は前記距離情報を用いて話者を識別する
付記2から10のいずれか1項に記載の音声操作装置。
前記音声操作の発声時刻を前記時刻情報として取得する時計を更に備え、
前記話者識別部は前記時刻情報を用いて話者を識別する
付記2から11のいずれか1項に記載の音声操作装置。
音声操作装置の位置を前記位置情報として取得するGPS装置を更に備え、
前記話者識別部は前記位置情報に応じて前記声質モデルを選択する
付記2から12のいずれか1項に記載の音声操作装置。
前記登録利用者情報は前記利用者のスケジュール情報を更に含み
前記話者識別部は前記スケジュール情報を更に用いて話者を識別する
付記2から13のいずれか1項に記載の音声操作装置。
前記登録利用者情報は前記利用者の好みに合わせた情報を前記利用者ごとに有し、
前記音声操作情報に対応する操作処理を前記利用者の好みに合わせて実行する制御演算部と、
実行結果を音声により通知するスピーカーと、
を更に有する
付記2から14のいずれか1項に記載の音声操作装置。
音声情報と予め登録された利用者の声質モデルに基づいて前記利用者を音声操作の話者として識別する話者識別部と、
前記音声情報を音声認識して音声操作情報を生成する音声操作認識部と、
を備えた音声操作装置の制御方法であって、
前記話者識別部は、前記音声操作情報、音声操作装置の位置情報、話者の方向情報、話者の距離情報、時刻情報のうちの少なくとも1つを補助情報として用いて話者を識別するステップを有する
音声操作装置の制御方法。
2 :マイクロフォン
3 :制御演算部
11 :音声出力部
21 :音声入力部
31 :音声操作応答部
32 :音声操作認識部
33 :話者識別部
34 :補助情報算出部
35 :無線通信部
40 :補助情報取得装置
41 :GPS装置
42 :アレイマイク
43 :測距センサ
44 :時計
61 :利用者
62 :利用者
330 :登録利用者情報
331 :声質モデル
341 :位置算出部
342 :音声方向算出部
343 :距離算出部
344 :時刻算出部
Claims (16)
- 音声情報と予め登録された利用者の声質モデルに基づいて前記利用者を音声操作の話者として識別する話者識別部と、
前記音声情報を音声認識して音声操作情報を生成する音声操作認識部と、
を備えた音声操作装置であって、
前記話者識別部は、前記音声操作情報、音声操作装置の位置情報、話者の方向情報、話者の距離情報、時刻情報のうちの少なくとも1つを補助情報として用いて話者を識別する
音声操作装置。 - 音声振動を前記音声情報に変換するマイクロフォンと、
前記利用者の前記声質モデルが予め登録された登録利用者情報と、
を更に備える
請求項1に記載の音声操作装置。 - 前記登録利用者情報は前記利用者ごとに複数の前記声質モデルを有し、
前記話者識別部は前記補助情報に応じて前記声質モデルを選択する
請求項2に記載の音声操作装置。 - 前記話者識別部は、前記補助情報に応じて前記利用者ごとのデータベースである前記声質モデルを選択する
請求項3に記載の音声操作装置。 - 前記話者識別部は、前記音声情報と前記声質モデルの類似度を算出し、前記類似度に基づいて話者を識別する
請求項2から4のいずれか1項に記載の音声操作装置。 - 前記話者識別部は、前記類似度が最も大きい前記利用者を音声操作の話者として識別する
請求項5に記載の音声操作装置。 - 前記登録利用者情報は、前記利用者に特徴的な情報を前記補助情報と関連付けて有し、
前記話者識別部は前記補助情報に応じて前記類似度を補正する
請求項5又は6に記載の音声操作装置。 - 前記登録利用者情報は前記類似度の補正値を前記利用者ごとに有し、
前記話者識別部は話者を識別した結果を前記補正値に反映させて、前記補助情報と前記補正値との相関性を学習する
請求項5から7のいずれか1項に記載の音声操作装置。 - 前記登録利用者情報は前記利用者に特徴的なキーワードを含み、
前記話者識別部は前記音声操作情報に含まれる前記キーワードに応じて前記類似度を補正する
請求項5から8のいずれか1項に記載の音声操作装置。 - 前記マイクロフォンは、音声操作の話者の方向を前記方向情報として取得するアレイマイクであり、
前記話者識別部は前記方向情報を用いて話者を識別する
請求項2から9のいずれか1項に記載の音声操作装置。 - 前記音声操作の話者までの距離を前記距離情報として取得する測距センサを更に備え、
前記話者識別部は前記距離情報を用いて話者を識別する
請求項2から10のいずれか1項に記載の音声操作装置。 - 前記音声操作の発声時刻を前記時刻情報として取得する時計を更に備え、
前記話者識別部は前記時刻情報を用いて話者を識別する
請求項2から11のいずれか1項に記載の音声操作装置。 - 音声操作装置の位置を前記位置情報として取得するGPS装置を更に備え、
前記話者識別部は前記位置情報に応じて前記声質モデルを選択する
請求項2から12のいずれか1項に記載の音声操作装置。 - 前記登録利用者情報は前記利用者のスケジュール情報を更に含み
前記話者識別部は前記スケジュール情報を更に用いて話者を識別する
請求項2から13のいずれか1項に記載の音声操作装置。 - 前記登録利用者情報は前記利用者の好みに合わせた情報を前記利用者ごとに有し、
前記音声操作情報に対応する操作処理を前記利用者の好みに合わせて実行する制御演算部と、
実行結果を音声により通知するスピーカーと、
を更に有する
請求項2から14のいずれか1項に記載の音声操作装置。 - 音声情報と予め登録された利用者の声質モデルに基づいて前記利用者を音声操作の話者として識別する話者識別部と、
前記音声情報を音声認識して音声操作情報を生成する音声操作認識部と、
を備えた音声操作装置の制御方法であって、
前記話者識別部は、前記音声操作情報、音声操作装置の位置情報、話者の方向情報、話者の距離情報、時刻情報のうちの少なくとも1つを補助情報として用いて話者を識別するステップを有する
音声操作装置の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021127871A JP7314975B2 (ja) | 2017-07-26 | 2021-08-04 | 音声操作装置及びその制御方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017144336 | 2017-07-26 | ||
JP2017144336 | 2017-07-26 | ||
PCT/JP2018/027239 WO2019021953A1 (ja) | 2017-07-26 | 2018-07-20 | 音声操作装置及びその制御方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127871A Division JP7314975B2 (ja) | 2017-07-26 | 2021-08-04 | 音声操作装置及びその制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019021953A1 true JPWO2019021953A1 (ja) | 2020-04-16 |
JP6927308B2 JP6927308B2 (ja) | 2021-08-25 |
Family
ID=65040714
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019532562A Active JP6927308B2 (ja) | 2017-07-26 | 2018-07-20 | 音声操作装置及びその制御方法 |
JP2021127871A Active JP7314975B2 (ja) | 2017-07-26 | 2021-08-04 | 音声操作装置及びその制御方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021127871A Active JP7314975B2 (ja) | 2017-07-26 | 2021-08-04 | 音声操作装置及びその制御方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11961534B2 (ja) |
EP (1) | EP3660842A4 (ja) |
JP (2) | JP6927308B2 (ja) |
WO (1) | WO2019021953A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023549794A (ja) * | 2020-12-25 | 2023-11-29 | 日本電気株式会社 | 話者識別装置、方法およびプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327586A (ja) * | 1998-05-15 | 1999-11-26 | Nec Corp | 話者照合装置、方法及び記憶媒体 |
JP2000250593A (ja) * | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | 話者認識装置及び方法 |
JP2004350226A (ja) * | 2003-05-26 | 2004-12-09 | Sharp Corp | 移動電話機 |
JP2005078072A (ja) * | 2003-09-03 | 2005-03-24 | Samsung Electronics Co Ltd | 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法 |
JP2009265567A (ja) * | 2008-04-30 | 2009-11-12 | Sony Corp | 音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置 |
JP2013029690A (ja) * | 2011-07-28 | 2013-02-07 | Toshiba Corp | 話者分類装置、話者分類方法および話者分類プログラム |
WO2016073321A1 (en) * | 2014-11-03 | 2016-05-12 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10301755A (ja) | 1997-04-28 | 1998-11-13 | Matsushita Electric Ind Co Ltd | 操作誘導装置 |
US7266189B1 (en) * | 2003-01-27 | 2007-09-04 | Cisco Technology, Inc. | Who said that? teleconference speaker identification apparatus and method |
US8086461B2 (en) * | 2007-06-13 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | System and method for tracking persons of interest via voiceprint |
US8315366B2 (en) * | 2008-07-22 | 2012-11-20 | Shoretel, Inc. | Speaker identification and representation for a phone |
KR101041039B1 (ko) | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
JP5229124B2 (ja) | 2009-06-12 | 2013-07-03 | 日本電気株式会社 | 話者照合装置、話者照合方法およびプログラム |
US20150138333A1 (en) * | 2012-02-28 | 2015-05-21 | Google Inc. | Agent Interfaces for Interactive Electronics that Support Social Cues |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
US9721586B1 (en) * | 2013-03-14 | 2017-08-01 | Amazon Technologies, Inc. | Voice controlled assistant with light indicator |
JP2015040903A (ja) * | 2013-08-20 | 2015-03-02 | ソニー株式会社 | 音声処理装置、音声処理方法、及び、プログラム |
US9847082B2 (en) * | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
US20150255068A1 (en) * | 2014-03-10 | 2015-09-10 | Microsoft Corporation | Speaker recognition including proactive voice model retrieval and sharing features |
US20160072915A1 (en) * | 2014-09-09 | 2016-03-10 | Sophatar, Inc. | System and method to provide interactive, user-customized content to touch-free terminals |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9721566B2 (en) * | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10283142B1 (en) * | 2015-07-22 | 2019-05-07 | Educational Testing Service | Processor-implemented systems and methods for determining sound quality |
JP2017090613A (ja) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
JP6616182B2 (ja) | 2015-12-25 | 2019-12-04 | 綜合警備保障株式会社 | 話者認識装置、判別値生成方法及びプログラム |
US10152969B2 (en) * | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10418033B1 (en) * | 2017-06-01 | 2019-09-17 | Amazon Technologies, Inc. | Configurable output data formats |
JP2017144336A (ja) | 2017-06-06 | 2017-08-24 | 株式会社三洋物産 | 遊技機 |
-
2018
- 2018-07-20 WO PCT/JP2018/027239 patent/WO2019021953A1/ja unknown
- 2018-07-20 JP JP2019532562A patent/JP6927308B2/ja active Active
- 2018-07-20 US US16/633,792 patent/US11961534B2/en active Active
- 2018-07-20 EP EP18838381.4A patent/EP3660842A4/en not_active Withdrawn
-
2021
- 2021-08-04 JP JP2021127871A patent/JP7314975B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11327586A (ja) * | 1998-05-15 | 1999-11-26 | Nec Corp | 話者照合装置、方法及び記憶媒体 |
JP2000250593A (ja) * | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | 話者認識装置及び方法 |
JP2004350226A (ja) * | 2003-05-26 | 2004-12-09 | Sharp Corp | 移動電話機 |
JP2005078072A (ja) * | 2003-09-03 | 2005-03-24 | Samsung Electronics Co Ltd | 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法 |
JP2009265567A (ja) * | 2008-04-30 | 2009-11-12 | Sony Corp | 音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置 |
JP2013029690A (ja) * | 2011-07-28 | 2013-02-07 | Toshiba Corp | 話者分類装置、話者分類方法および話者分類プログラム |
WO2016073321A1 (en) * | 2014-11-03 | 2016-05-12 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
Non-Patent Citations (1)
Title |
---|
荒木章子 他, 日本音響学会2008年 春季研究発表会講演論文集CD-ROM, JPN6020041489, 10 March 2008 (2008-03-10), pages 1 - 4, ISSN: 0004379205 * |
Also Published As
Publication number | Publication date |
---|---|
JP7314975B2 (ja) | 2023-07-26 |
US11961534B2 (en) | 2024-04-16 |
JP6927308B2 (ja) | 2021-08-25 |
US20200202886A1 (en) | 2020-06-25 |
WO2019021953A1 (ja) | 2019-01-31 |
EP3660842A1 (en) | 2020-06-03 |
EP3660842A4 (en) | 2020-09-02 |
JP2021184282A (ja) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
JP6118838B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム | |
US10147439B1 (en) | Volume adjustment for listening environment | |
JP5724125B2 (ja) | 音源定位装置 | |
US10685652B1 (en) | Determining device groups | |
EP2801091B1 (en) | Method, apparatus and computer program product for joint use of speech and text-based features for sentiment detection | |
JP6129134B2 (ja) | 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム | |
JP5613335B2 (ja) | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 | |
JP2016536626A (ja) | 多方向の復号をする音声認識 | |
JP2005244968A (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
CN105580071B (zh) | 用于训练声音识别模型数据库的方法和装置 | |
US9460714B2 (en) | Speech processing apparatus and method | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
JP2019095551A (ja) | 生成装置、生成方法、および生成プログラム | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
Cho et al. | Sound source localization for robot auditory systems | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP7314975B2 (ja) | 音声操作装置及びその制御方法 | |
US20200388268A1 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
KR102365757B1 (ko) | 인식 장치, 인식 방법 및 협업 처리 장치 | |
JP2019015950A (ja) | 音声認識方法、プログラム、音声認識装置、及びロボット | |
KR20140035164A (ko) | 음성인식시스템의 동작방법 | |
JP2018132623A (ja) | 音声対話装置 | |
KR20180124226A (ko) | 음성인식 작동 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6927308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |