JPWO2020128552A1 - 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム - Google Patents
音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム Download PDFInfo
- Publication number
- JPWO2020128552A1 JPWO2020128552A1 JP2020560616A JP2020560616A JPWO2020128552A1 JP WO2020128552 A1 JPWO2020128552 A1 JP WO2020128552A1 JP 2020560616 A JP2020560616 A JP 2020560616A JP 2020560616 A JP2020560616 A JP 2020560616A JP WO2020128552 A1 JPWO2020128552 A1 JP WO2020128552A1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- content
- voice recognition
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000005540 biological transmission Effects 0.000 title claims description 9
- 230000008569 process Effects 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 44
- 238000012937 correction Methods 0.000 claims description 23
- 230000005236 sound signal Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 28
- 238000004364 calculation method Methods 0.000 description 15
- 230000003287 optical effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
図1において、車両100は、乗員30が聴く音楽等のコンテンツを再生するインフォテインメントシステム10を備える。インフォテインメントシステム10は、コンテンツ再生装置またはコンテンツ出力装置の一例である。車両100内には、スマートスピーカと称される音声認識装置20が配置されている。
図11において、図1と同一部分には同一符号を付し、その説明を省略する。図11において、家屋102内には、コンテンツ再生装置10Bと、音声認識装置20とが配置されている。コンテンツ配信者40は、テレビジョン放送局、ラジオ放送局、または、ストリーミングサーバである。コンテンツ配信者40はコンテンツ信号を送信する送信部である。コンテンツ配信者40は、図1に示すコンテンツ信号補正部120と同様のコンテンツ信号補正部400を備える。
図12において、図1または図11と同一部分には同一符号を付し、その説明を省略する。コンテンツ再生装置10Cは、光ディスク再生部11c、コンテンツ再生部13、音声出力部14を備える。光ディスク再生部11cはコンテンツ入力部に相当する。コンテンツ再生装置10Cは、図1と同様に車両100内に配置されているか、図11と同様に家屋102内に配置されている。図12においては、音声認識装置20の図示を省略している。
図1に示す第1実施形態において、乗員30が発した音声V30とインフォテインメントシステム10より出力された音声V14とが混在して音声入力部21に入力されることがある。図13に示す第4実施形態においては、音声認識部222に、コンテンツ入力部11より入力されたコンテンツ信号が供給されている。音声認識部222は、音声入力部21が音声V30を収音した音声信号よりコンテンツ信号を除外して音声を認識する。
10B,10C コンテンツ再生装置
11 コンテンツ入力部
11c 光ディスク再生部
12 デジタル・シグナル・プロセッサ
13 コンテンツ再生部
14 音声出力部
15,25 近距離通信部
20 音声認識装置
21 音声入力部
22 中央処理装置
23 音声発生部
24 通信部
26 記憶部
30 乗員
31 ユーザ
40 コンテンツ配信者
50 光ディスク
120,400 コンテンツ信号補正部
121,123 離散フーリエ変換部
122 対数変換部
124 畳み込み演算部
221 音声解析部
222 音声認識部
223 応答指示部
224 制御部
V14,V30,V31 音声
Claims (11)
- 音声信号が入力される音声入力部と、
前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する音声解析部と、
前記音声入力部に入力された音声信号が示す音声を認識する音声認識部と、
前記音声認識部が認識した音声に応答して動作する応答動作部に対して応答を指示する応答指示部と、
前記音声解析部によって前記音声信号に特定の特徴成分が含まれていると解析されたとき、前記音声認識部による音声認識処理を実行させないよう前記音声認識部を制御するか、あるいは、前記音声認識部が認識した音声による指示内容を前記応答動作部に指示しないよう前記応答指示部を制御する制御部と、
を備える音声認識装置。 - 前記特定の特徴成分は、前記音声信号に重畳された、所定の時間間隔で人工的な波形成分である請求項1に記載の音声認識装置。
- 音声出力部を含むコンテンツ再生装置の存在を検知する再生装置検知部をさらに有し、
前記音声解析部は、前記再生装置検知部により前記コンテンツ再生装置の存在を検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
請求項1に記載の音声認識装置。 - 音声出力部を含むコンテンツ再生装置がコンテンツを再生していることを検知する再生装置検知部をさらに有し、
前記音声解析部は、前記再生装置検知部により前記コンテンツ再生装置がコンテンツを再生していることを検知したとき、前記音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析する
請求項1に記載の音声認識装置。 - 前記音声信号は、テレビジョン放送、ラジオ放送、またはインターネット放送のコンテンツに含まれる音声信号である請求項1に記載の音声認識装置。
- プロセッサが、
音声入力部に入力された音声信号に特定の特徴成分が含まれているか否かを解析し、
前記音声信号に特定の特徴成分が含まれていないと解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行して音声を認識し、
認識した音声に応答して動作する応答動作部に対して応答を指示し、
前記音声信号に前記特定の特徴成分が含まれていると解析されたとき、前記音声入力部に入力された音声信号が示す音声の音声認識処理を実行しないよう制御するか、あるいは、音声認識処理を実行して認識した音声による指示内容を前記応答動作部に指示しないように制御する
音声認識装置の制御方法。 - 前記特定の特徴成分は、前記音声信号に重畳された、所定の時間間隔で人工的な波形成分である請求項6に記載の音声認識装置の制御方法。
- 少なくとも音声信号を含むコンテンツ信号を入力するコンテンツ入力部と、
前記コンテンツ信号を再生するコンテンツ再生部と、
前記コンテンツ信号の音声を出力する音声出力部と、
音声認識装置が、前記音声出力部より出力される音声を人が発した音声と区別するために、前記音声信号に特定の特徴成分を含ませるよう前記音声信号を補正するコンテンツ信号補正部と、
を備えるコンテンツ再生装置。 - 音声認識装置の存在を検知する音声認識装置検知部をさらに有し、
前記コンテンツ信号補正部は、前記音声認識装置検知部により前記音声認識装置が存在することを検知した場合に、前記音声信号に特定の特徴成分を含ませるよう前記音声信号を補正する
請求項8に記載のコンテンツ再生装置。 - 前記コンテンツ信号補正部は、前記音声信号の周波数のスペクトル包絡を求めて、前記スペクトル包絡に所定の時間間隔で前記特定の特徴成分として人工的な波形成分を畳み込むプロセッサである請求項8に記載のコンテンツ再生装置。
- 少なくとも人が発した音声信号を含むコンテンツ信号における前記音声信号に、特定の特徴成分を含ませるよう補正したコンテンツ信号を出力するコンテンツ出力装置と、
少なくとも前記補正したコンテンツ信号が入力され、前記コンテンツ信号に特定の特徴成分が含まれている場合に、音声認識部による音声認識処理を実行させないよう制御するか、あるいは、音声認識した音声による指示内容に応答しないよう制御する音声認識装置と、
を備えるコンテンツ送受信システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2018/001565 WO2020128552A1 (ja) | 2018-12-18 | 2018-12-18 | 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020128552A1 true JPWO2020128552A1 (ja) | 2021-11-18 |
JP7105320B2 JP7105320B2 (ja) | 2022-07-22 |
Family
ID=71101782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020560616A Active JP7105320B2 (ja) | 2018-12-18 | 2018-12-18 | 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11922953B2 (ja) |
EP (1) | EP3901946B1 (ja) |
JP (1) | JP7105320B2 (ja) |
CN (1) | CN113168834A (ja) |
WO (1) | WO2020128552A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH0423400U (ja) * | 1990-06-20 | 1992-02-26 | ||
JP2003044069A (ja) * | 2001-07-19 | 2003-02-14 | Samsung Electronics Co Ltd | 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3180936A (en) * | 1960-12-01 | 1965-04-27 | Bell Telephone Labor Inc | Apparatus for suppressing noise and distortion in communication signals |
JP2602342Y2 (ja) | 1993-09-30 | 2000-01-11 | 日本コロムビア株式会社 | オーディオ装置 |
JPH08107375A (ja) | 1994-10-06 | 1996-04-23 | Hitachi Ltd | 音響信号記録再生装置 |
JP3160499B2 (ja) | 1995-08-29 | 2001-04-25 | 松下電工株式会社 | 分電盤 |
JP3757638B2 (ja) * | 1998-09-03 | 2006-03-22 | セイコーエプソン株式会社 | 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体 |
JP4023400B2 (ja) | 2003-06-27 | 2007-12-19 | 日産自動車株式会社 | 待ち合わせ場所算出装置 |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
JP2012163692A (ja) * | 2011-02-04 | 2012-08-30 | Nec Corp | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム |
US9225307B2 (en) * | 2012-06-28 | 2015-12-29 | Sonos, Inc. | Modification of audio responsive to proximity detection |
JP2015148648A (ja) * | 2014-02-04 | 2015-08-20 | シャープ株式会社 | 対話システム、発話制御装置、対話装置、発話制御方法、発話制御装置の制御プログラム、および、対話装置の制御プログラム |
US10325591B1 (en) * | 2014-09-05 | 2019-06-18 | Amazon Technologies, Inc. | Identifying and suppressing interfering audio content |
DK179588B1 (en) * | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
CA3075249A1 (en) | 2017-09-15 | 2019-03-21 | Sony Corporation | Information processing apparatus and information processing method |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
-
2018
- 2018-12-18 US US17/414,194 patent/US11922953B2/en active Active
- 2018-12-18 WO PCT/IB2018/001565 patent/WO2020128552A1/ja unknown
- 2018-12-18 EP EP18943362.6A patent/EP3901946B1/en active Active
- 2018-12-18 CN CN201880100051.8A patent/CN113168834A/zh active Pending
- 2018-12-18 JP JP2020560616A patent/JP7105320B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JPH0423400U (ja) * | 1990-06-20 | 1992-02-26 | ||
JP2003044069A (ja) * | 2001-07-19 | 2003-02-14 | Samsung Electronics Co Ltd | 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
WO2014103099A1 (ja) * | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3901946A4 (en) | 2021-12-29 |
JP7105320B2 (ja) | 2022-07-22 |
CN113168834A (zh) | 2021-07-23 |
US20220044691A1 (en) | 2022-02-10 |
US11922953B2 (en) | 2024-03-05 |
WO2020128552A1 (ja) | 2020-06-25 |
EP3901946B1 (en) | 2023-12-27 |
EP3901946A1 (en) | 2021-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10484813B2 (en) | Systems and methods for delivery of personalized audio | |
US10856081B2 (en) | Spatially ducking audio produced through a beamforming loudspeaker array | |
JP4591557B2 (ja) | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム | |
US9648436B2 (en) | Augmented reality sound system | |
JP6572894B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20130156212A1 (en) | Method and arrangement for noise reduction | |
JP2008096483A (ja) | 音響出力制御装置、音響出力制御方法 | |
US10510361B2 (en) | Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user | |
JP2008099163A (ja) | ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法 | |
JP7436564B2 (ja) | ヘッドホン、及びヘッドホン状態の検出方法 | |
JP2008060759A (ja) | ノイズキャンセルヘッドフォンおよびそのノイズキャンセル方法 | |
JP2001100785A (ja) | Av機器用音声認識装置 | |
JP7105320B2 (ja) | 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム | |
JP2007219122A (ja) | 音響機器及びプログラム | |
JP2988358B2 (ja) | 音声合成回路 | |
US20230386495A1 (en) | Sound processing method, sound processing apparatus and sound processing system | |
KR101060546B1 (ko) | 사용자의 청력에 맞게 오디오 재생파일을 변환하는 장치 | |
KR101633682B1 (ko) | 안내방송 청취를 위한 사용자 단말의 음성 출력 제어 장치 | |
JP4985562B2 (ja) | 録音装置、方法及びプログラム | |
CN115691456A (zh) | 车载音频播放方法、装置、多媒体主机及存储介质 | |
JP4297433B2 (ja) | 音声合成方法及びその装置 | |
JP2004235979A (ja) | 音入出力装置および音入出力方法 | |
CN118741405A (zh) | 音频信号混合重放方法、装置、电子设备和存储介质 | |
CN101640544A (zh) | 信号处理装置 | |
JP2006197120A (ja) | 送信装置、受信装置及び送受信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A5211 Effective date: 20210531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210614 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7105320 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |