JPWO2017061023A1 - 音声信号処理方法および装置 - Google Patents
音声信号処理方法および装置 Download PDFInfo
- Publication number
- JPWO2017061023A1 JPWO2017061023A1 JP2017544147A JP2017544147A JPWO2017061023A1 JP WO2017061023 A1 JPWO2017061023 A1 JP WO2017061023A1 JP 2017544147 A JP2017544147 A JP 2017544147A JP 2017544147 A JP2017544147 A JP 2017544147A JP WO2017061023 A1 JPWO2017061023 A1 JP WO2017061023A1
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- devices
- time shift
- output
- shift amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 53
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000012545 processing Methods 0.000 claims abstract description 53
- 230000004044 response Effects 0.000 claims abstract description 3
- 238000000926 separation method Methods 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 abstract description 30
- 238000005070 sampling Methods 0.000 description 13
- 238000005314 correlation function Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
複数のデバイスごとに、異なる周波数の参照信号を出力するよう指示し、前記指示に応じて、前記複数のデバイスのスピーカから出力された各参照信号を受信し、前記複数のデバイスのスピーカから出力された各参照信号が、前記複数のデバイスのマイクに入力された音声信号を受信し、前記受信した前記スピーカから出力された各参照信号と、前記受信した音声信号とから、前記デバイスごとの時間シフト量を算出し、前記算出された時間シフト量に基づいて、前記複数のデバイスのマイクに入力された複数の音声信号を分離する。
Description
101 音声信号処理装置100の中央演算装置
102 音声信号処理装置100のメモリ
103 音声信号処理装置100の記憶媒体
104 音声信号処理装置100の通信制御装置
110 音声入出力デバイス1
111 音声入出力デバイス1(110)のマイク
112 音声入出力デバイス1(110)のスピーカ
120 音声入出力デバイス2
121 音声入出力デバイス2(120)のマイク
122 音声入出力デバイス2(120)のスピーカ
401 時間シフト量計算部
402 データ送受信部
403 信号分離部
404 分離性能評価部
405 サンプリングミスマッチ計算部
406 後段処理部
411 音声入出力デバイス1(110)におけるデータ送受信部
412 音声入出力デバイス1(110)におけるA/D変換部
413 音声入出力デバイス1(110)におけるD/A変換部
421 音声入出力デバイス2(120)におけるデータ送受信部
422 音声入出力デバイス2(120)におけるA/D変換部
423 音声入出力デバイス2(120)におけるD/A変換部
Claims (10)
- マイクとスピーカを備えるデバイスを複数含むシステムにおける音声信号処理方法であって、
前記複数のデバイスごとに、異なる周波数の参照信号を出力するよう指示し、
前記指示に応じて、前記複数のデバイスのスピーカから出力された各参照信号を受信し、
前記複数のデバイスのスピーカから出力された各参照信号が、前記複数のデバイスのマイクに入力された音声信号を受信し、
前記受信した前記スピーカから出力された各参照信号と、前記受信した音声信号とから、前記デバイスごとの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、前記複数のデバイスのマイクに入力された複数の音声信号を分離し、
前記分離した音声信号を出力することを特徴とする音声信号処理方法。 - 前記分離された音声信号から、前記音声信号の分離性能を評価し、
前記評価された分離性能が閾値を超えている場合、前記分離された音声信号と、前記複数のデバイスのスピーカから出力された音声信号から、前記音声信号どうしの時間シフト量を算出し、
前記算出された時間シフト量に基づいて、前記各音声信号の分離を行うことを特徴とする請求項1記載の音声信号処理方法。 - 前記分離された音声信号から、音声信号の分離性能を評価し、
前記評価された分離性能が閾値以下の場合、前記複数のデバイスに、それぞれ異なる周波数の参照信号を出力するよう再度指示することを特徴とする請求項1記載の音声信号処理方法。 - 前記音声信号の分離性能は、前記分離された音声信号間の類似度あるいは相関係数を用いて評価することを特徴とする請求項2記載の音声信号処理方法。
- 前記参照信号は、非可聴域の信号であることを特徴とする請求項1記載の音声信号処理方法。
- 前記参照信号は、前記複数のデバイスのスピーカから所定間隔で出力され、
前記参照信号が前記スピーカから出力されたときに、前記デバイスごとの時間シフト量を算出することを特徴とする請求項5記載の音声信号処理方法。 - マイクとスピーカを含む複数のデバイスと接続される音声信号処理装置であって、
前記複数のデバイスに対して、それぞれ異なる周波数の参照信号を送信するとともに、前記複数のデバイスのスピーカが出力した各参照信号と、前記参照信号が前記複数のデバイスのマイクに入力された音声信号を受信するデータ送受信部と、
前記出力された参照信号と、前記入力された音声信号に基づいて、前記デバイスごとの時間シフト量を算出する時間シフト量計算部と、
前記算出された時間シフト量をもとに、前記複数のデバイスのマイクに入力された複数の音声信号を分離する信号分離部とを備え、
前記データ送受信部は、前記分離された音声信号を前記複数のデバイスに送信することを特徴とする音声信号処理装置。 - 前記参照信号は、非可聴域の信号であることを特徴とする請求項7記載の音声信号処理装置。
- 前記時間シフト量計算部は、前記出力された参照信号と、前記入力された音声信号に基づいて、前記デバイスごとの時間シフト量を所定の間隔で算出することを特徴とする請求項8記載の音声信号処理装置。
- マイクとスピーカを含むデバイスを複数備えるシステムにおける音声信号処理方法であって、
前記デバイスに含まれるマイクとスピーカは非同期であり、
前記複数のマイクは非同期であり、
前記スピーカから出力される参照信号に基づいて、前記マイクとスピーカの時間シフト量を計算し、
前記計算結果に基づいて、前記マイクに入力された音声信号を分離することを特徴とする音声信号処理方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/078708 WO2017061023A1 (ja) | 2015-10-09 | 2015-10-09 | 音声信号処理方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017061023A1 true JPWO2017061023A1 (ja) | 2018-07-19 |
JP6646677B2 JP6646677B2 (ja) | 2020-02-14 |
Family
ID=58488262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017544147A Active JP6646677B2 (ja) | 2015-10-09 | 2015-10-09 | 音声信号処理方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10629222B2 (ja) |
JP (1) | JP6646677B2 (ja) |
WO (1) | WO2017061023A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572721B2 (en) * | 2010-08-09 | 2020-02-25 | Nike, Inc. | Monitoring fitness using a mobile device |
CN111383655B (zh) * | 2018-12-29 | 2023-08-04 | 嘉楠明芯(北京)科技有限公司 | 一种波束形成方法、装置及计算机可读存储介质 |
US11235235B2 (en) * | 2019-10-01 | 2022-02-01 | Sony Interactive Entertainment Inc. | Synchronization and offset of VSYNC between gaming devices |
US11539960B2 (en) | 2019-10-01 | 2022-12-27 | Sony Interactive Entertainment Inc. | Game application providing scene change hint for encoding at a cloud gaming server |
US11524230B2 (en) | 2019-10-01 | 2022-12-13 | Sony Interactive Entertainment Inc. | Encoder tuning to improve tradeoffs between latency and video quality in cloud gaming applications |
US11420118B2 (en) | 2019-10-01 | 2022-08-23 | Sony Interactive Entertainment Inc. | Overlapping encode and transmit at the server |
US11458391B2 (en) | 2019-10-01 | 2022-10-04 | Sony Interactive Entertainment Inc. | System and method for improving smoothness in cloud gaming applications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013524601A (ja) * | 2010-03-31 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 複数のスピーカ及びマイクロホンアレイを測定するための装置及び方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3956730B2 (ja) | 2002-03-15 | 2007-08-08 | 富士ゼロックス株式会社 | 言語処理装置 |
JP2006148880A (ja) | 2004-10-20 | 2006-06-08 | Matsushita Electric Ind Co Ltd | マルチチャネル音声再生装置、およびマルチチャネル音声調整方法 |
US20060083391A1 (en) * | 2004-10-20 | 2006-04-20 | Ikuoh Nishida | Multichannel sound reproduction apparatus and multichannel sound adjustment method |
JP2010212818A (ja) * | 2009-03-08 | 2010-09-24 | Univ Of Tokyo | 複数のマイクロフォンにより受信された多チャンネル信号の処理方法 |
JP5289517B2 (ja) | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
JP5726790B2 (ja) | 2012-03-09 | 2015-06-03 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
US9173023B2 (en) * | 2012-09-25 | 2015-10-27 | Intel Corporation | Multiple device noise reduction microphone array |
JP6253226B2 (ja) * | 2012-10-29 | 2017-12-27 | 三菱電機株式会社 | 音源分離装置 |
JP6278294B2 (ja) | 2013-03-11 | 2018-02-14 | 大学共同利用機関法人情報・システム研究機構 | 音声信号処理装置及び方法 |
-
2015
- 2015-10-09 JP JP2017544147A patent/JP6646677B2/ja active Active
- 2015-10-09 WO PCT/JP2015/078708 patent/WO2017061023A1/ja active Application Filing
- 2015-10-09 US US15/758,747 patent/US10629222B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013524601A (ja) * | 2010-03-31 | 2013-06-17 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 複数のスピーカ及びマイクロホンアレイを測定するための装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017061023A1 (ja) | 2017-04-13 |
US10629222B2 (en) | 2020-04-21 |
JP6646677B2 (ja) | 2020-02-14 |
US20190035418A1 (en) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017061023A1 (ja) | 音声信号処理方法および装置 | |
US9947338B1 (en) | Echo latency estimation | |
US10839808B2 (en) | Detection of replay attack | |
JP6670224B2 (ja) | 音声信号処理システム | |
US10650840B1 (en) | Echo latency estimation | |
US8886527B2 (en) | Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals | |
US10356518B2 (en) | First recording device, second recording device, recording system, first recording method, second recording method, first computer program product, and second computer program product | |
WO2017045512A1 (zh) | 一种语音识别的方法、装置、终端及语音识别设备 | |
KR20100021322A (ko) | 가청주파수 대역에서의 데이터 송수신 시스템 및 방법 | |
WO2021120795A1 (zh) | 采样率处理方法、装置、系统、存储介质和计算机设备 | |
US9972342B2 (en) | Terminal device and communication method for communication of speech signals | |
JP4960838B2 (ja) | 距離測定装置、距離測定方法、距離測定プログラム、および記録媒体 | |
JP6003083B2 (ja) | 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法 | |
JP2017521638A5 (ja) | ||
JP5611393B2 (ja) | 遅延時間測定装置、遅延時間測定方法及びプログラム | |
JP5251473B2 (ja) | 音声処理装置、及び、音声処理方法 | |
CN109951762B (zh) | 一种用于听力设备的源信号提取方法、系统和装置 | |
JP2009025025A (ja) | 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法 | |
JP2016119635A (ja) | 時間差算出装置及び端末装置 | |
JP2007086592A (ja) | 音声出力装置および音声出力方法 | |
JP6690200B2 (ja) | 端末装置、通信方法 | |
US12033631B1 (en) | Self-trigger prevention | |
JP6610195B2 (ja) | 端末装置、通信方法 | |
US10887697B2 (en) | Method, system and apparatus for extracting target unwanted audio signal from mixture of audio signals | |
WO2014158451A1 (en) | Method and apparatus for providing silent speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6646677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |