WO2017061023A1 - 音声信号処理方法および装置 - Google Patents

音声信号処理方法および装置 Download PDF

Info

Publication number
WO2017061023A1
WO2017061023A1 PCT/JP2015/078708 JP2015078708W WO2017061023A1 WO 2017061023 A1 WO2017061023 A1 WO 2017061023A1 JP 2015078708 W JP2015078708 W JP 2015078708W WO 2017061023 A1 WO2017061023 A1 WO 2017061023A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
devices
time shift
output
shift amount
Prior art date
Application number
PCT/JP2015/078708
Other languages
English (en)
French (fr)
Inventor
遼一 高島
洋平 川口
貴志 住吉
真人 戸上
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2017544147A priority Critical patent/JP6646677B2/ja
Priority to US15/758,747 priority patent/US10629222B2/en
Priority to PCT/JP2015/078708 priority patent/WO2017061023A1/ja
Publication of WO2017061023A1 publication Critical patent/WO2017061023A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the present invention relates to an audio signal processing method and apparatus for separating a sound in which a plurality of sound sources are mixed.
  • Patent Document 1 states that “a complex spectrum of observation signals observed with two microphones is obtained, and a phase difference between microphones of the complex spectrum of the observation signals is calculated for each time frequency. Observations observed with one microphone Observations corresponding to each sound source at each time frequency using the complex spectrum of the observed signal obtained from the signal, the phase difference between the microphones obtained by the feature generator, and the prior information representing the distribution of the complex spectrum of the sound source signal. Estimate the parameters of the stochastic model representing the distribution of the complex spectrum of the signal and the phase difference between the microphones, and obtain the contribution ratio of the observed signal of each sound source at each time frequency obtained from the estimated parameters to the phase difference between the complex spectrum and the microphone.
  • Patent Document 2 states that “A sound pressure / frequency characteristic measuring device in a speech recognition system takes in environmental noise from a microphone in a time zone in which there is no voice input, and measures a temporal change amount of the sound pressure and frequency characteristics. The speech recognition availability determination device determines whether the speech recognition is “good”, “possible”, or “impossible” based on the measured sound pressure of the environmental noise and the amount of frequency characteristic change over time. The determination result of the voice recognition availability determination device is notified to the user by the situation notification device. Technology is disclosed.
  • Patent Document 1 describes an apparatus and method for extracting sound from each sound source using sound signals recorded by a plurality of microphones as inputs. However, this method presupposes that each microphone records sound in synchronization. If the recording systems are not synchronized, the phase difference between the observation signals will change due to the difference in the recording start timing and the difference in sampling frequency, so the separation performance will be degraded. Recognition performance also decreases.
  • Patent Document 2 describes a method for determining ease of speech recognition using the sound pressure of ambient environmental noise, but does not mention a method for determining deterioration in speech recognition performance by an asynchronous recording device. .
  • An object of the present invention is to provide an audio signal processing method and apparatus for separating sounds of respective sound sources even when a sound recorded asynchronously by a plurality of devices is input.
  • the present invention provides an audio signal processing method in a system including a plurality of devices each including a microphone and a speaker, and instructs each of the plurality of devices to output a reference signal having a different frequency.
  • each reference signal output from the speakers of the plurality of devices is received, and each reference signal output from the speakers of the plurality of devices is received as an audio signal input to the microphones of the plurality of devices.
  • Receiving and calculating a time shift amount for each device from each received reference signal output from the received speaker and the received audio signal, and based on the calculated time shift amount A configuration is employed in which a plurality of audio signals input to the microphone of the device are separated and the separated audio signals are output.
  • FIG. 1 is a configuration diagram of an audio signal processing apparatus and an audio input / output device according to an embodiment of the present invention. It is a block diagram which makes an audio
  • S502 time shift amount calculation processing
  • FIG. 1 shows a configuration diagram of a sound source separation system in the present embodiment.
  • the voice separation system according to the present embodiment has a configuration in which two voice input / output devices 110 and 120 and a signal processing apparatus 100 that performs sound source separation communicate wirelessly.
  • Each voice input / output device includes a microphone (111 and 121), a speaker (112 and 122), an A / D converter (113 and 123), a D / A converter (114 and 124), and a central processing unit. It comprises a device (115 and 125), a memory (116 and 126), a storage medium (117 and 127), and a communication control device (118 and 128). Examples of devices having such a configuration include mobile terminals such as smartphones and tablet PCs.
  • the signal processing device 100 includes a central processing unit 101, a memory 102, a storage medium 103, and a communication control device 104.
  • the D / A converter (112 and 122) converts the digital signal into an analog signal, and then the sound is output from the speaker (112 and 122).
  • the microphones (111 and 121) record ambient sounds, and the analog signals recorded by the A / D converters (113 and 123) are converted into digital signals.
  • the central processing unit (115 and 125) stores the digital signal output from the speaker and the digital signal input to the microphone in the memory (116 and 126).
  • the communication control devices (118 and 128) transmit the speaker output signal and the microphone input signal stored in the memory to the communication control device 104 on the signal processing device 100 side.
  • the central processing unit 101 of the signal processing apparatus 100 stores the signal received from the device (110 or 120) in the memory 102, and then performs sound source separation processing.
  • the central processing unit 101 has a function of transmitting a reference signal to the communication control devices (118 and 128) of each device through the communication control device 104 as processing necessary for sound source separation.
  • the devices 110 and 120 and the signal processing apparatus 100 communicate with each other wirelessly.
  • the configuration in which one or both of the sound source separation processes is performed may be used. Good.
  • the central processing unit (205 and / or 215) in one or both devices has a function of performing sound source separation processing.
  • FIG. 3 a configuration in which the signal processing apparatus 300 has a voice input / output function without using an independent device (that is, a configuration in which the devices 110 and 120 and the signal processing apparatus 100 in FIG. 1 are integrated). ) Is also possible.
  • the configuration in FIG. 1 will be described as an example.
  • FIG. 4 is a functional block diagram of the signal processing apparatus 100 and the voice input / output devices 110 and 120 according to the present embodiment.
  • the data transmitter / receiver (411 and 421) receives the reference signal and the speaker output signal from the data transmitter / receiver 402 on the signal processing device 100 side, and the D / A converter (413 and 423). ) Through the speaker (112 and 122). At the same time, the ambient sound recorded by the microphones (111 and 121) is converted into a digital signal by the A / D converter (412 and 422), and then the data transmission / reception on the signal processing device 100 side is performed by the data transmitter / receiver (411 and 421). To the unit 402.
  • the time shift amount calculation unit 401 in the signal processing apparatus 100 transmits and receives a reference signal to calculate the time shift amount between the microphone input signals of each device and the time shift amount between the microphone input and the speaker output for each device. Output from the speaker (112, 122) through the unit (402, 411, 421) and the D / A converter (412, 423) of each device. At this time, the time shift amount calculation unit 401 receives the microphone input and speaker output signals of each device through the data transmission / reception units (402, 411, 421), and calculates the time shift amount.
  • the signal separation unit 403 performs signal separation and echo removal using the microphone input and speaker output input from the data transmission / reception unit 402 and the time shift amount calculated by the time shift amount calculation unit 401 as inputs.
  • the echo refers to the sound that is output from the speaker and recorded around the microphone.
  • the signal separation unit 403 outputs the separated signal, the microphone input, and the speaker output to the separation performance evaluation unit 404.
  • the separation performance evaluation unit 404 receives the separated signal transmitted from the signal separation unit 403 as input and evaluates the separation performance. At this time, if the separation performance is equal to or less than the threshold value, the time shift amount calculation unit 401 performs the time shift amount calculation process again by transmitting a time shift amount calculation mode switching instruction to the time shift amount calculation unit 401.
  • the sampling mismatch calculation unit 405 receives the microphone input, the post-separation signal, and the speaker output transmitted from the separation performance evaluation unit 404 as inputs, sequentially calculates the amount of time shift caused by the sampling frequency error, and feeds back to the signal separation unit 403 To do.
  • the sampling mismatch calculation unit 405 outputs the separated signal to the post-processing unit 406, and the post-processing unit 406 performs some processing using the received post-separation signal and outputs some sound as a result of the processing to the data transmitting / receiving unit.
  • FIG. 5 is a process flowchart of the signal processing apparatus 100 of the present embodiment.
  • the time shift amount calculation unit 401 first calculates the time shift amount between the microphone input signals of each device and the time shift amount between the microphone input and the speaker output for each device (S502). . Thereafter, each device continuously performs voice input / output, and continues to transmit a microphone input and a speaker output to the signal processing apparatus 100 each time (S503).
  • the signal separation unit 403 performs sound source separation and echo removal on the microphone input signal (S504).
  • the separation performance evaluation unit 404 evaluates the separation performance for the separated signal (S505).
  • the separation performance is equal to or less than the threshold (S506: Yes)
  • the sampling mismatch calculation unit 405 sequentially calculates the time shift amount due to the sampling frequency error of each device (S507).
  • subsequent processing such as voice recognition is performed, and output to the speaker is performed as necessary (S508). Sound source separation from microphone input, speaker output, separation performance evaluation, sampling mismatch calculation, and subsequent processing (S503 to S508) are repeatedly performed.
  • FIG. 6 is a processing flow illustrating in detail the time shift amount calculation processing (S502) in FIG.
  • the time shift amount calculation unit 401 outputs reference signals from the speakers 112 and 122 through the data transmission / reception units 402, 411, and 421 (S602).
  • each device transmits the speaker output signal and the microphone input signal in the time zone in which the reference signal is output to the time shift amount calculation unit 401 through the data transmission / reception units 411, 421, and 402 (S603).
  • the time shift amount calculation unit 401 calculates the time shift amount between the microphone inputs of each device and the time shift amount between the microphone input and the speaker output for each device (S604).
  • FIG. 7 is an example of the reference signal output from each device and the microphone input signal of each device when the reference signal is output.
  • a / D conversion and D / A conversion are moving in synchronism for each device, a reference signal is observed at the same timing in the speaker output signal and the microphone input signal.
  • a / D conversion and D / A conversion are not synchronized, there is a time shift due to processing delay in the device between the speaker output and the microphone input for each device.
  • the microphone input signal for each device has a time shift due to the different recording start timing (see FIG. 7).
  • time shift amount calculation process (S502 in FIG. 5), these time shift amounts are calculated.
  • a method for this it is possible to calculate a cross-correlation function between corresponding reference signals and calculate a time shift amount between signals using a time when the cross-correlation coefficient reaches a peak.
  • a cross-correlation function between reference signals that are not supported is calculated, and an erroneous time shift amount is calculated.
  • reference signals are output in the order of device 1 and device 2, and each reference signal is recorded by a microphone of each device. At this time, of the two reference signals recorded by the microphone, the signal recorded first should correspond to the reference signal of the device 1, and the signal recorded later should correspond to the reference signal of the device 2. However, when the reference signal output interval for each device is short and the reference signals overlap, the cross-correlation function between the reference signals that are not supported may be calculated, and the time shift amount may not be calculated. .
  • a reference signal having a unique frequency band is output for each device. By calculating the cross-correlation function by focusing on the frequency band set for each device, the cross-correlation function between the reference signals that do not correspond to each other becomes a low value, so that the time shift amount can be calculated stably.
  • an audible reference signal is output.
  • a time shift amount can be calculated at any time in parallel with the sound separation process by outputting a sound in a non-audible range such as an ultrasonic wave at a predetermined interval (or always) as a reference signal.
  • the signal processing apparatus 100 performs time alignment between the asynchronous microphone input signal and the speaker output signal using the time shift amount calculated by the time shift amount calculation unit 401.
  • FIG. 8 shows an example in which the microphone input signal in each device is time aligned using the calculated time shift amount.
  • the time of each signal does not match, it is difficult to apply a sound source separation method and an echo canceling method using a plurality of microphones as used conventionally. This is because, as described above, the conventional sound source separation method and echo canceling method are based on the premise that a plurality of microphones or microphones and speakers are synchronized.
  • sound source separation and echo canceling can be performed by matching the time of each signal using the time shift amount calculated by the time shift amount calculation unit 401.
  • a method using a known microphone array or an echo canceling method is used for sound source separation and echo canceling.
  • FIG. 9 is a processing flow that explains in detail the separation performance evaluation process (S505 in FIG. 5).
  • the separation performance evaluation unit 404 evaluates the separation performance of the plurality of sound signals separated by the signal separation unit 403 by calculating the similarity between the separated signals, the correlation coefficient, and the like. For example, the similarity between the separated signals is calculated (S802), and the reciprocal of the calculated similarity is used as the performance evaluation value (S803).
  • FIG. 10 shows an example in which a signal mixed with two sounds is separated into two signals with low separation performance and separated into two signals with high separation performance.
  • the mixed voices are utterances having independent contents. Therefore, if separation is performed with high performance, the separated signals become independent voices that are not similar to each other.
  • the separation performance is low, the separated signals remain as noise in the separated signals, and thus the separated signals are similar to each other. Using this property, the separation performance is evaluated using the similarity and correlation coefficient between the separated signals.
  • the similarity for example, the Euclidean distance between signals is measured and the reciprocal thereof is used.
  • the reciprocal thereof is used as an index indicating separation performance, and if the value is equal to or less than a predetermined threshold, it can be determined that separation is not performed correctly. is there.
  • the separation performance evaluation unit 404 when it is determined in the evaluation process by the separation performance evaluation unit 404 that the separation is not performed correctly, it is determined that the time shift amount is not correctly calculated, and the time shift calculation process (S502) is performed. The configuration to be performed again is taken. As a result, even when the time alignment between signals is not accurately performed during the separation process, it is possible to automatically detect this and perform the time shift calculation process again.
  • FIG. 11 is a process flow illustrating the sampling mismatch calculation process (S507 in FIG. 5) in detail.
  • the sampling mismatch calculation unit 405 calculates a time shift amount between the microphone input signals of each device by calculating a cross-correlation function between the microphone input signals for each device (S1002). Then, by calculating the cross-correlation function between the separated echo component and the speaker output signal, the time shift amount between the microphone input and the speaker output for each device is calculated (S1003).
  • step S507 Even if the time shift amount is initially calculated in step S502, the time shift amount changes as the separation process and the subsequent process are continuously performed. This is because there is an error in the sampling frequency for each device. Therefore, it is necessary to sequentially recalculate the time shift amount, but outputting the reference signal every time hinders subsequent processing. Therefore, in the sampling mismatch calculation process S507, the time shift amount is calculated sequentially using the microphone input and the speaker output instead of the reference signal.
  • the time shift amount between microphone input signals of each device can be calculated by calculating a cross-correlation function between microphone input signals before sound source separation and searching for the peak.
  • the amount of time shift between the microphone input and the speaker output for each device is calculated (S1003).
  • the cross-correlation function between the echo component obtained by the sound source separation process and the speaker output is calculated, and the peak is calculated.
  • searching the time shift amount between the microphone input and the speaker output for each device is calculated.
  • the time shift amount can be calculated sequentially by outputting the reference signal at a predetermined interval (or always).
  • Audio signal processing apparatus 101 central processing unit 102 of audio signal processing apparatus 100 memory 103 of audio signal processing apparatus 100 storage medium 104 of audio signal processing apparatus 100 communication control apparatus 110 of audio signal processing apparatus 100 audio input / output device 1 111 Microphone 112 of Audio Input / Output Device 1 (110) Speaker 120 of Audio Input / Output Device 1 (110) Audio Input / Output Device 2 121 Microphone 122 of Voice Input / Output Device 2 (120) Speaker 401 of Voice Input / Output Device 2 (120) Time Shift Amount Calculation Unit 402 Data Transmission / Reception Unit 403 Signal Separation Unit 404 Separation Performance Evaluation Unit 405 Sampling Mismatch Calculation Unit 406 Subsequent Processing Unit 411 Data transmission / reception unit 412 in the voice input / output device 1 (110) A / D conversion unit 413 in the voice input / output device 1 (110) D / A conversion unit 421 in the voice input / output device 1 (110) 120) Data transmission / reception unit 422 A / D conversion unit

Abstract

複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離する音声信号処理装置および方法を提供することにある。 複数のデバイスごとに、異なる周波数の参照信号を出力するよう指示し、前記指示に応じて、前記複数のデバイスのスピーカから出力された各参照信号を受信し、前記複数のデバイスのスピーカから出力された各参照信号が、前記複数のデバイスのマイクに入力された音声信号を受信し、前記受信した前記スピーカから出力された各参照信号と、前記受信した音声信号とから、前記デバイスごとの時間シフト量を算出し、前記算出された時間シフト量に基づいて、前記複数のデバイスのマイクに入力された複数の音声信号を分離する。

Description

音声信号処理方法および装置
 本発明は、複数の音源が混ざった音を分離する音声信号処理方法および装置に関する。
 本技術分野の背景技術として、特許文献1および特許文献2がある。特許文献1には、「2個のマイクロホンで観測された観測信号の複素スペクトルを得、観測信号の複素スペクトルのマイクロホン間位相差を各時間周波数について計算する。1個のマイクロホンで観測された観測信号から得られた観測信号の複素スペクトル、特徴量作成部で得られたマイクロホン間位相差、および音源信号の複素スペクトルの分布を表す事前情報を用い、各時間周波数での各音源に対応する観測信号の複素スペクトルおよびマイクロホン間位相差の分布を表す確率モデルのパラメタを推定する。推定されたパラメタから得られる各時間周波数での各音源の観測信号の複素スペクトルおよびマイクロホン間位相差に対する寄与率を用い、各時間周波数での当該寄与率および観測信号の複素スペクトルから、分離信号の複素スペクトルを抽出し、それを時間領域の分離信号に変換する」技術が開示されている(要約参照)。また、特許文献2には、「音声認識システムにおける音圧・周波数特性測定装置は、音声入力がない時間帯における環境雑音をマイクロホンから取り込み、その音圧と周波数特性の時間変化量を測定する。音声認識可否判定装置は、前記測定された環境雑音の音圧と周波数特性時間変化量を基にして、音声認識が「良好」、「可能」、または「不可」であるかを判定する。前記音声認識可否判定装置の判定結果は、状況通知装置によって、使用者に通知される。」技術が開示されている。
特開2013-186383号公報 特開2003-271596号公報
 本発明は、複数の音が混ざった信号を分離して、各音源の音を抽出する音声信号処理に関する発明である。特許文献1では、複数のマイクロホンで収録された音信号を入力として、各音源の音を抽出する装置および方法が記載されている。しかしこの方法は、各マイクロホンが同期して音を収録することを前提としている。各収録系が同期していない場合、収録開始タイミングの違いや、サンプリング周波数の違いによって観測信号間の位相差が変化するため、分離性能が低下し、仮に後段に音声認識を行う場合は、音声認識性能も低下する。
 特許文献2では、周囲環境雑音の音圧を用いて音声認識のしやすさを判定する方法が記載されているが、非同期収録デバイスによる音声認識性能の低下を判定する方法については言及されていない。
 本発明の目的は、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離する音声信号処理方法および装置を提供することにある。
 上記課題を解決するために本発明は、マイクとスピーカを備えるデバイスを複数含むシステムにおける音声信号処理方法であって、前記複数のデバイスごとに、異なる周波数の参照信号を出力するよう指示し、前記指示に応じて、前記複数のデバイスのスピーカから出力された各参照信号を受信し、前記複数のデバイスのスピーカから出力された各参照信号が、前記複数のデバイスのマイクに入力された音声信号を受信し、前記受信した前記スピーカから出力された各参照信号と、前記受信した音声信号とから、前記デバイスごとの時間シフト量を算出し、前記算出された時間シフト量に基づいて、前記複数のデバイスのマイクに入力された複数の音声信号を分離し、前記分離した音声信号を出力する構成を採用する。
 本発明によれば、複数のデバイスが非同期で収録した音を入力とする場合であっても、各音源の音を分離することが可能である。
本発明の一実施形態である音声信号処理装置と音声入出力デバイスの構成図を示す。 音声信号処理を音声入出力デバイスに実行させる構成図である。 音声信号処理装置が音声入出力機能を有する構成図である。 本実施例の信号処理装置100、音声入出力デバイス110および120における機能ブロック図である。 本実施例の信号処理装置100の処理フローチャートである。 時間シフト量計算処理(S502)を詳細に説明した処理フローである。 各デバイスから出力される参照信号と、参照信号出力時における各デバイスのマイク入力信号の例である。 各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせをした例である。 分離性能評価処理(S505)を詳細に説明した処理フローである。 2個の音声が混ざった信号に対して、低い分離性能で2個の信号に分離した場合と、高い分離性能で2個の信号に分離した場合の例である。 サンプリングミスマッチ計算処理(S507)を詳細に説明した処理フローである。
 以下、本発明の実施形態を、図面を用いて詳細に説明する。
 本実施例では、複数のデバイスが非同期で収録した音声に対して音源分離を行う信号処理装置100の例を説明する。
 図1は、本実施例における音源分離システムの構成図を示す。本実施例における音声分離システムは、2個の音声入出力デバイス110、120と、音源分離を実施する信号処理装置100が、無線で通信する構成である。
 各音声入出力デバイス(110および120)は、マイク(111および121)、スピーカ(112および122)、A/D変換器(113および123)、D/A変換器(114および124)、中央演算装置(115および125)、メモリ(116および126)、記憶媒体(117および127)、通信制御装置(118および128)により構成されている。このような構成を持つデバイスとして、例えばスマートフォンやタブレット型PCなどの携帯端末が挙げられる。
 信号処理装置100は、中央演算装置101、メモリ102、記憶媒体103、通信制御装置104から構成される。
 各デバイス(110および120)では、D/A変換器(112および122)でデジタル信号からアナログ信号に変換された後、スピーカ(112および122)より音声が出力される。また同時に、マイク(111および121)は周囲の音を収録し、A/D変換器(113および123)によって収録したアナログ信号がデジタル信号に変換される。これらの音声入出力は非同期で行われる。
 中央演算装置(115および125)は、スピーカより出力するデジタル信号およびマイクに入力されたデジタル信号をメモリ(116および126)へ格納する。通信制御装置(118および128)は、メモリに格納されたスピーカ出力信号およびマイク入力信号を信号処理装置100側の通信制御装置104へ送信する。
 信号処理装置100の中央演算装置101は、デバイス(110または120)から受信した信号をメモリ102へ格納した後、音源分離処理を行う。また、中央演算装置101は、音源分離のために必要な処理として、通信制御装置104を通じて参照信号を各デバイスの通信制御装置(118および128)へ送信する機能を有する。
 これら一連の処理は、それぞれの記憶媒体103、117および127に格納されたプログラムにより実行される。
 図1の構成では、各デバイス110、120と信号処理装置100が無線によって通信する構成あるが、図2のように、音源分離処理をどちらか一方、あるいは両方のデバイスに実行させるような構成でもよい。この場合、どちらか一方、あるいは両方のデバイス内の中央演算装置(205および/または215)が音源分離処理を行う機能を有する。また、図3のように、独立したデバイスを用いずに、信号処理装置300が音声入出力機能を有する構成(つまり、図1におけるデバイス110、120、および信号処理装置100が一体となった構成)もあり得る。本実施例では、図1における構成を例として説明する。
 図4は、本実施例の信号処理装置100、音声入出力デバイス110および120における機能ブロック図である。
 各デバイス(110、120)は、データ送受信部(411および421)が、参照信号やスピーカ出力信号を、信号処理装置100側のデータ送受信部402より受信し、D/A変換部(413および423)を通じてスピーカ(112および122)から出力させる。また同時にマイク(111および121)が収録した周囲の音をA/D変換部(412および422)によってデジタル信号に変換した後、データ送受信部(411および421)より信号処理装置100側のデータ送受信部402へ送信する。
 信号処理装置100内の時間シフト量計算部401は、各デバイスのマイク入力信号間の時間シフト量、デバイス毎のマイク入力とスピーカ出力間の時間シフト量を計算するために、参照信号をデータ送受信部(402、411、421)および各デバイスのD/A変換部(412、423)を通じてスピーカ(112、122)より出力させる。このとき、時間シフト量計算部401は、各デバイスのマイク入力、スピーカ出力信号を、データ送受信部(402、411、421)を通じて受信し、時間シフト量を計算する。
 信号分離部403は、データ送受信部402より入力されるマイク入力およびスピーカ出力と、時間シフト量計算部401によって計算された時間シフト量を入力として、信号分離およびエコー除去を行う。ここでエコーとは、スピーカより出力されてマイクに回り込んで収録される音声のことを指す。信号分離部403は、分離後信号、マイク入力、スピーカ出力を分離性能評価部404に出力する。
 分離性能評価部404は、信号分離部403から送信される分離後信号を入力として、分離性能を評価する。このとき、分離性能が閾値以下であれば、時間シフト量計算モード切り替え指示を時間シフト量計算部401へ送信することで、時間シフト量計算部401は、再度時間シフト量計算処理を行う。
 サンプリングミスマッチ計算部405は、分離性能評価部404から送信されるマイク入力、分離後信号、スピーカ出力を入力として、サンプリング周波数の誤差に起因する時間シフト量を逐次計算し、信号分離部403へフィードバックする。
 サンプリングミスマッチ計算部405は、分離後信号を後段処理部406へ出力し、後段処理部406は、受信した分離後信号を用いて何らかの処理を行い、処理した結果である何らかの音を、データ送受信部402を通じて各デバイスのスピーカより出力させる。後段処理部406による処理としては、例えば分離後信号を用いて音声認識を行い、認識結果を用いて別の言語に翻訳し、その翻訳音声をスピーカより出力させるような音声翻訳処理が挙げられる。
 図5は、本実施例の信号処理装置100の処理フローチャートである。処理開始(S501)後、まず時間シフト量計算部401が、各デバイスのマイク入力信号間の時間シフト量と、デバイス毎のマイク入力とスピーカ出力との間の時間シフト量を計算する(S502)。その後、各デバイスは常時音声入出力を行い続け、都度マイク入力およびスピーカ出力を信号処理装置100へ送信し続ける(S503)。次に、信号分離部403は、マイク入力信号に対して、音源分離およびエコー除去を行う(S504)。次に、分離性能評価部404は分離後の信号に対して分離性能を評価する(S505)。
 S505の評価処理において、分離性能が閾値以下であった場合は(S506:Yes)、デバイスの入出力間の同期が取れていないと判断し、再度時間シフト量計算処理(S502)を実施する。分離性能が閾値を超えた場合は(S506:No)、サンプリングミスマッチ計算部405が各デバイスのサンプリング周波数の誤差に起因する時間シフト量を逐次計算する(S507)。そして、音声認識などの後段処理を行い、必要に応じてスピーカへの出力を行う(S508)。マイク入力、スピーカ出力からの音源分離、分離性能評価、サンプリングミスマッチ計算、後段処理(S503~S508)は繰り返し行われる。以降、各処理について詳細を記載する。
 図6は、図5における時間シフト量計算処理(S502)を細かく説明した処理フローである。まず、時間シフト量計算部401が、データ送受信部402、411、421を通じて参照信号をスピーカ112、122より出力させる(S602)。次に各デバイスは、参照信号を出力した時間帯におけるスピーカ出力信号とマイク入力信号を、データ送受信部411、421、402を通じて時間シフト量計算部401へ送信する(S603)。そして時間シフト量計算部401は、各デバイスのマイク入力間の時間シフト量およびデバイス毎のマイク入力とスピーカ出力間の時間シフト量を計算する(S604)。
 図7は、各デバイスから出力される参照信号と、参照信号出力時における各デバイスのマイク入力信号の例である。まず、仮にデバイス毎にA/D変換とD/A変換が同期して動いていたとすると、スピーカ出力信号とマイク入力信号には同タイミングで参照信号が観測される。しかしA/D変換とD/A変換が同期していない場合は、デバイス毎のスピーカ出力とマイク入力の間には、デバイス内の処理遅延に起因した時間シフトが存在する。また、デバイス毎のマイク入力信号は、収録開始タイミングが異なることに起因した時間シフトが存在する(図7参照)。
 時間シフト量計算処理(図5のS502)では、これらの時間シフト量を計算する。その方法として、それぞれ対応した参照信号同士で相互相関関数を計算し、相互相関係数がピークとなる時刻を用いて、信号間の時間シフト量を計算することが可能である。しかしこのとき、対応していない参照信号同士の相互相関関数が計算され、誤った時間シフト量が計算される場合が存在する。
 図7においては、デバイス1、デバイス2の順番で参照信号が出力され、それぞれの参照信号が各デバイスのマイクによって収録されている。このとき、マイクで収録された2個の参照信号のうち、先に収録された信号がデバイス1の参照信号、後に収録された信号がデバイス2の参照信号と対応するべきである。しかし、デバイス毎の参照信号の出力間隔が短く参照信号がオーバーラップするような場合などでは、対応していない参照信号同士の相互相関関数が計算され、ただしく時間シフト量が計算されなくなる場合がある。その対策として、本実施例ではデバイス毎に固有の周波数帯域を持つ参照信号を出力させている。デバイス毎に設定した周波数帯域に絞って相互相関関数を計算することで、対応しない参照信号同士の相互相関関数は低い値となり、そのため時間シフト量を安定して計算することが可能となる。
 また、本実施例においては、可聴域の参照信号を出力させている。一方、超音波などの非可聴域の音を参照信号として所定間隔で(または常時)出力させることで、音声分離処理と並列して時間シフト量を随時計算することも可能である。
 信号処理装置100は、時間シフト量計算部401が計算した時間シフト量を用いて、非同期のマイク入力およびスピーカ出力信号間の時間合わせを行う。
 図8は、各デバイスにおけるマイク入力信号を、計算した時間シフト量を用いて時間合わせを行った例である。各信号の時間が合っていない場合、従来から用いられているような、複数マイクロホンを用いた音源分離手法やエコーキャンセリング手法を適用することは困難である。その理由は、上述したように、従来の音源分離手法やエコーキャンセリング手法は、複数マイク間、またはマイクとスピーカ間が同期していることが前提であるからである。
 そこで本実施例では、時間シフト量計算部401が計算した時間シフト量を用いて各信号の時間を合わせることで、音源分離およびエコーキャンセリングを実施可能にさせる。なお、音源分離およびエコーキャンセリングは、それぞれ公知のマイクロホンアレーを用いた方式やエコーキャンセリングの方式を用いている。
 図9は、分離性能評価処理(図5のS505)を細かく説明した処理フローである。この処理では、信号分離部403によって分離された複数の音信号について、分離性能評価部404が分離信号同士の類似度や相関係数などを計算することで、分離性能を評価する。例えば分離信号同士の類似度を計算し(S802)、計算された類似度の逆数を性能評価値とする(S803)。
 図10は、ある2個の音声が混ざった信号に対して、低い分離性能で2個の信号に分離した場合と、高い分離性能で2個の信号に分離した場合の例である。基本的に混ざる音声はそれぞれ独立な内容の発話であるため、もし高い性能で分離が行われている場合、分離後の信号は互いに類似しない独立な音声になる。一方、分離性能が低い場合、分離後の信号にはそれぞれの音声が互いにノイズとして残留するため、分離後信号同士は互いに類似した音声になる。この性質を利用して、分離後の信号同士の類似度や相関係数を用いて、分離性能を評価する。
 類似度としては、例えば互いの信号のユークリッド距離を測り、その逆数を使う等が挙げられる。求めた類似度や相関係数を用いて、例えばその逆数を、分離性能を表す指標とし、その値があらかじめ定めた閾値以下であれば、分離が正しく行われていないと判定することが可能である。あるいは、類似度や相関係数をそのまま用いて、その値が定めた閾値以上であれば、分離が正しく行われていないと判定することも可能である。
 本実施例では、分離性能評価部404による評価処理において、分離が正しく行われていないと判定された場合、時間シフト量の計算が正しくできていないと判断し、時間シフト計算処理(S502)を再度行う構成を取っている。これにより、分離処理の途中で信号間の時間合わせが精度良くできていない場合であっても、それを自動的に検知して、再度時間シフト計算処理を実施することが可能となる。
 図11は、サンプリングミスマッチ計算処理(図5のS507)を詳しく説明した処理フローである。サンプリングミスマッチ計算部405は、デバイス毎のマイク入力信号間の相互相関関数を計算することで、各デバイスのマイク入力信号間の時間シフト量を計算する(S1002)。そして分離後のエコー成分とスピーカ出力信号間の相互相関関数を計算することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する(S1003)。
 時間シフト量は、最初に処理S502で計算されたとしても、分離処理や後段処理を継続して行ううちに変化していく。これは、デバイス毎によってサンプリング周波数に誤差があるためである。よって、逐次的に時間シフト量を再計算することが必要となるが、毎回参照信号を出力することは後段処理の妨げになる。そこで、サンプリングミスマッチ計算処理S507では、参照信号の代わりにマイク入力とスピーカ出力を使って逐次的に時間シフト量を計算する。
 まず、各デバイスのマイク入力信号間の時間シフト量の計算(S1002)は、音源分離前のマイク入力信号間の相互相関関数を計算し、そのピークを探索することで可能である。次に、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する(S1003)。このとき、マイク入力信号にはスピーカ出力によるエコー成分の他、外部の音声も混ざっているため、音源分離処理によって得られるエコー成分と、スピーカ出力の間の相互相関関数を計算し、そのピークを探索することで、デバイス毎のマイク入力・スピーカ出力間の時間シフト量を計算する。
 なお、前述の通り、参照信号に非可聴域の音を用いる場合は、参照信号を所定の間隔で(または常時)出力することで、逐次時間シフト量を計算することが可能である。
100 音声信号処理装置
101 音声信号処理装置100の中央演算装置
102 音声信号処理装置100のメモリ
103 音声信号処理装置100の記憶媒体
104 音声信号処理装置100の通信制御装置
110 音声入出力デバイス1
111 音声入出力デバイス1(110)のマイク
112 音声入出力デバイス1(110)のスピーカ
120 音声入出力デバイス2
121 音声入出力デバイス2(120)のマイク
122 音声入出力デバイス2(120)のスピーカ
401 時間シフト量計算部
402 データ送受信部
403 信号分離部
404 分離性能評価部
405 サンプリングミスマッチ計算部
406 後段処理部
411 音声入出力デバイス1(110)におけるデータ送受信部
412 音声入出力デバイス1(110)におけるA/D変換部
413 音声入出力デバイス1(110)におけるD/A変換部
421 音声入出力デバイス2(120)におけるデータ送受信部
422 音声入出力デバイス2(120)におけるA/D変換部
423 音声入出力デバイス2(120)におけるD/A変換部

Claims (10)

  1.  マイクとスピーカを備えるデバイスを複数含むシステムにおける音声信号処理方法であって、
     前記複数のデバイスごとに、異なる周波数の参照信号を出力するよう指示し、
     前記指示に応じて、前記複数のデバイスのスピーカから出力された各参照信号を受信し、
     前記複数のデバイスのスピーカから出力された各参照信号が、前記複数のデバイスのマイクに入力された音声信号を受信し、
     前記受信した前記スピーカから出力された各参照信号と、前記受信した音声信号とから、前記デバイスごとの時間シフト量を算出し、
     前記算出された時間シフト量に基づいて、前記複数のデバイスのマイクに入力された複数の音声信号を分離し、
     前記分離した音声信号を出力することを特徴とする音声信号処理方法。
  2.  前記分離された音声信号から、前記音声信号の分離性能を評価し、
     前記評価された分離性能が閾値を超えている場合、前記分離された音声信号と、前記複数のデバイスのスピーカから出力された音声信号から、前記音声信号どうしの時間シフト量を算出し、
     前記算出された時間シフト量に基づいて、前記各音声信号の分離を行うことを特徴とする請求項1記載の音声信号処理方法。
  3.  前記分離された音声信号から、音声信号の分離性能を評価し、
     前記評価された分離性能が閾値以下の場合、前記複数のデバイスに、それぞれ異なる周波数の参照信号を出力するよう再度指示することを特徴とする請求項1記載の音声信号処理方法。
  4.  前記音声信号の分離性能は、前記分離された音声信号間の類似度あるいは相関係数を用いて評価することを特徴とする請求項2記載の音声信号処理方法。
  5.  前記参照信号は、非可聴域の信号であることを特徴とする請求項1記載の音声信号処理方法。
  6.  前記参照信号は、前記複数のデバイスのスピーカから所定間隔で出力され、
     前記参照信号が前記スピーカから出力されたときに、前記デバイスごとの時間シフト量を算出することを特徴とする請求項5記載の音声信号処理方法。
  7.  マイクとスピーカを含む複数のデバイスと接続される音声信号処理装置であって、
     前記複数のデバイスに対して、それぞれ異なる周波数の参照信号を送信するとともに、前記複数のデバイスのスピーカが出力した各参照信号と、前記参照信号が前記複数のデバイスのマイクに入力された音声信号を受信するデータ送受信部と、
     前記出力された参照信号と、前記入力された音声信号に基づいて、前記デバイスごとの時間シフト量を算出する時間シフト量計算部と、
     前記算出された時間シフト量をもとに、前記複数のデバイスのマイクに入力された複数の音声信号を分離する信号分離部とを備え、
     前記データ送受信部は、前記分離された音声信号を前記複数のデバイスに送信することを特徴とする音声信号処理装置。
  8.  前記参照信号は、非可聴域の信号であることを特徴とする請求項7記載の音声信号処理装置。
  9.  前記時間シフト量計算部は、前記出力された参照信号と、前記入力された音声信号に基づいて、前記デバイスごとの時間シフト量を所定の間隔で算出することを特徴とする請求項8記載の音声信号処理装置。
  10.  マイクとスピーカを含むデバイスを複数備えるシステムにおける音声信号処理方法であって、
     前記デバイスに含まれるマイクとスピーカは非同期であり、
     前記複数のマイクは非同期であり、
     前記スピーカから出力される参照信号に基づいて、前記マイクとスピーカの時間シフト量を計算し、
     前記計算結果に基づいて、前記マイクに入力された音声信号を分離することを特徴とする音声信号処理方法。
PCT/JP2015/078708 2015-10-09 2015-10-09 音声信号処理方法および装置 WO2017061023A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017544147A JP6646677B2 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置
US15/758,747 US10629222B2 (en) 2015-10-09 2015-10-09 Sound signal procession method and device
PCT/JP2015/078708 WO2017061023A1 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/078708 WO2017061023A1 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置

Publications (1)

Publication Number Publication Date
WO2017061023A1 true WO2017061023A1 (ja) 2017-04-13

Family

ID=58488262

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/078708 WO2017061023A1 (ja) 2015-10-09 2015-10-09 音声信号処理方法および装置

Country Status (3)

Country Link
US (1) US10629222B2 (ja)
JP (1) JP6646677B2 (ja)
WO (1) WO2017061023A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383655A (zh) * 2018-12-29 2020-07-07 北京嘉楠捷思信息技术有限公司 一种波束形成方法、装置及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572721B2 (en) * 2010-08-09 2020-02-25 Nike, Inc. Monitoring fitness using a mobile device
US11524230B2 (en) 2019-10-01 2022-12-13 Sony Interactive Entertainment Inc. Encoder tuning to improve tradeoffs between latency and video quality in cloud gaming applications
US11539960B2 (en) 2019-10-01 2022-12-27 Sony Interactive Entertainment Inc. Game application providing scene change hint for encoding at a cloud gaming server
US11865434B2 (en) 2019-10-01 2024-01-09 Sony Interactive Entertainment Inc. Reducing latency in cloud gaming applications by overlapping receive and decode of video frames and their display at the client
US11446572B2 (en) 2019-10-01 2022-09-20 Sony Interactive Entertainment Inc. Early scan-out of server display buffer at flip-time for cloud gaming applications
US10974142B1 (en) * 2019-10-01 2021-04-13 Sony Interactive Entertainment Inc. Synchronization and offset of VSYNC between cloud gaming server and client

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006148880A (ja) * 2004-10-20 2006-06-08 Matsushita Electric Ind Co Ltd マルチチャネル音声再生装置、およびマルチチャネル音声調整方法
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2013030946A (ja) * 2011-07-28 2013-02-07 Handotai Rikougaku Kenkyu Center:Kk センサネットワークシステムとその通信方法
US20140086423A1 (en) * 2012-09-25 2014-03-27 Gustavo D. Domingo Yaguez Multiple device noise reduction microphone array
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
JP2014174393A (ja) * 2013-03-11 2014-09-22 Research Organization Of Information & Systems 音声信号処理装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3956730B2 (ja) 2002-03-15 2007-08-08 富士ゼロックス株式会社 言語処理装置
US20060083391A1 (en) * 2004-10-20 2006-04-20 Ikuoh Nishida Multichannel sound reproduction apparatus and multichannel sound adjustment method
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
JP5726790B2 (ja) 2012-03-09 2015-06-03 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006148880A (ja) * 2004-10-20 2006-06-08 Matsushita Electric Ind Co Ltd マルチチャネル音声再生装置、およびマルチチャネル音声調整方法
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2013030946A (ja) * 2011-07-28 2013-02-07 Handotai Rikougaku Kenkyu Center:Kk センサネットワークシステムとその通信方法
US20140086423A1 (en) * 2012-09-25 2014-03-27 Gustavo D. Domingo Yaguez Multiple device noise reduction microphone array
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
JP2014174393A (ja) * 2013-03-11 2014-09-22 Research Organization Of Information & Systems 音声信号処理装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383655A (zh) * 2018-12-29 2020-07-07 北京嘉楠捷思信息技术有限公司 一种波束形成方法、装置及计算机可读存储介质
CN111383655B (zh) * 2018-12-29 2023-08-04 嘉楠明芯(北京)科技有限公司 一种波束形成方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
US20190035418A1 (en) 2019-01-31
JP6646677B2 (ja) 2020-02-14
US10629222B2 (en) 2020-04-21
JPWO2017061023A1 (ja) 2018-07-19

Similar Documents

Publication Publication Date Title
WO2017061023A1 (ja) 音声信号処理方法および装置
US9947338B1 (en) Echo latency estimation
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US20180137876A1 (en) Speech Signal Processing System and Devices
US10481859B2 (en) Audio synchronization and delay estimation
US8861711B2 (en) Echo cancellation apparatus, conferencing system using the same, and echo cancellation method
US10650840B1 (en) Echo latency estimation
US9812146B1 (en) Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system
CN102834728B (zh) 用于确定检测点和声源之间的方向的方法和系统
US9219456B1 (en) Correcting clock drift via embedded sin waves
CN111343620A (zh) 多设备音频播放校正方法,装置及其终端
KR101034693B1 (ko) 가청주파수 대역에서의 데이터 송수신 시스템 및 방법
WO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
US10356518B2 (en) First recording device, second recording device, recording system, first recording method, second recording method, first computer program product, and second computer program product
CN110996238A (zh) 双耳同步信号处理助听系统及方法
JP5288148B2 (ja) 背景雑音キャンセリング装置および方法
US9972342B2 (en) Terminal device and communication method for communication of speech signals
US20100255878A1 (en) Audio filter
JP5611393B2 (ja) 遅延時間測定装置、遅延時間測定方法及びプログラム
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
JP2012242542A (ja) 音声比較装置及び音声比較プログラム
CN109951762B (zh) 一种用于听力设备的源信号提取方法、系统和装置
JP2009025025A (ja) 音源方向推定装置およびこれを用いた音源分離装置、ならびに音源方向推定方法およびこれを用いた音源分離方法
JP6690200B2 (ja) 端末装置、通信方法
KR101140330B1 (ko) 가청주파수 대역 음향통신 송수신에서의 동기화 시스템 및 방법, 그리고 이에 적용되는 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15905842

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017544147

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15905842

Country of ref document: EP

Kind code of ref document: A1