WO2010092914A1 - 多チャンネル音響信号処理方法、そのシステム及びプログラム - Google Patents

多チャンネル音響信号処理方法、そのシステム及びプログラム Download PDF

Info

Publication number
WO2010092914A1
WO2010092914A1 PCT/JP2010/051751 JP2010051751W WO2010092914A1 WO 2010092914 A1 WO2010092914 A1 WO 2010092914A1 JP 2010051751 W JP2010051751 W JP 2010051751W WO 2010092914 A1 WO2010092914 A1 WO 2010092914A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
channel
crosstalk
voice
overlap
Prior art date
Application number
PCT/JP2010/051751
Other languages
English (en)
French (fr)
Inventor
剛範 辻川
亮輔 磯谷
江森 正
祥史 大西
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010550499A priority Critical patent/JP5605574B2/ja
Priority to US13/201,354 priority patent/US9009035B2/en
Publication of WO2010092914A1 publication Critical patent/WO2010092914A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Definitions

  • the present invention relates to a multi-channel acoustic signal processing method, its system and program.
  • Patent Document 1 An example of a related multi-channel acoustic signal processing system is described in Patent Document 1.
  • This apparatus is a system for extracting target voices by removing non-target voices and background noises from mixed acoustic signals of voices and noises of a plurality of speakers picked up by a plurality of microphones arranged arbitrarily. Moreover, it is also a system which detects the target sound from the mixed acoustic signal.
  • FIG. 8 is a block diagram showing the configuration of the noise removal system disclosed in Patent Document 1.
  • a signal separator 101 that receives and separates input time-series signals of a plurality of channels, and a noise estimator 102 that receives a separated signal output from the signal separator 101 and estimates noise based on the intensity ratio from the intensity ratio calculator 106.
  • a noise interval detection unit 103 that detects a noise interval / speech interval by receiving the separated signal output from the signal separation unit 101, the noise component estimated by the noise estimation unit 102, and the output of the intensity ratio calculation unit 106; Have
  • Patent Document 1 The noise removal system described in Patent Document 1 is intended to detect and extract a target voice from mixed voice signals of a plurality of speakers and noises collected by a plurality of arbitrarily arranged microphones. However, it had the following problems.
  • the problem is that the target speech cannot be efficiently detected and extracted from the mixed acoustic signal.
  • the noise section / speech section is detected by using the output of the signal separation unit 101 that extracts the target speech.
  • the voices of speakers A and B are detected from the mixed acoustic signals of speakers A and B collected by microphones A and B, respectively.
  • the voices of the speaker A and the speaker B are mixed into the microphone A at a close ratio (see FIG. 2). reference).
  • the voice of the speaker A mixed in the microphone B is the voice of the speaker B. Less compared (see FIG. 2). That is, in order to extract the voice of the speaker A included in the microphone A and the voice of the speaker B included in the microphone B, the voice of the speaker B mixed in the microphone A (crosstalk by the speaker B) is removed. The necessity to remove the voice of the speaker A mixed in the microphone B (crosstalk by the speaker A) is low.
  • an object of the present invention is to provide a multi-channel acoustic signal processing method, system and program capable of efficiently removing crosstalk from a multi-channel input signal.
  • the present invention for solving the above problems is a multi-channel acoustic signal processing method for processing input signals of a plurality of channels including voices of a plurality of speakers, and each speaker or a voice section for each channel is processed. Detecting, detecting an overlap section that is a section in which the detected voice section is common between channels, and using at least a voice section that does not include the detected overlap section,
  • the multi-channel acoustic signal processing method is characterized in that the section is determined, and the crosstalk in the section of the channel targeted for the crosstalk removal process is removed.
  • the present invention for solving the above-mentioned problems is a multi-channel acoustic signal processing system for processing input signals of a plurality of channels including voices of a plurality of speakers, and each speaker or a voice section for each channel is processed.
  • a voice detection unit that detects
  • an overlap period detection unit that detects an overlap period in which the detected voice period is common between channels, and a voice period that does not include the detected overlap period
  • a crosstalk processing target determining unit that determines a channel and a section of a crosstalk removal processing target, and a crosstalk removing unit that removes crosstalk in a section of the channel targeted for the crosstalk removal processing.
  • the present invention for solving the above-mentioned problems is a multi-channel acoustic signal processing program for processing input signals of a plurality of channels including voices of a plurality of speakers, and is a speech section for each speaker or for each channel. At least a speech section that does not include the detected overlap section, and a voice detection process that detects an overlap section that is a section in which the detected voice section is common between channels. And a crosstalk processing target determination process for determining a channel and a section of a crosstalk removal process, and a crosstalk removal process of removing a crosstalk of a section of the channel targeted for the crosstalk removal process. It is a program characterized by being executed.
  • the present invention can omit the calculation for removing the crosstalk having a small influence, the crosstalk can be efficiently removed.
  • FIG. 1 is a layout diagram of microphones and speakers for explaining the problem of the present invention.
  • FIG. 2 is a diagram for explaining crosstalk and overlap sections.
  • FIG. 3 is a block diagram showing the configuration of the embodiment of the present invention.
  • FIG. 4 is a flowchart showing the operation of the embodiment of the present invention.
  • FIG. 5 is a diagram showing crosstalk between voice sections and channels detected by the multi-channel voice detector 1.
  • FIG. 6 is a diagram showing an overlap section detected by the overlap section detection unit 2.
  • FIG. 7 is a diagram showing a section in which the feature amount calculation units 3-1 to 3-N calculate feature amounts.
  • FIG. 8 is a block diagram showing a configuration of a related noise removal system.
  • FIG. 3 is a block diagram showing a configuration example of the multi-channel acoustic signal processing system of the present invention.
  • the multi-channel acoustic signal processing system illustrated in FIG. 3 receives input signals 1 to M, respectively, and detects multi-channel audio in each of a plurality of input signals of a plurality of channels on any one channel.
  • a crosstalk amount estimating unit 4 that receives at least feature quantities of a plurality of channels in an audio section that does not include the overlap section, and estimates the magnitude of the influence of crosstalk; And a crosstalk removing unit 5 for removing talk.
  • FIG. 4 is a flowchart showing a processing procedure in the multi-channel acoustic signal processing system according to the embodiment of the present invention. The details of the multi-channel acoustic signal processing system of the present embodiment will be described below with reference to FIGS. 3 and 4.
  • the multi-channel voice detection unit 1 detects the voices of a plurality of speakers in the input signals of a plurality of channels from any one of the input signals 1 to M using any one channel (step S1).
  • signals in the voice section are expressed as follows.
  • TsN are the start times of the voice sections detected in channels 1 to N, and te1, te2, te3,. This is the end time of the detected voice section (see FIG. 5).
  • the multi-channel sound detection unit 1 may use a conventional method of detecting a speaker's voice using a plurality of input signals, or may be detected by an ON / OFF signal of a microphone switch associated with a channel. May be.
  • the overlap section detection unit 2 receives the time information of the start and end of the voice sections detected in the channels 1 to N, and detects the overlap section (step S2).
  • the overlap section is a section where the detected voice sections are common between channels 1 to N, and as shown in FIG. 6, ts1, ts2, ts3,... TsN and te1, te2, te3,. It can be detected from the magnitude relationship.
  • a section having a common voice section detected between channel 1 and channel N is tsN to te1, and this section is an overlap section.
  • a section in which the detected voice section is common between channel 2 and channel N is ts2 to teN, and this section is an overlap section.
  • a section in which the detected voice section is common between channel 2 and channel 3 is ts3 to te3, and this section is an overlap section.
  • the feature quantity calculation units 3-1 to 3-N calculate the feature quantities 1 to N from the input signals 1 to N, respectively (step S3).
  • F1 (T) [f11 (T) f12 (T)... f1L (T)]... (1-1)
  • F2 (T) [f21 (T) f22 (T)... f2L (T)]... (1-2)
  • ⁇ ⁇ ⁇ FN (T) [fN1 (T) fN2 (T)... fNL (T)]... (1-N)
  • F1 (T) to FN (T) are feature quantities 1 to N calculated from the input signals 1 to N.
  • T is an index of time, and a plurality of t may be set as one section, and T may be used as an index in the time section.
  • the feature quantities F1 (T) to FN (T) are each a vector having elements of L dimension (L is a value of 1 or more). Composed.
  • the elements of the feature quantity include, for example, time waveform (input signal), statistics such as average power, frequency spectrum, frequency logarithmic spectrum, cepstrum, mel cepstrum, likelihood for the acoustic model, reliability for the acoustic model (including entropy) ), And phoneme / syllable recognition results.
  • the feature quantity calculation section may be at least all of the voice sections of a plurality of channels in which sound is detected. However, in order to reduce the calculation amount for calculating the feature amount, the feature amount is calculated in the following sections. It is desirable.
  • the feature-value calculation section When calculating the feature value in the first channel, it is desirable to have the following section (1) + (2) ⁇ (3). (1) the first voice section detected in the first channel (2) the n-th voice section of the n-th channel having the overlap section in common with the first voice section (3) the n-th channel Among the voice sections, an overlap section with the m-th voice section of the m-th channel other than the first voice section
  • the feature-value calculation section will be described with reference to FIG. 7 as an example.
  • the crosstalk amount estimating unit 4 performs crosstalk caused by the nth sound of the nth channel having the same overlap period as the first sound of the first channel, and the first talk of the first channel.
  • the magnitude of the influence on the voice is estimated (step S4).
  • a description will be given by taking FIG. 7 as an example.
  • the first channel is channel 1
  • the influence of the crosstalk caused by the sound of channel N having the same overlap period as the sound detected in channel 1 (sound period is ts1 to te1) on the sound of channel 1 Estimate the size of.
  • the following methods can be considered as the estimation method.
  • ⁇ Estimation method 1> The channel 1 feature quantity and the channel N feature quantity in the sections te1 to ts2, which are voice sections not including the overlap section, are compared. If the feature amount is close, it is estimated that the influence of the sound of channel N on channel 1 is large.
  • the powers of channel 1 and channel N in the section te1 to ts2 are compared. If the power of channel N is close to the power of channel 1, it is estimated that the influence of the sound of channel N on channel 1 is large. If the power of channel 1 is sufficiently larger than the power of channel N, it is estimated that the influence of the sound of channel N on channel 1 is small. Thus, the influence is estimated by obtaining the correlation value of the predetermined feature amount.
  • ⁇ Estimation method 3> The power ratio between channels 1 and N is calculated in sections ts1 to tsN that are voice sections that do not include an overlap section. Next, the power ratio between channels 1 and N is calculated in the sections te1 to ts2, which are voice sections that do not include an overlap section. Then, by solving the simultaneous equations using the above two power ratios, the power of channel 1 in the section tsN to te1 and the power of channel N, the sound of channel 1 and the channel N in the overlap section tsN to te1 Calculate the power of crosstalk by voice. If the sound power of channel 1 is close to the power of crosstalk, it is estimated that the influence of sound of channel N on channel 1 is large.
  • the influence of crosstalk is estimated by using a ratio, a correlation value, and a distance value based on feature quantities between channels using at least a voice section that does not include an overlap section.
  • the crosstalk amount estimation unit 4 is not limited to the above-described estimation method, and it is a matter of course that the influence of crosstalk may be estimated by other methods as long as at least speech sections that do not include an overlap section are used. 7 is included in the channel 2 audio segment, it is difficult to estimate the influence of the crosstalk caused by the channel 3 audio on the channel 2. If estimation is difficult in this way, a rule determined in advance (for example, determining that the influence is large) may be followed.
  • the crosstalk removing unit 5 receives the input signals of a plurality of channels, which are estimated to have a large influence due to the crosstalk or a large influence as the crosstalk in the crosstalk amount estimating unit 4, and Is removed (step S5).
  • a method based on independent component analysis, a method based on square error minimization, or the like may be used as appropriate.
  • the section for removing the crosstalk may be at least an overlap section.
  • the section to be processed for crosstalk by the channel N The overlap section (tsN to te1) is set to one voice section (ts1 to te1), and the other sections are not subjected to crosstalk processing, but are simply removed. In this way, the number of crosstalk processing targets is reduced, and the burden of crosstalk processing can be reduced.
  • an overlap period of a plurality of speaker voice sections is detected, and at least a voice section that does not include the detected overlap section is used, and a channel to be subjected to crosstalk removal processing and its channel The section is determined.
  • the magnitude of the influence of the crosstalk is estimated using at least the feature quantities of a plurality of channels in the voice section that does not include the overlap section, and the crosstalk having a large influence is removed. Therefore, it is possible to omit the calculation for removing the crosstalk having a small influence, and it is possible to efficiently remove the crosstalk.
  • the section is described as a section for time, but may be a section for frequency or a section for time / frequency.
  • an overlap section in the case of a section for time / frequency is a section in which voices overlap in a section having the same time and frequency.
  • the multi-channel audio detection unit 1, the overlap section detection unit 2, the feature amount calculation units 3-1 to 3-N, the crosstalk amount estimation unit 4, and the crosstalk removal unit 5 are configured by hardware, but all or a part of them may be configured by an information processing apparatus that operates by a program.
  • Appendix 2 Using at least a speech section that does not include the detected overlap section, estimating the influence of crosstalk, The multi-channel acoustic signal processing method according to appendix 1, wherein a channel having a large influence of crosstalk and its section are targeted for crosstalk removal processing.
  • the supplementary note 2 is characterized in that the influence of crosstalk is determined by using at least the input signal of each channel in the voice section not including the overlap section or the feature amount calculated from the input signal.
  • a multi-channel acoustic signal processing method according to claim 1.
  • the section for calculating the feature amount for each channel is an audio section detected in the m-th channel and an n-th section having an overlap section in common with the audio section of the m-th channel.
  • the feature amount is at least one of statistics, time waveform, frequency spectrum, frequency logarithmic spectrum, cepstrum, mel cepstrum, likelihood for acoustic model, reliability for acoustic model, phoneme recognition result, syllable recognition result.
  • the multi-channel acoustic signal processing method according to appendix 3 or appendix 4, wherein
  • a multi-channel acoustic signal processing system for processing input signals of a plurality of channels including voices of a plurality of speakers, A voice detector for detecting a voice section for each speaker or each channel; An overlap section detection unit that detects an overlap section that is a section in which the detected voice section is common between channels; A crosstalk processing target determining unit that determines a channel and a section of a crosstalk removal processing target using at least a voice section that does not include the detected overlap section; A multi-channel acoustic signal processing system, comprising: a crosstalk removing unit that removes crosstalk in a section of a channel targeted for the crosstalk removal processing.
  • the crosstalk processing target determining unit estimates the influence of the crosstalk by using at least the voice section that does not include the detected overlap section, and determines the channel and the section where the crosstalk influence is large.
  • the multi-channel acoustic signal processing system according to appendix 8 which is a target for crosstalk removal processing.
  • the crosstalk processing target determining unit uses at least the input signal of each channel in the voice section not including the overlap section or the feature amount calculated from the input signal to influence the influence of the crosstalk.
  • the multi-channel acoustic signal processing system according to appendix 9, wherein the determination is performed.
  • the crosstalk processing target determining unit shares the section for calculating the feature amount for each channel with the voice section detected in the m-th channel and the voice section of the m-th channel. And an overlap section between the voice section of the nth channel having the overlap section and the voice section of channels other than the mth voice section among the voice sections of the nth channel.
  • the multi-channel acoustic signal processing system according to appendix 10.
  • the feature quantity is at least one of statistics, time waveform, frequency spectrum, frequency logarithmic spectrum, cepstrum, mel cepstrum, likelihood for acoustic model, reliability for acoustic model, phoneme recognition result, syllable recognition result.
  • the multi-channel acoustic signal processing system according to Supplementary Note 10 or Supplementary Note 11, wherein
  • a multi-channel acoustic signal processing program for processing input signals of a plurality of channels including voices of a plurality of speakers, Voice detection processing for detecting a voice section for each speaker or each channel; An overlap section detection process for detecting an overlap section that is a section in which the detected voice section is common between channels; A crosstalk processing target determination process for determining a channel and a section of a crosstalk removal processing target using at least a voice section that does not include the detected overlap section; A program causing an information processing apparatus to execute crosstalk removal processing for removing crosstalk in a section of a channel targeted for crosstalk removal processing.
  • the influence of crosstalk is determined by using at least the input signal of each channel in the voice section not including the overlap section or the feature amount calculated from the input signal.
  • the section for calculating the feature amount for each channel is common to the voice section detected in the m-th channel and the voice section of the m-th channel. And the overlap period between the voice section of the nth channel having the overlap section and the voice section of the channel other than the mth voice section among the voice sections of the nth channel.
  • the feature amount is at least one of statistics, time waveform, frequency spectrum, frequency logarithm spectrum, cepstrum, mel cepstrum, likelihood for acoustic model, reliability for acoustic model, phoneme recognition result, syllable recognition result.
  • a multi-channel acoustic signal processing device and a multi-channel acoustic signal processing device that separates mixed acoustic signals of speech and noise of a plurality of speakers observed with a plurality of arbitrarily arranged microphones are realized in a computer. It can be applied to uses such as programs for

Abstract

本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、話者ごと、又は、チャンネルごとの音声区間を検出し、チャンネル間で検出された音声区間が共通する区間であるオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、クロストーク除去処理対象としたチャンネルの区間のクロストークを除去することを特徴とする。

Description

多チャンネル音響信号処理方法、そのシステム及びプログラム
 本発明は、多チャンネル音響信号処理方法、そのシステム及びプログラムに関する。
 関連する多チャンネル音響信号処理システムの一例が、特許文献1に記載されている。この装置は、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的外音声、背景雑音を除去することにより目的音声を抽出するシステムである。また、上記混合音響信号から目的音声を検出するシステムでもある。
 図8は、特許文献1に開示されている雑音除去システムの構成を示すブロック図である。その雑音除去システムにおける混合音響信号から目的音声を検出する箇所について構成および動作を概説する。複数のチャンネルの入力時系列信号を受けて分離する信号分離部101と、信号分離部101から出力される分離信号を受け強度比計算部106からの強度比に基づき雑音を推定する雑音推定部102と、信号分離部101から出力される分離信号と、雑音推定部102で推定された雑音成分と、強度比計算部106の出力を受けて雑音区間/音声区間を検出する雑音区間検出部103とを有する。
特開2005-308771号公報(図1)
 特許文献1に記載の雑音除去システムは、任意に配置された複数のマイクロホンで収音した複数の話者の音声および雑音の混合音響信号から目的音声を検出、抽出することを意図したものであるが、下記の課題を有していった。
 その課題は、混合音響信号から目的音声を効率的に検出、抽出することができないことである。
 その理由は、目的音声を抽出する信号分離部101の出力を用いて、雑音区間/音声区間を検出する構成となっているためである。例えば図1のような話者A、BとマイクロホンA、Bの配置を想定し、マイクロホンA、Bで収音した話者A、Bの混合音響信号から話者A、Bの音声をそれぞれ検出、抽出することを考える。マイクロホンAと話者Aの間の距離は、マイクロホンAと話者Bの間の距離と近いため、マイクロホンAには話者Aと話者Bとの音声が近い割合で混入する(図2を参照)。
 しかし、マイクロホンBと話者Aとの間の距離は、マイクロホンBと話者Bとの間の距離に比べて遠いため、マイクロホンBに混入する話者Aの音声は、話者Bの音声に比べて少ない(図2を参照)。すなわち、マイクロホンAに含まれる話者Aの音声とマイクロホンBに含まれる話者Bの音声とを抽出するために、マイクロホンAに混入する話者Bの音声(話者Bによるクロストーク)を除去する必要度は高く、マイクロホンBに混入する話者Aの音声(話者Aによるクロストーク)を除去する必要度は低い。
 従って、除去の必要度が異なる場合に、信号分離部101においてマイクロホンAとマイクロホンBとで収音した混合音響信号に対して同じ処理を行うことは非効率的であった。
 そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、多チャンネルの入力信号から効率的にクロストークを除去できる多チャンネル音響信号処理方法、そのシステム及びプログラムを提供することにある。
 上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去することを特徴とする多チャンネル音響信号処理方法である。
 上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部とを有することを特徴とする多チャンネル音響信号処理システムである。
 上記課題を解決する本発明は、複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理とを情報処理装置に実行させることを特徴とするプログラムである。
 本発明は、影響が小さいクロストークを除去するための計算を省くことができるため、効率的にクロストークを除去することができる。
図1は本発明の課題を説明するためのマイクロホン、話者配置図である。 図2はクロストーク、オーバーラップ区間を説明する為の図である。 図3は本発明の実施の形態の構成を示すブロック図である。 図4は本発明の実施の形態の動作を示す流れ図である。 図5は多チャンネル音声検出部1で検出される音声区間とチャンネル間のクロストークを示す図である。 図6はオーバーラップ区間検出部2で検出するオーバーラップ区間を示す図である。 図7は特徴量算出部3-1~3-Nで特徴量を算出する区間を示す図である。 図8は関連する雑音除去システムの構成を示すブロック図である。
 本発明の実施の形態について詳細に説明する。
 図3は、本発明の多チャンネル音響信号処理システムの構成例を示すブロック図である。図3に例示する多チャンネル音響信号処理システムは、入力信号1~Mをそれぞれ受けて、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する多チャンネル音声検出部1と、検出された複数の話者の音声区間のオーバーラップ区間を検出するオーバーラップ区間検出部2と、少なくとも音声が検出された複数のチャンネル毎に特徴量を算出する特徴量算出部3-1~3-Nと、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも受けてクロストークの影響の大小を推定するクロストーク量推定部4と、影響が大きいクロストークを除去するクロストーク除去部5と、を有する。
 図4は、本発明の実施の形態に係る多チャンネル音響信号処理システムにおける処理手順を示す流れ図である。図3および図4を参照して、本実施の形態の多チャンネル音響信号処理システムの詳細について以下に説明する。
 入力信号1~Mをそれぞれx1(t)~xM(t)とする。ただし、tは時間のインデックスである。多チャンネル音声検出部1では、入力信号1~Mから、複数のチャンネルの入力信号における複数の各話者の音声を各々いずれか1つのチャンネルで検出する(ステップS1)。例として、チャンネル1~Nで異なる音声が検出されたとし、その音声区間の信号を以下のように表す。
 x1(ts1-te1)
 x2(ts2-te2)
 x3(ts3-te3)
 ・
 ・
 ・
 xN(tsN-teN)
 ここで、ts1、ts2、ts3、・・・、tsNは、チャンネル1~Nで検出された音声区間の始端時刻であり、te1、te2、te3、・・・、teNは、チャンネル1~Nで検出された音声区間の終端時刻である(図5を参照)。
 尚、多チャンネル音声検出部1には複数の入力信号を用いて、話者の音声を検出する従来の手法を用いてもよいし、チャンネルと対応付けされたマイクスイッチのON、OFF信号により検出してもよい。
 次に、オーバーラップ区間検出部2は、チャンネル1~Nで検出された音声区間の始端、終端の時刻情報を受けて、オーバーラップ区間を検出する(ステップS2)。オーバーラップ区間は、チャンネル1~N間で、検出された音声区間が共通する区間であり、図6に示すようにts1、ts2、ts3、…、tsNおよびte1、te2、te3、…、teNの大小関係から検出できる。例えば、チャンネル1とチャンネルNとの間で検出された音声区間が共通する区間は、tsN~te1であり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネルNとの間で検出された音声区間が共通する区間は、ts2~teNであり、この区間がオーバーラップ区間である。また、チャンネル2とチャンネル3との間で、検出された音声区間が共通する区間は、ts3~te3であり、この区間がオーバーラップ区間である。
 次に、特徴量算出部3-1~3-Nでは、入力信号1~Nから、それぞれ特徴量1~Nを算出する(ステップS3)。
 F1(T) = [f11(T) f12(T) … f1L(T)] … (1-1)
 F2(T) = [f21(T) f22(T) … f2L(T)] … (1-2)
 ・
 ・
 ・
 FN(T) = [fN1(T) fN2(T) … fNL(T)] … (1-N)
 ここで、F1(T)~FN(T)は入力信号1~Nから算出した特徴量1~Nである。Tは時間のインデックスであり、複数のtを1つの区間とし、その時間区間におけるインデックスとしてTを用いてもよい。数式(1-1)~(1-N)に示すように、特徴量F1(T)~FN(T)は、それぞれL次元(Lは1以上の値)の特徴量の要素を持つベクトルとして構成される。特徴量の要素としては、例えば、時間波形(入力信号)、平均パワーなどの統計量、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度(エントロピーを含む)、音素・音節認識結果などが考えられる。
 上記の通り、入力信号1~Nから直接求める特徴量だけでなく、音響モデルというある基準に対するチャンネル毎の値を特徴量とすることも可能である。なお、上記の特徴量は一例であり、その他の特徴量でも良いことはもちろんである。また特徴量を算出する区間は、少なくとも音声が検出された複数のチャンネルの音声区間全てとしてもよいが、特徴量の算出のための計算量を削減するため、以下の区間で特徴量を算出することが望ましい。
 第1のチャンネルで特徴量を算出する場合、以下の(1)+(2)-(3)の区間であることが望ましい。
(1)第1のチャンネルで検出された第1の音声区間
(2)その第1の音声区間と共通するオーバーラップ区間を有する、第nのチャンネルの第nの音声区間
(3)第nの音声区間のうち、第1の音声区間以外の第mのチャンネルの第mの音声区間とのオーバーラップ区間
 図7を例として参照し、上記特徴量の算出区間について説明する。
<チャンネル1が第1のチャンネルの場合>
(1)チャンネル1の音声区間=(ts1~te1)
(2)チャンネル1の音声区間と共通するオーバーラップ区間を有するチャンネルNの音声区間=(tsN~teN)
(3)チャンネルNの音声区間のうち、チャンネル1の音声区間以外のチャンネル2の音声区間とのオーバーラップ区間=(ts2~teN)
(1)+(2)-(3)=(ts1~ts2)の区間の特徴量を算出する。
<チャンネル2が第1のチャンネルの場合>
(1)チャンネル2の音声区間=(ts2~te2)
(2)チャンネル2の音声区間と共通するオーバーラップ区間を有するチャンネル3、Nの音声区間=(ts3~te3、tsN~teN)
(3)チャンネル3、Nの音声区間のうち、チャンネル2の音声区間以外のチャンネル1の音声区間とのオーバーラップ区間=(tsN~te1)
(1)+(2)-(3)=(te1~te2)の区間の特徴量を算出する。
<チャンネル3が第1のチャンネルの場合>
(1)チャンネル3の音声区間=(ts3~te3)
(2)チャンネル3の音声区間と共通するオーバーラップ区間を有するチャンネル2の音声区間=(ts2~te2)
(3)チャンネル2の音声区間のうち、チャンネル3の音声区間以外のチャンネルNの音声区間とのオーバーラップ区間=(ts2~teN)
(1)+(2)-(3)=(teN~te2)の区間の特徴量を算出する。
<チャンネルNが第1のチャンネルの場合>
(1)チャンネルNの音声区間=(tsN~teN)
(2)チャンネルNの音声区間と共通するオーバーラップ区間を有するチャンネル1、2の音声区間=(ts1~te1、ts2~te2)
(3)チャンネル1、2の音声区間のうち、チャンネルNの音声区間以外のチャンネル3の音声区間とのオーバーラップ区間=(ts3~te3)
(1)+(2)-(3)=(ts1~ts3、te3~te2)の区間の特徴量を算出する。
 次に、クロストーク量推定部4は、第1のチャンネルの第1の音声と共通のオーバーラップ区間を有する第nのチャンネルの第nの音声によるクロストークが、第1のチャンネルの第1の音声に与える影響の大小を推定する(ステップS4)。図7を例とし、説明する。第1のチャンネルをチャンネル1とした場合、チャンネル1で検出された音声(音声区間はts1~te1)と共通のオーバーラップ区間を有するチャンネルNの音声によるクロストークが、チャンネル1の音声に与える影響の大小を推定する。推定方法には以下のような方法が考えられる。
 <推定方法1>
 オーバーラップ区間を含まない音声区間である区間te1~ts2におけるチャンネル1の特徴量とチャンネルNの特徴量とを比較する。そして、特徴量が近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
 例えば、区間te1~ts2におけるチャンネル1とチャンネルNとのパワーを比較する。そして、チャンネルNのパワーとチャンネル1のパワーが近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。また、チャンネル1のパワーがチャンネルNのパワーより十分大きければ、チャンネルNの音声がチャンネル1に与える影響が小さいと推定する。このように所定の特徴量の相関値を求めることにより、影響を推定する。
 <推定方法2>
 まず、区間tsN~te1におけるチャンネル1とチャンネルNとの特徴量の差分を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1~ts2におけるチャンネル1とチャンネルNとの特徴量の差分を計算する。そして、上記2つの差分を比較し、差分の違いが少なければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
 <推定方法3>
 オーバーラップ区間を含まない音声区間である区間ts1~tsNにおけるチャンネル1とNのパワー比を計算する。次に、オーバーラップ区間を含まない音声区間である区間te1~ts2におけるチャンネル1とNのパワー比を計算する。そして、上記2つのパワー比と、区間tsN~te1におけるチャンネル1のパワー、チャンネルNのパワーを用いて、連立方程式を解くことにより、オーバーラップ区間tsN~te1における、チャンネル1の音声とチャンネルNの音声によるクロストークのパワーを計算する。チャンネル1の音声のパワーとクロストークのパワーが近ければ、チャンネルNの音声がチャンネル1に与える影響が大きいと推定する。
 以上の如く、オーバーラップ区間を含まない音声区間を少なくとも用いて、チャンネル間の特徴量に基づく比、相関値、距離値により、クロストークの影響を推定する。
 クロストーク量推定部4において、上述した推定方法に限らず、オーバーラップ区間を含まない音声区間を少なくとも用いれば、他の方法によりクロストークの影響を推定してもよいことはもちろんである。尚、図7のチャンネル3の音声区間はチャンネル2の音声区間に包含されているため、チャンネル3の音声によるクロストークがチャンネル2に与える影響の大小を推定することは難しい。このように推定が困難な場合は、事前に決めたルール(例えば、影響が大きいと判定するなど)に従えばよい。
 最後にクロストーク除去部5では、クロストーク量推定部4において、クロストークにより与えられる影響が大きい、またはクロストークとして与える影響が大きいと推定された複数のチャンネルの入力信号を受けて、クロストークを除去する(ステップS5)。クロストークの除去は、独立成分分析に基づく手法や、2乗誤差最小化に基づく手法などを適宜用いればよい。また、クロストークを除去する区間は、少なくともオーバーラップ区間であればよい。例えば、区間te1~ts2におけるチャンネル1とチャンネルNとのパワーを比較し、チャンネルNの音声がチャンネル1に与える影響が大きいと推定された場合、チャンネルNによるクロストークの処理対象の区間を、チャンネル1の音声区間(ts1~te1)のうちオーバーラップ区間(tsN~te1)とし、他の区間に対してはクロストークの処理対象とはせず、単に音声を除去するようにする。このようにすれば、クロストークの処理対象が減り、クロストークの処理の負担が軽減できる。
 以上の如く、本実施の形態では、複数の話者の音声区間のオーバーラップ区間を検出し、検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定している。特に、前記オーバーラップ区間を含まない音声区間における複数のチャンネルの特徴量を少なくとも用いて、クロストークの影響の大小を推定し、影響が大きいクロストークを除去している。そのため、影響が小さいクロストークを除去するための計算を省くことができ、効率的にクロストークを除去することが可能となる。
 尚、上記実施の形態では、区間を時間に対する区間として説明したが、周波数に対する区間としてもよいし、時間・周波数に対する区間としてもよい。例えば、時間・周波数に対する区間とした場合におけるオーバーラップ区間とは、時間と周波数が同じ区間で音声がオーバーラップする区間となる。
 また、上述した実施の形態において、多チャンネル音声検出部1と、オーバーラップ区間検出部2と、特徴量算出部3-1~3-Nと、クロストーク量推定部4と、クロストーク除去部5とをハードウェアで構成したが、それらの全部又は一部をプログラムで動作する情報処理装置により構成することもできる。
 尚、上記の実施の形態の内容は、以下のようにも表現することができる。
 [付記1] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
 前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、
 チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
 前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
ことを特徴とする多チャンネル音響信号処理方法。
 [付記2] 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
 クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
ことを特徴とする付記1に記載の多チャンネル音響信号処理方法。
 [付記3] 前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記2に記載の多チャンネル音響信号処理方法。
 [付記4] 前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記3に記載の多チャンネル音響信号処理方法。
 [付記5] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記3又は付記4に記載の多チャンネル音響信号処理方法。
 [付記6] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記2から付記5のいずれかに記載の多チャンネル音響信号処理方法。
 [付記7] 前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記1から付記6のいずれかに記載の多チャンネル音響信号処理方法。
 [付記8] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
 前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、
 チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
 前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
を有することを特徴とする多チャンネル音響信号処理システム。
 [付記9] 前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記8に記載の多チャンネル音響信号処理システム。
 [付記10] 前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記9に記載の多チャンネル音響信号処理システム。
 [付記11] 前記クロストーク処理対象決定部は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記10に記載の多チャンネル音響信号処理システム。
 [付記12] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記10又は付記11に記載の多チャンネル音響信号処理システム。
 [付記13] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記9から付記12のいずれかに記載の多チャンネル音響信号処理システム。
 [付記14] 前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記8から付記13のいずれかに記載の多チャンネル音響信号処理システム。
 [付記15] 複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
 前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、
 チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
 前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
 前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
を情報処理装置に実行させることを特徴とするプログラム。
 [付記16] 前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする付記15に記載のプログラム。
 [付記17] 前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定することを特徴とする付記16に記載のプログラム。
 [付記18] 前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする付記17に記載のプログラム。
 [付記19] 前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする付記17又は付記18に記載のプログラム。
 [付記20] 前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む付記16から付記19のいずれかに記載のプログラム。
 [付記21] 前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする付記16から付記20のいずれかに記載のプログラム。
 以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
 本出願は、2009年2月13日に出願された日本出願特願2009-031110号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、任意に配置された複数のマイクロホンで観測した複数の話者の音声および雑音の混合音響信号を分離する多チャンネル音響信号処理装置や、多チャンネル音響信号処理装置をコンピュータに実現するためのプログラムといった用途に適用できる。
1       多チャンネル音声検出部
2       オーバーラップ区間検出部
3-1~3-N 特徴量算出部
4       クロストーク量推定部
5       クロストーク除去部
 

Claims (21)

  1.  複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理方法であって、
     前記話者ごと、又は、前記チャンネルごとの音声区間を検出し、
     チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出し、
     前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定し、
     前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去する
    ことを特徴とする多チャンネル音響信号処理方法。
  2.  前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、
     クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とする
    ことを特徴とする請求項1に記載の多チャンネル音響信号処理方法。
  3.  前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項2に記載の多チャンネル音響信号処理方法。
  4.  前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項3に記載の多チャンネル音響信号処理方法。
  5.  前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項3又は請求項4に記載の多チャンネル音響信号処理方法。
  6.  前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項2から請求項5のいずれかに記載の多チャンネル音響信号処理方法。
  7.  前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項1から請求項6のいずれかに記載の多チャンネル音響信号処理方法。
  8.  複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理システムであって、
     前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出部と、
     チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出部と、
     前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定部と、
     前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去部と
    を有することを特徴とする多チャンネル音響信号処理システム。
  9.  前記クロストーク処理対象決定部は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項8に記載の多チャンネル音響信号処理システム。
  10.  前記クロストーク処理対象決定部は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項9に記載の多チャンネル音響信号処理システム。
  11.  前記クロストーク処理対象決定部は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項10に記載の多チャンネル音響信号処理システム。
  12.  前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項10又は請求項11に記載の多チャンネル音響信号処理システム。
  13.  前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項9から請求項12のいずれかに記載の多チャンネル音響信号処理システム。
  14.  前記音声検出部は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項8から請求項13のいずれかに記載の多チャンネル音響信号処理システム。
  15.  複数の話者の音声を含む複数のチャンネルの入力信号を処理する多チャンネル音響信号処理のプログラムであって、
     前記話者ごと、又は、前記チャンネルごとの音声区間を検出する音声検出処理と、
     チャンネル間で前記検出された音声区間が共通する区間であるオーバーラップ区間を検出するオーバーラップ区間検出処理と、
     前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストーク除去処理対象のチャンネルとその区間を決定するクロストーク処理対象決定処理と、
     前記クロストーク除去処理対象としたチャンネルの区間のクロストークを除去するクロストーク除去処理と
    を情報処理装置に実行させることを特徴とするプログラム。
  16.  前記クロストーク処理対象決定処理は、前記検出されたオーバーラップ区間を含まない音声区間を少なくとも用いて、クロストークの影響を推定し、クロストークの影響が大きいチャンネルとその区間を、クロストーク除去処理対象とすることを特徴とする請求項15に記載のプログラム。
  17.  前記クロストーク処理対象決定処理は、前記オーバーラップ区間を含まない音声区間における各チャンネルの入力信号、又は、その入力信号から計算される特徴量を少なくとも用いて、クロストークの影響を判定する
    ことを特徴とする請求項16に記載のプログラム。
  18.  前記クロストーク処理対象決定処理は、前記各チャンネルに対して前記特徴量を算出する区間を、第mのチャンネルで検出された音声区間と、前記第mのチャンネルの音声区間と共通のオーバーラップ区間を有する第nのチャンネルの音声区間と、前記第nのチャンネルの音声区間のうち第mの音声区間以外のチャンネルの音声区間とのオーバーラップ区間とを用いて決定することを特徴とする請求項17に記載のプログラム。
  19.  前記特徴量は、統計量、時間波形、周波数スペクトル、周波数対数スペクトル、ケプストラム、メルケプストラム、音響モデルに対する尤度、音響モデルに対する信頼度、音素認識結果、音節認識結果のうち少なくとも1つを含むことを特徴とする請求項17又は請求項18に記載のプログラム。
  20.  前記クロストークの影響を表す指標が、比、相関値、距離値のうち少なくとも1つを含む請求項16から請求項19のいずれかに記載のプログラム。
  21.  前記音声検出処理は、前記話者ごとの音声区間を、複数のチャンネルのうちのいずれか1つのチャンネルと対応づけて検出することを特徴とする請求項16から請求項20のいずれかに記載のプログラム。
PCT/JP2010/051751 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム WO2010092914A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010550499A JP5605574B2 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム
US13/201,354 US9009035B2 (en) 2009-02-13 2010-02-08 Method for processing multichannel acoustic signal, system therefor, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-031110 2009-02-13
JP2009031110 2009-02-13

Publications (1)

Publication Number Publication Date
WO2010092914A1 true WO2010092914A1 (ja) 2010-08-19

Family

ID=42561756

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/051751 WO2010092914A1 (ja) 2009-02-13 2010-02-08 多チャンネル音響信号処理方法、そのシステム及びプログラム

Country Status (3)

Country Link
US (1) US9009035B2 (ja)
JP (1) JP5605574B2 (ja)
WO (1) WO2010092914A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511029A (ja) * 2012-03-23 2015-04-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景におけるトーカコリジョン
WO2023276159A1 (ja) * 2021-07-02 2023-01-05 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109600179B (zh) * 2017-09-30 2021-04-27 富士通株式会社 信道间线性串扰的估计方法、装置和接收机
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
CN110718238B (zh) * 2018-07-12 2023-08-18 阿里巴巴集团控股有限公司 串音数据检测方法、客户端和电子设备
CN110459237B (zh) * 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4486793A (en) * 1982-07-19 1984-12-04 Dolby Laboratories Licensing Corporation Reduction of crosstalk effects in modulated audio signals carried in adjacent tracks of recorded media
US4649505A (en) * 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US5208786A (en) * 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
DE19736517A1 (de) * 1997-08-22 1999-02-25 Alsthom Cge Alcatel Verfahren zur Reduzierung von Störungen bei der Übertragung eines elektrischen Nachrichtensignals
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
US6771779B1 (en) * 2000-09-28 2004-08-03 Telefonaktiebolaget Lm Ericsson (Publ) System, apparatus, and method for improving speech quality in multi-party devices
US7002897B2 (en) * 2003-04-28 2006-02-21 Solarflare Communications, Inc. Multiple channel interference cancellation
JP4543731B2 (ja) 2004-04-16 2010-09-15 日本電気株式会社 雑音除去方法、雑音除去装置とシステム及び雑音除去用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005195955A (ja) * 2004-01-08 2005-07-21 Toshiba Corp 雑音抑圧装置及び雑音抑圧方法
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2009020460A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015511029A (ja) * 2012-03-23 2015-04-13 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景におけるトーカコリジョン
WO2023276159A1 (ja) * 2021-07-02 2023-01-05 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム

Also Published As

Publication number Publication date
US9009035B2 (en) 2015-04-14
JPWO2010092914A1 (ja) 2012-08-16
JP5605574B2 (ja) 2014-10-15
US20120029915A1 (en) 2012-02-02

Similar Documents

Publication Publication Date Title
JP5605573B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
EP2881948A1 (en) Spectral comb voice activity detection
US8589152B2 (en) Device, method and program for voice detection and recording medium
US9418678B2 (en) Sound processing device, sound processing method, and program
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN107170465B (zh) 一种音频质量检测方法及音频质量检测系统
US8885839B2 (en) Signal processing method and apparatus
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
Roman et al. Pitch-based monaural segregation of reverberant speech
JP5605575B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US20160027438A1 (en) Concurrent Segmentation of Multiple Similar Vocalizations
KR100917460B1 (ko) 잡음제거 장치 및 방법
Han et al. Continuous Speech Separation Using Speaker Inventory for Long Recording.
Kamo et al. Target Speech Extraction with Conditional Diffusion Model
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
KR20100056859A (ko) 음성 인식 장치 및 방법
KR101184394B1 (ko) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
KR100198019B1 (ko) 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
JP2006180392A (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
EP2456184A1 (en) Method for playback of a telephone signal
JP6435133B2 (ja) 音素分割装置、音声処理システム、音素分割方法、および音素分割プログラム
JP2001265368A (ja) 音声認識装置および認識対象検出方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10741191

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010550499

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13201354

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10741191

Country of ref document: EP

Kind code of ref document: A1