WO2006059806A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2006059806A1
WO2006059806A1 PCT/JP2005/022601 JP2005022601W WO2006059806A1 WO 2006059806 A1 WO2006059806 A1 WO 2006059806A1 JP 2005022601 W JP2005022601 W JP 2005022601W WO 2006059806 A1 WO2006059806 A1 WO 2006059806A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
mask
unit
speech recognition
Prior art date
Application number
PCT/JP2005/022601
Other languages
English (en)
French (fr)
Inventor
Kazuhiro Nakadai
Hiroshi Tsujino
Hiroshi Okuno
Shunichi Yamamoto
Original Assignee
Honda Motor Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co., Ltd. filed Critical Honda Motor Co., Ltd.
Priority to JP2006546764A priority Critical patent/JP4157581B2/ja
Priority to EP05814282A priority patent/EP1818909B1/en
Priority to US11/792,052 priority patent/US8073690B2/en
Publication of WO2006059806A1 publication Critical patent/WO2006059806A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to a speech recognition apparatus.
  • the present invention relates to a speech recognition device that is robust against speech that has deteriorated due to noise or input device specifications. Background art
  • a speech recognition device used in a real environment receives speech that has deteriorated due to noise, reverberation, or input device specifications. Spectral meals against this problem
  • ASA Anatory Scene Analysis
  • Voice recognition includes a method of estimating and recognizing the original feature amount of the masked part, and a method of generating and recognizing an acoustic model corresponding to the masked feature amount. Disclosure of the invention
  • the present invention proposes a speech recognition device that improves the robustness of speech recognition for speech input in which degraded feature quantities cannot be identified completely. Means for solving the problem
  • the present invention provides a speech recognition device for recognizing speech from an acoustic signal collected from the outside.
  • This device includes at least two sound detection means for detecting an acoustic signal, a sound source localization unit that determines the direction of the sound source based on the acoustic signal, and a sound source separation that separates sound from the sound source from the sound signal based on the direction of the sound source.
  • a mask generation unit that generates a mask value according to the reliability of the separation result, a feature extraction unit that extracts a feature quantity of the acoustic signal, and recognizes speech from the acoustic signal by applying the mask to the feature quantity
  • a voice recognition unit that generates a mask value according to the reliability of the separation result
  • a feature extraction unit that extracts a feature quantity of the acoustic signal, and recognizes speech from the acoustic signal by applying the mask to the feature quantity
  • a voice recognition unit that generates a mask value according to the reliability of the separation result.
  • the mask value is generated according to the reliability of the result of separating the sound from the sound source from the acoustic signal, the robustness of the speech recognition can be improved.
  • the mask generation unit according to the degree of coincidence between the result of separating the acoustic signal using a plurality of sound source separation methods different from the sound source separation unit and the result of separation by the sound source separation unit Generate the mask value.
  • the mask generation unit generates a mask value according to the passage width for determining whether the sound sources are the same as determined by the sound source direction.
  • the mask generation unit when there are a plurality of sound sources, the mask generation unit generates a mask value by increasing the reliability of the sound source separation result as the mask generation unit is closer to only one of the plurality of sound sources.
  • FIG. 1 is a schematic diagram showing a speech recognition system including a speech recognition device according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of the speech recognition apparatus according to the present embodiment.
  • Fig. 3 is a diagram showing the epipolar geometry of the microphone opium sound source.
  • FIG. 4 is a diagram showing the relationship between the microphone phase difference ⁇ , the frequency f, and the sound source direction 0 S derived from the epipolar geometry.
  • FIG. 5 is a diagram showing the relationship between the phase difference ⁇ between microphones derived from the transfer function, the frequency f, and the sound source direction 0 s.
  • FIG. 6 is a diagram showing the relationship between the sound pressure difference ⁇ p between microphones derived from the transfer function, the frequency f, and the sound source direction ⁇ s .
  • FIG. 7 shows the positional relationship between the microphone and the sound source.
  • FIG. 8 is a diagram showing the time change of the sound source direction ⁇ s .
  • FIG. 9 is a diagram showing the pass width function ⁇ ( ⁇ ).
  • FIG. 10 is a diagram showing the sound source direction S s and the passband.
  • FIG. 11 is a diagram showing subband selection by the phase difference ⁇ in the sound source separation unit.
  • FIG. 12 is a diagram showing subband selection based on the sound pressure difference ⁇ in the sound source separation unit.
  • Figure 13 shows the mask function using the pass width function.
  • FIG. 1 is a schematic diagram showing a speech recognition system including a speech recognition device 10 according to an embodiment of the present invention.
  • a casing 12 having a voice recognition device 10 recognizes a voice emitted by a sound source 14 around it.
  • the sound source 14 emits sound as a means of communication such as humans and robots.
  • Case 1 2 uses speech recognition for the interface of mobile robots and electrical appliances.
  • a pair of microphones 16 a and 16 b for collecting sound from the sound source are installed on both sides of the case 1 2.
  • the positions of the microphones 16 a and 16 b are not limited to both sides of the casing 12, and may be installed at other positions of the casing 12. Further, the number of microphones is not limited to a pair, and a pair or more may be installed.
  • the sound emitted by the sound source 14 is collected by the enclosure 1 2 via the microphone 16.
  • the collected voice is processed by the voice recognition device 10 in the housing 12.
  • the voice recognition device 10 estimates the direction of the sound source 14 from which the voice is emitted and recognizes the content of the voice. Cases 1 and 2 perform tasks according to the content of the voice, for example, and reply by their own speech mechanism.
  • FIG. 2 is a block diagram of the speech recognition apparatus 10 according to the present embodiment.
  • the plurality of microphones 16 a, 16 b collect sound emitted from one or a plurality of sound sources 14, and send an acoustic signal including these sounds to the speech recognition device 10.
  • the sound source localization unit 21 localizes the direction ⁇ 8 of the sound source 14 from the acoustic signals input from the microphones 16 a and 16 b. When the sound source 14 or the device 10 itself is moving, the position of the localized sound source 14 is tracked in the time direction.
  • sound source localization is performed using epipolar geometry, scattering theory, or transfer functions.
  • the sound source separation unit 23 uses the direction information 0 s of the sound source 14 obtained by the sound source localization unit 21 to separate the sound source signal from the input signal.
  • the aforementioned Epipora geometric scattering theory or the phase difference delta phi or microphone Mahon pressure difference delta [rho between microphones is obtained by using a transfer function, a bandpass function simulating a human auditory characteristics, the Perform sound source separation in combination.
  • the mask generation unit 25 generates a mask value depending on whether the separation result of the sound source separation unit 23 is reliable. To determine whether it is reliable, the input signal spectrum and sound source separation results are used. The mask takes a value between 0 and 1, and the closer to 1, the more reliable it is. Each mask value generated by the mask generation unit is applied to the feature value of the input signal used for speech recognition.
  • the feature extraction unit 27 extracts the feature quantity from the spectrum of the input signal.
  • the speech recognition unit 29 obtains the output probability of the feature amount from the acoustic model and performs speech recognition. At that time, the output probability is adjusted by applying the mask generated by the mask generation unit 25. In this embodiment, recognition is performed using a Hidden Malkov Model (HMM).
  • HMM Hidden Malkov Model
  • the sound source localization unit 21 localizes the direction of the sound source 14 from the acoustic signals input from the plurality of microphones 16.
  • the position of the localized sound source 14 is tracked in the time direction.
  • sound source localization using the epipolar geometry of sound sources 14 and 16 (section 2.1), sound source localization using scattering theory (section 2.2), and transfer function are used. Apply one of the sound source localizations described in Section 2.3.
  • the sound source localization process may use other known methods such as beam forming.
  • the sound source direction 0 s is calculated using the epipolar geometry of the microphone 16 and the sound source 14 as shown in FIG.
  • the distance between microphones 16a and 16b is 2b, with the midpoint between the two microphones as the origin and the vertical direction from the origin as the front.
  • V represents the speed of sound
  • b represents the distance between the origin and the microphone
  • represents the angle in the direction of the sound source.
  • groups choose what sound source direction is near and articulatory relationship, the sound source direction theta 8 of that group. When multiple groups are selected, it is considered that there are multiple sound sources, so the direction of each sound source may be obtained. If the number of sound sources is known in advance, it is desirable to select the number of groups corresponding to the number of sound sources.
  • the sound source direction S s is calculated in consideration of the scattered wave from the enclosure 12 where the microphone 16 is installed.
  • the housing 1 2 on which the microphone 16 is installed is the Ropot head and is a sphere of radius b.
  • the center of the head is the origin of polar coordinates ( ⁇ , ⁇ , ⁇ ).
  • ⁇ p (fi) is the sound pressure difference between the two microphones.
  • Pl (fi) is the power of subband fi of microphone 1
  • P2 (fi) is the power of subband £ of microphone 2.
  • V 1 (4)
  • f is the frequency
  • V is the speed of sound
  • R is the distance between the sound source and the observation point
  • Vs represents the potential due to scattered sound
  • P n represents the first kind of Legendre function
  • h n (l) represents the first kind of spherical Hankel function
  • Equation (8) and (9) Enter an appropriate value (for example, every 5 degrees) into 0 in Equations (8) and (9) in advance, and the relationship between frequency and phase difference ⁇ ( ⁇ , fi), or frequency fi and sound pressure difference ⁇ ⁇ ( Find the relationship with ⁇ , £). 8) In ⁇ , or,, let ⁇ be the closest to ⁇ (£) or ⁇ to be the sound source direction ⁇ i of each subband £.
  • a common method for associating phase differences and sound pressure differences with frequencies and sound source directions is to measure transfer functions.
  • the transfer function is created by measuring impulse responses from various directions with microphones 16a and l6b installed in the enclosure 12 (for example, a robot).
  • the sound source direction is localized using this. Sound source localization using the transfer function is performed according to the following procedure.
  • Equation (2) The obtained spectrum is divided into a plurality of frequency regions (subbands), and the phase difference ⁇ (£) of each subpand fi is obtained from Equation (1).
  • the sound pressure difference ⁇ (3 ⁇ 4) of each subpound £ is obtained from Equation (3).
  • ⁇ ( ⁇ , /) arg (S l ())-axg ( ) 3 ⁇ 4 ? 2 ()) (1 0)
  • Figure 5 shows an example of the calculated phase difference ⁇ (f) and sound pressure difference ⁇ ⁇ ( ⁇ , f) for the direction 0 at an arbitrary interval in the range of ⁇ 90 ° and the arbitrary frequency f.
  • Figure 6 Show.
  • the sound source direction ⁇ 8 may be obtained using both ⁇ (£) and ⁇ ptfi).
  • the difference between the distances from the sound source 14 to the microphones 16a and 16b (Fig. 7d) is obtained from the cross-correlation of the input signals of the microphones 16a and 16b.
  • 2 Estimate the sound source direction ⁇ 3 from the relationship with b. This method is carried out according to the following procedure.
  • T represents the frame length.
  • x 2 (t) represents the input signal from the microphone 16 cut out with the frame length T.
  • Equation (1 2) the direction 0 S of the sound source 14 is obtained from Equation (1 2) using the distance 2 b between the microphones and the difference d from the distance from the sound source to the microphone.
  • Figure 8 shows the time variation of the sound source direction 0 s. Tracking a sound source direction theta [rho predicted it to time on whether the locus obtained theta 8 of et al compares the actually obtained e s, smaller than the threshold value the difference is a predetermined In this case, it is determined that the signal is from the same sound source. If it is greater than the threshold, it is determined that the signal is not from the same sound source.
  • the existing time series signal prediction methods such as Kalmanfi 7 letter autoregressive prediction and HMM are used.
  • the sound source separation unit 23 uses the direction information ⁇ s of the sound source 14 obtained by the sound source localization unit 21 to separate the sound source signal from the input signal.
  • separation is performed by combining the above-described epipolar geometry, scattering theory, or inter-microphone phase difference ⁇ or inter-microphone sound pressure difference obtained using the transfer function, and a pass width function simulating human auditory characteristics. The method is described.
  • the method used in the sound source separation unit 23 is a well-known method that uses sound source direction such as beam forming GSS (Geometric Source Separation) and separates sound sources for each subband. May be used.
  • GSS Global System
  • sound source separation is performed in the time domain, it is converted to the frequency domain after separation.
  • sound source separation is performed by the following procedure.
  • Equation (1) receives the sound source direction e s from the sound source localization unit 21, a Sabupando £ phase difference ⁇ ( ⁇ ) or sound pressure difference ⁇ of the scan Bae spectrum of the input signal.
  • ⁇ (£) or ⁇ ( ⁇ ) is obtained using Equation (1) or Equation (3).
  • the pass width function is a function designed based on the human auditory characteristics that the resolution with respect to the sound source direction is high in the front direction and low in the periphery.For example, as shown in Fig. 9, the pass width function in the front direction is narrow, The passing width is wide.
  • the horizontal axis is the horizontal angle when the front face of the housing 12 is 0 [deg].
  • phase difference ⁇ , ⁇ corresponding to 0 ⁇ , 0h is calculated using any of the above-mentioned epipolar geometry (Equation (2) and Fig. 4), scattering theory (Equation (8)), or transfer function (Fig. 5).
  • Figure 11 is a graph showing an example of the relationship between the estimated phase difference and the frequency fi. Or ⁇ , ⁇ ! !
  • the sound pressure difference, p h corresponding to the aforementioned scattering theory (Equation (9)) is estimated by using any of the transfer function (FIG. 6).
  • FIG. 12 is a graph showing an example of the relationship between the estimated sound pressure difference and the frequency £.
  • phase difference is used for low frequency localization
  • sound pressure difference is used for high frequency localization, so that the separation accuracy is increased. Therefore, sub-pands smaller than a predetermined threshold (for example, 1500 [Hz])
  • the phase difference ⁇ ⁇ and a large sub-pand may be selected using the sound pressure difference ⁇ ⁇ .
  • sound source separation may be performed using a spectrum in the mel frequency domain instead of the spectrum in the linear frequency domain described so far.
  • Mel frequency is a human interval measure for pitch, and its value roughly corresponds to the logarithm of the actual frequency.
  • sound source separation in the mel frequency domain is performed according to the following procedure in which filter processing for conversion to the mel frequency is added after step 1) of the processing of the sound source separation unit 23 described above.
  • the sub-pand is smaller than a predetermined threshold (for example, 1500 [Hz]). May be selected using the phase difference ⁇ , and large sub-pands using the sound pressure difference ⁇ p.
  • the mask generation unit 25 generates a mask value depending on whether or not the separation result of the sound source separation unit 23 is reliable.
  • mask generation using information from multiple sound source separation methods (Section 4.1), mask generation using pass width functions (Section 4.2), and mask generation considering the effects of multiple sound sources (Section 4.2) 4. Apply either of 3).
  • the reliability of the flag (0 or 1) set by the sound source separation unit 23 is checked, and the mask value is set in consideration of the flag value and the reliability.
  • the mask takes a value between 0 and 1, and the closer to 1, the more reliable.
  • the result of signal separation by a plurality of sound source separation methods is used to check whether the separation result of the sound source separation unit 23 is reliable, and a mask is generated. This process is performed according to the following procedure.
  • the sound source separation unit 23 performs sound source separation using any of the following elements.
  • phase difference based on epipolar geometry is used for the sound source separation unit 23 method
  • phase difference based on scattering theory iii) sound pressure difference based on scattering theory
  • V Considering the case of using the sound pressure difference based on the transfer function, the mask values in each state are as follows.
  • an appropriate threshold value may be set for the mask value converted to the mel frequency axis, and it may be converted to a binary mask that takes 1 if the threshold is exceeded and 0 otherwise.
  • This method uses the sound source direction e s and the pass width function s (e s ) to generate a mask value according to the proximity to the sound source direction. In other words, the closer to the sound source direction, the more reliable the 1 flag attached by the sound source separation unit 23, and the more the 0 flag attached by the sound source separation unit 23, the more reliable the flag farther from the sound source direction. This process is performed in the following procedure.
  • a mask is generated as follows.
  • the mask value obtained is subjected to mel-scale filter puncture analysis and converted to the mel frequency axis to generate a mask. As described above, this step is not necessary when sound source separation is obtained in the mel frequency domain.
  • an appropriate threshold value may be set for the mask value converted to the mel frequency axis, and it may be converted to a binary mask that takes 1 if the threshold is exceeded and 0 otherwise.
  • the mask value is generated so as to reduce the reliability of the subpand estimated to contain two or more sound source signals.
  • a temporary mask of 0 is generated for subbands that fall under i) or ii), and 1 is generated otherwise.
  • the mask value obtained is subjected to mel-scale filter puncture analysis and converted to the mel frequency axis to generate a mask.
  • sound source separation is This step is not necessary if it is determined in the wavenumber domain.
  • an appropriate threshold value may be set for the mask value converted to the mel frequency axis, and it may be converted to a binary mask that takes 1 if the threshold is exceeded and 0 otherwise.
  • the feature extraction unit 27 obtains a feature amount from the spectrum of the input signal using a generally known method. This process is performed in the following procedure.
  • the voice recognition unit 29 performs voice recognition using an HMM known as a conventional technique.
  • the output probability fOr, S) of a normal continuous HMM when the feature vector ⁇ is in state S is expressed by Eq. (16).
  • f (x ⁇ S) ⁇ P (k ⁇ S) f (x ⁇ k, S) (1 6) where N is the number of mixtures in the mixed normal distribution and P (k To express.
  • Xr is a reliable component of the feature vector and the mask is If it is greater than 0, indicates an unreliable component of the feature vector with a mask of 0.
  • equation (17) can be rewritten as equation (18).
  • S) of the J j-th component can be expressed as in equation (19).
  • is the feature vector
  • j represents the mask of the component
  • the overall output probability O (ATIS) can be expressed as shown in Equation (20).
  • J represents the dimension of the feature vector.
  • Equation (20) can be expressed by Equation (2 1) t
  • Speech recognition is performed using Equation (20) or Equation (2 1).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 本発明は、劣化した特徴量を完全に同定できない音声入力に対して音声認識の頑健性を向上させる音声認識装置(10)を提案する。この装置は、音響信号を検出する少なくとも2つの音検出手段(16a、16b)と、音響信号に基づいて音源の方向を求める音源定位部(21)と、音源の方向に基づいて音響信号から音源による音声を分離する音源分離部(23)と、分離の結果の信頼性に応じてマスクの値を生成するマスク生成部(25)と、音響信号の特徴量を抽出する特徴抽出部(27)と、マスクを特徴量に適用して音響信号から音声を認識する音声認識部(29)と、を有する。

Description

音声認識装置 技術分野
この発明は、 音声認識装置に関する。 特に、 雑音や入力装置の仕様などによつ て劣化した音声に対し頑健な音声認識装置に関する。 背景技術 明
一般に、 実環境で利用される音声認識装置には、 雑音や残響音の混入、 入力装 置の仕様などによって劣化した音声が入力される。 この問題に対し、 スペク トル 食曰
サブトラクションゃプラインド信号分離などの手法を用いて、 音声認識の頑健さ を向上させる取り組みが行われてきた。
これらの取り組みの一環として、 Sheffield大の M. Cookeらは、 ミッシングフィ ーテヤー ¾論を 案してレヽる UVEartin Cooke, et al., "Robust automatic speec recognition with missing and unreliable acoustic data", SPEECH COMMUNICATION 34 , p. 267-285, 2001を参照)。 この手法は、入力音声の特 徴量のうち、 ミッシンダフィーチヤ一 (劣化した特徴量)を同定しマスクしてから 認識することによって音声認識の頑健性向上を図るものであり、 他の手法に比べ て必要な雑音に関する知識が少ない、 という特性を持つ。
ミツシンダフィーチヤ一理論において、 劣化した特徴量の同定は、 劣化してい ない音声の特徴量との差や、 スペク トログラムの局所的な SN比、 あるいは ASA (Auditory Scene Analysis, 聴覚情景分析)によって行われる。 ASAは、 スぺクト ルの調波構造やオンセッ トの同期、 音源の位置など、 同じ音源から放射された音 が共有する手掛かりを利用して、 特徴量の要素をグループ化する方法である。 音 声認識は、 マスクされた部分の元の特徴量を推定して認識する方法や、 マスクさ れた特徴量に対応した音響モデルを生成して認識する方法などがある。 発明の開示
発明が解決しょうとする課題
ミツシンダフィーチヤ一理論で音声認識の頑健性の向上を試みる場合、 劣化し た特徴量の同定に困難を伴うことが多い。 本発明は、 劣化した特徴量を完全に同 定できない音声入力に対して音声認識の頑健性を向上させる音声認識装置を提案 する。 課題を解決するための手段
本発明は、 外部から集音された音響信号から音声を認識するための音声認識装 置を提供する。この装置は、音響信号を検出する少なくとも 2つの音検出手段と、 音響信号に基づいて音源の方向を求める音源定位部と、 音源の方向に基づいて音 響信号から音源による音声を分離する音源分離部と、 分離の結果の信頼性に応じ てマスクの値を生成するマスク生成部と、 音響信号の特徴量を抽出する特徴抽出 部と、 マスクを特徴量に適用して音響信号から音声を認識する音声認識部と、 を 有する。
本発明では、 音源による音声を音響信号から分離した結果の信頼性に応じてマ スクの値を生成するので、 音声認識の頑健性を向上させることができる。
本発明の一実施形態によると、 マスク生成部が、 音源分離部とは異なる複数の 音源分離手法を用いて音響信号を分離した結果と、 音源分離部による分離の結果 との一致度合いに応じてマスクの値を生成する。
本発明の一実施形態によると、 マスク生成部が、 音源方向によって定められる 同一の音源かを判断するための通過幅に応じてマスクの値を生成する。
本発明の一実施形態によると、 複数の音源がある場合には、 マスク生成部が該 複数の音源のいずれか 1つにだけ近いほど音源分離結果の信頼性を高めてマスク の値を生成する。 図面の簡単な説明
図 1は、 本発明の一実施形態による音声認識装置を含む音声認識システムを示す 概略図である。
図 2は、 本実施形態による音声認識装置のプロック図である。
図 3は、 マイクおょぴ音源のェピポーラ幾何を示す図である。
図 4は、 ェピポーラ幾何から導かれたマイク間位相差 Δ φ、 周波数 fおよび音源方 向 0 Sの関係を示す図である。 図 5は、 伝達関数から導かれたマイク間位相差 Δ φ、 周波数 f、 および音源方向 0 s の関係を示す図である。
図 6は、 伝達関数から導かれたマイク間音圧差 Δ p、 周波数 f、 および音源方向 Θ sの関係を示す図である。
図 7は、 マイクおよび音源の位置関係を示す図である。
図 8は、 音源方向 Θ sの時間変化を示す図である。
図 9は、 通過幅関数 δ ( θ )を示す図である。
図 1 0は、 音源方向 S sと通過帯域を示す図である。
図 1 1は、 音源分離部における位相差 Δ φによるサブバンド選択を示す図である。 図 1 2は、音源分離部における音圧差 Δ ρによるサブバンド選択を示す図である。 図 1 3は、 通過幅関数を利用したマスクの関数を示す図である。
符号の説明
1 0 音声認識装置
1 4 音源
1 6 マイク
2 1 音源定位部
2 3 音源分離部
2 5 マスク生成部
2 7 特徴抽出部
2 9 音声認識部 発明を実施するための最良の形態
1 . 概略
次に図面を参照して、 この発明の実施の形態を説明する。 図 1は、 本発明の一 実施形態による音声認識装置 1 0を含む音声認識システムを示す概略図である。 図 1に示すように、 このシステムは、 音声認識装置 1 0を備えた躯体 1 2が、 その周囲にある音源 1 4の発する音声を認識するものである。 音源 1 4は、 人間 やロボットなどコミュ-ケーション手段として音声を発するものである。 躯体 1 2は、 移動ロボットや電化製品など、 インタフェースに音声認識を用いるもの である。 躯体 1 2の両側には、 音源からの音声を集音するための一対のマイク 1 6 a、 1 6 bが設置されている。 なお、 マイク 1 6 a、 1 6 bの位置は、 躯体 1 2の両 側に限定されることなく、 躯体 1 2の他の位置に設置されても良い。 また、 マイ クは、 一対に限定されることなく、 一対以上の個数が設置されても良い。
このシステムは、 音源 1 4が発した音声を、 マイク 1 6を介して躯体 1 2が集 音する。 集音された音声は躯体 1 2内の音声認識装置 1 0で処理される。 音声認 識装置 1 0は、 音声が発せられた音源 1 4の方向を推定し、 音声の内容を認識す る。 躯体 1 2は例えば音声の内容に応じたタスクを実施したり、 自身の発話機構 によって回答したりする。
つづいて、 音声認識装置 1 0の詳細について説明する。 図 2は、 本実施形態に よる音声認識装置 1 0のブロック図である。
複数のマイク 1 6 a、 1 6 bは、 単数または複数の音源 1 4が発した音声を集 音し、 これらの音声を含む音響信号を音声認識装置 1 0に送る。
音源定位部 2 1は、 マイク 1 6 a、 1 6 bより入力された音響信号から音源 1 4の方向 θ 8を定位する。また、音源 1 4や装置 1 0自体が移動している場合は、 定位された音源 1 4の位置を時間方向に追跡する。 本実施形態では、 ェピポーラ 幾何、 散乱理論、 または伝達関数を利用して音源定位を実施する。
音源分離部 2 3は、音?原定位部 2 1で求められた音源 1 4の方向情報 0 sを利用 し、入力信号から音源信号を分離する。本実施形態では、前述のェピポーラ幾何、 散乱理論、 または伝達関数を利用して得られるマイク間位相差 Δ φまたはマイク 間音圧差 Δ Ρと、 人間の聴覚特性を模した通過幅関数と、 を組み合わせて音源分 離を実施する。
マスク生成部 2 5は、 音源分離部 2 3の分離結果が信頼できるかどうかに応じ て、 マスクの値を生成する。 信頼できるかどうかを求めるのに、 入力信号のスぺ タトルや音源分離の結果を利用する。 マスクは 0〜1の値をとり、 1に近いほど 信頼できる。 マスク生成部で生成されたマスクの値はそれぞれ、 音声認識に用い られる入力信号の特徴量に適用される。
特徴抽出部 2 7は、 入力信号のスぺク トルより特徴量を抽出する。
音声認識部 2 9は、音響モデルより特徴量の出力確率を求め、音声認識を行う。 その際、 マスク生成部 2 5で生成したマスクを適用して、 出力確率を調整する。 本実施形態では、 隠れマルコフモデル (Hidden Malkov Model: HMM) によつ て認識を行う。
以下、 音声認識装置 1 0の各構成要素で行われる処理について説明する。 2 . 音源定位部
音源定位部 2 1は、 複数のマイク 1 6より入力された音響信号から音源 1 4の 方向を定位する。 また、 音源 1 4や装置 1 0自体が移動している場合は、 定位さ れた音源 1 4の位置を時間方向に追跡する。 本実施形態では、 音源 1 4およぴマ イク 1 6のェピポーラ幾何を利用した音源定位 ( 2 . 1節) 、 散乱理論を利用し た音源定位 ( 2 . 2節) 、 および伝達関数を利用した音源定位 ( 2 . 3節) のう ち 1つを適用する。 なお、 音源定位の処理は、 ビームフォーミングなど、 その他 の公知の方法を用いてもよい。
2 . 1 音源おょぴマイクのェピポーラ幾何を利用した音源定位
この方法は、 図 3に示されるような、 マイク 1 6と音源 1 4のェピポーラ幾何 を利用して音源方向 0 sを算出する。 図 3では、マイク 1 6 aおよびマイク 1 6 b 間の距離は 2 bであり、 両マイク間の中点を原点とし、 原点から垂直方向を正面 としている。
なお、 ェピポーラ幾何の詳細については、 例えば中臺他、 "アクティブオーデ イションによる複数音源の定位 ·分離'認識"、 AI Challenge研究会、 pp. 1043-1049、 人工知能学会、 2002を参照されたい。
ェピポーラ幾何を利用した音源定位は、 以下の手順で実施される。
1 ) マイク 1 6 a、 1 6 bから入力された音響信号を FFTなどで周波数分析し、 スぺクトノレ S1 ( 、 S2(f)を求める。
2 ) 得られたスペク トルを複数の周波数領域 (サブパンド) に分割し、 各サブ バンド £の位相差 Δ φ(£)を、 式 (1 ) より求める。
Figure imgf000007_0001
ここで、 Δ φ(¾) は のマイク間位相差である。 Im[Sl(fi)]は、 マイク 1のサブバ ンド £におけるスぺクトル Sl(fi)の虚部であり、 Re[Sl(fi)]は、 マイク 1のサプパ ンド fiにおけるスペクトル Sl(fi)の実部である。 Im[S2(fi)]は、 マイク 2のサブパ ンド におけるスぺクトル S2(fi)の虚部であり、 Re[S2(fi)]は、 マイク 2のサブバ ンド £におけるスぺクトル S2(fi)の実部である。
3) ェピポーラ幾何 (図 3) を利用して式 (2) を導出する。 Αφ(θ, ;) = ¾ X b{9 + sin Θ) (2)
V
ここで、 Vは音速を表し、 bは原点とマイクとの距離を表し、 Θは音源方向の角 度を表す。
式 (2) の Θに一 9 0度から + 9 0度の範囲で例えば 5度おきに代入して、 図 4に示すような周波数もと位相差 Δ φとの関係を求める。 図 4に示す関係を用いて、 Δφ(β) にもつとも近い Δφ(θ, の Θを求め、 この 0をサブバンド の音源方向 0iとする。
4) 各サブバンドの音源方向 Siと周波数から、 音源方向が近くかつ調音関係に あるものを選んでグループ化し、 そのグループの音源方向 θ8とする。 なお、複数 のグループが選別された場合、 複数の音源が存在すると考えられるので、 それぞ れの音源方向を求めても良い。 あらかじめ音源の数が分かっている場合は、 音源 の数に対応したグループ数を選ぶのが望ましい。
2. 2 散乱理論を利用した音源定位
この方法は、 マイク 1 6を設置する躯体 1 2による散乱波を考慮して、 音源方 向 Ssを算出する。ここではマイク 1 6を設置する躯体 1 2をロポットの頭部とし、 半径 bの球と仮定する。 また、 頭部の中心を極座標 (τ, θ , φ) の原点とする。 なお、 散乱理論の詳細については、 例えば Lax et al" "Scattering Theory", Academic Press, NY., 1989を参照されたい。
散乱理論を利用した音源定位は、 以下の手順で実施される。
1 ) マイク 1 6 a、 1 6 bから入力された音響信号を、 : FFTなどで周波数分析 しスぺクトノレ Sl( >、 S2(f)を求める。
2) 得られたスペクトルを複数の周波数領域 (サブパンド) に分割し、 各サブ パンド fiの位相差 Δφ(£) を、 式 (1 ) より求める。 または、 各サブパンド £の音 圧差厶 を、 式 (3) より求める。
Figure imgf000009_0001
ここで、 Δ p (fi) は両マイク間音圧差である。 Pl(fi)はマイク 1のサブバンド fiの パワーであり、 P2(fi) はマイク 2のサブバンド £のパワーである。
3 ) 音源 14の位置を = (r0) 0, 0)、 観測点 (マイク 16)の位置を 2·= (b, 0, 0)、 音源と観測点の距離を R=l ー ι·|とすると、 ロポット頭部における直接音による ポテンシャル Viは、 式 (4) で定義される。
.2 Rf
V 1 = (4)
InRf
ここで、 f は周波数であり、 Vは音速であり、 Rは音源と観測点の距離である
4) ロボット頭部における音源方向 0からの直接音と散乱音によるポ
ル S(0,f) は、 式 (5) で定義される。
S(0,f) = V +vs
/
(1)
, ν 、2 \ (5)
(2n + l)Pn(cosの- 、 V
2 bf
h (1). f 2τώ
f ここで、 Vsは散乱音によるポテンシャルを表し、 Pnは第一種ルシャンドル (Legendre) 関数を表し、 hn(l)は第一種球ハンケル関数を表す。
5) マイク 16 aの極座標を (b, π/2, 0)、 マイク 16 bの極座標を (b,— π/2, θ) とすると、 各マイクでのポテンシャルは、 式 (6) 、 (7) で表される。
Sl(6,f) = S(7r/2— 0,f) (6)
S2(0,f) = S(_ 7c/2_ 0,f) (7)
6)音源の方向 Θと、各サブパンド fiにおける位相差 Δφ(θ , fi),音圧差 Δ ρ(θ , fi) は、 それぞれ式 (8) 、 (9) によって関係付けられる。
>i ,fd = arg(Sl ( arg(S2( )) ( 8 )
A (^/;.) = 201og 帥,/; .)1
10 (9)
, ) I
7) 予め式 (8) 、 ( 9)の 0に適当な値 (例えば 5度毎) を入れ、 周波数 と 位相差 Δ φ( Θ, fi)との関係、または周波数 fiと音圧差 Δ Ρ ( Θ, £)との関係を求める。 8) 屮 , または , の中で、 Δφ(£)または Δ にもつとも近い θ を、 各サブバンド £の音源方向 Θ iとする。
9) 各サブパンドの音源方向 6iと周波数から、 音源方向が近くかつ調音関係に あるものを選んでグループ化し、 そのグループの音源方向 とする。 なお、 複数 のグループが選別された場合、 複数の音源が存在すると考えられるので、 それぞ れの音源方向を求めても良い。 あらかじめ音源の数が分かっている場合は、 音源 の数に対応したグループ数を選ぶのが望ましい。 また、 Δφ(£)、 Δ ρ (£)の両方を 使って音源方向 Θ sを求めてもよい。
2. 3 伝達関数を利用した音源定位
位相差や音圧差と周波数、 音源方向を対応づけるのに一般的な方法は、 伝達関 数の測定である。 伝達関数は、 躯体 1 2 (たとえばロボット) に設置したマイク 1 6 a、 l 6 bで、さまざまな方向からのインパルス応答を測定して作成される。 これを用いて音源方向を定位する。 伝達関数を利用した音源定位は、 以下の手順 で実施される。
1 ) ,マイク 1 6 a、 1 6 bから入力された音響信号を、 FFTなどで周波数分析 しスぺクトノレ Sl(f;)、 S2(f)を求める。
2) 得られたスぺク トルを複数の周波数領域 (サブバンド) に分割し、 各サブ パンド fiの位相差 Δφ(£) を、 式 ( 1 ) より求める。 または、 各サブパンド £の音 圧差 Δ ρ(¾) を、 式 (3) より求める。
3) 適当な間隔 (例えば 5度間隔) で ± 9 0度の範囲で、 インパルス応答を計 測して伝達関数を取得する。 方向 Θごとにィンパルス応答をマイク 1 6 a、 1 6 bで測定して FFTなどの手法で周波数分析し、ィンパルス応答に対する各周波数 f のスペク トル (伝達関数) Spl(f;)、 Sp2(f) を求める。 伝達関数 Spl(f;)、 Sp2(f)よ り、 位相差 Δφ(θ, f) およぴ音圧差 Δ f) を以下の式 (1 0) 、 式 (1 1 ) を用いて求める。
Αφ(θ,/) = arg(S l( ))-axg()¾?2( )) ( 1 0)
Figure imgf000010_0001
± 9 0度の範囲の任意の間隔の方向 0と任意の周波数 f について上記計算を行い、 算出された位相差 Δφ( f) およぴ音圧差 Δ ρ (θ, f) の一例を図 5およぴ図 6に 示す。
4) 図 5または図 6に示す関係を用いて、 Δφ(£) または A ptfi) にもつとも近 い Θを求め、 それを各サブパンド の音源方向 0iとする。
5) 各サブバンドの音源方向 0iと周波数から、音源方向が近くかつ調音関係に あるものを選んでグループ化し、 そのグループの音源方向 esとする。 なお、複数 のグループが選別された場合、 複数の音源が存在すると考えられるので、 それぞ れの音源方向を求めても良い。 また、 Δφ(£)、 Δ ptfi)の両方を使って音源方向 θ8を求めてもよい。
2. 4 各マイクの入力信号の相互相関を利用した音源定位
この方法は、 マイク 1 6 a、 1 6 bの入力信号の相互相関から、 音源 1 4から マイク 1 6 aおよびマイク 1 6 bへの距離の差 (図 7の d) を求め、 マイク間距 離 2 bとの関係から音源方向 θ3を推定する。この方法は以下の手順で実施される。
1 ) マイク 1 6 aおよびマイク 1 6 bに入力された信号の相互相関 CC(T)を 式 (1 1) で計算する。
Figure imgf000011_0001
ここで、 Tはフレーム長を表す。 はフレーム長 Τで切り出されたマイク 1 6 aからの入力信号を表し、 x2(t)はフレーム長 Tで切り出されたマイク 1 6 から の入力信号を表す。
2) 得られた相互相関からピークを抽出する。 抽出するピーク数は、 あらかじ め音源数が分かっている場合は、 音減数と同数を抽出するのが望ましい。 抽出し たピークの時間軸上での位置が、 マイク 1 6 aおよびマイク 1 6 bへの信号の到 達時間差を示す。
3) 信号の到達時間差と音速より、 音源 1 4からマイク 1 6 a、 1 6 までの 距離の違い (図 7の d) を算出する。
4) 図 7に示すように、 マイク間距離 2 bおよび音源からマイクへの距離の差 dを用いて、 式 (1 2) から音源 1 4の方向 0Sを求める。
Θ s = arcsin(d/2b) (1 3)
複数のピークを抽出した場合は、 それぞれ音源方向 Θ sを求める。
2. 5 音源方向追跡 音源 14または躯体 12が移動する場合には、音源方向の追跡を行う。図 8は、 音源方向 0 sの時間変化を示す。 追跡は、 それまでの時刻で得られた θ8の軌跡か ら予測される音源方向 Θρと、 実際に得られた e sとを比較し、 その差が予め定め たしきい値よりも小さい場合には、 同一音源からの信号と判断し、 しきい値より も大きい場合は、 同一音源からの信号ではないと判断して行う。 予測には、 カル マンフィ 7レタゃ自己回帰予測、 HMM等、 既存の時系列信号予測手法を用いる。
3. 音源分離部
音源分離部 23は、音源定位部 21で求められた音源 14の方向情報 Θ sを利用 し、入力信号から音源信号を分離する。本実施形態では、前述のェピポーラ幾何、 散乱理論、 または伝達関数を利用して得られるマイク間位相差 Δφまたはマイク 間音圧差 と、 人間の聴覚特性を模した通過幅関数と、 を組み合わせた分離方 法について述べる。 しかし、 音源分離部 23で用いる手法は、 ビームフォーミン グゃ GSS (Geometric Source Separation, 幾何学的信号源分離) など、 音源方 向を利用し、 かつサブバンドごとに音源分離をする公知の手法を用いてもよい。 音源分離が時間領域で行われる場合は、 分離の後周波数領域に変換する。 本実施 形態では音源分離は以下の手順で実施される。
1) 音源定位部 21より音源方向 e sと、 入力信号のスぺクトルのサブパンド £ の位相差 Δφ(ίί) または音圧差 Δ を受け取る。 音源分離部 23で周波数領域 における音源定位の手法を用いない場合には、 ここで式 (1) または式 (3) を 用いて Δφ(£) または Δ ρ(β) を求める。
2) 音源方向と通過幅の関係を示す通過幅関数を用いて、 音源定位部 21で得 られた音源方向 に対応する通過幅 δ(θ8) を求める。
通過幅関数は、 音源方向に対する解像度が正面方向では高く周辺では低いとい う人の聴覚特性に基づき設計された関数であり、 例えば図 9に示すように正面方 向の通過幅が狭く、 周辺の通過幅が広くなつている。 横軸は、 躯体 12の正面を 0[deg]とした場合の水平角である。
3) 得られた S(0S)より、 通過帯域の下限 61と上限 6 h (図 8に例示) を、 式 (1 0) を用いて算出する。 θ, = θ - δ(θ5) , λ
s パノヽ (1 4)
0h = θ + δ(θε)
4) 0ι、 0hに対応する位相差 Δφι、 厶 を、 前述のェピポーラ幾何 (式 (2) および図 4)、散乱理論 (式(8) )、伝達関数 (図 5)のいずれかを用いて推定する。 図 1 1は推定した位相差と周波数 fiとの関係の一例を示すグラフである。 または、 θι、 ^!!に対応する音圧差 、 phを、 前述の散乱理論 (式 (9) ) 、 伝達関 数 (図 6) のいずれかを用いて推定する。 図 1 2は推定した音圧差と周波数 £と の関係の一例を示すグラフである。
5)各サブパンドの Δφ(£) または A ptfi) 力 通過帯域内にあるかどうか調べ、 通過帯域内のものを選択する (図 1 1、 図 1 2) 。 一般に、 低周波数の定位は位 相差、 高周波数の定位は音圧差を利用するほうが、 分離精度が増すと言われてい るので、 予め定めたしきい値 (例えば 1500[Hz]) より小さいサブパンドは位相差 厶 φを、 大きいサブパンドは音圧差 Δ ρを使って選択しても良い。
6) 選択されたサブパンドのフラグを 1に設定し、 選択されなかったサブパン ドのフラグを 0に設定する。 1のフラグがついたサブバンドが、 音源信号として 分離される。
なお、 音源分離を、 今まで述べてきた線形周波数領域のスペク トルではなく、 メル周波数領域のスペクトルで行ってもよい。 メル周波数とは、 音の高低に対す る人間の間隔尺度であり、 その値は実際の周波数の対数にほぼ対応する。 この場 合は、 前述の音源分離部 2 3の処理のステップ 1) の後に、 メル周波数に変換す るフィルタ処理を加えた以下の手順で、 メル周波数領域での音源分離を行う。
1) マイク 1 6 a、 1 6 bに入力された信号を、 FFTなどで周波数分析しスぺ クトル Sl(f)、 S2(f)を求める。
2) メル周波数領域で等間隔に配置した三角窓 (例えば 24個) によりフィル タバンク分析を行う。
3)得られたメル周波数領域スぺク トルの各サブバンド mj の位相差 Δφ(η¾) を 式(1) (ただし £→mj) より求める。 またはマイク間音圧差 Δ Ρ(π¾·)を、式(3) (ただし £→π¾) より求める。
4) 音源方向と通過幅の関係を示す通過幅関数 (図 9) を用いて、 音源定位部 2 1で得られた音源方向 Θ sに対応する通過幅 δ (0 s)を求める。 5) 得られた S(0S)より、 通過帯域の下限 θιと上限 6hを、 式 (10) を用い て算出する。
6) 0i、 0hに対応する位相差 Δφι、 Δφΐ!を、 前述のェピポーラ幾何 (式 ( 2 ) および図 4) 、 散乱理論 (式 (8) ) 、 伝達関数 (図 5) のいずれかを用いて推 定する。 または、 θι、 0hに対応する音圧差 Δ P1、 A Phを、 前述の散乱理論 (式 (9) ) 、 伝達関数 (図 6) のいずれかを用いて推定する。
7)各メル周波数の Δφ(π¾·)または Δ p(mj)が、通過帯域内にあるかどうか調べ、 通過帯域内のものを選択する。 一般に、 低周波数の定位は位相差、 高周波数の定 位は音圧差を利用するほうが、 分離精度が増すと言われているので、 予め定めた しきい値 (例えば 1500[Hz]) より小さいサブパンドは位相差 Δ φを、 大きいサブ パンドは音圧差 Δ pを使って選択しても良い。
8) 選択されたメル周波数に 1のフラグを設定し、 選択されなかったメル周波 数に 0のフラグを設定する。 1のフラグがついたメル周波数を分離された信号と する。
なお、 音源分離がメル周波数領域で求められた場合、 後述するマスク生成部 2 5で行われるメル周波数への変換は不要となる。
4. マスク生成部
マスク生成部 25は、 音源分離部 23の分離結果が信頼できるかどうかに応じ て、 マスクの値を生成する。 本実施形態では、 複数の音源分離方法からの情報を 利用したマスク生成(4. 1節)、通過幅関数を利用したマスク生成(4. 2節)、 複数音源の影響を考慮したマスク生成 (4. 3節) のいずれかを適用する。 音源 分離部 23で設定されたフラグ (0または 1) の信頼度を調べ、 フラグの値と信 頼度を考慮してマスクの値を設定する。 マスクは 0〜1の値をとり、 1に近いほ ど信頼できるものとする。
4. 1 複数の音源分離方法からの情報を利用したマスク生成
ここでは、 複数の音源分離方法による信号分離の結果を用いて、 音源分離部 23の分離結果が信頼できるかどうかを確認し、 マスクを生成する。 この処理は 以下の手順で実施される。
1) 音源分離部 23で用いられていない音源分離手法を少なくとも 1つ用いて 音源分離を行い、 音源分離部 2 3と同様にサブパンドごとにフラグを立てる。 本 実施形態では、 音源分離部 2 3では以下の要素のいずれかを用いて音源分離が実 施される。
i) ェピポーラ幾何に基づく位相差
ii) 散乱理論に基づく位相差
iii) 散乱理論に基づく音圧差
iv) 伝達関数に基づく位相差
V) 伝達関数に基づく音圧差
2 ) 音源分離部 2 3で得られたフラグと、 1 ) で得られたフラグのそれぞれが 一致しているかどうかを調べ、 マスクを生成する。 例えば、 音源分離部 2 3の手 法に i)ェピポーラ幾何に基づく位相差を用い、 マスク生成部 2 5の手法に ii)散乱 理論に基づく位相差、 iii)散乱理論に基づく音圧差、 および V)伝達関数に基づく音 圧差を用いる場合を考えると、 各状態におけるマスクの値は以下のようになる。
[表 1 ]
Figure imgf000015_0001
3 ) 得られたマスク値を、 メルスケールのフィルタバンク分析を行って、 メル 周波数軸に変換し、 マスクを生成する。 なお、 上述のように、 音源分離がメル周 波数領域で求められた場合には、 このステップは不要である。
また、 メル周波数軸に変換したマスクの値に対して適当なしきい値を設けてお き、 しきい値を超えたものは 1、 そうでないものは 0をとる二値マスクに変換し てもよい。
4 . 2 通過幅関数を利用したマスク生成 この方法では、音源方向 esと通過幅関数 s(es)を利用し、音源方向との近さに よってマスク値を生成する。 つまり、 音源方向に近いほど、 音源分離部 23で付 された 1のフラグは信頼でき、 音源方向から遠いほど、 音源分離部 23で付され た 0のフラグは信頼できると考える。 この処理は以下の手順で実施される。
1) 音源定位部 21より、 音源方向 θ8と入力信号を受け取る。
!r o
2) 入力信号より、 各サブバンドの音源方向 Siを求める (音源定位部 21で音 源方向が求められている場合は、 それを利用する) 。
3 ) 音源分離部 23より、 通過幅 δ ( Θ s)と各サブバンドものフラグを受け取る (以下 0tとする)。
4) 0 tを用いてマスクの関数を生成し、各サブパンドの 0iと比べて仮マスクを 求める。 関数は次式のように与えられ、 図 13に示すような挙動となる。
1 (-π≤ etε -2Θ()
(0S -20tί <6S
θ(
θ θ.
θ.
仮マスク (15)
(0S <Qi <θ +0t)
{0S +0t< 9i < 6S +20t)
1 φ5 +2θ(≤θι<π)
5 ) 音源分離部 23で求めたサプバンド £のフラグと、 ステップ 4 ) で求めた 仮マスクから、 以下の通りマスクを生成する。
[表 2] フラグ 仮マスク マスク値
0 1 0
0 1 >仮マスク > 0 饭マスクの値
0 0 1
1 1 1
1 1 >仮マスク > 0 仮マスクの値
1 0 0 6) 得られたマスク値を、 メルスケールのフィルタパンク分析を行って、 メル 周波数軸に変換し、 マスクを生成する。 なお、 上述のように、 音源分離がメル周 波数領域で求められた場合には、 このステツプは不要である。
また、 メル周波数軸に変換したマスクの値に対して適当なしきい値を設けてお き、 しきい値を超えたものは 1、 そうでないものは 0をとる二値マスクに変換し てもよい。
4. 3 複数音源の影響を考慮したマスク生成
ここでは、 音源が複数ある場合に、 2つ以上の音源の信号が含まれていると推 定されるサブパンドの信頼性を下げるように、 マスク値を生成する。
1) 音源定位部 21より、 音源方向 ssl, es2, ...と入力信号を受け取る。
2) 入力信号より、 各サブパンドの音源方向 Siを求める。 音源定位部 21で音 源方向が求められている場合は、 それを利用する。
3) 音源分離部 23より、 各音源方向 Θ31, …の通過帯域^ ^^)、 (Θΐ2, 0h2)、 …とフラグを受け取る。
4 ) 各サブバンドの音源方向 Θ iが、
i) 2つ以上の音源の通過帯域 ( θ 1, Θ h) に含まれている
ii) その音源の通過帯域にも含まれていない
かどうか調べ、 i)または ii)にあてはまるサブバンドには 0、 それ以外には 1の仮 マスクを生成する。
5) フラグと仮マスクより、 以下の通りマスク.を生成する。
[表 3]
Figure imgf000017_0001
6) 得られたマスク値を、 メルスケールのフィルタパンク分析を行って、 メル 周波数軸に変換し、 マスクを生成する。 なお、 上述のように、 音源分離がメル周 波数領域で求められた場合には、 このステップは不要である。
また、 メル周波数軸に変換したマスクの値に対して適当なしきい値を設けてお き、 しきい値を超えたものは 1、 そうでないものは 0をとる二値マスクに変換し てもよい。
5. 特徴抽出部
特徴抽出部 27は、 一般的に知られる手法を用いて、 入力信号のスペクトルよ り特徴量を求める。 この処理は以下の手順で実施される。
1) FFT等でスペクトルを求める。
2) メル周波数領域で等間隔に配置した三角窓 (例えば 24個) によりフィルタ バンク分析を行う。
3) 分析結果の対数をとり、 メル周波数対数スペクトルを得る。
4) 対数スペクトルを離散コサイン変換する。
5) ケプストラム係数の 0次と高次 (例えば 13次から 23次) の項を 0にする。
6) ケプストラム平均除去を行う。
7) 逆離散コサイン変換を行う。
以下、求められた特徴量を、特徴ベクトル; r=(xi,X2, … ,xj, ,,,xj)として扱う。
6. 音声認識部
本実施形態では、 音声認識部 29は、 従来技術として知られる HMMによって 音声認識を行う。
特徴べク トル χ、 状態 Sの時の通常の連続分布型 HMMの出力確率 fOr, S) は、 式 (16) で表される。 f{x\S) =∑P(k\S)f(x\k,S) (1 6) ここで、 Nは混合正規分布の混合数を表し、 P(k|S)は混合比を表す。
ミツシンダフィーチヤ一理論に基づく音声認識では、 f(x, S)を Xの確率密度関 数 p(x)で平均したものを利用する。 f^ls) =∑P(k\S)f(xr \k,S) (1 7)
=1
ここで、 とし、 Xrは特徴べクトルのうち信頼できる成分で、 マスクが 0より大きいもの、 は特徴ベクトルのうち信頼できない成分で、 マスクが 0 のものを示す。
信頼できない特徴成分が [0, ]の範囲に一様分布すると仮定すると、 式 (1 7) は、 式 (1 8) に書き直せる。 I S)f(xr I k,S)— f(x'r I k,s)i u (1 8)
Figure imgf000019_0001
J j番目の成分の出力確率 o(Xj|S)は、 式 (1 9) のように表せる。
I M(j)f(xj \S) + (l -MU))f(Xj I S) ifM(j)≠ 0
(1 9)
I I otherwise
.こで、 Μφは特徴べクトルの; j番目の成分のマスクを表す。
全体の出力確率 O(ATIS)は、 式 (20) のように表せる。
。(ズ| = Π。( S) (2 0)
.こで Jは特徴べクトルの次元を表す。
式 (20) は、 式 (2 1) でも表せる t
N
(x I S) = Yp(k 1 S)exp Klog/fe I k,S) (2 1)
式 (20) または式 (2 1) を用いて音声認識を行う。
以上にこの発明を特定の実施例について説明したが、
実施例に限定されるものではなレ、。

Claims

請求 の 範 囲
1 . 外部から集音された音響信号から音声を認識するための音声認識装置であ つて、
前記音響信号を検出する少なくとも 2つの音検出手段と、
前記音響信号に基づいて音源の方向を求める音源定位部と、
前記音源の方向に基づいて前記音響信号から前記音源による音声を分離する音 源分離部と、
前記分離の結果の信頼性に応じてマスクの値を生成するマスク生成部と、 前記音響信号の特徴量を抽出する特徴抽出部と、
前記マスクを前記特徴量に適用して前記音響信号から音声を認識する音声認識 部と、
を有する音声認識装置。 .
2 . 前記マスク生成部が、 前記音源分離部とは異なる複数の音源分離手法を用 いて前記音響信号を分離した結果と、 前記音源分離部による前記分離の結果との 一致度合いに応じて前記マスクの値を生成する、請求項 1に記載の音声認識装置。
3 . 前記マスク生成部が、 音源方向によって定められる同一の音源かを判断す るための通過幅に応じて前記マスクの値を生成する、 請求項 1に記載の音声認識 装置。
4 . 複数の音源がある場合には、 前記マスク生成部が該複数の音源のいずれか 1つにだけ近レ、ほど前記分離の結果の信頼性を高めて前記マスクの値を生成する、 請求項 1に記載の音声認識装置。
PCT/JP2005/022601 2004-12-03 2005-12-02 音声認識装置 WO2006059806A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006546764A JP4157581B2 (ja) 2004-12-03 2005-12-02 音声認識装置
EP05814282A EP1818909B1 (en) 2004-12-03 2005-12-02 Voice recognition system
US11/792,052 US8073690B2 (en) 2004-12-03 2005-12-02 Speech recognition apparatus and method recognizing a speech from sound signals collected from outside

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63335104P 2004-12-03 2004-12-03
US60/633,351 2004-12-03

Publications (1)

Publication Number Publication Date
WO2006059806A1 true WO2006059806A1 (ja) 2006-06-08

Family

ID=36565223

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/022601 WO2006059806A1 (ja) 2004-12-03 2005-12-02 音声認識装置

Country Status (4)

Country Link
US (1) US8073690B2 (ja)
EP (1) EP1818909B1 (ja)
JP (1) JP4157581B2 (ja)
WO (1) WO2006059806A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191759A (ja) * 2010-03-11 2011-09-29 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012088390A (ja) * 2010-10-15 2012-05-10 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体
JP2013250380A (ja) * 2012-05-31 2013-12-12 Yamaha Corp 音響処理装置
JPWO2018207453A1 (ja) * 2017-05-08 2020-03-12 ソニー株式会社 情報処理装置
JP2022533300A (ja) * 2019-03-10 2022-07-22 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
WO2009093416A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音声信号処理装置および方法
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
WO2011055410A1 (ja) * 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
KR101670313B1 (ko) * 2010-01-28 2016-10-28 삼성전자주식회사 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
US20120045068A1 (en) * 2010-08-20 2012-02-23 Korea Institute Of Science And Technology Self-fault detection system and method for microphone array and audio-based device
JP5810903B2 (ja) * 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US9210499B2 (en) 2012-12-13 2015-12-08 Cisco Technology, Inc. Spatial interference suppression using dual-microphone arrays
FR3011377B1 (fr) * 2013-10-01 2015-11-06 Aldebaran Robotics Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede
WO2015057661A1 (en) * 2013-10-14 2015-04-23 The Penn State Research Foundation System and method for automated speech recognition
US9911416B2 (en) * 2015-03-27 2018-03-06 Qualcomm Incorporated Controlling electronic device based on direction of speech
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
EP3157268B1 (en) * 2015-10-12 2021-06-30 Oticon A/s A hearing device and a hearing system configured to localize a sound source
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP6723120B2 (ja) 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
CN107644650B (zh) * 2017-09-29 2020-06-05 山东大学 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统
JP7013789B2 (ja) * 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
EP3704873B1 (en) 2017-10-31 2022-02-23 Widex A/S Method of operating a hearing aid system and a hearing aid system
CN108520756B (zh) * 2018-03-20 2020-09-01 北京时代拓灵科技有限公司 一种说话人语音分离的方法及装置
WO2019198306A1 (ja) * 2018-04-12 2019-10-17 日本電信電話株式会社 推定装置、学習装置、推定方法、学習方法及びプログラム
WO2021226515A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6967455B2 (en) * 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAMAMOTO S. ET AL: "Assessment of general applicability of robot audition system by recognizing three simultaneous speeches.", PROCEEDINGS OF THE 2004 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS., 28 September 2004 (2004-09-28), pages 2111 - 2116, XP002995569 *
YAMAMOTO S. ET AL: "Evaluation of MFT-Based Interface between Sound Source Separation and ASR.", ANNUAL CONFERENCE OF THE ROBOTICS SOCIETY OF JAPAN YOKOSHU, vol. 22, 15 September 2004 (2004-09-15), pages 1C33, XP002995570 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191759A (ja) * 2010-03-11 2011-09-29 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012088390A (ja) * 2010-10-15 2012-05-10 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2013097273A (ja) * 2011-11-02 2013-05-20 Toyota Motor Corp 音源推定装置、方法、プログラム、及び移動体
JP2013250380A (ja) * 2012-05-31 2013-12-12 Yamaha Corp 音響処理装置
JPWO2018207453A1 (ja) * 2017-05-08 2020-03-12 ソニー株式会社 情報処理装置
JP7103353B2 (ja) 2017-05-08 2022-07-20 ソニーグループ株式会社 情報処理装置
US11468884B2 (en) 2017-05-08 2022-10-11 Sony Corporation Method, apparatus and computer program for detecting voice uttered from a particular position
JP2022533300A (ja) * 2019-03-10 2022-07-22 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化
JP7564117B2 (ja) 2019-03-10 2024-10-08 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化

Also Published As

Publication number Publication date
US8073690B2 (en) 2011-12-06
EP1818909A1 (en) 2007-08-15
US20080167869A1 (en) 2008-07-10
EP1818909B1 (en) 2011-11-02
JPWO2006059806A1 (ja) 2008-06-05
JP4157581B2 (ja) 2008-10-01
EP1818909A4 (en) 2009-10-28

Similar Documents

Publication Publication Date Title
WO2006059806A1 (ja) 音声認識装置
US10901063B2 (en) Localization algorithm for sound sources with known statistics
US11711648B2 (en) Audio-based detection and tracking of emergency vehicles
JP4516527B2 (ja) 音声認識装置
CN112116920B (zh) 一种说话人数未知的多通道语音分离方法
Izumi et al. Sparseness-based 2ch BSS using the EM algorithm in reverberant environment
Kwan et al. An automated acoustic system to monitor and classify birds
US11922965B2 (en) Direction of arrival estimation apparatus, model learning apparatus, direction of arrival estimation method, model learning method, and program
US20060204019A1 (en) Acoustic signal processing apparatus, acoustic signal processing method, acoustic signal processing program, and computer-readable recording medium recording acoustic signal processing program
Birnie et al. Reflection assisted sound source localization through a harmonic domain music framework
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
Traa et al. Blind multi-channel source separation by circular-linear statistical modeling of phase differences
CN111243600A (zh) 一种基于声场和场纹的语音欺骗攻击检测方法
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
Demir et al. Improved microphone array design with statistical speaker verification
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Habib et al. Auditory inspired methods for localization of multiple concurrent speakers
Habib et al. Improving Multiband Position-Pitch Algorithm for Localization and Tracking of Multiple Concurrent Speakers by Using a Frequency Selective Criterion.
Sharma et al. Detection of various vehicles using wireless seismic sensor network
Chen et al. Robust phase replication method for spatial aliasing problem in multiple sound sources localization
Cho et al. Underwater radiated signal analysis in the modulation spectrogram domain
Zhou et al. Replay attack anaysis based on acoustic parameters of overall voice quality
El Chami et al. A phase-based dual microphone method to count and locate audio sources in reverberant rooms
Zhang et al. Two microphone based direction of arrival estimation for multiple speech sources using spectral properties of speech
Wang Towards Robust and Secure Audio Sensing Using Wireless Vibrometry and Deep Learning

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005814282

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006546764

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005814282

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11792052

Country of ref document: US