WO2015125567A1 - 音信号処理装置、および音信号処理方法、並びにプログラム - Google Patents

音信号処理装置、および音信号処理方法、並びにプログラム Download PDF

Info

Publication number
WO2015125567A1
WO2015125567A1 PCT/JP2015/052124 JP2015052124W WO2015125567A1 WO 2015125567 A1 WO2015125567 A1 WO 2015125567A1 JP 2015052124 W JP2015052124 W JP 2015052124W WO 2015125567 A1 WO2015125567 A1 WO 2015125567A1
Authority
WO
WIPO (PCT)
Prior art keywords
blind spot
pattern
directivity
spot pattern
sound source
Prior art date
Application number
PCT/JP2015/052124
Other languages
English (en)
French (fr)
Inventor
厚夫 廣江
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/118,239 priority Critical patent/US10013998B2/en
Priority to EP15752747.4A priority patent/EP3109855B1/en
Publication of WO2015125567A1 publication Critical patent/WO2015125567A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the present disclosure relates to a sound signal processing device, a sound signal processing method, and a program. More specifically, the present invention relates to a sound signal processing apparatus, a sound signal processing method, and a program that execute a sound section detection process with sound source direction estimation.
  • Voice section detection is a process of extracting a section (segment) in which a person is speaking from continuously input sound signals, and is also referred to as Voice Activity Detection (VAD). .
  • VAD Voice Activity Detection
  • Voice segment detection is sometimes used together with voice recognition, sound source extraction, and the like. In either case, segment detection requires high accuracy. For example, in many speech recognizers, since processing such as matching is performed on a section cut out by section detection, the section detection accuracy greatly affects the accuracy of speech recognition. That is, if the section where the utterance is actually made is different from the detection section in the section detection process, it itself causes misrecognition. Or, if a speech section is erroneously detected even when no speech is spoken, a recognition process is performed on the sound in that section, and the system malfunctions based on the erroneous recognition result Can also occur.
  • section detection is also used in sound source extraction processing such as selective extraction of one sound from acquired sound in which a plurality of sounds are mixed. For example, if you want to extract clean speech from a signal that is a mixture of speech and noise, or if you want to extract the speech of one person in an environment where two or more people are speaking at the same time, depending on the sound source extraction method, the input signal may be It is necessary to divide into the section where only is sounding and the section where both are mixed, and the section detection is used for that purpose.
  • section detection may be used for the purpose of reducing the amount of calculation or preventing adaptation to a silent section by operating the sound source extraction only when the target speech exists.
  • speech section detection used together with sound source extraction, it is required to operate with high accuracy even if the input signal is a mixture of speech and noise or a mixture of speech.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-150237
  • Patent Document 2 Japanese Patent No. 4282704
  • Patent Document 3 Japanese Patent Laid-Open No. 2010-121975
  • Patent Document 4 Japanese Patent No. 4182444
  • Patent Document 5 Japanese Patent Laid-Open No. 2008-175733
  • Patent Document 6 Japanese Patent Laid-Open No. 2013-44950
  • Patent Document 7 Japanese Patent Laid-Open No. 2012-234150.
  • JP 2012-150237 A Patent 4282704 JP 2010-121975 A Japanese Patent No. 4182444 JP 2008-175733 A JP 2013-44950 A JP 2012-234150 A
  • the purpose of this case is to provide a sound signal processing device, a sound signal processing method, and a program for realizing a more accurate speech section detection.
  • the first aspect of the present disclosure is: A direction point detection unit that detects a direction point indicating a sound source direction of a sound signal for each block divided in predetermined time units; A direction point tracking unit that detects a section in which sound is generated by connecting the direction points between a plurality of blocks,
  • the direction point detector is A blind spot pattern generation unit that generates a blind spot pattern that represents a directivity characteristic that is a plot of a correspondence relationship between a direction and sensitivity, and that sensitivity to a sound source direction is relatively low,
  • a direction point detection execution unit for detecting a minimum point of the blind spot pattern as a sound source direction;
  • a blind spot pattern average unit that calculates an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not sound like a voice
  • a dynamic threshold calculator that calculates a dynamic threshold set to a value slightly lower than the average blind spot pattern
  • the direction point detection unit includes a directivity pattern generation unit that generates a directivity pattern representing a directivity characteristic that sensitivity to a sound source direction is relatively high.
  • the direction point detection execution unit detects a direction having a combination of a minimum point of the blind spot pattern and a maximum point of the directivity pattern as a sound source direction.
  • the sound signal processing device applies a short-time Fourier transform (STFT) to observation signals acquired by a plurality of microphones arranged at different positions. It has a short-time Fourier transform unit that converts it into a frequency domain observation signal, and the direction point detection unit calculates a covariance matrix from the time frequency domain observation signal and applies eigenvalue decomposition to the covariance matrix. A plurality of eigenvectors are calculated, and a steering vector corresponding to each direction is applied to the calculated plurality of eigenvectors to generate a plurality of directional characteristic patterns representing the relationship between the direction and the sensitivity.
  • STFT short-time Fourier transform
  • the direction point detection unit includes the plurality of directional characteristic patterns.
  • A a directivity type that is a type of directivity characteristic that the sensitivity to the sound source direction is relatively high;
  • B A blind spot type that is a type of directivity characteristic that the sensitivity to the sound source direction is relatively low,
  • C Neutral type not belonging to any of the above (a), (b),
  • the directivity pattern classification unit includes a representative directivity pattern calculated from a directivity pattern belonging to a directivity type in the classification process of the directivity pattern, A representative blind spot pattern calculated from the directivity pattern belonging to the blind spot type is calculated, and a classification process for maximizing a distance scale between the calculated representative directivity pattern and the representative blind spot pattern is executed.
  • the directivity pattern classification unit calculates the representative directivity pattern as a sum of patterns belonging to the directivity type, and converts the representative blind spot pattern into a blind spot type. Calculated as the sum of the patterns to which it belongs.
  • the distance measure is a Euclidean distance between the representative directivity pattern and the representative blind spot pattern.
  • the directivity pattern generation unit generates an average of patterns classified into the directivity type as a directivity pattern
  • the blind spot pattern generation unit An average of patterns classified into the blind spot type is generated as a blind spot pattern.
  • the direction point detection unit calculates a covariance matrix from the observation signal in the time-frequency domain, and applies eigenvalue decomposition to the covariance matrix to generate a plurality of values.
  • An eigenvector is calculated, a steering vector corresponding to each direction is applied to the calculated plurality of eigenvectors, and a plurality of directional characteristic patterns representing the relationship between direction and sensitivity are generated.
  • the pattern generation process the square of the gain in each direction in each frequency band is calculated, and the mean square gain or the sum squared gain is calculated by averaging or summing the square gains between the plurality of frequency bands.
  • a logarithmic process of the square gain or the sum squared gain and a process of adjusting the maximum value to 0 are performed to generate the plurality of directivity pattern.
  • the dynamic threshold value calculation unit performs at least one of arithmetic processing of positive constant multiple or subtraction of a positive constant with respect to the average blind spot pattern. Then, a dynamic threshold set to a value slightly lower than the average blind spot pattern is calculated.
  • the sound signal processing device includes a soundness determination unit that determines whether or not the input sound signal is sound based on the periodicity of the input sound signal. Then, the blind spot pattern averaging unit calculates an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not look like speech, based on the determination result of the speech likelihood determining unit.
  • the blind spot pattern average unit includes a blind spot pattern at a time when the speech likelihood determination unit determines that it is not speech, and an average blind spot that has already been calculated at that time.
  • the average blind spot pattern is updated by a weighted average using a forgetting factor with the pattern.
  • the second aspect of the present disclosure is: A sound signal processing method executed in the sound signal processing device, A direction point detection unit that detects a direction point indicating a sound source direction of a sound signal for each block obtained by dividing the direction point by a predetermined time unit, and The direction tracking unit performs a direction tracking step of detecting a section by connecting the direction points between a plurality of blocks,
  • the direction point detecting step includes It is a plot of the correspondence between direction and sensitivity, and a blind spot pattern generation process for generating a blind spot pattern representing a directivity characteristic that the sensitivity to the sound source direction is relatively low,
  • Direction point detection processing for detecting a minimum point of the blind spot pattern as a sound source direction
  • a blind spot pattern averaging process for calculating an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not seem to be voice, As a threshold to be applied to detection of local minimum corresponding to the sound source direction from the blind spot pattern, a dynamic threshold calculation
  • the third aspect of the present disclosure is: A program for executing sound signal processing in a sound signal processing device, Direction point detection step for causing the direction point detection unit to detect the direction point indicating the sound source direction of the sound signal for each block divided in predetermined time units, A direction tracking unit is configured to execute a direction tracking step in which the direction point is connected between a plurality of blocks and a section is detected.
  • Direction point detection processing for detecting a minimum point of the blind spot pattern as a sound source direction
  • a blind spot pattern averaging process for calculating an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not seem to be voice,
  • a dynamic threshold calculation process is performed to calculate a dynamic threshold set slightly lower than the average blind spot pattern,
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an image processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method for determining a speech section with high accuracy from a sound signal in which a plurality of sounds are mixed are realized. Specifically, in the configuration in which the direction point indicating the sound source direction of the sound signal is connected in the time direction and the voice section is detected, pattern classification according to the directivity characteristic with respect to the sound source direction is performed, and the directivity pattern, blind spot is determined from the classification result. Generate a pattern. In addition, an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not look like speech is calculated.
  • a threshold set slightly lower than the average blind spot pattern is calculated as a threshold applied to detection of a minimum point corresponding to the sound source direction from the blind spot pattern, and a minimum point equal to or less than the threshold is determined as a sound source direction corresponding point.
  • FIG. 16 is a flowchart illustrating details of a generation process such as a classification matrix executed in step S204 in the detailed flow of the initialization process shown in FIG. 15. It is a figure which shows the flowchart explaining the detailed sequence of the direction point detection process performed in step S108 in the whole process flow shown in FIG. It is a figure which shows the flowchart explaining the detail of the direction point tracking process of step S109 in the whole process flow shown in FIG. It is a figure which shows the flowchart explaining the detailed sequence of the extension / confirmation process of the area performed by step S501 in the direction point tracking process flow shown in FIG.
  • Yk (t) ⁇ H Hermite transposed vector (conjugate complex number & transposed) of Yk (t).
  • ⁇ ⁇ ( ⁇ 1) Inverse matrix of variance-covariance matrix ⁇ . inv ( ⁇ ) also represents the same expression.
  • conj (X) represents a conjugate complex number of the complex number X.
  • bar (x) represents adding an upper line (“ ⁇ ”) to x.
  • an operation that does not hold an equal sign on both sides for example, “x ⁇ x + 1” is always represented by “ ⁇ ”.
  • the voice section detection is a process of cutting out a section (segment) in which a person is speaking from continuously input sound signals. It is also called Voice Activity Detection (VAD).
  • Voice section detection is often used together with voice recognition, sound source extraction, and the like, and it is important to perform voice section detection (section detection) with high accuracy in order to improve the accuracy of voice recognition and sound source extraction.
  • Various measures for improving the accuracy have been made in the speech section detection.
  • Patent Document 4 Japanese Patent No. 4182444.
  • Section detection is performed using the direction of the sound source. This method is described in Patent Document 1 (Japanese Patent Laid-Open No. 2012-150237), Patent Document 2 (Japanese Patent No. 4282704), Patent Document 3 (Japanese Patent Laid-Open No. 2010-121975), and the like.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-1502357
  • the basic concept of speech segment detection based on the sound source direction is as follows. Sounds generated from the same sound source come from the same direction as viewed from the microphone. Therefore, if a sound source arrival direction (DOA: Direction Of Arrival) is estimated at a predetermined interval and a section in which substantially the same direction continues to be output is obtained, the sound source is active (sound is being emitted from the sound source). ) I know the section.
  • DOA Sound source arrival direction
  • sound source direction is simply referred to as “sound source direction”).
  • a sound source direction estimation method corresponding to a plurality of sound sources is used, even if a plurality of sound sources are active at the same time (for example, voices of a plurality of people are overlapped), a section can be obtained for each. For example, if one speaker starts speaking just before one speaker finishes speaking, the method using ⁇ voice likeness '' detects a long section where both utterances are connected as a speech section, In the method using direction estimation, each utterance section can be detected.
  • FIG. 1A is an image of an input signal (also referred to as an “observation signal”), and there are two speakers, "Hello", “Good by” Indicates that the above utterance has been made.
  • the time axis indicating the passage of time is shown from the left to the right in the figure.
  • this input signal is divided into blocks of a predetermined length in the time direction.
  • a block 11 shown in FIG. 1B represents one of the divided blocks.
  • the length of the block is a sufficiently short value compared to the length of a normal utterance. For example, it is set to about 0.01 to 0.1 seconds.
  • the direction of the sound source is estimated for each block.
  • FIG. 1C shows the result, with the horizontal axis representing time and the vertical axis representing direction.
  • the direction is, for example, the angle ⁇ (see FIG. 2) of the sound source direction with respect to the microphone that performs voice input.
  • a point shown in FIG. 1C is a direction point 12.
  • the direction point indicates the sound source direction obtained in each block.
  • a point corresponding to the sound source direction is referred to as a “direction point”. If a direction estimation method corresponding to a plurality of sound sources is used, each block can have a plurality of direction points.
  • FIG. 1D shows the result of tracking, that is, the connected direction points.
  • Lines 15 and 16 shown in FIG. 1D represent sections in which each sound source is active, that is, sections of voice utterances.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-1502357 uses an improved version of the MUSIC (Multiple Signal Classification) method.
  • MUSIC Multiple Signal Classification
  • a spatial filter dead angle filter
  • a filter directivity filter
  • a method for estimating the sound source direction using both the direction of directivity is disclosed.
  • FIG. 2 is a diagram illustrating an example of a recording state of an observation signal for generating a “directivity filter” and a “dead angle filter”.
  • the sound source direction is an angle ( ⁇ ) indicating the arrival direction as viewed from the center of gravity 21 of the array (array) of the microphones 22, and the vertical direction 24 is 0 ° with respect to the installation direction 23 parallel to the microphone array. Rotation is positive (+) and clockwise is negative (-).
  • the blind spot pattern 31 shown in FIG. 3 is a plot of the directivity characteristics of the spatial filter with the blind spot directed to a specific sound source direction, that is, the relationship between the direction (horizontal axis) and the gain (vertical axis). The vertical axis is logarithmic. A method for generating a directivity characteristic plot will be described later.
  • a spatial filter that directs the blind spot to the sound source is called a “dead spot filter”, and a plot of the directivity of the filter is called a “dead spot pattern”.
  • the portion where the gain sharply falls represents a direction in which the sensitivity is relatively low, that is, a blind spot.
  • the direction ⁇ 1 of the sound source 1 is about ⁇ 24 °
  • the direction ⁇ 2 of the sound source 2 is about + 12 °.
  • the block corresponding to this blind spot pattern has direction points at ⁇ 24 ° and + 12 °.
  • Patent Document 5 Japanese Patent Laid-Open No. 2008-175733 discloses a method using an inverse number. In that case, the blind spot is represented as a sharp peak on the graph.
  • a method using a logarithm of gain will be described for comparison with a directivity pattern described later. It is also possible to use the gain itself or the square of the gain.
  • the gain or an amount corresponding to it is expressed as “sensitivity”.
  • the directivity pattern 32 shown in FIG. 3 is the directivity characteristic of the spatial filter that directs directivity in the sound source direction in the same block. That is, the filter has a relatively high sensitivity in the sound source direction.
  • a spatial filter that directs directivity in the direction of the sound source is called a “directivity filter”, and a plot of the directivity is called a “directivity pattern”.
  • the conventional MUSIC method (the method disclosed before Patent Document 5 (Japanese Patent Application Laid-Open No. 2008-175733)) estimates the sound source direction from the position of the minimum (the direction in which sensitivity is relatively low) of the blind spot pattern.
  • Reference 5 Japanese Patent Application Laid-Open No. 2008-175733 estimates the sound source direction using both the minimum of the blind spot pattern and the maximum of the directivity pattern (the direction with relatively high sensitivity, the local maximum). Is disclosed.
  • the local minimum points 31a and 31b are true local minimum points corresponding to the direction of the sound source, but the blind spot pattern 31 is not limited to the actual sound source such as local minimum points 31c to 31f. There are local minima that are independent of direction.
  • the maximum points are detected from the directivity pattern 32.
  • the minimum position in the blind spot pattern and the directivity pattern is expressed as “valley” and the maximum position as “mountain”.
  • “true” means that the maximum, minimum, direction point, etc. correspond to the direction of the real sound source
  • “false” means that it does not correspond (no sound source exists in that direction). It expresses. Also, when the time and direction in which a non-sound source is sounding is detected as a voice section, it is expressed as a “false section”.
  • the direction point corresponding to the minimum point 31d of the blind spot pattern 31 shown in FIG. 3 is erroneous detection, if this erroneous detection occurs only in this block, it is rejected by subsequent tracking. Must not.
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-150237
  • a threshold value (threshold value T shown in FIG. 3) is set in the blind spot pattern, and valleys shallower than the threshold value T are rejected.
  • the number of blind spots formed by n microphones is n ⁇ 1 at the maximum, the number of direction points is n ⁇ 1 at the maximum.
  • Spatial alias is a phenomenon in which a blind spot or directivity occurs in a certain high frequency in addition to a desired direction. The lower limit of the frequency at which spatial alias occurs depends on the distance between the microphones.
  • the spurious valley derived from spatial aliasing has a different direction (distributed) for each frequency bin, so the effect can be reduced by averaging the directivity pattern among multiple frequency bins, but it is completely May remain undisturbed. Moreover, in that case, it appears at a certain position depending on the true sound source position. Furthermore, since there are some incidental valleys whose causes cannot be clearly identified, the problem of incidental valleys remains even if measures against spatial alias are taken.
  • the blind spot pattern 41 has valleys in the true sound source direction ( ⁇ _true) and the false sound source direction ( ⁇ _false).
  • a true valley 42 and a false valley 43 respectively.
  • the sound source exists only in the true sound source direction ( ⁇ _true). That is, the sound source exists in the direction indicated by the true valley 42, and no sound source exists in the direction indicated by the false valley 43.
  • the false valley 43 shown in FIG. 4 is an incidental valley. That is, by forming a true valley 42 in the true sound source direction ( ⁇ _true), a valley is formed in conjunction with the fact that no sound source exists in the false sound source direction ( ⁇ _false).
  • a phenomenon in which a voice utterance from a false sound source direction ( ⁇ _false) is not detected can occur when such an accompanying valley occurs.
  • the sound source existing in the true sound source direction is non-speech and continues to sound.
  • Examples of such a sound source include the sound of a projector fan and a speaker that is playing music. As long as such a sound source continues to sound, two valleys are formed despite the single sound source.
  • the true sound source direction from the blind spot pattern 41 for example, as described above with reference to FIG. 3, it is effective to use a threshold value for sensitivity.
  • this threshold value is set at a position shallower than the false valley 43 that is an incidental valley of the blind spot pattern 41, for example, when the threshold value is set at the position of the threshold value a, the true valley 42 is false. Any of the valleys 43 is treated as a valley corresponding to the sound source.
  • two sections are detected by tracking these two directions in the time direction. That is, as shown in FIG. 5, the direction point 51 corresponding to the true sound source direction ( ⁇ _true) and the direction point 52 corresponding to the false sound source direction ( ⁇ _false) are connected in the time direction, respectively, and are referred to as a section 53 and a section 54. Detected as two sections having different directions. This phenomenon is called double detection.
  • Double detection itself for non-speech and sounding sound sources can be rejected by means such as setting an upper limit on the length of the section. That is, since the sound source that continues to sound without pause (silence) is not voice (at least different from the voice utterance subject to voice recognition), the length of the section being tracked is the upper limit (for example, 5 seconds). If the section is rejected at a time point exceeding, both the section 53 that is a section corresponding to the sound source (however, non-speech) and the section 54 that is a false section are both rejected.
  • rejecting the section 54 which is a false section, has side effects. It is a phenomenon that even if a voice is actually spoken from a false sound source direction ( ⁇ _false), it is rejected. For example, it is assumed that a person utters a voice in the time represented by the time range 56 from the false sound source direction ( ⁇ _false). Outside of the time range 56, ⁇ _false is a false sound source direction, whereas inside the time range 56, ⁇ _false is a true sound source direction corresponding to the sound source.
  • the section 55 itself shown in FIG. 5 is not detected, and only the section 54 and the section 53 are output as detection results. If both sections are rejected due to the length restriction described above, the section 55 corresponding to the voice utterance appears to have not been detected at all even though the section itself satisfies the length restriction. .
  • the direction point 51 and the direction point 52 correspond to an input signal block having a predetermined length. That is, it corresponds to the block divided in the time direction described with reference to FIG. If the input signal in each block is judged to be “voice-like” and the direction points are left only for the blocks that are judged to be “sound-like”, ideally, the non-voice sound source continues to sound. However, since the direction point is rejected in the block outside the time range 56 shown in FIG. 5, no section is detected.
  • the input signal is a mixture of non-voice and voice, but the input signal retains the periodic nature as long as the voice is mixed at a certain rate. Therefore, by applying the method described in Patent Document 4 (Japanese Patent No. 4182444), it is determined that the input signal within the time range 56 is “sound-like”. Therefore, the section 55 is correctly detected without melting into the section 54.
  • the section 57 which is a part of the section 51 is also detected as the speech section. Since the length of the section 57 is the same as the section 55, if the section 55 satisfies the length restriction described above, the section 57 similarly satisfies the restriction. Therefore, although no one is speaking from the true sound source direction ( ⁇ _true), a false section corresponding to that direction is detected.
  • the “voice-likeness” determination is not perfect and may contain mistakes, simply leaving only the “voice-like” block direction points will make it more susceptible to mistakes. For example, within a time range 56 shown in FIG. 5, if a predetermined number or more of blocks that are determined to be “not like speech” continue even during utterance, one utterance is divided into two sections. Since the example shown in FIG. 5 is also an example of double detection, one utterance is detected as four different sections due to this division phenomenon.
  • a voice section may be detected even if there is no utterance, and it may be detected twice.
  • the disturbing sound is music, using the “speech-likeness” determination method based on periodicity described in Patent Document 4 (Patent No. 4182444), only the music will sound. May be erroneously determined as “sound-like” at certain timings, and as a result, such a phenomenon may occur.
  • the accompanying valley is generally shallower than the true valley, if the threshold value of the blind spot pattern can be set appropriately, the problem derived from the accompanying valley can be avoided in principle.
  • the blind spot pattern 41 shown in FIG. 4 changes like the blind spot pattern 46 because there is a voice utterance from the false sound source direction ( ⁇ _false) inside the time range 56.
  • ⁇ _false false sound source direction
  • This valley 47 is a true valley corresponding to the sound source of the speaker, and is deeper than the false valley 43 that is an incidental valley. .
  • the threshold of the blind spot pattern is set to an intermediate height between the false valley 43 of the blind spot pattern 41 and the valley 47 of the blind spot pattern 46 as shown by the threshold value b shown in FIG.
  • the threshold value b shown in FIG.
  • the problem of non-detection of speech and double detection shown in FIG. 5 does not occur.
  • the incidental valley depth varies depending on the direction of the sound source and the state of the sound source (volume, etc.)
  • the threshold value is determined mainly for the purpose of preventing the influence of the accompanying valley, the true sound source direction ( ⁇ _true) is different from the false sound source direction ( ⁇ _false).
  • ⁇ _true true sound source direction
  • ⁇ _false false sound source direction
  • the threshold is shallow and no upper limit is set for the section length
  • the voice section is detected in the direction of the disturbing sound even though there is no voice utterance as long as the disturbing sound continues to sound.
  • Voice segments are also detected in the direction of the accompanying valleys. This is called double detection.
  • an upper limit is set for the section length
  • the speech section in the direction of the disturbing sound will not be detected, but as a side effect, even if the speech is from the incident valley direction, it will be rejected.
  • voice segment detection based on "voice likeness”
  • each microphone when the casing vibrates, each microphone may pick up the vibration as sound.
  • vibrations transmitted through the casing are faster than sound waves propagating in the air, so that vibrations are observed as sound signals having substantially the same phase in all microphones.
  • electrical noise is mixed before the analog audio signal acquired by the microphone is converted into a digital signal by the AD converter, this is also observed as a sound signal having substantially the same phase in all the microphones.
  • these signals are referred to as “in-phase mixed components”.
  • the in-phase mixed component affects the speech section detection based on the sound source direction estimation. There is a case. This is because depending on the direction of the sound source, the sound from the sound source may reach all the microphones at the same time, and the in-phase mixed component cannot be distinguished on the phase.
  • directional pattern means a. "Directivity pattern” with the sound source direction as the high sensitivity direction, b, “Blind-eye pattern” with sound source direction as low sensitivity direction
  • b “Blind-eye pattern” with sound source direction as low sensitivity direction
  • a blind spot pattern and a directivity pattern are averaged between a plurality of (or almost all) frequency bins.
  • a plurality of blind spot patterns and directivity patterns are averaged in one frequency bin.
  • n is the number of microphones
  • m is the number of sound sources.
  • the directivity pattern is assumed to be classified into the following three types.
  • the blind spot pattern and the directivity pattern are averages of patterns belonging to the blind spot type and the directivity type, respectively.
  • Type 1 Blind spot type (1 or more)
  • Type 2) Directional type (1 or more)
  • the blind spot type is a type that has directivity characteristics with the blind spot facing the sound source direction
  • the directivity type is a type that directs directivity in the direction of the sound source.
  • the neutral type is neither type.
  • the reason for preparing the neutral type is that some of the directional pattern patterns generated from the observation signals in the real environment do not have a clear directionality or blind spot. This is to prevent harmful effects caused by unreasonable classification. However, if the above classification is performed without any restriction, there are about 3 ⁇ n classifications, and such a classification is performed for each frequency bin, which increases the amount of calculation.
  • P_k is a directivity pattern corresponding to the kth eigenvalue and eigenvector, and the eigenvalues are arranged in descending order. That is, the largest eigenvalue is the first and the smallest eigenvalue is the nth.
  • Constraint 1 P_1 is always a directivity pattern, and P_n is always a blind spot pattern.
  • Constraint 2 Patterns classified as directional types are P_1 to P_a, and patterns classified as blind spot types are P_ ⁇ n ⁇ b + 1 ⁇ to P_n (each including both ends).
  • the patterns classified as neutral are P_ ⁇ a + 1 ⁇ to P_ ⁇ n ⁇ b ⁇ , but may be zero.
  • Constraint 3 The values of a and b are common to all frequency bins. Therefore, for example, if the pattern P_k is classified as a blind spot pattern in a certain frequency bin, the pattern P_k is also classified as a blind spot pattern in other frequency bins.
  • Constraint 3 is particularly important, and it is possible to classify after directing the directivity pattern of each frequency bin between the frequency bins (or the sum, hereinafter the same). Due to these constraints, the number of combinations is reduced to n (n-1) / 2, and it is sufficient that classification is performed only once as a whole, not for each frequency bin.
  • the actual number of sound sources may be different for each frequency bin, but even in that case, the effectiveness of Constraint 3 is not impaired.
  • the patterns P_1 and P_2 are averaged only from the directional pattern
  • the pattern P_3 is averaged from both the directional pattern and the blind spot pattern
  • the pattern P_4 and later Are averaged from blind spots only.
  • the pattern P_3 is highly likely to be classified as a neutral type, and therefore does not affect the directivity pattern or the blind spot pattern.
  • the directivity pattern is a logarithm with respect to the gain for each direction of the filter.
  • the timing for taking the logarithm is changed, The logarithm is taken after taking the average (or sum) between the frequency bins for the square of the gain.
  • the order of the logarithmic operation after the average operation reduces the fine irregularities on the directivity pattern compared to the order of the average operation after the logarithmic operation. Therefore, a phenomenon that a false direction point is detected is less likely to occur because a fine valley of the blind spot pattern (but the threshold is below) and a fine mountain of the directivity pattern are close by chance. Furthermore, the pattern classification process is performed after the logarithm is applied. In classification, since it is more convenient for patterns having valleys at the same position to be combined into one type, the valley of directivity is emphasized by taking the logarithm.
  • a covariance matrix is calculated in step S11 shown in FIG. This is the covariance matrix of the observation signal and is generated by the MUSIC method.
  • the covariance matrix calculation process will be described with reference to the following equations.
  • a result obtained by applying a short time Fourier transform (STFT) to a signal observed by the k-th microphone among n microphones is defined as Xk ( ⁇ , t), and X1 ( ⁇ , t) to Xn (
  • STFT short time Fourier transform
  • X ( ⁇ , t) be a vector consisting of ⁇ , t) (formula [1.1]).
  • t is a frame number.
  • a covariance matrix R ( ⁇ ) of X ( ⁇ , t) is calculated from a plurality of frames (formula [1.2]).
  • ⁇ •> _ ⁇ t ⁇ L ′ ⁇ ⁇ t ⁇ This means that the expression in parentheses is averaged between frames satisfying t ⁇ L ′ ⁇ ⁇ t.
  • t is the frame number of the end of the block
  • L ' is the length of the block (number of frames)
  • t ⁇ L ′ + 1 is the frame number of the beginning of the block.
  • the block is, for example, the block shown in FIG. 1, and each block corresponds to each frame.
  • R ( ⁇ ) be the covariance matrix calculated according to the above equation [1.2].
  • This covariance matrix is the covariance matrix calculated in step (S11) of FIG.
  • step S12 shown in FIG. 6 the eigenvalue decomposition (Eigenvalue decomposition) shown in the above equation [1.3] is applied to the covariance matrix R ( ⁇ ) to calculate the eigenvector.
  • ⁇ ( ⁇ ) is a diagonal matrix composed of eigenvalues (formula [1.5])
  • V ( ⁇ ) is a matrix composed of eigenvectors V_1 ( ⁇ ) to V_n ( ⁇ ) (formula [1.4]).
  • step S11 The size of the covariance matrix calculated in step S11 is an n ⁇ n matrix, and the number of eigenvectors calculated in step S12 is n.
  • step S13 by generating directivity pattern corresponding to each eigenvector, frequency bin unit directivity patterns Pa to Pd equal to the number of eigenvectors are obtained. Since step S13 is performed for each frequency bin, Pa to Pd are generated in the same number as the frequency bin in which step S13 is executed.
  • step S14 an average between frequency bins is taken for the directivity pattern for each frequency bin, and a logarithm is taken.
  • directivity pattern patterns P_1 to P_4 shown in step S15 are obtained.
  • the square of the gain in each direction in each frequency band (frequency bin) is calculated, and the average is obtained by averaging or summing the square gains between the plurality of frequency bands.
  • a square gain or a total square gain is calculated, a logarithmic process of the average square gain or the total square gain, and a process of adjusting the maximum value to 0 are performed to generate the plurality of directivity pattern.
  • step S ⁇ b> 16 the classification process which is one of the features of the present disclosure is applied to the four directional characteristic patterns (generally, n microphones).
  • the following three types are classified as shown in step S17.
  • the classification is limited to six types by the constraints 1 and 2 described above, and the pattern P_1 is always classified as a directional type and the pattern P_4 is necessarily classified as a blind spot type. Details of the classification process will be described later.
  • the pattern P_1 is classified into the directivity type
  • the pattern P_2 is classified into the neutral type
  • both the patterns P_3 and P_4 are classified into the blind spot type.
  • the directivity patterns belonging to the directivity type and the blind spot type are averaged to obtain the directivity pattern P_D and the blind spot pattern P_N shown in step S19.
  • the directivity pattern P_D obtained by the synthesis process in step S18 is the same as the pattern P_1 before synthesis. is there.
  • the pattern Pa and the pattern Pd which are patterns for each frequency bin obtained in step S13 are directly used. Compared to the case, fine irregularities that do not correspond to the sound source direction are reduced. On the other hand, the true peaks and valleys corresponding to the sound source remain because they are common among patterns between directional characteristics. Therefore, the possibility that the false valley of the blind spot pattern coincides with the false peak of the directivity pattern coincidentally is detected as a direction point. In addition, false valleys derived from spatial aliases disappear or become shallower by averaging (and by taking the logarithm after the average), resulting in the aforementioned “incidental valleys”. The frequency of doing is also reduced.
  • the Euclidean distance is used as the distance scale.
  • the sum (not the average) of the patterns classified into the directivity type is used as the directional pattern during classification, and the sum of the patterns classified into the blind spot type is used as the middle blind spot pattern.
  • the blind spot pattern P_N obtained after the synthesis process in step S18 is an average of the pattern P_3 belonging to the blind spot type shown in step S17 before synthesis and the pattern P_4, but the classification process in step S16.
  • the classified blind spot pattern for calculating the distance scale is the sum of the pattern P_3 and the pattern P_4.
  • step S16 The purpose of using the sum rather than the average of the patterns for calculating the “directivity pattern during classification” and “dead blind pattern during classification” in the classification process of step S16 is that there are many directivity pattern patterns for each of the directivity type and the blind spot type. The reason why the number of patterns included in each type increases due to the sum can be explained as follows.
  • the feature of the blind spot type that the blind spot is formed in the sound source direction is the strongest in the pattern P_n corresponding to the smallest eigenvalue.
  • the average is taken between the pattern P_n and the other patterns, the blind spot type feature becomes weak due to the influence of shallow valleys.
  • the pattern P_1 has the strongest feature. Therefore, if the average is used as the directional pattern during classification and the blind spot pattern during classification, only the pattern P_1 for the directional pattern, only the pattern P_n for the blind pattern, and all the remaining patterns (P_2 to P_ ⁇ n ⁇ ) for the neutral pattern. 1 ⁇ ) is classified in many cases, but it does not make sense to perform classification.
  • the sum is used instead of the average, for example, if a blind spot is formed in a common direction among patterns belonging to the blind spot type, a deeper valley is formed by the sum.
  • the directivity type Therefore, if the sum is used, there is a high possibility that the Euclidean distance between the classified directivity pattern and the classified blind spot pattern will be maximized when properly classified.
  • the average is used instead of the sum.
  • the reason for this is that if the sum is used, the depth of the valley varies greatly depending on the number of patterns belonging to the blind spot type, so that it is difficult to perform an operation of averaging the blind spot pattern between blocks or comparing it with a threshold value in subsequent processing. This is because the problem can be avoided by using the average.
  • a directional pattern during classification and a blind spot pattern during classification are generated for each combination of classifications, and their Euclidean distances are calculated, but by using matrix operations, the Euclidean distances of all combinations are calculated. Can be calculated directly.
  • step S16 shown in FIG. 6 processing for classifying directional characteristic patterns by calculating the Euclidean distances of all combinations using matrix calculation will be described with reference to the following formulas.
  • the directivity pattern corresponding to the kth largest eigenvalue is a pattern P_k.
  • the pattern P_k can be expressed as a row vector as shown in Equation [2.1].
  • ⁇ _min and ⁇ _max are the minimum value and the maximum value of scanning in the direction performed in the MUSIC method, respectively.
  • Equation [2.2] a matrix P composed of patterns P_1 to P_n is defined as shown in Equation [2.2].
  • This is called a directivity pattern matrix. It is possible to generate a directional pattern during classification and a blind spot pattern during classification by multiplying the directional characteristic pattern matrix and a predetermined vector, but the generation of both patterns can be skipped by using the matrix described below.
  • the difference can also be calculated directly. That is, when the matrix C represented by the formula [2.3] is prepared and multiplied by the matrix C and the matrix P composed of the patterns P_1 to P_n, the classified directivity pattern and the classified blind spot pattern are obtained for each combination of classification. The difference can be calculated directly (Equation [2.4]).
  • This matrix C is called a classification matrix.
  • Equation [2.4] the matrix F is a product of C and P, and the row vectors of the respective rows are F_1 to F_m.
  • the norm the inner product of itself
  • each element of H represents the square of the Euclidean distance in each classification result (the superscript T represents transposition). Therefore, by finding the largest element in the vector H, it is possible to know which classification result is optimal.
  • the vector H can be calculated with a smaller amount of calculation than the equations [2.4] and [2.5] by changing the matrix product order.
  • a matrix G represented by the equation [2.6] is calculated.
  • the size of the matrix G is the same as that of the classification matrix C, and when the inner product is calculated for each row of G and C, the same Euclidean distance is obtained in this case as well. That is, the same result is obtained even if the equation [2.7] is used instead of the equation [2.5].
  • G_k and C_k represent the vectors in the kth row of the matrices G and C, respectively.
  • a directivity pattern and a blind spot pattern corresponding to the classification result are generated.
  • matrices such as Equation [2.8] and Equation [2.9] are prepared. They are called a directivity pattern generation matrix and a blind spot pattern generation matrix, respectively.
  • the vector of the kth row of the directivity pattern generation matrix is multiplied by the directivity pattern matrix P to generate a directivity pattern (
  • the blind spot pattern is generated using the vector in the k-th row of the blind spot pattern generation matrix (formula [2.11]).
  • the threshold of the blind spot pattern can be set to an appropriate value, the problem may be solved. Since it is difficult to manually set such a threshold value in advance, a mechanism is required in which the threshold value is automatically adjusted in accordance with the environment during operation. Hereinafter, such a threshold is referred to as a dynamic threshold.
  • the present disclosure performs the following processing. a) Instead of a threshold value common to all directions, a different threshold value is held for each direction. b) The voice segment detection based on “speech” is also used, and the threshold is updated in the block determined as “not like speech”, and the threshold is fixed in the block determined as “sound-like”. c) The threshold value for each direction is calculated based on a blind spot pattern averaged among blocks determined to be “not like speech”.
  • a blind spot pattern 71 illustrated in FIG. 7 is a blind spot pattern generated at a time before the start of the time range 56 illustrated in FIG. 5, and is the same as the blind spot pattern 41 illustrated in FIG. 4. As in FIG. 4, it is assumed that a true valley is formed in the true sound source direction ( ⁇ _true) and an accompanying valley is formed in the false sound source direction ( ⁇ _false).
  • the threshold value 72 is a dynamically calculated threshold value. Details of the calculation will be described later. Basically, the dynamic threshold is set at a position slightly lower than the blind spot pattern at the timing when there is no sound. In other words, at the timing when there is no voice utterance, even if the blind spot pattern fluctuates, it does not become deeper than the dynamic threshold value, and thus no direction point is detected in the true sound source direction ( ⁇ _true) or the false sound source direction ( ⁇ _false). Therefore, no voice segment is detected. In the true sound source direction ( ⁇ _true), there is a sound source, but it is not speech. Therefore, not detecting this is a correct behavior for speech section detection.
  • a person speaks from a false sound source direction ( ⁇ _false) in this state Suppose that a person speaks from a false sound source direction ( ⁇ _false) in this state. That is, assume that the start time of the time range 56 shown in FIG. Accordingly, the blind spot pattern changes to the shape of the blind spot pattern 73 shown in FIG. That is, the valley formed at the position of the false sound source direction ( ⁇ _false) becomes deep because a true sound source (voice utterance) exists, and a valley 74 shown in FIG. 7 appears. This valley 74 is below the threshold 72. As a result, since the direction point corresponding to the false sound source direction ( ⁇ _false) is detected inside the time range 56 in FIG. 5, the voice section is also detected, and double detection does not occur.
  • the dynamic threshold is not updated. Therefore, the shape of the dynamic threshold during speech remains the shape of the threshold 72 shown in FIG. 7, and the valley of the false sound source direction ( ⁇ _false) does not exceed the threshold.
  • the blind spot pattern returns to the shape of the original blind spot pattern 71, so that the valley of the false sound source direction ( ⁇ _false) exceeds the threshold value. As a result, the direction point is not detected.
  • this dynamic threshold is not easily affected by the “voice-likeness” determination error. For example, even if a voice utterance does not exist and it is erroneously determined as “sound-like”, the threshold is not updated, and the dynamic threshold has already been adapted to the situation at that time. If there is, it does not matter if the threshold is not updated. On the other hand, when it is erroneously determined during speech that it does not look like speech, the dynamic threshold is updated during speech. Specifically, the threshold value in the direction in which the utterance exists decreases. However, since the dynamic threshold is calculated from the average of blind spot patterns between blocks determined as “not like speech”, the influence on the average is small if the number of erroneously determined blocks is small. For this reason, a phenomenon in which the blind spot pattern and the threshold value are reversed (a phenomenon in which the dynamic threshold is deeper than the valley of the blind spot pattern and the direction point in the speech direction is not detected even during speech) is unlikely to occur.
  • An unvoiced consonant (for example, / s /, which is a consonant of a line), is an input sound that is likely to cause an erroneous determination for voice segment detection based on “voice likeness”. Therefore, in the method that also uses the “speech-likeness” determination as a condition for adopting the direction point, a phenomenon in which the section is detected short or divided into a plurality of sections is likely to occur for an utterance including many unvoiced consonants ( Alternatively, in order to avoid the problem, as a result of adding a process for extending the detected section back and forth, a side effect may occur with respect to other input speech). Since the determination result of “voice quality” only affects the update of the dynamic threshold, the influence of erroneous determination can be minimized.
  • the dynamic threshold updated based on the determination of “speech quality” can also solve the problem caused by the in-phase mixed component. This point will be described with reference to FIG.
  • the shape of the blind spot pattern changes like the blind spot pattern 84.
  • the presence of a true sound source deepens the blind spot valley. That is valley 85.
  • the valley of the blind spot becomes lower than the threshold value, the direction point is detected, and the voice section is also detected.
  • the dynamic threshold is not updated while it is determined as “sound-like”, this state continues during utterance.
  • the blind spot pattern returns to the shape of the original blind spot pattern 81, so that the direction point is not detected.
  • FIG. 9 is a diagram illustrating a configuration example of the sound signal processing device of the present disclosure.
  • the sound signal is collected by the microphone array 101, and the obtained multi-channel sound data is converted into a digital signal by the AD conversion unit 102. This data is called an observation signal (in the time domain).
  • the time domain observation signal is sent to the STFT unit 103 and the “voice likeness” determination unit 109.
  • the STFT unit 103 applies a short-time Fourier transform (STFT) to the time signal observation signal to convert the time domain observation signal into a time frequency domain signal.
  • STFT short-time Fourier transform
  • the observation signal in the time frequency domain is sent to the observation signal buffer 104 and the direction point detection unit 105.
  • the observation signal buffer 104 stores observation signals for a predetermined time (number of frames).
  • the signal accumulated here is used to obtain audio data for one utterance together with the start time and end time of the detected utterance section, and further uses the direction of the section, and the voice arriving from a predetermined direction. Or used to obtain the extracted results.
  • the time (or frame number) and the observation signal are stored in association with each other. Furthermore, the determination result of the “voice-likeness” determination unit described later is also stored in association with the time and the like. Therefore, it is possible to input the time and frame number from other modules and output the observation signal corresponding to the module and the “sound quality” determination result.
  • the direction direction point detection unit 105 divides the observation signal into blocks of a predetermined length and detects points corresponding to the sound source direction in each block. That is, the module performs processing corresponding to the processing (b) to (c) shown in FIG. At that time, the determination result of the “voice likeness” determination unit 106 described later is also used. Details will be described later.
  • the “voice-likeness” determination unit 106 is a module that determines whether or not the input sound included in the block currently being processed in the MUSIC method is “sound-like”.
  • a determination method for example, a method based on the periodicity of an input signal described in Patent Document 4 (Japanese Patent No. 4182444) can be applied. It should be noted that the voice-likeness determination timing does not have to be completely synchronized with the MUSIC method block, and it is only necessary to determine whether it is “sound-like” at a time near the block.
  • the output of this module is binary, “sound-like” or “not-sound”. The value is also sent to the observation signal buffer 104 and stored in association with the time.
  • the direction point tracking unit 107 connects direction points having substantially the same direction between a plurality of consecutive blocks, and detects them as speech sections. That is, it is a module that performs the processing described with reference to FIG. Details will be described later.
  • the output of the direction point tracking unit 107 is an utterance section, that is, an utterance start time / end time and an utterance direction (sound source direction).
  • an utterance section that is, an utterance start time / end time and an utterance direction (sound source direction).
  • the sound source extraction unit 108 extracts a predetermined voice or the like using an observation signal or a sound source direction corresponding to the utterance section.
  • an existing technique such as beam forming can be used.
  • the sound data corresponding to the utterance section is sent to the post-processing unit 109 as necessary.
  • the post-processing unit 109 is configured by, for example, a voice recognizer. Some voice recognizers have a voice section detection function, but this function can be omitted.
  • a speech recognizer often includes an STFT for extracting a speech feature, but when combined with the process of the present disclosure, the STFT on the speech recognition side can be omitted.
  • the controller 110 is connected to all other modules shown in FIG. 9 and controls each module.
  • the observation signal buffer 151 is the same as the observation signal buffer 104 shown in FIG. 9, and the observation signal in the time frequency domain is accumulated for a predetermined time.
  • the configurations of the covariance matrix calculation unit 152 to the directivity pattern storage unit 158 are modules that are usually used in sound source direction estimation by the MUSIC method.
  • the covariance matrix calculation unit 152 calculates a covariance matrix for each frequency bin from an observation signal corresponding to one block, for example, the block 11 shown in FIG. 1, and stores the result in the covariance matrix storage unit 153.
  • the covariance matrix stored in the covariance matrix storage unit 153 corresponds to the covariance matrix shown in step S11 of FIG. 6 described above.
  • the eigenvector calculation unit 154 calculates eigenvectors by applying eigenvalue decomposition to the covariance matrix, and stores the eigenvectors in the eigenvector storage unit 155. This eigenvector corresponds to the eigenvector shown in step S12 of FIG.
  • the steering vector storage unit 156 pre-calculates the phase difference of signals coming from various directions and stores the results. A method for generating a steering vector will be described with reference to FIG. 11 and equations [3.1] to [3.3] shown below.
  • FIG. 11 shows microphones k and 253 and microphones i and 254 as sound signal input units for the sound signal processing device.
  • a reference point 252 for measuring the direction is also shown.
  • the reference point 262 may be an arbitrary point near the microphones. For example, various settings may be made such as setting a reference point that matches the center of gravity between the microphones, or setting a reference point that matches any of the microphones. .
  • Let m be the position vector (that is, coordinates) of the reference point 252.
  • a vector of length 1 starting from the reference points m and 252 is prepared, and this vector is set to q ( ⁇ ).
  • the sound coming from the direction of the direction vector q ( ⁇ ) 251 first arrives at the microphones k and 253, then arrives at the reference points m and 252 and then the microphones i and 254.
  • phase difference S_k ( ⁇ , ⁇ ) of the microphones k and 253 with respect to the reference points m and 252 can be expressed by the above equation [3.2].
  • j is an imaginary unit
  • M is the number of frequency bins
  • F is the sampling frequency
  • C is the speed of sound
  • m_k is a position vector of the microphone k
  • T represents a normal transpose.
  • the meaning of this formula is as follows. Assuming a plane wave, the microphones k and 253 are closer to the sound source than the reference points m and 252 by the distance 255 shown in FIG. 11, and conversely, the microphones i and 254 are far from the reference point m and 252 by the distance 256 shown in FIG.
  • a vector S ( ⁇ , ⁇ ) consisting of the phase difference of each microphone is expressed by the above equation [3.3], and this is called a steering vector.
  • the reason for dividing by the square root of n is to normalize the magnitude of the vector to 1.
  • the steering vector storage unit 156 shown in FIG. 10 stores steering vectors S ( ⁇ , ⁇ ) for various values of direction ⁇ and frequency bin number ⁇ .
  • the direction ⁇ is basically one round, but when the microphones are arranged linearly as shown in FIG. 2, the directivity is symmetric with respect to the straight line (the microphone array direction 23 in FIG. 2). Half a lap is enough.
  • the angle interval is determined in consideration of the accuracy of direction estimation and the amount of calculation. (For example, 3 ° or 5 °)
  • the directivity pattern generation unit 157 illustrated in FIG. 10 applies the steering vector in each direction acquired from the steering vector storage unit 156 to each eigenvector stored in the eigenvector storage unit 155 to thereby apply the directivity pattern (direction And a plot representing the relationship between the sensitivity and the sensitivity), and the result is stored in the directivity pattern storage unit 158.
  • the directivity pattern stored in the directivity pattern storage unit 158 corresponds to the directivity patterns P1 to P4 shown in step S15 of FIG. 6 described above.
  • n directional pattern patterns are also generated.
  • the following directivity pattern classification unit 159 to blind spot pattern storage unit 166 are modules related to “classification of directivity pattern” which is one of the features of the present disclosure. This corresponds to a module that performs the processes shown in steps S13 to S19 shown in FIG.
  • the directional characteristic pattern classification unit 159 classifies the n directional characteristic patterns stored in the directional characteristic pattern storage unit 158 into the following three types.
  • Directional pattern Pattern in which directivity (mountain) is formed in the sound source direction
  • Blind spot pattern Pattern in which blind spot (valley) is formed in the sound source direction
  • Neutral pattern Pattern that is neither directional nor blind spot type
  • the classified patterns are stored in the directivity type storage unit 160, the blind spot type storage unit 162, and the neutral type storage unit 161, respectively.
  • the patterns stored in the storage units 160 to 162 are the directional pattern P1, the neutral pattern P2, and the blind spot patterns P3 and P4 shown in step S17.
  • the classification matrix buffer 154 is a matrix for generating data corresponding to n (n + 1) / 2 classification results.
  • a directivity pattern generation matrix (Equation [2.8])
  • a blind spot pattern generation matrix (Equation [2.9])
  • a method for generating these matrices will be described later.
  • the directivity pattern & blind spot pattern generation unit 163 generates a final directivity pattern to be applied to sound source direction detection from the directivity type pattern stored in the directivity type storage unit 160 and stores it in the blind spot type storage unit 162.
  • a final blind spot pattern to be applied to sound source direction detection is generated from the formed blind spot pattern. That is, the pattern synthesis process of step S18 in the example shown in FIG. 6 is executed to generate the directivity pattern P_D and the blind spot pattern P_N shown in step S19.
  • the generated directivity pattern is stored in the directivity pattern storage unit 165, and the generated blind spot pattern is stored in the blind spot pattern storage unit 166.
  • ⁇ 10 is a module that performs processing related to “dynamic update of a threshold based on“ voice quality ””, which is another feature of the present disclosure, from the configuration of the voice quality determination unit 167 to the dynamic threshold storage unit 171.
  • the voice likeness determination unit 167 is the same as the voice likeness determination unit 106 shown in FIG. 9, and determines whether or not a “sound-like” signal is included in each block (such as the block 11 shown in FIG. 1) or in the vicinity thereof. To do. For example, based on the periodicity of the input sound signal, it is determined whether or not the input sound signal is sound.
  • the blind spot pattern averaging unit 168 stores the blind spot pattern storage unit 166 in the blind spot pattern storage unit 166 at the block or timing determined by the speech likelihood determination unit 106 not to include a “sound-like” signal, that is, the block or timing determined not to be speech.
  • the average of the obtained blind spot pattern in the time direction is updated, and the result is stored in the average blind spot pattern storage unit 169.
  • the dynamic threshold calculation unit 170 calculates a dynamic threshold for each direction from the average blind spot pattern stored in the average blind spot pattern storage unit 169 and stores the dynamic threshold in the dynamic threshold storage unit 171.
  • the relationship between the average blind spot pattern and the dynamic threshold value is as described above with reference to FIG. 7 and the like.
  • the dynamic threshold value is slightly deeper than the average blind spot pattern, in other words, no speech-like signal is input. Even if the blind spot pattern fluctuates slightly in time, the blind spot pattern does not fall below the threshold value.
  • the direction point detection execution unit 172 uses the directivity pattern storage unit 165, the directivity pattern stored in the blind spot pattern storage unit 166, the blind spot pattern, and the dynamic threshold stored in the dynamic threshold storage unit 171. Then, a direction point which is a sound source direction candidate is detected, and the result is stored in the direction point buffer 173. Note that the sound source direction estimation process using the dynamic threshold is the process described above with reference to FIGS.
  • the direction-point detecting unit 105 shown in FIG. 9 divides the observation signal into blocks having a predetermined length and points corresponding to the sound source direction in each block. To detect. That is, processes corresponding to the processes (b) to (c) shown in FIG. 1 are performed.
  • the direction point tracking unit 107 connects direction points having substantially the same direction between a plurality of consecutive blocks, and detects them as speech sections. That is, the process described with reference to FIG. In the direction point tracking process, since sections are created by connecting adjacent direction points, there are a plurality of sections being created inside, and a buffer for storing them is provided. This is the creating section buffer 311 shown in FIG.
  • the sections being created and completed are section information 311a to 311n shown in the section being created 311a.
  • the current block number 331 stores the number of the block currently being processed (for example, the block 11 shown in FIG. 1). After the processing is started, the number of the first generated block is set to “1”, and the number is increased every time a new block is generated over time.
  • the direction point buffer 332 is the same as the direction point buffer 173 described with reference to FIG. 10, and stores the direction points for each block output from the direction point detection unit 105.
  • the lower part of FIG. 12 shows a detailed configuration of one piece of section information 311n of the section information 311a to 311n. All the section information 311a to 311n have the same configuration.
  • the section information 311n includes modules of section ID 321, start block number 322, end block number 323, number of valid blocks 324, average direction 325, and number of disconnected blocks 326.
  • the section ID 321 is a unique number assigned to each section. For example, numbers are assigned in the order of generation.
  • the start block number 322 is a block number corresponding to the start of the section. Instead of the block number, the STFT frame number or the true time may be held.
  • the end block number 323 is a block number corresponding to the end of the section. Similarly to the start block number 322, the frame number or time may be used. Since the end of the section in the middle of generation is not fixed, a value representing “undefined” is stored here.
  • the number of effective blocks 324 holds the number of blocks (hereinafter referred to as “effective blocks”) where direction points exist in the section.
  • the purpose of holding this value is to suppress erroneous detection of the section.
  • the ratio of the effective blocks is calculated from the number of blocks in the section (which can be calculated from the start block number 322 and the end block number 323) and the number of effective blocks, and the value is small (that is, the effective block is sparse) Since there is a high possibility of a false section connecting misdetected direction points, such section is rejected.
  • the average direction 325 is an average direction calculated from the direction points included in the section. For the section being created, the direction calculated at that time is stored.
  • the number of discontinuous blocks 326 is a value representing how many times a block having no direction point exists in the vicinity (near the sound source direction represented by the average direction 325). This value is used during the creation of the interval. In tracking, even if a direction point is disconnected, if the length of the disconnection is shorter than a predetermined value, it is better to cut out the section as one section without dividing the section. To achieve that, remember the length of the break. Further, when the length of disconnection (number of blocks) exceeds a predetermined value, the section is determined. This is the end of the description of the configuration of the apparatus.
  • FIG. 13 is a flowchart illustrating an overall sequence of processing executed by the sound signal processing device according to the present disclosure. Hereinafter, the processing of each step will be described sequentially.
  • Step S101 is an initialization process. In addition to substituting initial values for the frame number t and the block number B, a classification matrix and a steering vector are generated. Details will be described later.
  • Step S102 is an AD conversion process, which is a process of converting an analog sound signal input to the microphone into a digital signal.
  • the acquired sound by each microphone is analyzed using n microphones arranged at different positions.
  • analog sound signals input to the plurality of microphones are converted into digital signals.
  • AD conversion is performed in synchronization with the clock for n-channel input. This signal is called a time domain observation signal. Note that the input may be performed from a file, a network, or the like, if necessary, in addition to the microphone.
  • Step S103 is processing for applying short-time Fourier transform (STFT) to the observation signal in the time domain.
  • STFT short-time Fourier transform
  • the observation signal in the time domain is converted into a signal (spectrum) in the time frequency domain by a short-time Fourier transform (STFT) process.
  • the waveform x_k (*) of (a) the observation signal shown in FIG. For example, the waveform x_k (*) of the observation signal observed by the k-th microphone in the microphone array 101 including the n microphones configured as the voice input unit in the apparatus shown in FIG.
  • a unit to be cut out is called a frame, and frames 401 to 403 correspond to it in FIG.
  • a spectrum function Xk (t) which is data for one frame in the frequency domain, is obtained by applying a short-time Fourier transform after applying a window function such as a Hanning window or a Hamming window to one frame of data (t Is the frame number).
  • a spectrum arranged in accordance with the frame number is called a spectrogram.
  • the data shown in FIG. 14B is an example spectrogram.
  • the spectrum Xk (t) is a vector having M elements, and the ⁇ th element is Xk ( ⁇ , t). Further, in the spectrogram, a horizontal row of data consisting of the same ⁇ is called a frequency bin.
  • the sound signal processing device of the present disclosure also performs short-time Fourier transform (STFT) for the number of channels.
  • STFT short-time Fourier transform
  • Channel k Frequency bin ⁇ , Frame t
  • Xk ( ⁇ , t) It expresses.
  • This observation signal corresponds to, for example, the observation signal described in Equation [1.1] above.
  • Step S104 The accumulation process in step S104 accumulates the time-frequency domain signal (spectrum) generated by applying the short-time Fourier transform (STFT) to the time-domain observation signal in step S103 for a predetermined time (for example, 10 seconds). It is processing.
  • STFT short-time Fourier transform
  • observation signals for successive T frames are accumulated in the observation signal buffer 104 shown in FIG.
  • the frame number F and the frame data (spectrum) are associated with each other, and data of a predetermined frame number can be taken out later.
  • Step S105 is a frame number update process.
  • a frame number update process is performed in which the current frame number t is set to t + 1.
  • Step S106 is a conditional branch for executing the subsequent processing once in L frames. That is, the frame number t is divided by the frequency L, and only when the remainder is 0, the process proceeds to step S107, and otherwise, the process returns to step S102.
  • Step S107 is a process of determining “sound quality”.
  • This “speech-likeness” determination process uses, for example, a method described in Patent Document 4 (Japanese Patent No. 4182444) or the like to determine whether or not a “sound-like” signal is included in the block currently being processed. This is a process for determining.
  • the “voice-likeness” determination in step S107 is performed once for each L frame, but may be performed more frequently.
  • the “sound-likeness” is determined for each frame, and if there is at least one frame determined to be “sound” in the L frame constituting one block, the block is determined to be “sound-like”. Also good.
  • Step S108 The direction point detection process in step S108 is a process for obtaining the direction point from the covariance matrix of the observation signal. Details will be described later.
  • Step S109 The direction point tracking process in step S109 is a process for obtaining an utterance section from the direction point detected in the direction point detection process in step S108. Details will be described later.
  • Step S110 is block number B update processing. A block number update process is performed in which the current block number B is set to B + 1.
  • Step S111 is a branching process for determining whether to continue the process. When continuing the process, the process returns to step S102. Otherwise, the process ends.
  • Steps S201 to S202 initial values are assigned to the frame number t and the block number B, respectively.
  • Step S203 Next, in step S203, a steering vector is generated, and the result is stored in the steering vector storage unit 156 shown in FIG.
  • the steering vector generation method is as described above with reference to FIG. 11 and equations [3.1] to [3.3].
  • Step S204 Next, in step S204, the classification matrix and the like are initialized, and the result is stored in the classification matrix buffer 164 shown in FIG.
  • the following three types of matrices are initialized.
  • Classification matrix C Formula [2.3]
  • Directivity pattern generation matrix D formula [2.8]
  • Blind spot pattern generation matrix N number [2.9]
  • the element in the x-th row and the y-th column of the matrix A is denoted as A (x, y).
  • a (x, y) the element in the x-th row and the y-th column of the matrix A
  • the lower right element can be expressed as C (6,4), and its value is -1.
  • the range of the subscript of the row or column is represented by x: y.
  • the leftmost column can be expressed as C (1: 6,1).
  • an element having ⁇ 1 in the third row of the matrix can represent C (3, 2: 4).
  • step S301 Classification matrix C Directivity pattern generation matrix D Blind spot pattern generation matrix N For each, an area is secured and all elements are initialized to zero. These matrices have the same size, the number of rows is n (n + 1) / 2, and the number of columns is n.
  • Step S302 Next, in step S302, 1 is substituted into the variable r.
  • This variable r is an index representing the row of the matrix in the subsequent processing.
  • steps S303 to S311 constitute a double loop of two variables a and b.
  • the variable a represents the number of patterns belonging to the directivity type in each classification combination, and the variable b represents the number of patterns similarly belonging to the blind spot type.
  • Steps S304 to S310 are a loop for the variable b. a + b ⁇ n Therefore, the maximum value of the variable b in this loop is na.
  • Step S305 is processing for setting values of some of the matrix elements of the classification matrix C.
  • the classification matrix C is a matrix represented by Equation [2.3] described above. As described with reference to Equation [2.4], when the classification matrix C and the matrix P composed of the patterns P_1 to P_n are multiplied, the classified directivity pattern and the classified blind spot pattern are obtained for each combination of classifications. The difference can be calculated (equation [2.4]).
  • the basic procedure of the directivity pattern classification process is as follows. (1) In each of the n (n + 1) / 2 classification combinations, the representative of the directivity pattern is calculated from the pattern classified into the directivity type, and the representative of the blind spot pattern is calculated from the pattern also classified into the blind spot type. calculate. These are referred to as “classifying directivity pattern” and “classifying blind spot pattern”, respectively. (2) A distance measure between the classified directivity pattern and the classified blind spot pattern is calculated, and a classification result that maximizes the distance measure is adopted.
  • the classification matrix C has elements of 1, 0, ⁇ 1 as shown in Equation [2.3] described above.
  • all elements of the classification matrix C are set to zero.
  • a specific element is set to 1 among the elements of the classification matrix C which is set to 0 by default. Specifically, 1 is substituted into the elements from the first column to the a-th column in the r-th row of the classification matrix C.
  • This processing means that the directivity pattern P_1 to P_a belongs to the directivity type in the pattern P classification processing to which the r-th row of the classification matrix is applied. Since the directional pattern during classification is not the average of the patterns belonging to the directivity type but the sum, in step S305, 1 is assigned to the elements from the first column to the a-th column of the r-th row of the classification matrix C. substitute.
  • Step S306 is element set processing of the directivity pattern generation matrix D.
  • the directivity pattern generation matrix D is a matrix represented by the equation [2.8] described above. For example, if the k-th element of the vector H in the equation [2.7] described above is the maximum, the vector in the k-th row of the directivity pattern generation matrix is expressed as shown in the equation [2.10].
  • a directivity pattern can be generated by multiplying the directivity pattern matrix P.
  • step S306 1 / a is assigned to the element position of the directivity pattern generation matrix D that is the same as the element position in which 1 is assigned to the classification matrix C in step S305. That is, 1 / a is substituted into the elements from the first column to the a-th column of the r-th row of the directivity pattern generation matrix D. Since the directivity pattern is an average of patterns belonging to the directivity type, the value to be substituted here is not 1, but the reciprocal of the number of patterns (1 / a).
  • step S307 element set processing is performed in which part of the elements of the classification matrix C is set to -1.
  • ⁇ 1 is substituted into the elements in the r-th row of the classification matrix C from the n ⁇ b + 1 column to the n-th column.
  • the directivity pattern P_ ⁇ n ⁇ b + 1 ⁇ to P_n belong to the blind spot type in the classification corresponding to the r-th row. Since the classified blind spot pattern is not the average of the patterns belonging to the blind spot type, but the sum, the value to be substituted here is -1.
  • the reason for substituting ⁇ 1 instead of 1 is to calculate the difference from the directional pattern during classification (see the right side of Equation [2.4]).
  • Step S306 is an element setting process of the blind spot pattern generation matrix N.
  • the blind spot pattern generation matrix N is a matrix represented by the equation [2.9] described above. For example, if the k-th element of the vector H of the equation [2.7] described above is the maximum, the vector of the k-th line of the blind spot pattern generation matrix is directed as shown in the equation [2.11].
  • a blind spot pattern can be generated by multiplying the characteristic pattern matrix P.
  • step S308 1 / b is substituted into the element position of the blind spot pattern generation matrix N which is the same as the element position into which -1 is substituted into the classification matrix C in step S307. That is, 1 / b is substituted into the elements in the r-th row of the blind spot pattern generation matrix N from the nb + 1 column to the n-th column. Since the blind spot pattern is an average of the patterns belonging to the blind spot type, the value to be substituted here is not 1, but the reciprocal number (1 / b) of the number of patterns.
  • Step S309 is a process of updating r, which is a row index, and executes a row index update process in which r is r + 1.
  • step S310 the loop of b is closed, and in step S311, the loop of a is closed. This completes the description of creating a new section.
  • Step S401 The processing in steps S401 to S405 corresponds to the processing in steps S11 to S19 shown in FIG. 6 described above with reference to FIG.
  • step S401 an observation signal covariance matrix is obtained.
  • the covariance matrix calculation process has been described above with reference to FIG. 6, but will be described below again by showing calculation formulas.
  • the following equations [4.1] to [4.5] are the same as the equations [1.1] to [1.5] shown above.
  • step S401 The covariance matrix calculation process in step S401 will be described with reference to the above equations [4.1] to [4.5].
  • a result obtained by applying a short time Fourier transform (STFT) to a signal observed by the k-th microphone among n microphones is defined as Xk ( ⁇ , t), and X1 ( ⁇ , t) to Xn (
  • a vector consisting of ⁇ , t) is set as X ( ⁇ , t) (formula [4.1]).
  • t is a frame number.
  • a covariance matrix R ( ⁇ ) of X ( ⁇ , t) is calculated from a plurality of frames (formula [4.2]).
  • ⁇ •> _ ⁇ t ⁇ L ′ ⁇ ⁇ t ⁇ This means that the expression in parentheses is averaged between frames satisfying t ⁇ L ′ ⁇ ⁇ t.
  • t is the frame number of the end of the block
  • L ' is the length of the block (number of frames) t ⁇ L ′ + 1 is the frame number of the beginning of the block.
  • the block is, for example, the block shown in FIG. 1, and each block corresponds to each frame.
  • R ( ⁇ ) be the covariance matrix calculated according to the above equation [4.2].
  • this covariance matrix is generated. This covariance matrix corresponds to the covariance matrix calculated in step (S11) of FIG.
  • Step S402 an eigenvector (Eigenvector) is calculated by applying eigenvalue decomposition to the covariance matrix R ( ⁇ ).
  • the eigenvector calculated by eigenvalue decomposition is expressed by the above equation [4.3].
  • ⁇ ( ⁇ ) is a diagonal matrix composed of eigenvalues (formula [4.5])
  • V ( ⁇ ) is a matrix composed of eigenvectors V_1 ( ⁇ ) to V_n ( ⁇ ) (formula [4.4]).
  • the eigenvector calculated in step S402 corresponds to the eigenvector in step S12 shown in FIG.
  • the covariance matrix calculation and eigenvector calculation processing according to the above equations [4.1] to [4.5] are basically performed for all frequency bins ⁇ satisfying 1 ⁇ ⁇ M. Similar to the steering vector described above with reference to FIG. 11, it may be performed for some frequency bins. At the stage where step S402 is completed, n eigenvectors are calculated for each frequency bin.
  • Step S403 corresponds to the directivity pattern for each frequency bin, for example, the processing of steps S13 to S15 of FIG. 6 described above with reference to FIG. That is, directivity patterns Pa to Pd shown in FIG. 6 (S13) are generated, and an average or the like is calculated between the frequency bins (FIG. 6 (S14)). S15)) is generated. This series of processing will be described with reference to the following equations [5.1] to [5.3].
  • a component of the direction ⁇ of the directivity pattern corresponding to the k-th eigenvector is P_k ( ⁇ , ⁇ ). Its value is the square of the gain in that direction and is calculated from equation [5.1].
  • all frequency bins ie, 1 ⁇ ⁇ M
  • only a plurality of frequency bins that satisfy a specific condition may be used.
  • only frequency bins corresponding to multiples of a specific value such as an even number or a multiple of 3 may be used.
  • only the frequency bin corresponding to the frequency band in which the voice is mainly included may be used by utilizing the sound source direction estimation for the voice section detection.
  • Equation [5.3] to the result of Equation [5.2] and adjust the maximum value of P_k ( ⁇ ) to 0.
  • the directivity pattern common to all frequency bins directly to the directivity pattern. Due to the action of Equation [5.3], the directivity pattern has a negative value except for the direction in which the maximum value is zero.
  • Equation [5.2] represents an average between frequency bins
  • Equation [5.3] may be replaced by a simple sum (ie, division by ⁇ is omitted).
  • Step S404 classification processing is performed on the n directional pattern patterns generated by the above processing.
  • the classification process can be executed according to the following procedure. (1) In each of the n (n + 1) / 2 classification combinations, the representative of the directivity pattern is calculated from the pattern classified into the directivity type, and the representative of the blind spot pattern is calculated from the pattern also classified into the blind spot type. calculate. These are referred to as “classifying directivity pattern” and “classifying blind spot pattern”, respectively. (2) A distance measure between the classified directivity pattern and the classified blind spot pattern is calculated, and a classification result that maximizes the distance measure is adopted.
  • Euclidean distance is used as the distance scale.
  • the sum (not the average) of the patterns classified into the directivity type is used as the directional pattern during classification
  • the sum of the patterns classified into the blind spot type is used as the middle blind spot pattern.
  • a vector H composed of the Euclidean distance between the directivity pattern and the blind spot pattern corresponding to each classification result is calculated from the equation [2.7], and the number of the largest element in the vector is examined. Thus, the optimum classification result is determined.
  • Step S405 When the optimum classification result is determined, a directivity pattern and a blind spot pattern corresponding to the optimum classification result are generated in step S405. These correspond to the directivity pattern P_D and the blind spot pattern P_N shown in FIG.
  • the pattern generation processing can be performed by comparing the elements of the vector H in the formula [2.7] described above. That is, assuming that the Kth element of the vector H representing the square of the Euclidean distance between the classified directivity pattern and the classified blind spot pattern corresponding to each classification result is the maximum, the directivity pattern P_D is It generates from equation [2.10] using D_K in equation [2.8]. The blind spot pattern P_N is generated from the equation [2.11] using N_K in the equation [2.9]. Thus, one directivity pattern and one blind spot pattern are obtained.
  • step S406 in FIG. 17 is executed as processing for detecting a direction point using these two patterns.
  • Step S406 This is a branch based on the determination result of the speech likelihood determination processing in step S107 of the overall processing flow shown in FIG. Only when it is determined that the observation signal of the block to be processed is “not like speech”, the process proceeds to step S407. On the other hand, when it is determined that “sound is likely”, the updating of the threshold value in steps S408 to S409 is skipped, and the process proceeds to step S409.
  • Step S407 Steps S407 to S408 are processing executed when it is determined in step S406 that the sound of the processing target block does not seem to be sound.
  • step S407 an average is calculated between the current blind spot pattern and the past blind spot pattern. The average operation is performed between the blind spot patterns corresponding to the blocks determined as “not like speech”. Moreover, the blind spot pattern after a certain amount of time is not reflected in the average. Therefore, for example, the average is updated as shown in the following equation [6.1] using a forgetting factor.
  • P_N with an overline represents the average of the blind spot pattern, which will be referred to as the average blind spot pattern and expressed as bar (P_N) in the following description.
  • is a forgetting factor, and a positive value close to 0 (for example, 0.01) is used.
  • Equation [6.1] calculates a weighted average between the average blind spot pattern bar (P_N) at that time and the blind spot pattern P_N in the block with ⁇ -1 and ⁇ as the respective weights. This means that the result is a new average blind spot pattern.
  • ⁇ in Equation [6.1] is a much smaller value than 1- ⁇ , even if the “voice-likeness” determination in step S406 is wrong, the average blind spot pattern (and dynamic threshold described later) is obtained. The impact of is small.
  • T_s that is the upper limit of the dynamic threshold functions as an initial value of the dynamic threshold.
  • a dynamic threshold value is calculated from the average blind spot pattern.
  • the dynamic threshold value is preferably set at a position slightly lower than the average blind spot pattern.
  • the dynamic threshold value is calculated using, for example, Equation [6.2].
  • T_d ( ⁇ ) on the left side is a dynamic threshold corresponding to the direction ⁇ .
  • the min () on the right side represents selecting the smaller of the two arguments.
  • bar (P_N ( ⁇ )) is an element corresponding to the direction ⁇ in the average blind spot pattern P_N.
  • is a value of 1 or more
  • is a value of 0 or more.
  • the dynamic threshold is set to such a value that a direction point is not erroneously detected in a state where no sound is present even if an interference sound is heard.
  • T_s in Formula [6.2] is a constant of 0 or less and represents the upper limit of the dynamic threshold.
  • the reason why T_s is used in addition to ⁇ and ⁇ is mainly to prevent erroneous detection of direction points in a quiet environment. In a quiet environment where there is no clear sound source, the average blind spot pattern converges to a negative value close to 0. Therefore, even a valley with a small blind spot pattern can easily be detected as a direction point beyond the threshold. If ⁇ and ⁇ are adjusted for the purpose of preventing detection of such direction points, the blind spot pattern may not easily exceed the dynamic threshold in the environment where the sound source exists (utterance is difficult to be detected). . Therefore, the threshold value in a quiet environment can be set independently of the threshold value derived from the average blind spot pattern by T_s (and min ()).
  • the average blind spot pattern is generated using the directivity pattern whose maximum value is adjusted to 0
  • at least one of the arithmetic processing of positive constant multiple or subtraction of the positive constant is performed on the average blind spot pattern.
  • a threshold having a value lower than the average blind spot pattern can be calculated.
  • Step S409 Finally, direction points are detected in step S409. Specifically, a direction satisfying all the following conditions is defined as a direction point.
  • Condition 1 The direction is a valley of a blind spot pattern.
  • Condition 2 The depth of the valley is deeper than the dynamic threshold.
  • Condition 3 A mountain of directivity patterns exists in the vicinity of the direction.
  • Condition 4 The trough in that direction is included from the 1st place to the n-1th place in the deep order.
  • condition 1 is expressed by an equation, it is as shown in equation [7.1] below.
  • ⁇ _i represents one of the directions from ⁇ _min to ⁇ _max in Equation [2.1] described above.
  • ⁇ _ ⁇ i ⁇ 1 ⁇ represents the direction of the element on the left side in the vector of Equation [2.1]
  • ⁇ _ ⁇ i + 1 ⁇ represents the direction of the element on the right side.
  • Condition 2 is expressed by Formula [7.2].
  • condition 3 since the direction of the valley of the blind spot pattern and the direction of the peak of the directivity pattern do not always match, determination using a predetermined margin is performed.
  • the formula is represented by Formula [7.3] and Formula [7.4]. That is, the peak of the directivity pattern is detected by Equation [7.3], and the direction is set to ⁇ _ ⁇ i ′ ⁇ .
  • Condition 4 is derived from the fact that the number of blind spots formed by n microphones is at most n ⁇ 1 (excluding the blind spot derived from the spatial alias and symmetry of the directivity pattern).
  • Patent Document 1 Japanese Patent Laid-Open No. 2012-1502307
  • FIG. 18 is an overall process flow of the direction point tracking process.
  • Step S501 is a section extension / confirmation process. This process is a process for the section being created stored in the section for creating section 311 in the detailed configuration of the direction point tracking unit 107 described with reference to FIG.
  • the section being created is extended or confirmed. Further, the determined section is transmitted to subsequent processing (such as sound source extraction). Details will be described later. Note that the “section being created” is a section that is in a state from when it is generated by the new section creation processing in the next step S502 until the section is determined.
  • Step S502 is a new section creation process for finding a section starting from the block currently being processed. Details of this will also be described later.
  • This “section extension / confirmation process” is a process for the section being created stored in the section being created buffer 311 shown in FIG. Therefore, in steps S601 to S608, the loop for the section being created is rotated, and the processes of steps S602 to S607 are performed for each section being created.
  • Step S602 it is checked whether a direction point exists in the vicinity of the section being created. Compare the average direction 325 in the section information 311n which is the section being created shown in FIG. 12 with the value held by the direction point, and the difference between the two is within a predetermined range (for example, within ⁇ 10 °). For example, it is determined that a direction point exists near the section being created. If a direction point exists, the process proceeds to step S603. If no direction point exists, the process proceeds to step S605.
  • Step S603 Steps S603 to S604 are processes related to the extension of the section.
  • the number of valid blocks (number of valid blocks 324 in the section information 311n shown in FIG. 12) is incremented by 1 and 0 is substituted for the number of broken blocks (number of broken blocks 326 in the section information 311n shown in FIG. 12). .
  • Step S604 the average of the direction from the beginning of the section to the block currently being analyzed is calculated. Specifically, the average direction before updating (value stored in the average direction 325 in the section information 311n shown in FIG. 12) is A, the number of valid blocks (the value after adding 1 in step S603) is B, the direction The value of the point is C, and A is updated by the following formula. A ⁇ ⁇ (B-1) A + C ⁇ / B
  • Step S605 to S606 If there is no direction point in the vicinity in step S602, the process proceeds to step S605. In this case, it indicates that the direction point that has been continuous until then is broken, and if it is broken for a certain time or more, it is determined as the end of the section.
  • step S605 the number of broken blocks (number of broken blocks 326 in the section information 311n shown in FIG. 12) is incremented by 1, and in step S606, whether or not the value is equal to or greater than a predetermined value (for example, five blocks). judge. If the break length is greater than or equal to a predetermined value, it is considered that the end of the section has been determined, and the process proceeds to the “section output / rejection” process in step S607. Details of this processing will be described later. On the other hand, if the break length is less than the predetermined value, step S607 is skipped and the process proceeds to step S608.
  • a predetermined value for example, five blocks.
  • Step S601 to S608 have been performed for all sections being created, the process exits the loop and proceeds to the “multiple adoption check” process in Step S609.
  • step S609 it is checked whether or not one direction point is adopted in two or more created sections (multiple adoption). If it is adopted in a plurality of sections, only the longest section is selected. Leave it and delete everything else. Alternatively, a new one section is generated by merging the plurality of sections.
  • Patent Document 1 Japanese Unexamined Patent Application Publication No. 2012-150237) for the reason for checking the multiple adoption and the method thereof.
  • Step S607 of the flow of FIG. 19 a detailed sequence of the “section output / rejection” process in step S607 of the flow of FIG. 19 will be described with reference to the flowchart shown in FIG. “Section output” is to send the determined section to the subsequent process (for example, the sound source extraction processing unit). “Section rejection” means that the section does not satisfy the predetermined condition. It is not used for processing but is thrown away.
  • Step S701 the terminal block number is calculated, and the value is substituted into the terminal block number 323 in the section information 311n in the section buffer 311 being created in the direction point tracking unit 107 shown in FIG.
  • the end block number is calculated by the following equation.
  • the Terminal block number BB ⁇ ⁇ discontinue ⁇
  • steps S702 to S705 are determination processing for various conditions to be satisfied by the section, and the process proceeds to step S706 only when all the conditions are satisfied.
  • each condition will be described. However, the determination of each condition is in no particular order.
  • Step S702 is a determination of whether or not the average direction held by the section (the average direction 325 in the section information 311n shown in FIG. 12) is within a predetermined range. For example, in a system using speech recognition, if the user knows that he / she speaks only from the front (near 0 °), the direction of the target sound to be accepted is limited to ⁇ 5 ° to + 5 °, for example, and the direction of the section is If it is out of the range, the section is rejected. On the other hand, this determination is not performed in applications where the target sound source can exist in all directions.
  • Step S703 is determination regarding the length of the section. By rejecting a section shorter than a predetermined value (for example, shorter than 0.1 seconds), erroneous detection of the section can be suppressed. Further, by rejecting a section longer than a predetermined value (for example, 30 seconds), it is possible to prevent detection of a long section that cannot be handled by subsequent processing.
  • a predetermined value for example, shorter than 0.1 seconds
  • the length of the section is set for the purpose of preventing detection of a continuous disturbing sound as a voice section.
  • an upper limit has been set, according to the present disclosure, the disturbing sound that remains ringing is eventually not detected due to the effect of the dynamic threshold based on “voice-likeness”. Therefore, the upper limit of the length of the section may be determined according to the convenience of subsequent processing.
  • Step S704 is a determination regarding the ratio of “sound-like” blocks.
  • the number of blocks determined as “sound-like” is counted, and the ratio to the number of blocks in the section (the difference between the terminal block number and the starting block number + 1) is a predetermined value (for example, 0.5 If it falls below), the section is rejected.
  • the start block number start block number 322 in the section information 311n shown in FIG. 12
  • the end block number end block number 323 in the section information 311n shown in FIG. 12
  • Step S705 is a determination on the ratio of valid blocks (blocks having direction points) in the section.
  • B_ ⁇ begin ⁇ the start block number of the section (start block number 322 in the section information 311n shown in FIG. 12), The end block number (the end block number 323 in the section information 311n shown in FIG. 12) is B_ ⁇ end ⁇ , If the number of valid blocks (number of valid blocks 324 in the section information 311n shown in FIG. 12) is B_ ⁇ valid ⁇ ,
  • Determine whether this value is a predetermined value (for example, 0.5) or more.
  • a predetermined value for example, 0.5
  • Step S706 If all the determinations in steps S702 to S705 are satisfied, the process proceeds to “output” in step S706.
  • the section is removed from the creating section buffer (the creating section buffer 311 shown in FIG. 12) and sent to a subsequent processing section such as a speech recognition section.
  • Step S711 If it is determined in step S702 to S705 that none is satisfied, the process proceeds to “reject” in step S711.
  • the section is merely removed from the section for creation section (the section for creation section 311 shown in FIG. 12), and output to the subsequent processing unit is not performed.
  • steps S801 to S804 is a loop for direction points, and the processing of steps S801 to S804 is performed for each of the direction points detected in step S108 in the overall processing flow of FIG. Do.
  • Step S802 it is checked whether a section being created exists near the direction point to be processed. This determination process This is the same processing as the determination processing in step S602 of the flow of FIG. If there is no section being created in the vicinity, the direction point is treated as the start point of the section, and the process proceeds to “section creation” in step S803. If a section being created exists in the vicinity, the process of step S803 is skipped.
  • step S803 the section information 311a to 311n described above with reference to FIG. 12 is generated. That is, new section information is generated by substituting predetermined values into the slots of section ID 321, start block number 322, end block number 323, number of valid blocks 324, average direction 325, and break block number 326.
  • predetermined values into the slots of section ID 321, start block number 322, end block number 323, number of valid blocks 324, average direction 325, and break block number 326.
  • values to be assigned to each slot will be described.
  • the current block number 331 is substituted for the start block number 322. For the end block number 323, since the end is not detected at this time, a value indicating undefined is substituted. Alternatively, the current block number 331 may be substituted.
  • the following devices are used in speech section detection based on sound source direction estimation.
  • (1) By averaging the directivity pattern between frequency bins, classifying them into directivity type, blind spot type, and neutral type, and averaging the directivity pattern classified into directivity type and blind spot type, A directivity pattern and a blind spot pattern are generated.
  • the blind spot pattern threshold is updated only when the input signal is determined to be “voice-like”. Specifically, an average of blind spot patterns is calculated between blocks determined to be “sound-like”, and a threshold is set to a height slightly lower than the average blind spot pattern.
  • the average operation is performed between more directional characteristic patterns than in the conventional method described in, for example, Patent Document 1 (Japanese Patent Laid-Open No. 2012-150237) and the generated directivity
  • the pattern and the blind spot pattern are smooth with less irregularities than before.
  • the frequency of occurrence of a problem in which the blind spot pattern convexity and the directivity pattern convexity are detected as false direction points because they happen to be close to each other and cause erroneous detection of the section is reduced.
  • the threshold value of the blind spot pattern is set dynamically and appropriately by the above (2), the problem that is difficult to solve with the static threshold value is solved.
  • the conventional method forms a false valley on the blind spot pattern, and the direction point is detected therefrom, When a false speech section that does not correspond to an utterance is detected, or when it is attempted to be rejected, a speech utterance from the same direction as the false valley is not detected.
  • the threshold is appropriately set at a position slightly deeper than the false valley by the dynamic update of the threshold, so that when there is no utterance, the section in the false valley direction is detected. On the other hand, if there is an utterance from the direction of the false valley, a section in that direction can be appropriately detected.
  • voice segment detection based on sound source direction estimation has a problem that, in principle, if it is a sound source that continues to sound from the same direction, even if it is a non-speech, it has been detected as a voice segment, Such as rejecting a non-speech segment with constraints on it, or rejecting the segment based on the speech recognition score and reliability after performing sound source extraction and speech recognition, which are subsequent processing Has been done.
  • the method of restricting the direction and the section length has a side effect that even a true speech utterance may be rejected, and the other method using the speech recognition score and reliability
  • the threshold value is set at a position deeper than the valley formed by the non-speech sound source that is continuously sounding due to the dynamic update of the threshold value.
  • a section in that direction is not detected except immediately after the start of sounding. Therefore, it is possible to avoid the above-mentioned side effects, increase in calculation amount, and increase in waiting time.
  • the present disclosure improves the accuracy of voice segment detection. Accordingly, the usefulness of a system equipped with speech segment detection, particularly a system equipped with speech recognition, is improved.
  • the technology disclosed in this specification can take the following configurations.
  • a direction point detection unit that detects, for each block obtained by dividing a direction point indicating a sound source direction of a sound signal by a predetermined time unit;
  • a direction point tracking unit that detects a section in which sound is generated by connecting the direction points between a plurality of blocks, The direction point detector is
  • a blind spot pattern generation unit that generates a blind spot pattern that represents a directivity characteristic that is a plot of a correspondence relationship between a direction and sensitivity, and that sensitivity to a sound source direction is relatively low,
  • a direction point detection execution unit for detecting a minimum point of the blind spot pattern as a sound source direction;
  • a blind spot pattern average unit that calculates an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not sound like a voice
  • a dynamic threshold calculator that calculates a dynamic threshold set to a value slightly lower
  • the direction point detection unit includes a directivity pattern generation unit that generates a directivity pattern representing a directivity characteristic that sensitivity to a sound source direction is relatively high
  • the direction point detection execution unit includes: The sound signal processing device according to (1), wherein a direction having a combination of a minimum point of a blind spot pattern and a maximum point of the directivity pattern is detected as a sound source direction.
  • the sound signal processing device applies a short-time Fourier transform (STFT) to observation signals acquired by a plurality of microphones arranged at different positions, and converts the observation signals into a time-frequency domain observation signal.
  • STFT short-time Fourier transform
  • the direction point detection unit calculates a covariance matrix from the observation signal in the time-frequency domain, applies eigenvalue decomposition to the covariance matrix, calculates a plurality of eigenvectors,
  • the sound signal processing device according to (1) or (2), wherein a steering vector corresponding to each direction is applied to the eigenvector to generate a plurality of directional characteristic patterns representing a relationship between the direction and sensitivity.
  • the direction point detection unit may convert the plurality of directivity characteristic patterns to (A) a directivity type representing a directivity characteristic that the sensitivity to the sound source direction is relatively high; (B) A blind spot type representing a directivity characteristic that the sensitivity to the sound source direction is relatively low, (C) Neutral type not belonging to any of the above (a), (b), A directivity pattern classification unit for classifying into the above three types (a) to (c); Applying the pattern classified into the directivity type, a directivity pattern generation unit that generates a directivity pattern representing a directivity characteristic that the sensitivity to the sound source direction is relatively high; The sound signal processing according to (3), further including a blind spot pattern generation unit that generates a blind spot pattern representing a directivity characteristic that sensitivity to a sound source direction is relatively low by applying the pattern classified into the blind spot type. apparatus.
  • the directional characteristic pattern classifying unit in the directional characteristic pattern classification process, represents a representative directional pattern calculated from a directional characteristic pattern belonging to a directional pattern and a representative directional pattern calculated from a blind spot pattern.
  • the directivity pattern classification unit calculates the representative directivity pattern as a sum of patterns belonging to a directivity type, and calculates the representative blind spot pattern as a sum of patterns belonging to a blind spot type.
  • the directivity pattern generation unit generates an average of the patterns classified into the directivity type as a directivity pattern
  • the blind spot pattern generation unit calculates an average of the patterns classified into the blind spot type as a blind spot pattern.
  • the direction point detection unit calculates a covariance matrix from observation signals in the time-frequency domain, applies eigenvalue decomposition to the covariance matrix, calculates a plurality of eigenvectors, and calculates the plurality of eigenvectors.
  • a steering vector corresponding to each direction is applied to generate a plurality of directional characteristic patterns representing the relationship between direction and sensitivity.
  • the dynamic threshold value calculation unit is set to a value slightly lower than the average blind spot pattern by performing at least one of a positive constant multiplication or a positive constant subtraction on the average blind spot pattern.
  • the sound signal processing device includes a sound likelihood determination unit that determines whether or not the input sound signal is sound based on the periodicity of the input sound signal, and the blind spot pattern average unit is the sound soundness
  • the sound signal processing device according to any one of (1) to (10) in all periods, wherein an average blind spot pattern that is an average of a plurality of blind spot patterns at an input timing of a signal that does not look like speech is calculated based on a determination result of a determination unit.
  • the blind spot pattern averaging unit is weighted using a forgetting factor between the blind spot pattern at the time when the speech likelihood determining unit determines that the voice is not likely to be speech and the average blind spot pattern that has already been calculated at that time.
  • the sound signal processing device according to (11), wherein the average blind spot pattern is updated by averaging.
  • a sound signal processing method executed in the sound signal processing apparatus A direction point detection unit that detects a direction point indicating a sound source direction of a sound signal for each block obtained by dividing the direction point by a predetermined time unit, and The direction tracking unit performs a direction tracking step of detecting a section by connecting the direction points between a plurality of blocks,
  • the direction point detecting step includes It is a plot of the correspondence between direction and sensitivity, and a blind spot pattern generation process for generating a blind spot pattern representing a directivity characteristic that the sensitivity to the sound source direction is relatively low, Direction point detection processing for detecting a minimum point of the blind spot pattern as a sound source direction;
  • a blind spot pattern averaging process for calculating an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not seem to be voice,
  • a dynamic threshold calculation process is performed to calculate a dynamic threshold set to a
  • a program for executing sound signal processing in the sound signal processing device Direction point detection step for causing the direction point detection unit to detect the direction point indicating the sound source direction of the sound signal for each block divided in predetermined time units,
  • a direction tracking unit is configured to execute a direction tracking step in which the direction point is connected between a plurality of blocks and a section is detected.
  • Direction point detection processing for detecting a minimum point of the blind spot pattern as a sound source direction
  • a blind spot pattern averaging process for calculating an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not seem to be voice,
  • a dynamic threshold calculation process is performed to calculate a dynamic threshold set to a value slightly lower than the average blind spot pattern,
  • the program which selects the minimum point below the said dynamic threshold from the said blind spot pattern, and detects the direction corresponding to the selected minimum point as a sound source direction.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • an apparatus and a method for determining a voice section with high accuracy from a sound signal in which a plurality of sounds are mixed are realized.
  • pattern classification according to the directivity characteristic with respect to the sound source direction is performed, and the directivity pattern, blind spot is determined from the classification result.
  • an average blind spot pattern that is an average of a plurality of blind spot patterns at the input timing of a signal that does not look like speech is calculated.
  • a threshold set to a value slightly lower than the average blind spot pattern is calculated as a threshold applied to detection of a minimum point corresponding to the sound source direction from the blind spot pattern, and a minimum point equal to or less than the threshold is determined as a sound source direction corresponding point.
  • blind spot pattern 11 blocks 12 direction points 15 and 16 voice section 21 center of gravity 22 microphone marophone 25 and 26 sound source 31 blind spot pattern 32 directivity pattern 41 blind spot pattern 51 and 52 direction points 53, 54, 55 and 57 section 71 blind spot pattern 72 threshold 73 blind spot pattern 81 Blind spot pattern 84 Blind spot pattern 101 Microphone array 102 AD conversion unit 103 STFT unit 104 Observation signal buffer 105 Direction point detection unit 106 Speech likelihood determination unit 107 Direction point tracking unit 108 Sound source extraction unit 109 Subsequent processing unit 151 Observation signal buffer 152 Covariance matrix Calculation unit 153 Covariance matrix storage unit 154 Eigenvector calculation unit 155 Eigenvector storage unit 156 Steering vector storage unit 157 Directional characteristic pattern generation unit 158 Directional characteristic pattern 159 Directivity pattern storage unit 161 Neutral storage unit 162 Blind spot storage unit 163 Directivity pattern & blind spot pattern storage unit 164 Classification matrix buffer 165 Directivity pattern storage unit 166 Blind spot pattern storage unit 167 Speech likelihood determination unit 168 Blind spot pattern average unit 169

Abstract

複数の音が混在した音信号から高精度に音声区間を判定する装置、方法を提供する。音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低い値に設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。

Description

音信号処理装置、および音信号処理方法、並びにプログラム
 本開示は、音信号処理装置、および音信号処理方法、並びにプログラムに関する。さらに、詳細には音源方向推定を伴う音声区間検出処理を実行する音信号処理装置、および音信号処理方法、並びにプログラムに関する。
 音声区間検出(SD:Speech Detection)とは、連続して入力される音信号の中から、人が発話している区間(セグメント)を切り出す処理のことであり、Voice Activity Detection(VAD)とも呼ばれる。以降、単に「区間検出」とも書く。
 音声区間検出は、音声認識や音源抽出などと共に用いられることがあるが、いずれの場合も、区間検出には高い精度が要求される。
 例えば多くの音声認識器では、区間検出によって切り出された区間に対してマッチング等の処理を行なうため、区間検出精度が音声認識の精度に大きく影響する。すなわち、実際に発話した区間と、区間検出処理における検出区間とが異なっていると、それ自体が誤認識の原因となってしまう。あるいは、音声が発話されていないにもかかわらず発話区間を誤検出してしまうと、その区間の音に対して認識処理を行なってしまい、その誤った認識結果に基づいてシステムが誤動作するといった現象も発生し得る。
 一方、複数の音が混合した取得音から1つの音声を選択抽出する等の音源抽出処理においても区間検出が用いられる場合がある。例えば、音声と雑音とが混ざった信号からクリーンな音声を抽出したい場合や、二人以上が同時にしゃべっている環境において一人の音声を抽出したい場合、音源抽出の方式によっては、入力信号を、雑音のみが鳴っている区間と両方が混ざっている区間とに分割する必要があり、その目的で区間検出が使用される。
 または、単に目的の音声が存在しているときのみ音源抽出を動作させることで、計算量を削減したり無音区間に適応するのを防いだりするという目的で区間検出が使用される場合もある。このような、音源抽出と共に使用される音声区間検出では、入力信号が音声と雑音との混合や音声同士の混合であっても高い精度で動作することが要求される。
 なお、音声区間検出について開示した従来技術としては、例えば特許文献1(特開2012-150237号公報)や、特許文献2(特許4282704号)、特許文献3(特開2010-121975号公報)、特許文献4(特許4182444号)、特許文献5(特開2008-175733号公報)、特許文献6(特開2013-44950号公報)等がある。また、音源抽出処理について開示した従来技術して、例えば特許文献7(特開2012-234150号公報)がある。
特開2012-150237号公報 特許4282704号 特開2010-121975号公報 特許4182444号 特開2008-175733号公報 特開2013-44950号公報 特開2012-234150号公報
 本件は、より高精度な音声区間検出を実現する音信号処理装置、および音信号処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
 前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
 前記方向点検出部は、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
 前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
 前記方向点検出実行部は、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置にある。
 さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、前記方向点検出実行部は、前記死角パターンの極小点と、前記指向性パターンの極大点との組み合わせを有する方向を音源方向として検出する。
 さらに、本開示の音信号処理装置の一実施態様において、前記音信号処理装置は、異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換(STFT)を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して各方向に対応したステアリングベクトルを作用させることにより、方向と感度との関係を表わす複数の指向特性パターンを生成する。
 さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、前記複数の指向特性パターンを、
 (a)音源方向に対する感度が相対的に高いという指向特性の型である指向性型、
 (b)音源方向に対する感度が相対的に低いという指向特性の型である死角型、
 (c)上記(a),(b)のいずれにも属さない中立型、
 上記(a)~(c)の3種類に分類する指向特性パターン分類部と、前記指向性型に分類されたパターンを適用して、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部とを有する。
 さらに、本開示の音信号処理装置の一実施態様において、前記指向特性パターン分類部は、前記指向特性パターンの分類処理に際して、指向性型に属する指向特性パターンから計算される代表指向性パターンと、死角型に属する指向特性パターンから計算される代表死角パターンと、をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する。
 さらに、本開示の音信号処理装置の一実施態様において、指向特性パターン分類部は、前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、前記代表死角パターンを、死角型に属するパターンの総和として算出する。
 さらに、本開示の音信号処理装置の一実施態様において、前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である。
 さらに、本開示の音信号処理装置の一実施態様において、前記指向性パターン生成部は、前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、前記死角パターン生成部は、前記死角型に分類されたパターンの平均を死角パターンとして生成する。
 さらに、本開示の音信号処理装置の一実施態様において、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させ、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、前記複数の指向特性パターンの生成処理において、各周波数帯域における各方向のゲインの2乗を算出し、複数の周波数帯域間で2乗ゲインを平均または総和して平均2乗ゲインまたは総和2乗ゲインを算出し、平均2乗ゲインまたは総和2乗ゲインの対数化処理、および最大値を0に調整する処理を行なって前記複数の指向特性パターンを生成する。
 さらに、本開示の音信号処理装置の一実施態様において、前記動的閾値計算部は、前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する。
 さらに、本開示の音信号処理装置の一実施態様において、前記音信号処理装置は、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。
 さらに、本開示の音信号処理装置の一実施態様において、前記死角パターン平均部は、前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う。
 さらに、本開示の第2の側面は、
 音信号処理装置において実行する音信号処理方法であり、
 方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
 方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
 前記方向点検出ステップは、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
 前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行し、
 前記方向点検出処理は、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法にある。
 さらに、本開示の第3の側面は、
 音信号処理装置において音信号処理を実行させるプログラムであり、
 方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
 方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
 前記方向点検出ステップにおいては、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
 前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低いに設定された動的閾値を算出する動的閾値計算処理を実行させ、
 前記方向点検出処理において、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
 具体的には、音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低いに設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。
 上記構成により、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
音源方向推定を伴う音声区間検出処理の一例について説明する図である。 「指向性フィルタ」や「死角フィルタ」を生成するための観測信号の収録状況の一例を示す図である。 死角パターンと指向性パターンの例について説明する図である。 真の谷と付随的な谷の例について説明する図である。 方向点が2個検出された場合の時間方向トラッキングによる2個の区間検出例について説明する図である。 本開示の音信号処理装置の実行する指向特性パターンの分類処理を伴う指向性パターンと死角パターンの生成処理例について説明する図である。 指向特性パターンに対応して設定する動的閾値の例について説明する図である。 同位相混入成分が存在するときの無音時の死角パターンと動的閾値の対応例について説明する図である。 本開示の音信号処理装置の構成例について説明する図である。 方向点検出部の詳細について説明する図である。 ステアリングベクトルの生成方法について説明する図である。 方向点トラッキング部の詳細について説明する図である。 本開示の音信号処理装置の実行する処理の全体シーケンスについて説明するフローチャートを示す図である。 短時間フーリエ変換(STFT)処理の詳細について説明する図である。 図13に示すフロー中のステップS101において実行する初期化処理の詳細について説明するフローチャートを示す図である。 図15に示す初期化処理の詳細フロー中のステップS204において実行する分類行列等の生成処理の詳細について説明するフローチャートを示す図である。 図13に示す全体処理フロー中のステップS108において実行する方向点検出処理の詳細シーケンスについて説明するフローチャートを示す図である。 図13に示す全体処理フロー中のステップS109の方向点トラッキング処理の詳細について説明するフローチャートを示す図である。 図18に示す方向点トラッキング処理フロー中のステップS501で実行する区間の延長・確定処理の詳細シーケンスについて説明するフローチャートを示す図である。 図19のフローのステップS607の「区間の出力・棄却」処理の詳細シーケンスについて説明するフローチャートを示す図である。 図18に示す方向点トラッキング処理フロー中のステップS502で実行する新規区間作成処理の詳細シーケンスについて説明するフローチャートを示す図である。
 以下、図面を参照しながら本開示の音信号処理装置、および音信号処理方法、並びにプログラムの詳細について説明する。
 本開示の構成および処理の説明の前に、明細書中に記載の表記について説明する。
 本明細書で使用している表記は、以下の意味を持つ。
 (1)"_"は、下つき文字を表わす。
 (例)φ_ω・・・ωは下つき文字。
 ただし、チャンネル番号を表わす"_k"は頻出するので、"_"を省略して書く。
 (例)Y_k(t)→Yk(t)。
 下つき文字が複数ある場合は、{・・・}で囲む。(例)θ_{i'}・・・i'は下つき文字である。
 (2)"^"は、上つき文字を表わす。
 (例1)W^H:Wのエルミート転置(=複素転置)行列である。
 (例2)Yk(t)^H:Yk(t)のエルミート転置ベクトル(共役複素数&転置)である。
 (例3)Σ^(-1):分散共分散行列Σの逆行列。inv(Σ)も同じ式を表わす。
 (3)conj(X)は、複素数Xの共役複素数を表わす。
 (4)bar(x)は、xに上線(" ̄")をつけることを表わす。
 (5)値の代入は、"="または"←"で表わす。特に、両辺で等号が成立しないような操作(例えば"x←x+1")については、必ず"←"で表わしている。
 次に、本明細書における用語の使い分けについて説明する。
 (1)「音(信号)」と「音声(信号)」とを使い分けている。「音」はsoundやaudioなどの一般的な意味で使い、「音声」はvoiceやspeechを表わす用語として限定的に使用している。
 (2)「指向性」と「指向特性」とを、以下のように使い分けている。
  指向性:死角の反対の意味であり、特定の方向に対する感度が相対的に高いことを表わす。
  指向特性:方向と感度との関係を表わすプロットであり、音源方向に指向性を形成するのも、死角を形成するのも、どちらも指向特性である。
 以下に示す項目に従って本開示の構成と処理について詳細について説明する。
 1.音声区間検出処理の概要について
 2.全マイクロホンに同位相で混入する成分の影響について
 3.高精度な音声区間検出を実現する構成について
 3-1.指向特性パターンの分類処理を適用した音声区間検出処理
 3-2.「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理
 4.本開示の音信号処理装置の構成例と処理例について
 5.音信号処理装置の実行する処理のシーケンスについて
 6.本開示の音信号処理装置の実行する処理による効果について
 7.本開示の構成のまとめ
  [1.音声区間検出処理の概要について]
 まず、音声区間検出処理の概要について、以下の2つの既存方式の処理について説明する。
 前述したように、音声区間検出(SD:Speech Detection)とは、連続入力する音信号の中から、人が発話している区間(セグメント)を切り出す処理である。Voice Activity Detection(VAD)とも呼ばれる。
 音声区間検出は、音声認識や音源抽出などと共に用いられることが多く、音声認識や音源抽出の精度を高めるためには、音声区間検出(区間検出)を高精度に行うことが重要となる。
 音声区間検出には精度向上のための様々な工夫がなされている。ここでは使用するマイクロホンの個数に注目し、以下の2つに分類する。
 (1)単一のマイクロホンを用いる方式
  入力信号から「音声らしさ」を表わす特徴量を抽出し、その値に基づいて区間検出を行なう。特許文献4(特許4182444号)などに記載された方式である。
 (2)複数のマイクロホンを用いる方式
  音源の方向を用いて区間検出を行なう。特許文献1(特開2012-150237号公報)、特許文献2(特許4282704号)、特許文献3(特開2010-121975号公報)などに記載された方式である。
 以下では、上記「(2)複数のマイクロホンを用いる方式」の例として、特許文献1(特開2012-150237号公報)に記載された音声区間検出処理について説明する。
 音源方向に基づく音声区間検出の基本的な考え方は、次の通りである。
 同一の音源から発生している音は、マイクロホンから見て同一の方向から到来する。そのため、所定の間隔で音源到来方向(DOA:Direction Of Arrival)を推定し、ほぼ同一の方向が出力され続けている区間を求めれば、その音源がアクティブである(その音源から音が鳴っている)区間が分かる。なお、以下において、音源到来方向(DOA)は単に「音源方向」)と記載する。
 複数の音源に対応した音源方向推定方法を用いれば、複数の音源が同時にアクティブになっていても(例えば、複数人の音声が重複していても)、それぞれについて区間を求めることができる。例えば、一人の話者が発話を終了する直前にもう一人の話者が発話を始めた場合、「音声らしさ」を用いる方式では両発話が繋がった長い区間を音声区間として検出してしまうが、方向推定を用いる方式ではそれぞれの発話の区間を検出することができる。
 音源方向推定を伴う音声区間検出処理の一例について、図1を参照して説明する。
 図1(a)は、入力信号(または「観測信号」とも呼ぶ)のイメージであり、話者が二人いてそれぞれ、
 "Hello",
 "Good by"
 上記の発話を行ったことを表わしている。図の左から右に時間経過を示す時間軸を示している。
 図1(b)に示すように、この入力信号を時間方向に所定の長さのブロックに分割する。図1(b)に示すブロック11は、分割されたブロックの1つ分を表わしている。ブロックの長さは、通常の発話の長さと比べて十分短い値とする。例えば0.01~0.1秒程度に設定する。
 それぞれのブロックに対して、音源方向の推定を行なう。
 図1(c)はその結果であり、横軸が時間、縦軸が方向を表わしている。方向とは、例えば、音声入力を行うマイクに対する音源方向の角度θ(図2参照)である。
 図1(c)に示す点は、方向点12である。方向点は各ブロック内で求まった音源方向を示している。
 なお、以降では、音源方向に対応した点を「方向点」と呼ぶ。複数音源に対応した方向推定方式を用いれば、各ブロックは複数の方向点を持ち得る。
 次に、ブロック間で、ほぼ同一の方向の方向点を接続していく。この処理をトラッキングと呼ぶ。
 図1(d)はトラッキングの結果、すなわち接続された方向点を示している。
 図1(d)に示すライン15,16は、各音源がアクティブである区間、すなわち音声発話の区間を表わしている。
 それぞれのブロックにおいて音源方向を求めるための手法として、特許文献1(特開2012-150237号公報)ではMUSIC(MUltiple SIgnal Classification)法の改良版を用いている。
 通常のMUSIC法では、音源方向に死角(null beam)を向けた空間フィルタ(死角フィルタ)を生成し、その死角の方向を音源方向と見なしている。
 しかし、特許文献1(特開2012-150237号公報)では、死角フィルタの他に、音源の方向に感度の高い指向性を向けたフィルタ(指向性フィルタ)も生成し、死角の方向と高感度指向性の方向との両方を用いて音源方向を推定する手法を開示している。
 すなわち、音源方向の推定処理に適用するフィルタとして、
 音源方向に指向性を向けた空間フィルタである「指向性フィルタ」、
 音源方向に死角を向けた空間フィルタである「死角フィルタ」、
 この2つのフィルタを適用した処理を開示したのが特許文献1(特開2012-150237号公報)である。
 図2は、「指向性フィルタ」や「死角フィルタ」を生成するための観測信号の収録状況の一例を示す図である。4本のマイクロホン22と2つの音源(どちらも人の音声)とが存在している。
 音源方向は、マイクロホン22の配列(アレイ)の重心21から見た到来方向を示す角度(θ)であり、マイクロホンの配列に平行な設置方向23に対して垂直方向24を0°として、反時計回りを正(+)、時計まわりを負(-)とする。
 図2に示す4本のマイクロホン22の各々によって収録される音は、その配置位置によって到達時刻に差があるため、異なるマイクロホンで収録された音信号の間には位相差がある。この音信号を解析することで、音源方向に指向性を向けた空間フィルタである「指向性フィルタ」や、音源方向に死角を向けた空間フィルタである「死角フィルタ」を生成することができる。
 図3に示す死角パターン31は、特定の音源方向に死角を向けた空間フィルタの指向特性、すなわち、方向(横軸)とゲイン(縦軸)との関係をプロットしたものである。縦軸は対数とする。指向特性プロットの生成方法は後述する。
 音源に死角を向けた空間フィルタを「死角フィルタ」と呼び、そのフィルタの指向特性のプロットを「死角パターン」と呼ぶ。
 図3に示す死角パターン31においてゲインが急激に落ち込んでいる箇所は、感度が相対的に低い方向、すなわち死角を表わしている。この図では方向=-24°付近31aと+12°付近31bに深い「谷」が存在しており、これらは図2の音源1,25と音源2,26にそれぞれ対応した死角である。
 すなわち、極小点31a,31bは実際の音源対応の真の極小点である。
 音源1の方向θ1は約-24°、音源2の方向θ2は約+12°である。言い換えると、この死角パターンに対応したブロックは、-24°と+12°に方向点を持つ。
 なお、MUSIC法ではゲインの対数の代わりにゲインの逆数を用いることもある。例えば特許文献5(特開2008-175733号)は逆数を用いた方法を開示している。その場合、死角はグラフ上の鋭いピークとして表わされる。本開示では、後述の指向性パターンとの比較のため、ゲインの対数を用いる方式で説明する。また、ゲインそのものやゲインの2乗などを用いることも可能である。以降では、ゲインまたはそれに相当する量を「感度」と表現する。
 図3に示す指向性パターン32は同じブロックにおいて、音源方向に指向性を向けた空間フィルタの指向特性である。すなわち、音源方向の感度が相対的に高いフィルタである。
 音源方向に指向性を向けた空間フィルタを「指向性フィルタ」、その指向特性のプロットを「指向性パターン」と呼ぶ。
 従来のMUSIC法(特許文献5(特開2008-175733号)以前に開示された方式)は死角パターンの極小(感度が相対的に低い方向)の位置から音源方向を推定していたが、特許文献5(特開2008-175733号)では、死角パターンの極小(local minimum)と指向性パターンの極大(感度が相対的に高い方向,local maximum)の位置も併用して音源方向を推定する方式を開示している。
 例えば図3に示す死角パターン31においては、極小点31a,31bは音源方向に対応した真の極小点であるが、死角パターン31は、これら以外にも、極小点31c~31fといった、実際の音源方向とは無関係の極小点が存在する。
 これら実際の音源方向とは無関係の極小点を排除するために、指向性パターン32から極大点を検出する。図3に示す極大点32p~32sである。
 死角パターン31の極小点と指向性パターン32の極大点とが方向において近接している箇所のみを実際の音源方向を示す方向点として選択する。
 その結果、死角パターン31の極小点31a、31b,31dの3か所のみを真の方向点として選択することができる。
 以降の説明では、死角パターンや指向性パターンにおける極小位置を「谷」、極大位置を「山」とも表現する。また、極大、極小、方向点などが実在の音源の方向に対応していることを「真の」と表現し、対応していない(その方向には音源は存在しない)ことを「偽の」と表現する。また、非音声の音源が鳴っている時間と方向が音声区間として検出された場合も、「偽の区間」と表現する。
 なお、図3に示す死角パターン31の極小点31dに対応した方向点は誤検出であるが、この誤検出がこのブロックのみで発生するのであれば、後続のトラッキングによって棄却されるため、問題とはならない。
 さらに、特許文献1(特開2012-150237号公報)では以下の処理も行なっている。
 (1)死角パターンに閾値(図3に示す閾値T)を設定し、この閾値Tよりも浅い谷は棄却する。
 (2)n個のマイクロホンで形成される死角は最大でn-1個なので、方向点の個数は最大でn-1個とする。
 死角パターンと指向性パターンは共に、細かな凹凸が存在するため、死角パターンの谷の方向と指向性パターンの山の方向とがほぼ一致するという条件だけでは、両者が偶然に一致してしまうこともあり、このような場合に偽の方向点を真の方向点であると判定する誤検出が発生する。しかし、上記(1),(2)の処理を追加することで、誤検出を減らすことができる。
 以下、特許文献1(特開2012-150237号公報)に記載の音源方向推定手法を含む従来の音源方向法の推定手法の問題点として、以下の2点について説明する。
 (1)死角パターン上の「付随的な谷」の影響
 (2)全マイクロホンに同位相で混入する成分の影響
 まず、(1)死角パターン上の「付随的な谷」の影響について説明する。
 問題点の一つは、死角パターン上の偽の谷による影響である。図3に示したように、死角パターン上には、音源とは対応しない偽の谷が存在する場合がある。図3に示す極小点31c~31fである。
 これらの偽の谷は、一つのブロックで一時的に出現するだけであれば、方向点のトラッキングにおいて棄却されるため、問題にはならないが、複数のブロックに渡って連続的に出現すると、区間の誤検出の原因となる。
 偽の谷の中には、真の深い谷に付随して、真の音源位置とは別の方向に出現する場合がある。以降ではこれを付随的な谷と呼ぶ。付随的な谷の原因の一つは空間エリアスである。空間エリアスとは、ある程度高い周波数において、所望の方向以外にも死角や指向性が生じる現象のことであり、空間エリアスが発生する周波数の下限はマイクロホンの間隔に依存する。空間エリアスに由来する偽の谷は、周波数ビンごとに方向が異なる(分散している)ため、複数の周波数ビンの間で指向特性パターンを平均することで影響を小さくすることはできるが、完全には消えずに残ることがある。しかもその場合は、真の音源位置に依存して一定の位置に出現する。さらに、付随的な谷の中には原因が明確には特定できないものも存在するため、空間エリアスの対策をしても、付随的な谷の問題は残る。
 真の谷と付随的な谷の例について、図4を参照して説明する。
 死角パターン41は、真の音源方向(θ_true)と、偽の音源方向(θ_false)に谷がある。それぞれ真の谷42と、偽の谷43である。
 音源は真の音源方向(θ_true)のみに存在する。すなわち、真の谷42の示す方向に音源が存在し、偽の谷43の示す方向には音源が存在しない。
 図4に示す偽の谷43は付随的な谷である。すなわち、真の音源方向(θ_true)に真の谷42が形成されることにより、それに連動して偽の音源方向(θ_false)に音源が存在しないにもかかわらず谷が形成されている。
 このような付随的な谷が発生すると、偽の音源方向(θ_false)からの音声発話が検出されなくなる現象が発生し得ることを以降で説明する。
 真の音源方向(θ_true)に存在する音源は、非音声かつ連続的に鳴り続けているものであるとする。そのような音源の例として、プロジェクターのファンの音や、音楽の鳴っているスピーカーなどがある。このような音源が鳴り続ける限り、音源は1個にも関わらず谷は2個形成される。
 死角パターン41から、真の音源方向を選択するためには、例えば先に図3を参照して説明したように、感度に対しての閾値を用いることが有効である。
 しかし、この閾値が、死角パターン41の付随的な谷である偽の谷43よりも浅い位置に設定されていた場合、例えば閾値aの位置に設定されていた場合は、真の谷42と偽の谷43のいずれもが音源に対応した谷として扱われる。
 仮に、偽の谷43が音源に対応した谷として扱われても、指向性パターンにおいてその付近(θ_falseの付近)に山が存在しないのであれば、θ_falseが音源方向として検出されるのは防止できる。しかし現実には、指向性パターンにおいてもθ_falseの付近に偽の山が存在することもあり、その場合は、θ_falseにおいて偽の方向点が検出されてしまう。
 このように、方向点が2個検出された場合、これら2つの方向を時間方向にトラッキングすると、2個の区間が検出される。
 すなわち、図5に示す通り、真の音源方向(θ_true)に対応した方向点51と偽の音源方向(θ_false)に対応した方向点52がそれぞれ時間方向で連結され、区間53と区間54という、異なる方向を持つ2つの区間として検出される。この現象を二重検出と呼ぶ。
 非音声かつ鳴りっぱなしの音源に対する二重検出自体は、区間の長さに上限を設ける等の工夫により、棄却することができる。すなわち、ポーズ(無音)なしで鳴り続ける音源は音声ではない(少なくとも、音声認識の対象となる音声発話とは異なる)と考えられるため、トラッキング中の区間の長さが上限値(例えば5秒)を超えた時点でその区間を棄却すれば、音源(ただし非音声)に対応した区間である区間53も、偽の区間である区間54も、共に棄却される。
 しかし、偽の区間である区間54を棄却することは、副作用を伴う。それは、偽の音源方向(θ_false)から本当に音声を発話しても棄却されてしまうという現象である。例えば、偽の音源方向(θ_false)から、時間範囲56で表わされる時間において人が音声を発話したとする。時間範囲56の外側ではθ_falseは偽の音源方向であるのに対し、時間範囲56の内側ではθ_falseは音源に対応した真の音源方向である。
 この場合、もし図4に示す死角パターン41に非音声に起因する付随的な谷である偽の谷43が形成されていないのであれば、図5に示す区間54は検出されないため、時間範囲56の内側では、人の発話音声に起因する区間55が検出されるはずである。
 しかし、図4に示す死角パターン41に非音声に起因する付随的な谷である偽の谷43が形成されている場合は、図5に示す時間範囲56の内側では人の発話音声に起因する区間55は区間54に溶け込み、一体化してしまう。この結果、人の発話音声に由来する音声区間を正確に検出することができなくなる。
 区間の溶け込み現象には、いくつかのタイプがある。上述のように、空間エリアシングに由来する偽の谷と、1人の音声発話に由来する真の谷とがほぼ同じ位置に発ししたために、両者が合成されて一つの深い谷が形成され、結果としてθ_falseの方向においては方向点が1個だけ検出される場合もあれば、他の発生過程としては、θ_falseの付近において、偽の谷(空間エリアシング等に由来)と真の谷(音声発話に由来)とが形成されるために方向点も2個検出されるものの、その後のトラッキングによって近接方向点を連結したために1個の区間としてまとめられてしまう場合もある。
 いずれの場合でも、トラッキングの結果においては、図5に示す区間55そのものは検出されず、区間54と区間53のみが検出結果として出力されることになる。そして前述の長さの制約によって両区間が棄却されると、音声発話に対応した区間である55は、たとえそれ自体は長さ制約を満たしていても、全く検出されなかったように見えてしまう。
 なお、方向点をトラッキングする方式の音声区間検出に加え、特許文献4(特許4182444号)に記載された「音声らしさ」に基づく音声区間検出方法を併用することにより、図5に示す区間55を、区間54と区別して検出することが可能となる。しかし、この手法を適用すると別の副作用が発生する。以下、この副作用について説明する。
 先に説明したように、図5において、方向点51および方向点52は所定の長さの入力信号のブロックに対応している。すなわち、図1を参照して説明した、時間方向に区切ったブロックに対応している。
 各ブロック内の入力信号に対して「音声らしさ」の判定を行ない、「音声らしい」と判定されたブロックについてのみ方向点を残すようにすると、理想的には、非音声の音源が鳴り続けていても、図5に示す時間範囲56の外側のブロックにおいては方向点が棄却されるため、区間は検出されなくなる。
 なお、図5に示す時間範囲56の内側では入力信号は非音声と音声との混合であるが、その入力信号は音声がある程度の割合で混合されている限りは周期性の性質を保持しているため、特許文献4(特許4182444号)に記載された方法を適用することで、時間範囲56内の入力信号は「音声らしい」と判定される。そのため、区間55は区間54に溶け込むことなく正しく検出される。
 しかしその一方、時間範囲56の内側では、真の音源方向(θ_true)についても方向点が棄却されずに残るため、区間51の一部である区間57も発話区間として検出される。区間57の長さは区間55と同一であるため、区間55が前述の長さの制約を満たすのであれば、区間57も同様に制約を満たす。したがって、真の音源方向(θ_true)からは誰も発話していないにもかかわらず、その方向に対応した偽の区間が検出されてしまう。
 さらに、「音声らしさ」の判定は完璧ではなく、間違いを含む可能性もあるため、単純に「音声らしい」ブロックの方向点のみを残すようにすると、間違いの影響を受けやすくなってしまう。例えば、図5に示す時間範囲56の内側において、発話中にもかかわらず「音声らしくない」と判定されるブロックが一定個数以上続くと、1回の発話が2つの区間に分断されてしまう。なお、図5に示す例は二重検出の例でもあるので、この分断現象によって1回の発話が4個の異なる区間として検出されてしまうことになる。
 一方、時間範囲56の外側において「音声らしい」と判定されるブロックが一定個数以上続くと、発話がないにもかかわらず音声区間が検出され、しかも二重に検出されてしまう場合も想定される。例えば音楽は周期性を持つため、妨害音が音楽である場合は、特許文献4(特許4182444号)に記載された周期性に基づく「音声らしさ」の判定方式を用いると、音楽のみが鳴っているタイミングにおいても「音声らしい」と誤判定される場合があり、結果としてこのような現象が発生する可能性がある。
 なお、一般に付随的な谷は真の谷よりも浅いため、死角パターンの閾値を適切に設定できれば、付随的な谷に由来する問題は、原理上は回避可能である。例えば、時間範囲56の内側において偽の音源方向(θ_false)から音声発話があったために、図4に示す死角パターン41が死角パターン46のように変化したとする。死角パターン46においても偽の音源方向(θ_false)に谷47が存在するが、この谷47は発話者という音源に対応した真の谷であり、付随的な谷である偽の谷43よりも深い。
 もし、死角パターンの閾値が、図4に示す閾値bのように、死角パターン41の偽の谷43と死角パターン46の谷47との中間の高さに設定されているのであれば、偽の音源方向(θ_false)においては、死角パターン41の偽の谷43は検出せずに死角パターン46の谷47は検出するということが可能となる。すなわち、閾値bの設定により、音源が本当に存在する場合のみ方向点が検出されるようになるため、図5で示した発話の非検出や二重検出の問題は発生しない。
 しかし、付随的な谷の深さは音源の方向や音源の状態(音量など)によっても変化するため、適切な高さの閾値を事前に設定することは現実には困難である。
 また、閾値の決定には他の要因も絡むため、付随的な谷の影響を防ぐことを主目的にして閾値を決定すると、真の音源方向(θ_true)とも偽の音源方向(θ_false)とも異なる方向からの発話が検出されにくくなるという副作用が発生する可能性もある。すなわち、深い閾値によって方向点が検出されにくくなるため、検出された区間は実際の発話よりも短かったり、複数個の区間に分断されて検出されたりする可能性もある。
 付随的な谷に関する問題点をまとめると、以下の通りである。
 ・閾値が浅く、さらに区間長についての上限を設定していない場合は、妨害音が鳴り続けている限り、音声発話がないにも関わらず、妨害音の方向に音声区間が検出され、さらに、付随的な谷の方向にも音声区間が検出される。それを二重検出と呼ぶ。
 ・区間長についての上限を設定すると、妨害音の方向の音声区間は検出されなくなるが、その副作用として、付随的な谷の方向から発話しても棄却されてしまう。
 ・「音声らしさ」に基づく音声区間検出と併用すると、それが理想的に動作すれば付随的な谷の方向からの発話は検出されるようになるが、それでも二重検出の問題は残る。また、「音声らしさ」に基づく音声区間検出に誤りがある場合は、その影響を受けやすい。
 ・死角パターンの閾値を適切に調整できれば問題は解決するが、適切な値は環境等によって異なるため、事前に設定された固定の値では解決困難である。
  [2.全マイクロホンに同位相で混入する成分の影響について]
 上述した「付随的な谷」とよく似た現象として、例えば図2に示すマイクロホンアレイ22を構成する全マイクロホンに同位相で混入する成分の影響がある。そのような成分としては、主に以下の2種類がある。
  (1)筐体の振動をマイクロホンが拾った場合
  (2)電気的なノイズ
 例えば、全マイクロホンが同一の筐体内に設置されているシステムにおいて、その筐体が振動すると、各マイクロホンはその振動を音として拾ってしまうことがある。一般に、筐体を伝わる振動は空中を伝搬する音波よりも高速であるため、振動は全マイクロホンにおいてほぼ同位相の音信号として観測される。また、マイクロホンが取得したアナログの音声信号がADコンバータによってデジタル信号に変換されるまでの間に電気的なノイズが混入すると、これも全マイクロホンにおいてほぼ同位相の音信号として観測される。以下では、これらの信号を「同位相混入成分」と呼ぶ。
 同位相混入成分は、SN比としては小さくても(すなわち、入力信号を耳で聞いたときに目的音と比較して小さく聞こえたとしても)、音源方向推定に基づく音声区間検出に影響を与える場合がある。それは、音源の方向によってはその音源からの音が全マイクロホンに同時に到達する場合があり、それと同位相混入成分とが位相の上では区別がつかなくなるからである。
 例えば、図2に示す構成において、θ=0の方向24に音源が存在すると仮定する。音源からマイクロホンアレイ重心1までの距離がマイクロホン間隔と比べて十分大きいのであれば、音源から放出された音波はマイクロホンアレイに到達した時点では平面波であると見なせるため、θ=0の音源からの音は各マイクロホンアレイに同時に到着すると考えられる。
 言い換えると、θ=0の方向に存在する音源と、同位相混入成分とは、マイクロホン間の位相差という点では同じである。従って、同位相混入成分があると、死角パターンにおいて、θ=0に位置に偽の谷が形成され、これが付随的な谷とよく似た問題を引き起こす。
 すなわち、発話がない状態でもθ=0の方向に長い偽の区間が検出される。それを棄却するために区間長に上限を設定すると、θ=0の方向から音声を発話しても棄却されてしまう。仮に、死角パターンの閾値を適切に設定できれば、θ=0の方向からの発話は検出されるが、そのような閾値を事前に設定するのは困難である。特に、付随的な谷に由来する問題も発生しているときに、両方の問題を同時に解決する適切な閾値を事前に求めることは、非常に困難である。
 なお、マイクロホンの配置を工夫することで、同位相混入成分の問題を回避することは可能である。例えば、マイクロホンを3次元的に配置すれば、どの方向からの音も時間差つきで各マイクロホンに到達するため、同位相混入成分と区別がつく。つまり、死角パターンのθ=0の位置に偽の死角が発生しないため、θ=0からの発話が棄却されるといった現象は回避される。しかしそれは、マイクロホンの配置に制約が発生することも意味するため、可能であれば別の方法で問題を回避することが望ましい。
  [3.高精度な音声区間検出を実現する構成について]
 上述したように、音声区間検出処理において、区間検出対象とならない音声でない非音声が発生する場合や、音源方向が特定の方向(例えば図2に示すθ=0の方向)からの音声がある場合に、誤った処理を行なってしまうことがある。
 これらの問題を解決する音声区間検出処理について、以下説明する。
 以下の2つの方法を新たに導入した処理方法について説明する。
  1.指向特性パターンの分類処理を適用した音声区間検出処理
  2.「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理
 以下、それぞれについて説明する。
  [3-1.指向特性パターンの分類処理を適用した音声区間検出処理]
 まず、指向特性パターンの分類処理を適用した音声区間検出処理について説明する。
 先に問題点として説明した「付随的な谷」や「同位相混入成分」は、いずれも指向特性パターンにおいて偽の谷や山があることで発生する。
 これらは指向特性パターン上の比較的細かな凹凸の一つであるため、細かな凹凸の少ない指向特性パターンを生成することができれば、問題の発生頻度を下げることができる。
 なお、以下の説明において、「指向特性パターン」とは、
 a.音源方向を高感度方向とした「指向性パターン」、
 b,音源方向を低感度方向とした「死角パターン」
 これらの様々な異なる指向特性を有するパターンを含む様々な指向特性を有するパターン全般を意味するものとして説明する。
 「指向性パターン」や「死角パターン」等の様々な指向特性を持つ「指向特性パターン」上から細かな凹凸を減らすためには、ほぼ同一の性質を持つ指向特性パターンをできる限り多く生成し、それら複数の指向特性パターンの平均等を算出すればよい。生成する指向特性パターンを増やし、それらの指向特性パターンの間で平均を計算する手法としては、例えば以下の2つの方法がある。
  a)複数の(あるいはほぼ全ての)周波数ビンの間で死角パターン、指向性パターンをそれぞれ平均化する。
  b)一つの周波数ビンにおいて、複数の死角パターン、指向性パターンをそれぞれ平均化する。
 上記の手法b)について補足する。MUSIC法において、各周波数ビンで観測信号共分散行列の固有値分解を行ない、固有ベクトルごとに指向特性パターンを生成すると、理想的には、n個の指向特性パターンのうちのm個は音源方向に指向性が形成された特性を持ち、残りのn-m個は音源方向に死角が形成された特性を持つ。なお、nはマイクロホン数、mは音源数である。
 従って、指向特性パターンを適切に分類することができれば、それぞれのグループにおいて平均をとることで、凹凸の少ない指向特性パターンを生成することができる。
 指向特性の分類自体は従来も行なわれているが、その方法は、いったん音源数mを推定するというものであった。この手法については、例えば特許文献3(特開2010-121975号公報)に記載がある。
 しかし、実環境においては音源数の推定自体が難しい問題である。そこで本開示においては、指向特性パターンを類似性に基づいて直接分類する方法を新たに導入する。その方法について、以下で説明する。
 指向特性パターンは、以下の3つのタイプに分類されるものとする。そして、死角パターンと指向性パターンは、それぞれ死角型と指向性型に属するパターンの平均とする。
  (タイプ1)死角型(1個以上)
  (タイプ2)指向性型(1個以上)
  (タイプ3)中立型(0個以上)
 死角型は音源方向に死角を向けた指向特性を持つタイプ、
 指向性型は音源方向に指向性を向けたタイプ、
 中立型はどちらでもないタイプである。
 中立型を用意する理由は、実環境の観測信号から生成された指向特性パターンの中にはあまり明確な指向性や死角を持たないものもあり、そのようなパターンが死角型か指向性型に無理に分類されることによる弊害を防ぐためである。
 ただし、何の制約もかけずに上記の分類を行なうと、分類は3^n通りほど存在し、しかもそのような分類を周波数ビンごとに行なうことになるため、計算量が大きくなる。
 そこで計算量削減のため、以下の制約を導入する。以下においてP_kはk番目の固有値および固有ベクトルに対応した指向特性パターンであり、固有値は降順に並んでいるものとする。すなわち、最大の固有値は1番目であり、最小の固有値はn番目であるとする。
 制約1:P_1は必ず指向性パターン、P_nは必ず死角パターンとする。
 制約2:指向性型に分類されるパターンはP_1からP_aまでとし、死角型に分類されるパターンはP_{n-b+1}からP_nまでとする(それぞれ両端を含む)。
 中立型に分類されるパターンはP_{a+1}からP_{n-b}までであるが、0個でもよい。
 制約3:a,bの値は、全周波数ビンで共通とする。
 従って、例えばある周波数ビンにおいてパターンP_kが死角パターンに分類されたのであれば、他の周波数ビンにおいてもパターンP_kは死角パターンに分類される。
 特に制約3は重要であり、この制約により、各周波数ビンの指向特性パターンを周波数ビン間で平均(または総和、以下同様)した後で分類をすることが可能となる。これらの制約により、組み合わせはn(n-1)/2通りに減少し、しかも分類は周波数ビンごとではなく、全体で1回だけ行なえば十分となる。
 現実の音源数は周波数ビンごとに異なる可能性もあるが、その場合でも制約3の有効性は損なわれない。例えば、音源数が周波数ビンごとに2または3である場合、パターンP_1とP_2は指向性型のパターンのみから平均され、パターンP_3は指向性型と死角型との両方から平均され、パターンP_4以降は死角型のみから平均されている。その結果、パターンP_3については中立型に分類される可能性が高いため、指向性パターンにも死角パターンにも影響を与えない。
 先に例えば図3を参照した説明において、指向特性パターンはフィルタの方向ごとのゲインに対して対数をとったものであると説明したが、本開示では対数をとるタイミングを変更し、方向ごとのゲインの2乗に対して周波数ビン間で平均(または総和)を取った後で、対数をとる。
 平均操作の後で対数操作を行なうという順番とすることで、対数操作の後に平均操作を行なうという順番にしたしたときよりも指向特性パターン上の細かな凹凸が減る。そのため、死角パターンの細かな(ただし閾値は下回っている)谷と指向性パターンの細かな山とが偶然近接していたために偽の方向点が検出されるという現象は発生しにくくなる。さらに、パターンの分類処理は対数を作用させた後で行なう。分類においては、同じ位置に谷があるパターン同士が一つのタイプにまとめられた方が都合がよいため、対数をとることで指向特性の谷を強調するのである。
 上記制約の導入によって指向特性パターンの分類処理は簡略化される。その概略について、図6を用いて説明する。この図6に示す処理例は、マイクロホン数n=4とした場合の処理例である。
 まず、図6に示すステップS11で共分散行列を算出する。これは観測信号の共分散行列であり、MUSIC法において生成される。
 共分散行列の算出処理について、以下の式を参照して説明する。
Figure JPOXMLDOC01-appb-M000001
 n本のマイクロホン中のk番目のマイクロホンで観測された信号に短時間フーリエ変換(Short Time Fourier Transform:STFT)を適用した結果をXk(ω,t)とし、X1(ω,t)~Xn(ω,t)からなるベクトルをX(ω,t)とおく(式[1.1])。
 ただし、
 ωは周波数ビンの番号(ω=1,2,…,M)、
 tはフレームの番号である。
 次に、周波数ビンωごとに、複数のフレームからX(ω,t)の共分散行列R(ω)を計算する(式[1.2])。
 ただし、式[1.2]において、
 <・>_{t-L'<τ≦t}は、
 t-L'<τ≦tを満たすフレームの間でカッコ内の式の平均をとることを表わす。
 tはブロックの末端のフレーム番号
 L'はブロックの長さ(フレーム数)
 t-L'+1はブロックの始端のフレーム番号
 である。
 なお、ブロックは、例えば図1に示すブロックであり、各ブロックが各フレームに対応する。
 上記式[1.2]に従って算出される共分散行列を、R(ω)とする。
 この共分散行列が図6のステップ(S11)で算出する共分散行列である。
 次に、図6に示すステップS12において、共分散行列R(ω)に対して上記式[1.3]に示す固有値分解(Eigenvalue decomposition)を適用し、固有ベクトルを算出する。
 式[1.3]において、
 Λ(ω)は固有値からなる対角行列であり(式[1.5])、
 V(ω)は固有ベクトルV_1(ω)~V_n(ω)からなる行列である(式[1.4])。
 また、上付きのHはエルミート転置(要素を共役複素数に変換してから転置)を表わす。
 共分散行列R(ω)はR(ω)^H=R(ω)を満たすため、固有値λ_1(ω)~λ_n(ω)は全て実数である。これら固有値は大きい順に並んでいるものとする。
 固有ベクトルV_1(ω)~V_n(ω)の大きさは1であり、またお互いに直交しているとする。
 ステップS11で算出する共分散行列の大きさはn×nの行列であり、ステップS12で算出する固有ベクトルはn個である。次に、ステップS13において、それぞれの固有ベクトルに対応した指向特性パターンを生成することで、固有ベクトル数に等しい周波数ビン単位指向特性パターンPa~Pdを得る。ステップS13は周波数ビンごとに行なわれるため、Pa~Pdはそれぞれが、ステップS13を実行した周波数ビンと同じ個数だけ生成される。
 なお、この指向特性パターンの生成処理の詳細については、後段の図17のフローのステップS403の処理の説明の欄において式[5.1]~[5.3]を参照して説明する。
 概要を簡単に説明すると、以下の処理である。
 固有ベクトルに対し、各方向に対応したステアリングベクトルを作用させることで、方向と感度との関係を表わす指向特性パターンを生成する。
 具体的には、ω番目の周波数ビンにおいて、k番目の固有ベクトルに対応した指向特性パターンの方向θの成分をP_k(ω,θ)とする。この値は方向θのゲインの2乗であり、後述する式[5.1]に従って、各方向に対応したステアリングベクトルを作用させることで計算される。これを全ての方向θおよび周波数ビンωについて計算することで、周波数ビンごとの指向特性パターン(図6(S13)に示す指向特性パターンPa~Pd)を計算する。
 ここまでは、周波数ビンごとの処理である。
 次に、ステップS14において、周波数ビンごとの指向特性パターンに対して周波数ビン間での平均をとり、さらに対数をとる。
 この平均化&対数化処理により、ステップS15に示す指向特性パターンP_1~P_4を得る。
 このように、複数の指向特性パターンの生成処理においては、各周波数帯域(周波数ビン)における各方向のゲインの2乗を算出し、複数の周波数帯域間で2乗ゲインを平均または総和して平均2乗ゲインまたは総和2乗ゲインを算出し、平均2乗ゲインまたは総和2乗ゲインの対数化処理、および最大値を0に調整する処理を行なって前記複数の指向特性パターンを生成する。
 次に、ステップS16において、この4個(一般的にはマイクロホン数であるn個)の指向特性パターンに対して、本開示の特徴の一つである分類処理を適用する。
 この分類処理によって、ステップS17に示すように以下の3つのタイプに分類される。
 (タイプ1)指向性型:パターンP_1
 (タイプ2)中立型:パターンP_2
 (タイプ3)死角型:パターンP_3、パターンP_4
 これら3つのタイプに分類する。
 なお、先に説明した制約1および制約2により、分類は6通りに限定され、しかもパターンP_1は指向性型に、パターンP_4は死角型に必ず分類される。分類処理の詳細については後述する。
 分類の結果、指向性型にはパターンP_1が、中立型にはパターンP_2が、死角型にはパターンP_3とパターンP_4の両方が分類される。
 最後に、ステップS18において、指向性型と死角型に属する指向性パターンをそれぞれ平均することで、ステップS19に示す指向性パターンP_Dと、死角パターンP_Nとを得る。
 なお、図6のステップS17に示す分類結果の例では指向性型にはパターンP_1のみが属しているため、ステップS18の合成処理によって得られる指向性パターンP_Dは、合成前のパターンP_1と同一である。
 このようにして生成された指向性パターンおよび死角パターンは最大で二重に平均操作が行なわれているため、ステップS13で得られる周波数ビンごとのパターンであるパターンPaや、パターンPdを直接使用する場合と比べ、音源方向と対応しない細かな凹凸が減る。その一方で、音源に対応した真の山や谷は、指向特性間パターン間で共通しているために残る。従って、死角パターンの偽の谷と指向性パターンの偽の山とが偶然一致して方向点として検出される可能性が減る。また、空間エリアスに由来する偽の谷も平均操作によって(さらに、平均の後で対数をとるという順番にすることで)消滅したり浅くなったりするため、前述の「付随的な谷」が発生する頻度も減少する。
 次に、図6に示すステップS16の指向特性パターンの分類処理の方法について説明する。
 指向特性パターンの分類処理の基本的な手順は、以下の通りである。
  (1)n(n+1)/2通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ
 代表指向性パターン=「分類中指向性パターン」、
 代表死角パターン=「分類中死角パターン」、
 と呼ぶ。
  (2)分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。
 距離尺度としては、ユークリッド距離を用いる。また、分類中指向性パターンとしては、指向性型に分類されているパターンの総和(平均ではなく)を用い、同じく、分類中死角パターンとしては、死角型に分類されているパターンの総和を用いる。
 例えば、図6において、ステップS18の合成処理後に得られる死角パターンP_Nは、合成前のステップS17に示す死角型に属しているパターンP_3と、パターンP_4との平均であるが、ステップS16の分類処理に際して、距離尺度を計算するための分類中死角パターンはパターンP_3とパターンP_4との総和である。
 ステップS16の分類処理における「分類中指向性パターン」「分類中死角パターン」の算出に、パターン同士の平均ではなく総和を使用する目的は、指向性型、死角型のそれぞれに多くの指向特性パターンを含ませるためであり、それぞれのタイプに含まれるパターンの個数が総和によって増加する理由は、次のように説明できる。
 指向特性パターンの内、音源方向に死角が形成されているという死角型の特徴が最も強く表れているのは、最小の固有値に対応したパターンP_nである。言い換えると、パターンP_nと他のパターンとの間で平均をとると、谷が浅くなるなどの影響により、死角型の特徴が弱くなる。指向性型についても同様であり、その特徴が最も強く表れているのはパターンP_1である。従って、分類中指向性パターンおよび分類中死角パターンとして平均を使用すると、指向性型にはパターンP_1のみ、死角型にはパターンP_nのみ、中立型には残り全てのパターン(P_2~P_{n-1})が分類されるという結果が多くの場合に採用されるようになるが、それでは分類を行なう意味がない。
 一方、平均の代わりに総和を用いると、例えば死角型に属するパターンの間で共通の方向に死角が形成されていれば、総和によって一層深い谷が形成される。指向性型についても同様である。従って、総和を用いれば、適切に分類された場合に分類中指向性パターンと分類中死角パターンとのユークリッド距離が最大となる可能性が高い。
 ただし、分類結果が確定した後で指向性パターンと死角パターンとを生成する際(図6(S18))には、総和ではなく、平均を用いる。その理由は、総和を用いると、死角型に属するパターンの個数によって谷の深さが大きく異なるため、後の処理においてブロック間で死角パターンの平均をとったり閾値と比較したりする操作がやりにくいが、平均を用いるとその問題が回避できるからである。
 上記の説明では、分類の組み合わせごとに分類中指向性パターンと分類中死角パターンとを生成し、それらのユークリッド距離を計算するとしていたが、行列の演算を使用することで、全組み合わせのユークリッド距離を直接計算することができる。
 図6に示すステップS16において、行列演算を使用して、全組み合わせのユークリッド距離を計算して指向特性パターンを分類する処理について、以下に示す数式を参照して説明する。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-I000003
 k番目に大きな固有値に対応した指向特性パターンをパターンP_kとする。パターンP_kは、式[2.1]のような行ベクトルとして表わすことができる。ただし、θ_minおよびθ_maxはそれぞれ、MUSIC法において行なわれる方向のスキャニングの最小値と最大値である。
 両者の中間では、所定の増分で角度が増加していくものとする。例えば、
 θ_min=-180°、
 θ_max=180°、
 とし、角度の増分を5°とすると、中間には-175°,-170°,・・・170°,175°が存在する。方向θに対応した成分であるP_k(θ)の計算方法については、後述する。
 次に、パターンP_1~P_nからなる行列Pを式[2.2]のように定義する。これを、指向特性パターン行列と呼ぶ。
 指向特性パターン行列と所定のベクトルとを乗じることで分類中指向性パターンと分類中死角パターンを生成することも可能であるが、以下で説明する行列を用いることで、両パターンの生成をスキップして差を直接計算することもできる。すなわち、式[2.3]で表わされる行列C用意し、行列CとパターンP_1~P_nからなる行列Pとを乗じると、分類の組み合わせそれぞれについて、分類中指向性パターンと分類中死角パターンとの差を直接計算することができる(式[2.4])。この行列Cを分類行列と呼ぶ。なお、式[2.3]はn=4の場合であり、一般のnについて分類行列を計算する方法については後述する。
 式[2.4]において、行列FをCとPとの積とし、さらにその各行の行ベクトルをF_1~F_mとする。mは行列Fの行数を表わし、m=n(n+1)/2である。F_1~F_mそれぞれについてノルム(自分自身の内積)を計算すると、分類中指向性パターンと分類中死角パターンとのユークリッド距離の2乗が求まる。すなわち、式[2.5]のような列ベクトルHを考えると、Hの各要素は、それぞれの分類結果におけるユークリッド距離の2乗を表わす(上付きのTは、転置をあらわす)。従って、ベクトルHにおいて最大の要素を見つけることで、どの分類結果が最適であるかが分かる。
 なお、行列の積の順番を変更することで、式[2.4]および式[2.5]よりも少ない計算量でベクトルHを計算することも可能である。そのためには、式[2.6]で表わされる行列Gを計算する。行列Gの大きさは分類行列Cと同一であり、GとCとの各行について内積を計算すると、この場合も同様のユークリッド距離が求まる。すなわち、式[2.5]の代わりに式[2.7]を用いても、同じ結果を得る。ただし、G_kおよびC_kはそれぞれ、行列GとCのk行目のベクトルを表わす。G_kおよびC_kの要素数はどちらもn(式[2.7]では4)であり、F_kの要素数(P_kと同一)よりもずっと小さいため、式[2.5]の代わりに式[2.7]を用いた方が、計算量が削減される。
 最適な分類結果が決定したら、それに対応した指向性パターンと死角パターンをぞれぞれ生成する。そのために、式[2.8]および式[2.9]のような行列を用意しておく。それぞれ、指向性パターン生成行列、死角パターン生成行列と呼ぶ。そして、式[2.7]のベクトルHのk番目の要素が最大であるとすると、指向性パターン生成行列のk行目のベクトルを指向特性パターン行列Pと乗じて指向性パターンを生成し(式[2.10])、同じく、死角パターン生成行列のk行目のベクトルを用いて死角パターンを生成する(式[2.11])。
 なお、式[2.8]および式[2.9]はn=4の場合であり、一般のnの場合については後述する。
  [3-2.「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理]
 次に、「音声らしさ」に基づく音声区間検出を用いた閾値の動的な変更処理を適用した音声区間検出処理について説明する。
 「付随的な谷」の問題を説明した際に、もし死角パターンの閾値が適切な値に設定できれば問題が解決する可能性があることを述べた。そのような閾値を事前に手作業で設定することは困難であるため、動作中に環境に適応して閾値が自動的に調整されるような仕組みが必要となる。以降では、そのような閾値を動的閾値と呼ぶ。
 動的閾値を実現するため、本開示では以下の処理を行なう。
  a)全方向で共通な閾値の代わりに、方向ごとに異なる閾値を保持する。
  b)「音声らしさ」に基づく音声区間検出も併用し、「音声らしくない」と判定されたブロックにおいては閾値を更新し、「音声らしい」と判定されたブロックにおいては閾値を固定する。
  c)方向ごとの閾値は、「音声らしくない」と判定されたブロックの間で平均化された死角パターンに基づいて計算される。
 なお、「音声らしさ」の判定は真か偽かの二値であるため、以下の2つの表現は同じ意味である。
 ・「音声らしい」と判定されなかった。
 ・「音声らしくない」と判定された。
 MUSIC法の閾値(死角パターンの閾値)を動的に変更する事例自体は、発明者自身による先の特許出願である特許文献1(特開2012-150237号公報)をはじめ、特許文献6(特開2013-44950号公報)なども存在するが、それらとの違いは、「音声らしさ」に基づく音声区間検出も併用し、「音声らしい」と判定されたブロックにおいてのみ閾値を固定する点にある。
 このようにして計算される閾値について、図7を用いて説明する。
 図7に示す死角パターン71は、図5に示す時間範囲56の開始より前の時間において生成されている死角パターンであり、図4に示す死角パターン41と同一である。図4と同様に、真の音源方向(θ_true)には真の谷が、偽の音源方向(θ_false)には付随的な谷が形成されているとする。
 閾値72は、動的に計算された閾値である。計算の詳細は後述する。基本的に動的閾値は、音声が存在しないタイミングでの死角パターンより少しだけ低い位置に設定される。言い換えると、音声発話がないタイミングでは、死角パターンが変動しても動的閾値よりは深くならないため、真の音源方向(θ_true)も、偽の音源方向(θ_false)にも方向点が検出されず、従って音声区間も検出されない。真の音源方向(θ_true)には音源は存在するものの音声ではないため、これを検出しないのは、音声区間検出としては正しい挙動である。
 この状態において、偽の音源方向(θ_false)から人が発話したとする。すなわち、図5に示す時間範囲56の開始時刻に到達したとする。それに伴い、死角パターンは図7に示す死角パターン73の形状に変化する。すなわち、偽の音源方向(θ_false)の位置に形成されていた谷は、真の音源(音声発話)が存在するために深くなり、図7に示す谷74が出現する。この谷74は、閾値72を下回る。その結果、図5の時間範囲56の内側においては、偽の音源方向(θ_false)に対応した方向点が検出されるため、音声区間も検出され、しかも二重検出は発生しない。
 また、図5の時間範囲56の内側に含まれるブロックは「音声らしい」と判定されるため、動的閾値の更新は行なわれない。そのため、発話中の動的閾値の形状は、図7に示す閾値72の形状のままであり、偽の音源方向(θ_false)の谷が閾値を上回ることはない。発話が終了すると、死角パターンは元の死角パターン71の形状に戻るため、偽の音源方向(θ_false)の谷は閾値を上回るようになる。その結果、方向点は検出されなくなる。
 また、この動的閾値は、「音声らしさ」の判定誤りの影響を受けにくい。例えば、音声発話が存在しないときに「音声らしい」と誤判定されても、閾値の更新が行なわれないだけであり、その時点で既に動的閾値がその状況に適応したものとなっているのであれば、閾値の更新が行なわれなくても問題ではない。一方、発話中に「音声らしくない」と誤判定されたときは、発話中に動的閾値が更新される。具体的には、発話が存在する方向の閾値が下がってくる。ただし、動的閾値は、「音声らしくない」と判定されたブロック間での死角パターンの平均から計算されるため、誤判定のブロック数が少なければ平均への影響は少ない。そのため、死角パターンと閾値とが逆転する現象(発話中なのに、死角パターンの谷より動的閾値の方が深くなり、発話方向の方向点が検出されなくなる現象)は発生しにくい。
 「音声らしさ」に基づく音声区間検出にとって誤判定を起こしやすい入力音として無声子音(例えばサ行の子音である/s/など)がある。そのため、方向点を採用する条件として「音声らしさ」の判定も併用する方式では、無声子音を多く含む発話について区間が短めに検出されたり複数の区間に分断されたりする現象が発生しやすかった(または、その問題を回避するために、検出された区間を前後に延長するような処理を追加した結果、他の入力音声に対して副作用が発生する場合があった)が、本開示では、「音声らしさ」の判定結果は動的閾値の更新に影響を与えるのみであるため、誤判定の影響を最小限に抑えることができる。
 また、「音声らしさ」の判定に基づいて更新される動的閾値は、同位相混入成分に由来する問題も解決できる。その点を、図8を用いて説明する。
 図8に示す死角パターン81は、同位相混入成分が存在するときの無音時の死角パターンの一例である。音源が存在しないにもかからわず、同位相混入成分の影響でθ=0の付近に偽の谷が形成されており、それが谷82である。同位相混入成分は電気的ノイズや筐体の振動など、音声とは大きく異なる信号であるため、「音声らしくない」と判定される可能性が高い。そのため、この状況下では動的閾値の更新が行なわれ、閾値83のような形状として表わされる。偽の谷である谷82はθ=0での動的閾値よりは浅いため、方向点は検出されない。従って、発話が存在しないときは、音声区間は検出されない。
 一方、θ=0の方向から発話があると、死角パターンの形状が死角パターン84のように変化する。すなわち、真の音源が存在することで、死角の谷が深くなる。それが谷85である。死角の谷が閾値を下回るようになるため、方向点が検出されるようになり、音声区間も検出される。また、「音声らしい」と判定されている間は動的閾値が更新されないため、発話中はこの状態が続く。そして発話が終了すると、死角パターンは元の死角パターン81の形状に戻るため、方向点は検出されなくなる。その結果、同位相混入成分のために死角パターンに偽の死角が形成されていても、その影響を受けずにθ=0からの発話が正しく検出される。
  [4.本開示の音信号処理装置の構成例と処理例について]
 次に、図9以下を参照して本開示の音信号処理装置の構成例と処理例について説明する。
 図9は、本開示の音信号処理装置の構成例を示す図である。
 音信号はマイクロホンアレイ101で収音され、得られた多チャンネルの音データはAD変換部102においてデジタル信号へ変換される。このデータを(時間領域の)観測信号と呼ぶ。時間領域の観測信号は、STFT部103および「音声らしさ」判定部109に送られる。
 STFT部103では、時間信号の観測信号に短時間フーリエ変換(short-time Fourier transform:STFT)を適用し、時間領域の観測信号を時間周波数領域の信号へ変換する。時間周波数領域の観測信号は、観測信号バッファ104と方向点検出部105とに送られる。
 観測信号バッファ104は、所定の時間(フレーム数)の観測信号を蓄積する。ここで蓄積された信号は、検出された発話区間の開始時刻、終了時刻と合わせて一発話分の音声データを得るために使用したり、さらに区間の方向も用い、所定の方向から到来した音声を抽出した結果を得るために使用したりする。
 観測信号バッファ104の内部においては、時刻(またはフレーム番号)と観測信号とが関連付けられて保存されている。さらに、後述の「音声らしさ」判定部の判定結果も、時刻等と関連付けられて保存されている。そのため、他のモジュールから時刻やフレーム番号を入力し、それに対応した観測信号や「音声らしさ」判定結果などを出力することができる。
 方部向点検出部105は、観測信号を所定の長さのブロックに分割すると共に、各ブロックにおいて音源方向に対応した点を検出する。すなわち、図1に示す(b)~(c)の処理に相当する処理を行なうモジュールである。その際、後述の「音声らしさ」判定部106の判定結果も利用する。詳細は後述する。
 「音声らしさ」判定部106は、MUSIC法において現在処理中のブロック内に含まれている入力音が「音声らしい」かどうかを判定するモジュールである。判定の方法としては、例えば、特許文献4(特許4182444号)に記載された入力信号の周期性に基づく方法などが適用可能である。なお、音声らしさの判定のタイミングはMUSIC法のブロックと完全に同期している必要はなく、そのブロック付近の時刻において「音声らしい」かどうかが判定できればよい。このモジュールの出力は「音声らしい」「音声らしくない」の二値である。その値は観測信号バッファ104にも送られ、時刻等と関連付けて蓄積される。
 方向点トラッキング部107は、連続する複数のブロック間においてほぼ同一の方向を持つ方向点が現れているときに、それらを連結し、発話区間として検出する。すなわち、図1(d)を参照して説明した処理を行なうモジュールである。詳細は後述する。
 方向点トラッキング部107の出力は発話区間、すなわち、発話開始時刻・終了時刻および発話方向(音源方向)である。言い換えると、複数の発話区間が時間上で互いに重複している場合、その区間では複数の音が混ざっている。そこで、混ざっていないクリーンな音源が必要な場合(例えば音声認識の前段として本発明を用いる場合など)は、音源抽出部108を備えるようにする。
 音源抽出部108は、発話区間に対応した観測信号や音源方向などを用いて、所定の音声などを抽出する。このモジュールには、例えば特許文献7(特開2012-234150号公報)に記載された音源抽出技術の他、ビームフォーミング等の既存の技術が使用可能である。
 発話区間に対応した音データは、必要に応じて後段処理部109に送られる。後段処理部109は、例えば音声認識機などによって構成される。なお、音声認識機には音声区間検出機能を持つものもあるが、その機能は省略可能である。また、音声認識機は音声特徴量を抽出するためにSTFTを備えることが多いが、本開示の処理と組み合わせる場合は、音声認識側のSTFTは省略可能である。
 制御部110は、図9に示す他の全てのモジュールと結線されており、各モジュールの制御を行なう。
 次に、方向点検出部105の詳細について、図10を用いて説明する。
 観測信号バッファ151は、図9に示す観測信号バッファ104と同一であり、時間周波数領域の観測信号が所定の時間分だけ蓄積される。
 共分散行列計算部152~指向特性パターン格納部158の構成は、MUSIC法による音源方向推定において通常よく使用されるモジュールである。
 共分散行列計算部152において、ブロック1個分、例えば図1に示すブロック11などに相当する観測信号から共分散行列を周波数ビンごとに計算し、結果を共分散行列格納部153に格納する。
 共分散行列格納部153に格納する共分散行列は、先に説明した図6のステップS11に示す共分散行列に相当する。
 固有ベクトル計算部154は、共分散行列に固有値分解(eigenvalue decomposition)を適用して固有ベクトルを算出して、固有ベクトル格納部155に格納する。
 この固有ベクトルは、先に説明した図6のステップS12に示す固有ベクトルに相当する。
 ステアリングベクトル格納部156には、様々な方向から到来する信号の位相差を予め計算し、その結果が格納されている。
 ステアリングベクトルの生成方法について、図11および以下に示す式[3.1]~[3.3]を参照して説明する。
Figure JPOXMLDOC01-appb-M000004
 図11には、音信号処理装置に対する音信号入力部としてのマイクロホンk,253と、マイクロホンi,254を示している。また、方向を測るための基準点252を示している。
 基準点262はマイクロホンの近くの任意の地点でよく、例えばマイクロホン間の重心と一致させた基準点の設定や、あるいはマイクロホンのどれかと一致させた基準点の設定とするなど、様々な設定としてよい。基準点252の位置ベクトル(すなわち座標)をmとする。
 音の到来方向を表わすために、基準点m,252を始点とする長さ1のベクトルを用意し、このベクトルをq(θ)とする。図に示す方向ベクトルq(θ)251である。
 音源位置がマイクロホンとほぼ同じ高さであるなら、方向ベクトルq(θ)251はX-Y平面上(垂直方向をZ軸とする)のベクトルとして考えればよく、方向ベクトルq(θ)の成分は、上記の式[3.1]で表わせる。
 ただし方向θは、X軸となす角である(図11(座標およびベクトル設定参考図)参照)。
 図11において、方向ベクトルq(θ)251の方向から到来する音は、先にマイクロホンk,253に到着し、次に基準点m,252、それからマイクロホンi,254に到着する。
 基準点m,252に対するマイクロホンk,253の位相差S_k(ω,θ)は、上記の式[3.2]で表わせる。ただしこの式において、
 jは、虚数単位、
 Mは、周波数ビン数、
 Fは、サンプリング周波数、
 Cは、音速、
 m_kは、マイクロホンkの位置ベクトル、
 を表わし、
 上付きのTは通常の転置を表わす。
 この式の意味は、以下の通りである。平面波を仮定すると、マイクロホンk,253は基準点m,252よりも図11に示す距離255の分だけ音源に近く、逆にマイクロホンi,254は図11に示す距離256の分だけ遠い。
 これらの距離差は、ベクトルの内積を用いて
 q(θ)^T(m_k-m)、および、
 q(θ)^T(m_i-m)
 と表わせる。
 距離差を位相差に変換すると、上記の式[3.2]で示す基準点m,252に対するマイクロホンk,253の位相差:S_k(ω,θ)の算出式が得られる。
 各マイクロホンの位相差からなるベクトルS(ω,θ)は、上記の式[3.3]で表わされ、これをステアリングベクトルと呼ぶ。
 nの平方根で割っている理由は、ベクトルの大きさを1に正規化するためである。
 図10に示すステアリングベクトル格納部156には、様々な値の方向θと周波数ビン番号ωについてのステアリングベクトルS(ω,θ)が格納されている。方向θについては基本的に一周分であるが、図2のようにマイクロホンが直線状に配置されている場合は、指向特性はその直線(図2のマイクロホンアレイ方向23)について対称となるため、半周分で良い。また、角度の間隔は、方向推定の精度と計算量とを考慮して決める。(例えば、3°や5°とする。)
 周波数ビン番号ωについては、基本的に、ω=1(直流)とω=M(ナイキスト周波数)とを除いた全周波数ビン(すなわち1<ω<M)を用いるが、特定の条件を満たす複数の周波数ビンのみを用いてもよい。例えば、計算量削減のために、偶数番目や3の倍数番目といった特定の値の倍数に相当する周波数ビンのみを使用してもよい。あるいは、音声区間検出のための音源方向推定であることを利用して、音声が主に含まれる周波数帯域に相当する周波数ビンのみを使用してもよい。
 なお、従来においては、空間エリアスの影響を避けるために周波数ビンを制限する場合があったが、本開示においては後述の動的閾値によっ空間エリアスの影響を回避できるため、その目的で周波数ビンを制限する必要はない。
 図10に示す指向特性パターン生成部157は、固有ベクトル格納部155に格納された各固有ベクトルに対して、ステアリングベクトル格納部156から取得した各方向のステアリングベクトルを作用させることで、指向特性パターン(方向と感度との関係を表わすプロット)を生成し、結果を指向特性パターン格納部158に格納する。
 この指向特性パターン格納部158に格納される指向特性パターンは、先に説明した図6のステップS15に示す指向特性パターンP1~P4に相当する。
 マイクロホンの個数をnとすると、指向特性パターンもn個生成される。
 次の指向特性パターン分類部159~死角パターン格納部166は、本開示の特徴の一つである「指向特性パターンの分類」に関するモジュールである。図6に示すステップS13~S19に示す処理を行なうモジュールに相当する。
 指向特性パターン分類部159は、指向特性パターン格納部158に格納されたn個の指向特性パターンを以下の3つのタイプに分類する。
  指向性型パターン=音源方向に指向性(山)が形成されているパターン
  死角型パターン=音源方向に死角(谷)が形成されているパターン
  中立型パターン=指向性型にも死角型でもないパターン
 分類した各パターンは、それぞれ指向性型格納部160、死角型格納部162、中立型格納部161に格納される。
 これらの各格納部160~162に格納するパターンは、例えば図6に示す例では、ステップS17に示す指向性型パターンP1、中立型パターンP2、死角型パターンP3,P4となる。
 分類行列バッファ154は、n(n+1)/2通りの分類結果に相当するデータを生成するための行列である。
 先に説明した式[2.3]で表わされる分類行列のほか、指向性パターン生成行列(式[2.8])や死角パターン生成行列(式[2.9])なども格納されている。これらの行列の生成方法については後述する。
 指向性パターン&死角パターン生成部163では、指向性型格納部160に格納された指向性型パターンから、音源方向検出に適用する最終的な指向性パターンを生成し、死角型格納部162に格納された死角型パターンから、音源方向検出に適用する最終的な死角パターンを生成する。
 すなわち、図6に示す例におけるステップS18のパターン合成処理を実行し、ステップS19に示す指向性パターンP_Dと、死角パターンP_Nを生成する。
 生成した指向性パターンは指向性パターン格納部165に格納し、生成した死角パターンは死角パターン格納部166に格納する。
 図10に示す音声らしさ判定部167~動的閾値格納部171の構成は、本開示のもう一つの特徴である「『音声らしさ』に基づく閾値の動的更新」に関する処理を行なうモジュールである。
 音声らしさ判定部167は、図9に示す音声らしさ判定部106と同一であり、各ブロック(図1に示すブロック11など)あるいはその付近に時刻に「音声らしい」信号が含まれているかを判定する。例えば、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する。
 死角パターン平均部168は、音声らしさ判定部106が「音声らしい」信号が含まれていないと判定したブロックまたはタイミング、すなわち音声らしくないとと判定したブロックまたはタイミングにおいて、死角パターン格納部166に格納された死角パターンの時間方向の平均を更新し、結果を平均死角パターン格納部169に格納する。
 動的閾値計算部170は、平均死角パターン格納部169に格納された平均死角パターンから方向ごとの動的閾値を計算し動的閾値格納部171に格納する。平均死角パターンと動的閾値との関係は先に図7等を参照して説明した通りであり、動的閾値は平均死角パターンよりも若干深い値、言い換えると、音声らしい信号が入力されていない時間においては死角パターンが若干変動しても、死角パターンが閾値を下回ることはないような値である。
 方向点検出実行部172は、指向性パターン格納部165と、死角パターン格納部166に格納された指向性パターンと、死角パターン、さらに動的閾値格納部171に格納された動的閾値を用いて、音源方向の候補である方向点を検出し、結果を方向点バッファ173に格納する。
 なお、動的閾値を用いた音源方向推定処理は、先に図7、図8等を用いて説明した処理である。
 以上、図10を参照して説明したように、図9に示す方部向点検出部105は、観測信号を所定の長さのブロックに分割すると共に、各ブロックにおいて音源方向に対応した点を検出する。すなわち、図1に示す(b)~(c)の処理に相当する処理を行なう。
 次に、図9に示す構成中の方向点トラッキング部107の詳細について、図12を参照して説明する。
 方向点トラッキング部107は、連続する複数のブロック間においてほぼ同一の方向を持つ方向点が現れているときに、それらを連結し、発話区間として検出する。すなわち、図1(d)を参照して説明した処理を行なう。
 方向点トラッキング処理においては、近接する方向点を連結することで区間を作成していくため、内部には作成中の区間が複数存在し、それらを格納するバッファを備える。図12に示す作成中区間バッファ311である。作成中および完成した区間は、作成中区間バッファ311内に示す区間情報311a~311nである。
 現ブロック番号331には、現在処理中のブロック(例えば図1に示すブロック11など)の番号が格納されている。処理開始後、最初に生成されるブロックの番号を「1」とし、時間の経過によって新しいブロックが生成される毎に番号を増加させる。
 方向点バッファ332は、図10を参照して説明した方向点バッファ173と同一であり、方向点検出部105が出力した各ブロック単位の方向点が格納されている。
 図12下部には、区間情報311a~311nの1つの区間情報311nの詳細構成を示している。区間情報311a~311nはいずれも同様の構成を持つ。
 区間情報311nは、区間ID321、始端ブロック番号322、終端ブロック番号323、有効ブロック数324、平均方向325、断絶ブロック数326の各モジュールを持つ。
 区間ID321は、区間のそれぞれに付与された一意の番号であり、例えば生成順に番号を付与していく。
 始端ブロック番号322は、区間の開始に対応したブロックの番号である。ブロック番号の代わりに、STFTのフレームの番号や、本当の時刻を保持しても良い。
 終端ブロック番号323は、区間の終了に対応したブロックの番号である。これも始端ブロック番号322と同様に、フレーム番号や時刻でも良い。なお、生成途中の区間については、終端が確定していないため、ここには「未定義」を表わす値を格納しておく。
 有効ブロック数324は、区間の中で方向点が存在しているブロック(以降「有効ブロック」)の個数を保持する。この値を保持する目的は区間の誤検出の抑止にある。区間のブロック数(始端ブロック番号322と終端ブロック番号323とから計算可能)と有効ブロック数とから有効ブロックの割合を計算し、その値が小さい場合(すなわち、有効ブロックが疎らである場合)は、誤検出された方向点を繋いだ偽の区間である可能性が高いため、そのような区間は棄却する。
 平均方向325は、その区間に含まれる方向点から計算される平均の方向である。作成中の区間については、その時点で計算される方向が格納されている。
 断絶ブロック数326は、近傍(平均方向325で表わされる音源方向の近く)に方向点が存在しないブロックが何回連続しているかを表わす値である。この値は、区間の作成中において使用される。トラッキングにおいては、方向点が断絶しても、その断絶の長さが所定の値より短ければ、区間を分断せずに1つの区間として切り出した方が良い。それを実現するために、断絶の長さを記憶しておく。また、断絶の長さ(ブロック数)が所定の値を越えた時点で、その区間は確定する。
 以上で、装置の構成の説明を終える。
  [5.音信号処理装置の実行する処理のシーケンスについて]
 次に、本開示の音信号処理装置の実行する処理のシーケンスについて、図13以下に示すフローチャートを参照て説明する。
 図13は、本開示の音信号処理装置の実行する処理の全体シーケンスを説明するフローチャートである。以下、各ステップの処理について、順次、説明する。
  (ステップS101)
 ステップS101は、初期化処理であり、フレーム番号tおよびブロック番号Bに初期値を代入する他、分類行列やステアリングベクトルの生成等も行なう。詳細は後述する。
  (ステップS102)
 ステップS102は、AD変換処理であり、マイクロホンに入力されたアナログの音信号をデジタル信号へ変換する処理である。本開示の処理は、例えば先に参照して説明したように、異なる位置に配置したn個のマイクロホンを利用して、各マイクロホンによる取得音の解析を行う。ステップS102では、これらの複数のマイクロホンに入力されたアナログの音信号をデジタル信号へ変換する。AD変換はnチャンネルの入力についてクロックを同期して行なう。この信号を時間領域の観測信号と呼ぶ。なお、入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。
  (ステップS103)
 ステップS103は、時間領域の観測信号に対して短時間フーリエ変換(STFT)を適用する処理である。短時間フーリエ変換(STFT)処理によって、時間領域の観測信号を、時間周波数領域の信号(スペクトル)へ変換する。
 短時間フーリエ変換(STFT)処理の詳細について、図14を参照して説明する。
 図14に示す(a)観測信号の波形x_k(*)は、
 例えば、図9に示す装置中に音声入力部として構成されるn本のマイクからなるマイクロホンアレイ101中のk番目のマイクによって観測される観測信号の波形x_k(*)である。
 この観測信号から一定長のデータを切り出す。切り出す単位をフレームと呼び、図14ではフレーム401~403がそれに相当する。1フレーム分のデータにハニング窓やハミング窓等の窓関数を作用させた後、短時間フーリエ変換を適用することにより、周波数領域における1フレーム分のデータであるスペクトルXk(t)を得る(tはフレーム番号)。
 切り出すフレームの間には、図に示すフレーム401~403のように重複があってもよく、そうすることで連続するフレームのスペクトルXk(t-1)~Xk(t+1)を滑らかに変化させることができる。また、スペクトルをフレーム番号に従って並べたものをスペクトログラムと呼ぶ。図14(b)に示すデータがスペクトログラムの例である。
 スペクトルXk(t)は要素数Mのベクトルであり、ω番目の要素をXk(ω,t)とする。
 また、スペクトログラムにおいて、同一のωからなる横一列のデータを、周波数ビンと呼ぶ。
 本開示の音信号処理装置は、短時間フーリエ変換(STFT)もチャンネル数だけ行なう。以降では、
 チャンネルk、
 周波数ビンω、
 フレームt、
 における観測信号を、
 観測信号:Xk(ω,t)
 と表わす。
 この観測信号は、例えば前述の式[1.1]などに記載された観測信号に対応する。
 また、短時間フーリエ変換(STFT)のポイント数をl(小文字のエル)とすると、1チャンネルあたりの周波数ビンの個数Mは、
 M=l/2+1
 で計算できる。
  (ステップS104)
 ステップS104の蓄積処理は、ステップS103における時間領域の観測信号に対する短時間フーリエ変換(STFT)の適用によって生成した時間周波数領域の信号(スペクトル)を、所定の時間分(例えば10秒)だけ蓄積する処理である。
 言い換えると、その時間に対応したフレーム数をTとすると、連続するTフレーム分の観測信号を、図9に示す観測信号バッファ104に蓄積する。
 観測信号バッファ104内部ではフレーム番号Fとフレームデータ(スペクトル)との対応付けがなされており、後で所定のフレーム番号のデータを取り出すことが可能である。
  (ステップS105)
 ステップS105は、フレーム番号の更新処理である。
 現在のフレーム番号tを、t+1とするフレーム番号更新処理を実行する。
  (ステップS106)
 ステップS106は、以降の処理をLフレームに1回の頻度で実行するための条件分岐である。
 すなわち、フレーム番号tを頻度Lで割り、その余りが0のときのみ、ステップS107に進み、それ以外の場合はステップS102に戻る。
  (ステップS107)
 ステップS107は、「音声らしさ」の判定処理である。
 この「音声らしさ」の判定処理は、例えば、特許文献4(特許4182444号公報)などに記載された方式を用いて、現在処理中のブロックに「音声らしい」信号が含まれているか否かを判別する処理である。
 なお、この図13に示すフローチャートでは、ステップS107の「音声らしさ」の判定を、Lフレームに1回の頻度で行なうものとしているが、もっと高頻度で行なってもよい。例えば、「音声らしさ」の判定をフレームごとに行ない、1ブロックを構成するLフレーム中で「音声らしい」と判定されたフレームが1回でもあれば、そのブロックを「音声らしい」と判定してもよい。
  (ステップS108)
 ステップS108の方向点検出処理は、観測信号の共分散行列から方向点を求める処理である。詳細は後述する。
  (ステップS109)
 ステップS109の方向点トラッキング処理は、ステップS108の方向点検出処理で検出された方向点から発話区間を求めるための処理である。詳細は後述する。
  (ステップS110)
 ステップS110は、ブロック番号Bの更新処理である。
 現在のブロック番号BをB+1とするブロック番号更新処理を行なう。
  (ステップS111)
 ステップS111は、処理を継続するか否かの分岐処理である。処理を継続する場合は、ステップS102に戻る。そうでなければ、処理を終了する。
 次に、図13に示すフロー中のステップS101において実行する初期化処理の詳細について、図15に示すフローを参照して説明する。
  (ステップS201~S202)
 ステップS201~S202において、フレーム番号tとブロック番号Bにそれぞれ初期値を代入する。初期値は例えば、t=1、B=1とする。
  (ステップS203)
 次に、ステップS203においてステアリングベクトルを生成し、その結果を、先に説明した図10に示すステアリングベクトル格納部156に格納する。ステアリングベクトルの生成方法は、先に図11、および式[3.1]~[3.3]を参照して説明した通りである。
  (ステップS204)
 次に、ステップS204において、分類行列等の初期化を行ない、その結果を図10に示す分類行列バッファ164に格納する。ここで初期化する行列は、以下の3種類である。
 *分類行列C(式[2.3])
 *指向性パターン生成行列D(式[2.8])
 *死角パターン生成行列N(数[2.9])
 である。
 一般的なマイクロホン数nにおいてこれらの行列を生成する方法については後述する。
 以上で、初期化の説明を終える。
 次に、図15に示す初期化処理の詳細フロー中のステップS204において実行する分類行列等の生成処理の詳細について、図16に示すフローを参照して説明する。
 なお、この図16に示すフローチャートの説明においては、行列Aのx行目、y列目の要素をA(x,y)と表記する。
 例えば、式[2.3]の分類行列Cにおいて、右下の要素はC(6,4)と表わすことができ、その値は-1である。また、行や列の添字の範囲をx:yで表わす。例えば、同じく式[2.3]の分類行列Cにおいて、一番左の列はC(1:6,1)と表わせる。また、その行列の3行目において-1が存在する要素はC(3,2:4)を表わせる。
  (ステップS301)
 ステップS301において、
 分類行列C
 指向性パターン生成行列D
 死角パターン生成行列N
 それぞれについて、領域を確保するとともに、全要素を0で初期化する。
 これらの行列の大きさはどれも同じであり、行数がn(n+1)/2、列数がnである。
  (ステップS302)
 次に、ステップS302において、変数rに1を代入する。この変数rは、以降の処理において行列の行を表わすインデックスである。
 以下のステップS303~S311は、a,bという2つの変数の二重ループを構成している。変数aは、各分類の組み合わせにおいて指向性型に属するパターンの個数を表わし、変数bは、同じく死角型に属するパターンの個数を表わす。
 ステップS304~S310は、変数bについてのループである。
 a+b≦n
 を満たす必要があるため、このループにおける変数bの最大値はn-aである。
  (ステップS305)
 ステップS305は、分類行列Cの行列要素の一部の値をセットする処理である。
 分類行列Cは、先に説明した式[2.3]で示される行列である。式[2.4]を参照して説明したように、分類行列CとパターンP_1~P_nからなる行列Pとを乗じると、分類の組み合わせそれぞれについて、分類中指向性パターンと分類中死角パターンとの差を計算することができる(式[2.4])。
 なお、先に図6のステップS16において説明したように、指向特性パターンの分類処理の基本的な手順は、以下の通りである。
  (1)n(n+1)/2通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ「分類中指向性パターン」「分類中死角パターン」と呼ぶ。
  (2)分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。
 分類行列Cは、先に説明した式[2.3]に示すように、1,0,-1の要素を持つ。なお、ステップS301の初期設定において、分類行列Cの全要素は0にセットされている。
 ステップS305では、初期設定で0になされている分類行列Cの要素中、特定の要素を1にする。具体的には、分類行列Cのr行目の1列目からa列目までの要素に1を代入する。
 この処理は、分類行列のr行目を適用したパターンPの分類処理において、指向特性パターンのP_1~P_aを指向性型に属させることを意味する。
 なお、分類中指向性パターンは、指向性型に属するパターンの平均ではなくて総和であるため、ステップS305では、分類行列Cのr行目の1列目からa列目までの要素に1を代入する。
  (ステップS306)
 ステップS306は、指向性パターン生成行列Dの要素セット処理である。
 指向性パターン生成行列Dは、先に説明した式[2.8]によって示される行列である。
 例えば、先に説明した式[2.7]のベクトルHのk番目の要素が最大であるとすると、式[2.10]に示すように、指向性パターン生成行列のk行目のベクトルを指向特性パターン行列Pと乗じて指向性パターンを生成することができる。
 ステップS306では、ステップS305で分類行列Cに1を代入した要素位置と同じ指向性パターン生成行列Dの要素位置に1/aを代入する。
 すなわち、指向性パターン生成行列Dのr行目の1列目からa列目までの要素に1/aを代入する。
 指向性パターンは、指向性型に属するパターンの平均であるため、ここで代入する値は1ではなく、パターンの個数の逆数(1/a)とする。
  (ステップS307)
 ステップS307では、分類行列Cの要素中の一部を-1にする要素セット処理を行なう。
 分類行列Cのr行目の、n-b+1列目からn列目までの要素に-1を代入する。
 これは、r行目に対応した分類において、指向特性パターンのP_{n-b+1}~P_nを死角型に属させることを意味する。
 なお、分類中死角パターンは、死角型に属するパターンの平均ではなくて総和であるため、ここで代入する値は-1である。また、1ではなくて-1を代入する理由は、分類中指向性パターンからの差分を計算するためである(式[2.4]の右辺を参照)。
  (ステップS308)
 ステップS306は、死角パターン生成行列Nの要素のセット処理である。
 死角パターン生成行列Nは、先に説明した式[2.9]によって示される行列である。
 例えば、先に説明した式[2.7]のベクトルHのk番目の要素が最大であるとすると、式[2.11]に示すように、死角パターン生成行列のk行目のベクトルを指向特性パターン行列Pと乗じて死角パターンを生成することができる。
 ステップS308では、ステップS307で分類行列Cに-1を代入した要素位置と同じ死角パターン生成行列Nの要素位置に1/bを代入する。
 すなわち、死角パターン生成行列Nのr行目の、n-b+1列目からn列目までの要素に1/bを代入する。
 死角パターンは、死角型に属するパターンの平均であるため、ここで代入する値は1ではなく、パターンの個数の逆数(1/b)とする。
  (ステップS309)
 ステップS309は、行のインデックスであるrの更新処理であり、rをr+1とする行インデックス更新処理を実行する。
 ステップS310でbのループを閉じ、ステップS311においてaのループを閉じる。
 以上で、新規区間作成の説明を終える。
 次に、図13に示す全体処理フロー中のステップS108において実行する方向点検出処理の詳細シーケンスについて、図17に示すフローチャートを参照して説明する。
  (ステップS401)
 ステップS401~S405の処理は、先に図6を参照して説明した図6に示すステップS11~ステップS19の処理に対応する。
 まず、ステップS401において、観測信号の共分散行列を求める。共分散行列の計算処理については、先に図6を参照して説明したが、再度、以下に算出式を示して説明する。なお、以下に示す式[4.1]~[4.5]は先に示した式[1.1]~[1.5]と同じ式である。
Figure JPOXMLDOC01-appb-M000005
 上記式[4.1]~[4.5]を参照して、ステップS401における共分散行列の算出処理について説明する。
 n本のマイクロホン中のk番目のマイクロホンで観測された信号に短時間フーリエ変換(Short Time Fourier Transform:STFT)を適用した結果をXk(ω,t)とし、X1(ω,t)~Xn(ω,t)からなるベクトルをX(ω,t)とおく(式[4.1])。
 ただし、
 ωは周波数ビンの番号(ω=1,2,…,M)、
 tはフレームの番号である。
 次に、周波数ビンωごとに、複数のフレームからX(ω,t)の共分散行列R(ω)を計算する(式[4.2])。
 ただし、式[4.2]において、
 <・>_{t-L'<τ≦t}は、
 t-L'<τ≦tを満たすフレームの間でカッコ内の式の平均をとることを表わす。
 tはブロックの末端のフレーム番号
 L'はブロックの長さ(フレーム数)
 t-L'+1はブロックの始端のフレーム番号
 である。
 なお、ブロックは、例えば図1に示すブロックであり、各ブロックが各フレームに対応する。
 上記式[4.2]に従って算出される共分散行列を、R(ω)とする。
 ステップS401では、この共分散行列を産出する。
 なお、この共分散行列は、図6のステップ(S11)で算出する共分散行列に相当する。
 なお、上記式[4.2]のL'はブロックの長さ(フレーム数)であるが、この値は頻度L(図13の全体処理フローのステップS106に示す頻度L)と異なる値を用いても良い。例えば、L=8,L'=16とすると、共分散行列は8フレームに1回の頻度で計算されるが、共分散行列自体は16フレーム分の観測信号から計算される。
  (ステップS402)
 次に、ステップS402において、共分散行列R(ω)に対して固有値分解(Eigenvalue decomposition)を適用することで、固有ベクトル(Eigenvector)を計算する。固有値分解によって算出する固有ベクトルは上記の式[4.3]で表わされる。
 式[4.3]において、
 Λ(ω)は固有値からなる対角行列であり(式[4.5])、
 V(ω)は固有ベクトルV_1(ω)~V_n(ω)からなる行列である(式[4.4])。
 また、上付きのHはエルミート転置(要素を共役複素数に変換してから転置)を表わす。
 共分散行列R(ω)はR(ω)^H=R(ω)を満たすため、固有値λ_1(ω)~λ_n(ω)は全て実数であり、これらは大きい順に並んでいるものとする。
 固有ベクトルV_1(ω)~V_n(ω)の大きさは1であり、またお互いに直交しているとする。
 このステップS402で算出する固有ベクトルは、図6に示すステップS12の固有ベクトルに対応する。
 なお、上記の式[4.1]~[4.5]に従った共分散行列の算出と固有ベクトルの算出処理は、基本的には1<ω<Mを満たす全ての周波数ビンωについて行なうが、先に図11を参照して説明したステアリングベクトルと同様に、一部の周波数ビンに対して行なってもよい。
 ステップS402が終了した段階で、周波数ビンごとにn個の固有ベクトルが計算されている。
  (ステップS403)
 ステップS403は、周波数ビンごとの指向特性パターン、例えば先に図6を参照して説明した図6のステップS13~S15の処理に相当する。すなわち、図6(S13)に示す指向特性パターンPa~Pdを生成し、周波数ビン間で平均等を計算する(図6(S14))ことで、全周波数ビン共通の指向特性パターン(図6(S15))を生成する処理からなる。
 この一連の処理について、以下に示す式[5.1]~[5.3]を参照して説明する。
Figure JPOXMLDOC01-appb-M000006
 ω番目の周波数ビンにおいて、k番目の固有ベクトルに対応した指向特性パターンの方向θの成分をP_k(ω,θ)とする。
 その値はその方向のゲインの2乗であり、式[5.1]から計算される。これを全ての方向θおよび周波数ビンωについて計算することで、周波数ビンごとの指向特性パターン(図6(S13)に示す指向特性パターンPa~Pd)を計算する。
 このように、式[5.1]に従って、固有ベクトルに対し、各方向に対応したステアリングベクトルを作用させることで、方向と感度との関係を表わす指向特性パターンをn個生成する。
 次に、周波数ビン間での平均等の計算(図6(S14))を、上記の式[5.2]を用いて行なう。この式[5.2]において、シグマ記号は対象となる周波数ビンωについての総和を表わす。Ωはその周波数ビンの個数である。対数の底は任意で良く、例えば10を用いる。
 なお、対象となる周波数ビンωは、先に図11を参照して説明したステアリングベクトルの生成処理と同様、基本的に、ω=1(直流)とω=M(ナイキスト周波数)とを除いた全周波数ビン(すなわち1<ω<M)を用いるが、特定の条件を満たす複数の周波数ビンのみを用いてもよい。例えば、計算量削減のために、偶数番目や3の倍数番目といった特定の値の倍数に相当する周波数ビンのみを使用してもよい。あるいは、音声区間検出のための音源方向推定であることを利用して、音声が主に含まれる周波数帯域に相当する周波数ビンのみを使用してもよい。
 式[5.2]の結果に対して式[5.3]を適用し、P_k(θ)の最大値を0に調整する。全てのθについて式[5.2]および式[5.3]を計算することで、全周波数ビンで共通の指向特性パターン(図6(S15)に示す指向特性パターンP1~P4)を得る。式[5.3]の作用により、指向特性パターンは、最大値0をとる方向を除いて負の値を持つ。
 なお、式[5.2]は周波数ビン間での平均を表わしているが、ただの総和に置き換えても(すなわち、Ωでの除算を省略しても)、式[5.3]の結果は同一である。
  (ステップS404)
 上記の処理によって生成されたn個の指向特性パターンに対して、ステップS404で分類処理を行なう。
 分類処理は、前述したように、以下の手順に従って実行することができる。
  (1)n(n+1)/2通りの分類の組み合わせそれぞれにおいて、指向性型タイプに分類されたパターンから指向性パターンの代表を計算し、同じく死角タイプに分類されたパターンから死角パターンの代表を計算する。これらを、それぞれ「分類中指向性パターン」「分類中死角パターン」と呼ぶ。
  (2)分類中指向性パターンと分類中死角パターンとの間の距離尺度を計算し、その距離尺度が最大となる分類結果を採用する。
 距離尺度としては、ユークリッド距離を用いる。また、分類中指向性パターンとしては、指向性型に分類されているパターンの総和(平均ではなく)を用い、同じく、分類中死角パターンとしては、死角型に分類されているパターンの総和を用いる。
 分類の組み合わせごとに分類中指向性パターンと分類中死角パターンとを生成し、それらのユークリッド距離を計算する処理は、先に式[2.1]~[2.11]を参照して説明した通りである。
 各分類結果に対応した指向性パターンと死角パターンとの間のユークリッド距離からなるベクトルHを式[2.7]等から計算し、そのベクトルの中で最大の要素が何番目にあるかを調べることで、最適な分類結果が決定される。
  (ステップS405)
 最適な分類結果が決定したら、ステップS405において、最適分類結果に対応した指向性パターンと死角パターンとを生成する。
 それぞれ、図6に示す指向性パターンP_Dと死角パターンP_Nに相当する。
 この各パターンの生成処理は、例えば、先に説明した式[2.7]のベクトルHの要素を比較して処理を行なうことができる。
 すなわち、各要素が各分類結果に応じた分類中指向性パターンと分類中死角パターンとのユークリッド距離の2乗を表わすベクトルHのK番目の要素が最大であるとすると、指向性パターンP_Dは、式[2.8]の中のD_Kを用いて式[2.10]から生成する。死角パターンP_Nは式[2.9]の中のN_Kを用いて式[2.11]から生成する。
 こうして、指向性パターンと死角パターンとが1個ずつ求まる。
 図17のステップS406以下の処理は、この2つのパターンを用いて方向点を検出する処理として実行する。
  (ステップS406)
 図13に示す全体処理フローのステップS107における音声らしさ判定処理の判定結果による分岐である。処理対象としているブロックの観測信号が「音声らしくない」と判定された場合のみ、ステップS407に進む。
 一方、「音声らしい」と判定されたときは、ステップS408~S409の閾値の更新をスキップしてステップS409に進む。
  (ステップS407)
 ステップS407~S408は、ステップS406において、処理対象ブロックの音が音声らしくないと判定された場合に実行する処理である。
 ステップS407では、今回の死角パターンおよび過去の死角パターンの間で平均を計算する。平均操作は、「音声らしくない」と判定されたブロックに対応した死角パターンの間で行う。しかも、ある程度時間が経過した死角パターンは平均に反映されないようにする。そのため、例えば忘却係数(forgetting factor)を用いて、以下に示す式[6.1]のように平均を更新する。
 なお、この式[6.1]において、上線のついたP_Nは死角パターンの平均を表わし、以降の説明ではこれを平均死角パターンと呼ぶとともにbar(P_N)と表記する。
 αは忘却係数であり、0に近い正の値(例えば0.01)を用いる。
 式[6.1]は、その時点での平均死角パターンbar(P_N)と、そのブロックでの死角パターンP_Nとの間で、それぞれの重みをα-1およびαとする重みつき平均を計算し、その結果を新たな平均死角パターンとすることを意味する。
 式[6.1]のαは1-αと比べてずっと小さな値であるため、仮にステップS406における「音声らしさ」の判定が間違っていても、平均死角パターン(および後述の動的閾値)への影響は小さい。
 なお、平均死角パターンbar(P_N)の初期値としては、全要素が0のベクトルを用いる。あるいは、後で説明する定数T_s,β,γを用いて、全要素を(T_s+γ)/βという値にセットしてもよく、そうすると動的閾値はT_sから始まる。言い換えると、動的閾値の上限であるT_sは、動的閾値の初期値として機能する。
  (ステップS408)
 次に、ステップS408において、平均死角パターンから動的な閾値を計算する。動的閾値は、先に図7を参照して説明したように平均死角パターンより少しだけ低い位置に設定するのがよく、そのために例えば式[6.2]を用いて計算する。この式において、左辺のT_d(θ)は方向θに対応した動的閾値である。右辺のmin()は、2つの引数の内の小さい方を選択することを表わす。bar(P_N(θ))は、平均死角パターンP_Nの中で方向θに対応した要素である。βは1以上の値、γは0以上の値であり、この2つの調整することで、妨害音が鳴っていても音声は存在しない状態において方向点が誤検出されない程度の値に動的閾値がセットされるようにする。あるいは、β=1と固定してγのみで調整したり、逆に、γ=0と固定してβのみで調整したりしてもよい。
 式[6.2]のT_sは0以下の定数であり、動的閾値の上限を表わす。β,γの他にT_sを併用する理由は、主に静かな環境において方向点が誤検出されるのを防ぐためである。明確な音源が存在しない静かな環境では、平均死角パターンが0に近い負の値に収束しているため、死角パターンの小さな谷でも閾値を超えて方向点として検出されやすくなる。そのような方向点の検出を防ぐ目的でβ,γを調整すると、今度は音源が存在する環境において死角パターンが動的閾値を超えにくくなってしまう(発話が検出されにくくなる)可能性がある。そこで、静かな環境での閾値については、T_s(とmin())によって、平均死角パターンに由来する閾値とは独立に設定できるようにしているのである。
 なお、最大値を0に調整した指向特性パターンを用いて平均死角パターンを生成している場合は、その平均死角パターンに対して正の定数倍または正の定数の減算の少なくとも一方の演算処理を行なうことで、平均死角パターンより低い値を有する閾値を算出することができる。
  (ステップS409)
 最後に、ステップS409で方向点の検出を行なう。具体的には、以下の条件をすべて満たした方向を方向点とする。
  条件1:その方向は死角パターンの谷である。
  条件2:谷の深さは動的閾値より深い。
  条件3:その方向の付近に指向性パターンの山が存在する。
  条件4:その方向の谷は、深い順の1位からn-1位までに含まれる。
 以下、それぞれの条件について説明する。
 条件1を式で表すと、以下に示す式[7.1]の通りである。
Figure JPOXMLDOC01-appb-M000008
 ただし、θ_iは、先に説明した式[2.1]におけるθ_minからθ_maxまでの方向の一つを表わす。また、θ_{i-1}は、式[2.1]のベクトルにおいて左隣の要素の方向、θ_{i+1}は同じく右隣の要素の方向を表わす。
 条件2は式[7.2]で表わされる。
 条件3においては、死角パターンの谷の方向と指向性パターンの山の方向とは必ずしも一致しないため、所定のマージンを用いた判定を行なう。その式は、式[7.3]および式[7.4]で表わされる。すなわち、式[7.3]によって指向性パターンの山を検出し、その方向をθ_{i'}とする。そして式[7.4]のように、θ_iと θ_{i'}との差分の絶対値がマージンθ_margin以下であれば(式[7.4]を満たすθ_{i'}が少なくとも一つ存在すれば)、「死角パターンの谷の方向の付近に指向性パターンの山が存在する」と判定する。
 条件4は、n個のマイクロホンによって形成される死角は最大でn-1個であること(空間エリアスや指向特性パターンの対称性に由来する死角を除く)に由来する。1位からn-1位までを選別する方法については、特許文献1(特開2012-150237号公報)等を参照されたい。
 以上で、方向点検出処理の説明を終える。
 次に、図13に示す全体処理フロー中のステップS109の方向点トラッキング処理の詳細について、図18以下に示すフローチャートを参照して説明する。
 図18は、方向点トラッキング処理の全体処理フローである。
  (ステップS501)
 ステップS501は、区間の延長・確定処理である。この処理は、図12を参照して説明した方向点トラッキング部107の詳細構成中の作成中区間バッファ311に格納されている作成中区間に対する処理である。
 図13に示す全体処理フロー中のステップS108の方向点検出処理において新たに検出された方向点を用いて作成中区間の延長や確定を行なう。さらに、確定した区間は後段の処理(音源抽出など)に送信される。詳細は後述する。
 なお、「作成中区間」とは、次のステップS502の新規区間作成処理で生成されてから区間が確定するまでの状態にある区間のことである。
  (ステップS502)
 ステップS502は、新規区間作成処理であり、現在処理中のブロックを始点とする区間を見つけ出すための処理である。この詳細も後述する。
 次に、図18に示す方向点トラッキング処理フロー中のステップS501で実行する区間の延長・確定処理の詳細シーケンスについて、図19に示すフローチャートを参照して説明する。
 この「区間の延長・確定処理」は、図12に示す作成中区間バッファ311に格納されている作成中区間に対する処理である。そのため、ステップS601~S608において作成中区間についてのループを回し、作成中区間1つずつに対して、ステップS602~S607の処理を行なう。
  (ステップS602)
 ステップS602において、作成中区間の付近に方向点が存在しているかを調べる。図12に示す作成中区間である区間情報311n中の平均方向325と、方向点が保持している値とを比較し、両者の差が所定の範囲(例えば±10°以内)に収まっていれば、作成中区間の付近に方向点が存在していると判定する。
 方向点が存在している場合は、ステップS603に進む。
 方向点が存在していない場合は、ステップS605に進む。
  (ステップS603)
 ステップS603~S604は、区間の延長に関する処理である。
 ステップS603において、有効ブロック数(図12に示す区間情報311n中の有効ブロック数324)を+1すると共に、断絶ブロック数(図12に示す区間情報311n中の断絶ブロック数326)に0を代入する。
  (ステップS604)
 ステップS604において、区間の始端から現在化解析中のブロックまでの方向の平均を計算する。具体的には、更新前の平均方向(図12に示す区間情報311n中の平均方向325に保存されている値)をA、有効ブロック数(ステップS603で+1した後の値)をB、方向点の値をCとし、以下の式でAを更新する。
  A←{(B-1)A+C}/B
  (ステップS605~S606)
 ステップS602において付近に方向点が存在しない場合は、ステップS605に進む。この場合、それまで連続していた方向点が断絶したことを表わしており、一定時間以上断絶したら、区間の終端と判別する。
 この処理のため、ステップS605では、断絶ブロック数(図12に示す区間情報311n中の断絶ブロック数326)を+1し、ステップS606において、その値が所定の値(例えば5ブロック)以上かどうかを判定する。
 断絶の長さが所定値以上の場合は区間の終端が確定したと見なし、ステップS607の「区間の出力・棄却」処理に進む。この処理の詳細については後述する。
 一方、断絶の長さが所定値未満の場合は、ステップS607をスキップして、ステップS608に進む。
 ステップS601~S608を全ての作成中区間に対して行なったら、ループを抜け、ステップS609の「多重採用のチェック」処理に進む。
  (ステップS609)
 ステップS609では、1つの方向点が2つ以上の作成中区間に採用されている(多重採用)かどうかを調べ、もし複数の区間に採用されている場合は、その中で最も長い区間のみを残し、それ以外を削除する。あるいは、それら複数の区間をマージすることで新たな一つの区間を生成する。多重採用のチェックを行なう理由やその方法などについては、特許文献1(特開2012-150237号公報)を参照されたい。
 次に、図19のフローのステップS607の「区間の出力・棄却」処理の詳細シーケンスについて、図20に示すフローチャートを参照して説明する。
 なお、「区間の出力」とは、確定した区間を後段の処理(例えば音源抽出処理部)に送ることであり、「区間の棄却」とは、区間が所定の条件を満たさなかったため、その後の処理には利用せず、捨てることである。
  (ステップS701)
 ステップS701において終端ブロック番号を計算し、その値を、図12に示す方向点トラッキング部107の作成中区間バッファ311内の区間情報311n中の終端ブロック番号323に代入する。
 現ブロック番号(図12の現ブロック番号331の値)をB、図19に示すフロー中のステップS606の判定処理における所定値をB_{discontinue}とすると、終端ブロック番号は以下の式で計算される。
 終端ブロック番号=B-B_{discontinue}
 以下のステップS702~S705は、区間が満たすべき諸条件についての判定処理であり、全ての条件を満たした場合のみ、ステップS706に進む。以降では、各条件について説明する。ただし、各条件の判定は順不同である。
  (ステップS702)
 ステップS702は、区間が保持している平均方向(図12に示す区間情報311n中の平均方向325)が所定の範囲にあるかどうかの判定である。例えば、音声認識を用いたシステムにおいてユーザはその正面付近(0°付近)からのみ発話すると分かっている場合、受理する目的音の方向を例えば-5°~+5°に制限し、区間の方向がその範囲を外れていたら区間を棄却する。一方、目的の音源があらゆる方向に存在し得るような用途では、この判定は行なわない。
  (ステップS703)
 ステップS703は、区間の長さについての判定である。所定の値よりも短い区間(例えば0.1秒よりも短い)を棄却することで、区間の誤検出を抑圧することができる。また、所定の値(例えば30秒)より長い区間を棄却することで、後段処理が扱えないような長い区間が検出されるのを防ぐ。
 なお、従来技術の問題点で説明したように、例えば特許文献1(特開2012-150237号公報)においては、鳴りっぱなしの妨害音が音声区間として検出されるのを防ぐ目的で区間長に上限を設定していたが、本開示においては、「音声らしさ」に基づいた動的閾値の効果により、鳴りっぱなしの妨害音はやがて検出されなくなる。従って、区間の長さの上限は、後段処理の都合によって決定すればよい。
  (ステップS704)
 ステップS704は、「音声らしい」ブロックの割合についての判定である。区間を構成するブロックのうち、「音声らしい」と判定されたブロックの個数を数え、区間のブロック数(終端ブロック番号と始端ブロック番号との差分+1)に対する割合が所定の値(例えば0.5)を下回っていたら区間を棄却する。「音声らしい」ブロックの個数については、始端ブロック番号(図12に示す区間情報311n中の始端ブロック番号322)、終端ブロック番号(図12に示す区間情報311n中の終端ブロック番号323)をそれぞれフレーム番号に変換した上で、観測信号バッファ(図9に示す観測信号バッファ104)に問い合わせることで取得できる。
  (ステップS705)
 ステップS705は、区間の中で有効ブロック(方向点を持つブロック)の割合についての判定である。
 区間の始端ブロック番号(図12に示す区間情報311n中の始端ブロック番号322)をB_{begin}、
 終端ブロック番号(図12に示す区間情報311n中の終端ブロック番号323)をB_{end}、
 有効ブロック数(図12に示す区間情報311n中の有効ブロック数324)をB_{valid}とすると、
 有効ブロックの割合は以下の式で計算される。
 有効ブロックの割合=B_{valid}/(B_{end}-B_{begin}+1)
 この値が所定の値(例えば0.5)以上かどうかを判定する。有効ブロックの割合が低い場合、その区間は、誤検出された方向点を飛び飛びに接続して生成されたものである可能性が高い。そのような区間を棄却することで、区間の誤検出が抑制される。
  (ステップS706)
 ステップS702~S705の判定を全て満たした場合は、ステップS706の「出力」に進む。ここでは、区間が作成中区間バッファ(図12に示す作成中区間バッファ311)から取り除かれると共に、音声認識部等の後段処理部に送られる。
  (ステップS711)
 ステップS702~S705の判定処理において、1つでも満たさない判定された場合は、ステップS711の「棄却」に進む。ここでは、区間が作成中区間バッファ(図12に示す作成中区間バッファ311)から取り除かれるだけであり、後段処理部に対する出力は行なわれない。
 次に、図18に示す方向点トラッキング処理フロー中のステップS502で実行する新規区間作成処理の詳細シーケンスについて、図21に示すフローチャートを参照して説明する。
 図21に示すフローにおいて、ステップS801~S804の処理は、方向点についてのループであり、図13の全体処理フロー中のステップS108で検出された方向点のそれぞれについて、ステップS801~S804の処理を行なう。
  (ステップS802)
 ステップS802において、処理対象としている方向点の付近に作成中区間が存在するかどうかを調べる。この判定処理は、
図19のフローのステップS602の判定処理と同様の処理である。付近に作成中区間が存在しない場合、その方向点は区間の始点として扱われ、ステップS803の「区間作成」に進む。付近に作成中区間が存在する場合は、ステップS803の処理をスキップする。
  (ステップS803)
 ステップS803では、先に図12を参照して説明した区間情報311a~311nを生成する。すなわち、区間ID321、始端ブロック番号322、終端ブロック番号323、有効ブロック数324、平均方向325、断絶ブロック数326の各スロットに所定の値をそれぞれ代入することで、新たな区間情報を生成する。
 以下では、各スロットに代入する値について説明する。
 区間ID321には、区間が生成されるたびに+1させた値を代入する。すなわち、最初に生成された区間には区間ID=1を代入し、その後の区間に対しては2,3,・・・という値を代入していく。
 始端ブロック番号322には、現ブロック番号331を代入する。
 終端ブロック番号323に対しては、この時点では終端が検出されていないため、未定義を表わす値を代入しておく。あるいは、現ブロック番号331を代入してもよい。
 平均方向325には、方向点が保持している方向を代入する。
 断絶ブロック数326には0を、有効ブロック数324には1を代入する。
 ブロック内の全ての方向点に対してステップS802~S803を実行したら、新規区間作成の処理は終了である。
 以上で処理の説明を終わる。
  [6.本開示の音信号処理装置の実行する処理による効果について]
 本開示の処理では、音源方向推定に基づく音声区間検出において以下の工夫を行なっている。
 (1)指向特性パターンを周波数ビン間で平均し、さらにそれらを指向性型・死角型・中立型に分類し、指向性型および死角型に分類された指向特性パターンをそれぞれ平均することで、指向性パターンおよび死角パターンを生成する。
 (2)死角パターンの閾値は、入力信号が「音声らしい」と判定されたタイミングでのみ更新する。具体的には、「音声らしい」と判定されたブロックの間で死角パターンの平均を計算し、その平均死角パターンよりも少しだけ低い高さに閾値をセットする。
 上記(1)によって、例えば特許文献1(特開2012-150237号公報)等に記載された従来法よりも多くの指向特性パターンの間で平均操作が行なわれるようになり、生成される指向性パターンおよび死角パターンは従来よりも凹凸が減った滑らかなものとなる。その結果、死角パターンの凹と指向性パターンの凸とがたまたま近接したために偽の方向点として検出されてそれが区間の誤検出の原因となる問題は、発生頻度が減少する。
 また、上記(2)によって、死角パターンの閾値が動的かつ適切に設定されるようになるため、静的な閾値では解決困難であった問題が解決する。
 特に、妨害音が鳴りっぱなしの状況や全マイクロホンで同位相のノイズが混入する場合などでは、従来法では死角パターン上に偽の谷が形成され、そこから方向点が検出されることにより、発話と対応しない偽の音声区間が検出されたり、それを棄却しようとすると、偽の谷と同じ方向からの音声発話が検出されなったりするといった問題が発生していた。
 それに対し本開示の処理では、閾値の動的な更新により、偽の谷よりも少し深い位置に閾値が適切に設定されるため、発話がないときは偽の谷の方向の区間を検出することがない一方で、偽の谷の方向から発話があるとその方向の区間を適切に検出することもできるようになる。
 また、動的閾値の別の利点として、非音声の音源が音声区間として検出されるのを容易に抑止できることが挙げられる。従来、音源方向推定に基づく音声区間検出は、その原理上、同一方向から鳴りつづけている音源であれば非音声であっても音声区間として検出してしまうという課題があったため、方向や区間長に制約を設けて非音声の区間を棄却したり、その区間に対して後段の処理である音源抽出や音声認識などを行なってから音声認識のスコアや信頼度に基づいて棄却したりするといったことが行なわれてきた。
 しかし、方向や区間長に制約を設ける方法には、本当の音声発話であっても棄却される可能性があるという副作用があり、もう一方の、音声認識のスコアや信頼度を用いる方法には、計算量の増加や誤判定や認識結果生成までの待ち時間の増大という課題があった。
それに対して本開示では、閾値の動的な更新により、鳴りっぱなしの非音声の音源については、それが形成する谷よりも深い位置に閾値が設定されるようになるため、起動直後や妨害音鳴り始め直後を除き、その方向の区間は検出されなくなる。従って、前述の副作用も計算量増加も待ち時間の増大も回避することができる。
以上により、本開示によって音声区間検出の精度が向上する。それに伴い、音声区間検出を備えたシステム、特に音声認識を備えたシステムの有用性が向上する。
  [7.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
 前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
 前記方向点検出部は、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
 前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
 前記方向点検出実行部は、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置。
 (2)前記方向点検出部は、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、前記方向点検出実行部は、前記死角パターンの極小点と、前記指向性パターンの極大点の組み合わせを有する方向を音源方向として検出する前記(1)に記載の音信号処理装置。
 (3)前記音信号処理装置は、異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換(STFT)を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する前記(1)または(2)に記載の音信号処理装置。
 (4)前記方向点検出部は、前記複数の指向特性パターンを、
 (a)音源方向に対する感度が相対的に高いという指向特性を表わしている指向性型、
 (b)音源方向に対する感度が相対的に低いという指向特性を表わしている死角型、
 (c)上記(a),(b)のいずれにも属さない中立型、
 上記(a)~(c)の3種類に分類する指向特性パターン分類部と、
 前記指向性型に分類されたパターンを適用して、音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、
 前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部を有する前記(3)に記載の音信号処理装置。
 (5)前記指向特性パターン分類部は、前記指向特性パターンの分類処理に際して、指向性型に属する指向特性パターンから計算される代表指向性パターンと、死角型に属する指向特性パターンから計算される代表死角パターンと、をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する前記(4)に記載の音信号処理装置。
 (6)指向特性パターン分類部は、前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、前記代表死角パターンを、死角型に属するパターンの総和として算出する前記(5)に記載の音信号処理装置。
 (7)前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である前記(5)または(6)に記載の音信号処理装置。
 (8)前記指向性パターン生成部は、前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、前記死角パターン生成部は、前記死角型に分類されたパターンの平均を死角パターンとして生成する前記(4)~(6)いずれかに記載の音信号処理装置。
 (9)前記方向点検出部は、時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して、複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、前記複数の指向特性パターンの生成処理において、各周波数帯域における各方向のゲインの2乗を算出し、複数の周波数帯域間で2乗ゲインを平均または総和して平均2乗ゲインまたは総和2乗ゲインを算出し、平均2乗ゲインまたは総和2乗ゲインの対数化処理、および最大値を0に調整する処理を行なって前記複数の指向特性パターンを生成する前記(3)~(8)いずれかに記載の音信号処理装置。
 (10)前記動的閾値計算部は、前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する前記(9)に記載の音信号処理装置。
 (11)前記音信号処理装置は、入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する全期(1)~(10)いずれかに記載の音信号処理装置。
 (12)前記死角パターン平均部は、前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う前記(11)に記載の音信号処理装置。
 (13) 音信号処理装置において実行する音信号処理方法であり、
 方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
 方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
 前記方向点検出ステップは、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
 前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行し、
 前記方向点検出処理は、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法。
 (14) 音信号処理装置において音信号処理を実行させるプログラムであり、
 方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
 方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
 前記方向点検出ステップにおいては、
 方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
 前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
 音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
 前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行させ、
 前記方向点検出処理において、
 前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
 具体的には、音信号の音源方向を示す方向点を時間方向に接続し、音声区間を検出する構成において、音源方向に対する指向特性に応じたパターン分類を行い、分類結果から指向性パターン、死角パターンを生成する。また、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する。さらに、死角パターンからの音源方向対応の極小点検出に適用する閾値として、平均死角パターンよりやや低い値に設定された閾値を算出し、閾値以下の極小点を、音源方向対応点と判定する。
 上記構成により、複数の音が混在した音信号から高精度に音声区間を判定する装置、方法が実現される。
  11 ブロック
  12 方向点
  15,16 音声区間
  21 重心
  22 マイクマロホン
  25,26 音源
  31 死角パターン
  32 指向性パターン
  41 死角パターン
  51,52 方向点
  53,54,55,57 区間
  71 死角パターン
  72 閾値
  73 死角パターン
  81 死角パターン
  84 死角パターン
 101 マイクロホンアレイ
 102 AD変換部
 103 STFT部
 104 観測信号バッファ
 105 方向点検出部
 106 音声らしさ判定部
 107 方向点トラッキング部
 108 音源抽出部
 109 後段処理部
 151 観測信号バッファ
 152 共分散行列計算部
 153 共分散行列格納部
 154 固有ベクトル計算部
 155 固有ベクトル格納部
 156 ステアリングベクトル格納部
 157 指向特性パターン生成部
 158 指向特性パターン格納部
 159 指向特性パターン分類部
 160 指向性型格納部
 161 中立型格納部
 162 死角型格納部
 163 指向性パターン&死角パターン格納部
 164 分類行列バッファ
 165 指向性パターン格納部
 166 死角パターン格納部
 167 音声らしさ判定部
 168 死角パターン平均部
 169 平均死角パターン格納部
 170 動的閾値計算部
 171 動的閾値格納部
 172 方向点検出部
 173 方向点バッファ
 251 方向ベクトル
 252 基準点
 253,254 マイクロホン
 311 作成中区間バッファ
 321 区間ID
 322 始端ブロック番号
 323 終端ブロック番号
 324 有効ブロック数
 325 平均方向
 326 断絶ブロック数
 331 現ブロック番号
 332 方向点バッファ
 401~403 フレーム

Claims (14)

  1.  音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出部と、
     前記方向点を複数ブロック間で接続して音が発生している区間の検出を行う方向点トラッキング部を有し、
     前記方向点検出部は、
     方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部と、
     前記死角パターンの極小点を音源方向として検出する方向点検出実行部と、
     音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均部と、
     前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算部を有し、
     前記方向点検出実行部は、
     前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理装置。
  2.  前記方向点検出部は、
     音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部を有し、
     前記方向点検出実行部は、
     前記死角パターンの極小点と、前記指向性パターンの極大点の組み合わせを有する方向を音源方向として検出する請求項1に記載の音信号処理装置。
  3.  前記音信号処理装置は、
     異なる位置に配置した複数のマイクロホンが取得した観測信号に対して短時間フーリエ変換(STFT)を適用して時間周波数領域の観測信号へと変換する短時間フーリエ変換部を有し、
     前記方向点検出部は、
     時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して、複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する請求項1に記載の音信号処理装置。
  4.  前記方向点検出部は、
     前記複数の指向特性パターンを、
     (a)音源方向に対する感度が相対的に高いという指向特性を表わしている指向性型、
     (b)音源方向に対する感度が相対的に低いという指向特性を表わしている死角型、
     (c)上記(a),(b)のいずれにも属さない中立型、
     上記(a)~(c)の3種類に分類する指向特性パターン分類部と、
     前記指向性型に分類されたパターンを適用して音源方向に対する感度が相対的に高いという指向特性を表わしている指向性パターンを生成する指向性パターン生成部と、
     前記死角型に分類されたパターンを適用して、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成部を有する請求項3に記載の音信号処理装置。
  5.  前記指向特性パターン分類部は、
     前記指向特性パターンの分類処理に際して、
     指向性型に属する指向特性パターンから計算される代表指向性パターンと、
     死角型に属する指向特性パターンから計算される代表死角パターンと、
     をそれぞれ算出し、算出した代表指向性パターンと代表死角パターンとの間の距離尺度を最大にする分類処理を実行する請求項4に記載の音信号処理装置。
  6.  指向特性パターン分類部は、
     前記代表指向性パターンを、指向性型に属するパターンの総和として算出し、
     前記代表死角パターンを、死角型に属するパターンの総和として算出する請求項5に記載の音信号処理装置。
  7.  前記距離尺度は、代表指向性パターンと代表死角パターンとの間のユークリッド距離である請求項5に記載の音信号処理装置。
  8.  前記指向性パターン生成部は、
     前記指向性型に分類されたパターンの平均を指向性パターンとして生成し、
     前記死角パターン生成部は、
     前記死角型に分類されたパターンの平均を死角パターンとして生成する請求項4に記載の音信号処理装置。
  9.  前記方向点検出部は、
     時間周波数領域の観測信号から共分散行列を計算し、共分散行列に対して固有値分解を適用して複数の固有ベクトルを算出し、算出した複数の固有ベクトルに対して、各方向に対応したステアリングベクトルを作用させて、方向と感度との関係を表わす複数の指向特性パターンを生成する構成であり、
     前記複数の指向特性パターンの生成処理において、
     各周波数帯域における各方向のゲインの2乗を算出し、複数の周波数帯域間で2乗ゲインを平均または総和して平均2乗ゲインまたは総和2乗ゲインを算出し、平均2乗ゲインまたは総和2乗ゲインの対数化処理、および最大値を0に調整する処理を行なって前記複数の指向特性パターンを生成する請求項3に記載の音信号処理装置。
  10.  前記動的閾値計算部は、
     前記平均死角パターンに対して正の定数倍または正の定数の減算の少なくともいずれかの演算処理を行なうことで、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する請求項9に記載の音信号処理装置。
  11.  前記音信号処理装置は、
     入力音信号の周期性に基づいて、入力音信号が音声らしいか否かを判定する音声らしさ判定部を有し、
     前記死角パターン平均部は、前記音声らしさ判定部の判定結果に基づいて、音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する請求項1に記載の音信号処理装置。
  12.  前記死角パターン平均部は、
     前記音声らしさ判定部が音声らしくないと判定した時刻における死角パターンと、その時点で既に計算されていた平均死角パターンとの間で忘却係数を用いた重みつき平均により、平均死角パターンの更新を行う請求項11に記載の音信号処理装置。
  13.  音信号処理装置において実行する音信号処理方法であり、
     方向点検出部が、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出する方向点検出ステップと、
     方向トラッキング部が、前記方向点を複数ブロック間で接続して区間の検出を行う方向トラッキングステップを実行し、
     前記方向点検出ステップは、
     方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
     前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
     音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
     前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低いに設定された動的閾値を算出する動的閾値計算処理を実行し、
     前記方向点検出処理は、
     前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出する音信号処理方法。
  14.  音信号処理装置において音信号処理を実行させるプログラムであり、
     方向点検出部に、音信号の音源方向を示す方向点を所定時間単位で分割したブロック毎に検出させる方向点検出ステップと、
     方向トラッキング部に、前記方向点を複数ブロック間で接続して区間の検出を行わせる方向トラッキングステップを実行させ、
     前記方向点検出ステップにおいては、
     方向と感度との対応関係のプロットであり、音源方向に対する感度が相対的に低いという指向特性を表わしている死角パターンを生成する死角パターン生成処理と、
     前記死角パターンの極小点を音源方向として検出する方向点検出処理と、
     音声らしくない信号の入力タイミングにおける複数の死角パターンの平均である平均死角パターンを算出する死角パターン平均処理と、
     前記死角パターンから音源方向対応の極小点検出に適用する閾値として、前記平均死角パターンよりやや低い値に設定された動的閾値を算出する動的閾値計算処理を実行させ、
     前記方向点検出処理において、
     前記死角パターンから前記動的閾値以下の極小点を選択し、選択した極小点に対応する方向を音源方向として検出させるプログラム。
PCT/JP2015/052124 2014-02-20 2015-01-27 音信号処理装置、および音信号処理方法、並びにプログラム WO2015125567A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/118,239 US10013998B2 (en) 2014-02-20 2015-01-27 Sound signal processing device and sound signal processing method
EP15752747.4A EP3109855B1 (en) 2014-02-20 2015-01-27 Sound signal processing device, sound signal processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-031044 2014-02-20
JP2014031044A JP2015155975A (ja) 2014-02-20 2014-02-20 音信号処理装置、および音信号処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2015125567A1 true WO2015125567A1 (ja) 2015-08-27

Family

ID=53878081

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/052124 WO2015125567A1 (ja) 2014-02-20 2015-01-27 音信号処理装置、および音信号処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US10013998B2 (ja)
EP (1) EP3109855B1 (ja)
JP (1) JP2015155975A (ja)
WO (1) WO2015125567A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
KR102236471B1 (ko) * 2018-01-26 2021-04-05 서강대학교 산학협력단 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
TWI682385B (zh) * 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
JP7222277B2 (ja) * 2019-03-13 2023-02-15 日本電信電話株式会社 雑音抑圧装置、その方法、およびプログラム
WO2021226515A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11410652B2 (en) 2020-07-06 2022-08-09 Tencent America LLC Multi-look enhancement modeling and application for keyword spotting
CN115602195B (zh) * 2022-12-12 2023-04-04 杭州兆华电子股份有限公司 一种汽车后视镜电机转动异响测试的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011107602A (ja) * 2009-11-20 2011-06-02 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2012215606A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音源分離装置、プログラム及び方法
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613310B2 (en) * 2003-08-27 2009-11-03 Sony Computer Entertainment Inc. Audio input system
JP5229053B2 (ja) * 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
US8583428B2 (en) * 2010-06-15 2013-11-12 Microsoft Corporation Sound source separation using spatial filtering and regularization phases
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
JP2012234150A (ja) * 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2014145838A (ja) * 2013-01-28 2014-08-14 Honda Motor Co Ltd 音響処理装置及び音響処理方法
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2011107602A (ja) * 2009-11-20 2011-06-02 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2012215606A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音源分離装置、プログラム及び方法
JP2013126026A (ja) * 2011-12-13 2013-06-24 Oki Electric Ind Co Ltd 非目的音抑制装置、非目的音抑制方法及び非目的音抑制プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3109855A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备

Also Published As

Publication number Publication date
EP3109855A4 (en) 2017-08-02
US10013998B2 (en) 2018-07-03
EP3109855B1 (en) 2018-11-21
JP2015155975A (ja) 2015-08-27
US20170047079A1 (en) 2017-02-16
EP3109855A1 (en) 2016-12-28

Similar Documents

Publication Publication Date Title
WO2015125567A1 (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
CN107221325B (zh) 有向性关键字验证方法以及使用该方法的电子装置
EP3387648B1 (en) Localization algorithm for sound sources with known statistics
JP2012150237A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
US20150088497A1 (en) Speech processing apparatus, speech processing method, and speech processing program
JP6253226B2 (ja) 音源分離装置
JP3925734B2 (ja) 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
Mirsamadi et al. A generalized nonnegative tensor factorization approach for distant speech recognition with distributed microphones
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
Himawan et al. Microphone array beamforming approach to blind speech separation
Araki et al. Speaker indexing and speech enhancement in real meetings/conversations
Lee et al. Deep neural network-based speech separation combining with MVDR beamformer for automatic speech recognition system
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
Asaei et al. Verified speaker localization utilizing voicing level in split-bands
Kindt et al. Improved separation of closely-spaced speakers by exploiting auxiliary direction of arrival information within a u-net architecture
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments
Takada et al. Sound source separation using null-beamforming and spectral subtraction for mobile devices
Lee et al. Space-time voice activity detection
Kolossa Independent component analysis for environmentally robust speech recognition
Graf Design of Scenario-specific Features for Voice Activity Detection and Evaluation for Different Speech Enhancement Applications
Nemer et al. A dual-microphone subband-based Voice Activity Detector using higher-order cumulants
Cao et al. Beamforming and lightweight GRU neural networkcombination model for multi-channel speech enhancement
Francois et al. Dual-microphone robust front-end for arm’s-length speech recognition
Nayak Multi-channel Enhancement and Diarization for Distant Speech Recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15752747

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015752747

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015752747

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15118239

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE