WO2019220532A1 - パターン認識装置、パターン認識方法及びパターン認識プログラム - Google Patents

パターン認識装置、パターン認識方法及びパターン認識プログラム Download PDF

Info

Publication number
WO2019220532A1
WO2019220532A1 PCT/JP2018/018740 JP2018018740W WO2019220532A1 WO 2019220532 A1 WO2019220532 A1 WO 2019220532A1 JP 2018018740 W JP2018018740 W JP 2018018740W WO 2019220532 A1 WO2019220532 A1 WO 2019220532A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern recognition
transmission path
unit
model
input signal
Prior art date
Application number
PCT/JP2018/018740
Other languages
English (en)
French (fr)
Inventor
達也 小松
玲史 近藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/054,646 priority Critical patent/US11620985B2/en
Priority to PCT/JP2018/018740 priority patent/WO2019220532A1/ja
Priority to JP2020518850A priority patent/JP7211419B2/ja
Publication of WO2019220532A1 publication Critical patent/WO2019220532A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Definitions

  • the present invention relates to a pattern recognition device, a pattern recognition method, and a pattern recognition program.
  • Non-Patent Document 1 describes a pattern recognition device for classifying received sound signals into a plurality of predefined sound event patterns and a learning method for the recognizer.
  • Patent Document 1 discloses an acoustic identification device that can accurately identify the type of acoustic signal.
  • the acoustic signal analysis unit 200 of this acoustic identification device extracts a feature amount based on the time characteristics of the frequency spectrum of the audio component and the music component in the acoustic signal from the signal line 101.
  • the acoustic signal analysis unit 200 generates a frequency spectrum of the acoustic signal in time series, and calculates a difference value for each frequency in the frequency spectrum generated in the time series. Then, the acoustic signal analysis unit 200 extracts a variance indicating the degree of bias of the frequency distribution based on the calculated difference value as a feature amount of the acoustic signal.
  • the acoustic signal identifying unit 110 identifies whether the type of the acoustic signal is music, superposition of music and speech, or speech based on the feature amount. Finally, the acoustic signal identifying unit 110 identifies whether or not the type of the acoustic signal is music with reference to a music threshold value that is smaller than a feature amount corresponding to the acoustic signal on which the audio component and the music component are superimposed.
  • Patent Document 2 learns a highly durable recognition model suitable for use in a pattern recognition apparatus that performs pattern recognition in an environment including various noises, and improves the pattern recognition rate in the pattern recognition apparatus.
  • a recognition model learning device that can be used is disclosed.
  • the pattern recognition model storage unit 606 of this recognition model learning apparatus stores a pattern recognition model used for pattern recognition processing in the pattern recognition apparatus. Then, learning information is input from the information input unit 602, and the information feature amount calculation unit 603 calculates the feature amount of the information.
  • the parameter is changed by the parameter changing unit 604, and the pattern recognition model learning unit 605 learns the pattern recognition model using the feature amount calculated by the changed parameter.
  • Non-Patent Document 1 the frequency characteristics of the signal obtained at the reception point may change greatly depending on the transmission path from the sound source to the reception point, and there is a problem that the pattern recognition performance deteriorates. This is also the case with Patent Documents 1 and 2, and no consideration is given to the fact that the frequency characteristics of the signal obtained at the reception point are greatly changed by the transmission path from the sound source to the sound reception point.
  • the frequency characteristic of the signal obtained at the receiving point greatly changes depending on the transmission path from the sound source to the sound receiving point, not limited to the acoustic signal, but propagates through the space, such as the time series vibration signal obtained from the vibration sensor, Common to signals whose characteristics change depending on the transmission path.
  • a model storage unit that stores a model created using transmission path information indicating a difference in transmission path of the learning signal, and using the model
  • a pattern recognition device including a pattern recognition unit that receives an input signal and transmission path information indicating a difference in transmission path of the input signal, and performs pattern recognition of the input signal.
  • a computer including a model storage unit that stores a model created using transmission path information indicating a difference in the transmission path of the learning signal includes: A step of inputting transmission path information indicating a difference in the transmission path of the input signal; and pattern recognition for performing pattern recognition of the input signal using the input signal and the transmission path information as an input using the model.
  • a pattern recognition method is provided. This method is linked to a specific machine called a computer that performs pattern recognition using a model created using a learning signal.
  • a program for realizing the above-described computer functions is provided.
  • This program can be recorded on a computer-readable (non-transitory) storage medium. That is, the present invention can be embodied as a computer program product.
  • the 8th Embodiment of this invention it is a figure explaining the path
  • connection lines between blocks such as drawings referred to in the following description include both bidirectional and unidirectional directions.
  • the unidirectional arrow schematically shows the main signal (data) flow and does not exclude bidirectionality.
  • ports and interfaces at input / output connection points of each block in the figure they are not shown.
  • the present invention can be realized by a pattern recognition apparatus 900 including a model storage unit 901 and a pattern recognition unit 902 that performs pattern recognition using the model.
  • the model storage unit 901 stores, in addition to the learning signal, a model created using transmission path information indicating a difference in the transmission path of the learning signal.
  • the pattern recognition unit 902 performs input signal pattern recognition using the model as an input with the input signal and transfer path information indicating a difference in the transfer path of the input signal.
  • pattern recognition is performed in consideration of transmission path information indicating a difference in the transmission path of the input signal. This makes it possible to perform pattern recognition with higher accuracy and robustness to the influence of the signal transmission path.
  • s (t) and x (t) are digital signal sequences obtained by AD conversion (Analog to Digital Conversion) of analog acoustic signals recorded by an acoustic sensor such as a microphone.
  • the sound source signal s (t) propagates as a sound wave in the air, a solid such as a wall or a building, or a liquid such as water or oil, reaches the sound receiving point, and is observed as an acoustic signal x (t). .
  • the sound wave propagates through the medium while causing reflection, diffraction, transmission, and the like due to the influence of the boundary between the media and the height difference of the acoustic impedance.
  • a transmission path propagation path
  • s (t) and x (t) can be expressed as the following [Equation 1] using a certain function f (•) as a transfer path.
  • the function f ( ⁇ ) is generally approximated by a time-invariant FIR filter, that is, using a FIR filter h (t) having a filter length T, The right side can be expressed as a convolution of h (t) and s (t) as in [Equation 2].
  • the frequency characteristic change of the sound source signal due to the transmission path can be expressed as a frequency response of h (t).
  • the filter h (t) is regarded as a vector characterizing the transfer path and used as the transfer path feature vector h.
  • the sound source signal s (t) is generally unknown, and only the observation signal x (t) at the sound receiving point is often obtained. In that case, a method of performing linear prediction analysis on x (t) or the like is used.
  • the present invention does not limit the estimation method of h, and any estimation method may be used.
  • FIG. 2 a configuration for creating a pattern recognition model from a learning signal including a transmission path identification unit 102, a model learning unit 103, and a model storage unit 104, and a pattern for pattern recognition using this model
  • a configuration including the recognition device 100 is shown.
  • a configuration for creating a pattern recognition model from a learning signal including the transmission path identification unit 102, the model learning unit 103, and the model storage unit 104 is also referred to as a “learning unit”.
  • the pattern recognition device 100 includes a transmission path identification unit 112, a model switching unit 113, a pattern recognition unit 114, and a model storage unit 104.
  • the learning signal 101 is an acoustic signal for creating a model for pattern recognition at the subsequent stage.
  • the learning signal 101 can be expressed as x_train (t, n).
  • t is an index representing time
  • n is a label representing x_train (t, n) representing the type of the acoustic signal.
  • n ⁇ speech, music ⁇ .
  • the subscript x in the mathematical expression is denoted as “_x”.
  • the transmission path identifying method in the transmission path identifying unit 102 will be described in detail later.
  • the model learning unit 103 creates a model P for pattern recognition using the transmission path label c in addition to the learning signal x_train (t, n).
  • the model P is created so as to output the type of the learning signal x_train (t, n). That is, in the above example, “speech” is determined according to the type of the learning signal x_train (t, n).
  • a model for identifying “music” is created.
  • a supervised learning signal using an acoustic signal of either “voice” or “music” may be used.
  • the model storage unit 104 stores the model P created by the model learning unit 103.
  • the above is the configuration of the learning unit for creating the model of FIG.
  • the received sound signal 111 is input to the transmission path identification unit 112 and the pattern recognition unit 114.
  • the sound reception signal 111 is represented as x (t).
  • the transmission path identification unit 112 calculates the transmission path label d of the received sound signal x (t) and outputs it to the model switching unit 113. Note that the transmission path identification unit 112 has the same configuration as the transmission path identification unit 102.
  • the pattern recognition unit 114 performs pattern recognition on the received sound signal x (t) using the model P_d output from the model switching unit 113 and outputs the result.
  • the pattern recognition unit 114 since pattern recognition for identifying an input acoustic signal as “speech” and “music” is performed, the pattern recognition unit 114 performs output such as “speech”, “music”, and indistinguishability.
  • FIG. 3 is a diagram illustrating a configuration example of the transmission path identification unit 102/112 of the pattern recognition apparatus 100 according to the first embodiment of the present invention.
  • FIG. 3 there is shown a configuration of a transmission path identification unit 102/112 including a transmission path feature extraction unit 002, a path identification model storage unit 003, and a path identification unit 004.
  • the transmission path feature extraction unit 002 receives the received sound signal 001 as input and calculates and outputs a transmission path characteristic.
  • the path identification unit 004 identifies a transmission path based on the path identification model stored in the path identification model storage unit 003 based on the transmission path feature output by the transmission path feature extraction unit 002.
  • the lower part of FIG. 3 shows the configuration of the identification model learning unit 010 that creates the path identification model.
  • the transmission path feature extraction unit 002 receives the path learning signal and its label set 011, that is, a supervised learning signal, and calculates and outputs the characteristics of the transmission path.
  • the path identification model learning unit 013 learns a path identification model based on the transmission path feature output from the transmission path feature extraction unit 012.
  • the operation of the transmission path identification unit 102/112 and the identification model learning unit 010 is as follows. First, a set 011 of a path learning signal and its label c is input to the transfer path feature extraction unit 012. A set of this path learning signal and its label c can be expressed as y_train (t, c).
  • the label c is a label for identifying the transmission path of y_train (t, c).
  • a set y_train (t, wood) of the path learning signal and its label c is a sound reception signal when the transmission path is wood.
  • the transmission path feature calculated from the path learning signal and the set y_train (t, wood) of the label c represents the feature of the wood transmission path.
  • the transmission path feature extraction unit 012 calculates h_train (c) from the y_train (t, c) and outputs it to the path identification model learning unit 013.
  • This h_train (c) is the above-described transmission path feature vector.
  • the path identification model learning unit 013 receives the transmission path feature vector h_train (c) as input and creates a transmission path identification model M.
  • This identification model M functions as a multi-class classifier having a transfer path feature vector as an input and a label c as an output.
  • an arbitrary model such as a mixed Gaussian distribution, a support vector machine, or a neural network can be used.
  • Each unit of the transmission path identification unit 102/112 operates as follows.
  • the received sound signal 001 is input to the transmission path feature extraction unit 002.
  • the received sound signal is denoted as x (t).
  • the transmission path feature extraction unit 002 calculates a transmission path feature vector h from the sound reception signal x (t), and outputs it to the path identification unit 004.
  • the path identification unit 004 identifies the transmission path based on the path identification model stored in the path identification model storage unit 003, and outputs the identification result of the transmission path. This identification result is the aforementioned transmission path label d.
  • the pattern recognition apparatus 100 identifies a transmission path of an acoustic signal and switches a model used for pattern recognition. Therefore, robust pattern recognition is possible even in an environment where different transmission paths are included. That is, it is robust against the influence of the transmission path, and can realize pattern recognition accuracy with higher accuracy.
  • the pattern recognition device 100 has been described as not including the transmission path identification unit 102 and the model learning unit 103.
  • the pattern recognition device 100 includes the transmission path identification unit 102 and the model learning unit 103. May be provided. By adopting such a configuration, it is possible to further learn the detection result of the pattern recognition apparatus 100 as learning data and update the model.
  • FIG. 4 is a diagram showing the configuration of the pattern recognition apparatus according to the second embodiment of the present invention.
  • a configuration for creating a pattern recognition model from a learning signal including a transfer path feature extraction unit 202, a model learning unit 203, and a model storage unit 204, and pattern recognition is performed using this model.
  • a configuration including the pattern recognition device 200 (see the broken line) is shown.
  • a configuration for creating a pattern recognition model from a learning signal including the transmission path feature extraction unit 202, the model learning unit 203, and the model storage unit 204 is also referred to as a “learning unit”.
  • the pattern recognition apparatus 200 includes a transmission path feature extraction unit 212, a pattern recognition unit 213, and a model storage unit 204.
  • the learning signal 201 is an acoustic signal for creating a model for pattern recognition, and is input to the transmission path feature extraction unit 202 and the model learning unit 203, respectively.
  • the learning signal 101 can be expressed as x_train (t, n).
  • the transfer path feature extraction unit 202 calculates a transfer path feature vector h_train of the learning signal x_train (t, n) and outputs it to the model learning unit 203.
  • the model learning unit 203 creates a model P for pattern recognition using h_train in addition to the learning signal x_train (t, n).
  • model learning unit 203 uses not only x_train (t, n) but also the transfer path feature vector h_train as a feature quantity for creating a model for pattern recognition, information on the transfer path of x_train (t, n) is also included. A model that takes into account can be created.
  • the model storage unit 204 creates the model P created by the model learning unit 203.
  • the model P using h_train in the second embodiment can be created as follows.
  • the transfer path feature vector h_train is considered by creating a model P using the connected vector [g, h] as a new feature vector for the feature vector g obtained from the learning signal x_train (t, n).
  • Model can be created.
  • the model P may be created using the transfer path feature vector h_train as a prior distribution of the learning signal x_train or a conditional distribution parameter.
  • the received sound signal 211 is input to the transmission path feature extraction unit 212 and the pattern recognition unit 213, respectively.
  • the sound reception signal 211 is also referred to as x (t).
  • the transmission path feature extraction unit 212 calculates the transmission path feature vector h of the transmission path feature extraction unit x (t) and outputs it to the pattern recognition unit 213.
  • the pattern recognition unit 213 receives the sound reception signal x (t) and the transmission path feature vector h, performs pattern recognition on x (t), and outputs the result.
  • a pattern recognition model is created by using a transmission path feature vector of an acoustic signal as an auxiliary feature quantity. Therefore, robust pattern recognition is possible even in an environment where different transmission paths are included. That is, it is robust against the influence of the transmission path, and can realize pattern recognition accuracy with higher accuracy.
  • FIG. 5 is a diagram showing a configuration of a pattern recognition apparatus according to the third embodiment of the present invention.
  • a pattern recognition apparatus 300 including a model storage unit 303, a transmission path feature extraction unit 302, a model correction unit 304, and a pattern recognition unit 305 that performs pattern recognition using a corrected model. It is shown.
  • the configuration corresponding to the learning unit in the first and second embodiments is omitted, but a model learning unit that creates a model to be stored in the model storage unit 303 by using a learning signal as an input. It may be provided.
  • the sound reception signal 301 is input to the transmission path feature extraction unit 302 and the pattern recognition unit 305.
  • the sound reception signal 301 is also referred to as x (t).
  • the transmission path feature extraction unit 302 calculates a transmission path feature vector h of the received sound signal x (t) and inputs it to the model correction unit 304.
  • the model correction unit 304 corrects the model P stored in the model storage unit 303 based on the transfer path feature vector h, and outputs a corrected model P_new.
  • the transmission path feature vector h is a feature that represents a change in frequency characteristics of a signal due to the transmission path.
  • the model correction unit 304 corrects the model P by the amount of the deviation.
  • the principle will be described by taking as an example the case where the acoustic feature quantity related to x (t) used in the model P is a frequency spectrum.
  • the pattern recognition unit 305 receives the received sound signal x (t), performs pattern recognition on x (t) based on the corrected model P_new, and outputs the result.
  • the model P stored in the model storage unit 303 is learned using a learning signal that is not affected by the transfer characteristic h, that is, using the sound source signal s (t).
  • the difference between the characteristic of the transfer path characteristic h2 and the characteristic of h that is, F (h) ⁇ F (h2). Is used to correct the model P to obtain a new model P_new.
  • the model P is corrected using the transmission path feature vector h of the acoustic signal. Therefore, robust pattern recognition is possible even in an environment where different transmission paths are included. That is, it is robust against the influence of the transmission path, and can realize pattern recognition accuracy with higher accuracy.
  • FIG. 6 is a diagram showing a configuration of a pattern recognition apparatus according to the fourth embodiment of the present invention.
  • a configuration for creating a model for pattern recognition from a learning signal including a transmission path feature extraction unit 402, an input signal correction unit 403, a model learning unit 404, and a model storage unit 405, and this model A configuration including a pattern recognition apparatus 400 (see a broken line) that performs pattern recognition using the above is shown.
  • a configuration for creating a model for pattern recognition from a learning signal including a transmission path feature extraction unit 402, an input signal correction unit 403, a model learning unit 404, and a model storage unit 405 is also referred to as a “learning unit”.
  • the pattern recognition apparatus 400 includes a transmission path feature extraction unit 412, an input signal correction unit 403, a pattern recognition unit 414, and a model storage unit 405.
  • the learning signal 401 is an acoustic signal for creating a model for pattern recognition at the subsequent stage.
  • the learning signal 401 is also referred to as x_train (t, n).
  • the transfer path feature extraction unit 402 calculates a transfer path feature vector h_train of the learning signal x_train (t, n) and outputs it to the input signal correction unit 403.
  • the input signal correction unit 403 corrects the learning signal x_train (t, n) based on the transmission path feature vector h_train and outputs a new signal x_train_new (t, n). Similar to the sound reception signal x (t) described above, the learning signal x_train (t, n) is expressed by the following equation [Equation 4], and the frequency characteristics change due to h_train. [Equation 4]
  • the learning signal x_train (t, n) can be canceled by multiplying the learning filter x_train (t, n) by an inverse filter having characteristics opposite to those of the transfer path feature vector h_train.
  • An arbitrary method may be used for the inverse filter of the FIR filter.
  • the correction may be expressed in the frequency domain, and the convolution term is expressed by the following [Equation 5] as a product.
  • the model learning unit 404 creates a model P using the corrected learning signal x_train_new (t, n).
  • the model learning unit 404 creates a model using x_train_new, which is a signal obtained by canceling the frequency characteristic change caused by the transfer path feature vector h_train of the learning signal x_train (t, n). Therefore, a model can be created regardless of the influence of the transmission path.
  • the model storage unit 405 stores the model P output from the model learning unit 404.
  • This model Pha is created using a learning signal corrected using the transmission path feature vector h_train of the acoustic signal. Therefore, it is possible to create a model that is not affected by the influence of a transmission path even if a learning signal including different transmission paths is used.
  • the received sound signal 411 is input to the transmission path feature extraction unit 412 and the input signal correction unit 413, respectively.
  • the sound reception signal 411 is also referred to as x (t).
  • the transmission path feature extraction unit 412 and the input signal correction unit 413 correct the sound reception signal x (t) in the same manner as the transmission path feature extraction unit 402 and the input signal correction unit 403, and the pattern recognition unit 414 performs the correction.
  • a sound reception signal x_new (t) is output.
  • the pattern recognition unit 414 receives the corrected sound reception signal x_new (t) as input, performs pattern recognition on x_new (t), and outputs the result.
  • the pattern recognition unit 414 performs pattern recognition processing on the signal corrected using the transfer path feature vector of the acoustic signal, as in the model creation process. For this reason, pattern recognition can be performed for signals including different transmission paths regardless of the influence of the transmission paths.
  • the model is learned using the learning signal corrected using the transfer path feature vector of the acoustic signal even in the process of creating the pattern recognition model. For this reason, even if a learning signal that includes different transmission paths is used, pattern recognition that is not influenced by the influence of the transmission path can be performed.
  • the configuration of the present embodiment is also robust to the influence of the transmission path, and can realize pattern recognition accuracy with higher accuracy.
  • FIG. 7 is a diagram showing a configuration of a pattern recognition apparatus according to the fifth embodiment of the present invention.
  • a configuration including a pattern recognition device 500 (see the broken line) that performs pattern recognition using the above is shown.
  • a configuration for creating a pattern recognition model from a learning signal including a transmission path feature extraction unit 502, an input signal correction unit 503, a model learning unit 504, and a model storage unit 505 is also referred to as a “learning unit”.
  • the fifth embodiment is a combination of all the configurations of the first to fourth embodiments.
  • the learning unit corrects the input signal using the transfer path feature vector and corrects the model.
  • this model is created for each transmission path by a transmission path grasped from the transmission path feature vector, and each model includes the transmission path feature vector as a feature amount.
  • the operation of the pattern recognition apparatus 500 is also a combination of the above, and the pattern recognition apparatus 500 selects a model corresponding to the transmission path based on the transmission path grasped from the transmission path feature vector.
  • the pattern recognition apparatus 500 performs pattern recognition including the transfer path feature vector after correcting the received sound signal using the transfer path feature vector and correcting the model.
  • the configurations of the first to fourth embodiments have been described as being combined. However, it is not necessary to combine all of these. For example, the first embodiment and any one or two of the second to fourth embodiments may be combined. Similarly, the second embodiment and any one or two of the third to fourth embodiments may be combined. Similarly, in the third and fourth embodiments, it is possible to combine one to three of the other embodiments.
  • FIG. 8 is a diagram showing a configuration of a pattern recognition apparatus according to the sixth embodiment of the present invention. Referring to FIG. 8, a configuration in which a second transmission path identification unit 603 is arranged in parallel with the pattern recognition device 602 and each output is input to the information integration unit 604 is shown.
  • the sound reception signal 601 is input to the pattern recognition device 602 and the second transmission path identification unit 603.
  • the sound reception signal 601 is also referred to as x (t).
  • the pattern recognition device 602 any pattern recognition device including the first to fifth embodiments can be used. Therefore, the pattern recognition device 602 performs pattern recognition on the sound reception signal x (t) and outputs a recognition result n.
  • the recognition result n represents an acoustic signal pattern such as “voice” or “music”.
  • the second transmission path identification unit 603 identifies the transmission path of the received sound signal x (t) and outputs an identification result (label) c.
  • This identification result c indicates the transmission path through which x (t) such as “wood” or “metal” is received.
  • the transmission path identification unit can be used as the second transmission path identification unit 603.
  • the information integration unit 604 receives the recognition result n and the identification result c as inputs, and outputs integrated information. For example, “sound propagated in the air” and “music propagated through wood”.
  • an integrated pattern recognition apparatus 600 is arranged as a front stage of a voice detection apparatus operating in the room A.
  • the output of the information integration unit 604 may be “sound that propagates in the air”, “sound that propagates through wood”, and the like.
  • the installation purpose of the integrated pattern recognition apparatus 600 installed in the room A is human voice detection inside the room A, the inside of the room B transmitted through the wood and metal constituting the room partition. Human speech is information that is not subject to detection.
  • the output result of the information integration unit 604 is used to remove it from the pattern recognition target by the transmission path, or conversely, it is detected in the room A.
  • Pattern recognition can be performed with finer granularity, such as performing pattern recognition on a voice.
  • pattern identification with finer granularity can be realized by integrating the result of identifying the acoustic signal transmission path with the pattern recognition result of the acoustic signal.
  • FIG. 9 is a diagram showing a modified configuration of the pattern recognition apparatus according to the sixth embodiment of the present invention.
  • a transmission path feature extraction unit 722 which constitutes an identification model learning unit
  • a path identification model learning which are included in the lower part of the pattern recognition apparatus 700 in which an upper part of the learning unit and the information integration unit 718 are incorporated
  • a unit 723 and a path identification model storage unit 724 are added.
  • the pattern recognition apparatus 700 adds a transmission path feature extraction unit 714 and a (second) transmission path identification unit 715 to the configuration of the fifth embodiment shown in FIG. It is the composition which arranged.
  • This configuration corresponds to the sixth embodiment in which the output from the pattern recognition unit 717 and the output from the transmission path identification unit 715 are input to the information integration unit 718 and the information integration unit 718 performs the integrated determination. It is. Therefore, the configuration of FIG. 9 is obtained by adding a transmission path feature extraction unit 722, a path identification model learning unit 723, and a path identification model storage unit 724, which constitute a model learning unit, separately from the configuration of the sixth embodiment. It becomes. Since these elements have already been described in the above-described nuclear embodiment, description thereof will be omitted.
  • FIG. 10 is a block diagram illustrating a configuration of a transmission path identification unit according to the eighth embodiment of the present invention.
  • a transmission path identifying unit 800 according to the eighth embodiment of the present invention includes a plurality of sensors 8101 and 8102 (hereinafter also referred to as sensor 1 and sensor 2), a feature amount calculating unit 8201, and a transmission path.
  • Each of these means generally operates as follows.
  • the plurality of sensors 8101 and 8102 are fixed at a predetermined interval and obtain information on received signals.
  • An example of the fixing method is to arrange the sensors 8101 and 8102 along the wall as shown in FIG.
  • the outputs of the sensors 8101 and 8102 can be handled as digital time series signals.
  • the feature amount calculation unit 8201 calculates a feature amount that represents a spatial path required for arrival and transmission of the signal at regular time intervals from the signals received by the sensors 8101 and 8102.
  • the transmission path determination unit 8202 determines whether the signal input to the sensors 8101 and 8102 has propagated through the air or the solid using the feature amount, and the determination result. 8401 is output.
  • FIGS. 11 to 16 two events to be identified by the transmission path identification unit of the present embodiment, a sound propagating in the air and a sound propagating in the solid will be described with reference to FIGS. 11 to 16.
  • the sound propagating through the air is transmitted with air interposed between the sound source 8300 and the sensors 8101 and 8102.
  • FIG. 13 as the acoustic path reaching the sensor 1 8101 from the sound source 8300, in addition to the acoustic path 1-1 that is a direct sound, the acoustic path 1-2 that is a reflected sound, the acoustic path 1- 3.
  • acoustic paths such as acoustic paths 1-4.
  • the sensor 1 serving as a reception point is usually observed in a form in which sounds passing through these acoustic paths are mixed.
  • the acoustic path reaching the sensor 2 8102 from the sound source 8300 is also observed in the same manner.
  • the sound propagating through the solid is exemplified by a solid, in this case a wall as shown in FIG. 12, but a sound source 8300 exists in contact with the solid.
  • a solid in this case a wall as shown in FIG. 12, but a sound source 8300 exists in contact with the solid.
  • FIG. 15 only the acoustic path that is a direct sound exists as the acoustic path that reaches the sensor 1 8101 from the sound source 8300, and there is no reflected sound.
  • an acoustic path reaching the sensor 2 8102 from the sound source 8300 is also observed in the same manner.
  • This cross spectrum itself is the reverse of the similarity of the transfer function between the path from the sound source 8300 to the sensor 1 8101 and the path to the sensor 2 8102, ie, the difference Represent.
  • the cross-correlation function between the plurality of sensors 8101 and 8102 is obtained by inverse Fourier transforming this difference.
  • this cross-correlation function is output as a feature amount.
  • the transmission path determination unit 8202 determines that the sound has propagated through the solid, and outputs the determination result 8401.
  • the transmission path determination unit 8202 determines that the sound has propagated through the air, and outputs the determination result 8401.
  • the number of sensors has been described as two. However, the number of sensors may be three or more, and a determination may be made between them, and a determination may be made by taking a majority vote, a logical sum, or a logical product, thereby improving the estimation accuracy. It is possible to increase.
  • the transmission path determination unit 8202 may operate only when the received signal has a certain level of power. As a result, it is also possible to reduce errors that occur under low power signals and thus under low S / N ratio conditions.
  • the transmission path is typically in the air and in the solid, but the air is a typical path where reflection exists, and the solid is a typical path without reflection. Any other medium may be used.
  • the air can be replaced with a gas such as nitrogen or a liquid such as water.
  • the solid can be replaced with a sufficiently viscous gel-like object.
  • the present embodiment since a signal transmission path is estimated using a plurality of sensors, a transmission path can be estimated if there is information on only a reception point, and a model using information on a transmission side or a transmission path. Is not necessary.
  • the present embodiment has an advantage that the installation cost can be reduced because the range can be calculated in a normal operation without requiring special in-space calibration.
  • FIG. 17 is a block diagram showing the configuration of the ninth embodiment of the present invention.
  • a transmission path identification unit 8100A according to the ninth embodiment of the present invention includes a storage unit 8203, a range determination unit 8204, and a determination model 8205 in addition to the configuration of the eighth embodiment. Since the other configuration is the same as that of the first embodiment, the difference will be mainly described below.
  • the accumulation unit 8203 accumulates the feature amount calculated in the past by the feature amount calculation unit 8201 for a certain period.
  • the accumulation period of the feature amount in the accumulation unit 8203 may be a long period of time, for example, since a plurality of sensors 8101 and 8102 are installed, but typically, for example, the feature amount of the past one day may be accumulated.
  • the storage unit 8203 will be described assuming that the length of one frame is one second and 86400 frames for one day without overlap are stored.
  • the range determination unit 8204 maps the feature amounts of all frames accumulated by the accumulation unit 8203 to the feature amount space.
  • FIG. 18 illustrates an example of feature amount mapping by the range determination unit 8204. In the example of FIG. 18, only 44 frames are shown, but the same is true even if the number of accumulated frames changes.
  • FIG. 18 is a two-dimensional histogram (also referred to as a heat map) in which two cross-correlation functions are expressed as numerical values representing how many frames correspond to the corresponding feature amount.
  • 37 frames have almost the same feature amount, and the remaining frames have different feature amounts.
  • the range indicated by the dotted circle in FIG. It can be determined that the range of the feature amount is a propagation path.
  • the other range can be determined as the range of the feature amount having the propagation path in the air.
  • a condition of taking all points exceeding a predetermined threshold D can be employed.
  • the feature-value which takes the maximum value instead of the conditions that the threshold value D was exceeded can be employed.
  • the radius ⁇ of the circle in the range can be determined in advance with a small value assuming a range affected by noise.
  • the determination model 8205 is obtained by storing the range information obtained in this way as a determination model. Therefore, the above-described range determination unit 8204 can be rephrased as a determination model creation unit.
  • the storage unit 8203 described above can be configured using a storage device of a computer that constitutes the transmission path identification unit.
  • the judgment model 8205 can also be stored in a storage device of a computer that constitutes the transmission path identification unit.
  • the transmission path determination unit 8202 compares the value of the feature amount output from the feature amount calculation unit 8201 with the information of the range stored in the determination model (path identification model) 8205, and the corresponding feature amount is propagated in the air. Whether it is a path or a propagation path in a solid is determined, and a corresponding determination result 8401 is output as a determination output.
  • the feature amount for the past day is accumulated and the determination model (path identification model) 8205 is created.
  • the accumulated feature amount is stratified from various viewpoints, and a plurality of features are classified.
  • a determination model may be created. For example, if the environment where the transmission path identification unit is installed changes depending on the time or season, create a judgment model using the time zone including the time and the feature value obtained in the relevant season. The determination can also be performed using the determination model.
  • the transmission path identifying unit of the eighth and ninth embodiments described above it is possible to identify two types of propagation methods, air propagation and solid propagation, with higher accuracy than in the past.
  • the present invention can be applied to a signal such as a time-series vibration signal obtained from a vibration sensor that propagates and propagates in space and whose characteristics change depending on the transmission path.
  • the series data includes not only equally spaced series data but also unequally spaced series data.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where an information processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention with a computer, a program installed in the computer, a medium storing the program, and a WWW (World Wide Web) server for downloading the program are also included in the scope of the present invention. . In particular, at least a non-transitory computer readable medium that stores a program that causes a computer to execute the processing steps included in the above-described embodiments is included in the scope of the present invention.
  • the procedures shown in the first to ninth embodiments are realized by a program that causes a computer (9000 in FIG. 19) that functions as a pattern recognition device or a transmission path identification unit to realize the functions of these devices.
  • a computer is exemplified by a configuration including a CPU (Central Processing Unit) 9010, a communication interface 9020, a memory 9030, and an auxiliary storage device 9040 in FIG. That is, the CPU 9010 in FIG. 19 may execute a pattern recognition program or a transmission path feature extraction program to update each calculation parameter held in the auxiliary storage device 9040 or the like.
  • each part (processing means, function) of the pattern recognition device and the transmission path identification unit shown in the first to ninth embodiments described above is used in a processor mounted on these devices, using its hardware. It can be realized by a computer program for executing the above-described processes.
  • the model is a plurality of models created using signals observed through the transmission path for each of at least two different transmission paths. Further, Including a transmission path identification unit for identifying a transmission path from the feature amount of the input signal; The pattern recognition unit It is possible to adopt a configuration in which a model corresponding to the identified transmission path is selected from the plurality of models and pattern recognition of the input signal is performed.
  • the model is a model created using the learning signal, including a transfer path feature vector representing a transfer path feature of the learning signal
  • the pattern recognition apparatus described above further includes: A transmission path feature vector extraction unit for calculating a transmission path feature vector representing the characteristics of the transmission path of the input signal;
  • the pattern recognizing unit can adopt a configuration for performing pattern recognition of an input signal using a transfer path feature vector calculated from the input signal in addition to the feature of the input signal using the model.
  • the pattern recognition apparatus described above further includes: A transmission path feature vector extraction unit for calculating a transmission path feature vector representing the characteristics of the transmission path of the input signal; A model correction unit that corrects the model using the transfer path feature vector; The pattern recognition unit may employ a configuration for performing pattern recognition of an input signal using the corrected model.
  • the pattern recognition apparatus described above further includes: An input signal correction unit that corrects the input signal using the transfer path feature vector;
  • the pattern recognition unit may employ a configuration for performing pattern recognition using the corrected input signal.
  • the pattern recognition apparatus described above further includes: A second transmission path identification unit for identifying the transmission path from the feature amount of the input signal; It is possible to adopt a configuration including an information integration unit that integrates the output of the pattern recognition unit and the output of the second transmission path identification unit and outputs a recognition result.
  • At least one of the transmission path identification unit and the second path identification unit is A feature amount calculation unit for calculating a feature amount from sensor output signals of a plurality of sensors; A propagation path determination unit that determines a propagation path corresponding to the feature amount; The structure comprised including can be taken.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識をなしうる構成の提供。信号が伝達されてきた経路を推定する。パターン認識装置は、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、を含む。

Description

パターン認識装置、パターン認識方法及びパターン認識プログラム
 本発明は、パターン認識装置、パターン認識方法及びパターン認識プログラムに関する。
 非特許文献1には、受音した音響信号をあらかじめ定義した複数の音響イベントパターンへ分類するためのパターン認識装置とその認識器の学習方法について記載されている。
 また、特許文献1には、音響信号の種類を精度よく識別することができるという音響識別装置が開示されている。同文献によると、この音響識別装置の音響信号分析部200は、信号線101からの音響信号における音声成分および音楽成分の有する周波数スペクトルの時間特性に基づく特徴量を抽出する。また、この音響信号分析部200は、音響信号の周波数スペクトルを時系列に生成して、その時系列に生成された周波数スペクトルにおける周波数ごとの差分値を算出する。そして、音響信号分析部200は、その算出された差分値に基づく度数分布の偏り度合いを示す分散を音響信号の特徴量として抽出する。そして、音響信号識別部110は、音響信号の種類が音楽と、音楽および音声の重畳と、音声とのいずれであるかを、その特徴量に基づいて識別する。最後に、この音響信号識別部110は、音声成分および音楽成分が重畳する音響信号に対応する特徴量よりも小さい音楽閾値を基準として、音響信号の種類が音楽であるか否かを識別する。
 また、特許文献2には、様々なノイズが含まれた環境下でパターン認識を行うパターン認識装置に用いて好適な耐性の高い認識モデルを学習し、当該パターン認識装置におけるパターン認識率を向上させることができるという認識モデル学習装置が開示されている。同文献によると、この認識モデル学習装置のパターン認識モデル格納部606には、パターン認識装置におけるパターン認識処理に用いられるパターン認識モデルが格納されている。そして、情報入力部602から学習用情報が入力され、情報特徴量計算部603で情報の特徴量が計算される。ここで、パラメータ変動部604でパラメータが変動され、パターン認識モデル学習部605において、変動させたパラメータで計算された特徴量を用いてパターン認識モデルが学習される。
特開2011-85824号公報 特開2005-31258号公報
Komatsu, Tatsuya, et al. "Acoustic event detection method using semi-supervised non-negative matrix factorization with a mixture of local dictionaries." Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016 Workshop (DCASE2016). 2016.
 以下の分析は、本発明によって与えられたものである。非特許文献1に記載の技術では、音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わる場合があり、パターン認識性能が劣化する問題がある。この点は、特許文献1、2も同様であり、音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わるという点の考慮は一切なされていない。
 上記音源から受音点までの伝達パスによって受信点で得られる信号の周波数特性が大きく変わるのは、音響信号に限られず、振動センサから得られる時系列振動信号など、空間中を伝播し伝わり、その伝達パスにより特性が変化するような信号に共通する。
 本発明は、上記した信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識の実現に貢献できるパターン認識装置、パターン認識方法及びパターン認識プログラムを提供することを目的とする。
 第1の視点によれば、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、を含むパターン認識装置が提供される。
 第2の視点によれば、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部を備えるコンピュータが、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力するステップと、前記モデルを用いて、前記入力信号と、前記伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、を含むパターン認識方法が提供される。本方法は、学習用信号を用いて作成されたモデルを用いてパターン認識を行うコンピュータという、特定の機械に結びつけられている。
 第3の視点によれば、上記したコンピュータの機能を実現するためのプログラムが提供される。なお、このプログラムは、コンピュータが読み取り可能な(非トランジトリーな)記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
 本発明によれば、信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識を実施することが可能となる。
本発明の一実施形態の構成を示す図である。 本発明の第1の実施形態のパターン認識装置の構成を示す図である。 本発明の第1の実施形態のパターン認識装置の伝達パス識別部の構成例を示す図である。 本発明の第2の実施形態のパターン認識装置の構成を示す図である。 本発明の第3の実施形態のパターン認識装置の構成を示す図である。 本発明の第4の実施形態のパターン認識装置の構成を示す図である。 本発明の第5の実施形態のパターン認識装置の構成を示す図である。 本発明の第6の実施形態のパターン認識装置の構成を示す図である。 本発明の第7の実施形態のパターン認識装置の変形構成を示す図である。 本発明の第8の実施形態のパターン認識装置の伝達パス識別部の構成例を示す図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源との関係を表す図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源との関係を表す図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源から、センサ1に到達する音の経路を説明する図である。 本発明の第8の実施形態において、空気中が伝搬経路となる音源から、センサ2に到達する音の経路を説明する図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源から、センサ1に到達する音の経路を説明する図である。 本発明の第8の実施形態において、固体中が伝搬経路となる音源から、センサ2に到達する音の経路を説明する図である。 本発明の第9の実施形態を実施するための形態を示すブロック図である。 本発明の9の実施形態の動作を説明する図である。 本発明のパターン認識装置を構成するコンピュータの構成を示す図である。
 はじめに本発明の一実施形態の概要について図面を参照して説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。また、以降の説明で参照する図面等のブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。また、図中の各ブロックの入出力の接続点には、ポート乃至インタフェースがあるが図示省略する。
 本発明は、その一実施形態において、図1に示すように、モデル記憶部901と、このモデルを用いて、パターン認識を行うパターン認識部902と、を含むパターン認識装置900にて実現できる。
 より具体的には、モデル記憶部901は、学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶する。
 パターン認識部902は、前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行う。
 上記のパターン認識装置900によれば、入力信号の伝達パスの違いを示す伝達パス情報を加味したパターン認識が行われる。これにより、信号の伝達パスによる影響に頑健で、より高い精度でのパターン認識実施することが可能となる。
[第1の実施形態]
 以下の実施形態では、入力信号が音響信号である例を挙げて説明する。はじめに、音源信号と受音点における音響信号の関係を、伝達パスによる信号の周波数特性変化の観点から説明する。
 以降では、音源信号s(t)、受音点における音響信号をx(t)として説明する。ここで、s(t)、x(t)はマイクロフォン等の音響センサで収録したアナログ音響信号をAD変換(Analog to Digital Conversion)して得られるデジタル信号系列である。tは時間を表すインデックスであり、所定の時間(たとえば装置やセンサを起動した時間)を、原点t=0として順次入力される音響信号の時間インデックスである。サンプリング周波数をFsとすると、隣り合う時間インデックスtとt+1の時間差、つまり時間分解能は1/Fsとなる。
 音源信号s(t)は、空気中、もしくは壁や建造物などの固体中、水や油などの液体中において、音波として伝播し受音点へ到達、音響信号x(t)として観測される。音波は媒質間の境界や音響インピーダンスの高低差などの影響により、反射や回折、透過などを起こしながら媒質中を伝播する。本発明ではこの伝播によるs(t)に生じた遅延や周波数特性の変化を定量化したものを伝達パス(伝搬パス)と呼ぶ。
 s(t)とx(t)との関係は、伝達パスをある関数f(・)を用いて、次の[数1]のように表現できる。
 [数1]
Figure JPOXMLDOC01-appb-I000001
音響デジタル信号処理分野において、関数f(・)は、時不変FIRフィルタによって近似するのが一般的であり、つまりフィルタ長がTであるFIRフィルタh(t)を用いて、[数1]の右辺は、[数2]のようにh(t)とs(t)の畳み込みとして表現できる。
 [数2]
Figure JPOXMLDOC01-appb-I000002
 また、伝達パスによる音源信号の周波数特性変化は、h(t)の周波数応答として表現できる。本発明では、フィルタh(t)が伝達パスを特徴づけるベクトルであるとみなし、伝達パス特徴ベクトルhとして用いる。
 hの推定において、一般に音源信号s(t)は未知であり、受音点における観測信号x(t)のみしか得られない場合が多い。その場合、x(t)に対する線形予測分析を行う方法などが用いられる。本発明はhの推定方法については限定しておらず、任意の推定方法を用いてよい。
 続いて、本発明の第1実施形態のパターン認識装置100について、図2を用いて説明する。図2を参照すると、伝達パス識別部102と、モデル学習部103と、モデル記憶部104とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置100(破線内参照)とを含む構成が示されている。以下、伝達パス識別部102と、モデル学習部103と、モデル記憶部104とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
 パターン認識装置100は、伝達パス識別部112と、モデル切替部113と、パターン認識部114と、モデル記憶部104とを含んで構成されている。
 学習信号101は、後段のパターン認識用のモデルを作成するための音響信号である。学習信号101は、x_train(t,n)と表すことができる。ここで、tは時間を表すインデックスであり、nはx_train(t,n)が音響信号の種別を表すラベルである。例えば、入力の音響信号を「音声」と「音楽」に識別するパターン認識装置を考える場合、n={音声、音楽}となる。なお、以下、数式中の下付きの添え字xを「_x」と記す。
 伝達パス識別部102は、学習信号x_train(t,n)の伝達パスを識別し、学習信号x_train(t,n)の伝達パスラベルcを出力する。例えば、伝達パス識別部102が識別する伝達パスが「空気」or「木材」であった場合、伝達パス識別部102は、学習信号x_train(t,n)の伝達パスを識別して、c=空気、もしくはc=木材を出力する。なお、伝達パス識別部102における伝達パスの識別方法については後に詳説する。
 モデル学習部103は、学習信号x_train(t,n)に加えて伝達パスラベルcを用いてパターン認識用のモデルPを作成する。ここで、モデルPは、学習信号x_train(t,n)の種別を出力するよう作成される、つまり前述の例でいうと、学習信号x_train(t,n)の種別に応じて、「音声」もしくは「音楽」と識別するモデルが作成される。このモデルの作成には、「音声」又は「音楽」のいずれかの音響信号を用いた教師付きの学習信号を用いてもよい。ここで、本実施形態では、学習信号x_train(t,n)の伝達パスラベルcに応じて別のモデルを作成する。つまり、伝達パスラベルcが{空気、木材}の2種である場合、入力のcに応じて、P={P_空気、P_木材}の2種類のモデルが作成される。
 モデル記憶部104は、モデル学習部103が作成したモデルPを記憶する。以上が、図2のモデルを作成するための学習部の構成となる。
 続いて、上記したモデルを用いてパターン認識を行うパターン認識装置の各部の動作について説明する。受音信号111は、伝達パス識別部112とパターン認識部114に入力される。以下、この受音信号111をx(t)と表す。
 伝達パス識別部112は、受音信号x(t)の伝達パスラベルdを算出し、モデル切替部113に出力する。なお、伝達パス識別部112は、上記伝達パス識別部102と同等の構成となる。
 モデル切替部113は、伝達パスラベルdに応じて後段のパターン認識部114で用いるモデルを切り替え、伝達パスラベルdに対応するモデルP_dのみを出力する。例えばd=木材の場合、モデル切替部113は、モデル記憶部104に格納のモデルP={P_空気、P_木材}のうち、P_木材のみを出力する。
 パターン認識部114では、モデル切替部113出力のモデルP_dを用いて受音信号x(t)に関するパターン認識を行い結果を出力する。本実施形態では、入力の音響信号を「音声」と「音楽」に識別するパターン認識を行うため、パターン認識部114は、「音声」、「音楽」、識別不能といった出力を行うことになる。
 ここで、上記伝達パス識別部102及び伝達パス識別部112における伝達パスを識別する構成について説明する。図3は、本発明の第1の実施形態のパターン認識装置100の伝達パス識別部102/112の構成例を示す図である。
 図3を参照すると、伝達パス特徴抽出部002と、パス識別モデル記憶部003と、パス識別部004と、を含む伝達パス識別部102/112の構成が示されている。
 伝達パス特徴抽出部002は、受音信号001を入力とし伝達パス特徴を算出し出力する。
 パス識別部004は、伝達パス特徴抽出部002によって出力された伝達パス特徴に基づいて、パス識別モデル記憶部003格納のパス識別モデルに基づき伝達パスを識別する。
 図3の下段は、上記パス識別モデルを作成する識別モデル学習部010の構成を示している。伝達パス特徴抽出部002は、パス学習用信号とそのラベルの組011、即ち、教師付き学習信号を入力とし、伝達パスの特徴を算出し出力する。
 パス識別モデル学習部013は、伝達パス特徴抽出部012出力の伝達パス特徴に基づいて、パス識別モデルを学習する。
 上記伝達パス識別部102/112及び識別モデル学習部010の動作は次のとおりとなる。まず、パス学習用信号とそのラベルcの組011は、伝達パス特徴抽出部012へ入力される。このパス学習用信号とそのラベルcの組は、y_train(t,c)と表すことができる。
 ここでラベルcとは、y_train(t,c)の伝達パスを識別するためのラベルである。例えば、空気伝播した音響信号の伝達パスをc=空気、木材を伝播した伝達パスをc=木材、金属を伝播した伝達パスをc=金属、とすることができる。このとき、パス学習用信号とそのラベルcの組y_train(t,木材)は、伝達パスが木材である場合の受音信号である。そして、パス学習用信号とそのラベルcの組y_train(t, 木材)から算出した伝達パス特徴は、木材の伝達パスの特徴を表しているといえる。
 伝達パス特徴抽出部012は、上記y_train(t,c)からh_train(c)を算出し、パス識別モデル学習部013へ出力する。このh_train(c)が、前述の伝達パス特徴ベクトルである。
 パス識別モデル学習部013は、伝達パス特徴ベクトルh_train(c)を入力とし、伝達パスの識別モデルMを作成する。この識別モデルMは、伝達パス特徴ベクトルを入力とし、ラベルcを出力とする多クラス分類器として機能する。なお、識別モデルMは、混合ガウス分布やサポートベクトルマシン、ニューラルネットなど任意のモデルを用いることができる。
 伝達パス識別部102/112の各部は、次のように動作する。
受音信号001は伝達パス特徴抽出部002に入力される。ここで、受音信号をx(t)と記す。
 伝達パス特徴抽出部002は、受音信号x(t)から伝達パス特徴ベクトルhを算出しパス識別部004へ出力する。
 パス識別部004は、パス識別モデル記憶部003格納のパス識別モデルに基づき、伝達パスを識別し、伝達パスの識別結果を出力する。この識別結果が前述の伝達パスラベルdとなる。
 以上説明したように、本実施形態のパターン認識装置100は、音響信号の伝達パスを識別し、パターン認識に用いるモデルを切り替える。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
 なお、上記した説明では、パターン認識装置100には、伝達パス識別部102やモデル学習部103は含まれないものとして説明したが、パターン認識装置100が、伝達パス識別部102やモデル学習部103を備えていてもよい。このような構成を採ることで、パターン認識装置100の検出結果をさらに、学習データとして学習を行い、モデルを更新することが可能となる。
[第2の実施形態] 
 次に、上記第1の実施形態におけるモデルの切替を省略可能とした本発明の第2実施形態に係るパターン認識装置200について、図4を用いて説明する。
 図4は、本発明の第2の実施形態のパターン認識装置の構成を示す図である。図4を参照すると、伝達パス特徴抽出部202と、モデル学習部203と、モデル記憶部204とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置200(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部202と、モデル学習部203と、モデル記憶部204とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
 パターン認識装置200は、伝達パス特徴抽出部212と、パターン認識部213と、モデル記憶部204とを含んで構成されている。
 学習信号201は、パターン認識用のモデルを作成するための音響信号であり、伝達パス特徴抽出部202と、モデル学習部203とにそれぞれ入力される。学習信号101は、x_train(t,n)と表すことができる。
 伝達パス特徴抽出部202は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainを算出し、モデル学習部203に出力する。
 モデル学習部203は、学習信号x_train(t,n)に加えてh_trainを用いてパターン認識用のモデルPを作成する。
 モデル学習部203は、x_train(t,n)のみでなく、伝達パス特徴ベクトルh_trainをパターン認識用のモデルの作成のための特徴量として用いるため、x_train(t,n)の伝達パスの情報も考慮したモデルを作成することができる。モデル記憶部204は、モデル学習部203が作成したモデルPを作成する。
 第2の実施形態におけるh_trainを用いたモデルPは、次のように作成できる。例えば、学習信号x_train(t,n)から得られた特徴ベクトルgに対して、連結したベクトル[g,h]を新たな特徴ベクトルとしてモデルPを作成することで、伝達パス特徴ベクトルh_trainを考慮したモデルを作成することができる。また、上記の方法に代えて、伝達パス特徴ベクトルh_trainを学習信号x_trainの事前分布や条件付き分布パラメータとしてモデルPを作成してもよい。
 続いて、上記したモデルを用いてパターン認識を行うパターン認識装置200の各部の動作について説明する。
受音信号211は、伝達パス特徴抽出部212とパターン認識部213にそれぞれ入力される。以下、受音信号211をx(t)とも記す。
 伝達パス特徴抽出部212は、伝達パス特徴抽出部x(t)の伝達パス特徴ベクトルhを算出し、パターン認識部213に出力する。
 パターン認識部213は、受音信号x(t)と伝達パス特徴ベクトルhを入力としてx(t)に関するパターン認識を行い結果を出力する。
 以上のとおり、本実施形態では、音響信号の伝達パス特徴ベクトルを補助特徴量として用い、パターン認識用のモデルを作成する。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
[第3の実施形態]
 次に、伝達パス特徴ベクトルhをモデルの補正に用いるように構成した本発明の第3の実施形態のパターン認識装置300について、図5を用いて説明する。
 図5は、本発明の第3の実施形態のパターン認識装置の構成を示す図である。図5を参照すると、モデル記憶部303と、伝達パス特徴抽出部302と、モデル補正部304と、補正後のモデルを用いてパターン認識を行うパターン認識部305とを備えたパターン認識装置300が示されている。なお、図5では、第1、第2の実施形態における学習部に相当する構成は、省略しているが、学習信号を入力として、モデル記憶部303に記憶するモデルを作成するモデル学習部が備えられていてもよい。
 受音信号301は、伝達パス特徴抽出部302と、パターン認識部305に入力される。以下、受音信号301をx(t)とも記す。
 伝達パス特徴抽出部302は、受音信号x(t)の伝達パス特徴ベクトルhを算出し、モデル補正部304に入力する。
 モデル補正部304は、モデル記憶部303に記憶されているモデルPを、伝達パス特徴ベクトルhに基づき補正し、補正したモデルP_newを出力する。伝達パス特徴ベクトルhは、伝達パスによる信号の周波数特性変化を表す特徴である。
 受音信号x(t)のパターン認識を行う場合、受音信号x(t)には伝達パスの影響が含まれる。換言すると、受音信号x(t)は、パターン認識時に特徴量空間上にて伝達パス特徴ベクトルhに相当するズレが生じている。そのため、モデル補正部304ではモデルPをそのズレの分だけ補正する。以下、モデルPで用いるx(t)に関する音響特徴量が周波数スペクトルである場合を例としてその原理を説明する。
 受音信号x(t)のフーリエ変換をF(x(t))とすると、下記[数2](再掲)は、フーリエ変換の定義より、[数3]のように書き換えられる。
 [数2]
Figure JPOXMLDOC01-appb-I000003
 [数3]
Figure JPOXMLDOC01-appb-I000004
 つまり、特徴量空間において、受音信号x(t)は、F(h)分だけズレが生じているといえる。そのため、モデルPのパラメータに対してF(h)分の線形変換を加えることで、モデルPを補正し、ズレを除去したモデルP_newを得ることができる。
 パターン認識部305は、受音信号x(t)を入力として、補正後のモデルP_newに基づきx(t)に関するパターン認識を行い、結果を出力する。
 ここで、モデル記憶部303が格納するモデルPは、伝達特性hの影響がないような学習信号を用いて、つまり音源信号s(t)を用いて学習されたものである。ここで、モデルPの作成に用いた学習信号にすでに何らかの伝達パス特性h2が加わっている場合には、伝達パス特性h2の特性とhの特性の差分、つまりF(h)-F(h2)を用いてモデルPを補正することで新たなモデルP_newを得る。
 以上のとおり、本実施形態では、音響信号の伝達パス特徴ベクトルhを用いて、モデルPを補正する。そのため、異なる伝達パスが含まれるような環境においても頑健にパターン認識が可能となる。つまり、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できる。
[第4の実施形態]
 次に、伝達パス特徴ベクトルhを用いて入力信号を補正するように構成した本発明の第4の実施形態のパターン認識装置400について、図6を用いて説明する。
 図6は、本発明の第4の実施形態のパターン認識装置の構成を示す図である。図6を参照すると、伝達パス特徴抽出部402と、入力信号補正部403と、モデル学習部404と、モデル記憶部405とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置400(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部402と、入力信号補正部403と、モデル学習部404と、モデル記憶部405とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
 パターン認識装置400は、伝達パス特徴抽出部412と、入力信号補正部403と、パターン認識部414と、モデル記憶部405とを含んで構成されている。
 学習信号401は、後段のパターン認識用のモデルを作成するための音響信号である。以下、学習信号401を、x_train(t,n)とも記す。
 伝達パス特徴抽出部402は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainを算出し、入力信号補正部403に出力する。
 入力信号補正部403は、学習信号x_train(t,n)を伝達パス特徴ベクトルh_trainに基づき補正し、新たな信号x_train_new(t,n)を出力する。前述の受音信号x(t)と同様に、学習信号x_train(t,n)は、次式[数4]で表され、h_trainによって周波数特性の変化が生じている。
 [数4]
Figure JPOXMLDOC01-appb-I000005
 そのため、学習信号x_train(t,n)に対して、伝達パス特徴ベクトルh_trainと逆の特性となるような逆フィルタを乗算することにより、その変化を打ち消すことができる。FIRフィルタの逆フィルタについては、任意の方法を用いてよい。また補正は、周波数領域で表してもよく、畳み込み項は積として、下記[数5]により表される。
 [数5]
Figure JPOXMLDOC01-appb-I000006
ここで、伝達パス特徴ベクトルh_trainの逆の逆フィルタを(h_train)-1、F(h_train)の逆特性をF(h_train)-1として表現すると、[数5]は[数6]のように書き換えられる。
 [数6]
Figure JPOXMLDOC01-appb-I000007
 補正後の学習信号である上記[数6]のx_train_new(t,n)は、モデル学習部404に出力される。
 モデル学習部404は、補正後の学習信号x_train_new(t,n)を用いてモデルPを作成する。モデル学習部404は、学習信号x_train(t,n)の伝達パス特徴ベクトルh_trainによる周波数特性変化を打ち消した信号であるx_train_newを用いてモデルを作成する。このため、伝達パスの影響に左右されずにモデルを作成することができる。
 モデル記憶部405は、モデル学習部404が出力したモデルPを記憶する。このモデルPha,音響信号の伝達パス特徴ベクトルh_trainを用いて補正した学習信号を用いて作成されてい。このため、異なる伝達パスが含まれるような学習信号を用いても伝達パスの影響に左右されないモデルを作成できる。
 続いて、上記したモデルを用いてパターン認識を行うパターン認識装置400の各部の動作について説明する。受音信号411は、伝達パス特徴抽出部412と入力信号補正部413にそれぞれ入力される。以下、受音信号411をx(t)とも記す。
 伝達パス特徴抽出部412及び入力信号補正部413は、伝達パス特徴抽出部402、入力信号補正部403と同様にして、受音信号x(t)を補正し、パターン認識部414に補正後の受音信号x_new(t)を出力する。パターン認識部414は、補正後の受音信号x_new(t)を入力としてx_new(t)に関するパターン認識を行い、結果を出力する。上記パターン認識部414では、上記モデルの作成過程と同様に、音響信号の伝達パス特徴ベクトルを用いて補正した信号に対してパターン認識処理を行う。このため、異なる伝達パスが含まれるような信号に対しても伝達パスの影響に左右されずパターン認識ができる。
 前述したとおり、本実施形態では、本実施形態では、パターン認識用のモデルの作成過程においても、音響信号の伝達パス特徴ベクトルを用いて補正した学習信号を用いてモデルを学習する。このため、異なる伝達パスが含まれるような学習信号を用いても伝達パスの影響に左右されないパターン認識を実施できる。
 また、音響信号の伝達パス特徴ベクトルを用いて補正した信号に対してパターン認識処理を行うため、異なる伝達パスが含まれるような信号に対しても伝達パスの影響に左右されずパターン認識ができる。
 つまり、本実施形態の構成もまた、伝達パスの影響に頑健で、より高い精度でのパターン認識精度を実現できるものとなっている。
[第5の実施形態]
 次に、本発明の第5の実施形態のパターン認識装置500について、図7を用いて説明する。
 図7は、本発明の第5の実施形態のパターン認識装置の構成を示す図である。図7を参照すると、伝達パス特徴抽出部502と、入力信号補正部503と、モデル学習部504と、モデル記憶部505とを含む学習信号からパターン認識用のモデルを作成する構成と、このモデルを用いてパターン認識を行うパターン認識装置500(破線内参照)とを含む構成が示されている。以下、伝達パス特徴抽出部502と、入力信号補正部503と、モデル学習部504と、モデル記憶部505とを含む学習信号からパターン認識用のモデルを作成する構成を「学習部」ともいう。
 この第5の実施形態は、上記第1~第4の実施形態の構成をすべて組み合わせたものである。具体的には、学習部では、伝達パス特徴ベクトルを用いた入力信号の補正と、モデルの補正が行われる。また、このモデルは、伝達パス特徴ベクトルから把握される伝達パスによって伝達パスごとに作成され、それぞれが伝達パス特徴ベクトルを特徴量として含んでいる。
 パターン認識装置500の動作も上記を組み合わせたものであり、パターン認識装置500は、伝達パス特徴ベクトルから把握される伝達パスによって伝達パスに対応するモデルを選択する。そして、パターン認識装置500は、伝達パス特徴ベクトルを用いた受音信号の補正と、モデルの補正が行った後で、伝達パス特徴ベクトルを含んだパターン認識を行う。
以上のような第1~第4を任意に組み合わせた構成を採ることで、より頑健なパターン認識を実施することが可能となる。なお、上記した第5の実施形態の説明では、上記第1~第4の実施形態の構成をすべて組み合わせるものとして説明したが、これらのすべてを組み合わせる必要はない。例えば、第1の実施形態と、第2~第4の実施形態のいずれか1~2つを組み合わせてもよい。同様に、第2の実施形態と、第3~第4の実施形態のいずれか1~2つを組み合わせてもよい。第3、第4の実施形態についても同様に、他の実施形態の1~3つを組み合わせることが可能である。
[第6の実施形態]
 次に、本発明の第6実施形態の統合型のパターン認識装置600について、図8を用いて説明する。
 図8は、本発明の第6の実施形態のパターン認識装置の構成を示す図である。図8を参照すると、パターン認識装置602と並列に第2の伝達パス識別部603を配置し、それぞれの出力が情報統合部604に入力される構成が示されている。
 受音信号601は、パターン認識装置602、第2の伝達パス識別部603に入力される。以下、受音信号601をx(t)とも記す。
 パターン認識装置602としては、上記第1から第5の実施形態を含む任意のパターン認識装置を用いることができる。従って、パターン認識装置602は、受音信号x(t)に関するパターン認識を行い、認識結果nを出力する。認識結果nは例えば「音声」や「音楽」など音響信号のパターンを表す。
 第2の伝達パス識別部603は受音信号x(t)の伝達パスを識別し、識別結果(ラベル)cを出力する。この識別結果cは例えば「木材」や「金属」などx(t)がどのような伝達パスを通って受音されたかを示す。なお、パターン認識装置602側に、モデル切替用のための伝達パス識別部が備えられている場合、その伝達パス識別部を第2の伝達パス識別部603として用いることができる。
 情報統合部604では、上記認識結果nと識別結果cとを入力とし、統合した情報を出力する。たとえば「空気中を伝播した音声」や、「木材を伝播した音楽」などである。
 ここで、情報統合した結果により、後段においてさらに処理を加えてもよい。例えば木材の壁で遮られた2つの部屋A、Bを想定し、部屋Aにおいて動作している音声検出装置の前段として統合型パターン認識装置600を配置することを考える。この場合、統合型パターン認識装置600はn={音声、その他}、c={空気、木材}というパターン認識を行うことになる。その場合、情報統合部604の出力は、「空気中を伝播した音声」、「木材を伝播した音声」、などがあり得る。ここで、部屋Aに設置された統合型パターン認識装置600の設置目的が、部屋A内部の人間の音声検出であった場合、部屋の仕切りを構成する木材や金属を介して伝わる部屋B内部の人間の音声は検出の対象から外れる情報となる。そうした場合、受音信号x(t)が音声であったとしても、情報統合部604の出力結果を利用して、その伝達パスによりパターン認識の対象から外したり、逆に、部屋Aで検出された音声についてパターン認識を行うなどのより細かい粒度によるパターン識別が可能となる。
 以上、説明したとおり、本実施形態では、音響信号の伝達パスを識別した結果を、音響信号のパターン認識結果と統合することにより、より細かい粒度のパターン識別を実現できる。
[第7の実施形態]
 また、この第6の実施形態の構成に、図3にて説明した識別モデル学習部に相当する構成を追加することも可能である。図9は、本発明の第6の実施形態のパターン認識装置の変形構成を示す図である。図9を参照すると、上段の学習部に相当する部分及び情報統合部718が組み込まれたパターン認識装置700の下段に、識別モデル学習部を構成する、伝達パス特徴抽出部722、パス識別モデル学習部723及びパス識別モデル記憶部724が追加されている。これらは、第1の実施形態の説明したものと同様であるもので、説明を省略する。
 パターン認識装置700の方は、図7に示した第5の実施形態の構成に、伝達パス特徴抽出部714及び(第2の)伝達パス識別部715を追加し、その後段に情報統合部718を配置した構成となっている。この構成は、パターン認識部717からの出力と、伝達パス識別部715からの出力とが情報統合部718に入力され、情報統合部718が統合した判断を行う第6の実施形態に相当するものである。従って、図9の構成は、第6の実施形態の構成に、別途、モデル学習部を構成する、伝達パス特徴抽出部722、パス識別モデル学習部723及びパス識別モデル記憶部724を追加したものとなる。これらの要素は、上記した核実施形態で説明済みであるので、説明を省略する。
[第8の実施形態]
 続いて上記第1、第5、第6、第7の実施形態の伝達パス識別部においてモデルを用いずに伝達パスを特定できるようにした第8の実施形態を説明する。図10は、本発明の第8の実施形態の伝達パス識別部の構成を示すブロック図である。図10を参照すると、本発明の第8の実施形態の伝達パス識別部800は、複数のセンサ8101と8102(以降、センサ1、センサ2とも記す)と、特徴量算出部8201と、伝達パス判断部8202とを含む。
 これらの手段はそれぞれ概略つぎのように動作する。複数のセンサ8101と8102は、一定の間隔をあけて固定され、それぞれ受信した信号の情報を得る。固定の方法の一例は、図11に示すように壁に沿ってセンサ8101、8102を配置するものである。本実施形態では、センサ8101、8102の出力はデジタル量の時系列信号として扱うことができるものとする。
 特徴量算出部8201は、センサ8101、8102で受信した信号から、一定時間周期ごとに、信号の到来、伝達に要した空間パスを表現する特徴量を算出する。
 伝達パス判断部8202は、前記特徴量を用いて、センサ8101、8102に入力されている信号が、空気中を伝搬してきたものか、あるいは固体中を伝搬してきたものかを判定し、判断結果8401を出力する。
 次に、図10~16を参照して、本実施形態の全体の動作について詳細に説明する。はじめに、本実施形態の伝達パス識別部が識別する対象とする2つの事象、空気中を伝搬する音と固体中を伝搬する音について、図11から図16を用いて説明する。空気中を伝播してくる音とは、図11に示すように、音源8300とセンサ8101およびセンサ8102の間に空気が介在して伝わるものである。この場合、図13に示すように、音源8300からセンサ1 8101に到達する音響パスとしては直接音である音響パス1-1の他に、反射音である音響パス1-2、音響パス1-3、音響パス1-4など複数の音響パスが存在する。この場合、受信点となるセンサ1ではこれらの音響パスを通った音が混じった形で観測されることが通例である。同様に、図14に示すように、音源8300からセンサ2 8102に到達する音響パスも、同様に観測される。
 これに対して、固体を伝播してくる音とは、図12に示すように固体、この場合は壁を例としているが、この固体に接して音源8300が存在する。この場合、図15に示すように、音源8300からセンサ1 8101に到達する音響パスとしては直接音である音響パスだけが存在し、反射音は存在しない。同様に、図16に示すように、音源8300からセンサ2 8102に到達する音響パスも、同様に観測される。
 ここではセンサ1 8101とセンサ2 8102には、マイクロフォンを用いる。特徴量算出部8201は、センサ8101とセンサ8102から入力される信号のクロススペクトルを逐次計算する。すなわち、センサ8101の信号系列x1(t)とセンサ8102の信号系列x2(t)について、それぞれのフーリエ変換をX1(f),X2(f)と置き、X2(f)の複素共役をX2*(f)とすれば、ある時刻におけるクロススペクトルW(f)は、W(f)=(X1(f) X2*(f))として計算することができる。
 このクロススペクトルそのもの、あるいはクロススペクトルの形状を適切な形状のフィルタで切り出したものが、音源8300からセンサ1 8101へのパスとセンサ2 8102へのパスの伝達関数の類似度の逆、すなわち差異を表す。
 ここでクロススペクトルを計算する際にノルム正規化を行うことにより、音の大きさへの依存性を除去することも可能である。
 この差異を逆フーリエ変換することで、複数のセンサ8101、8102の間の相互相関関数を得る。ここでは、この相互相関関数を特徴量として出力する。
 次に、伝達パス判断部8202の動作について説明する。もしも特徴量算出部8201が生成した相互相関関数が単一のピークを持つ場合は、複数のセンサ8101、8102の間に時間遅れの関係しか存在しないことは明らかである。この場合、反射波による影響は存在しないので、伝達パス判断部8202は固体中を伝搬してきた音であると判断し、判断結果8401として出力する。
 一方、特徴量算出部8201が生成した相互相関関数が複数のピークを持つ場合は、複数のセンサ8101、8102の間に時間遅れ以外の関係が存在することから、反射波による影響が存在するので、伝達パス判断部8202は空気中を伝搬してきた音であると判断し、判断結果8401として出力する。
 ここではセンサ数を2であるとして説明したが、センサ数を3以上とし、それぞれの間で判断を行い、多数決または論理和あるいは論理積を取って判断を行っても良く、それによって推定精度を高めることが可能である。
 また、受信した信号がある一定以上のパワーを持っている時だけ、伝達パス判断部8202が動作しても良い。それによってパワーの小さい信号ひいてはS/N比の小さい条件下で発生する誤りを低減することも可能となる。
 なお、上記した実施形態では典型的に伝達経路を空気中と固体中としたが、空気中は反射の存在する典型的な経路であり、固体中は反射の無い典型的な経路である範囲で、他の媒質としてもかまわない。例えば、空気中は、窒素などの気体、水などの液体で代えることができる。また固体中は、十分に粘性の高いゲル状の物体などで代えることができる。
 次に、本実施形態の効果について説明する。本実施形態によれば、複数のセンサを用いて信号の伝達パスを推定するため、受信点だけの情報があれば伝達パスの推定が可能であり、送信側あるいは伝達経路に関する情報を用いたモデルは必要ではない。換言すると、本実施形態は、特別な空間内キャリブレーションを必要とせず通常の運用で範囲が計算できるため、設置コストを低減することができるという利点もある。
[第9の実施形態]
 続いて、上記伝達パスの判定精度をより向上できるようにした第9の実施形態について図面を参照して詳細に説明する。図17は、本発明の第9の実施形態の構成を示すブロック図である。図17を参照すると、本発明の第9の実施形態の伝達パス識別部8100Aは、第8の実施形態の構成に加えて、蓄積部8203、範囲決定部8204及び判断モデル8205を有する。その他の構成は第1の実施形態と同様であるので、以下、その相違点を中心に説明する。
 蓄積部8203は、特徴量算出部8201が過去において算出した特徴量を一定期間蓄積する。蓄積部8203における特徴量の蓄積期間は、例えば複数のセンサ8101、8102を設置して以来といった長期間のものでも良いが、典型的には例えば過去1日間の特徴量を蓄積するものでもよい。以下、本実施形態では、蓄積部8203は、1フレームの長さを1秒間とし、重なりの無い1日分の86400フレームを蓄積するものとして説明する。
 範囲決定部8204は、蓄積部8203が蓄積した全フレームの特徴量を、特徴量空間にマップする。図18は、範囲決定部8204による特徴量のマッピングの例を示す。図18の例では、44フレームのみを記載しているが、蓄積されたフレーム数が変わっても同様である。
 ここで、図18は、該当特徴量に幾つのフレームが該当するかを数値で表現した、2つの相互相関関数を変数とした2次元ヒストグラム(ヒートマップとも言う。)である。図18の例では、37フレームがほぼ同一の特徴量を持ち、残るフレームはそれぞれ異なる特徴量を持つ。ここで、多数のフレームが同一の特徴量を持つということは、特徴量の分散が小さく遅延項のみで構成されていることであるから、図18で点線の円で示した範囲を、固体中を伝搬経路とする特徴量の範囲であると決定することができる。一方、その他の領域は特徴量の分散が大きいということであるから、それ以外の範囲を、空気中を伝搬経路とする特徴量の範囲であると決定することができる。ここで多数のフレームである条件としては、予め定められた閾値Dを超えた点全てを取るという条件を採用することができる。もちろん、閾値Dを超えたという条件の代わりに最大値を取る特徴量としても良い。また範囲の円の半径εは、雑音により影響を受ける範囲を想定して小さな値を予め決めることができる。
 判断モデル8205は、このようにして得られた範囲の情報を判断モデルとして保存したものである。従って、上記した範囲決定部8204は、判断モデル作成部と言い換えることもできる。
 なお、上記した蓄積部8203は、伝達パス識別部を構成するコンピュータの記憶装置を用いて構成することができる。同様に、判断モデル8205も、伝達パス識別部を構成するコンピュータの記憶装置に保存させることができる。
 伝達パス判断部8202は、特徴量算出部8201が出力した特徴量の値を、前記判断モデル(パス識別モデル)8205に保存された範囲の情報と比較して、該当特徴量が空気中の伝搬経路であるか固体中の伝搬経路であるかを決定し、該当判断結果8401を判断出力として出力する。
 次に、本実施形態の効果について説明する。本実施形態では、過去の情報を用いて判断を行うことができるため、設置した環境に応じて最適な判定を行い、その精度を向上させることが可能である。なお、上記した実施形態では、過去1日間の特徴量を蓄積し、判断モデル(パス識別モデル)8205を作成するものとして説明したが、蓄積した特徴量をさまざまな観点で層別し、複数の判断モデル(パス識別モデル)を作成してもよい。例えば、伝達パス識別部が設置される環境が時刻や季節によって環境が変わるというような場合には、当該時刻を含む時間帯、該当する季節に得られた特徴量を用いて判断モデルを作成し、その判断モデルを用いて判定を行うこともできる。
 上記した第8、第9の実施形態の伝達パス識別部を用いることにより、空気中伝播と固体中伝播の2種類の伝播方法を従来よりも精度高く識別できるようになる。このような伝達パス識別部を採用することにより、第1、第5、第6の実施形態において、空気中、固体中といった性質の異なる伝達パスの違いを判定することが可能となり、より頑健なパターン認識を実施することが可能となる。
 以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、各図面に示した装置構成、各要素の構成は、本発明の理解を助けるための一例であり、これらの図面に示した構成に限定されるものではない。また、以下の説明において、「A及び/又はB」は、A及びBの少なくともいずれかという意味で用いる。
 たとえば、上記した実施形態では、主として入力信号が音響信号であることを想定して説明したが、入力信号の例はこれに限られない。例えば、振動センサから得られる時系列振動信号など、空間中を伝播し伝わり、その伝達パスにより特性が変化するような信号にも本発明を適用することが可能である.当然に、系列データには等間隔の系列データのみでなく不等間隔の系列データも含まれる.
 本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
 また、上記した第1~第9の実施形態に示した手順は、パターン認識装置や伝達パス識別部として機能するコンピュータ(図19の9000)に、これらの装置としての機能を実現させるプログラムにより実現可能である。このようなコンピュータは、図19のCPU(Central Processing Unit)9010、通信インタフェース9020、メモリ9030、補助記憶装置9040を備える構成に例示される。すなわち、図19のCPU9010にて、パターン認識プログラムや伝達パス特徴抽出プログラムを実行し、その補助記憶装置9040等に保持された各計算パラメータの更新処理を実施させればよい。
 即ち、上記した第1~第9の実施形態に示したパターン認識装置や伝達パス識別部の各部(処理手段、機能)は、これらの装置に搭載されたプロセッサに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することができる。
 最後に、本発明の好ましい形態を要約する。
[第1の形態]
 (上記第1の視点によるパターン認識装置参照)
[第2の形態]
 上記したパターン認識装置において、前記モデルは、少なくとも2以上の異なる伝達パス毎に、前記伝達パスを介して観測された信号を用いて作成される複数のモデルであり、
 さらに、
 入力信号の特徴量から伝達パスを識別する伝達パス識別部を含み、
 前記パターン認識部は、
 前記複数のモデルから前記識別した伝達パスに対応するモデルを選択して入力信号のパターン認識を行う構成を採ることができる。
[第3の形態]
 前記モデルは、学習用信号の伝達パスの特徴を表す伝達パス特徴ベクトルを含む、前記学習用信号を用いて作成されたモデルであり、
 上記したパターン認識装置は、さらに、
 入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部を含み、
 前記パターン認識部は、前記モデルを用いて、入力信号の特徴に加え、前記入力信号から計算した伝達パス特徴ベクトルを用いて、入力信号のパターン認識を行う構成を採ることができる。
[第4の形態]
 上記したパターン認識装置は、さらに、
 入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
 前記伝達パス特徴ベクトルを用いて、前記モデルを補正するモデル補正部とを含み、
 前記パターン認識部は、前記補正後のモデルを用いて、入力信号のパターン認識を行う構成を採ることができる。
[第5の形態]
 上記したパターン認識装置は、さらに、
 前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
 前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う構成を採ることができる。
[第6の形態]
 上記したパターン認識装置は、さらに、
 入力信号の特徴量から伝達パスを識別する第2の伝達パス識別部と、
 前記パターン認識部の出力と、前記第2の伝達パス識別部の出力とを統合して、認識結果を出力する情報統合部と、を含む構成を採ることができる。
[第7の形態]
 上記したパターン認識装置に入力される入力信号が音響信号であり、少なくとも前記伝達パスが空気中か固体中かを識別してパターン認識を行う構成を採ることができる。
[第8の形態]
 上記したパターン認識装置において、
 前記伝達パス識別部及び前記第2のパス識別部の少なくとも一方が、
 複数のセンサのセンサ出力信号から特徴量を計算する特徴量算出部と、
 該当特徴量に対応して伝搬パスを判断する伝搬パス判断部と、
 を含んで構成されている構成を採ることができる。
[第9の形態]
 (上記第2の視点によるパターン認識方法参照)
[第10の形態]
 (上記第3の視点によるプログラム参照)
 なお、上記第9~第10の形態は、第1の形態と同様に、第2~第8の形態に展開することが可能である。
 なお、上記の特許文献および非特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし選択(又は削除)が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
001、111、211、301、411、511、601、711 受音信号
002、012、202、212、302、402、412,502、512、702、712、714、722 伝達パス特徴抽出部
003、724 パス識別モデル記憶部
004 パス識別部
011 パス学習用信号とそのラベルの組
013、723 パス識別モデル学習部
100、200、300、400、500、602、900 パターン認識装置
101、201、401、501、701 学習信号
004、102、112、603、715、800、8100A 伝達パス識別部
103、203、404、504、704 モデル学習部
104、204、303、405、505、705、901 モデル記憶部
113 モデル切替部
114、214、305、414、515、717、902 パターン認識部
304 モデル補正部
403、413、503、513、703、713 入力信号補正部
514、716 モデル補正・切替部
600 統合型パターン認識装置
604、718 情報統合部 
721 パス学習信号
8101、8102 センサ
8201 特徴量算出部
8202 伝達パス判断部
8203 蓄積部
8204 範囲決定部
8205 判断モデル
8300 音源
8301 壁
8401 判断結果
9000 コンピュータ
9010 CPU
9020 通信インタフェース
9030 メモリ
9040 補助記憶装置

Claims (10)

  1.  学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部と、
     前記モデルを用いて、入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、
     を含むパターン認識装置。
  2.  前記モデルは、少なくとも2以上の異なる伝達パス毎に、前記伝達パスを介して観測された信号を用いて作成される複数のモデルであり、
     さらに、
     入力信号の特徴量から伝達パスを識別する伝達パス識別部を含み、
     前記パターン認識部は、
     前記複数のモデルから前記識別した伝達パスに対応するモデルを選択して入力信号のパターン認識を行う請求項1のパターン認識装置。
  3.  前記モデルは、学習用信号の伝達パスの特徴を表す伝達パス特徴ベクトルを含む、前記学習用信号を用いて作成されたモデルであり、
     さらに、
     入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部を含み、
     前記パターン認識部は、前記モデルを用いて、入力信号の特徴に加え、前記入力信号から計算した伝達パス特徴ベクトルを用いて、入力信号のパターン認識を行う請求項1又は2のパターン認識装置。
  4.  さらに、
     入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
     前記伝達パス特徴ベクトルを用いて、前記モデルを補正するモデル補正部とを含み、
     前記パターン認識部は、前記補正後のモデルを用いて、入力信号のパターン認識を行う請求項1又は2のパターン認識装置。
  5.  さらに、
     前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
     前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う請求項4のパターン認識装置。
  6.  さらに、
     入力信号の伝達パスの特徴を表す伝達パス特徴ベクトルを計算する伝達パス特徴ベクトル抽出部と、
     前記伝達パス特徴ベクトルを用いて、前記入力信号を補正する入力信号補正部とを含み、
     前記パターン認識部は、前記補正後の入力信号を用いて、パターン認識を行う請求項1又は2のパターン認識装置。
  7.  さらに、
     入力信号の特徴量から伝達パスを識別する第2の伝達パス識別部と、
     前記パターン認識部の出力と、前記第2の伝達パス識別部の出力とを統合して、認識結果を出力する情報統合部と、を含む請求項1から6いずれか一のパターン認識装置。
  8.  前記入力信号が音響信号であり、少なくとも前記伝達パスが空気中か固体中かを識別してパターン認識を行う請求項1から7いずれか一のパターン認識装置。
  9.  前記伝達パス識別部及び前記第2の伝達パス識別部の少なくとも一方が、
     複数のセンサのセンサ出力信号から特徴量を計算する特徴量算出部と、
     該当特徴量に対応して伝達パスを判断する伝達パス判断部と、
     を含んで構成されている請求項7のパターン認識装置。
  10.  学習用信号に加えて、該学習用信号の伝達パスの違いを示す伝達パス情報を用いて作成されたモデルを記憶するモデル記憶部を備えるコンピュータが、
     入力信号と、該入力信号の伝達パスの違いを示す伝達パス情報とを入力するステップと、
     前記モデルを用いて、前記入力信号と、前記伝達パス情報とを入力として、入力信号のパターン認識を行うパターン認識部と、
     を含むパターン認識方法。
PCT/JP2018/018740 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム WO2019220532A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/054,646 US11620985B2 (en) 2018-05-15 2018-05-15 Pattern recognition robust to influence of a transfer path
PCT/JP2018/018740 WO2019220532A1 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム
JP2020518850A JP7211419B2 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/018740 WO2019220532A1 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム

Publications (1)

Publication Number Publication Date
WO2019220532A1 true WO2019220532A1 (ja) 2019-11-21

Family

ID=68539687

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/018740 WO2019220532A1 (ja) 2018-05-15 2018-05-15 パターン認識装置、パターン認識方法及びパターン認識プログラム

Country Status (3)

Country Link
US (1) US11620985B2 (ja)
JP (1) JP7211419B2 (ja)
WO (1) WO2019220532A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285103A (ja) * 2005-04-04 2006-10-19 Nissan Motor Co Ltd 音声認識装置および方法
JP2009157337A (ja) * 2007-12-06 2009-07-16 Sanyo Electric Co Ltd 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
JP2015082036A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
JP3204654B2 (ja) 2000-01-14 2001-09-04 富士技研センター株式会社 反射音を考慮した道路騒音の予測方法
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
JP2005031258A (ja) 2003-07-09 2005-02-03 Canon Inc 認識モデル学習装置及び方法
US8611560B2 (en) * 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8050142B2 (en) 2007-12-06 2011-11-01 Sanyo Electric Co., Ltd. Sound collection environment deciding device, sound processing device, electronic appliance, sound collection environment deciding method and sound processing method
JP2011085824A (ja) 2009-10-19 2011-04-28 Sony Corp 音響識別装置、その処理方法およびプログラム
US20130083929A1 (en) 2011-09-30 2013-04-04 Hitachi, Ltd. Method for analyzing sound transmission paths in a system
US9984678B2 (en) * 2012-03-23 2018-05-29 Microsoft Technology Licensing, Llc Factored transforms for separable adaptation of acoustic models
US8768695B2 (en) * 2012-06-13 2014-07-01 Nuance Communications, Inc. Channel normalization using recognition feedback
EP2877992A1 (en) * 2012-07-24 2015-06-03 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US10313782B2 (en) * 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
CN110603587A (zh) * 2017-05-08 2019-12-20 索尼公司 信息处理设备
US20190043509A1 (en) * 2017-08-04 2019-02-07 Cirrus Logic International Semiconductor Ltd. Audio privacy based on user identification
US10854186B1 (en) * 2019-07-22 2020-12-01 Amazon Technologies, Inc. Processing audio data received from local devices
US11356783B2 (en) * 2020-10-02 2022-06-07 Oticon A/S Hearing device comprising an own voice processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285103A (ja) * 2005-04-04 2006-10-19 Nissan Motor Co Ltd 音声認識装置および方法
JP2009157337A (ja) * 2007-12-06 2009-07-16 Sanyo Electric Co Ltd 集音環境判定装置及びそれを備えた電子機器並びに集音環境判定方法
JP2015082036A (ja) * 2013-10-23 2015-04-27 日本電信電話株式会社 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHU, SELINA ET AL.: "Environmental Sound Recognition with Time-Frequency Audio Features", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 17, no. 6, August 2009 (2009-08-01), pages 1142 - 1158, XP055364101, DOI: 10.1109/TASL.2009.2017438 *
LI, JINYU ET AL.: "An Overview of Noise-Robust Automatic Speech Recognition", IEEE /ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 22, no. 4, March 2014 (2014-03-01), pages 745 - 777, XP011540375, DOI: 10.1109/TASLP.2014.2304637 *

Also Published As

Publication number Publication date
US11620985B2 (en) 2023-04-04
US20210074268A1 (en) 2021-03-11
JP7211419B2 (ja) 2023-01-24
JPWO2019220532A1 (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
EP3142106B1 (en) Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
CN110352349B (zh) 异常音检测装置、异常度计算装置、异常音生成装置、异常信号检测装置、及其方法、记录介质
CN110767223B (zh) 一种单声道鲁棒性的语音关键词实时检测方法
KR102087307B1 (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
KR20160089210A (ko) 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
JP5233827B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
CN104737229A (zh) 用于变换输入信号的方法
CN102576543A (zh) 多输入噪声抑制装置、多输入噪声抑制方法、程序以及集成电路
WO2018131099A1 (ja) 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
JPWO2015129760A1 (ja) 信号処理装置、方法及びプログラム
Zheng et al. Recursive adaptive algorithms for fast and rapidly time-varying systems
WO2018003158A1 (ja) 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
KR20190032868A (ko) 음성인식 방법 및 그 장치
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP5986966B2 (ja) 音場収音再生装置、方法及びプログラム
WO2019220532A1 (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
JP2022092827A (ja) 計算機システム及びデータ処理方法
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2021062705A1 (zh) 一种单声道鲁棒性的语音关键词实时检测方法
JP6984744B2 (ja) 伝搬パス推定装置、伝搬パス推定方法及びプログラム
JP2010049102A (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
CN114495974B (zh) 音频信号处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18918485

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020518850

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18918485

Country of ref document: EP

Kind code of ref document: A1