WO2020255318A1 - 学習データ拡張装置、学習データ拡張方法、およびプログラム - Google Patents

学習データ拡張装置、学習データ拡張方法、およびプログラム Download PDF

Info

Publication number
WO2020255318A1
WO2020255318A1 PCT/JP2019/024422 JP2019024422W WO2020255318A1 WO 2020255318 A1 WO2020255318 A1 WO 2020255318A1 JP 2019024422 W JP2019024422 W JP 2019024422W WO 2020255318 A1 WO2020255318 A1 WO 2020255318A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
learning data
rotation operation
observation signal
observation
Prior art date
Application number
PCT/JP2019/024422
Other languages
English (en)
French (fr)
Inventor
安田 昌弘
悠馬 小泉
登 原田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/024422 priority Critical patent/WO2020255318A1/ja
Priority to JP2021528554A priority patent/JP7207539B2/ja
Priority to US17/619,593 priority patent/US11886996B2/en
Publication of WO2020255318A1 publication Critical patent/WO2020255318A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to an extension technique for learning data.
  • Non-Patent Documents 2 and 3 a method called data augmentation is used (see, for example, Non-Patent Documents 2 and 3). In this method, other new training data is generated from the training data to increase the number of training data.
  • the conventional data expansion method has a problem that the transmission characteristics of the original training data are destroyed when other new training data is generated from the training data. Therefore, the conventional data expansion method cannot be applied to the model that estimates the arrival direction of the acoustic signal. Such a problem is common not only when estimating the arrival direction of an acoustic signal but also when estimating the arrival direction of other signals. Further, it is a common problem in the case of estimating the arrival direction of a signal without estimating the "type of acoustic signal" and the "time of the acoustic signal".
  • the present invention has been made in view of these points, and an object of the present invention is to increase the number of training data that can be used for learning an estimation model of a signal arrival direction.
  • the first observation signal corresponding to the arrival signal from the first direction is input, and the angle rotation operation with respect to the first observation signal is performed to obtain the second observation signal corresponding to the arrival signal from the second direction different from the first direction. Obtain and add the second observation signal to the set of training data.
  • FIG. 1 is a block diagram illustrating the functional configuration of the learning data expansion device of the embodiment.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the learning data expansion device of the embodiment.
  • FIG. 3 is a flow chart for exemplifying the learning data expansion method of the embodiment.
  • 4A and 4B are diagrams for exemplifying the angular rotation operation of the embodiment.
  • STFT Short Time Fourier Transform
  • C represents a complex number
  • F represents the number of frequency indexes (the number of discrete frequencies)
  • represents the number of time indexes (the number of discrete times)
  • CF ⁇ ⁇ represents a set consisting of F ⁇ ⁇ complex numbers.
  • the discrete frequency of the frequency index f ⁇ ⁇ 1, ..., F ⁇ is expressed as "frequency f”
  • the discrete frequency of the time index t ⁇ ⁇ 1, ..., ⁇ is expressed as "time t”.
  • a tensor that summarizes D (1) , ..., D (M) corresponding to the acoustic signals observed by the M microphones from the 1st to the Mth is expressed as follows. Further, a variable that is 1 if the sound source of the cth class is sounding at time t and 0 if it is not sounding is expressed as pc , t ⁇ ⁇ 0,1 ⁇ . Let the variables representing the azimuth and elevation / depression angles of the c-th class sound source existing at time t be a c, t , ec , and t , respectively.
  • Non-Patent Document 3 and Reference 1 propose an estimation method using the function M ⁇ as a neural network.
  • Reference 1 Y. Cao, Q. Kong, T. Iqbal, F. An, W. Wang, and MD Plumbley "Polyphonic Sound Event Detection and Localization using a Two-Stage Strategy," arXiv preprint, arXiv: 1905. 00268 , 2019.
  • the acoustic event detection and the sound source direction estimation are estimated by different networks (functions) S ⁇ S and D ⁇ D as follows.
  • the parameter sigma S of S .sigma.s are trained to minimize the binarization cross entropy (binary cross-entropy), D ⁇ D is A and A ⁇ mean absolute error and E in a section where the sound source is present We are learning to minimize the mean absolute error of E ⁇ .
  • the upper right subscript " ⁇ " of "A ⁇ " and “E ⁇ " should be written directly above “A” and "E", respectively, but due to restrictions on the description, "A” and "E” It is described in the upper right of each.
  • the new data expansion method in order to increase the number of training data without destroying the transmission characteristics, the first observation signal corresponding to the arrival signal from the first direction is input, and the angle rotation operation with respect to the first observation signal is performed. The second observation signal corresponding to the arrival signal from the second direction different from the first direction is obtained, and the second observation signal is added to the set of training data. As a result, the number of training data can be increased without destroying the transmission characteristics.
  • Ambisonic microphones include omnidirectional microphones (sensors), microphones that are directional in the X-axis direction, microphones that are directional in the Y-axis direction, and microphones that are directional in the Z-axis direction. ..
  • the X-axis, Y-axis, and Z-axis are coordinate axes of a Cartesian coordinate system.
  • the X-axis is the vertical axis
  • the Y-axis is the horizontal axis
  • the Z-axis is the front-rear axis.
  • FOA signal converted into the format B- is, W component D based on the observed signal in omnidirectional microphone (W), based on the signals observed by the microphones having directivity in the X-axis direction X component D ( X) , Y component D (Y) based on the signal observed by the microphone directional in the Y axis direction, and Z component D (Z) based on the signal observed by the microphone directional in the Z axis direction.
  • W component D based on the observed signal in omnidirectional microphone (W), based on the signals observed by the microphones having directivity in the X-axis direction
  • X component D ( X) based on the signals observed by the microphones having directivity in the X-axis direction
  • Y component D (Y) based on the signal observed by the microphone directional in the Y axis direction
  • Z component D (Z) based on the signal observed by the microphone directional in the Z axis direction.
  • "*" represents multiplication, and H 1 ( ac, t , ec , t , f), H 2 ( ac, t , ec , t , f), H 3 ( ac, t , ec , t , f), H 4 ( ac, t ,
  • H 1 ( ac, t , ec , t , f)
  • H 2 ( ac, t , ec , t , f)
  • H 3 ( ac, t , ec , t , f)
  • F is omitted from H 4 ( ac, t , ec , t , f)
  • the transfer function vectors H c, t having these as elements are expressed as follows.
  • the FOA signal converted to the B-format is expressed as follows.
  • D t, f (W) , D t, f (Y) , D t, f (Z) , D t, f (X) are W components D (W) at time t and frequency f, respectively.
  • W component D (Y) , W component D (Z) , W component D (X) are W components D (W) at time t and frequency f, respectively.
  • the new data extension method, D t, the azimuth angle a c a f, t and / or elevation depression angle e c perform angular rotation operation of t, D t, f and DOA different signal To generate.
  • represents the rotation angle of the azimuth angle
  • represents the rotation angle of the elevation / depression angle.
  • At least one of ⁇ and ⁇ is non-zero. That is, ⁇ ⁇ 0 or ⁇ ⁇ 0.
  • the transfer function vectors H c, t and H'c, t, ⁇ , ⁇ clearly have no distance attenuation term and represent only angular rotation. Therefore, by multiplying the rotation matrix from the left side of the D t, f, can be obtained D t, the azimuth angle a c a f, t and / or elevation depression angle e c, is rotated t D 't, f ..
  • a T represents the transpose of a.
  • a well-known rotation matrix R ⁇ , ⁇ , ⁇ with the rotation amounts in the vertical direction (roll), the horizontal direction (pitch), and the front-back direction (yaw) as ⁇ , ⁇ , and ⁇ , respectively is used.
  • K t, f multiplied from the left side is a vector And it is sufficient.
  • the rotation matrices R ⁇ , ⁇ , and ⁇ are illustrated below.
  • the required angle rotation operation can be performed by a simpler algorithm.
  • the new algorithm will be described below.
  • the rotation matrix R ⁇ that performs the rotation operation in the azimuth direction on the observation signal vectors K t and f can be described as follows.
  • K t, f ⁇ R ⁇ K t, f be a vector obtained by rotating the observation signal vectors K t, f by an angle ⁇ only in the azimuth direction.
  • K t, f ⁇ R ⁇ K t, f be a vector obtained by rotating the observation signal vectors K t, f by an angle ⁇ only in the azimuth direction.
  • K t and f ⁇ by an angle ⁇ in the elevation and depression angle directions, but there are two points to note.
  • the range of elevation and depression angles in the sound source direction is [- ⁇ / 2, ⁇ / 2], it is necessary to select ⁇ so that ec and t + ⁇ fall within that range.
  • the rotation of the vectors K t and f ⁇ in the elevation and depression angle directions is not the original Cartesian coordinate system of the observed signal vectors K t and f , but the orthogonal coordinate system obtained by rotating this Cartesian coordinate system only by the angle ⁇ in the azimuth direction. It is done in the coordinate system.
  • this angle rotation operation is further directed to the first Cartesian coordinate system with respect to the azimuth angle rotation signal obtained by performing the rotation operation of the angle ⁇ in the azimuth angle direction with respect to the first observation signal in the first Cartesian coordinate system.
  • This is an operation of rotating the angle ⁇ in the elevation / depression angle direction in the second Cartesian coordinate system obtained by rotating the angle ⁇ in the angular direction.
  • the first Cartesian coordinate system is defined by the X-axis, Y-axis, and Z-axis that are orthogonal to each other in the three-dimensional space (FIG. 4A: X-axis-Y-axis-Z-axis), and the first Cartesian coordinate system is in the three-dimensional space.
  • K t, f ' K t, f ⁇ ⁇ cos ⁇ + cross (u, K t, f ⁇ ) sin ⁇ + u ⁇ dot (u, K t, f ⁇ ) (1-cos ⁇ ) (3)
  • u (sin (a c, t + ⁇ ), cos (a c, t + ⁇ ), 0) T
  • cross (a, b) is the cross product (outer product) of a and b.
  • Dot (a, b) is the dot (inner product) of a and b
  • a T is the transpose of a.
  • the observation signal vectors K t and f can be converted into the vectors K t and f'without performing the calculation between the matrices. That is, in the equation (3), the azimuth angles a c, t + ⁇ are limited to ⁇ a c, t + ⁇ - ⁇ / 2,0, ⁇ / 2, ⁇ , and the elevation / depression angles e c, t + ⁇ are ⁇ e. It is limited to only c and t, and the combination of the azimuth ac, t + ⁇ and the elevation / depression angle e c, t + ⁇ is limited to only 16 patterns.
  • a c, t + ⁇ is, a c, t - ⁇ / 2 , a c, t, a c, t + ⁇ / 2, a c, t + ⁇ , -a c, t - ⁇ / 2, -a c , T , -a c, t + ⁇ / 2, or -a c, t + ⁇ , where ec , t + ⁇ is ec , t or -ec , t .
  • the calculation of the equation (3) does not require the operation between the matrices, and K t, f'is obtained only by (I) sign inversion of the elements of the observed signal vectors K t, f and (II) channel replacement. be able to.
  • the set of azimuth and elevation / depression angles the elements D t, f (X) , D t, f (Y) , D t, f (Z) of K t, f, and K't, f elements D 't, f (X) , D' t, f (Y), showing the relationship between D 't, f (Z) .
  • the learning data expansion device 1 of the present embodiment has a control unit 11, a storage unit 12, an angle rotation operation unit 13, and a learning data addition unit 14.
  • the learning data expansion device 1 executes each process under the control of the control unit 11.
  • the learning data expansion device 1 is, for example, a device configured by a general-purpose or dedicated computer 100 as illustrated in FIG. 2 executing a predetermined program.
  • the computer 100 illustrated in FIG. 2 has a processor 101, a storage unit 102, an input unit 103, an output unit 104, a display unit 105, and a bus 106.
  • the display unit 105 may be omitted.
  • the processor 101 is, for example, a CPU (central processing unit) or the like.
  • the processor 101 has, for example, a register for storing data, an arithmetic unit for performing arithmetic processing, and a controller for controlling arithmetic processing, reading and writing of data, and the like.
  • the processor 101 executes various arithmetic processes according to various programs read in the registers.
  • the processor 101 may include only one CPU, or may include a plurality of CPUs. This program may be installed in the computer 100, or may be recorded in advance in the storage unit 102 or the like.
  • the input unit 103 is a touch panel, input port, keyboard, mouse, communication device, etc. for inputting data
  • the output unit 104 is an output port, communication device, etc. for outputting data.
  • the storage unit 102 is a main storage device such as RAM (Random Access Memory) such as SRAM (Static Random Access Memory) and DRAM (Dynamic Random Access Memory), and auxiliary storage such as a hard disk, MO (Magneto-Optical disc), and semiconductor memory. Equipment etc.
  • the bus 106 communicatively connects the processor 101, the storage unit 102, the input unit 103, the output unit 104, and the display unit 105.
  • the storage unit 12 contains observation signal vectors D t, f (first observation corresponding to incoming signals from the first direction) based on signals emitted from one or more sound sources and observed by a plurality of microphones. Signal) is stored.
  • the observation signal vectors D t and f are learning data used for learning the model, and a set thereof is stored in the storage unit 12.
  • An example of the model is a model that estimates based on the transmission characteristics of the acoustic signal from the observation signal based on the acoustic signal observed by the microphone.
  • This model may estimate "type of acoustic signal”, “time of acoustic signal”, and “direction of arrival of acoustic signal”, or may estimate only "direction of arrival of acoustic signal”. Alternatively, the "direction of arrival of the acoustic signal” and other information regarding the acoustic signal may be estimated.
  • An example of the model is a model based on the above-mentioned neural network, but it may be a stochastic model such as a hidden Markov model or a classifier such as an SVM (support vector machine).
  • the observation signal vectors D t and f may be supervised learning data with a correct answer label or unsupervised learning data without a correct answer label.
  • the training data may be used as it is for machine learning, or the features extracted from the training data may be used for machine learning.
  • the angle rotation operation unit 13 first reads the observation signal vectors D t, f (first observation signal corresponding to the arrival signal from the first direction) from the storage unit 12. , The observation signal vector D' t, f (from the second direction different from the first direction) corresponding to the arrival direction different from the observation signal vector D t, f by performing the angle rotation operation with respect to the observation signal vector D t, f . The second observation signal corresponding to the arrival signal) is obtained and output.
  • the angle rotation operation unit 13 is converted into a vector consisting of elements D t, f (X) , D t, f (Y) , D t, f (Z) included in the input observation signal vectors D t, f.
  • Multiply the rotation matrix and obtain a vector having D' t, f (X) , D' t, f (Y) , D' t, f (Z) and D t, f (W) as elements. It is obtained and output as the observation signal vectors D' t and f .
  • the rotation matrix for example, the rotation matrices R ⁇ , ⁇ , ⁇ of the above-mentioned equation (1) can be exemplified, but this does not limit the present invention.
  • the azimuth angles ac and t of the observation signal vectors D t and f are changed to the azimuth angles a c and t + ⁇ , and the elevation and depression angles e c and t are raised.
  • the angle rotation operation unit 13 may perform an angle rotation operation with respect to the observed signal vectors D t, f with the azimuth angle ⁇ and the elevation / depression angle ⁇ selected in advance, or the azimuth angle ⁇ and the azimuth angle ⁇ input to the angle rotation operation unit 13.
  • An angle rotation operation with respect to the observed signal vectors D t and f may be performed at an elevation / depression angle ⁇ .
  • the order of the elements D' t, f (X) , D' t, f (Y) , D' t, f (Z) , D t, f (W) constituting the observation signal vectors D' t, f is It is desirable to correspond to the order of the elements that make up the observation signal vectors D t and f .
  • the order of the W component D (W) , the W component D (Y) , the W component D (Z) , and the W component D (X) constituting the observation signal vectors D t, f is the observation signal vector D' t, It is desirable that the order is the same as the order of W component D (W) , W component D (Y) , W component D (Z) , and W component D (X) constituting f .
  • the observed signal vector D 't than available for sorting the elements constituting the f after, constituting the observation signal vector D t, f W component D (W), W component D (Y), W component
  • the order of D (Z) and W component D (X) is W component D (W) , W component D (Y) , W component D (Z) , W component D that constitute the observation signal vectors D' t, f.
  • the order may be different from that of (X) (step S13).
  • the observation signal vectors D' t and f obtained as described above are sent to the learning data addition unit 14.
  • the learning data addition unit 14 stores the observation signal vectors D' t, f (second observation signal) in the storage unit 12 and adds them to the set of learning data.
  • the learning data addition unit 14 further includes the correct answer labels of the observation signal vectors D t, f , the azimuth angles a c, t + ⁇ , and the elevation / depression angle e c, t + ⁇ (or azimuth ⁇ and elevation / depression angle ⁇ ) is input.
  • Learning data addition section 14 'to generate a true label of t, f, the resulting true label observed signal vector D' observation signal vector D using these impart t, to f. That is, since the difference between the observation signal vectors D t, f and the observation signal vectors D' t, f is only the information corresponding to the arrival direction of the acoustic signal, the correct answer attached to the observation signal vectors D t, f. Of the labels, the correct label is attached to the observation signal vector D' t, f by replacing only the information corresponding to the arrival direction of the acoustic signal with the information corresponding to the azimuth angles a c, t + ⁇ and the elevation / depression angles e c, t + ⁇ .
  • observation signal vectors D' t and f with the correct answer label are stored in the storage unit 12 as learning data.
  • the observation signal vectors D t and f are unsupervised learning data, the observation signal vectors D' t and f are stored in the storage unit 12 as learning data (step S14).
  • the control unit 11 determines whether or not to continue the expansion processing of the learning data (step S15). There is no limitation on the criteria for determining whether to continue the extended processing. For example, it may be determined that the expansion process is continued until a desired number of training data are added, the expansion process may be determined to continue until the maximum number of expandable training data is reached, or the model may be determined. It may be determined that the expansion process is continued until the desired estimation accuracy can be secured. If it is determined that the extended processing is to be continued, the processing returns to step S13. If not, the process ends.
  • This embodiment is a modification of the first embodiment.
  • a second Cartesian coordinate system (FIGS. 4A and 4B: X'axis-Y'axis-Z axis) obtained by further rotating the first Cartesian coordinate system at an angle ⁇ in the azimuth angle direction with respect to the angular rotation signal.
  • the differences from the first embodiment will be mainly described, and the same reference numbers will be used for the matters already described to simplify the description.
  • the learning data expansion device 2 of the present embodiment has a control unit 11, a storage unit 12, an angle rotation operation unit 23, and a learning data addition unit 14.
  • the learning data expansion device 2 executes each process under the control of the control unit 11.
  • the learning data expansion device 2 is also a device configured by, for example, a general-purpose or dedicated computer 100 as illustrated in FIG. 2 executing a predetermined program.
  • the azimuth angle rotation signal obtained by performing the rotation operation of the angle ⁇ in the azimuth angle direction in the first orthogonal coordinate system with respect to the observation signal vectors D t, f is further subjected to the third.
  • the observation signal vectors D' t and f are obtained by rotating the angle ⁇ in the elevation / depression angle direction.
  • the observation signal vectors D t, f (first observation signal) are the X component D (X) based on the signal observed by the microphone (sensor) having directivity in the X-axis direction, in the Y-axis direction. It has a Y component D (Y) based on a signal observed by a directional microphone and a Z component D (Z) based on a signal observed by a directional microphone in the Z-axis direction.
  • the elevation / depression angles ec , t + ⁇ of the observation signal vectors D' t, f are ⁇ / 2 or more and ⁇ / 2 or less. (That is, this operation is performed so that it falls within the range of elevation and depression angles).
  • the observation signal vectors D t, f are based on the signals observed by the primary ambisonic method, and the rotation operation in the azimuth direction changes the azimuth angle from a c, t to a c, t + ⁇ .
  • the rotation operation in the elevation / depression angle direction is a rotation operation in which the elevation / depression angle is changed from ec , t to ec , t + ⁇ .
  • t, f (Y) , D' t, f (Z) ) T is obtained, and the elements D' t, f (X) , D' t, f (Y) , D' t, of the vectors K't, f .
  • a vector having f (Z) and D t, f (W) as elements is obtained as an observation signal vector D' t, f and output.
  • Other processing is the same as that of the first embodiment.
  • the elevation / depression angles a c, t + ⁇ of the observation signal vectors D' t, f are a c, t ⁇ / 2, a c, t , a c, t + ⁇ / 2, a c, t + ⁇ . , -A c, t - ⁇ / 2, -a c, t , -a c, t + ⁇ / 2, or -a c, t + ⁇ , and the azimuth angles ec , t + ⁇ are e c. , T or -ec , t .
  • the learning data expansion device 3 of the present embodiment has a control unit 11, a storage unit 12, an angle rotation operation unit 33, and a learning data addition unit 14.
  • the learning data expansion device 2 executes each process under the control of the control unit 11.
  • the learning data expansion device 3 is also a device configured by, for example, a general-purpose or dedicated computer 100 as illustrated in FIG. 2 executing a predetermined program.
  • step S13 is replaced with the step S33 described below. Since other matters are the same as those of the first embodiment, the description thereof will be omitted.
  • step S33 D t, f (X) , D t, f (Y) , D t, f (Z) extracted from the observation signal vectors D t, f read from the storage unit 12 by the angle rotation operation unit 33.
  • GCC-PHAT for example, Reference 4
  • the arrival direction of the acoustic signal is estimated using the model obtained in this way (this method)
  • the arrival direction of the acoustic signal is estimated by the method of Reference 1 without such data expansion.
  • the comparison result of DOA error for example, Non-Patent Document 1 with the case where the estimation is performed (conventional method) is shown.
  • DOA error is an index of an error with respect to the true arrival direction of the arrival direction of the acoustic signal.
  • DOA error Conventional method 9.85 °
  • This method 7.12 °
  • the DOA error was reduced by 2.73 ° as compared with the conventional method. This indicates that this method is effective for data expansion of training data.
  • Reference 4 CH Knapp and G. Carter, “The generalized correlation method for estimation of time delay,” IEEE Transactions on Acoustics, Speech, and Signal Processing (Volume: 24, Issue: 4, Aug 1976), pp. 320- 327.
  • Reference 5 K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Microsoft Research.
  • the present invention is not limited to the above-described embodiment.
  • the FOA signal converted to the B-format is used as the first observation signal, but this does not limit the present invention.
  • Other signals based on the signals obtained by observing the acoustic signal with a plurality of microphones may be used as the first observation signal.
  • the arrival signal is an acoustic signal
  • the first observation signal and the second observation signal are based on the signals obtained by observing the acoustic signal.
  • the incoming signal is a time-series signal other than the acoustic signal (for example, an electromagnetic wave, a seismic wave, an ultrasonic wave, etc.), and a sensor capable of observing this time-series signal may be used instead of the microphone.
  • the first observation signal and the second observation signal may be based on signals obtained by observing time-series signals other than acoustic signals with a sensor.
  • a signal obtained by converting a time-series signal other than an acoustic signal by observing it with a sensor into a time frequency domain may be used as a first observation signal.
  • the first observation signal and the second observation signal are signals in the time frequency domain, but these may be signals in the time domain.
  • the signal obtained by observing the time series signal with the sensor may be used as the first observation signal.
  • the first observation signal and the second observation signal include the W component D (W) based on the signal observed by the omnidirectional microphone, but the first observation signal and the second observation signal The signal does not have to contain the W component D (W) .
  • the W component D of the first observation signal (W) as W component D of the second observation signal (W)
  • the function value of the W component D of the first observation signal (W) or Other values may be the W component D (W) of the second observation signal.
  • the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, the above processing function is realized on the computer.
  • the program describing the processing content can be recorded on a computer-readable recording medium.
  • An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such recording media are magnetic recording devices, optical disks, opto-magnetic recording media, semiconductor memories, and the like.
  • the distribution of this program is performed, for example, by selling, transferring, renting, or the like a portable recording medium such as a DVD or a CD-ROM in which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program.
  • a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time.
  • the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and the result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.
  • the present invention can be used, for example, in the field of estimating "type of acoustic signal", “time of acoustic signal”, and “direction of arrival of acoustic signal” from an acoustic signal observed by a microphone.
  • acoustic signal For example, in an autonomous vehicle, it can be used as a basic technology for estimating from which direction an emergency vehicle is arriving.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

第1方向からの到来信号に対応する第1観測信号を入力とし、第1観測信号に対する角度回転操作を行って、第1方向と異なる第2方向からの到来信号に対応する第2観測信号を得、第2観測信号を学習データの集合に追加する。

Description

学習データ拡張装置、学習データ拡張方法、およびプログラム
 本発明は、学習データの拡張技術に関する。
 マイクロホンで観測した音響信号から「音響信号の種類」「音響信号の時刻」「音響信号の到来方向(音源の方向)」を推定する技術分野(例えば、何れの種類の音が、いつ(開始時刻と終了時刻)、どの方向から鳴っているかを推定する技術分野)がある(例えば、非特許文献1等参照)。
 このような技術分野では、十分な学習データを収集することが困難であるという課題がある。一般的に、機械学習において学習データが足りない場合、データ拡張(data augmentation)という手法が用いられる(例えば、非特許文献2,3等参照)。この手法では、学習データから他の新たな学習データを生成して、学習データ数を増加させる。
S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks," IEEE Journal of Selected Topics in Signal Processing, Vol. 13-1, pp. 34-48, 2019. T. Inoue, P. Vinayavekhin, S. Wang, D. Wood, N. Greco and R. Tachibana, "Domestic Activities Classification Based on CNN Using Shuffling and Mixing Data Augmentation," Tech. Report of DCASE 2018 task 5, 2018. M. Lasseck, "ACOUSTIC BIRD DETECTION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS," Tech. Report of DCASE 2018 task 5, 2018.
 しかし、従来のデータ拡張法では、学習データから他の新たな学習データを生成する際に、元の学習データの伝達特性を破壊してしまうという問題がある。そのため、音響信号の到来方向の推定を行うモデルに、従来のデータ拡張法を適用することはできない。このような問題は、音響信号の到来方向の推定を行う場合のみならず、その他の信号の到来方向を推定する場合にも共通するものである。また、「音響信号の種類」や「音響信号の時刻」の推定を行わずに信号の到来方向を推定する場合もの共通する問題である。
 本発明はこのような点に鑑みてなされたものであり、信号の到来方向の推定モデルの学習に使用可能な学習データの数を増加させることを目的とする。
 第1方向からの到来信号に対応する第1観測信号を入力とし、第1観測信号に対する角度回転操作を行って、第1方向と異なる第2方向からの到来信号に対応する第2観測信号を得、第2観測信号を学習データの集合に追加する。
 本発明では、信号の到来方向の推定モデルの学習に使用可能な学習データの数を増加させることができる。
図1は、実施形態の学習データ拡張装置の機能構成を例示したブロック図である。 図2は、実施形態の学習データ拡張装置のハードウェア構成を例示したブロック図である。 図3は、実施形態の学習データ拡張方法を例示するためのフロー図である。 図4Aおよび図4Bは、実施形態の角度回転操作を例示するための図である。
 以下、図面を参照して本発明の実施形態を説明する。
 [原理]
 まず、原理を説明する。
 一例として、複数のマイクロホンで観測して得られた信号に基づいて「音響信号の種類」「音響信号の発生時刻」「音響信号の到来方向(方位角および仰俯角)」を推定する場合について説明する。しかし、これは本発明を限定するものではない。一例としてM個のマイクロホンで音響信号が観測されるとする。Mは2以上の整数である。m番目(m∈{1,…,M})のマイクロホンで観測される信号を時間周波数領域に変換して得られる複素スペクトログラムをD(m)∈CF×τと表現する。時間周波数領域への変換の一例は、短時間フーリエ変換(STFT)である。ただし、Cは複素数、Fは周波数インデックス数(離散周波数の個数)、τは時間インデックス数(離散時間の個数)を表し、CF×τはF×τ個の複素数からなる集合を表す。周波数インデックスf∈{1,…,F}の離散周波数を「周波数f」と表現し、時間インデックスt∈{1,…,τ}の離散周波数を「時間t」と表現する。また、1番目からM番目までのM個のマイクロホンで観測された音響信号に対応するD(1),…,D(M)をまとめたテンソルを以下のように表現する。
Figure JPOXMLDOC01-appb-M000002

また、時間tでc番目のクラスの音源が鳴っていれば1、鳴っていなければ0となる変数をpc,t∈{0,1}と表現する。時刻tで存在するc番目のクラスの音源の方位角と仰俯角を表す変数をそれぞれac,t、ec,tとする。すると、上述した複数のマイクロホンで観測して得られた信号に基づいて「音響信号の種類」「音響信号の発生時刻」「音響信号の到来方向」を推定する問題は、Dからpc,tを要素に持つ行列
Figure JPOXMLDOC01-appb-M000003

と、ac,tを要素に持つ行列
Figure JPOXMLDOC01-appb-M000004

と、ec,tを要素に持つ行列
Figure JPOXMLDOC01-appb-M000005

を推定する関数を推定する問題として定式化できる。ここで[α.β)はα以上、β未満の範囲を表す。Nは自然数の集合を表し、Rは実数の集合を表す。この問題は、
Figure JPOXMLDOC01-appb-M000006

となる関数Mσのパラメータσを学習する問題である。ただし、
Figure JPOXMLDOC01-appb-M000007

は、それぞれP,A,Eの推定行列を表す。Pの推定を音響イベント検出、A,Eの推定を音源方向推定(音響信号の到来方向の推定)と呼ぶ。例えば、非特許文献3および参考文献1では、関数Mσをニューラルネットワークとした推定方法が提案されている。
 参考文献1:Y. Cao, Q. Kong, T. Iqbal, F. An, W. Wang, and M. D. Plumbley "Polyphonic Sound Event Detection and Localization using a Two-Stage Strategy," arXiv preprint, arXiv: 1905. 00268, 2019.
 特に参考文献1では、音響イベント検出と音源方向推定とを、以下のように別のネットワーク(関数)SσS,DσDで推定している。
Figure JPOXMLDOC01-appb-M000008

Figure JPOXMLDOC01-appb-M000009

そして、SσSのパラメータσは二値化交差エントロピー(binary cross-entropy)を最小化するように学習され、DσDは音源が存在する区間でのAとA^の平均絶対誤差およびEとE^の平均絶対誤差を最小化するように学習している。なお「A^」「E^」の右上添え字「^」は、本来、それぞれ「A」「E」の真上に記載すべきであるが、記載表記の制約上、「A」「E」の右上にそれぞれ記載している。
 このような問題の場合、推定変数が3種類あるため、例えば、Mσをニューラルネットワークで実現する場合、多層な畳み込みニューラルネットワークやリカレントニューラルネットワークが必要になる。こういった複雑なニューラルネットワークを利用する場合、大量の学習データが必要である。学習データ量を擬似的に増加させるために(データ拡張)、音響イベント検出の分野では、非特許文献2,3などに記載されたデータ拡張法が使用される。しかし、前述したように、従来のデータ拡張法では、学習データから他の新たな学習データを生成する際に、元の学習データの伝達特性を破壊してしまうという問題がある。そのため、音響信号の到来方向の推定を行うモデルに、従来のデータ拡張法を適用することはできない。
 これに対し、学習データ数を増加させるために、新たなデータ拡張法を提案する。新たなデータ拡張法では、伝達特性を破壊することなく学習データ数を増加させるために、第1方向からの到来信号に対応する第1観測信号を入力とし、第1観測信号に対する角度回転操作を行って、第1方向と異なる第2方向からの到来信号に対応する第2観測信号を得、第2観測信号を学習データの集合に追加する。これにより、伝達特性を破壊することなく学習データ数を増加させることができる。
 ここでは、説明の簡略化のため、一次アンビソニックス方式で観測された一次アンビソニクス(FOA:First Order Ambisonics)信号(以下、「FOA信号」)に基づく第1観測信号を用いる例を説明する。ただし、これは本発明を限定するものではない。なお、アンビソニクスについては、参考文献2等に記載されている。
 参考文献2:西村竜一,“5章アンビソニックス,”映像情報メディア学会誌,Vol.68,No.8,pp.616-620,Aug,2014.
 一次アンビソニックス方式では、アンビソニック・マイクロホンという特殊なマイクロホンを用いて音響信号が観測される。アンビソニック・マイクロホンは、無指向性のマイクロホン(センサ)と、X軸方向に指向性を持つマイクロホンと、Y軸方向に指向性を持つマイクロホンと、Z軸方向に指向性を持つマイクロホンとを含む。X軸、Y軸、およびZ軸は直交座標系の座標軸である。例えば、X軸は上下方向の軸、Y軸は左右方向の軸、Z軸は前後方向の軸である。B-フォーマットに変換されたFOA信号は、無指向性のマイクロホンで観測された信号に基づくW成分D(W)、X軸方向に指向性を持つマイクロホンで観測された信号に基づくX成分D(X)、Y軸方向に指向性を持つマイクロホンで観測された信号に基づくY成分D(Y)、およびZ軸方向に指向性を持つマイクロホンで観測された信号に基づくZ成分D(Z)の要素を持つ。B-フォーマットに変換されたFOA信号の空間周波数応答は以下のように表される。
(ac,t,ec,t,f)=1
(ac,t,ec,t,f)=√3*sin(ac,t)*cos(ec,t
(ac,t,ec,t,f)=√3*sin(ec,t
(ac,t,ec,t,f)=√3*cos(ac,t)*cos(ec,t
ここで「*」は乗算を表し、H(ac,t,ec,t,f),H(ac,t,ec,t,f),H(ac,t,ec,t,f),H(ac,t,ec,t,f)は、W成分D(W),Y成分D(Y),Z成分D(Z),X成分D(X)にそれぞれ対応する空間周波数応答を表す(例えば、参考文献3等参照)。
 参考文献3:S. Adavanne, A. Politis, and T. Virtanen, "A multi-room reverberant dataset for sound event localization and uetection," in Submitted to Detection and Classification of Acoustic Scenes and Events 2019 Workshop (DCASE2019). 2019.
 今、H(ac,t,ec,t,f),H(ac,t,ec,t,f),H(ac,t,ec,t,f),H(ac,t,ec,t,f)からfを省略し、これらを要素とした伝達関数ベクトルHc,tを以下のように表記する。
Figure JPOXMLDOC01-appb-M000010

すると、B-フォーマットに変換されたFOA信号は以下のように表現される。
Figure JPOXMLDOC01-appb-M000011

ただし、Dt,f (W),Dt,f (Y),Dt,f (Z),Dt,f (X)は、それぞれ、時間tおよび周波数fにおける、W成分D(W),W成分D(Y),W成分D(Z),W成分D(X)の要素を表す。なお、Dt,f (W),Dt,f (Y),Dt,f (Z),Dt,f (X)の右上添え字「(W)」「(Y)」「(Z)」「(X)」は、本来、それぞれ右下添え字「t,f」の真上に記載すべきであるが、記載表記の制約上、「t,f」の右上に記載している。また、Sc,t,fはc番目のクラスの音源から発せられた時間tおよび周波数fの信号を表す。以下、Dt,fを「観測信号ベクトル」と呼ぶ。
 新たなデータ拡張法では、Dt,fの方位角ac,tおよび/または仰俯角ec,tの角度回転操作を行い、Dt,fと到来方向の異なる信号
Figure JPOXMLDOC01-appb-M000012

を生成する。今、Dt,fの方位角ac,tおよび/または仰俯角ec,tの角度回転操作を行って得られたD’t,fの伝達関数ベクトルH’c,t,θ,φを以下のように定義する。
Figure JPOXMLDOC01-appb-M000013

ここで、θは方位角の回転角度を表し、φは仰俯角の回転角度を表す。θとφの少なくとも一方が0以外である。すなわち、θ≠0またはφ≠0である。
 今、伝達関数ベクトルHc,tとH’c,t,θ,φは明らかに距離減衰項を持たず、角度回転のみを表す。そのため、Dt,fの左側から回転行列を乗じることで、Dt,fの方位角ac,tおよび/または仰俯角ec,tを回転させたD’t,fを得ることができる。なお、角度回転操作によってDt,f (W)は変化しないため、以下では観測信号ベクトルDt,f=[Dt,f (W),Dt,f (Y),Dt,f (Z),Dt,f (X)のうち、Dt,f (Y),Dt,f (Z),Dt,f (X)の成分の回転操作のみについて説明する。便宜上、Dt,f (X),Dt,f (Y),Dt,f (Z)の順序で要素を配置した観測信号ベクトル
Figure JPOXMLDOC01-appb-M000014

に回転行列を乗ずることを考える。しかし、これは本発明を限定するものではない。なおaはaの転置を表す。単純な方法としては、一般によく知られた、上下方向(roll)、左右方向(pitch)、前後方向(yaw)の回転量をそれぞれα,β,γとした回転行列Rα,β,γを、Kt,fの左側から乗じたものをベクトル
Figure JPOXMLDOC01-appb-M000015

とすればよい。以下に回転行列Rα,β,γを例示する。
Figure JPOXMLDOC01-appb-M000016
 しかし、信号到来方向の方位角および仰俯角の回転だけを考えればよいため、より簡単なアルゴリズムによって必要な角度回転操作を行うことができる。以下、この新たなアルゴリズムを説明する。まず、観測信号ベクトルKt,fに方位角方向への回転操作を行う回転行列Rθは、以下のように記述できる。
Figure JPOXMLDOC01-appb-M000017

ここで、観測信号ベクトルKt,fを方位角方向のみに角度θだけ回転させたベクトルをKt,f θ=Rθt,fと置く。次にベクトルKt,f θに仰俯角方向へ角度φだけ回転させることを考慮するが、注意すべき点が2つある。まずは音源方向の仰俯角の値域は[-π/2,π/2]であるため、ec,t+φがその値域に収まるようにφを選択する必要がある。また、ベクトルKt,f θの仰俯角方向への回転は、観測信号ベクトルKt,fの当初の直交座標系ではなく、この直交座標系を方位角方向のみに角度θだけ回転させた直交座標系で行われる。すなわち、この角度回転操作は、第1観測信号に対して第1直交座標系で方位角方向の角度θの回転操作を行って得られる方位角回転信号に対し、さらに第1直交座標系に方位角方向の角度θの回転操作を行って得られる第2直交座標系で仰俯角方向の角度φの回転操作を行う操作である。なお、第1直交座標系は3次元空間で互いに直交するX軸とY軸とZ軸で定められ(図4A:X軸-Y軸-Z軸)、第1直交座標系は3次元空間で互いに直交するX’軸とY’軸とZ軸で定められる(図4Aおよび図4B:X’軸-Y’軸-Z軸)。これらに注意すると、ロドリゲスの回転公式より、Kt,f’は以下のようになる。
Kt,f’=Kt,f θ・cosφ+cross(u,Kt,f θ)sinφ+u・dot(u,Kt,f θ)(1-cosφ)   (3)
ここで、u=(sin(ac,t+θ),cos(ac,t+φ),0)Tであり、cross(a,b)がaとbのクロス積(外積)であり、dot(a,b)がaとbのドット(内積)であり、aがaの転置である。
 さらに、方位角および仰俯角を制限することで行列間の演算を行うことなく、観測信号ベクトルKt,fをベクトルKt,f’に変換できる。すなわち式(3)において、方位角ac,t+θを±ac,t+{-π/2,0,π/2,π}のみに制限し、仰俯角ec,t+φを±ec,tのみに制限し、方位角ac,t+θと仰俯角ec,t+φとの組合せを16パターンのみに制限する。すなわち、ac,t+θは、ac,t-π/2、ac,t、ac,t+π/2、ac,t+π、-ac,t-π/2、-ac,t、-ac,t+π/2、または-ac,t+πの何れかであり、ec,t+φは、ec,tまたは-ec,tである。この場合、式(3)の計算に行列間の演算は不要になり、観測信号ベクトルKt,fの要素の(I)符号反転と(II)チャネルの入れ替えのみでKt,f’を得ることができる。以下の表に、方位角と仰俯角との組と、Kt,fの要素Dt,f (X),Dt,f (Y),Dt,f (Z)と、K’t,fの要素D’t,f (X),D’t,f (Y),D’t,f (Z)との関係を示す。なお記載の簡略化のため、これらの表では下付き添え字「t,f」を省略している。
Figure JPOXMLDOC01-appb-T000018
Figure JPOXMLDOC01-appb-T000019
   
証明は、前述したH(ac,t,ec,t)=1,H(ac,t,ec,t)=√3*sin(ac,t)*cos(ec,t),H(ac,t,ec,t)=√3*sin(ec,t),H(ac,t,ec,t)=√3*cos(ac,t)*cos(ec,t)、および三角関数に関する定理群より自明のため省略する。表の理解の補助のためにac,t+θ=ac,t+π/2かつec,t+φ=-ec,tの場合を例としてH(ac,t+θ,ec,t+φ)を計算すると以下のようになる。
Figure JPOXMLDOC01-appb-M000020

したがって、D’t,f (X)=-Dt,f (Y)となる。
 [第1実施形態]
 次に、本発明の第1実施形態について説明する。
 <構成>
 図1に例示するように、本実施形態の学習データ拡張装置1は、制御部11、記憶部12、角度回転操作部13、および学習データ追加部14を有する。学習データ拡張装置1は、制御部11の制御のもとで各処理を実行する。
 学習データ拡張装置1は、例えば、図2に例示するような汎用または専用のコンピュータ100が所定のプログラムを実行することで構成される装置である。図2に例示するコンピュータ100は、プロセッサ101、記憶部102、入力部103、出力部104、表示部105、およびバス106を有している。ただし、表示部105による情報表示が不要な場合には、表示部105が省略されてもよい。
 プロセッサ101は、例えば、CPU(central processing unit)等である。プロセッサ101は、例えば、データを格納するレジスタ、演算処理を行う演算器、および演算処理やデータの読み書き等を制御する制御器を有する。プロセッサ101は、レジスタに読み込まれた各種プログラムに従って様々な演算処理を実行する。プロセッサ101は、1個のCPUのみを備えていてもよいし、複数個のCPUを備えていてもよい。このプログラムはコンピュータ100にインストールされてもよいし、予め記憶部102等に記録されていてもよい。
 入力部103は、データが入力されるタッチパネル、入力ポート、キーボード、マウス、通信装置等であり、出力部104は、データを出力する出力ポート、通信装置等である。記憶部102は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等のRAM(Random Access Memory)等の主記憶装置、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等の補助記憶装置などである。バス106は、プロセッサ101、記憶部102、入力部103、出力部104、および表示部105を通信可能に接続している。
 <処理>
 次に、本実施形態の学習データ拡張方法について説明する。
 前提として、記憶部12には、単数または複数の音源から発せられ、複数個のマイクロホンで観測された信号に基づく観測信号ベクトルDt,f(第1方向からの到来信号に対応する第1観測信号)が格納されている。観測信号ベクトルDt,fは、モデルを学習するために用いられる学習データであり、その集合が記憶部12に格納されている。モデルの例は、マイクロホンで観測した音響信号に基づく観測信号から音響信号の伝達特性に基づく推定を行うモデルである。このモデルは、「音響信号の種類」「音響信号の時刻」および「音響信号の到来方向」を推定するものであってもよいし、「音響信号の到来方向」のみを推定するものであってもよいし、「音響信号の到来方向」と音響信号に関するその他の情報とを推定するものであってもよい。モデルの例は、前述したニューラルネットワークに基づくモデルであるが、隠れマルコフモデルなどの確率モデルであってもよいし、SVM(support vector machine)などの分類器であってもよい。観測信号ベクトルDt,fは、正解ラベルが付された教師有り学習データであってもよいし、正解ラベルが付されていない教師無し学習データであってもよい。学習データがそのまま機械学習に用いられてもよいし、学習データから抽出された特徴量が機械学習に用いられてもよい。
 図3に例示するように、学習データ拡張処理では、まず角度回転操作部13が記憶部12から観測信号ベクトルDt,f(第1方向からの到来信号に対応する第1観測信号)を読み込み、観測信号ベクトルDt,fに対する角度回転操作を行って、観測信号ベクトルDt,fとは異なる到来方向に対応する観測信号ベクトルD’t,f(第1方向と異なる第2方向からの到来信号に対応する第2観測信号)を得て出力する。例えば、角度回転操作部13は、入力された観測信号ベクトルDt,fに含まれる要素Dt,f (X),Dt,f (Y),Dt,f (Z)からなるベクトルに回転行列を乗じ、それによって得られるD’t,f (X),D’t,f (Y),D’t,f (Z)とDt,f (W)とを要素とするベクトルを観測信号ベクトルD’t,fとして得て出力する。例えば、角度回転操作部13は、入力された観測信号ベクトルDt,fに含まれる観測信号ベクトルKt,f=(Dt,f (X),Dt,f (Y),Dt,f (Z)に左側から回転行列を乗じてベクトルK’t,f=(D’t,f (X),D’t,f (Y),D’t,f (Z)を得、ベクトルK’t,fとDt,f (W)を要素とするベクトルを観測信号ベクトルD’t,fとして得て出力する。回転行列としては、例えば、前述の式(1)の回転行列Rα,β,γを例示できるが、これは本発明を限定しない。
 前述のように、角度回転操作部13の角度回転操作は、観測信号ベクトルDt,fの方位角ac,tを方位角ac,t+θに変更し、仰俯角ec,tを仰俯角ec,t+φに変更する操作である。角度回転操作部13は、予め選択された方位角θおよび仰俯角φで観測信号ベクトルDt,fに対する角度回転操作を行ってもよいし、角度回転操作部13に入力された方位角θおよび仰俯角φで観測信号ベクトルDt,fに対する角度回転操作を行ってもよい。
 観測信号ベクトルD’t,fを構成する要素D’t,f (X),D’t,f (Y),D’t,f (Z),Dt,f (W)の順序は、観測信号ベクトルDt,fを構成する要素の順序に対応することが望ましい。すなわち、観測信号ベクトルDt,fを構成するW成分D(W),W成分D(Y),W成分D(Z),W成分D(X)の順序が、観測信号ベクトルD’t,fを構成するW成分D(W),W成分D(Y),W成分D(Z),W成分D(X)の順序と同一であることが望ましい。しかし、後に観測信号ベクトルD’t,fを構成する要素の並べ替えが可能なのであれば、観測信号ベクトルDt,fを構成するW成分D(W),W成分D(Y),W成分D(Z),W成分D(X)の順序が、観測信号ベクトルD’t,fを構成するW成分D(W),W成分D(Y),W成分D(Z),W成分D(X)の順序と異なっていてもよい(ステップS13)。
 上述のように得られた観測信号ベクトルD’t,fは学習データ追加部14に送られる。学習データ追加部14は、観測信号ベクトルD’t,f(第2観測信号)を記憶部12に格納し、学習データの集合に追加する。観測信号ベクトルDt,fが教師有り学習データである場合、学習データ追加部14には、さらに観測信号ベクトルDt,fの正解ラベルと、方位角ac,t+θおよび仰俯角ec,t+φ(または方位角θおよび仰俯角φ)とが入力される。学習データ追加部14は、これらを用いて観測信号ベクトルD’t,fの正解ラベルを生成し、生成した正解ラベルを観測信号ベクトルD’t,fに付与する。すなわち、観測信号ベクトルDt,fと観測信号ベクトルD’t,fとの相違点は、音響信号の到来方向に対応する情報のみであるため、観測信号ベクトルDt,fに付された正解ラベルのうち、音響信号の到来方向に対応する情報のみを方位角ac,t+θおよび仰俯角ec,t+φに対応する情報に置換した正解ラベルを観測信号ベクトルD’t,fに付する。この場合、正解ラベルが付された観測信号ベクトルD’t,fが学習データとして記憶部12に格納される。一方、観測信号ベクトルDt,fが教師無し学習データである場合、観測信号ベクトルD’t,fが学習データとして記憶部12に格納される(ステップS14)。
 次に、制御部11が、学習データの拡張処理を継続するか否かを判断する(ステップS15)。拡張処理を継続するか否かの判断基準に限定はない。例えば、所望の個数の学習データが追加されるまで拡張処理を継続すると判断されてもよいし、拡張可能な学習データの上限数に達するまで拡張処理を継続すると判断されてもよいし、モデルが所望の推定精度を確保できるようになるまで拡張処理を継続すると判断されてもよい。拡張処理を継続すると判断された場合には、処理がステップS13に戻る。そうでない場合には、処理を終了する。
 [第2実施形態]
 本実施形態は第1実施形態の変形例である。本実施形態の角度回転操作では、第1観測信号に対して第1直交座標系(図4A:X軸-Y軸-Z軸)で方位角方向の角度θの回転操作を行って得られる方位角回転信号に対し、さらに第1直交座標系に方位角方向の角度θの回転操作を行って得られる第2直交座標系(図4Aおよび図4B:X’軸-Y’軸-Z軸)で仰俯角方向の角度φの回転操作を行う。これによって角度回転操作に必要な演算量を削減できる。以降では、第1実施形態との相違点を中心に説明し、既に説明した事項については同じ参照番号を流用して説明を簡略化する。
 <構成>
 図1に例示するように、本実施形態の学習データ拡張装置2は、制御部11、記憶部12、角度回転操作部23、および学習データ追加部14を有する。学習データ拡張装置2は、制御部11の制御のもとで各処理を実行する。学習データ拡張装置2も、例えば、図2に例示するような汎用または専用のコンピュータ100が所定のプログラムを実行することで構成される装置である。
 <処理>
 第2実施形態の第1実施形態からの相違点は、前述したステップS13が以下に述べるステップS23に置換される点のみである。その他の事項は第1実施形態と同じであるため、説明を省略する。
 ステップS23でも、角度回転操作部23が記憶部12から観測信号ベクトルDt,f(第1方向からの到来信号に対応する第1観測信号)を読み込み、観測信号ベクトルDt,fに対する角度回転操作を行って、観測信号ベクトルDt,fとは異なる到来方向に対応する観測信号ベクトルD’t,f(第1方向と異なる第2方向からの到来信号に対応する第2観測信号)を得て出力する。ただし、本実施形態の角度回転操作では、観測信号ベクトルDt,fに対して第1直交座標系で方位角方向の角度θの回転操作を行って得られる方位角回転信号に対し、さらに第1直交座標系に方位角方向の角度θの回転操作を行って得られる第2直交座標系で仰俯角方向の角度φの回転操作を行って観測信号ベクトルD’t,fを得る。前述のように、観測信号ベクトルDt,f(第1観測信号)は、X軸方向に指向性を持つマイクロホン(センサ)で観測された信号に基づくX成分D(X)、Y軸方向に指向性を持つマイクロホンで観測された信号に基づくY成分D(Y)、およびZ軸方向に指向性を持つマイクロホンで観測された信号に基づくZ成分D(Z)を要素に持つ。第2直交座標系で仰俯角方向の回転操作を行う操作は、観測信号ベクトルD’t,f(第2観測信号)の仰俯角ec,t+φが-π/2以上π/2以下となるように行われる(すなわち、この操作は仰俯角の値域に収まるように行われる)。例えば、観測信号ベクトルDt,f(第1観測信号)は、一次アンビソニックス方式で観測された信号に基づき、方位角方向の回転操作は、方位角をac,tからac,t+θにする回転操作であり、仰俯角方向の回転操作は、仰俯角をec,tからec,t+φにする回転操作である。観測信号ベクトルDt,fが観測信号ベクトルKt,f=(Dt,f (X),Dt,f (Y),Dt,f (Z)を含み、方位角回転信号がKt,f θ=Rθt,fであり、
Figure JPOXMLDOC01-appb-M000021

である。角度回転操作部23は、観測信号ベクトルDt,fから抽出した観測信号ベクトルKt,fに対し、式(3)に従ってKt,f’=(D’t,f (X),D’t,f (Y),D’t,f (Z)を得、ベクトルK’t,fの要素D’t,f (X),D’t,f (Y),D’t,f (Z)とDt,f (W)を要素とするベクトルを観測信号ベクトルD’t,fとして得て出力する。その他の処理は第1実施形態と同じである。
 [第3実施形態]
 本実施形態は第2実施形態の変形例である。本実施形態では、観測信号ベクトルD’t,fの仰俯角ac,t+θが、ac,t-π/2、ac,t、ac,t+π/2、ac,t+π、-ac,t-π/2、-ac,t、-ac,t+π/2、または-ac,t+πの何れかに制限され、方位角ec,t+φがec,tまたは-ec,tに制限される。
 <構成>
 図1に例示するように、本実施形態の学習データ拡張装置3は、制御部11、記憶部12、角度回転操作部33、および学習データ追加部14を有する。学習データ拡張装置2は、制御部11の制御のもとで各処理を実行する。学習データ拡張装置3も、例えば、図2に例示するような汎用または専用のコンピュータ100が所定のプログラムを実行することで構成される装置である。
 <処理>
 第2実施形態の第1実施形態からの相違点は、前述したステップS13が以下に述べるステップS33に置換される点のみである。その他の事項は第1実施形態と同じであるため、説明を省略する。ステップS33では、角度回転操作部33が記憶部12から読み出した観測信号ベクトルDt,fから抽出したDt,f (X),Dt,f (Y),Dt,f (Z)に対し、[表1][表2]に示すような仰俯角ac,t+θおよび方位角ec,t+φの組に応じた変換を行い、D’t,f (X),D’t,f (Y),D’t,f (Z)を得る。[表1][表2]は角度回転操作部33に予め設定されていてもよいし、角度回転操作部33の外部から与えられてもよい。角度回転操作部33は、D’t,f (X),D’t,f (Y),D’t,f (Z)とDt,f (W)を要素とするベクトルを観測信号ベクトルD’t,fとして得て出力する。その他の処理は第1実施形態と同じである。
 [実験結果]
 以下に実験結果を示す。ここでは、非特許文献1に記載されたDCASE2019 Task3 ”Sound Event Localization and Detection”に対し、第3実施形態の方法でデータ拡張された観測信号ベクトルD’t,fを適用した実行結果を示す。今回、観測信号ベクトルDt,fとして使用したデータセットは、参考文献3に記載されたTAU2019 Spatial Sound Events 2019である。本データセットにはFOA信号フォーマットで記録された1分間の4チャネルの音声データが400個含まれている。これらは、11クラスに分類された無残響音源を、504の到来方向と距離の組み合わせにおいて5種類の室内インパルス応答を用いて合成したものである。この観測信号ベクトルDt,fを第3実施形態の方法でデータ拡張して得られた観測信号ベクトルD’ t,fから得られた対数メルスペクトログラムとGCC-PHAT(例えば、参考文献4)とを用い、ニューラルネットワークに基づいて音響信号の到来方向等の推定を行うモデルの機械学習を行った。以下に、このように得られたモデルを用いて音響信号の到来方向の推定を行った場合(本手法)と、このようなデータ拡張を行わずに参考文献1の手法で音響信号の到来方向の推定を行った場合(従来法)とのDOAerror(例えば、非特許文献1)の比較結果を示す。なお、DOAerrorは音響信号の到来方向の真の到来方向に対する誤りの指標である。
      DOAerror
  従来法:9.85°
  本手法:7.12°
 このように本手法の場合、従来法に比べてDOAerrorが2.73°減少した。これは学習データのデータ拡張に本手法が有効であることを示している。
 参考文献4:C. H. Knapp and G. Carter, “The generalized correlation method for estimation of time delay,” IEEE Transactions on Acoustics, Speech, and Signal Processing (Volume: 24 , Issue: 4 , Aug 1976), pp. 320-327.
 参考文献5:K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Microsoft Research.
 [その他の変形例等]
 なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では、B-フォーマットに変換されたFOA信号を第1観測信号としたがこれは本発明を限定しない。音響信号を複数のマイクロホンで観測して得られた信号に基づくその他の信号を第1観測信号としてもよい。また上述の実施形態では、到来信号が音響信号であり、第1観測信号および第2観測信号が音響信号を観測して得られる信号に基づくものであった。しかしながら、到来信号が音響信号以外の時系列信号(例えば、電磁波、地震波、超音波など)であり、マイクロホンに代えてこの時系列信号を観測可能なセンサが用いられてもよい。すなわち、第1観測信号および第2観測信号が音響信号以外の時系列信号をセンサで観測して得られる信号に基づくものであってもよい。例えば、音響信号以外の時系列信号をセンサで観測して得られる信号を時間周波数領域に変換して得られる信号を第1観測信号としてもよい。また、上述の実施形態では、第1観測信号および第2観測信号が時間周波数領域の信号であったが、これらが時間領域の信号であってもよい。例えば、時系列信号をセンサで観測して得られる信号を第1観測信号としてもよい。
 また、上述の実施形態では、第1観測信号および第2観測信号が無指向性のマイクロホンで観測された信号に基づくW成分D(W)を含んでいたが、第1観測信号および第2観測信号がW成分D(W)を含まなくてもよい。上述の実施形態では、第1観測信号のW成分D(W)を第2観測信号のW成分D(W)として用いたが、第1観測信号のW成分D(W)の関数値、またはその他の値を第2観測信号のW成分D(W)としてもよい。
 また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 本発明は、例えば、マイクロホンで観測した音響信号から「音響信号の種類」「音響信号の時刻」「音響信号の到来方向」を推定する分野で利用可能である。例えば、自動運転車において、どの方向から緊急車両が到来しているか等を推定するための基盤技術として利用できる。
1~3 学習データ拡張装置
13~33 角度回転操作部
14 学習データ追加部

Claims (8)

  1.  第1方向からの到来信号に対応する第1観測信号を入力とし、前記第1観測信号に対する角度回転操作を行って、前記第1方向と異なる第2方向からの到来信号に対応する第2観測信号を得る角度回転操作部と、
     前記第2観測信号を学習データの集合に追加する学習データ追加部と、
    を有する学習データ拡張装置。
  2.  請求項1の学習データ拡張装置であって、
     前記角度回転操作は、前記第1観測信号に対して第1直交座標系で方位角方向の回転操作を行って得られる方位角回転信号に対し、さらに前記第1直交座標系に前記方位角方向の回転操作を行って得られる第2直交座標系で仰俯角方向の回転操作を行う操作である、学習データ拡張装置。
  3.  請求項2の学習データ拡張装置であって、
     前記第1直交座標系は、3次元空間で互いに直交するX軸とY軸とZ軸で定められ、
     前記第1観測信号は、前記X軸方向に指向性を持つセンサで観測された信号に基づくX成分D(X)、前記Y軸方向に指向性を持つセンサで観測された信号に基づくY成分D(Y)、および前記Z軸方向に指向性を持つセンサで観測された信号に基づくZ成分D(Z)を要素に持ち、
     前記第2直交座標系で仰俯角方向の回転操作を行う操作は、前記第2観測信号の仰俯角が-π/2以上π/2以下となるように行われる、学習データ拡張装置。
  4.  請求項3の学習データ拡張装置であって、
     前記第1観測信号は、一次アンビソニックス方式で観測された信号に基づき、
     前記方位角方向の回転操作は、方位角をac,tからac,t+θにする回転操作であり、
     前記仰俯角方向の回転操作は、仰俯角をec,tからec,t+φにする回転操作であり、
     前記第1観測信号がKt,f=(Dt,f (X),Dt,f (Y),Dt,f (Z)を含み、
     前記方位角回転信号がKt,f θ=Rθt,fであり、
    Figure JPOXMLDOC01-appb-M000001

    であり、
     前記第2観測信号がKt,f θ・cosφ+cross(u,Kt,f θ)sinφ+u・dot(u,Kt,f θ)(1-cosφ)を含み、
     u=(sin(ac,t+θ),cos(ac,t+φ),0)であり、cross(a,b)がaとbの外積であり、dot(a,b)がaとbの内積であり、aがaの転置である、学習データ拡張装置。
  5.  請求項4の学習データ拡張装置であって、
     ac,t+θは、ac,t-π/2、ac,t、ac,t+π/2、ac,t+π、-ac,t-π/2、-ac,t、-ac,t+π/2、または-ac,t+πの何れかであり、
     ec,t+φは、ec,tまたは-ec,tである、学習データ拡張装置。
  6.  請求項1から5の何れかの学習データ拡張装置であって、
     前記到来信号が音響信号である、学習データ拡張装置。
  7.  第1方向からの到来信号に対応する第1観測信号を入力とし、前記第1観測信号に対する角度回転操作を行って、前記第1方向と異なる第2方向からの到来信号に対応する第2観測信号を得る角度回転操作ステップと、
     前記第2観測信号を学習データの集合に追加する学習データ追加ステップと、
    を有する学習データ拡張方法。
  8.  請求項1から6の何れかの学習データ拡張装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/024422 2019-06-20 2019-06-20 学習データ拡張装置、学習データ拡張方法、およびプログラム WO2020255318A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/024422 WO2020255318A1 (ja) 2019-06-20 2019-06-20 学習データ拡張装置、学習データ拡張方法、およびプログラム
JP2021528554A JP7207539B2 (ja) 2019-06-20 2019-06-20 学習データ拡張装置、学習データ拡張方法、およびプログラム
US17/619,593 US11886996B2 (en) 2019-06-20 2019-06-20 Training data extension apparatus, training data extension method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024422 WO2020255318A1 (ja) 2019-06-20 2019-06-20 学習データ拡張装置、学習データ拡張方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020255318A1 true WO2020255318A1 (ja) 2020-12-24

Family

ID=74040360

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024422 WO2020255318A1 (ja) 2019-06-20 2019-06-20 学習データ拡張装置、学習データ拡張方法、およびプログラム

Country Status (3)

Country Link
US (1) US11886996B2 (ja)
JP (1) JP7207539B2 (ja)
WO (1) WO2020255318A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7563566B2 (ja) 2021-02-17 2024-10-08 日本電信電話株式会社 モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738284B2 (ja) * 2006-08-29 2011-08-03 日本電信電話株式会社 ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
EP3346726A1 (en) * 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Arrangements and methods for active noise cancelling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SALAMON, JUSTIN ET AL.: "Deep Convolution Neural Networks and Data Augmentation for Environmental Sound Classification", IEEE SIGNAL PROCESSING LETTERS, vol. 24, no. no. 3, March 2017 (2017-03-01), XP055574860 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7563566B2 (ja) 2021-02-17 2024-10-08 日本電信電話株式会社 モデル学習装置、到来方向推定装置、モデル学習方法、到来方向推定方法、プログラム

Also Published As

Publication number Publication date
JP7207539B2 (ja) 2023-01-18
US11886996B2 (en) 2024-01-30
US20220383106A1 (en) 2022-12-01
JPWO2020255318A1 (ja) 2020-12-24

Similar Documents

Publication Publication Date Title
Diaz-Guerra et al. Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks
CN111919252A (zh) 声源方向估计装置、声源方向估计方法及程序
CN103426434A (zh) 结合源方向信息通过独立分量分析的源分离
Samarasinghe et al. Acoustic reciprocity: An extension to spherical harmonics domain
JP2023502310A (ja) ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
KR102097641B1 (ko) 구형 마이크로폰 어레이를 이용한 음원의 입사 방향 추정방법
JP4676893B2 (ja) 信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体
Kujawski et al. A framework for generating large-scale microphone array data for machine learning
WO2020255318A1 (ja) 学習データ拡張装置、学習データ拡張方法、およびプログラム
Sudo et al. Multichannel environmental sound segmentation: with separately trained spectral and spatial features
Falcon Perez Machine-learning-based estimation of room acoustic parameters
JP5986966B2 (ja) 音場収音再生装置、方法及びプログラム
JP2018077139A (ja) 音場推定装置、音場推定方法、プログラム
Dan et al. Calibration of a microphone array based on a probabilistic model of microphone positions
JP6087856B2 (ja) 音場収音再生装置、システム、方法及びプログラム
JP4738284B2 (ja) ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
Damiano et al. A Compressive Sensing Approach for the Reconstruction of the Soundfield Produced by Directive Sources in Reverberant Rooms
Prisyach et al. Data augmentation for training of noise robust acoustic models
Ma et al. Smart microphone array design for speech enhancement in financial VR and AR
JP6345634B2 (ja) 音場再生装置およびその方法
Muñoz-Montoro et al. Efficient parallel kernel based on Cholesky decomposition to accelerate multichannel nonnegative matrix factorization
JP2004279845A (ja) 信号分離方法およびその装置
Rusrus et al. Characterization of moving sound sources direction-of-arrival estimation using different deep learning architectures
CN110637466B (zh) 扬声器阵列与信号处理装置
Green et al. Acoustic scene classification using higher-order ambisonic features

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933344

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021528554

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933344

Country of ref document: EP

Kind code of ref document: A1