WO2019171580A1 - 信号源識別装置、信号源識別方法、プログラム - Google Patents

信号源識別装置、信号源識別方法、プログラム Download PDF

Info

Publication number
WO2019171580A1
WO2019171580A1 PCT/JP2018/009234 JP2018009234W WO2019171580A1 WO 2019171580 A1 WO2019171580 A1 WO 2019171580A1 JP 2018009234 W JP2018009234 W JP 2018009234W WO 2019171580 A1 WO2019171580 A1 WO 2019171580A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
feature amount
identification
unit
signal source
Prior art date
Application number
PCT/JP2018/009234
Other languages
English (en)
French (fr)
Inventor
玲史 近藤
裕三 仙田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US16/971,091 priority Critical patent/US11626102B2/en
Priority to PCT/JP2018/009234 priority patent/WO2019171580A1/ja
Priority to JP2020504624A priority patent/JP7075064B2/ja
Publication of WO2019171580A1 publication Critical patent/WO2019171580A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Definitions

  • the present invention relates to a signal source identification device, a signal source identification method, an event detection device, an event detection method, a voice recognition device, a voice recognition method, and a program.
  • a detection technique for identifying an event that causes a signal generation when a signal due to various waves or vibrations such as a sound wave or a radio wave is received is known.
  • Non-Patent Document 1 describes an acoustic event detection technique for identifying an acoustic event that causes a sound source based on the sound of the sound source that is pronounced. Specifically, Non-Patent Document 1 discloses a technique in which a sound corresponding to an acoustic event is learned in advance, and identification is performed when a statistical characteristic of an input signal matches a learned characteristic at the time of detection. Is described.
  • Patent Document 1 describes an acoustic signal processing device that estimates the position of a sound source.
  • the acoustic signal processing apparatus includes a calculation unit and an estimation unit.
  • the calculation means calculates the feature amount based on the received sound reception signal.
  • the estimating means selects a feature quantity model based on the distance between the feature quantity calculated by the calculating means and a predetermined representative value. Then, the estimation means estimates a position candidate corresponding to the selected feature amount model as the position of the sound source.
  • Patent Document 1 describes a method for estimating a sound source position based on a statistical method.
  • the feature amount calculated based on the received signal has a spread according to the frequency characteristic of the signal.
  • the spread according to the frequency characteristics cannot be considered well.
  • a desired detection result cannot be obtained.
  • an object of the present invention is to solve the problem that it is difficult to determine whether a signal is output from a predetermined signal source, a signal source identification device, a signal source identification method, an event detection device, an event, The object is to provide a detection method, a voice recognition device, a voice recognition method, and a program.
  • a signal source identification device Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source It has the configuration of having
  • a signal source identification method includes: The signal source identification device Based on signals received by a plurality of sensors, a feature amount corresponding to a path through which the signal from the signal generation source is transmitted is calculated. Whether the calculated feature value is a signal from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature amount It is configured to identify whether or not.
  • the program which is the other form of this invention is: In the signal source identification device, Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • an event detection device is Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • An event detector that detects an event based on a signal received by the sensor;
  • a correction unit for correcting the detection result by the event detection unit based on the identification result by the signal source identification device; It has the configuration of having
  • an event detection device is Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; Have The event detection unit is configured to change a threshold used when detecting the event based on an identification result by the signal source identification device.
  • An event detection method includes: Event detection device Based on signals received by a plurality of sensors, a feature amount corresponding to a path through which the signal from the signal generation source is transmitted is calculated. Whether the calculated feature value is a signal from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature amount Identify whether or not Based on the signal received by the sensor, the event is detected, Correcting the detection result of the event based on the result of the identification;
  • the configuration is as follows.
  • the program which is the other form of this invention is: In the event detection device, Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; A correction unit that corrects the detection result by the event detection unit based on the identification result by the identification unit; It is a program for realizing.
  • a speech recognition apparatus Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • a voice recognition unit that performs voice recognition based on an acoustic signal received by a microphone that is a sensor;
  • a correction unit for correcting the recognition result by the voice recognition unit based on the identification result by the signal source identification device; It has the configuration of having
  • the speech recognition method includes: Voice recognition device Based on signals received by a plurality of sensors, a feature amount corresponding to a path through which the signal from the signal generation source is transmitted is calculated. Whether the calculated feature value is a signal from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature amount Identify whether or not Based on the acoustic signal received by the sensor microphone, perform voice recognition, The speech recognition result is corrected based on the identification result.
  • the program which is the other form of this invention is: In voice recognition device, Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • a voice recognition unit that performs voice recognition based on an acoustic signal received by a microphone that is a sensor;
  • a correction unit for correcting the recognition result by the voice recognition unit based on the identification result by the identification unit; It is a program for realizing.
  • the present invention solves the problem that it is difficult to determine whether the signal is output from a signal source fixed in advance, or a signal source identification method and a signal source identification method. It is possible to provide an event detection device, an event detection method, a voice recognition device, a voice recognition method, and a program.
  • FIG. 1 It is a figure which shows an example of a structure of the fixed signal source identification device concerning the 1st Embodiment of this invention. It is a figure which shows an example of the relationship between a fixed signal source and a sensor. It is a figure which shows an example of the relationship between a fixed signal source and another sensor. It is a figure which shows an example of the relationship between a movement signal source and a sensor. It is a figure which shows an example of presence distribution of the element of the group recorded in the feature-value space and recorded on the feature-value store. It is a figure which shows an example of the identification range which a fixed signal source output range determination part determines. It is a figure for demonstrating operation
  • FIG. 1 is a diagram illustrating an example of the configuration of the fixed signal source identification device 000.
  • FIG. 2 is a diagram illustrating an example of the relationship between the fixed signal source 021 and the sensor 001.
  • FIG. 3 is a diagram illustrating an example of the relationship between the fixed signal source 021 and the sensor 002.
  • FIG. 4 is a diagram illustrating an example of the relationship between the movement signal source 022 and the sensor 001.
  • FIG. 5 is a diagram illustrating an example of the distribution of elements of a set recorded in the feature amount store 004 mapped in the feature amount space.
  • FIG. 6 is a diagram illustrating an example of the identification range determined by the fixed signal source output range determination unit 006.
  • FIG. 7 is a diagram for explaining the operation of the fixed signal source output signal identification unit 008.
  • FIG. 8 is a flowchart showing an example of the operation of each component corresponding to the learning unit in the fixed signal source identification device 000.
  • FIG. 9 is a flowchart showing an example of the operation of each component corresponding to the identification unit of the fixed signal source identification device 000.
  • a fixed signal source identification device 000 that identifies whether or not a received signal is a signal from the fixed signal source 021 will be described.
  • the fixed signal source identification device 000 uses a plurality of sensors (sensor 001, sensor 002) to learn an identification range that depends on a difference in a signal transmission path. Further, the fixed signal source identification device 000 confirms whether or not the feature amount calculated based on the received signal belongs to the learned identification range. Then, the fixed signal source identification device 000 identifies whether the received output is the output from the fixed signal source 021 based on the confirmation result.
  • the fixed signal source identification device 000 is an information processing device that identifies whether or not the received signal is a signal from the fixed signal source 021.
  • the fixed signal source identification device 000 receives a signal from a fixed signal source 021 (for example, a television or a broadcasting speaker) whose installation position is fixed for a certain amount of time, and a mobile signal source 022 other than the fixed signal source 021. The signal from is received. Then, the fixed signal source identification device 000 identifies whether or not the received signal is a signal from the fixed signal source 021.
  • a fixed signal source 021 for example, a television or a broadcasting speaker
  • FIG. 1 shows an example of the configuration of the fixed signal source identification device 000.
  • the fixed signal source identification device 000 includes a sensor 001, a sensor 002, a feature amount calculation unit 003, a feature amount store 004, a teacher label generation unit 005, and a fixed signal source output range determination unit 006. And a discrimination range DB (DataBase) 007 and a fixed signal source output signal identification unit 008.
  • DataBase DataBase
  • the fixed signal source identification device 000 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the fixed signal source identification device 000 implements the above-described processing units by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the sensor 001, the sensor 002, the feature amount calculation unit 003, the feature amount store 004, the teacher label generation unit 005, and the fixed signal source output range determination unit. 006 and the discrimination range DB 007 constitute a learning unit.
  • the learning unit determines a range (identification range) of the fixed signal source output signal that is a signal output from the fixed signal source 021. In the following, first, the configuration included in the learning unit among the configurations of the fixed signal source identification device 000 will be described.
  • the sensors 001 and 002 are fixed around the fixed signal source identification device 000 or the fixed signal source identification device 000 with a certain interval.
  • the sensors 001 and 002 are configured to be able to receive signals output from the fixed signal source 021 and obtain information on the received signals. Examples of the signal output from the fixed signal source 021 include sound waves, radio waves, and vibrations.
  • outputs from the sensors 001 and 002 can be handled as digital time series signals. The handling of the output can be realized, for example, by performing A / D (Analog / Digital) conversion.
  • FIG. 2 and 3 show examples of signal paths in a space where the signal goes straight or is specularly reflected.
  • FIG. 2 shows an example of the relationship between the fixed signal source 021 and the sensor 001
  • FIG. 3 shows an example of the relationship between the fixed signal source 021 and the sensor 002.
  • the signal output from the fixed signal source 021 reaches the sensor 001 through a plurality of paths. Therefore, the signal that can be observed by the sensor 001 can be expressed as a signal that is output from the fixed signal source 021 and a transfer function that depends on the path in the corresponding space is convoluted. As shown in FIG.
  • the signal output from the fixed signal source 021 also reaches the sensor 002 through a plurality of paths in the same manner for the sensor 002.
  • the sensor 001 and the sensor 002 are installed at a constant interval. Therefore, as shown in FIGS. 2 and 3, the signal path from the fixed signal source 021 to the sensor 001 and the signal path from the fixed signal source 021 to the sensor 002 differ depending on the respective installation positions. Occurs.
  • the feature amount calculation unit 003 calculates a feature amount that represents a spatial path required for arrival transmission of the signal for each fixed time period based on the signals received by the sensors 001 and 002.
  • the transfer function of the path from the fixed signal source 021 to the sensor 001 and the path to the sensor 002 is the cross spectrum itself, which is the calculation result by the feature amount calculation unit 003, or the cross spectrum shape cut out by a filter having an appropriate shape. It represents the opposite of the degree of similarity, that is, the difference.
  • the feature amount calculation unit 003 calculates the feature amount as described above, as described above, the feature amount represents a spatial path required for signal arrival transmission.
  • a moving signal source 022 existing at a position different from the fixed signal source 021 is considered.
  • the signal path from the movement signal source 022 to the sensor 001 is different from the signal path from the fixed signal source 021 to the sensor 001.
  • the signal path from the movement signal source 022 to the sensor 002 is different from the signal path from the fixed signal source 021 to the sensor 002.
  • the shape of the cross spectrum calculated by the feature amount calculation unit 003 is also different between the value calculated based on the signal received from the fixed signal source 021 and the value calculated based on the signal received from the mobile signal source 022. It will be a thing.
  • the feature quantity calculation unit 003 can perform norm normalization when calculating the cross spectrum. By performing norm normalization, the feature amount calculation unit 003 can remove the dependency on the signal magnitude.
  • the feature amount store 004 is a storage device such as a memory or a disk device.
  • the feature quantity store 004 records the feature quantity calculated by the feature quantity calculation unit 003.
  • the feature quantity store 004 records a label output from a teacher label generation unit 005 described later in association with the corresponding feature quantity.
  • the feature quantity store 004 records the feature quantity calculated by the feature quantity calculation unit 003 and the feature quantity label generated by the teacher label generation unit 005 as a set in association with each other.
  • the teacher label generation unit 005 generates a label indicating whether or not there is an output from the fixed signal source 021 at the time corresponding to the feature amount.
  • the label generation by the teacher label generation unit 005 may be performed manually or automatically.
  • the teacher label generation unit 005 generates a label in response to manual input, for example.
  • the fixed signal source output range determination unit 006 determines identification range information indicating an identification range for discriminating a signal output from the fixed signal source 021 from the feature amount recorded in the feature amount store 004 and the set of labels. .
  • the fixed signal source output range determination unit 006 inputs a set of features and labels recorded in the feature store 004 and maps each element of the set in the feature space.
  • FIG. 5 shows this situation as a schematic diagram in two dimensions. Then, the fixed signal source output range determination unit 006 learns the discriminator and determines the discrimination range as indicated by a dotted line in FIG.
  • the fixed signal source output range determination unit 006 includes an element (feature value) corresponding to a label indicating that there is an output from the fixed signal source 021 within the identification range, but from other than the fixed signal source 021 The identification range is determined so that the element (feature value) corresponding to the label indicating that the output of “1” is not included in the identification range. In the case of FIG.
  • a range indicated by an oblique hatch surrounded by a dotted line is an identification range that is a range that is identified as a signal output from the fixed signal source 021.
  • a general classifier such as GMM (Gaussian Mixture Model), DNN (Deep Neural Network) (Deep Neural Network), SVM (Support Vector Machine) (Support Vector Machine) is used as the classifier. I can do it.
  • the fixed signal source output range determination unit 006 uses SVM as a discriminator.
  • the fixed signal source output range determination unit 006 may determine one identification range or a plurality of identification ranges.
  • the discrimination range DB 007 records the identification range determined by the fixed signal source output range determination unit 006. As described above, the number of identification ranges determined by the fixed signal source output range determination unit 006 is not limited to one. The determination range DB 007 records the number of identification ranges according to the determination of the fixed signal source output range determination unit 006.
  • the above is an example of the configuration included in the learning unit.
  • the sensor 001, the sensor 002, the feature amount calculation unit 003, the discrimination range DB007, and the fixed signal source output signal identification unit 008 constitute an identification unit. doing.
  • the identification unit identifies whether or not the received output is an output from the fixed signal source 021 using the identification range determined by the learning unit. Subsequently, among the configurations of the fixed signal source identification device 000, configurations included in the identification unit will be described.
  • the configurations of the sensor 001, the sensor 002, the feature amount calculation unit 003, and the discrimination range DB 007 have already been described in the learning unit described above. Therefore, detailed description is omitted.
  • the fixed signal source output signal identification unit 008 uses the identification range recorded in the discrimination range DB 007 to determine whether or not the signal corresponding to the feature amount calculated by the feature amount calculation unit 003 is a signal output from the fixed signal source 021. To identify. Then, the fixed signal source output signal identifying unit 008 outputs an identification result that is the identified result.
  • the output from the fixed signal source output signal identification unit 008 may be, for example, transmission to an external device or display of the identification result on the display device.
  • the fixed signal source output signal identification unit 008 may perform output by a method other than the above-described example.
  • the fixed signal source output signal identification unit 008 verifies whether or not the feature amount calculated by the feature amount calculation unit 003 corresponds to the identification range stored in the determination range DB 007. For example, in the example shown in FIG. 7, it is assumed that a feature amount indicated by ⁇ is input in the feature amount space. As shown in FIG. 7, the feature quantity indicated by the ⁇ mark belongs to the identification range. Therefore, the fixed signal source output signal identifying unit 008 identifies that the signal corresponding to the feature value is a fixed signal source output signal. That is, the identification result at the corresponding time by the fixed signal source output signal identification unit 008 is a fixed signal source output signal. Further, for example, in the example shown in FIG.
  • the fixed signal source output signal identifying unit 008 identifies that the signal corresponding to the feature amount is not a fixed signal source output signal. That is, the identification result at the corresponding time by the fixed signal source output signal identification unit 008 is not a fixed signal source output signal.
  • the above is an example of the configuration included in the identification unit.
  • the fixed signal source identification device 000 has a configuration corresponding to the learning unit and the identification unit described above.
  • the fixed signal source identification device 000 identifies a signal by the identification unit using the identification range learned by the learning unit.
  • the fixed signal source identification device 000 may be configured by one information processing device or may be configured by a plurality of information processing devices.
  • the fixed signal source identification device 000 may be configured by two devices, for example, a device having a configuration corresponding to the learning unit and a device having a configuration corresponding to the identification unit.
  • the feature amount calculation unit 003 calculates a feature amount based on signals received by the sensors 001 and 002 (step S101). For example, the feature amount calculation unit 003 calculates a cross spectrum between the sensor 001 and the sensor 002 as the feature amount. Note that the feature quantity calculation unit 003 may perform norm normalization when calculating the cross spectrum.
  • the feature quantity store 004 records the feature quantity calculated by the feature quantity calculation unit 003 and the feature quantity label generated by the teacher label generation unit 005 as a set (step S102).
  • the label generation by the teacher label generation unit 005 is performed manually, for example.
  • the fixed signal source output range determination unit 006 maps each element of the set in the feature amount space using the set of feature amounts and labels recorded in the feature amount store 004 as input.
  • the fixed signal source output range determining unit 006 learns the discriminator and determines the discriminating range as indicated by the dotted line in FIG. 6 (step S103).
  • the discrimination range DB 007 records the identification range determined by the fixed signal source output range determination unit 006 (step S104).
  • the identification range recorded in the discrimination range DB 007 is not limited to one and may be plural.
  • each component corresponding to the learning unit in the fixed signal source identification device 000 is an example of the operation of each component corresponding to the learning unit in the fixed signal source identification device 000.
  • FIG. 9 an example of the operation of each component corresponding to the identification unit of the fixed signal source identification device 000 will be described.
  • the discrimination range DB 007 stores an identification range that is a result of learning in advance by the learning unit.
  • the feature amount calculation unit 003 calculates a feature amount based on signals received by the sensors 001 and 002 (step S201). For example, the feature amount calculation unit 003 calculates a cross spectrum between the sensor 001 and the sensor 002 as the feature amount. Note that the feature quantity calculation unit 003 may perform norm normalization when calculating the cross spectrum.
  • the fixed signal source output signal identification unit 008 verifies whether or not the feature amount calculated by the feature amount calculation unit 003 corresponds to the identification range stored in the discrimination range DB 007 (step S202).
  • the fixed signal source output signal identification unit 008 indicates that the signal corresponding to the feature amount is a fixed signal. It is identified as a source output signal (step S203).
  • the fixed signal source output signal identification unit 008 fixes the signal corresponding to the feature amount. It is identified that the signal is not a signal source output signal (step S204).
  • the fixed signal source output signal identifying unit 008 outputs an identification result that is the identified result (step S205). For example, the fixed signal source output signal identification unit 008 outputs a time-series identification result.
  • the fixed signal source identification device 000 in the present embodiment includes the learning unit including the fixed signal source output range determination unit 006 and the identification unit.
  • the fixed signal source output range determining unit 006 of the learning unit can determine the identification range used when determining the signal output from the fixed signal source 021.
  • the identification unit can identify whether the received signal is output from the fixed signal source 021 using the determined identification range. That is, according to the fixed signal source identification apparatus 000 in the present embodiment, it is possible to learn an identification range that depends on a difference in a signal transmission path using a plurality of sensors (sensor 001, sensor 002). This makes it possible to detect whether or not the signal is stably output from the fixed signal source 021 without depending on the frequency characteristics of the signal.
  • the signal is output from the fixed signal source 021 which is a signal source fixed in advance.
  • the identification range can be calculated in a normal operation without requiring special in-space calibration. Therefore, the installation cost can be reduced.
  • the learning process (determination of the identification range) by the learning unit is performed in advance prior to the identification process by the identification unit. More specifically, the learning unit learns in advance, but the learning by the learning unit may not be in the future from the time of identification by the fixed signal source output signal identifying unit 008.
  • the identification range may be stored in the determination range DB 007 when the fixed signal source output signal identification unit 008 performs identification. Therefore, while constantly moving the learning unit and the identification unit at the same time, the learning is performed on the time range L past the current (for example, the identification time point by the fixed signal source output signal identification unit 008), and the determination range DB 007 is constantly updated. Operation is also possible.
  • the predetermined time range L can be, for example, one day.
  • the detection stability is improved.
  • the followability to the movement of the fixed signal source 021 and the reflector reflecting the signal is improved.
  • the number of sensors included in the fixed signal source identification device 000 is not limited to two.
  • the fixed signal source identification device 000 can have a plurality of sensors.
  • the fixed signal source identification device 000 can handle a feature vector having six times the number of dimensions as a super vector in which cross-correlation functions of six combinations that can be combined using four sensors are arranged. It is.
  • the sensor specifically corresponds to the type of signal.
  • the sensor is, for example, a microphone, a hydrophone, a vibration sensor, a temperature sensor, or the like.
  • FIG. 10 is a diagram illustrating an example of the configuration of the fixed speaker identification device 100.
  • FIG. 11 is a diagram illustrating an example of the relationship between the fixed speaker 121 and the microphone 101.
  • FIG. 12 is a diagram illustrating an example of the relationship between the fixed speaker 121 and the microphone 102.
  • FIG. 13 is a diagram illustrating an example of the relationship between the acoustic event 122 and the microphone 101.
  • FIG. 14 is a diagram illustrating an example of the distribution of elements of a set recorded in the feature amount store 104 mapped in the feature amount space.
  • FIG. 11 is a diagram illustrating an example of the relationship between the fixed speaker 121 and the microphone 101.
  • FIG. 12 is a diagram illustrating an example of the relationship between the fixed speaker 121 and the microphone 102.
  • FIG. 13 is a diagram illustrating an example of the relationship between the acoustic event 122 and the microphone 101.
  • FIG. 14 is a diagram illustrating an example of the distribution of elements of a set
  • FIG. 15 is a diagram illustrating an example of an identification range determined by the fixed speaker sounding range determination unit 106.
  • FIG. 16 is a diagram for explaining the operation of the fixed speaker pronunciation identifying unit 108.
  • FIG. 17 is a flowchart illustrating an example of the operation of each component corresponding to the pronunciation range learning unit of the fixed speaker identification device 100.
  • FIG. 18 is a flowchart illustrating an example of the operation of each component corresponding to the pronunciation identification unit of the fixed speaker identification device 100.
  • a fixed speaker identification device 100 that identifies whether or not a received acoustic signal is an acoustic signal from the stationary speaker 121 will be described. That is, in the present embodiment, an example in which the fixed signal source identification device 000 described in the first embodiment is specifically applied to an acoustic signal will be described.
  • the fixed speaker identification device 100 is an information processing device that identifies whether or not the received acoustic signal is an acoustic signal from the fixed speaker 121.
  • the fixed speaker identification device 100 receives an acoustic signal from the fixed speaker 121 whose installation position is fixed, and receives an acoustic signal from an acoustic event 122 other than the fixed speaker 121. Then, the fixed speaker identification device 100 identifies whether or not the received acoustic signal is an acoustic signal from the fixed speaker 121.
  • FIG. 10 shows an example of the configuration of the fixed speaker identification device 100.
  • the fixed speaker identification device 100 includes a microphone 101, a microphone 102, a feature amount calculation unit 103, a feature amount store 104, a teacher label generation unit 105, a fixed speaker sounding range determination unit 106, A determination range DB 107 and a fixed speaker pronunciation identification unit 108 are provided.
  • the fixed speaker identification device 100 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the fixed speaker identification device 100 implements each processing unit described above by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the discrimination range DB 107 constitutes a pronunciation range learning unit.
  • the sound generation range learning unit determines a fixed speaker sound generation range (identification range) that is a signal output from the fixed speaker 121. In the following, first, a configuration included in the pronunciation range learning unit among the configurations of the fixed speaker identification device 100 will be described.
  • the microphone 101 and the microphone 102 are sensors that are fixed around the fixed speaker identification device 100 or the fixed speaker identification device 100 with a certain interval.
  • the microphone 101 and the microphone 102 each convert the amplitude information of the received sound into a signal.
  • the microphone 101 and the microphone 102 include a function for A / D conversion, and the output can be handled as a digital time-series signal.
  • the microphone 101 and the microphone 102 are fixed with a certain interval as described above. For this reason, for example, the path for the acoustic signal output from the fixed speaker 121 to reach the microphone 101 is different from the path for the signal output from the fixed speaker 121 to reach the microphone 102.
  • FIG. 11 and 12 show an example of the path of the acoustic signal.
  • FIG. 11 shows an example of the relationship between the fixed speaker 121 and the microphone 101
  • FIG. 12 shows an example of the relationship between the fixed speaker 121 and the microphone 102.
  • the signal output from the fixed speaker 121 reaches the microphone 101 through a plurality of paths. Therefore, the sound signal that can be observed by the microphone 101 can be expressed as a convolution of a transfer function depending on the path on the acoustic signal output from the fixed speaker 121.
  • There are diffraction, refraction, diffuse reflection, and the like in the transmission of an acoustic signal but these can be expressed as a synthesis of paths. The same applies to the microphone 102 as shown in FIG.
  • the microphone 101 and the microphone 102 are installed at a constant interval. Therefore, as shown in FIGS. 11 and 12, the path of the acoustic signal from the fixed speaker 121 to the microphone 101 and the path of the acoustic signal from the fixed speaker 121 to the microphone 102 are different depending on the respective installation positions. Occurs.
  • the feature amount calculation unit 103 calculates a feature amount that represents a spatial path required for the arrival of sound at regular time intervals based on the acoustic signals received by the microphone 101 and the microphone 102.
  • the feature amount calculation unit 103 calculates a cross spectrum between the microphone 101 and the microphone 102.
  • the feature amount calculation unit 103 calculates a cross spectrum by the same method as the feature amount calculation unit 003 described in the first embodiment. Note that the similarity, that is, the difference between the transfer functions of the path from the fixed speaker 121 to the microphone 101 and the path to the microphone 102 takes the form of a cross spectrum, as in the first embodiment.
  • the sound event is a sound event 122 different from that of the fixed speaker 121
  • the sound signal passes through a completely different route from that in FIGS. 11 and 12, as shown in FIG. And the microphone 102 is reached. Therefore, the shape of the cross spectrum is also different. This is also the same as in the first embodiment.
  • the feature quantity calculation unit 103 can perform norm normalization when calculating the cross spectrum, similarly to the feature quantity calculation unit 003 described in the first embodiment. By performing norm normalization, the feature amount calculation unit 103 can remove the dependency on the loudness.
  • the feature quantity store 104 is a storage device such as a memory or a disk device.
  • the feature amount store 104 records the feature amount calculated by the feature amount calculation unit 103.
  • the feature quantity store 104 records a label output from a teacher label generation unit 105 described later in association with the corresponding feature quantity.
  • the feature quantity store 104 records the feature quantity calculated by the feature quantity calculation unit 103 and the feature quantity label generated by the teacher label generation unit 105 in association with each other.
  • the teacher label generation unit 105 generates a label indicating whether or not there is a pronunciation from the fixed speaker 121 at the time corresponding to the feature amount.
  • the label generation by the teacher label generation unit 105 may be performed manually or automatically.
  • the teacher label generation unit 105 generates a label according to manual input, for example.
  • the fixed speaker sounding range determination unit 106 determines identification range information indicating an identification range for discriminating a signal output from the fixed speaker 121 from the feature amount recorded in the feature amount store 104 and the set of labels.
  • the fixed speaker sounding range determination unit 106 receives a set of feature quantities and labels recorded in the feature quantity store 104 as input, and maps each element of the set into the feature quantity space.
  • FIG. 14 is a schematic diagram of this state in two dimensions. Then, the fixed speaker sounding range determination unit 106 learns the discriminator and determines the identification range as indicated by a dotted line in FIG.
  • the fixed speaker sounding range determination unit 106 includes an element (feature value) corresponding to a label indicating that there is an output from the fixed speaker 121 within the identification range, while an output from other than the fixed speaker 121 is received.
  • the identification range is determined so that the element (feature value) corresponding to the label indicating that it does not enter the identification range. In the case of FIG.
  • a range indicated by an oblique hatch surrounded by a dotted line is an identification range that is a range that is identified as a signal output from the fixed speaker 121.
  • SVM is used as a discriminator.
  • the fixed speaker sounding range determination unit 106 may use another discriminator shown in the first embodiment.
  • the fixed speaker sounding range determination unit 106 may determine one identification range, or may determine a plurality of identification ranges. It doesn't matter.
  • the discrimination range DB 107 records the discrimination range determined by the fixed speaker sounding range determination unit 106.
  • the discrimination range DB 107 may record one or a plurality of discrimination ranges.
  • the above is an example of the configuration included in the pronunciation range learning unit.
  • the microphone 101, the microphone 102, the feature amount calculation unit 103, the discrimination range DB 107, and the fixed speaker pronunciation identification unit 108 constitute a pronunciation identification unit. Yes.
  • the pronunciation identifying unit identifies whether the received acoustic signal is an output from the fixed speaker 121 using the identification range determined by the pronunciation range learning unit.
  • a configuration included in the pronunciation identification unit will be described.
  • the configurations of the microphone 101, the microphone 102, the feature amount calculation unit 103, and the discrimination range DB 107 have already been described in the above-described pronunciation range learning unit. Therefore, detailed description is omitted.
  • the fixed speaker pronunciation identifying unit 108 uses the identification range recorded in the discrimination range DB 107 to identify whether or not the acoustic signal corresponding to the feature amount calculated by the feature amount calculating unit 103 is the pronunciation of the fixed speaker 121. . Then, the fixed speaker pronunciation identifying unit 108 outputs an identification result that is the identified result.
  • the output by the fixed speaker pronunciation identifying unit 108 may be, for example, transmission to an external device or display of the identification result on the display device.
  • the fixed speaker pronunciation identifying unit 108 may perform the output by a method other than that exemplified above.
  • the fixed speaker pronunciation identifying unit 108 verifies whether or not the feature amount calculated by the feature amount calculating unit 103 corresponds to the identification range stored in the determination range DB 107. For example, in the example shown in FIG. 16, it is assumed that a feature amount indicated by a ⁇ is input in the feature amount space. As shown in FIG. 16, the feature quantity indicated by the symbol ⁇ belongs to the identification range. For this reason, the fixed speaker pronunciation identifying unit 108 identifies that the signal corresponding to the feature value is a fixed signal source output signal. That is, the identification result of the corresponding time by the fixed speaker pronunciation identifying unit 108 is fixed speaker pronunciation. Further, for example, in the example shown in FIG.
  • the fixed speaker pronunciation identifying unit 108 identifies that the signal corresponding to the feature value is not a fixed signal source output signal. In other words, the identification result of the corresponding time by the fixed speaker pronunciation identifying unit 108 is not fixed speaker pronunciation.
  • the above is an example of the configuration included in the pronunciation identification unit.
  • the fixed speaker identification device 100 has a configuration corresponding to the above-described pronunciation range learning unit and pronunciation identification unit.
  • the fixed speaker identification device 100 uses the identification range learned by the pronunciation range learning unit to identify the acoustic signal by the pronunciation identification unit.
  • the fixed speaker identification device 100 may be configured by one information processing device or may be configured by a plurality of information processing devices.
  • the fixed speaker identification device 100 may be configured by two devices, for example, a device having a configuration corresponding to the pronunciation range learning unit and a device having a configuration corresponding to the pronunciation identification unit.
  • the feature amount calculation unit 103 calculates a feature amount based on the acoustic signals received by the microphone 101 and the microphone 102 (step S301). For example, the feature amount calculation unit 103 calculates a cross spectrum between the microphone 101 and the microphone 102 as the feature amount. Note that the feature amount calculation unit 103 may perform norm normalization when calculating the cross spectrum.
  • the feature amount store 104 records the feature amount calculated by the feature amount calculation unit 103 and the feature amount label generated by the teacher label generation unit 105 in association with each other as a set (step S302).
  • the label generation by the teacher label generation unit 105 is performed manually, for example.
  • the fixed speaker sounding range determination unit 106 receives a set of feature values and labels recorded in the feature value store 104 as input, and maps each element of the set in the feature value space. Then, the fixed speaker sounding range determination unit 106 learns the discriminator and determines the identification range as indicated by the dotted line in FIG. 15 (step S303).
  • the discrimination range DB 107 records the discrimination range determined by the fixed speaker sounding range determination unit 106 (step S304).
  • the discrimination range DB 107 records not only one but also a plurality of discrimination ranges.
  • each component corresponding to the pronunciation range learning unit of the fixed speaker identification device 100 is an example of the operation of each component corresponding to the pronunciation range learning unit of the fixed speaker identification device 100.
  • an example of the operation of each component corresponding to the pronunciation identification unit of the fixed speaker identification device 100 will be described with reference to FIG. It is assumed that the discrimination range DB 107 stores an identification range that is a result of learning in advance in the pronunciation range learning unit.
  • the feature amount calculation unit 103 calculates a feature amount based on the signals received by the microphone 101 and the microphone 102 (step S401). For example, the feature amount calculation unit 103 calculates a cross spectrum between the microphone 101 and the microphone 102 as the feature amount. Note that the feature amount calculation unit 103 may perform norm normalization when calculating the cross spectrum.
  • the fixed speaker pronunciation identifying unit 108 verifies whether or not the feature amount calculated by the feature amount calculating unit 103 corresponds to the identification range stored in the determination range DB 007 (step S402).
  • the fixed speaker pronunciation identification unit 108 receives the acoustic signal corresponding to the feature amount from the fixed speaker. (Step S403).
  • the fixed speaker pronunciation identification unit 108 determines that the acoustic signal corresponding to the feature amount is a fixed speaker. It is identified that the pronunciation is not from (step S404).
  • the fixed speaker pronunciation identifying unit 108 outputs an identification result that is the identified result (step S405).
  • the fixed speaker pronunciation identifying unit 108 outputs time-series identification results.
  • the fixed speaker identification device 100 includes the pronunciation range learning unit including the fixed speaker generation range determination unit 106 and the pronunciation identification unit.
  • the fixed speaker sounding range determination unit 106 of the sounding range learning unit can determine the identification range used when the acoustic signal output from the fixed speaker 121 is determined.
  • the pronunciation identifying unit can identify whether or not the received acoustic signal is a sound produced by the fixed speaker 121 using the determined identification range. That is, according to the fixed speaker identification device 100 of the present embodiment, it is possible to learn an identification range that depends on a difference in a signal transmission path using a plurality of microphones (microphone 101 and microphone 102).
  • the identification range can be calculated in a normal operation without requiring special in-space calibration. Therefore, the installation cost can be reduced.
  • the learning process (determination of the identification range) by the pronunciation range learning unit is performed in advance before the identification process by the pronunciation identification unit. More specifically, the pronunciation range learning unit performs learning in advance, but the learning by the pronunciation range learning unit may be less in the future than the identification time point by the fixed speaker pronunciation identification unit 108. In other words, the identification range only needs to be stored in the determination range DB 107 when the fixed speaker pronunciation identification unit 108 performs identification. For this reason, the pronunciation range learning unit can always be operated simultaneously, and learning can be performed for the time range L past the present (for example, the identification time point by the fixed speaker pronunciation identification unit 108), and the discrimination range DB 107 can be constantly updated. It is.
  • the predetermined time range L can be, for example, one day.
  • the detection stability is improved.
  • shortening the time range L improves the followability to the movement of the fixed signal source 021 and the reflector.
  • the microphone 101 and the microphone 102 are used as inputs.
  • the number of microphones included in the fixed speaker identification device 100 is not limited to two.
  • the fixed speaker identification device 100 can have a plurality of microphones.
  • the fixed speaker identification device 100 can handle a feature vector having six times the number of dimensions as a super vector in which cross-correlation functions of six combinations that can be combined using four sensors are arranged. is there.
  • a microphone is used as an input sensor.
  • the same means can be applied to a hydrophone, a vibration sensor, a temperature sensor, and the like.
  • FIG. 19 is a diagram illustrating an example of the configuration of the fixed speaker identification device 200.
  • a fixed speaker identification device 200 that is a modification of the fixed speaker identification device 100 described in the second embodiment will be described.
  • the fixed speaker identification device 200 has a change in the portion corresponding to the pronunciation range learning unit as compared with the fixed speaker identification device 100.
  • each configuration corresponding to the pronunciation identification unit is the same as that of the fixed speaker identification device 100.
  • FIG. 19 shows an example of the configuration of the fixed speaker identification device 200.
  • the fixed speaker identification device 200 includes a microphone 101, a microphone 102, a feature amount calculation unit 103, a feature amount store 104, a teacher label generation unit 205, a fixed speaker sounding range determination unit 106, A determination range DB 107 and a fixed speaker pronunciation identification unit 108 are provided.
  • the same components as those of the fixed speaker identification device 100 are denoted by the same reference numerals.
  • the fixed speaker identification device 200 includes the teacher label generation unit 205 instead of the teacher label generation unit 105 included in the fixed speaker identification device 100.
  • the teacher label generation unit 205 which is a characteristic configuration of the present embodiment will be described.
  • the teacher label generation unit 205 automatically generates a label based on the input information. For example, as shown in FIG. 19, the teacher label generation unit 205 receives the acoustic signals from the microphone 101 and the microphone 102 and the feature amount calculated by the feature amount calculation unit 103. The teacher label generation unit 205 generates a label based on the input acoustic signal and the feature amount.
  • the teacher label generation unit 205 calculates the power (magnitude) of the acoustic signal obtained from the microphone 101 and the microphone 102. When the power of the calculated acoustic signal is greater than a predetermined threshold A (which may be an arbitrary value), the teacher label generation unit 205 sets the acoustic signal as a sound signal. In addition, the teacher label generation unit 205 calculates the average value ⁇ and the variance ⁇ of the feature amount of the sound signal included in the predetermined time range L2. Then, the teacher label generation unit 205 assigns a label indicating that the sound is fixed speaker to the time (feature amount) when the feature amount falls within the deviation from the corresponding average value to the range of variance.
  • a predetermined threshold A which may be an arbitrary value
  • the teacher label generation unit 205 gives a label that is not a fixed speaker pronunciation.
  • the time range L2 may be any value.
  • the time range L2 may be the same as or different from the time range L.
  • the teacher label generation unit 205 extracts a part of the received acoustic signal based on, for example, the loudness level. In addition, the teacher label generation unit 205 calculates an average value ⁇ and variance ⁇ of feature amounts calculated from the extracted acoustic signal. Then, the teacher label generation unit 205 assigns a label based on the calculated average value ⁇ and variance ⁇ of the feature amount.
  • the fixed speaker identification device 200 including the teacher label generation unit 205 described above is assumed to be used, for example, in a general home where the television receiver as the fixed speaker 121 is left attached.
  • the section where the sound is sounding is mostly the sound of the television, and in rare cases the sound emitted by the resident or other devices It is assumed that the sound generated by Therefore, by configuring the teacher label generation unit 205 as described above, a label can be appropriately given.
  • the above operation example is merely an example.
  • the teacher label generation unit 205 included in the fixed speaker identification device 200 receives the acoustic signals from the microphone 101 and the microphone 102 and the feature amount calculated by the feature amount calculation unit 103. It is configured as follows. With such a configuration, the teacher label generation unit 205 can generate a label based on the input acoustic signal and the feature amount. As a result, it is possible to give a label indicating that the sound is a fixed speaker, without relying on manual work, using information obtained from the microphone 101 and the microphone 102.
  • the teacher label generation unit 205 assigns a label based on the average value ⁇ and the variance ⁇ .
  • the method by which the teacher label generation unit 205 assigns a label is not limited to the case illustrated above.
  • the teacher label generation unit 205 calculates whether a certain amount of features included in the predetermined time range L2 is concentrated in the narrowest range, for example, a 95% interval, and is included in the range.
  • a label may be given.
  • weighting introducing the forgetting factor ⁇ may be performed.
  • FIG. 20 is a diagram illustrating an example of the configuration of the fixed speaker identification device 300.
  • a fixed speaker identification device 300 that is a modification of the fixed speaker identification device 100 described in the second embodiment and the fixed speaker identification device 200 described in the third embodiment will be described.
  • the fixed speaker identification device 300 has a change in a portion corresponding to the pronunciation range learning unit as compared with the fixed speaker identification device 100 and the fixed speaker identification device 200.
  • each configuration corresponding to the pronunciation identification unit is the same as the fixed speaker identification device 100 and the fixed speaker identification device 200.
  • FIG. 20 shows an example of the configuration of the fixed speaker identification device 300.
  • the fixed speaker identification device 300 includes a microphone 101, a microphone 102, a feature amount calculation unit 103, a feature amount store 104, a teacher label generation unit 305, a fixed speaker sounding range determination unit 106, The determination range DB 107, the fixed speaker pronunciation identification unit 108, and the scheduler 309 are included.
  • the same components as those of the fixed speaker identification device 100 and the fixed speaker identification device 200 are denoted by the same reference numerals.
  • the fixed speaker identification device 300 has the teacher label generation unit 305 instead of the teacher label generation unit 105 included in the fixed speaker identification device 100 and the teacher label generation unit 205 included in the fixed speaker identification device 200. Yes.
  • the fixed speaker identification device 300 has a scheduler 309.
  • the teacher label generation unit 305 and the scheduler 309 which are characteristic configurations of the present embodiment, will be described.
  • the scheduler 309 has a built-in clock.
  • the scheduler 309 records a schedule indicating the usage status of the fixed speaker 121 in advance. Then, the scheduler 309 outputs information corresponding to the schedule to the teacher label generation unit 305. For example, according to the schedule recorded by the scheduler 309, it is assumed that the fixed speaker 121 performs a scheduled broadcast for 5 minutes from 10 am and 3 pm every day. Then, the scheduler 309 outputs to the teacher label generation unit 305 that the time corresponds to the schedule for scheduled broadcast during the scheduled broadcast time.
  • the teacher label generation unit 305 Based on the output from the scheduler 309, the teacher label generation unit 305 knows that it is time for fixed speaker sound generation. Then, the teacher label generation unit 305 gives a label indicating that the sound generation is fixed speaker to the calculated feature amount during the time when the fixed speaker sound generation is performed. On the other hand, if it is not time for fixed speaker sound generation, the teacher label generation unit 305 gives a label to the calculated feature amount if it is not fixed speaker sound generation. In this way, the teacher label generation unit 305 gives a label based on the output from the scheduler 309.
  • the teacher label generation unit 305 may use the power of the acoustic signal obtained from the microphone 101 and the microphone 102 when applying the label. For example, the teacher label generation unit 305 performs a logical product of whether or not the signal is a sound signal determined based on the comparison result between the power of the acoustic signal and the threshold A and a value corresponding to the input from the scheduler 309. You may comprise. In the case of taking the logical product, for example, the teacher label generation unit 305 determines that the power of the acoustic signal is larger than the threshold value A and that it is a time during which fixed speaker sound generation is performed based on the output from the scheduler 309. If it can, it will be labeled as a fixed speaker pronunciation.
  • the teacher label generation unit 305 is not fixed speaker sound generation. And label.
  • the fixed speaker identification device 300 includes the teacher label generation unit 305 and the scheduler 309.
  • the teacher label generation unit 305 can generate a label based on the schedule recorded by the scheduler 309.
  • the accuracy of the discrimination range DB can be improved.
  • the fixed speaker identification device 300 may use both label generation based on information from the scheduler 309 and the label generation method described in the second and third embodiments.
  • the fixed speaker identification device 300 is configured to perform labeling based on the average value ⁇ and the variance ⁇ of the feature amount when it is determined that it is not time for sound generation of the fixed speaker based on the output from the scheduler 309. You can also
  • FIG. 21 is a diagram illustrating an example of the configuration of the fixed speaker identification device 400.
  • a fixed speaker identification device 400 as a modification will be described.
  • the fixed speaker identification device 400 has a change in a portion corresponding to the pronunciation range learning unit as compared with the fixed speaker identification device 100, the fixed speaker identification device 200, and the fixed speaker identification device 300.
  • each configuration corresponding to the pronunciation identification unit is the same as the fixed speaker identification device 100, the fixed speaker identification device 200, and the fixed speaker identification device 300.
  • the fixed speaker identification device 400 includes the teacher label generation unit 105 included in the fixed speaker identification device 100, the teacher label generation unit 205 included in the fixed speaker identification device 200, and the teacher label generation unit 305 included in the fixed speaker identification device 300.
  • a teacher label generation unit 405 is provided.
  • the teacher label generation unit 405 that is a characteristic configuration of the present embodiment will be described.
  • the teacher label generation unit 405 receives a fixed speaker usage status input from an external device, for example. When the teacher label generation unit 405 generates a label, the teacher label generation unit 405 refers to the input input status of the fixed speaker.
  • the fixed speaker usage status input is information generated by the fixed speaker 121 or a device that monitors the fixed speaker 121 according to the usage status of the fixed speaker 121.
  • a fixed speaker utilization status input is generated in conjunction with the power switch of the broadcasting facility or the Push-to-Talk switch.
  • the fixed speaker 121 is a television receiver, a fixed speaker usage status input is generated in conjunction with the power switch, the mute button status, the camera, the brightness sensor, and the like.
  • the fixed speaker usage status input is generated according to the usage status of the fixed speaker.
  • the teacher label generation unit 405 generates a label based on the input status of the fixed speaker usage status input. For example, when a fixed speaker usage status input is input, the teacher label generation unit 405 gives a label indicating that the sound is fixed speaker. On the other hand, the teacher label generation unit 405 gives a label indicating that the sound is not a fixed speaker when no fixed speaker usage status input is input.
  • the teacher label generation unit 405 may use the power of the acoustic signal obtained from the microphone 101 and the microphone 102 together with the label, as in the case described in the fourth embodiment.
  • the teacher label generation unit 405 is configured to perform a logical product of whether or not the sound signal is a sound signal determined based on a comparison result between the power of the acoustic signal and the threshold value A and whether or not a fixed speaker usage status is input. It doesn't matter.
  • the teacher label generation unit 405 determines that the sound of the fixed speaker is generated when the power of the acoustic signal is larger than the threshold value A and the fixed speaker usage status input is input. Give a label.
  • the teacher label generation unit 405 gives a label that the sound is not fixed speaker.
  • the teacher label generation unit 405 included in the fixed speaker identification device 400 is configured to receive a fixed speaker usage status input.
  • the teacher label generation unit 405 can generate a label based on the input fixed speaker usage status input.
  • a signal generator for calibration can be connected to output sound from the corresponding fixed speaker 121. In this case, it is possible to accurately control the time width for making a sound, and thus it is possible to generate the signal of the fixed speaker utilization status input more accurately.
  • the fixed speaker identification device 400 uses a combination of label generation based on a fixed speaker usage status input and the label generation method described in the second, third, and fourth embodiments. It doesn't matter.
  • FIG. 22 is a diagram illustrating an example of the configuration of the acoustic event detection device 500.
  • an acoustic event detection apparatus 500 that detects an acoustic event 122 will be described.
  • the acoustic event detection apparatus 500 described in the present embodiment has a configuration corresponding to the pronunciation identification unit described using the second embodiment.
  • the acoustic event detection device 500 has a configuration for detecting the acoustic event 122 in addition to the above configuration. As will be described later, the acoustic event detection device 500 determines the final detection result based on the detection result of the acoustic event 122 and the identification result by the pronunciation identifying unit.
  • FIG. 22 shows an example of the configuration of the acoustic event detection device 500.
  • the acoustic event detection device 500 includes a pronunciation identification unit 501, a microphone 502, an acoustic event detection unit 503, and a detection result correction unit 504.
  • the acoustic event detection device 500 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the acoustic event detection device 500 realizes the above-described processing units by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the pronunciation identification unit 501 has a plurality of unique microphones, and identifies whether the received acoustic signal is an acoustic signal from the fixed speaker 121.
  • the configuration of the pronunciation identification unit 501 is the same as the configuration of the pronunciation identification unit included in the fixed speaker identification device 100 described in the second embodiment, for example. Therefore, detailed description of the configuration of the pronunciation identification unit 501 is omitted.
  • the microphone 502 converts ambient sound data into a signal.
  • the microphone 502 is provided separately from the microphone included in the pronunciation identifying unit 501.
  • the acoustic event detection unit 503 detects whether or not a predetermined acoustic event 122 has occurred from a time series of sound information obtained by the microphone 502. For example, the acoustic event detection unit 503 detects the acoustic event 122 when the power (magnitude) of the acoustic signal obtained by the microphone 502 is greater than a predetermined threshold B (which may be an arbitrary value). Then, the acoustic event detection unit 503 outputs the detected result.
  • the acoustic event detection unit 503 may detect the acoustic event 122 using a method other than the method exemplified above.
  • the detection result correction unit 504 refers to the output of the pronunciation identification unit 501 at the corresponding time when the acoustic event detection unit 503 outputs that the acoustic event 122 has been detected. Then, the detection result correction unit 504 corrects the detection result by the acoustic event detection unit 503 based on the output of the pronunciation identification unit 501. For example, the detection result correction unit 504 deletes the detection result by the acoustic event detection unit 503 when the identification result by the pronunciation identification unit 501 at the corresponding time is a fixed speaker pronunciation.
  • the detection result correction unit 504 does not correct the detection result by the acoustic event detection unit 503 when the identification result by the pronunciation identification unit 501 at the corresponding time is not a fixed speaker pronunciation.
  • the detection result correction unit 504 corrects the detection result using the result of the pronunciation identification unit 501 having an independent microphone with respect to the output of the acoustic event detection unit 503.
  • the configuration of the detection result correction unit 504 is not limited to the above case.
  • the detection result correction unit 504 indicates that the sound is identified as a fixed speaker sound instead of suppressing (deleting) the detection of the acoustic event 122. May be added to the detection result by the acoustic event detection unit 503. Thereby, the identification result can be transmitted to the side using the detection result.
  • the detection result correcting unit 504 does not correct the detection result when the pronunciation identifying unit 501 identifies that the sound is a fixed speaker, but performs correction to delete the detection result when it is identified that the sound is not a fixed speaker. It can also be configured.
  • the acoustic event detection device 500 includes the pronunciation identification unit 501, the acoustic event detection unit 503, and the detection result correction unit 504.
  • the detection result correction unit 504 can correct the detection result by the acoustic event detection unit 503 based on the identification result by the pronunciation identification unit 501.
  • the acoustic event detection apparatus 500 can identify whether or not the detected acoustic event is sounded from the fixed speaker 121, and detects only those that are not output from the fixed speaker 121 as the acoustic event 122. It becomes possible to do.
  • the configuration in which the detection result is deleted when it is identified that the sound is not a fixed speaker sound is suitable for detecting an acoustic event 122 emitted from a fixed target without being limited to the speaker.
  • Such a configuration can be used, for example, for monitoring abnormal sounds of fixed playground equipment in an amusement park or detecting abnormal sounds of equipment installed in a factory.
  • the acoustic event detection device 500 may or may not have a configuration corresponding to the pronunciation range learning unit among the configurations of the fixed speaker identification device 100.
  • the sound generation range learning unit may be a modification of any of the fixed speaker identification device 200, the fixed speaker identification device 300, and the fixed speaker identification device 400. Absent.
  • the discrimination range DB included in the pronunciation identification unit 501 includes information indicating the identification range from an external device having a configuration corresponding to the pronunciation range learning unit. Shall be stored.
  • FIG. 23 is a diagram illustrating an example of the configuration of the acoustic event detection device 600.
  • an acoustic event detection device 600 that is a modification of the acoustic event detection device 500 described in the sixth embodiment will be described.
  • the identification result by the pronunciation identification unit 501 is input to the acoustic event detection unit 603.
  • the acoustic event detection device 600 changes the threshold value B used when detecting the acoustic event based on the identification result by the pronunciation identifying unit 501.
  • FIG. 23 shows an example of the configuration of the acoustic event detection device 600.
  • the acoustic event detection device 600 includes a pronunciation identification unit 501, a microphone 502, and an acoustic event detection unit 603.
  • the acoustic event detection device 600 includes the acoustic event detection unit 603 instead of the acoustic event detection unit 503 included in the acoustic event detection device 500.
  • the acoustic event detection device 600 does not have a configuration corresponding to the detection result correction unit 504, and is configured to input the identification result by the pronunciation identification unit 501 to the acoustic event detection unit 603.
  • the acoustic event detection unit 603 that is a characteristic configuration of the present embodiment will be described.
  • the acoustic event detection unit 603 detects whether or not a predetermined acoustic event 122 has occurred from a time series of sound information obtained by the microphone 502. For example, the acoustic event detection unit 603 detects the acoustic event 122 when the power (magnitude) of the acoustic signal obtained by the microphone 502 is greater than a predetermined threshold B (which may be an arbitrary value). And the acoustic event detection part 603 outputs the detected result.
  • a predetermined threshold B which may be an arbitrary value
  • the acoustic event detection unit 603 changes the threshold B based on the input from the pronunciation identification unit 501. For example, the acoustic event detection unit 603 increases the threshold B when the identification result by the pronunciation identification unit 501 is fixed speaker pronunciation. As a result, the acoustic event detection unit 603 decreases the detection sensitivity while the identification result by the pronunciation identification unit 501 is fixed speaker pronunciation.
  • the acoustic event detection device 600 is configured to input the identification result by the pronunciation identification unit 501 to the acoustic event detection unit 603.
  • the acoustic event detection unit 603 can change the threshold B (change the detection sensitivity) based on the identification result by the pronunciation identification unit 501.
  • the acoustic event detection device 600 may or may not have a configuration corresponding to the pronunciation range learning unit, similar to the acoustic event detection device 500.
  • FIG. 24 is a diagram illustrating an example of the configuration of the acoustic event detection device 700.
  • an acoustic event detection device 700 that is a modification of the acoustic event detection device 500 described in the sixth embodiment will be described.
  • the acoustic event detection apparatus 700 has a band limiting unit 702 in the pronunciation identifying unit 701.
  • the pronunciation identifying unit 701 restricts the band to only the central frequency band constituting the acoustic event 122 detected by the acoustic event detecting unit 503 and identifies whether or not the sound signal is from the fixed speaker 121.
  • FIG. 24 shows an example of the configuration of the acoustic event detection device 700.
  • the acoustic event detection apparatus 700 includes a pronunciation identification unit 701, a microphone 502, an acoustic event detection unit 503, and a detection result correction unit 504.
  • the acoustic event detection device 700 includes the pronunciation identification unit 701 instead of the pronunciation identification unit 501 included in the acoustic event detection device 500.
  • the pronunciation identifying unit 701 which is a characteristic configuration of the present embodiment will be described.
  • the pronunciation identification unit 701 has a plurality of unique microphones and identifies whether or not the received acoustic signal is an acoustic signal from the fixed speaker 121.
  • the pronunciation identifying unit 701 includes a band limiting unit 702 in addition to the configuration of the pronunciation identifying unit included in the fixed speaker identifying apparatus 100 described in the second embodiment. Specifically, in the case of the pronunciation identifying unit 701, the acoustic signal received by the microphone 101 and the microphone 102 is configured to be input to the feature amount calculating unit 103 via the band limiting unit 702.
  • the band limiting unit 702 performs band limiting based on the input information. In other words, the band limiting unit 702 outputs only the central frequency band constituting the acoustic event detected by the acoustic event detection unit 402 to the feature amount calculation unit 103 among the acoustic signals received by the microphone 101 and the microphone 102. .
  • the fixed speaker pronunciation identifying unit 108 of the pronunciation identifying unit 701 restricts the band only to the central frequency band constituting the acoustic event and determines whether or not the fixed speaker pronunciation is performed. Can be identified.
  • the acoustic event detection device 700 includes the pronunciation identifying unit 701 having the band limiting unit 702. Further, the band limiting unit 702 is configured to receive information indicating a central frequency band constituting the acoustic event detected by the acoustic event detection unit 402. With such a configuration, the acoustic event detection device 700 can determine whether or not a fixed speaker is sounded after limiting the band to only the central frequency band constituting the acoustic event. This makes it possible to improve the accuracy of identification even when a plurality of acoustic events are mixed or in a noisy environment.
  • FIG. 25 is a diagram illustrating an example of the configuration of the speech recognition apparatus 800.
  • a speech recognition apparatus 800 that performs speech recognition will be described.
  • the speech recognition apparatus 800 described in the present embodiment has a configuration corresponding to the pronunciation identification unit described using the second embodiment.
  • the speech recognition apparatus 800 has a configuration for performing speech recognition. As will be described later, the speech recognition apparatus 800 determines a final detection result based on the result of speech recognition and the identification result by the pronunciation identifying unit.
  • FIG. 25 shows an example of the configuration of the speech recognition apparatus 800.
  • the speech recognition apparatus 800 includes a pronunciation identification unit 801, a microphone 802, a speech recognition unit 803, and a recognition result correction unit 804.
  • the voice recognition device 800 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the speech recognition apparatus 800 implements the above-described processing units by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the pronunciation identification unit 801 has a plurality of unique microphones and identifies whether or not the received acoustic signal is an acoustic signal from the fixed speaker 121.
  • the configuration of the pronunciation identification unit 801 is the same as the configuration of the pronunciation identification unit included in the fixed speaker identification device 100 described in the second embodiment, for example. Therefore, detailed description of the configuration of the pronunciation identification unit 801 is omitted.
  • the microphone 802 converts ambient sound data into a signal.
  • the microphone 802 is provided separately from the microphone included in the pronunciation identifying unit 801.
  • the voice recognition unit 803 performs voice recognition from a time series of sound information obtained by the microphone 802. Then, the voice recognition unit 803 outputs a voice recognition result.
  • the speech recognition result has, for example, a word ID or a text form.
  • the specific configuration of the voice recognition unit 803 is not particularly limited.
  • the voice recognition unit 803 can be configured to perform general voice recognition processing, such as performing word spotting that extracts a predetermined word from a time series of sound information obtained by the microphone 802, for example.
  • the recognition result correcting unit 804 refers to the output of the pronunciation identifying unit 801 at the corresponding time when the speech recognizing unit 803 performs specific speech recognition by word spotting. Then, the recognition result correction unit 804 deletes the corresponding recognition result when the result of the corresponding time is fixed speaker pronunciation. On the other hand, when the result at the corresponding time is not a fixed speaker pronunciation, the recognition result correction unit 804 outputs the output of the voice recognition unit 803 as it is as a recognition result.
  • the speech recognition apparatus 800 includes the pronunciation identifying unit 801, the speech recognition unit 803, and the recognition result correction unit 804.
  • the recognition result correcting unit 804 can correct the recognition result by the voice recognition unit 803 based on the identification result by the pronunciation identifying unit 801.
  • voice recognition it is possible to identify whether or not the corresponding sound is generated from the fixed speaker 121 and to recognize only those that are not output from the corresponding fixed speaker 121.
  • erroneous detection can be reduced by not recognizing speech that is confused with the recognition target speech, for example, when a speech recognition command word is played on a television that is the fixed speaker 121.
  • the speech recognition apparatus 800 has a configuration similar to the acoustic event detection apparatus 500 described in the sixth embodiment, as shown in FIG.
  • the device for sound event detection described in the sixth, seventh, and eighth embodiments can be similarly applied to the voice recognition device 800.
  • FIG. 26 is a diagram illustrating an example of the configuration of the signal source identification device 900.
  • FIG. 27 is a diagram illustrating an example of the configuration of the event detection device 910.
  • FIG. 28 is a diagram illustrating an example of the configuration of the voice recognition device 920.
  • FIG. 26 shows an example of the signal source identification device 900.
  • the signal source identification device 900 includes a feature amount calculation unit 901 and an identification unit 902.
  • the signal source identification device 900 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the signal source identification device 900 realizes each processing unit described above by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the feature amount calculation unit 901 calculates a feature amount according to a route transmitted from a signal generation source based on signals received by a plurality of sensors.
  • the identification unit 902 uses the identification range, which is a range to which a feature amount based on a signal from a predetermined signal source, is determined based on the feature amount calculated by the feature amount calculation unit 901. It is identified whether or not the calculated feature value is a signal from a predetermined signal source.
  • the signal source identification device 900 includes the feature amount calculation unit 901 and the identification unit 902.
  • the identification unit 902 of the signal source identification device 900 uses the identification range to identify whether or not the feature amount calculated by the feature amount calculation unit 901 is a signal from a predetermined signal source. I can do it.
  • identifying based on the identification range as described above it is possible to detect whether the signal is stably output from a predetermined signal source without depending on the frequency characteristics of the signal. In other words, it can be easily detected that the signal is output from a predetermined signal source.
  • a program according to another embodiment of the present invention is a program for calculating a feature amount corresponding to a path through which a signal from a signal generation source is transmitted to the signal source identification device 900 based on signals received by a plurality of sensors.
  • the signal source identification method executed by the signal source identification device 900 described above is based on the signal transmitted from the signal source by the signal source identification device 900 based on the signals received by the plurality of sensors.
  • the calculated feature value is a predetermined signal using an identification range that is a range to which a feature value based on a signal from a predetermined signal source belongs, which is determined in advance based on the calculated feature value. It is a method of identifying whether or not the signal is from a source.
  • the above-described object of the present invention can be achieved because it has the same operation as the signal source identification device 900.
  • FIG. 27 shows an example of the configuration of the event detection device 910.
  • FIG. 28 shows an example of the configuration of the voice recognition device 920.
  • the event detection device 910 includes a feature amount calculation unit 901, an identification unit 902, an event detection unit 913, and a correction unit 914.
  • the event detection device 910 includes, for example, an arithmetic device such as a CPU (not shown) and a storage device.
  • the event detection device 910 implements the above-described processing units by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the feature amount calculation unit 901 and the identification unit 902 are the same as the configuration of the signal source identification device 900. Therefore, it can also be said that the event detection device 910 includes the configuration of the signal source identification device 900, the event detection unit 913, and the correction unit 914.
  • the event detection unit 913 detects an event based on the signal received by the sensor.
  • the correction unit 914 corrects the detection result by the event detection unit 913 based on the identification result by the identification unit 902 included in the signal source identification device.
  • the event detection device 910 described above can be realized by incorporating a predetermined program into the event detection device 910.
  • the program according to another embodiment of the present invention provides the event detection device 910 with a feature amount corresponding to a path through which a signal from a signal generation source is transmitted based on signals received by a plurality of sensors.
  • a feature amount calculation unit 901 to be calculated, and an identification range that is a range to which a feature amount based on a signal from a predetermined signal source belongs in advance is determined based on the feature amount calculated by the feature amount calculation unit 901.
  • An identification unit for identifying whether the feature quantity calculated by the quantity calculation unit 901 is a signal from the predetermined signal source, an event detection unit 913 for detecting an event based on a signal received by the sensor, and an event
  • This is a program for realizing a correction unit 914 that corrects the detection result of the detection unit 913 based on the identification result of the identification unit 902.
  • the event detection method executed by the event detection device 910 described above is characterized in that the event detection device 910 is based on signals received by a plurality of sensors according to a route through which the signal from the signal generation source is transmitted.
  • the calculated feature value is calculated from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature value. And detecting the event based on the signal received by the sensor, and correcting the detection result of the event based on the result of the identification.
  • the event detection result can be corrected based on the identification result of whether or not the signal is from a predetermined signal source.
  • the event detection result can be corrected based on the identification result of whether or not the signal is from a predetermined signal source.
  • the speech recognition apparatus 920 includes a feature amount calculation unit 901, an identification unit 902, a speech recognition unit 923, and a correction unit 924.
  • the voice recognition device 920 includes an arithmetic device such as a CPU (not shown) and a storage device.
  • the speech recognition device 920 implements the above-described processing units by causing the arithmetic device to execute a program stored in a storage device (not shown).
  • the feature amount calculation unit 901 and the identification unit 902 are the same as the configuration of the signal source identification device 900. Therefore, it can be said that the event detection device 910 includes the configuration of the signal source identification device 900, the voice recognition unit 923, and the correction unit 924.
  • the voice recognition unit 923 performs voice recognition based on an acoustic signal received by a microphone that is a sensor.
  • the correction unit 924 corrects the recognition result by the voice recognition unit 923 based on the identification result by the signal source identification device.
  • the voice recognition device 920 described above can be realized by incorporating a predetermined program into the voice recognition device 920.
  • the program according to another embodiment of the present invention provides the voice recognition device 920 with a feature amount corresponding to a path through which a signal from a signal generation source is transmitted based on signals received by a plurality of sensors.
  • a feature amount calculation unit 901 to be calculated, and an identification range that is a range to which a feature amount based on a signal from a predetermined signal source belongs in advance is determined based on the feature amount calculated by the feature amount calculation unit 901.
  • the speech recognition method executed by the speech recognition device 920 described above is characterized in that the speech recognition device 920 is based on signals received by a plurality of sensors according to a route through which the signal from the signal generation source is transmitted.
  • the calculated feature value is calculated from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature value.
  • the voice recognition is performed based on the acoustic signal received by the microphone as the sensor, and the result of the voice recognition is corrected based on the result of the identification.
  • the speech recognition result can be corrected based on the identification result of whether or not the signal is from a predetermined signal source.
  • the speech recognition result can be corrected based on the identification result of whether or not the signal is from a predetermined signal source.
  • a feature amount calculation unit Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • a signal source identification device (Appendix 2) The signal source identification device according to attachment 1, wherein The identification unit identifies a signal from the predetermined signal source when the feature amount calculated by the feature amount calculation unit belongs to the identification range.
  • a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source A program to realize (Appendix 12-1) In the signal source identification device, Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; A correction unit for correcting the detection result by the event detection unit based on the identification result by the signal source identification device; Having an event detection device.
  • the event detection device is an event detection device including a band limiting unit that limits a band based on a detection result by the event detection unit.
  • the signal source identification device is an event detection device including a band limiting unit that limits a band based on a detection result by the event detection unit.
  • a feature amount calculation unit Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; Have The event detection unit is an event detection device that changes a threshold used when detecting the event based on a result of identification by the signal source identification device. (Appendix 16) Event detection device Based on signals received by a plurality of sensors, a feature amount corresponding to a path through which the signal from the signal generation source is transmitted is calculated.
  • the calculated feature value is a signal from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature amount Identify whether or not Based on the signal received by the sensor, the event is detected, Correcting the detection result of the event based on the result of the identification; Event detection method.
  • a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; A correction unit that corrects the detection result by the event detection unit based on the identification result by the identification unit; Program to realize.
  • a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source; An event detector that detects an event based on a signal received by the sensor; A correction unit that corrects the detection result by the event detection unit based on the identification result by the identification unit; The computer-readable recording medium which recorded the program for implement
  • a feature amount calculation unit Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • a voice recognition unit that performs voice recognition based on an acoustic signal received by a microphone that is a sensor;
  • a correction unit for correcting the recognition result by the voice recognition unit based on the identification result by the signal source identification device;
  • a voice recognition device (Appendix 19) Voice recognition device Based on signals received by a plurality of sensors, a feature amount corresponding to a path through which the signal from the signal generation source is transmitted is calculated.
  • the calculated feature value is a signal from the predetermined signal source using an identification range that is a range to which the feature value based on the signal from the predetermined signal source belongs, which is determined in advance based on the calculated feature amount Identify whether or not Based on the acoustic signal received by the sensor microphone, perform voice recognition, A speech recognition method for correcting a result of speech recognition based on the result of identification.
  • a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range, which is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • a voice recognition unit that performs voice recognition based on an acoustic signal received by a microphone that is a sensor;
  • a correction unit for correcting the recognition result by the voice recognition unit based on the identification result by the identification unit; Program to realize.
  • (Appendix 20-1) In voice recognition device, Based on signals received by a plurality of sensors, a feature amount calculation unit that calculates a feature amount according to a path through which the signal from the signal generation source is transmitted; The feature amount calculated by the feature amount calculation unit using an identification range that is a range to which the feature amount based on a signal from a predetermined signal source belongs, which is determined in advance based on the feature amount calculated by the feature amount calculation unit.
  • An identification unit for identifying whether or not is a signal from the predetermined signal source;
  • a voice recognition unit that performs voice recognition based on an acoustic signal received by a microphone that is a sensor;
  • a correction unit for correcting the recognition result by the voice recognition unit based on the identification result by the identification unit;
  • the computer-readable recording medium which recorded the program for implement
  • the programs described in the above embodiments and supplementary notes are stored in a storage device or recorded on a computer-readable recording medium.
  • the recording medium is a portable medium such as a flexible disk, an optical disk, a magneto-optical disk, and a semiconductor memory.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

信号源識別装置は、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、を有する。

Description

信号源識別装置、信号源識別方法、プログラム
 本発明は、信号源識別装置、信号源識別方法、イベント検知装置、イベント検知方法、音声認識装置、音声認識方法、プログラムに関する。
 音波や電波などの各種波動・振動などによる信号を受信した際に、信号発生の原因となるイベントを識別するための検知技術が知られている。
 このような技術の一つとして、非特許文献1がある。非特許文献1には、発音された音源の音に基づいて、音源の原因となる音響イベントを識別する音響イベント検知技術が記載されている。具体的には、非特許文献1には、音響イベントに対応する音をあらかじめ学習しておき、検知時に入力信号の統計的な特性が学習済みの特性と一致することで識別を行う、という技術が記載されている。
 また、非特許文献1に記載されている技術に関連する技術として、例えば、特許文献1がある。特許文献1には、音源の位置を推定する音響信号処理装置が記載されている。特許文献1によると、音響信号処理装置は、算出手段と、推定手段と、を有している。例えば、算出手段は、受音した受音信号に基づいて、特徴量を算出する。また、推定手段は、算出手段が算出した特徴量と予め定められた代表値との距離に基づいて特徴量モデルを選択する。そして、推定手段は、選択した特徴量モデルに対応する位置候補を音源の位置として推定する。また、特許文献1には、音源位置の推定を統計的な手法に基づいて行う方法が記載されている。
特開2008-79256号公報
T. Komatsu, Y. Senda and R. Kondo, "Acoustic event detection based on non-negative matrix factorization with mixtures of local dictionaries and activation aggregation," 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, 2016, pp. 2259-2263.
 受信した信号に基づいて算出される特徴量は、信号の周波数特性に応じて広がりを有している。一方、特許文献1や非特許文献1に記載の技術の場合、周波数特性に応じた広がりをうまく考慮することが出来ないおそれがあった。その結果、例えば、予め定められた信号源からの出力を判別したい場合に、望ましい検出結果を得ることが出来ないおそれがあった。
 以上のように、受信した信号が予め定められた信号源から出力された信号であるか否か判別することが難しい、という課題が生じていた。
 そこで、本発明の目的は、予め定められた信号源から出力された信号であるか否か判別することが難しい、という課題を解決する信号源識別装置、信号源識別方法、イベント検知装置、イベント検知方法、音声認識装置、音声認識方法、プログラムを提供することにある。
 かかる目的を達成するため本発明の一形態である信号源識別装置は、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 を有する
 という構成をとる。
 また、本発明の他の形態である信号源識別方法は、
 信号源識別装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別する
 という構成をとる。
 また、本発明の他の形態であるプログラムは、
 信号源識別装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 を実現させるためのプログラムである。
 また、本発明の他の形態であるイベント検知装置は、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 前記イベント検知部による検知結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
 を有する
 という構成をとる。
 また、本発明の他の形態であるイベント検知装置は、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 を有し、
 前記イベント検知部は、前記信号源識別装置による識別結果に基づいて、前記イベントを検知する際に用いる閾値を変更する
 という構成をとる。
 また、本発明の他の形態であるイベント検知方法は、
 イベント検知装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
 センサにより受信した信号に基づいて、イベントを検知し、
 前記イベントの検知結果を前記識別の結果に基づいて修正する、
 という構成をとる。
 また、本発明の他の形態であるプログラムは、
 イベント検知装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 前記イベント検知部による検知結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラムである。
 また、本発明の他の形態である音声認識装置は、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
 前記音声認識部による認識結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
 を有する
 という構成をとる。
 また、本発明の他の形態である音声認識方法は、
 音声認識装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行い、
 音声認識の結果を前記識別の結果に基づいて修正する
 という構成をとる。
 また、本発明の他の形態であるプログラムは、
 音声認識装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
 前記音声認識部による認識結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラムである。
 本発明は、以上のように構成されることにより、予め固定された信号源から出力された信号であるか否か判別することが難しい、という課題を解決する信号源識別装置、信号源識別方法、イベント検知装置、イベント検知方法、音声認識装置、音声認識方法、プログラムを提供することが可能となる。
本発明の第1の実施形態にかかる固定信号源識別装置の構成の一例を示す図である。 固定信号源とセンサとの関係の一例を示す図である。 固定信号源と別のセンサとの関係の一例を示す図である。 移動信号源とセンサとの関係の一例を示す図である。 特徴量空間内にマップされた、特徴量ストアに記録された集合の要素の存在分布の一例を示す図である。 固定信号源出力範囲決定部が決定する識別範囲の一例を示す図である。 固定信号源出力信号識別部の動作を説明するための図である。 固定信号源識別装置のうちの学習部に相当する各構成の動作の一例を示すフローチャートである。 固定信号源識別装置のうちの識別部に相当する各構成の動作の一例を示すフローチャートである。 本発明の第2の実施形態にかかる固定スピーカー識別装置の構成の一例を示す図である。 固定スピーカーとマイクロフォンとの関係の一例を示す図である。 固定スピーカーと別のマイクロフォンとの関係の一例を示す図である。 音響イベントとマイクロフォンとの関係の一例を示す図である。 特徴量空間内にマップされた、特徴量ストアに記録された集合の要素の存在分布の一例を示す図である。 固定スピーカー発音範囲決定部が決定する識別範囲の一例を示す図である。 固定スピーカー発音識別部の動作を説明するための図である。 固定スピーカー識別装置のうちの発音範囲学習部に相当する各構成の動作の一例を示すフローチャートである。 固定スピーカー識別装置のうちの発音識別部に相当する各構成の動作の一例を示すフローチャートである。 本発明の第3の実施形態にかかる固定スピーカー識別装置の構成の一例を示す図である。 本発明の第4の実施形態にかかる固定スピーカー識別装置の構成の一例を示す図である。 本発明の第5の実施形態にかかる固定スピーカー識別装置の構成の一例を示す図である。 本発明の第6の実施形態にかかる音響イベント検知装置の構成の一例を示す図である。 本発明の第7の実施形態にかかる音響イベント検知装置の構成の一例を示す図である。 本発明の第8の実施形態にかかる音響イベント検知装置の構成の一例を示す図である。 本発明の第9の実施形態にかかる音声認識装置の構成の一例を示す図である。 本発明の第10の実施形態にかかる信号源識別装置の構成の一例を示す図である。 本発明の第10の実施形態にかかるイベント検知装置の構成の一例を示す図である。 本発明の第10の実施形態にかかる音声認識装置の構成の一例を示す図である。
[第1の実施形態]
 本発明の第1の実施形態を図1から図9までを参照して説明する。図1は、固定信号源識別装置000の構成の一例を示す図である。図2は、固定信号源021とセンサ001との関係の一例を示す図である。図3は、固定信号源021とセンサ002との関係の一例を示す図である。図4は、移動信号源022とセンサ001との関係の一例を示す図である。図5は、特徴量空間内にマップされた、特徴量ストア004に記録された集合の要素の存在分布の一例を示す図である。図6は、固定信号源出力範囲決定部006が決定する識別範囲の一例を示す図である。図7は、固定信号源出力信号識別部008の動作を説明するための図である。図8は、固定信号源識別装置000のうちの学習部に相当する各構成の動作の一例を示すフローチャートである。図9は、固定信号源識別装置000のうちの識別部に相当する各構成の動作の一例を示すフローチャートである。
 第1の実施形態では、受信した信号が固定信号源021からの信号であるか否かを識別する固定信号源識別装置000について説明する。後述するように、固定信号源識別装置000は、複数のセンサ(センサ001、センサ002)を用いて、信号の伝達する経路の異なりに依存する識別範囲を学習する。また、固定信号源識別装置000は、受信した信号に基づいて算出する特徴量が、学習した識別範囲内に属するか否か確認する。そして、固定信号源識別装置000は、確認の結果に基づいて、受信した出力が固定信号源021からの出力であるか否かを識別する。
 固定信号源識別装置000は、受信した信号が固定信号源021からの信号であるか否かを識別する情報処理装置である。固定信号源識別装置000は、ある程度の時間、設置位置が固定された固定信号源021(例えば、テレビや放送用スピーカーなど)からの信号を受信するともに、固定信号源021以外の移動信号源022からの信号を受信する。そして、固定信号源識別装置000は、受信した信号が固定信号源021からの信号であるか否かを識別する。
 図1は、固定信号源識別装置000の構成の一例を示している。図1を参照すると、固定信号源識別装置000は、センサ001と、センサ002と、特徴量算出部003と、特徴量ストア004と、教師ラベル生成部005と、固定信号源出力範囲決定部006と、判別範囲DB(DataBase)007と、固定信号源出力信号識別部008と、を有している。
 固定信号源識別装置000は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、固定信号源識別装置000は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、固定信号源識別装置000が有する各構成のうち、センサ001と、センサ002と、特徴量算出部003と、特徴量ストア004と、教師ラベル生成部005と、固定信号源出力範囲決定部006と、判別範囲DB007とは、学習部を構成している。学習部は、固定信号源021が出力した信号である固定信号源出力信号の範囲(識別範囲)を決定する。以降において、まず、固定信号源識別装置000が有する各構成のうち、学習部に含まれる構成について説明する。
 センサ001、センサ002は、一定の間隔をあけて、固定信号源識別装置000、又は、固定信号源識別装置000の周辺に固定されている。センサ001、センサ002は、固定信号源021が出力する信号を受信可能なよう構成されており、それぞれ受信した信号の情報を得る。なお、固定信号源021が出力する信号とは、例えば、音波、電波、振動、などがある。本実施例では、センサ001、センサ002からの出力はディジタル量の時系列信号として扱うことができるものとする。上記出力の扱いは、例えば、A/D(Analog/Digital)変換を行うことなどにより実現できる。
 センサ001、センサ002は、上述したように、一定の間隔をあけて固定されている。そのため、固定信号源021から出力された信号のセンサ001に到達するまでの経路と、固定信号源021から出力された信号のセンサ002に到達するまでの経路と、は異なるものとなる。
 図2、図3は、信号が直進または鏡面反射する空間における信号の経路の一例を示している。具体的には、図2は、固定信号源021とセンサ001との関係の一例を示しており、図3は、固定信号源021とセンサ002との関係の一例を示している。図2を参照すると、固定信号源021から出力された信号は、複数の経路を通ってセンサ001に到達する。そのため、センサ001で観測できる信号は、固定信号源021の出力する信号に該当空間における経路に依存した伝達関数を畳み込んだものとして表現できる。また、図3で示すように、センサ002についても同様に、固定信号源021から出力された信号は、複数の経路を通ってセンサ002に到達する。なお、上述したように、センサ001とセンサ002とは、一定の間隔をもって設置されている。そのため、図2、図3で示すように、固定信号源021からセンサ001までの信号の経路と、固定信号源021からセンサ002までの信号の経路とには、それぞれの設置位置に応じた異なりが生じる。
 特徴量算出部003は、センサ001、センサ002で受信した信号に基づいて、一定時間周期ごとに信号の到来伝達に要した空間経路を表現する特徴量を算出する。
 例えば、特徴量算出部003は、センサ001とセンサ002のクロススペクトルを計算する。すなわち、センサ001の信号系列x1(t)とセンサ002の信号系列x2(t)について、それぞれのフーリエ変換をX1(f), X2(f)と置き、X2(f)の複素共役をX2*(f)とすれば、ある時刻におけるクロススペクトルW(f)はW(f)=X1(f) X2*(f))として計算することができる。換言すると、特徴量算出部003は、クロススペクトルW(f)=X1(f) X2*(f))を計算することで、センサ001とセンサ002のクロススペクトルを算出する。特徴量算出部003による算出結果であるクロススペクトルそのもの、あるいはクロススペクトルの形状を適切な形状のフィルタで切り出したものが、固定信号源021からセンサ001への経路とセンサ002への経路の伝達関数の類似度の逆、すなわち差異を表すことになる。
 特徴量算出部003が上記のように特徴量を算出した場合、上述したように、特徴量は信号の到来伝達に要した空間経路を表現する。ここで、図4で示すように、固定信号源021とは異なる位置に存在する移動信号源022を考える。この場合、移動信号源022からセンサ001までの信号の経路は、固定信号源021からセンサ001までの信号経路と異なるものとなる。また、移動信号源022からセンサ002までの信号の経路も同様に、固定信号源021からセンサ002までの信号経路と異なるものとなる。従って、特徴量算出部003が算出するクロススペクトルの形状も、固定信号源021から受信した信号に基づいて算出した値と、移動信号源022から受信した信号に基づいて算出した値と、で異なるものとなる。
 なお、特徴量算出部003は、クロススペクトルを計算する際にノルム正規化を行うことが出来る。ノルム正規化を行うことで、特徴量算出部003は、信号の大きさへの依存性を除去することが出来る。
 特徴量ストア004は、メモリやディスク装置などの記憶装置である。特徴量ストア004は、特徴量算出部003が算出した特徴量を記録する。また、特徴量ストア004は、後述する教師ラベル生成部005の出力するラベルを、該当する特徴量と結び付けて記録する。換言すると、特徴量ストア004は、特徴量算出部003が算出した特徴量と、教師ラベル生成部005が生成した特徴量のラベルと、を関連付けて集合として記録する。
 教師ラベル生成部005は、特徴量に該当する時刻において、固定信号源021からの出力があったか否かを示すラベルを生成する。教師ラベル生成部005によるラベルの生成は、手動で行っても構わないし、自動で行っても構わない。本実施形態の場合、教師ラベル生成部005は、例えば、手動の入力に応じてラベルを生成する。
 固定信号源出力範囲決定部006は、特徴量ストア004に記録された特徴量ならびにラベルの集合から、固定信号源021から出力された信号を判別するための識別範囲を示す識別範囲情報を決定する。
 例えば、固定信号源出力範囲決定部006は、特徴量ストア004に記録された特徴量とラベルの集合を入力として、集合の各要素を特徴量空間内にマップする。この様子を二次元で模式図として表現したものが図5である。そして、固定信号源出力範囲決定部006は、識別器を学習して、図6に点線で示すように識別範囲を決定する。固定信号源出力範囲決定部006は、例えば、固定信号源021からの出力があった旨を示すラベルと対応する要素(特徴量)が識別範囲の中に入る一方で、固定信号源021以外からの出力があった旨を示すラベルと対応する要素(特徴量)が識別範囲の中に入らないように、識別範囲を決定する。図6の場合、点線で囲われる斜めのハッチで示す範囲が、固定信号源021から出力された信号であると識別する範囲である識別範囲となる。ここで、識別器としてはGMM(Gaussian Mixture Model)(ガウシアン混合モデル)、DNN(Deep Neural Network)(ディープニューラルネットワーク)、SVM(support vector machine)(サポートベクターマシン)など一般的な識別器を用いることが出来る。例えば、固定信号源出力範囲決定部006は、識別器としてSVMを用いる。
 なお、固定信号源出力範囲決定部006が決定する識別範囲の数は、一つに限定されない。固定信号源出力範囲決定部006は、一つの識別範囲を決定しても構わないし、複数の識別範囲を決定しても構わない。
 判別範囲DB007は、固定信号源出力範囲決定部006が決定した識別範囲を記録する。上述したように、固定信号源出力範囲決定部006が決定する識別範囲の数は、一つに限定されない。判別範囲DB007は、固定信号源出力範囲決定部006の決定に応じた数の識別範囲を記録する。
 以上が、学習部に含まれる構成の一例である。
 また、固定信号源識別装置000が有する各構成のうち、センサ001と、センサ002と、特徴量算出部003と、判別範囲DB007と、固定信号源出力信号識別部008とは、識別部を構成している。識別部は、学習部が決定した識別範囲を用いて、受信した出力が固定信号源021からの出力であるか否かを識別する。続いて、固定信号源識別装置000が有する各構成のうち、識別部に含まれる構成について説明する。
 センサ001、センサ002、特徴量算出部003、判別範囲DB007の構成は、上述した学習部において既に説明した。そのため、詳細な説明は省略する。
 固定信号源出力信号識別部008は、判別範囲DB007に記録された識別範囲を用いて、特徴量算出部003が算出した特徴量に対応する信号が固定信号源021の出力した信号であるか否かを識別する。そして、固定信号源出力信号識別部008は、識別した結果である識別結果を出力する。固定信号源出力信号識別部008による出力は、例えば、外部装置への送信であっても構わないし、表示装置に対する識別結果の表示であっても構わない。固定信号源出力信号識別部008は、上記例示した以外の方法により出力を行っても構わない。
 例えば、固定信号源出力信号識別部008は、特徴量算出部003が算出した特徴量が判別範囲DB007に格納された識別範囲に該当するか否かを検定する。例えば、図7です示す例において、特徴量空間上で▲印で示される特徴量が入力されたとする。▲印で示される特徴量は、図7で示すように、識別範囲内に属している。そのため、固定信号源出力信号識別部008は、特徴量に対応する信号は固定信号源出力信号であると識別する。つまり、固定信号源出力信号識別部008による該当時刻の識別結果は、固定信号源出力信号である、となる。また、例えば、図7です示す例において、特徴量空間上で■印で示される特徴量が入力されたとする。■印で示される特徴量は、図7で示すように、識別範囲内に属していない。そのため、固定信号源出力信号識別部008は、特徴量に対応する信号は固定信号源出力信号でないと識別する。つまり、固定信号源出力信号識別部008による該当時刻の識別結果は、固定信号源出力信号でない、となる。
 以上が、識別部に含まれる構成の一例である。
 固定信号源識別装置000は、上述した学習部と識別部に相当する構成を有している。固定信号源識別装置000は、学習部により学習した識別範囲を用いて、識別部により信号の識別を行うことになる。なお、固定信号源識別装置000は、1つの情報処理装置により構成されても構わないし、複数の情報処理装置により構成されても構わない。固定信号源識別装置000は、例えば、学習部に相当する構成を有する装置と、識別部に相当する構成を有する装置と、の2つの装置により構成されても構わない。
 続いて、図8、図9を参照して、固定信号源識別装置000の動作の一例について説明する。まず、図8を参照して、固定信号源識別装置000のうちの学習部に相当する各構成の動作の一例について説明する。なお、学習部による学習は、例えば、識別部による識別に先立ってあらかじめ行われる。
 図8を参照すると、特徴量算出部003は、センサ001、センサ002が受信した信号に基づいて、特徴量を算出する(ステップS101)。例えば、特徴量算出部003は、特徴量として、センサ001とセンサ002のクロススペクトルを算出する。なお、特徴量算出部003は、クロススペクトルを計算する際にノルム正規化を行っても構わない。
 特徴量ストア004は、特徴量算出部003が算出した特徴量と、教師ラベル生成部005が生成した特徴量のラベルと、を関連付けて集合として記録する(ステップS102)。教師ラベル生成部005によるラベルの生成は、例えば、手動により行われる。
 固定信号源出力範囲決定部006は、特徴量ストア004に記録された特徴量とラベルの集合を入力として、集合の各要素を特徴量空間内にマップする。そして、固定信号源出力範囲決定部006は、識別器を学習して、図6に点線で示すように識別範囲を決定する(ステップS103)。
 判別範囲DB007は、固定信号源出力範囲決定部006により決定された識別範囲を記録する(ステップS104)。判別範囲DB007が記録する識別範囲は、一つだけでなく、複数でも構わない。
 以上が、固定信号源識別装置000のうちの学習部に相当する各構成の動作の一例である。続いて、図9を参照して、固定信号源識別装置000のうちの識別部に相当する各構成の動作の一例について説明する。図9で示す例では、判別範囲DB007には学習部においてあらかじめ学習した結果である識別範囲が格納されているものとする。
 図9を参照すると、特徴量算出部003は、センサ001、センサ002が受信した信号に基づいて、特徴量を算出する(ステップS201)。例えば、特徴量算出部003は、特徴量として、センサ001とセンサ002のクロススペクトルを算出する。なお、特徴量算出部003は、クロススペクトルを計算する際にノルム正規化を行っても構わない。
 固定信号源出力信号識別部008は、特徴量算出部003が算出した特徴量が判別範囲DB007に格納された識別範囲に該当するか否かを検定する(ステップS202)。
 特徴量算出部003が算出した特徴量が判別範囲DB007に格納された識別範囲内である場合(ステップS202、Yes)、固定信号源出力信号識別部008は、特徴量に対応する信号は固定信号源出力信号であると識別する(ステップS203)。一方、特徴量算出部003が算出した特徴量が判別範囲DB007に格納された識別範囲内でない場合(ステップS202、No)、固定信号源出力信号識別部008は、特徴量に対応する信号は固定信号源出力信号でないと識別する(ステップS204)。
 固定信号源出力信号識別部008は、識別した結果である識別結果を出力する(ステップS205)。例えば、固定信号源出力信号識別部008は、時系列の識別結果を出力する。
 このように、本実施形態における固定信号源識別装置000は、固定信号源出力範囲決定部006を含む学習部と、識別部と、を有している。このような構成により、学習部の固定信号源出力範囲決定部006は、固定信号源021から出力された信号を判別する際に用いる識別範囲を決定することが出来る。そして、識別部は、決定した識別範囲を用いて、受信した信号が、固定信号源021が出力したものであるか否か識別することが出来る。つまり、本実施形態における固定信号源識別装置000によると、複数のセンサ(センサ001、センサ002)を用いて信号の伝達する経路の異なりに依存する識別範囲を学習することが出来る。これにより、信号の周波数特性に依存せず、安定して固定信号源021から出力された信号であるか否かを検知することが可能となる。換言すると、予め固定された信号源である固定信号源021から出力された信号であることを容易に検知することが可能となる。特に、本実施形態における固定信号源識別装置000によると、特別な空間内キャリブレーションを必要とせず通常の運用で識別範囲が計算できる。そのため、設置コストが低減できる。
 なお、本実施形態においては、識別部による識別処理に先立ってあらかじめ学習部による学習処理(識別範囲の決定)を行うとした。より具体的には、学習部はあらかじめ学習を行うが、学習部による学習は固定信号源出力信号識別部008による識別時点よりも未来でなければよい。換言すると、固定信号源出力信号識別部008による識別を行う際に、判別範囲DB007に識別範囲が格納されていればよい。そのため、学習部と識別部を常に同時に動かしながら、現在(例えば、固定信号源出力信号識別部008による識別時点)よりも過去の時間範囲Lを対象に学習し、判別範囲DB007を常に更新し続ける運用も可能である。
 なお、あらかじめ決められた時間範囲Lは、例えば1日間とすることができる。時間範囲Lを長くとることで、検出の安定性が向上する。一方、時間範囲Lを短くすることで固定信号源021や信号が反射する反射体の移動への追従性が向上する。同様の理由で、時間範囲Lの間のデータを全て用いるのではなく、忘却係数τを導入して最近のデータほど大きな重みをかけて計算することも可能である。例えば、特徴量に時間に応じた重み付けを行うことで、より直近の特徴量が識別範囲の決定により影響するよう構成することが出来る。
 また、本実施形態においては、入力として、センサ001、センサ002の二つを用いるとした。しかしながら、固定信号源識別装置000が有するセンサの数は、2つに限定されない。固定信号源識別装置000は複数のセンサを有することが出来る。例えば、固定信号源識別装置000は、4個のセンサを用いて取り合える6個の組み合わせのそれぞれの相互相関関数を並べたスーパーベクトルとして、6倍の次元数を持つ特徴量ベクトルとして扱うことが可能である。特に、センサは、空間センサアレイのように三次元的に配置することで、方向に依存した誤差をより小さくすることが可能となる。なお、センサは、具体的には信号の種類に応じたものとなる。センサは、例えば、マイクロフォン、ハイドロフォン、振動センサ、温度センサなどである。
[第2の実施形態]
 次に、本発明の第2の実施形態を図10から図18までを参照して説明する。図10は、固定スピーカー識別装置100の構成の一例を示す図である。図11は、固定スピーカー121とマイクロフォン101との関係の一例を示す図である。図12は、固定スピーカー121とマイクロフォン102との関係の一例を示す図である。図13は、音響イベント122とマイクロフォン101との関係の一例を示す図である。図14は、特徴量空間内にマップされた、特徴量ストア104に記録された集合の要素の存在分布の一例を示す図である。図15は、固定スピーカー発音範囲決定部106が決定する識別範囲の一例を示す図である。図16は、固定スピーカー発音識別部108の動作を説明するための図である。図17は、固定スピーカー識別装置100のうちの発音範囲学習部に相当する各構成の動作の一例を示すフローチャートである。図18は、固定スピーカー識別装置100のうちの発音識別部に相当する各構成の動作の一例を示すフローチャートである。
 第2の実施形態では、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する固定スピーカー識別装置100について説明する。つまり、本実施形態においては、第1の実施形態で説明した固定信号源識別装置000を具体的に音響信号に適用する場合の一例について説明する。
 固定スピーカー識別装置100は、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する情報処理装置である。固定スピーカー識別装置100は、設置位置が固定された固定スピーカー121からの音響信号を受信するともに、固定スピーカー121以外の音響イベント122からの音響信号を受信する。そして、固定スピーカー識別装置100は、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する。
 図10は、固定スピーカー識別装置100の構成の一例を示している。図10を参照すると、固定スピーカー識別装置100は、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、特徴量ストア104と、教師ラベル生成部105と、固定スピーカー発音範囲決定部106と、判別範囲DB107と、固定スピーカー発音識別部108と、を有している。
 固定スピーカー識別装置100は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、固定スピーカー識別装置100は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、固定スピーカー識別装置100が有する各構成のうち、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、特徴量ストア104と、教師ラベル生成部105と、固定スピーカー発音範囲決定部106と、判別範囲DB107とは、発音範囲学習部を構成している。発音範囲学習部は、固定スピーカー121が出力した信号である固定スピーカー発音の範囲(識別範囲)を決定する。以降において、まず、固定スピーカー識別装置100が有する各構成のうち、発音範囲学習部に含まれる構成について説明する。
 マイクロフォン101、マイクロフォン102は、一定の間隔をあけて、固定スピーカー識別装置100、又は、固定スピーカー識別装置100の周辺に固定されている、センサである。マイクロフォン101、マイクロフォン102は、それぞれ受信した音の振幅情報を信号に変換する。本実施例では、マイクロフォン101、マイクロフォン102は、A/D変換する機能を包含し、出力はディジタル量の時系列信号として扱うことができるものとする。
 マイクロフォン101、マイクロフォン102は、上述したように、一定の間隔をあけて固定されている。そのため、例えば、固定スピーカー121から出力された音響信号のマイクロフォン101に到達するまでの経路と、固定スピーカー121から出力された信号のマイクロフォン102に到達するまでの経路と、は異なるものとなる。
 図11、図12は、音響信号の経路の一例を示している。具体的には、図11は、固定スピーカー121とマイクロフォン101との関係の一例を示しており、図12は、固定スピーカー121とマイクロフォン102との関係の一例を示している。図11を参照すると、固定スピーカー121から出力された信号は、複数の経路を通ってマイクロフォン101に到達する。そのため、マイクロフォン101で観測できる音の信号は、固定スピーカー121の出力する音響信号に経路に依存した伝達関数を畳み込んだものとして表現できる。音響信号の伝達には回折、屈折、拡散反射などもあるが、これらも含めてパスの合成として表現することが可能である。また、図12で示すように、マイクロフォン102についても同様である。なお、上述したように、マイクロフォン101とマイクロフォン102とは、一定の間隔をもって設置されている。そのため、図11、図12で示すように、固定スピーカー121からマイクロフォン101までの音響信号の経路と、固定スピーカー121からマイクロフォン102までの音響信号の経路とには、それぞれの設置位置に応じた異なりが生じる。
 特徴量算出部103は、マイクロフォン101、マイクロフォン102で受信した音響信号に基づいて、一定時間周期ごとに音の到来に要した空間経路を表現する特徴量を算出する。
 例えば、特徴量算出部103は、マイクロフォン101とマイクロフォン102のクロススペクトルを計算する。特徴量算出部103は、例えば、第1の実施形態で説明した特徴量算出部003と同様の方法により、クロススペクトルを算出する。なお、固定スピーカー121からマイクロフォン101への経路とマイクロフォン102への経路の伝達関数の類似度すなわち差異がクロススペクトルの形となるのは、第1の実施形態と同様である。
 なお、発音しているものが固定スピーカー121とは別の音響イベント122である場合、図13に示すように、図11、図12の場合とは全く異なる経路を通って、音響信号はマイクロフォン101とマイクロフォン102に到達する。そのため、クロススペクトルの形状も異なるものとなる。これも、第1の実施形態と同様である。
 なお、特徴量算出部103は、第1の実施形態で説明した特徴量算出部003と同様に、クロススペクトルを計算する際にノルム正規化を行うことが出来る。ノルム正規化を行うことで、特徴量算出部103は、音の大きさへの依存性を除去することが出来る。
 特徴量ストア104は、メモリやディスク装置などの記憶装置である。特徴量ストア104は、特徴量算出部103が算出した特徴量を記録する。また、特徴量ストア104は、後述する教師ラベル生成部105の出力するラベルを、該当する特徴量と結び付けて記録する。換言すると、特徴量ストア104は、特徴量算出部103が算出した特徴量と、教師ラベル生成部105が生成した特徴量のラベルと、を関連付けて集合として記録する。
 教師ラベル生成部105は、特徴量に該当する時刻において、固定スピーカー121からの発音があったか否かを示すラベルを生成する。教師ラベル生成部105によるラベルの生成は、手動で行っても構わないし、自動で行っても構わない。本実施形態の場合、教師ラベル生成部105は、例えば、手動の入力に応じてラベルを生成する。
 固定スピーカー発音範囲決定部106は、特徴量ストア104に記録された特徴量ならびにラベルの集合から、固定スピーカー121から出力された信号を判別するための識別範囲を示す識別範囲情報を決定する。
 例えば、固定スピーカー発音範囲決定部106は、特徴量ストア104に記録された特徴量とラベルの集合を入力として、集合の各要素を特徴量空間内にマップする。この様子を二次元で模式図として表現したものが図14である。そして、固定スピーカー発音範囲決定部106は、識別器を学習して、図15に点線で示すように識別範囲を決定する。固定スピーカー発音範囲決定部106は、例えば、固定スピーカー121からの出力があった旨を示すラベルと対応する要素(特徴量)が識別範囲の中に入る一方で、固定スピーカー121以外からの出力があった旨を示すラベルと対応する要素(特徴量)が識別範囲の中に入らないように、識別範囲を決定する。図15の場合、点線で囲われる斜めのハッチで示す範囲が、固定スピーカー121から出力された信号であると識別する範囲である識別範囲となる。ここで、本実施形態においては、識別器としてSVMを用いる。しかしながら、固定スピーカー発音範囲決定部106は、第1の実施形態で示した他の識別器を用いても構わない。
 なお、第1の実施形態で説明した固定信号源出力範囲決定部006と同様に、固定スピーカー発音範囲決定部106は、一つの識別範囲を決定しても構わないし、複数の識別範囲を決定しても構わない。
 判別範囲DB107は、固定スピーカー発音範囲決定部106が決定した識別範囲を記録する。判別範囲DB107が記録する識別範囲は、一つでも構わないし、複数でも構わない。
 以上が、発音範囲学習部に含まれる構成の一例である。
 また、固定スピーカー識別装置100が有する各構成のうち、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、判別範囲DB107と、固定スピーカー発音識別部108とは、発音識別部を構成している。発音識別部は、発音範囲学習部が決定した識別範囲を用いて、受信した音響信号が固定スピーカー121からの出力であるか否かを識別する。続いて、固定スピーカー識別装置100が有する各構成のうち、発音識別部に含まれる構成について説明する。
 マイクロフォン101、マイクロフォン102、特徴量算出部103、判別範囲DB107の構成は、上述した発音範囲学習部において既に説明した。そのため、詳細な説明は省略する。
 固定スピーカー発音識別部108は、判別範囲DB107に記録された識別範囲を用いて、特徴量算出部103が算出した特徴量に対応する音響信号が固定スピーカー121の発音であるか否かを識別する。そして、固定スピーカー発音識別部108は、識別した結果である識別結果を出力する。固定スピーカー発音識別部108による出力は、例えば、外部装置への送信であっても構わないし、表示装置に対する識別結果の表示であっても構わない。固定スピーカー発音識別部108は、上記例示した以外の方法により出力を行っても構わない。
 例えば、固定スピーカー発音識別部108は、特徴量算出部103が算出した特徴量が判別範囲DB107に格納された識別範囲に該当するか否かを検定する。例えば、図16で示す例において、特徴量空間上で▲印で示される特徴量が入力されたとする。▲印で示される特徴量は、図16で示すように、識別範囲内に属している。そのため、固定スピーカー発音識別部108は、特徴量に対応する信号は固定信号源出力信号であると識別する。つまり、固定スピーカー発音識別部108による該当時刻の識別結果は、固定スピーカー発音である、となる。また、例えば、図16です示す例において、特徴量空間上で■印で示される特徴量が入力されたとする。■印で示される特徴量は、図16で示すように、識別範囲内に属していない。そのため、固定スピーカー発音識別部108は、特徴量に対応する信号は固定信号源出力信号でないと識別する。つまり、固定スピーカー発音識別部108による該当時刻の識別結果は、固定スピーカー発音でない、となる。
 以上が、発音識別部に含まれる構成の一例である。
 固定スピーカー識別装置100は、上述した発音範囲学習部と発音識別部に相当する構成を有している。固定スピーカー識別装置100は、発音範囲学習部により学習した識別範囲を用いて、発音識別部により音響信号の識別を行うことになる。なお、固定スピーカー識別装置100は、1つの情報処理装置により構成されても構わないし、複数の情報処理装置により構成されても構わない。固定スピーカー識別装置100は、例えば、発音範囲学習部に相当する構成を有する装置と、発音識別部に相当する構成を有する装置と、の2つの装置により構成されても構わない。
 続いて、図17、図18を参照して、固定スピーカー識別装置100の動作の一例について説明する。まず、図17を参照して、固定スピーカー識別装置100のうちの発音範囲学習部に相当する各構成の動作の一例について説明する。なお、発音範囲学習部による学習は、例えば、発音識別部による識別に先立ってあらかじめ行われる。
 図17を参照すると、特徴量算出部103は、マイクロフォン101、マイクロフォン102が受信した音響信号に基づいて、特徴量を算出する(ステップS301)。例えば、特徴量算出部103は、特徴量として、マイクロフォン101とマイクロフォン102のクロススペクトルを算出する。なお、特徴量算出部103は、クロススペクトルを計算する際にノルム正規化を行っても構わない。
 特徴量ストア104は、特徴量算出部103が算出した特徴量と、教師ラベル生成部105が生成した特徴量のラベルと、を関連付けて集合として記録する(ステップS302)。なお、教師ラベル生成部105によるラベルの生成は、例えば、手動により行われる。
 固定スピーカー発音範囲決定部106は、特徴量ストア104に記録された特徴量とラベルの集合を入力として、集合の各要素を特徴量空間内にマップする。そして、固定スピーカー発音範囲決定部106は、識別器を学習して、図15に点線で示すように識別範囲を決定する(ステップS303)。
 判別範囲DB107は、固定スピーカー発音範囲決定部106により決定された識別範囲を記録する(ステップS304)。判別範囲DB107が記録する識別範囲は、一つだけでなく、複数でも構わない。
 以上が、固定スピーカー識別装置100のうちの発音範囲学習部に相当する各構成の動作の一例である。続いて、図18を参照して、固定スピーカー識別装置100のうちの発音識別部に相当する各構成の動作の一例について説明する。なお、判別範囲DB107には、発音範囲学習部においてあらかじめ学習した結果である識別範囲が格納されているものとする。
 図18を参照すると、特徴量算出部103は、マイクロフォン101、マイクロフォン102が受信した信号に基づいて、特徴量を算出する(ステップS401)。例えば、特徴量算出部103は、特徴量として、マイクロフォン101とマイクロフォン102のクロススペクトルを算出する。なお、特徴量算出部103は、クロススペクトルを計算する際にノルム正規化を行っても構わない。
 固定スピーカー発音識別部108は、特徴量算出部103が算出した特徴量が判別範囲DB007に格納された識別範囲に該当するか否かを検定する(ステップS402)。
 特徴量算出部103が算出した特徴量が判別範囲DB107に格納された識別範囲内である場合(ステップS402、Yes)、固定スピーカー発音識別部108は、特徴量に対応する音響信号は固定スピーカーからの発音であると識別する(ステップS403)。一方、特徴量算出部103が算出した特徴量が判別範囲DB107に格納された識別範囲内でない場合(ステップS402、No)、固定スピーカー発音識別部108は、特徴量に対応する音響信号は固定スピーカーからの発音でないと識別する(ステップS404)。
 固定スピーカー発音識別部108は、識別した結果である識別結果を出力する(ステップS405)。例えば、固定スピーカー発音識別部108は、時系列の識別結果を出力する。
 このように、本実施形態における固定スピーカー識別装置100は、固定スピーカー発音範囲決定部106を含む発音範囲学習部と、発音識別部と、を有している。このような構成により、発音範囲学習部の固定スピーカー発音範囲決定部106は、固定スピーカー121から出力された音響信号を判別する際に用いる識別範囲を決定することが出来る。そして、発音識別部は、決定した識別範囲を用いて、受信した音響信号が、固定スピーカー121が発音したものであるか否か識別することが出来る。つまり、本実施形態における固定スピーカー識別装置100によると、複数のマイクロフォン(マイクロフォン101、マイクロフォン102)を用いて信号の伝達する経路の異なりに依存する識別範囲を学習することが出来る。これにより、信号の周波数特性に依存せず、安定して固定スピーカー121から出力された信号であるか否かを検知することが可能となる。特に、本実施形態における固定スピーカー識別装置100によると、特別な空間内キャリブレーションを必要とせず通常の運用で識別範囲が計算できる。そのため、設置コストが低減できる。
 なお、本実施形態においては、発音識別部による識別処理に先立ってあらかじめ発音範囲学習部による学習処理(識別範囲の決定)を行うとした。より具体的には、発音範囲学習部はあらかじめ学習を行うが、発音範囲学習部による学習は固定スピーカー発音識別部108による識別時点よりも未来でなければよい。換言すると、固定スピーカー発音識別部108による識別を行う際に、判別範囲DB107に識別範囲が格納されていればよい。そのため、発音範囲学習部も常に同時に動かしながら、現在(例えば、固定スピーカー発音識別部108による識別時点)よりも過去の時間範囲Lを対象に学習し、判別範囲DB107を常に更新し続ける運用も可能である。
 なお、あらかじめ決められた時間範囲Lは、例えば1日間とすることができる。時間範囲Lを長くとることで、検出の安定性が向上する。一方、時間範囲Lを短くすることで固定信号源021や反射体の移動への追従性が向上する。同様の理由で、時間範囲Lの間のデータを全て用いるのではなく、忘却係数τを導入して最近のデータほど大きな重みをかけて計算することも可能である。
 また、本実施形態においては、入力として、マイクロフォン101、マイクロフォン102の二つを用いるとした。しかしながら、固定スピーカー識別装置100が有するマイクロフォンの数は、2つに限定されない。固定スピーカー識別装置100は複数のマイクロフォンを有することが出来る。例えば、固定スピーカー識別装置100は、4個のセンサを用いて取り合える6個の組み合わせのそれぞれの相互相関関数を並べたスーパーベクトルとして、6倍の次元数を持つ特徴量ベクトルとして扱うことが可能である。特に、マイクロフォンは、空間マイクロフォンアレイのように三次元的に配置することで、方向に依存した誤差をより小さくすることが可能となる。なお、本実施形態においては、入力となるセンサとしてマイクロフォンを用いた。しかしながら、例えば、ハイドロフォン、振動センサ、温度センサなどにも同じ手段で拡張が可能である。
[第3の実施形態]
 次に、本発明の第3の実施形態について図19を参照して説明する。図19は、固定スピーカー識別装置200の構成の一例を示す図である。
 第3の実施形態では、第2の実施形態において説明した固定スピーカー識別装置100の変形例である固定スピーカー識別装置200について説明する。固定スピーカー識別装置200は、固定スピーカー識別装置100と比較して、発音範囲学習部に相当する部分に変更点を有している。一方、固定スピーカー識別装置200が有する構成のうち、発音識別部に相当する各構成は、固定スピーカー識別装置100と同様である。
 図19は、固定スピーカー識別装置200の構成の一例を示している。図19を参照すると、固定スピーカー識別装置200は、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、特徴量ストア104と、教師ラベル生成部205と、固定スピーカー発音範囲決定部106と、判別範囲DB107と、固定スピーカー発音識別部108と、を有している。なお、図19では、固定スピーカー識別装置100と同様の構成については、同じ符号を付している。
 以上のように、固定スピーカー識別装置200は、固定スピーカー識別装置100が有する教師ラベル生成部105の代わりに教師ラベル生成部205を有している。以下、本実施形態に特徴的な構成である教師ラベル生成部205について説明する。
 教師ラベル生成部205は、入力された情報に基づいて、自動でラベルを生成する。例えば、教師ラベル生成部205には、図19で示すように、マイクロフォン101、マイクロフォン102からの音響信号と、特徴量算出部103が算出した特徴量と、が入力される。教師ラベル生成部205は、入力された音響信号と特徴量とに基づいて、ラベルを生成する。
 例えば、教師ラベル生成部205は、マイクロフォン101およびマイクロフォン102から得られる音響信号のパワー(大きさ)を計算する。そして、教師ラベル生成部205は、計算した音響信号のパワーがあらかじめ決められた閾値A(任意の値で構わない)よりも大きい場合、当該音響信号を有音信号とする。また、教師ラベル生成部205は、あらかじめ決められた時間範囲L2に含まれる有音信号の特徴量の平均値μと分散σを計算する。そして、教師ラベル生成部205は、特徴量が該当平均値から分散の範囲までのずれに収まっている時刻(特徴量)に対して、固定スピーカー発音であるとラベルを付与する。一方、教師ラベル生成部205は、該当時刻の特徴量が該当平均値から分散の範囲までのずれに収まっていない場合、固定スピーカー発音でないとラベルを付与する。なお、時間範囲L2は、任意の値で構わない。時間範囲L2は、時間範囲Lと同じであっても構わないし、異なっても構わない。
 以上のように、教師ラベル生成部205は、例えば、音の大きさ位に基づいて受信した音響信号の一部を抽出する。また、教師ラベル生成部205は、抽出した音響信号から算出される特徴量の平均値μと分散σを計算する。そして、教師ラベル生成部205は、算出した特徴量の平均値μと分散σとに基づいてラベルを付与する。
 なお、上述した教師ラベル生成部205を含む固定スピーカー識別装置200は、例えば、固定スピーカー121であるテレビ受像器がつけっぱなしにされる一般家庭で使用することが想定される。上記のような環境の場合、マイクロフォン101およびマイクロフォン102から入力される音響信号のうち、音の鳴っている区間はほとんどがテレビの音であり、まれに居住者の発する音や、それ以外の機器の発する音が入力されるにとどまることが想定される。そのため、上述したように教師ラベル生成部205を構成することで、適切にラベルを付与することが出来る。なお、上記運用例はあくまで一例である。
 このように、本実施形態における固定スピーカー識別装置200が有する教師ラベル生成部205には、マイクロフォン101、マイクロフォン102からの音響信号と、特徴量算出部103が算出した特徴量と、が入力されるよう構成されている。このような構成により、教師ラベル生成部205は、入力された音響信号と特徴量とに基づいて、ラベルを生成することが出来る。これにより、マイクロフォン101、マイクロフォン102から得られる情報を用いて、手動の作業に頼ることなく、固定スピーカー発音であることのラベルを付与することが可能となる。
 なお、本実施形態では、教師ラベル生成部205は、平均値μと分散σとに基づいてラベルを付与するとした。しかしながら、教師ラベル生成部205がラベルを付与する方法は、上記例示した場合に限定されない。教師ラベル生成部205は、例えば、あらかじめ決められた時間範囲L2に含まれる特徴量のうち、一番狭い範囲に集中する一定範囲、例えば95%区間を計算することによって、そこに含まれるか否かでラベルを付与してもよい。また、本実施形態においても、忘却係数τを導入した重み付けを行っても構わない。
[第4の実施形態]
 次に、本発明の第4の実施形態について図20を参照して説明する。図20は、固定スピーカー識別装置300の構成の一例を示す図である。
 第4の実施形態では、第2の実施形態で説明した固定スピーカー識別装置100、第3の実施形態で説明した固定スピーカー識別装置200、の変形例である固定スピーカー識別装置300について説明する。固定スピーカー識別装置300は、固定スピーカー識別装置100や固定スピーカー識別装置200と比較して、発音範囲学習部に相当する部分に変更点を有している。一方、固定スピーカー識別装置300が有する構成のうち、発音識別部に相当する各構成は、固定スピーカー識別装置100や固定スピーカー識別装置200と同様である。
 図20は、固定スピーカー識別装置300の構成の一例を示している。図20を参照すると、固定スピーカー識別装置300は、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、特徴量ストア104と、教師ラベル生成部305と、固定スピーカー発音範囲決定部106と、判別範囲DB107と、固定スピーカー発音識別部108と、スケジューラ309と、を有している。なお、図20では、固定スピーカー識別装置100や固定スピーカー識別装置200と同様の構成については、同じ符号を付している。
 以上のように、固定スピーカー識別装置300は、固定スピーカー識別装置100が有する教師ラベル生成部105、固定スピーカー識別装置200が有する教師ラベル生成部205、の代わりに教師ラベル生成部305を有している。また、固定スピーカー識別装置300は、スケジューラ309を有している。以下、本実施形態に特徴的な構成である教師ラベル生成部305とスケジューラ309について説明する。
 スケジューラ309は、内蔵時計を具備している。また、スケジューラ309は、固定スピーカー121の利用状況を示すスケジュールをあらかじめ記録している。そして、スケジューラ309は、スケジュールに応じた情報を教師ラベル生成部305に出力する。例えば、スケジューラ309が記録するスケジュールによると、固定スピーカー121が毎日午前10時と午後3時から5分間の定時放送を行うとする。すると、スケジューラ309は、定時放送を行う時間の間、定時放送を行うスケジュールに該当する時間であることを、教師ラベル生成部305に出力する。
 教師ラベル生成部305は、スケジューラ309からの出力に基づいて、固定スピーカー発音が行われる時間であることを知る。すると、教師ラベル生成部305は、固定スピーカー発音が行われる時間である間、算出された特徴量に対して固定スピーカー発音であるとラベルを付与する。一方、教師ラベル生成部305は、固定スピーカー発音が行われる時間でない場合、算出された特徴量に対して固定スピーカー発音でないとラベルを付与する。このように、教師ラベル生成部305は、スケジューラ309からの出力に基づいてラベルを付与する。
 なお、教師ラベル生成部305は、ラベルを付与する際に、マイクロフォン101およびマイクロフォン102から得られる音響信号のパワーを併用しても構わない。例えば、教師ラベル生成部305は、音響信号のパワーと閾値Aとの比較結果により判断される有音信号であるか否かと、スケジューラ309からの入力に応じた値と、の論理積をとるよう構成しても構わない。論理積をとる場合、例えば、教師ラベル生成部305は、音響信号のパワーが閾値Aよりも大きな値であり、かつ、スケジューラ309からの出力に基づいて固定スピーカー発音が行われる時間であると判断することが出来る場合に、固定スピーカー発音であるとラベルを付与する。一方、教師ラベル生成部305は、音響信号のパワーが閾値A以下である場合や、スケジューラ309からの出力に基づいて固定スピーカー発音が行われる時間でないと判断することが出来る場合、固定スピーカー発音でないとラベルを付与する。
 このように、固定スピーカー識別装置300は、教師ラベル生成部305と、スケジューラ309と、を有している。このような構成により、教師ラベル生成部305は、スケジューラ309が記録するスケジュールに基づいて、ラベルを生成することが出来る。これにより、固定スピーカー121の利用パターンが明確な場合において、より確度の高い教師ラベルを付与することが可能となる。ひいては、判別範囲DBの精度を向上することが可能となる。
 なお、固定スピーカー識別装置300は、スケジューラ309からの情報に基づいたラベルの生成と、第2の実施形態や第3の実施形態で説明したラベルの生成方法とを併用しても構わない。例えば、固定スピーカー識別装置300は、スケジューラ309からの出力に基づいて、固定スピーカー発音が行われる時間でないと判断される場合に、特徴量の平均値μと分散σに基づくラベル付与を行うよう構成することも出来る。
[第5の実施形態]
 次に、本発明の第5の実施形態について図21を参照して説明する。図21は、固定スピーカー識別装置400の構成の一例を示す図である。
 第5の実施形態では、第2の実施形態で説明した固定スピーカー識別装置100、第3の実施形態で説明した固定スピーカー識別装置200、第4の実施形態で説明した固定スピーカー識別装置300、の変形例である固定スピーカー識別装置400について説明する。固定スピーカー識別装置400は、固定スピーカー識別装置100、固定スピーカー識別装置200、固定スピーカー識別装置300、と比較して、発音範囲学習部に相当する部分に変更点を有している。一方、固定スピーカー識別装置400が有する構成のうち、発音識別部に相当する各構成は、固定スピーカー識別装置100、固定スピーカー識別装置200、固定スピーカー識別装置300と同様である。
 図21は、固定スピーカー識別装置400の構成の一例を示している。図21を参照すると、固定スピーカー識別装置400は、マイクロフォン101と、マイクロフォン102と、特徴量算出部103と、特徴量ストア104と、教師ラベル生成部405と、固定スピーカー発音範囲決定部106と、判別範囲DB107と、固定スピーカー発音識別部108と、を有している。なお、図21では、固定スピーカー識別装置100、固定スピーカー識別装置200、固定スピーカー識別装置300と同様の構成については、同じ符号を付している。
 以上のように、固定スピーカー識別装置400は、固定スピーカー識別装置100が有する教師ラベル生成部105、固定スピーカー識別装置200が有する教師ラベル生成部205、固定スピーカー識別装置300が有する教師ラベル生成部305、の代わりに教師ラベル生成部405を有している。以下、本実施形態に特徴的な構成である教師ラベル生成部405について説明する。
 教師ラベル生成部405には、例えば、外部装置などから、固定スピーカー利用状況入力が入力される。教師ラベル生成部405は、ラベルを生成する際に、入力された固定スピーカー利用状況入力を参照する。
 ここで、固定スピーカー利用状況入力は、固定スピーカー121の利用状況に応じて、固定スピーカー121や固定スピーカー121を監視する装置などが生成する情報である。例えば、固定スピーカー121がアナウンス放送設備の固定スピーカーであるとすると、放送設備の電源スイッチあるいはPush to Talkスイッチと連動して、固定スピーカー利用状況入力が生成される。また、例えば、固定スピーカー121がテレビ受像機であるとすると、電源スイッチ、ミュートボタンの状況、カメラあるいは明るさセンサなどと連動して固定スピーカー利用状況入力が生成される。このように、固定スピーカー利用状況入力は、固定スピーカーの利用状況に応じて生成される。
 教師ラベル生成部405は、固定スピーカー利用状況入力の入力状況に基づいて、ラベルを生成する。例えば、教師ラベル生成部405は、固定スピーカー利用状況入力が入力された場合に、固定スピーカー発音であるとのラベルを付与する。一方、教師ラベル生成部405は、固定スピーカー利用状況入力が入力されていない場合、固定スピーカー発音でないとのラベルを付与する。
 なお、教師ラベル生成部405は、第4の実施形態で説明した場合と同様、ラベルを付与する際に、マイクロフォン101およびマイクロフォン102から得られる音響信号のパワーを併用しても構わない。例えば、教師ラベル生成部405は、音響信号のパワーと閾値Aとの比較結果により判断される有音信号であるか否かと、固定スピーカー利用状況入力の有無と、の論理積をとるよう構成しても構わない。論理積をとる場合、例えば、教師ラベル生成部405は、音響信号のパワーが閾値Aよりも大きな値であり、かつ、固定スピーカー利用状況入力が入力されている場合に、固定スピーカー発音であるとラベルを付与する。一方、教師ラベル生成部405は、音響信号のパワーが閾値A以下である場合や、固定スピーカー利用状況入力の入力がない場合、固定スピーカー発音でないとラベルを付与する。
 このように、本実施形態における固定スピーカー識別装置400が有する教師ラベル生成部405には、固定スピーカー利用状況入力が入力されるよう構成されている。このような構成により、教師ラベル生成部405は、入力された固定スピーカー利用状況入力に基づいて、ラベルを生成することが出来る。これにより、より正確な固定スピーカー121の利用状況を得ることが可能となり、判別範囲DB107の精度を向上することが可能となる。
 なお、固定スピーカー121が外部入力を持つ場合、キャリブレーション用の信号発生機を接続して該当固定スピーカー121から音を出すことができる。この場合、音を出す時間幅を正確に制御することができるので、固定スピーカー利用状況入力の信号をより正確に生成することが可能である。
 また、固定スピーカー識別装置400は、固定スピーカー利用状況入力に基づいたラベルの生成と、第2の実施形態、第3の実施形態、第4の実施形態で説明したラベルの生成方法と、を併用しても構わない。
[第6の実施形態]
 次に、本発明の第6の実施形態について図22を参照して説明する。図22は、音響イベント検知装置500の構成の一例を示す図である。
 第6の実施形態では、音響イベント122を検知する音響イベント検知装置500について説明する。本実施形態で説明する音響イベント検知装置500は、第2の実施形態を用いて説明した発音識別部に相当する構成を有している。また、音響イベント検知装置500は、上記構成に加えて、音響イベント122を検知するための構成を有している。後述するように、音響イベント検知装置500は、音響イベント122の検知結果と、発音識別部による識別結果と、に基づいて、最終的な検知結果を判断する。
 図22は、音響イベント検知装置500の構成の一例を示している。図22を参照すると、音響イベント検知装置500は、発音識別部501と、マイクロフォン502と、音響イベント検知部503と、検知結果修正部504と、を有している。音響イベント検知装置500は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、音響イベント検知装置500は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 発音識別部501は、独自の複数のマイクロフォンを有しており、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する。発音識別部501の構成は、例えば、第2の実施形態で説明した固定スピーカー識別装置100が有する発音識別部の構成と同様である。そのため、発音識別部501の構成の詳細な説明は省略する。
 マイクロフォン502は、周囲の音データを信号に変換する。マイクロフォン502は、例えば、発音識別部501が有するマイクロフォンとは別に設けられている。
 音響イベント検知部503は、マイクロフォン502で得られた音の情報の時系列から、あらかじめ指定された音響イベント122が発生したか否かを検知する。例えば、音響イベント検知部503は、マイクロフォン502で得られた音響信号のパワー(大きさ)があらかじめ決められた閾値B(任意の値で構わない)よりも大きい場合、音響イベント122を検知する。そして、音響イベント検知部503は、検知した結果を出力する。なお、音響イベント検知部503は、上記例示した方法以外の方法を用いて音響イベント122を検知しても構わない。
 検知結果修正部504は、音響イベント検知部503が音響イベント122を検知したと出力した場合に、該当時刻の発音識別部501の出力を参照する。そして、検知結果修正部504は、発音識別部501の出力に基づいて、音響イベント検知部503による検知結果を修正する。例えば、検知結果修正部504は、該当時刻の発音識別部501による識別結果が固定スピーカー発音であった場合、音響イベント検知部503による検知結果を削除する。また、検知結果修正部504は、該当時刻の発音識別部501による識別結果が固定スピーカー発音でない場合、音響イベント検知部503による検知結果を修正しない。このように、検知結果修正部504は、音響イベント検知部503の出力に対して、独立したマイクロフォンを持つ発音識別部501の結果を用いて、検知結果を修正する。
 なお、検知結果修正部504の構成は、上記場合に限定されない。例えば、検知結果修正部504は、発音識別部501の出力が固定スピーカー発音であった場合、音響イベント122の検知を抑圧(削除)する代わりに、固定スピーカー発音であると識別した旨を示すフラグを音響イベント検知部503による検知結果に付与しても構わない。これにより、検知結果を利用する側に識別結果を伝えることが出来る。また、検知結果修正部504は、発音識別部501が固定スピーカー発音であると識別した場合には検知結果を修正せず、固定スピーカー発音でないと識別した場合に検知結果を削除する修正を行うように構成することもできる。
 このように、音響イベント検知装置500は、発音識別部501と、音響イベント検知部503と、検知結果修正部504と、を有している。このような構成により、検知結果修正部504は、音響イベント検知部503による検知結果を発音識別部501による識別結果に基づいて修正することが出来る。これにより、音響イベント検知装置500は、検知した音響イベントが固定スピーカー121から発音されたものか否かを識別することが可能となり、固定スピーカー121から出力されていないものだけを音響イベント122として検知することが可能となる。その結果、例えば、固定スピーカー121であるテレビで流れているドラマ中の悲鳴など、検知したい音響イベント122と紛らわしいものを検知しないことが可能となり、誤検知を低減することが可能となる。なお、固定スピーカー発音でないと識別した場合に検知結果を削除する構成は、スピーカーに限らず固定の目標から発する音響イベント122を検知する場合に好適である。このような構成は、例えば、遊園地の固定遊具の異常音監視や、工場内に設置された機器異常音検知に用いることが可能である。
 なお、音響イベント検知装置500は、固定スピーカー識別装置100が有する構成のうちの発音範囲学習部に相当する構成を有しても構わないし、有さなくても構わない。音響イベント検知装置500が発音範囲学習部を有する場合、発音範囲学習部は、固定スピーカー識別装置200、固定スピーカー識別装置300、固定スピーカー識別装置400、のいずれかが有する変形例であっても構わない。また、音響イベント検知装置500が発音範囲学習部を有さない場合、発音識別部501に含まれる判別範囲DBには、発音範囲学習部に相当する構成を有する外部装置から識別範囲を示す情報が格納されるものとする。
[第7の実施形態]
 次に、本発明の第7の実施形態について図23を参照して説明する。図23は、音響イベント検知装置600の構成の一例を示す図である。
 第7の実施形態では、第6の実施形態で説明した音響イベント検知装置500の変形例である音響イベント検知装置600について説明する。後述するように、音響イベント検知装置600の場合、発音識別部501による識別結果が音響イベント検知部603に入力される。音響イベント検知装置600は、発音識別部501による識別結果に基づいて、音響イベントを検知する際に用いる閾値Bを変更する。
 図23は、音響イベント検知装置600の構成の一例を示している。図23を参照すると、音響イベント検知装置600は、発音識別部501と、マイクロフォン502と、音響イベント検知部603と、を有している。
 以上のように、音響イベント検知装置600は、音響イベント検知装置500が有する音響イベント検知部503の代わりに音響イベント検知部603を有している。また、音響イベント検知装置600は、検知結果修正部504に相当する構成を有しておらず、発音識別部501による識別結果を音響イベント検知部603に入力するよう構成されている。以下、本実施形態に特徴的な構成である音響イベント検知部603について説明する。
 音響イベント検知部603は、マイクロフォン502で得られた音の情報の時系列から、あらかじめ指定された音響イベント122が発生したか否かを検知する。例えば、音響イベント検知部603は、マイクロフォン502で得られた音響信号のパワー(大きさ)があらかじめ決められた閾値B(任意の値で構わない)よりも大きい場合、音響イベント122を検知する。そして、音響イベント検知部603は、検知した結果を出力する。
 また、音響イベント検知部603は、発音識別部501からの入力に基づいて、閾値Bを変更する。例えば、音響イベント検知部603は、発音識別部501による識別結果が固定スピーカー発音であった場合、閾値Bを上げる。これにより、音響イベント検知部603は、発音識別部501による識別結果が固定スピーカー発音である間、検知感度を下げることになる。
 このように、音響イベント検知装置600は、発音識別部501による識別結果を音響イベント検知部603に入力するよう構成されている。このような構成により、音響イベント検知部603は、発音識別部501による識別結果に基づいて、閾値Bを変更する(検知感度を変更する)ことが可能となる。これにより、固定スピーカー121からの発音を音響イベント122であると検知する可能性を低減させるとともに、大声による叫び声や故障音など非常に明確な音響イベント122を検知することが可能となる。その結果、例えば、音響イベント検知装置500と比較して、音響イベント122の誤棄却を減らすことが可能となる。
 なお、音響イベント検知装置600は、音響イベント検知装置500と同様に、発音範囲学習部に相当する構成を有しても構わないし、有さなくても構わない。
[第8の実施形態]
 次に、本発明の第8の実施形態について図24を参照して説明する。図24は、音響イベント検知装置700の構成の一例を示す図である。
 第8の実施形態では、第6の実施形態で説明した音響イベント検知装置500の変形例である音響イベント検知装置700について説明する。後述するように、音響イベント検知装置700の場合、発音識別部701内に帯域制限部702を有している。発音識別部701は、音響イベント検知部503が検知した音響イベント122を構成する中心的な周波数帯域だけに帯域を制限した上で、固定スピーカー121からの音響信号であるか否かを識別する。
 図24は、音響イベント検知装置700の構成の一例を示している。図24を参照すると、音響イベント検知装置700は、発音識別部701と、マイクロフォン502と、音響イベント検知部503と、検知結果修正部504と、を有している。
 以上のように、音響イベント検知装置700は、音響イベント検知装置500が有する発音識別部501の代わりに発音識別部701を有している。以下、本実施形態に特徴的な構成である発音識別部701について説明する。
 発音識別部701は、独自の複数のマイクロフォンを有しており、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する。発音識別部701は、第2の実施形態で説明した固定スピーカー識別装置100が有する発音識別部の構成に加えて、帯域制限部702を有している。具体的には、発音識別部701の場合、マイクロフォン101、マイクロフォン102で受信した音響信号は、帯域制限部702を介して特徴量算出部103に入力するよう構成されている。
 帯域制限部702には、音響イベント検知部402から、当該音響イベント検知部402が検知した音響イベントを構成する中心的な周波数帯域を示す情報が入力される。帯域制限部702は、入力された情報に基づいて、帯域制限を行う。換言すると、帯域制限部702は、マイクロフォン101、マイクロフォン102が受信した音響信号のうち、音響イベント検知部402が検知した音響イベントを構成する中心的な周波数帯域のみを特徴量算出部103に出力する。帯域制限部702が帯域制限を行うことで、発音識別部701の固定スピーカー発音識別部108は、音響イベントを構成する中心的な周波数帯域だけに帯域を制限した上で固定スピーカー発音か否かを識別することが出来る。
 このように、音響イベント検知装置700は、帯域制限部702を有する発音識別部701を有している。また、帯域制限部702には、音響イベント検知部402が検知した音響イベントを構成する中心的な周波数帯域を示す情報が入力されるよう構成されている。このような構成により、音響イベント検知装置700は、音響イベントを構成する中心的な周波数帯域だけに帯域を制限した上で固定スピーカー発音か否かを判別することが出来る。これにより、複数の音響イベントが混在する場合や雑音の多い環境でも識別の正確性を向上することが可能となる。
[第9の実施形態]
 次に、本発明の第9の実施形態について図25を参照して説明する。図25は、音声認識装置800の構成の一例を示す図である。
 第9の実施形態では、音声認識を行う音声認識装置800について説明する。本実施形態で説明する音声認識装置800は、第2の実施形態を用いて説明した発音識別部に相当する構成を有している。また、音声認識装置800は、上記構成に加えて、音声認識を行うための構成を有している。後述するように、音声認識装置800は、音声認識の結果と、発音識別部による識別結果と、に基づいて、最終的な検知結果を判断する。
 図25は、音声認識装置800の構成の一例を示している。図25を参照すると、音声認識装置800は、発音識別部801と、マイクロフォン802と、音声認識部803と、認識結果修正部804と、を有している。音声認識装置800は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、音声認識装置800は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 発音識別部801は、独自の複数のマイクロフォンを有しており、受信した音響信号が固定スピーカー121からの音響信号であるか否かを識別する。発音識別部801の構成は、例えば、第2の実施形態で説明した固定スピーカー識別装置100が有する発音識別部の構成と同様である。そのため、発音識別部801の構成の詳細な説明は省略する。
 マイクロフォン802は、周囲の音データを信号に変換する。マイクロフォン802は、例えば、発音識別部801が有するマイクロフォンとは別に設けられている。
 音声認識部803は、マイクロフォン802で得られた音の情報の時系列から、音声認識を行う。そして、音声認識部803は、音声の認識結果を出力する。音声認識結果は、例えば、単語IDやテキストの形態がある。
 なお、本実施形態においては、音声認識部803の具体的な構成については特に限定しない。音声認識部803は、例えば、マイクロフォン802で得られた音の情報の時系列から、所定の単語を抽出するワードスポッティングを行うなど、一般的な音声認識処理を行うよう構成することが出来る。
 認識結果修正部804は、音声認識部803がワードスポッティングにより特定の音声認識を行った場合に、該当時刻の発音識別部801の出力を参照する。そして、認識結果修正部804は、該当時刻の結果が固定スピーカー発音であった場合には、該当する認識結果を削除する。一方、該当時刻の結果が固定スピーカー発音でない場合、認識結果修正部804は、音声認識部803の出力をそのまま認識結果として出力する。
 このように、音声認識装置800は、発音識別部801と、音声認識部803と、認識結果修正部804と、を有している。このような構成により、認識結果修正部804は、音声認識部803による認識結果を発音識別部801による識別結果に基づいて修正することが出来る。これにより、音声認識を行った際に該当音声が固定スピーカー121から発音されたものか否かを識別して、該当固定スピーカー121から出力されていないものだけを音声認識することが可能となる。その結果、たとえば音声認識用コマンドワードが固定スピーカー121であるテレビで流れた場合など、認識対象音声と紛らわしいものを音声認識しないことで、誤検知を低減することが可能となる。
 なお、音声認識装置800は、図25で示すように、第6の実施形態で説明した音響イベント検知装置500に類似する構成を有している。音声認識装置800には、第6、第7、第8の実施形態で説明した、音響イベント検知に向けた工夫を同様に適用することが可能である。
[第10の実施形態]
 次に、本発明の第10の実施形態について図26から図28を参照して説明する。図26は、信号源識別装置900の構成の一例を示す図である。図27は、イベント検知装置910の構成の一例を示す図である。図28は、音声認識装置920の構成の一例を示す図である。
 本発明の第10の実施形態では、信号源識別装置900、イベント検知装置910、音声認識装置920の構成について説明する。
 図26は、信号源識別装置900の一例を示している。図26を参照すると、信号源識別装置900は、特徴量算出部901と、識別部902と、を有している。信号源識別装置900は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、信号源識別装置900は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 特徴量算出部901は、複数のセンサにより受信した信号に基づいて、信号の発生源からの伝達する経路に応じた特徴量を算出する。
 識別部902は、特徴量算出部901が算出した特徴量に基づいて決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、特徴量算出部901が算出した特徴量が所定の信号源からの信号であるか否かを識別する。
 このように、信号源識別装置900は、特徴量算出部901と、識別部902と、を有している。このような構成により、信号源識別装置900の識別部902は、識別範囲を用いて、特徴量算出部901が算出した特徴量が所定の信号源からの信号であるか否かを識別することが出来る。このように識別範囲に基づいて識別することで、信号の周波数特性に依存せず、安定して所定の信号源から出力された信号であるか否かを検知することが可能となる。換言すると、所定の信号源から出力された信号であることを容易に検知することが可能となる。
 また、上述した信号源識別装置900は、当該信号源識別装置900に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、信号源識別装置900に、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部901と、特徴量算出部901が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、特徴量算出部901が算出した特徴量が所定の信号源からの信号であるか否かを識別する識別部902と、を実現させるためのプログラムである。
 また、上述した信号源識別装置900により実行される信号源識別方法は、信号源識別装置900が、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が所定の信号源からの信号であるか否かを識別する、という方法である。
 上述した構成を有する、プログラム、又は、信号源識別方法、の発明であっても、上記信号源識別装置900と同様の作用を有するために、上述した本発明の目的を達成することが出来る。
 また、上記信号源識別装置900を用いた装置としては、イベント検知装置910と音声認識装置920とがある。図27は、イベント検知装置910の構成の一例を示している。また、図28は、音声認識装置920の構成の一例を示している。
 図27を参照すると、イベント検知装置910は、特徴量算出部901と、識別部902と、イベント検知部913と、修正部914と、を有している。イベント検知装置910は、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、イベント検知装置910は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、上記構成のうち、特徴量算出部901と識別部902とは、信号源識別装置900が有する構成と同様である。そのため、イベント検知装置910は、信号源識別装置900が有する構成と、イベント検知部913と、修正部914と、を有する、ということも出来る。
 イベント検知部913は、センサにより受信した信号に基づいて、イベントを検知する。また、修正部914は、イベント検知部913による検知結果を信号源識別装置が有する識別部902による識別結果に基づいて修正する。
 また、上述したイベント検知装置910は、当該イベント検知装置910に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、イベント検知装置910に、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部901と、特徴量算出部901が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、特徴量算出部901が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、センサにより受信した信号に基づいて、イベントを検知するイベント検知部913と、イベント検知部913による検知結果を識別部902による識別結果に基づいて修正する修正部914と、を実現させるためのプログラムである。
 また、上述したイベント検知装置910により実行されるイベント検知方法は、イベント検知装置910が、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、センサにより受信した信号に基づいて、イベントを検知し、イベントの検知結果を前記識別の結果に基づいて修正する、という方法である。
 上述した構成を有する、イベント検知装置、プログラム、イベント検知方法、の発明によると、所定の信号源からの信号であるか否かの識別結果に基づいて、イベントの検知結果を修正出来る。これにより、例えば、所定の信号源からの信号をイベントによる信号と誤検知する可能性を低減することが可能となる。
 また、図28を参照すると、音声認識装置920は、特徴量算出部901と、識別部902と、音声認識部923と、修正部924と、を有している。音声認識装置920、例えば、図示しないCPUなどの演算装置と、記憶装置と、を有している。例えば、音声認識装置920は、図示しない記憶装置に格納されたプログラムを演算装置が実行することで、上述した各処理部を実現する。
 なお、上記構成のうち、特徴量算出部901と識別部902とは、信号源識別装置900が有する構成と同様である。そのため、イベント検知装置910は、信号源識別装置900が有する構成と、音声認識部923と、修正部924と、を有する、ということも出来る。
 音声認識部923は、センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う。また、修正部924は、音声認識部923による認識結果を信号源識別装置による識別結果に基づいて修正する。
 また、上述した音声認識装置920は、当該音声認識装置920に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、音声認識装置920に、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部901と、特徴量算出部901が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、特徴量算出部901が算出した特徴量が所定の信号源からの信号であるか否かを識別する識別部902と、センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部903と、音声認識部903による認識結果を識別部902による識別結果に基づいて修正する修正部と、を実現するためのプログラムである。
 また、上述した音声認識装置920により実行される音声認識方法は、音声認識装置920が、複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行い、音声認識の結果を前記識別の結果に基づいて修正する、という方法である。
 上述した構成を有する、音声認識装置、プログラム、音声認識方法、の発明によると、所定の信号源からの信号であるか否かの識別結果に基づいて、音声認識の結果を修正出来る。これにより、例えば、所定の信号源からの信号に基づく音声認識を誤って行ってしまうことを抑制することが可能となる。
 <付記>
 上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における信号源識別装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 を有する信号源識別装置。
(付記2)
 付記1に記載の信号源識別装置であって、
 前記識別部は、前記特徴量算出部が算出した特徴量が前記識別範囲内に属する場合、前記所定の信号源からの信号であると識別する
 信号源識別装置。
(付記3)
 付記1又は付記2に記載の信号源識別装置であって、
 前記識別部は、前記特徴量算出部が算出した特徴量が前記識別範囲内に属さない場合、前記所定の信号源からの信号でないと識別する
 信号源識別装置。
(付記4)
 付記1から付記3までのいずれか1項に記載の信号源識別装置であって、
 前記所定の信号源からの信号であるか否かを示すラベルを生成するラベル生成部と、
 前記特徴量算出部が算出した特徴量と、前記ラベル生成部が生成したラベルと、に基づいて、前記識別範囲を決定する識別範囲決定部と、
 を有する
 信号源識別装置。
(付記5)
 付記4に記載の信号源識別装置であって、
 前記ラベル生成部は、複数の前記センサにより受信した信号の大きさと、前記特徴量算出部が算出した特徴量と、に基づいて、前記ラベルを生成する
 信号源識別装置。
(付記6)
 付記4又は付記5に記載の信号源識別装置であって、
 前記ラベル生成部は、複数の前記センサにより受信した信号の大きさに基づいて、一部の信号を抽出し、抽出した一部の信号に基づいて算出される特徴量の平均値と分散とに基づいて、ラベルを生成する
 信号源識別装置。
(付記7)
 付記4又は付記5に記載の信号源識別装置であって、
 前記ラベル生成部は、前記特徴量算出部が算出した特徴量が集中する範囲に基づいて、ラベルを生成する
 信号源識別装置。
(付記8)
 付記4から付記7までのいずれか1項に記載の信号識別装置であって、
 前記ラベル生成部は、前記特徴量算出部が算出した特徴量に時間に応じた重み付けを行ってラベルを生成する
 信号源識別装置。
(付記9)
 付記4から付記8までのいずれか1項に記載の信号源識別装置であって、
 前記所定の信号源の利用状況を示すスケジュールを記録するスケジューラを有し、
 前記ラベル生成部は、前記スケジューラからの出力に基づいて、ラベルを生成する
 信号源識別装置。
(付記10)
 付記4から付記9までのいずれか1項に記載に信号源識別装置であって、
 前記ラベル生成部は、外部から入力された、前記所定の信号源の利用状況に応じた情報である利用状況情報に基づいて、ラベルを生成する
 信号源識別装置。
(付記11)
 信号源識別装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別する
 信号源識別方法。
(付記12)
 信号源識別装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 を実現させるためのプログラム。
(付記12-1)
 信号源識別装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 を実現させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
(付記13)
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 前記イベント検知部による検知結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
 を有する
 イベント検知装置。
(付記14)
 付記13に記載のイベント検知装置であって、
 前記信号源識別装置は、前記イベント検知部による検知結果に基づいて帯域の制限を行う帯域制限部を含む
 イベント検知装置。
(付記15)
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 を有し、
 前記イベント検知部は、前記信号源識別装置による識別結果に基づいて、前記イベントを検知する際に用いる閾値を変更する
 イベント検知装置。
(付記16)
 イベント検知装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
 センサにより受信した信号に基づいて、イベントを検知し、
 前記イベントの検知結果を前記識別の結果に基づいて修正する、
 イベント検知方法。
(付記17)
 イベント検知装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 前記イベント検知部による検知結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラム。
(付記17-1)
 イベント検知装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
 前記イベント検知部による検知結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
(付記18)
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
 前記音声認識部による認識結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
 を有する
 音声認識装置。
(付記19)
 音声認識装置が、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
 算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行い、
 音声認識の結果を前記識別の結果に基づいて修正する
 音声認識方法。
(付記20)
 音声認識装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
 前記音声認識部による認識結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラム。
(付記20-1)
 音声認識装置に、
 複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
 前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
 センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
 前記音声認識部による認識結果を前記識別部による識別結果に基づいて修正する修正部と、
 を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
 なお、上記各実施形態及び付記において記載したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されていたりする。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
 以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。
000 固定信号源識別装置
001、002 センサ
003 特徴量算出部
004 特徴量ストア
005 教師ラベル生成部
006 固定信号源出力範囲決定部
007 判別範囲DB
008 固定信号源出力信号識別部
021 固定信号源
022 移動信号源
100 固定スピーカー識別装置
101、102 マイクロフォン
103 特徴量算出部
104 特徴量ストア
105 教師ラベル生成部
106 固定スピーカー発音範囲決定部
107 判別範囲DB
108 固定スピーカー発音識別部
121 固定スピーカー
122 音響イベント
200 固定スピーカー識別装置
205 教師ラベル生成部
300 固定スピーカー識別装置
305 教師ラベル生成部
309 スケジューラ
400 固定スピーカー識別装置
405 教師ラベル生成部
500 音響イベント検知装置
501 発音識別部
502 マイクロフォン
503 音響イベント検知部
504 検知結果修正部
600 音響イベント検知装置
603 音響イベント検知部
700 音響イベント検知装置
701 発音識別部
702 帯域制限部
800 音声認識装置
801 発音識別部
802 マイクロフォン
803 音声認識部
804 認識結果修正部
900 信号源識別装置
901 特徴量算出部
902 識別部
910 イベント検知装置
913 イベント検知部
914 修正部
920 音声認識装置
923 音声認識部
924 修正部

Claims (20)

  1.  複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     を有する信号源識別装置。
  2.  請求項1に記載の信号源識別装置であって、
     前記識別部は、前記特徴量算出部が算出した特徴量が前記識別範囲内に属する場合、前記所定の信号源からの信号であると識別する
     信号源識別装置。
  3.  請求項1又は請求項2に記載の信号源識別装置であって、
     前記識別部は、前記特徴量算出部が算出した特徴量が前記識別範囲内に属さない場合、前記所定の信号源からの信号でないと識別する
     信号源識別装置。
  4.  請求項1から請求項3までのいずれか1項に記載の信号源識別装置であって、
     前記所定の信号源からの信号であるか否かを示すラベルを生成するラベル生成部と、
     前記特徴量算出部が算出した特徴量と、前記ラベル生成部が生成したラベルと、に基づいて、前記識別範囲を決定する識別範囲決定部と、
     を有する
     信号源識別装置。
  5.  請求項4に記載の信号源識別装置であって、
     前記ラベル生成部は、複数の前記センサにより受信した信号の大きさと、前記特徴量算出部が算出した特徴量と、に基づいて、前記ラベルを生成する
     信号源識別装置。
  6.  請求項4又は請求項5に記載の信号源識別装置であって、
     前記ラベル生成部は、複数の前記センサにより受信した信号の大きさに基づいて、一部の信号を抽出し、抽出した一部の信号に基づいて算出される特徴量の平均値と分散とに基づいて、ラベルを生成する
     信号源識別装置。
  7.  請求項4又は請求項5に記載の信号源識別装置であって、
     前記ラベル生成部は、前記特徴量算出部が算出した特徴量が集中する範囲に基づいて、ラベルを生成する
     信号源識別装置。
  8. 請求項4から請求項7までのいずれか1項に記載の信号識別装置であって、
     前記ラベル生成部は、前記特徴量算出部が算出した特徴量に時間に応じた重み付けを行ってラベルを生成する
     信号源識別装置。
  9.  請求項4から請求項8までのいずれか1項に記載の信号源識別装置であって、
     前記所定の信号源の利用状況を示すスケジュールを記録するスケジューラを有し、
     前記ラベル生成部は、前記スケジューラからの出力に基づいて、ラベルを生成する
     信号源識別装置。
  10.  請求項4から請求項9までのいずれか1項に記載に信号源識別装置であって、
     前記ラベル生成部は、外部から入力された、前記所定の信号源の利用状況に応じた情報である利用状況情報に基づいて、ラベルを生成する
     信号源識別装置。
  11.  信号源識別装置が、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
     算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別する
     信号源識別方法。
  12.  信号源識別装置に、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     を実現させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
  13.  複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
     前記イベント検知部による検知結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
     を有する
     イベント検知装置。
  14.  請求項13に記載のイベント検知装置であって、
     前記信号源識別装置は、前記イベント検知部による検知結果に基づいて帯域の制限を行う帯域制限部を含む
     イベント検知装置。
  15.  複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
     を有し、
     前記イベント検知部は、前記信号源識別装置による識別結果に基づいて、前記イベントを検知する際に用いる閾値を変更する
     イベント検知装置。
  16.  イベント検知装置が、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
     算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
     センサにより受信した信号に基づいて、イベントを検知し、
     前記イベントの検知結果を前記識別の結果に基づいて修正する、
     イベント検知方法。
  17.  イベント検知装置に、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     センサにより受信した信号に基づいて、イベントを検知するイベント検知部と、
     前記イベント検知部による検知結果を前記識別部による識別結果に基づいて修正する修正部と、
     を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
  18.  複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
     前記音声認識部による認識結果を前記信号源識別装置による識別結果に基づいて修正する修正部と、
     を有する
     音声認識装置。
  19.  音声認識装置が、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出し、
     算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、算出した特徴量が前記所定の信号源からの信号であるか否かを識別し、
     センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行い、
     音声認識の結果を前記識別の結果に基づいて修正する
     音声認識方法。
  20.  音声認識装置に、
     複数のセンサにより受信した信号に基づいて、信号の発生源からの当該信号が伝達する経路に応じた特徴量を算出する特徴量算出部と、
     前記特徴量算出部が算出した特徴量に基づいて予め決定される、所定の信号源からの信号に基づく特徴量が属する範囲である識別範囲を用いて、前記特徴量算出部が算出した特徴量が前記所定の信号源からの信号であるか否かを識別する識別部と、
     センサであるマイクロフォンにより受信した音響信号に基づいて、音声認識を行う音声認識部と、
     前記音声認識部による認識結果を前記識別部による識別結果に基づいて修正する修正部と、
     を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。

     
PCT/JP2018/009234 2018-03-09 2018-03-09 信号源識別装置、信号源識別方法、プログラム WO2019171580A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/971,091 US11626102B2 (en) 2018-03-09 2018-03-09 Signal source identification device, signal source identification method, and program
PCT/JP2018/009234 WO2019171580A1 (ja) 2018-03-09 2018-03-09 信号源識別装置、信号源識別方法、プログラム
JP2020504624A JP7075064B2 (ja) 2018-03-09 2018-03-09 信号源識別装置、信号源識別方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/009234 WO2019171580A1 (ja) 2018-03-09 2018-03-09 信号源識別装置、信号源識別方法、プログラム

Publications (1)

Publication Number Publication Date
WO2019171580A1 true WO2019171580A1 (ja) 2019-09-12

Family

ID=67845608

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/009234 WO2019171580A1 (ja) 2018-03-09 2018-03-09 信号源識別装置、信号源識別方法、プログラム

Country Status (3)

Country Link
US (1) US11626102B2 (ja)
JP (1) JP7075064B2 (ja)
WO (1) WO2019171580A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171580A1 (ja) * 2018-03-09 2019-09-12 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007327937A (ja) * 2006-05-09 2007-12-20 Omron Corp 検査装置、検査方法、検査プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
JP2008079256A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
JP5098176B2 (ja) * 2006-01-10 2012-12-12 カシオ計算機株式会社 音源方向判定方法及び装置
US8676935B2 (en) * 2008-03-07 2014-03-18 Nec Corporation Content distributing system, feature amount distributing server, client, and content distributing method
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
JP2011194050A (ja) * 2010-03-19 2011-10-06 Aisin Seiki Co Ltd 生体情報検出装置
JP6017854B2 (ja) * 2011-06-24 2016-11-02 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US9378752B2 (en) * 2012-09-05 2016-06-28 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
JP6532021B2 (ja) * 2015-09-29 2019-06-19 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
WO2019171580A1 (ja) * 2018-03-09 2019-09-12 日本電気株式会社 信号源識別装置、信号源識別方法、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007327937A (ja) * 2006-05-09 2007-12-20 Omron Corp 検査装置、検査方法、検査プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
JP2008079256A (ja) * 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム
JP2014092750A (ja) * 2012-11-06 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置とその方法とプログラム
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
JPWO2019171580A1 (ja) 2021-02-04
JP7075064B2 (ja) 2022-05-25
US20200395002A1 (en) 2020-12-17
US11626102B2 (en) 2023-04-11

Similar Documents

Publication Publication Date Title
Adavanne et al. Sound event localization and detection of overlapping sources using convolutional recurrent neural networks
Li et al. Online direction of arrival estimation based on deep learning
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US9076450B1 (en) Directed audio for speech recognition
JP6640993B2 (ja) 音声対応デバイス間の調停
CN104509079B (zh) 基于位置标记的语音识别模型
JP6314219B2 (ja) 自己生成ウェイク表現の検出
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
Nguyen et al. Salsa: Spatial cue-augmented log-spectrogram features for polyphonic sound event localization and detection
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
US20190219660A1 (en) Method and system of acoustic angle of arrival detection
CN105580071B (zh) 用于训练声音识别模型数据库的方法和装置
US11849292B2 (en) Power efficient context-based audio processing
CA3097725A1 (en) Keyword-based audio source localization
WO2019171580A1 (ja) 信号源識別装置、信号源識別方法、プログラム
Kindt et al. 2d acoustic source localisation using decentralised deep neural networks on distributed microphone arrays
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
Hu et al. Robust speaker's location detection in a vehicle environment using GMM models
US20210110838A1 (en) Acoustic aware voice user interface
JP7215567B2 (ja) 音響認識装置、音響認識方法、及び、プログラム
Mesa-Cantillo et al. A sound events detection and localization system based on YAMNet model and BLE beacons
KR102346133B1 (ko) 심층 신경망 기반의 방향각 추정 방법
US20220360935A1 (en) Sound field control apparatus and method for the same
US11982737B1 (en) Controlling sensitivity of presence detection using ultrasonic signals
Rusrus Moving Sound Sources Direction of Arrival Classification Using Different Deep Learning Schemes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18908441

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020504624

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18908441

Country of ref document: EP

Kind code of ref document: A1