WO2017170007A1 - 監視装置、監視方法、及び記録媒体 - Google Patents

監視装置、監視方法、及び記録媒体 Download PDF

Info

Publication number
WO2017170007A1
WO2017170007A1 PCT/JP2017/011316 JP2017011316W WO2017170007A1 WO 2017170007 A1 WO2017170007 A1 WO 2017170007A1 JP 2017011316 W JP2017011316 W JP 2017011316W WO 2017170007 A1 WO2017170007 A1 WO 2017170007A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
image
acoustic
calculated
occurrence
Prior art date
Application number
PCT/JP2017/011316
Other languages
English (en)
French (fr)
Inventor
友督 荒井
玲史 近藤
裕三 仙田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2018509106A priority Critical patent/JP6841277B2/ja
Publication of WO2017170007A1 publication Critical patent/WO2017170007A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/01Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems characterised by the transmission medium
    • G08B25/04Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems characterised by the transmission medium using a single signalling line, e.g. in a closed loop
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to a technique for detecting an event using a plurality of types of sensors, and more particularly, to a monitoring device, a monitoring method, and a recording medium for calibrating a directional relationship between a plurality of types of sensors.
  • Patent Document 1 Monitoring technology that detects events using multiple types of sensors is widely known and put into practical use.
  • An example of such a monitoring technique is described in Patent Document 1.
  • the monitoring device described in Patent Literature 1 detects a suspicious change (abnormal event) with either the camera or the microphone, and estimates the occurrence direction of the abnormal event. Furthermore, the monitoring apparatus described in Patent Document 1 estimates the occurrence direction of an abnormal event when viewed from the other side, based on the estimated occurrence direction and the difference between the camera and microphone arrangement positions. And the monitoring apparatus described in patent document 1 orient
  • the monitoring device described in Patent Document 1 performs control based on the difference in the arrangement position between the camera and the microphone. For this reason, in the monitoring apparatus described in Patent Document 1, extremely high accuracy is required for the position and direction when the camera and the microphone are installed. For this reason, in the monitoring apparatus described in Patent Document 1, the calibration of the direction performed at the time of installation of the camera and the microphone is expensive.
  • the monitoring device described above has a problem that extremely high accuracy is required for the position and direction when the sensor is installed.
  • An object of the present invention is to provide a monitoring device, a monitoring method, and a recording medium that solve the above-described problem that a very high accuracy is required for the position and direction when a sensor is installed.
  • the monitoring apparatus includes an acoustic signal acquisition unit that acquires an acoustic signal, an acoustic event detection unit that calculates a generation direction of an acoustic event from the acquired acoustic signal, and an image signal acquisition unit that acquires an image signal.
  • Image event detection means for calculating the direction of occurrence of an image event from the acquired image signal, direction of occurrence of a calibration target event in the calculated acoustic event, and direction of occurrence of the calibration target event in the calculated image event Based on the above, using the mapping relationship calculation means for calculating the mapping relationship and the calculated mapping relationship and the direction of occurrence of the detection target event of the calculated acoustic event, the generation direction of the detection target event of the image event is determined.
  • the monitoring method acquires an acoustic signal, calculates an acoustic event generation direction from the acquired acoustic signal, acquires an image signal, calculates an image event generation direction from the acquired image signal, A mapping relationship is calculated based on the direction of occurrence of the calibration target event in the calculated acoustic event and the direction of occurrence of the calibration target event in the calculated image event, and the calculated mapping relationship and the calculated acoustic event are calculated.
  • the generation direction of the detection target event of the image events is estimated using the generation direction of the detection target event.
  • a recording medium includes a process for acquiring an acoustic signal, a process for calculating a generation direction of an acoustic event from the acquired acoustic signal, a process for acquiring an image signal, and a process for acquiring an image event from the acquired image signal.
  • a process for calculating a generation direction a process for calculating a mapping relationship based on a generation direction of a calibration target event among the calculated acoustic events, and a generation direction of the calibration target event among the calculated image events; Recording a monitoring program that causes the computer to execute a process of estimating the occurrence direction of the detection target event among the image events using the calculated mapping relationship and the generation direction of the detection target event among the calculated acoustic events.
  • the P m -P c space is a conceptual image view when divided into partial regions by the value of P m. It is a conceptual image figure showing the coordinate of the direction detected by the acoustic event detection part which concerns on embodiment of this invention, and the coordinate of the direction detected by the image event detection part. It is a block diagram which shows the outline
  • FIG. 1 is a block diagram showing the configuration of the monitoring apparatus according to the first embodiment of the present invention.
  • the monitoring apparatus according to the first embodiment of the present invention includes an acoustic signal acquisition unit 1, an image signal acquisition unit 2, an acoustic event detection unit 3, an image event detection unit 4, a mapping relationship calculation unit 5, and coordinate conversion.
  • a unit 6 and a display unit 7 are provided.
  • the acoustic signal acquisition unit 1 acquires an acoustic signal from the outside using a microphone array including a plurality of microphones (microphones), and outputs the acoustic signal to the acoustic event detection unit 3.
  • the acoustic signal acquisition unit 1 acquires an acoustic signal using a plurality of directional microphones directed in a plurality of directions, and outputs the acquired acoustic signal to the acoustic event detection unit 3.
  • the acoustic signal is a time-series signal representing sound, and has a plurality of time frames and sound pressure information corresponding to each time frame.
  • the acoustic signal will be described as an audible range acoustic signal.
  • the acoustic signal acquisition unit 1 can handle time-series signals such as ultrasonic waves, ultra-low frequencies, or vibration information as acoustic signals.
  • the acoustic event detection unit 3 calculates (estimates) the direction of the sound source (sound source direction) from the acoustic signal acquired by the acoustic signal acquisition unit 1.
  • the acoustic signal acquisition unit 1 uses a microphone array including a plurality of microphones
  • the arrival time difference between the acoustic signals measured by the plurality of microphones can be used for calculation of the sound source direction.
  • the acoustic event detection unit 3 calculates (estimates) the sound source direction using, for example, a cross correlation method or a beam forming method.
  • the acoustic event detection unit 3 detects the occurrence time of the acoustic event in each directional microphone, whereby the acoustic event is detected.
  • the detected directional microphone can be identified. For this reason, the acoustic event detection unit 3 sets the direction in which the specified directional microphone is facing as the sound source direction.
  • the acoustic event detection unit 3 can specify the middle of the direction in which the plurality of directional microphones is facing as the sound source direction. In this case, the acoustic event detection unit 3 interpolates the intensity in the intermediate direction using the intensity of the acoustic signal acquired by each directional microphone.
  • the acoustic event detection unit 3 detects an acoustic event from the acoustic signal received from the acoustic signal acquisition unit 1, and classifies the detected acoustic event into a calibration target event and a detection target event.
  • Acoustic event is a predefined acoustic feature. For example, when a sound event is compared with the sound pressure of a certain time frame (current time frame) of a received sound signal and the sound pressure of a previous time frame before that, a difference between sound pressures is set to a preset threshold. It is a state of exceeding.
  • the occurrence time of the acoustic event is a time corresponding to the current time frame.
  • an acoustic event is a state in which when a received acoustic signal is converted into a frequency spectrum, the frequency distribution (spectrum pattern) continues for a certain period of time with a preset shape.
  • the calibration target event is an event that can be detected from both the acoustic signal and the image signal, which is defined in advance by the user.
  • Examples of events to be calibrated include walking, speaking, escaping, rampaging, clapping, or sound and light patterns based on external devices.
  • the detection target event is an event that can be detected from either an acoustic signal or an image signal defined in advance by the user.
  • the detection target event for example, there is a violent operation or an escape operation at the time of occurrence of a crime or an accident.
  • detection-target events that can be detected by an acoustic signal include the hoarseness or screams of people who are rampant at a place where many people gather.
  • examples that can be detected by an image signal include an operation in which a crowd escapes in a single direction, or an operation in which a person lies on the road.
  • One acoustic event may be classified as both a calibration target event and a detection target event, or both.
  • the image signal acquisition unit 2 acquires an image signal using a camera, and outputs the image signal to the image event detection unit 4 and the display unit 7.
  • the image signal is an electrical time-series signal representing an image, and has a plurality of time frames and luminance information corresponding to each time frame.
  • the image signal is a visible light image signal.
  • the number of cameras may be plural. When the number of cameras is plural, the image signal acquisition unit 2 combines the images acquired by the plurality of cameras into one image.
  • the image signal acquisition unit 2 can handle a time series signal such as an infrared image, a thermal image (thermography), or a radar image as an image signal.
  • the image signal may be a two-dimensional image or a stereoscopic image (depth image).
  • the image event detection unit 4 calculates (estimates) the direction (image event generation direction) in which the image event has occurred from the image signal acquired by the image signal acquisition unit 2.
  • the image event detection unit 4 detects an image event from the image signal acquired by the image signal acquisition unit 2, and classifies the detected image event into a calibration target event and a detection target event.
  • an image event compares the brightness of a certain time frame (current time frame) of the acquired image signal with the brightness of a previous time frame, the brightness difference exceeds a preset threshold value. That is.
  • the occurrence time of the image event is the time corresponding to the current time frame.
  • One image event is not only classified as either a calibration target event or a detection target event, but may be classified as both.
  • the calibration target event and the detection target event for example, an acoustic signal or an image signal of an event desired to be detected by a dedicated device is acquired in advance, and machine learning is used to model the dictionary.
  • the acoustic event detection unit 3 or the image event detection unit 4 determines that a calibration target event or a detection target event corresponding to the model has occurred when the likelihood of the model exceeds a threshold value. More specifically, for example, the acoustic event detection unit 3 or the image event detection unit 4 causes a dedicated device to extract a feature amount from an acoustic signal or an image signal of an event to be detected.
  • the feature amount is a mel frequency cepstrum coefficient (MFCC, Mel-Frequency Cepstrum Coefficients) or the like.
  • MFCC Mel-Frequency Cepstrum Coefficients
  • the acoustic event detection unit 3 or the image event detection unit 4 models the extracted feature amount in a dedicated device using a modeling method.
  • the modeling method is a Gaussian mixture model (GMM, Gaussian Mixture Model), a hidden Markov model (HMM, Hidden Markov Model), or the like.
  • the mapping relationship calculation unit 5 calculates the calibration target events detected simultaneously by the acoustic event detection unit 3 and the image event detection unit 4 from the generation directions calculated by the acoustic event detection unit 3 and the image event detection unit 4, respectively. Calculate the mapping relationship.
  • the generation direction is a sound source direction and an image event generation direction.
  • the mapping relationship calculation unit 5 compares the calculated mapping relationship at the current time with the mapping relationship at the past time calculated immediately before, and if the difference is equal to or greater than the threshold value, the direction relationship of the camera or microphone changes. Judge that Simultaneous detection does not necessarily mean that detection was made at the same time. Differences within a fixed time set for each type of calibration target event are considered simultaneous.
  • the mapping relation calculation unit 5 uses a technique called polynomial regression that assumes a polynomial as the mapping relation and estimates the parameters of the polynomial using the least square method or the like as a mapping relation calculation method.
  • the mapping relationship calculation unit 5 may use a technique called support vector regression or a technique called RANSAC (random sample consensus) as a noise countermeasure.
  • mapping relationship calculation unit 5 calculates a mapping transformation matrix H from the first generation direction Pm to the second generation direction Pc .
  • the mapping relationship calculation unit 5 calculates the conversion error E shown in Equation 1 so as to be equal to or less than a preset threshold (condition 1).
  • the mapping relationship calculation unit 5 calculates a mapping transformation matrix H that maximizes the number of pairs that satisfy condition 1 (hereinafter referred to as Inliers).
  • FIG. 2 is a conceptual image diagram for explaining the relationship between P m and P c .
  • the horizontal axis is P m and the vertical axis is P c .
  • a black dot indicates the direction of occurrence of a calibration target event (a pair of P m and P c ) simultaneously detected by the acoustic event detection unit 3 and the image event detection unit 4.
  • a range within a threshold set in advance in the vertical axis direction from the dotted line is a region satisfying (Condition 1).
  • the mapping relationship calculation unit 5 calculates the mapping transformation matrix H so that the number of black spots (that is, Inliers) included in this region is maximized. Further, the mapping relationship calculation unit 5 expects conversion errors for each partial region a i m (i is a natural number of 1 to N) when the P m -P c space is divided into partial regions by the value of P m. The value ⁇ i is calculated. N is the total number of partial areas. Also, the mapping relationship calculating section 5 calculates the reliability R i m for each subregion a i m.
  • FIG. 3 is a conceptual image diagram when the P m -P c space is divided into partial areas by the value of P m . Areas surrounded by dotted lines indicate i-th partial areas a i m of P m , respectively.
  • FIG. 4 is a conceptual image diagram showing the coordinates of the direction detected by the acoustic event detection unit 3 and the coordinates of the direction detected by the image event detection unit 4.
  • a black dot is a generation direction (a pair of P m and P c ) of calibration target events detected simultaneously by the acoustic event detection unit 3 and the image event detection unit 4 in the partial area a i m .
  • Gray areas in FIG. 4 left shows a partial area a i m which is detected by the acoustic event detecting unit 3.
  • the gray region on the right side of FIG. 4 indicates a partial region (corresponding partial region) a i when the partial region a i m detected by the acoustic event detection unit 3 is replaced with the direction detected by the image event detection unit 4. m is shown.
  • hat symbol “ ⁇ ” is a symbol described above each variable, but is described on the right side of the variable (for example, “a ⁇ ”) in this specification.
  • the expected value ⁇ i of the conversion error in the corresponding partial area a ⁇ i m is, for example, a constant of the standard deviation of the conversion error E of the Inlier existing in the corresponding partial area a ⁇ i m as shown in Equation 2. Double.
  • n i in is the number of inliers existing in the partial region a i m
  • E e is the conversion error of the e-th inlier
  • c is a constant.
  • the reliability R i m in the partial region a ⁇ i m for example, to the number of calibration target event existing in the partial region a ⁇ i m, present in corresponding partial area a ⁇ i m of Inlier A percentage of numbers.
  • the reliability R i m in the partial region a ⁇ i m may be the reciprocal of the sum of the conversion error E of a corresponding partial area a ⁇ i m Inlier.
  • the mapping relationship calculation unit 5 It is determined that the directional relationship is not appropriate.
  • the coordinate conversion unit 6 generates the detection target event that will be detected by the image event detection unit 4 from the generation direction P m A (third generation direction) of the detection target event detected by the acoustic event detection unit 3. to estimate the P ⁇ m a.
  • the coordinate conversion unit 6 calculates the generation direction P ⁇ m A of the detection target event detected by the image event detection unit 4 corresponding to P m A.
  • the third generation direction P ⁇ m A is calculated from Equation 3 using the mapping transformation matrix H calculated by the mapping relationship calculation unit 5.
  • the coordinate conversion unit 6 identifies a partial region a j m including P m A. Further, the coordinate conversion unit 6 calculates an expected value ⁇ j of the conversion error in the specified partial region a j m .
  • the display unit 7 displays the image signal output from the image signal acquisition unit 2 on the display as an image. At the same time, the display unit 7 reproduces the acoustic signal output from the acoustic signal acquisition unit 1 as sound. Further, the display unit 7, the occurrence of the detection subject event calculated by the image event detecting unit 4 direction P m A or the detection target event generating direction calculated by the coordinate transformation unit 6 (P ⁇ m A), respectively, successively on the display Display. When displaying the generation direction P ⁇ m A of the detection target event calculated by the coordinate conversion unit 6, the display unit 7 may simultaneously display the expected value ⁇ j of the conversion error calculated by the coordinate conversion unit 6.
  • the conversion error expected value ⁇ j As a method of displaying the conversion error expected value ⁇ j , for example, it is displayed in a circle centered on P m A and the conversion error expected value ⁇ j as a radius. Further, the display unit 7 may enlarge and display the circle and its periphery.
  • the display unit 7 When the mapping relationship calculation unit 5 determines that the direction relationship between the camera and the microphone has changed, or when the mapping relationship calculation unit 5 determines that the direction relationship between the camera and the microphone is not appropriate, the display unit 7 The following contents are displayed on a display or the like. In other words, the display unit 7 displays a warning indicating that the directional relationship between the camera and the microphone is not appropriate, or a message for prompting confirmation or attention on a display or the like. Further, the display unit 7 displays the reliability R i m calculated by the mapping relationship calculation unit 5 on the display in a color map or the like for each partial area a i m .
  • the monitoring apparatus calculates the generation direction of the calibration target event from both the acoustic signal acquired by the microphone from the outside and the image signal acquired by the camera from the outside. Furthermore, the monitoring apparatus according to the embodiment of the present invention calculates the mapping relationship based on the calculated occurrence direction of the calibration target event, and calculates based on the calculated mapping relationship and the acoustic signal acquired from the outside by the microphone. Performs coordinate conversion in the direction of occurrence of the detection target event.
  • the monitoring apparatus according to the embodiment of the present invention does not require high accuracy with respect to the position and direction when the camera and the microphone are installed. For this reason, in the monitoring apparatus according to the embodiment of the present invention, the calibration of the direction performed when the camera and the microphone are installed is low cost.
  • the monitoring device sequentially calculates the mapping relationship every time the calibration target event is detected, and calculates the calculated mapping relationship at the current time and the mapping relationship at the past time calculated immediately before. Compare.
  • the monitoring apparatus displays a warning, confirmation, or a message for calling attention on a display or the like. For this reason, the user can notice that the directional relationship of the camera or the microphone has changed.
  • the monitoring apparatus uses the acoustic signal actually acquired by the acoustic signal acquisition unit 1 from the outside.
  • the monitoring apparatus according to the embodiment of the present invention reduces errors in the calculation of the sound source direction that occurs when the acoustic signal acquired from the outside by the acoustic signal acquisition unit 1 includes different reflected sounds for each microphone installation location. can do.
  • the monitoring apparatus according to the embodiment of the present invention can reduce an error in calculation of the sound source direction due to a change in sound speed due to factors such as temperature and atmospheric pressure.
  • the present embodiment can also cope with a case where the calibration target event continues for a certain period of time while changing the position. Furthermore, this embodiment can deal with not only the calibration target event but also the detection target event in the same manner. Examples of such cases include a state where the vehicle and the flying sound of a vehicle, a ship, or a ship move, a state where the vehicle moves with a brake sound of a bicycle, a state where the vehicle moves with vibrations of the carriage, and the like.
  • Sound event detecting unit 3 or the image-event detecting unit 4 determines the start time t s and the end time t e of the calibration target event.
  • Start time t s is the same as the occurrence time of the calibration target event that the acoustic event detecting unit 3 or the image-event detecting unit 4 detects (acoustic event or image event).
  • the start time t s is the time corresponding to the current time frame of the following cases.
  • the acoustic event detector 3 compares the sound pressure of a certain time frame (current time frame) of the received acoustic signal with the sound pressure of the previous time frame, the difference in sound pressure is This is a case where the threshold value exceeds a preset threshold value.
  • the start time t s is the time corresponding to the current time frame of the following cases.
  • the image event detection unit 4 compares the luminance of a certain time frame (current time frame) of the received image signal with the luminance of a past time frame before that, a difference in luminance is set in advance. This is a case where it is larger than the threshold value.
  • End time t e is the time corresponding to the current time frame of the following cases.
  • the acoustic event detector 3 compares the sound pressure of a certain time frame (current time frame) of the received acoustic signal with the sound pressure of the previous time frame, the difference in sound pressure is This is a case where the threshold value is smaller than a preset threshold value.
  • the termination time t e is the time corresponding to the current time frame of the following cases:.
  • the image event detection unit 4 compares the luminance of a certain time frame (current time frame) of the received image signal with the luminance of a past time frame before that, a difference in luminance is set in advance. This is a case where it is smaller than the threshold value.
  • Sound event detecting unit 3 or the image-event detecting unit 4 divides the time between start time obtained t s and the end time t e to any number. In this division, the acoustic event detection unit 3 or the image event detection unit 4 may divide every equal time, for example, every second, or may divide even if it is not equal time.
  • the acoustic event detection unit 3 or the image event detection unit 4 obtains the occurrence direction of the calibration target event for each start time of the divided time.
  • mapping relationship calculation unit 5 obtains a value of ⁇ that maximizes the correlation of ⁇ P m (t), P c (t + ⁇ ) ⁇ , where ⁇ is the time shift, and instead of P c (t)
  • the mapping relation may be calculated using P c (t + ⁇ ).
  • the monitoring device has an effect that extremely high accuracy can be realized with respect to the position and direction when the sensor is installed.
  • the acoustic signal acquisition unit 1 acquires an acoustic signal.
  • the acoustic event detection unit 3 calculates the generation direction of the acoustic event from the acquired acoustic signal.
  • the image signal acquisition unit 2 acquires an image signal.
  • the image event detection unit 4 calculates the generation direction of the image event from the acquired image signal.
  • the mapping relationship calculation unit 5 calculates a mapping relationship based on the occurrence direction of the calibration target event in the calculated acoustic event and the generation direction of the calibration target event in the calculated image event.
  • the coordinate conversion unit 6 estimates the generation direction of the detection target event among the image events using the calculated mapping relationship and the generation direction of the detection target event among the calculated acoustic events.
  • the monitoring apparatus calculates the mapping relationship using the generation direction of the calibration target event among the acoustic event and the image event. Then, the monitoring apparatus estimates a detection target event among the image events based on the calculated mapping relation and the generation direction of the detection target event of the acoustic event, as well as the generation direction of the acoustic event and the image event. Therefore, the monitoring apparatus can realize extremely high accuracy with respect to the position and direction when the sensor is installed.
  • FIG. 5 is a block diagram showing a schematic configuration of the monitoring device including a configuration related to the explanation of the above effect. That is, the monitoring apparatus shown in FIG. 5 includes an acoustic signal acquisition unit 1, an image signal acquisition unit 2, an acoustic event detection unit 3, an image event detection unit 4, a mapping relationship calculation unit 5, and coordinate conversion. Part 6. And the monitoring apparatus shown by FIG. 5 can implement
  • each component of the monitoring device may be configured with a hardware circuit.
  • each component may be configured using a plurality of devices connected via a network.
  • the plurality of constituent units may be configured by a single piece of hardware.
  • the monitoring device may be realized as a computer device including a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory).
  • the monitoring device may be realized as a computer device that further includes an input / output connection circuit (IOC: Input / Output Circuit) and a network interface circuit (NIC: Network Interface Circuit).
  • IOC Input / Output Circuit
  • NIC Network Interface Circuit
  • FIG. 6 is a block diagram illustrating an example of a hardware configuration of the monitoring device.
  • the monitoring device 600 includes a CPU 610, a ROM 620, a RAM 630, an internal storage device 640, an IOC 650, and a NIC 680, and constitutes a computer device.
  • the CPU 610 reads a program from ROM 620.
  • the CPU 610 controls the RAM 630, the internal storage device 640, the IOC 650, and the NIC 680 based on the read program.
  • the computer including the CPU 610 controls these configurations, and the acoustic signal acquisition unit 1, the image signal acquisition unit 2, the acoustic event detection unit 3, the image event detection unit 4, and the mapping relationship illustrated in FIG.
  • Each function as the calculation unit 5 and the coordinate conversion unit 6 is realized.
  • the CPU 610 may use the RAM 630 or the internal storage device 640 as a temporary storage medium for the program.
  • the CPU 610 may read a program included in the recording medium 700 that stores the program so as to be readable by a computer by using a recording medium reading device (not shown).
  • the CPU 610 may receive a program from an external device (not shown) via the NIC 680, store the program in the RAM 630, and operate based on the stored program.
  • ROM 620 stores programs executed by CPU 610 and fixed data.
  • the ROM 620 is, for example, a P-ROM (Programmable-ROM) or a flash ROM.
  • the RAM 630 temporarily stores programs executed by the CPU 610 and data.
  • the RAM 630 is, for example, a D-RAM (Dynamic-RAM).
  • the internal storage device 640 stores data and programs that the monitoring device 600 stores for a long period of time. Further, the internal storage device 640 may operate as a temporary storage device for the CPU 610.
  • the internal storage device 640 is, for example, a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), or a disk array device.
  • the ROM 620 and the internal storage device 640 are non-transitory recording media.
  • the RAM 630 is a volatile recording medium.
  • the CPU 610 can operate based on a program stored in the ROM 620, the internal storage device 640, or the RAM 630. That is, the CPU 610 can operate using a nonvolatile recording medium or a volatile recording medium.
  • the IOC 650 mediates data between the CPU 610, the input device 660, and the display device 670.
  • the IOC 650 is, for example, an IO interface card or a USB (Universal Serial Bus) card. Further, the IOC 650 is not limited to a wired connection such as a USB, but may be wireless.
  • the input device 660 is a device that receives an input instruction from the operator of the monitoring device 600.
  • the input device 660 may operate as the acoustic signal acquisition unit 1 and / or the image signal acquisition unit 2.
  • the input device 660 is, for example, a keyboard, a mouse, or a touch panel.
  • the display device 670 is a device that displays information to the operator of the monitoring device 600.
  • the display device 670 may operate as the display unit 7.
  • the display device 670 is a liquid crystal display, for example.
  • the NIC 680 relays data exchange with an external device (not shown) via the network.
  • the NIC 680 may operate as the acoustic signal acquisition unit 1 and / or the image signal acquisition unit 2.
  • the NIC 680 is, for example, a LAN (Local Area Network) card.
  • the NIC 680 is not limited to a wired line, and may use wireless.
  • the monitoring device 600 configured in this way can obtain the same effects as the monitoring device shown in FIG. This is because the CPU 610 of the monitoring device 600 can realize the same function as the monitoring device shown in FIG. 1 based on the program.
  • a mapping relationship calculation unit is provided that calculates mapping relationships between the generation positions based on the generation positions of events simultaneously detected by both the image signal acquired by the camera and the acoustic signal acquired by the microphone.
  • a monitoring device characterized by.
  • An image event detection unit that detects an occurrence time and position of an event from the image signal acquired by the camera, an acoustic event detection unit that detects an occurrence time and position of the event from the acoustic signal acquired by the microphone,
  • a threshold value When the difference between the event occurrence time due to the image signal and the event occurrence time due to the acoustic signal is equal to or less than a threshold value, it is regarded as simultaneous, and the mapping relationship between the event occurrence position due to the image signal and the event occurrence position due to the acoustic signal is calculated.
  • the monitoring apparatus according to attachment 1, further comprising a mapping relation calculation unit.
  • the said image event detection part classify
  • the said acoustic event detection part defined the event by the said acoustic signal beforehand
  • the calibration target event is classified into the calibration target event and the detection target event, and from the occurrence position of the calibration target event where the event occurrence time by the image signal and the event occurrence time by the acoustic signal are considered to be the same,
  • the monitoring apparatus further comprising: a mapping relationship calculation unit that calculates a mapping relationship between the generation positions; and a coordinate conversion unit that performs coordinate conversion of the position of the detection target event calculated by the acoustic event detection unit based on the mapping relationship.
  • mapping relation calculation unit determines that the directional relation between the camera and the microphone has changed when the change in the mapping relation is equal to or greater than a threshold value.
  • the said mapping relationship calculation part uses the mapping conversion matrix between the generation
  • mapping relation calculation unit calculates, as the mapping relation, a mapping transformation matrix between occurrence positions of the calibration target events, an expected value of mapping transformation error, and reliability.
  • mapping relation calculation unit as an expected value of the mapping conversion error, out of events in which the position of the calibration target event calculated by the acoustic event detection unit is included in a partial region, the mapping conversion of Inlier
  • mapping relation calculation unit is the reciprocal of the sum of the conversion errors of the Inlier among the events in which the position of the calibration target event calculated by the acoustic event detection unit is included in the partial region.
  • the monitoring apparatus according to appendix 6, wherein the monitoring device calculates the ratio of the Inlier to the calibration target event included in the partial area.
  • the said coordinate conversion part is the said mapping conversion error in the partial area

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Alarm Systems (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

監視装置においては、正確な制御を行うために、カメラ及びマイクの設置時の位置及び方向について、極めて高い正確度が要求されるため、本発明の監視装置は、音響信号を取得する音響信号取得手段と、取得した音響信号から音響イベントの発生方向を算出する音響イベント検知手段と、画像信号を取得する画像信号取得手段と、取得した画像信号から画像イベントの発生方向を算出する画像イベント検知手段と、算出した音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する写像関係算出手段と、算出した写像関係と算出した音響イベントのうちの検知対象イベントの発生方向とを用いて画像イベントのうちの検知対象イベントの発生方向を推定する座標変換手段とを備える。

Description

監視装置、監視方法、及び記録媒体
 本発明は、複数種類のセンサを用いてイベントを検知する技術に関し、特に、複数種類センサ間の方向関係のキャリブレーションを行う監視装置、監視方法、及び記録媒体に関する。
 複数種類のセンサを用いてイベントを検知する監視技術が広く知られており、実用化されている。このような監視技術の一例が、特許文献1に記載されている。特許文献1に記載された監視装置は、カメラ又はマイクのいずれか一方で不審な変化(異常イベント)を検知し、異常イベントの発生方向を推定する。さらに、特許文献1に記載された監視装置は、推定した発生方向とカメラとマイクの配置位置の差とに基づいて、もう一方から見たときの異常イベントの発生方向を推定する。そして、特許文献1に記載された監視装置は、推定したもう一方から見たときの異常イベントの発生方向へ、もう一方のカメラ又はマイクを向ける。
特開2006-339741号公報
 特許文献1に記載された監視装置は、カメラとマイクとの配置位置の差に基づいて、制御を行う。このため、特許文献1に記載された監視装置においては、カメラ及びマイクの設置時の位置及び方向について、極めて高い正確度が要求されていた。このため、特許文献1に記載された監視装置においては、カメラとマイクの設置時に行う方向の較正(キャリブレーション)が高コストとなっていた。
 つまり、上述した監視装置においては、センサの設置時の位置及び方向について、極めて高い正確度が要求されるという問題があった。
 本発明の目的は、上述した課題である、センサの設置時の位置及び方向について、極めて高い正確度が要求されることを解決する監視装置、監視方法及び記録媒体を提供することにある。
 本発明の一形態における監視装置は、音響信号を取得する音響信号取得手段と、取得した音響信号から音響イベントの発生方向を算出する音響イベント検知手段と、画像信号を取得する画像信号取得手段と、取得した画像信号から画像イベントの発生方向を算出する画像イベント検知手段と、算出した音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する写像関係算出手段と、算出した写像関係と算出した音響イベントのうちの検知対象イベントの発生方向とを用いて画像イベントのうちの検知対象イベントの発生方向を推定する座標変換手段とを備える。
 本発明の一形態における監視方法は、音響信号を取得し、取得した音響信号から音響イベントの発生方向を算出し、画像信号を取得し、取得した画像信号から画像イベントの発生方向を算出し、算出した音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出し、算出した写像関係と算出した音響イベントのうちの検知対象イベントの発生方向とを用いて画像イベントのうちの検知対象イベントの発生方向を推定する。
 本発明の一形態における記録媒体は、音響信号を取得する処理と、取得した音響信号から音響イベントの発生方向を算出する処理と、画像信号を取得する処理と、取得した画像信号から画像イベントの発生方向を算出する処理と、算出した音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する処理と、算出した写像関係と算出した音響イベントのうちの検知対象イベントの発生方向とを用いて前記画像イベントのうちの検知対象イベントの発生方向を推定する処理とをコンピュータの実行させる監視プログラムを記録する。
 本発明によれば、センサの設置時の位置及び方向について、極めて高い正確度が要求されることを解決することができる。
本発明の実施形態に係る監視装置の構成を表すブロック図である。 本発明の実施形態に係るPとPの関係を説明するための概念的なイメージ図である。 本発明の実施形態に係るP―P空間をPの値で部分領域に分けたときの概念的なイメージ図である。 本発明の実施形態に係る音響イベント検知部で検知される方向の座標と、画像イベント検知部で検知される方向の座標とを表す概念的なイメージ図である。 実施形態の概要を示すブロック図である。 ハードウェア構成の一例を示すブロック図である。
 以下に、図面を参照しながら、本発明の実施形態について詳細に説明する。なお、以下の説明では、同じ機能を有するものには同じ符号をつけ、その説明を省略する場合がある。また、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
 (構成)
 図1は、本発明の第一の実施形態に係る監視装置の構成を表すブロック図である。本発明の第一の実施形態における監視装置は、音響信号取得部1と、画像信号取得部2と、音響イベント検知部3と、画像イベント検知部4と、写像関係算出部5と、座標変換部6と、表示部7とを備える。
 音響信号取得部1は、複数のマイクロフォン(マイク)を備えるマイクロフォンアレイを用いて音響信号を外部から取得し、音響イベント検知部3に出力する。あるいは、音響信号取得部1は、複数の方向に向けた複数の指向性マイクロフォンを用いて音響信号を取得し、取得した音響信号を音響イベント検知部3に出力する。音響信号は、音を表す時系列信号であり、複数の時間フレームと各時間フレームに対応する音圧の情報とを持つ。以降、音響信号を可聴域音響信号であるものとして説明する。音響信号取得部1は、他にも、超音波、超低周波、又は振動情報などの時系列信号を音響信号として扱うことができる。
 音響イベント検知部3は、音響信号取得部1で取得された音響信号から音源の方向(音源方向)を算出(推定)する。音響信号取得部1が複数のマイクロフォンを備えるマイクロフォンアレイを用いる場合は、複数のマイクロフォンが測定した音響信号間の到達時間差が、音源方向の算出に利用できる。この場合、音響イベント検知部3は、例えば、相互相関法又はビームフォーミング法を用いて音源方向を算出(推定)する。あるいは、音響信号取得部1が複数の方向に向けた複数の指向性マイクロフォンを用いる場合は、音響イベント検知部3は、各指向性マイクロフォンに音響イベントの発生時刻を検知することで、音響イベントが検知された指向性マイクロフォンを特定できる。このため、音響イベント検知部3は、その特定した指向性マイクロフォンが向いている方向を、音源方向とする。若しくは、複数の指向性マイクロフォンで音響イベントが検知された場合には、音響イベント検知部3は、それら複数の指向性マイクロフォンが向いている方向の中間を音源方向と特定できる。この場合、音響イベント検知部3は、各指向性マイクロフォンが取得した音響信号の強度を用いて中間方向の強度を内挿する。
 また、音響イベント検知部3は、音響信号取得部1から受信した音響信号から音響イベントを検知するとともに、検知した音響イベントをキャリブレーション対象イベントと検知対象イベントとに分類する。
 音響イベントは、予め定義された音響上の特徴である。例えば、音響イベントは、受信した音響信号のある時間フレーム(現時間フレーム)の音圧とそれ以前の過去の時間フレームの音圧とを比較した時に、音圧の差が事前に設定した閾値を超えている状態のことである。音響イベントの発生時刻は、現時間フレームに対応する時刻である。あるいは、音響イベントは、受信した音響信号を周波数スペクトルに変換した時に、周波数の分布(スペクトルパタン)が事前に設定した形状のまま一定時間継続している状態のことである。
 キャリブレーション対象イベントは、ユーザが予め定義する、音響信号と画像信号との両方から検出できる事象である。キャリブレーション対象イベントの例としては、歩く動作、話す動作、逃げる動作、暴れる動作、手をたたく動作、又は、外部の装置等に基づく音と光のパターン等がある。
 検知対象イベントは、ユーザが予め定義する音響信号と画像信号とのどちらかから検出できる事象である。検知対象イベントの例としては、例えば、犯罪又は事故の発生時刻における暴れる動作又は逃げる動作がある。検知対象イベントのうち、音響信号で検知可能な例としては、多人数が集まった場所で暴れる人の罵声又は悲鳴がある。また、同様に、画像信号で検知可能な例としては、群衆が単一方向に逃げる動作、又は、人が道路中に寝そべる動作がある。
 一つの音響イベントは、キャリブレーション対象イベントと検知対象イベントとのどちらか一方に分類される場合だけでなく、両方に分類される場合もある。
 画像信号取得部2は、カメラを用いて画像信号を取得し、画像信号を画像イベント検知部4及び表示部7に出力する。ここで、画像信号は、画像を表す電気的な時系列信号であり、複数の時間フレームと各時間フレームに対応する輝度の情報とを持つ。以降、画像信号を可視光画像信号であるものとして説明する。カメラの数は、複数としてもよい。カメラの数を複数とした場合は、画像信号取得部2は、複数のカメラが取得した画像を1つの画像に合成する。画像信号取得部2は、他にも、赤外線画像、熱画像(サーモグラフィー)、又はレーダー画像などの時系列信号を画像信号として扱うことができる。また、画像信号は、2次元画像としてもよいし、立体画像(深度画像)としてもよい。
 画像イベント検知部4は、画像信号取得部2で取得された画像信号から画像イベントが発生した方向(画像イベント発生方向)を算出(推定)する。
 また画像イベント検知部4は、画像信号取得部2で取得された画像信号から画像イベントを検知するとともに、検知した画像イベントをキャリブレーション対象イベントと検知対象イベントとに分類する。画像イベントは、取得された画像信号のある時間フレーム(現時間フレーム)の輝度とそれ以前の過去の時間フレームの輝度とを比較した時に、輝度の差が事前に設定した閾値を超えている状態のことである。画像イベントの発生時刻は、現時間フレームに対応する時刻である。一つの画像イベントは、キャリブレーション対象イベントと検知対象イベントとのどちらか一方に分類される場合だけでなく、両方に分類される場合もある。
 キャリブレーション対象イベントと検知対象イベントとの定義は、例えば、予め専用の装置に検知したい事象の音響信号又は画像信号を取得し、機械学習させてモデル化させたものを辞書的に用いる。この場合、音響イベント検知部3又は画像イベント検知部4は、モデルの尤度が閾値を超えた場合にそのモデルに対応するキャリブレーション対象イベント又は検知対象イベントが発生したと判断する。より具体的には、例えば、音響イベント検知部3又は画像イベント検知部4は、専用の装置に、検知したい事象の音響信号又は画像信号から特徴量を抽出させる。特徴量は、メル周波数ケプストラム係数(MFCC、Mel-Frequency Cepstrum Coefficients)等である。さらに、音響イベント検知部3又は画像イベント検知部4は、抽出させた特徴量を、モデル化手法を用いて専用の装置にモデル化させる。モデル化手法は、ガウス混合モデル(GMM、Gaussian Mixture Model)や隠れマルコフモデル(HMM、Hidden Markov Model)等である。
 写像関係算出部5は、音響イベント検知部3と画像イベント検知部4とで同時に検知されたキャリブレーション対象イベントについて、音響イベント検知部3と画像イベント検知部4とのそれぞれが算出した発生方向から、写像関係を算出する。この発生方向とは、音源方向及び画像イベント発生方向のことである。さらに、写像関係算出部5は、算出した現時刻の写像関係と直前に算出した過去の時刻の写像関係とを比較し、その差が閾値以上である場合に、カメラ又はマイクの方向関係が変わったと判断する。同時に検知とは、必ずしも同時刻に検知されたことを意味するのではない。キャリブレーション対象イベントの種別ごとに設定した一定時間内の違いは、同時とみなす。
 写像関係算出部5は、写像関係の算出方法として、例えば、写像関係として多項式を仮定し、最小二乗法等を用いて多項式のパラメータを推定する、多項式回帰と呼ばれる手法を利用する。あるいは、写像関係算出部5は、ノイズ対策として、サポートベクトル回帰と呼ばれる手法、又は、RANSAC(random sample consensus)と呼ばれる手法を利用してもよい。
 ここでは、RANSACを利用する写像関係の算出方法を説明する。音響イベント検知部3で検知されたキャリブレーション対象イベントの発生方向(第1の発生方向)をPとする。音響イベント検知部3で検知されたのと同時に画像イベント検知部4で検知されたキャリブレーション対象イベントの発生方向(第2の発生方向)をPとする。写像関係算出部5は、第1の発生方向Pから第2の発生方向Pへの写像変換行列Hを算出する。この写像変換行列Hの算出にあたって、写像関係算出部5は、数式1に示す変換誤差Eが予め設定した閾値以下(条件1)となるように算出する。PとPの組が複数組存在する場合、写像関係算出部5は、条件1を満たす組(以降、Inlierと呼ぶ)の数が最大となるような写像変換行列Hを算出する。
Figure JPOXMLDOC01-appb-M000001
 図2は、PとPとの関係を説明するための概念的なイメージ図である。横軸がP、縦軸がPである。黒点は、音響イベント検知部3と画像イベント検知部4とで同時に検知されたキャリブレーション対象イベントの発生方向(PとPの組)を示す。写像変換行列Hに基づく写像が点線(P=HP)のように表されるとき、点線から縦軸方向に予め設定した閾値以内の範囲が(条件1)を満たす領域である。つまり、写像関係算出部5は、この領域に含まれる黒点(すなわちInlier)の数が最大となるように写像変換行列Hを算出する。さらに、写像関係算出部5は、P―P空間をPの値で部分領域に分けたときの各部分領域a (iは1以上N以下の自然数)について、変換誤差の期待値σを算出する。Nは部分領域の総数である。また、写像関係算出部5は、各部分領域a について信頼度R を算出する。
 図3は、P―P空間をPの値で部分領域に分けたときの概念的なイメージ図である。点線で囲った領域が、それぞれPのi番目の部分領域a を示す。
 図4は、音響イベント検知部3で検知される方向の座標と、画像イベント検知部4で検知される方向の座標を表す概念的なイメージ図である。黒点は、部分領域a 内の音響イベント検知部3と画像イベント検知部4で同時に検知されたキャリブレーション対象イベントの発生方向(PとPの組)である。図4左におけるグレーの領域は、音響イベント検知部3で検知される部分領域a を示している。図4右におけるグレーの領域は、音響イベント検知部3で検知される部分領域a を画像イベント検知部4で検知される方向に置き換えた場合の部分領域(対応する部分領域)a^ を示している。
 なお、ハット記号「^」は、各変数の上に記載される記号であるが、本明細書では変数の右側(例えば、「a^」)に記載する。
 対応する部分領域a^ における変換誤差の期待値σは、例えば、数式2に示すように、対応する部分領域a^ 内に存在するInlierの、変換誤差Eの標準偏差の定数倍とする。
Figure JPOXMLDOC01-appb-M000002
 n inは部分領域a^ 内に存在するInlierの数、Eはe番目のInlierの変換誤差、cは定数である。また、部分領域a^ における信頼度R は、例えば、部分領域a^ 内に存在するキャリブレーション対象イベントの数に対する、対応する部分領域a^ 内に存在するInlierの数の割合とする。あるいは、部分領域a^ における信頼度R は、対応する部分領域a^ 内に存在するInlierの変換誤差Eの総和の逆数としてもよい。
 写像関係算出部5は、信頼度R が閾値以下となる部分領域a の数が部分領域の全数Nに対して一定割合(例えば80%以上)を占める場合には、カメラとマイクの方向関係が適切でないと判断する。
 座標変換部6は、音響イベント検知部3で検知された検知対象イベントの発生方向P (第3の発生方向)から画像イベント検知部4で検知されるであろう検知対象イベントの発生方向P^ を推定する。言い換えると、座標変換部6は、P に対応する画像イベント検知部4で検知される検知対象イベントの発生方向P^ を算出する。第3の発生方向P^ は、写像関係算出部5で算出された写像変換行列Hを用いて数式3から算出される。
Figure JPOXMLDOC01-appb-M000003
 また、座標変換部6は、P を含む部分領域a を特定する。さらに、座標変換部6は、特定した部分領域a における変換誤差の期待値σを算出する。
 表示部7は、画像信号取得部2から出力された画像信号を画像としてディスプレイに表示させる。同時に、表示部7は、音響信号取得部1から出力された音響信号を音声として再生する。また、表示部7は、画像イベント検知部4で算出した検知対象イベントの発生方向P 又は座標変換部6で算出した検知対象イベントの発生方向(P^ )をそれぞれ、ディスプレイに逐次表示させる。座標変換部6で算出した検知対象イベントの発生方向P^ を表示する際、表示部7は、座標変換部6で算出した変換誤差の期待値σを同時に表示させてもよい。変換誤差の期待値σの表示の仕方としては例えば、P^ を中心とし、変換誤差の期待値σを半径とした円で表示する。さらに、表示部7は、円及びその周辺を拡大表示させてもよい。
 また、写像関係算出部5がカメラ若しくはマイクの方向関係が変わったと判断した場合、又は、写像関係算出部5がカメラとマイクとの方向関係が適切でないと判断した場合には、表示部7は、次のような内容をディスプレイ等に表示させる。すなわち、表示部7は、カメラとマイクの方向関係が適切でないことを示す警告、又は、確認若しくは注意を促すメッセージをディスプレイ等に表示させる。さらに、表示部7は、写像関係算出部5で算出した信頼度R を、部分領域a ごとにカラーマップ等でディスプレイ上に表示させる。
 以上のように、本発明の実施形態に係る監視装置は、マイクが外部から取得した音響信号とカメラが外部から取得した画像信号との両方からそれぞれキャリブレーション対象イベントの発生方向の算出を行う。さらに、本発明の実施形態に係る監視装置は、算出したキャリブレーション対象イベントの発生方向に基づいて写像関係を算出し、算出した写像関係とマイクが外部から取得した音響信号とに基づいて算出した検知対象イベントの発生方向の座標変換を行う。
 このため、本発明の実施形態に係る監視装置は、カメラとマイクの設置時の位置と方向について、高い正確度を要しない。このため、本発明の実施形態に係る監視装置においては、カメラとマイクの設置時に行う方向の較正(キャリブレーション)は、低コストである。
 また、本発明の実施形態に係る監視装置は、キャリブレーション対象イベントが検知される毎に写像関係を逐次算出し、算出した現時刻の写像関係と直前に算出した過去の時刻の写像関係とを比較する。そして、マイクとカメラの方向関係が変わったと判断した場合に、本発明の実施形態に係る監視装置は、警告や確認、注意を促すメッセージをディスプレイ等に表示させる。このため、ユーザはカメラ又はマイクの方向関係が変わったことに気付くことができる。
 また、本発明の実施形態に係る監視装置は、音響信号取得部1が実際に外部から取得した音響信号を用いている。これにより、本発明の実施形態に係る監視装置は、音響信号取得部1が外部から取得する音響信号にマイクの設置場所毎に異なる反射音が含まれることにより生じる音源方向の算出における誤差を低減することができる。さらに、本発明の実施形態に係る監視装置は、気温や気圧等の要因で音速が変化することによる音源方向の算出における誤差を低減することができる。
 以上、音響イベント検知部3が検知するキャリブレーション対象イベント及び画像イベント検知部4が検知するキャリブレーション対象イベントが、位置的にも時間的にも断絶して発生する例について説明した。本実施形態は、このほかに、キャリブレーション対象イベントが、位置を変えながら一定時間継続する場合にも対応可能である。さらに、本実施形態は、キャリブレーション対象イベントだけでなく、検知対象イベントについても同様に対応可能である。このような場合としては例えば、自動車、飛行体、又は船舶の駆動音と移動する様子、自転車のブレーキ音と移動する様子、台車の振動と移動する様子、等がある。
 キャリブレーション対象イベントの始端時刻をt、終端時刻をtとする。さらに、時刻tの時に音響イベント検知部3が検知するキャリブレーション対象イベントの発生方向をP(t)、時刻tの時に画像イベント検知部4が検知するキャリブレーション対象イベントの発生方向をP(t)とする。
 音響イベント検知部3又は画像イベント検知部4は、キャリブレーション対象イベントの始端時刻t及び終端時刻tを求める。
 始端時刻tは、音響イベント検知部3又は画像イベント検知部4が検知したキャリブレーション対象イベント(音響イベント又は画像イベント)の発生時刻と同様である。すなわち、始端時刻tは、次の場合の現時間フレームに対応する時刻である。この場合とは、音響イベント検知部3が、受信した音響信号のある時間フレーム(現時間フレーム)の音圧とそれ以前の過去の時間フレームの音圧とを比較した時に、音圧の差が事前に設定した閾値を超えて大きくなっている場合である。あるいは始端時刻tは、次の場合の現時間フレームに対応する時刻である。この場合とは、画像イベント検知部4が、受信した画像信号のある時間フレーム(現時間フレーム)の輝度とそれ以前の過去の時間フレームの輝度とを比較した時に、輝度の差が事前に設定した閾値を超えて大きくなっている場合である。
 終端時刻tは、次の場合の現時間フレームに対応する時刻である。この場合とは、音響イベント検知部3が、受信した音響信号のある時間フレーム(現時間フレーム)の音圧とそれ以前の過去の時間フレームの音圧とを比較した時に、音圧の差が事前に設定した閾値より小さくなっている場合である。あるいは、終端時刻tは、次の場合の現時間フレームに対応する時刻である。この場合とは、画像イベント検知部4が、受信した画像信号のある時間フレーム(現時間フレーム)の輝度とそれ以前の過去の時間フレームの輝度とを比較した時に、輝度の差が事前に設定した閾値より小さくなっている場合である。
 音響イベント検知部3又は画像イベント検知部4は、求めた始端時刻t及び終端時刻t間の時間を任意の数に分割する。この分割にあたって、音響イベント検知部3又は画像イベント検知部4は、例えば、1秒毎などのように等時間毎に分割を行ってもよいし、等時間でなくても分割を行ってよい。
 音響イベント検知部3又は画像イベント検知部4は、分割した時間それぞれの開始時刻について、キャリブレーション対象イベントの発生方向を求める。
 以上により、複数の時刻t={t,t,t,・・・,t}についてPとPの組{P(t),P(t)},{P(t),P(t)},{P(t),P(t)},・・・,{P(t),P(t)}が求まる。このP(t)とP(t)の組を用いて、写像関係算出部5は、写像関係を算出する。
 また、写像関係算出部5は、時刻のずれをτとして、{P(t),P(t+τ)}の相関が最大になるようなτの値を求め、P(t)の代わりにP(t+τ)を用いて写像関係を算出することとしてもよい。
 本実施形態によれば、センサの設置時の位置及び方向について、極めて高い正確度が要求される問題を解決することができる。
 つまり、本実施形態に係る監視装置は、センサの設置時の位置及び方向について、極めて高い正確度を実現できるとの効果を奏する。
 その理由は、次のとおりである。音響信号取得部1は、音響信号を取得する。音響イベント検知部3は、取得した音響信号から音響イベントの発生方向を算出する。画像信号取得部2は、画像信号を取得する。画像イベント検知部4は、取得した画像信号から画像イベントの発生方向を算出する。写像関係算出部5は、算出した音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する。座標変換部6は、算出した写像関係と算出した音響イベントのうちの検知対象イベントの発生方向とを用いて画像イベントのうちの検知対象イベントの発生方向を推定する。
 このように、本実施形態の監視装置は、音響イベント及び画像イベントのうちのキャリブレーション対象イベントの発生方向を用いて写像関係を算出する。そして、監視装置は、音響イベント及び画像イベントの発生方向だけではなく、算出した写像関係と音響イベントの検知対象イベントの発生方向とを基に画像イベントのうちの検知対象イベントを推定する。そのため、監視装置は、センサの設置時の位置及び方向について、極めて高い正確度を実現できる。
 図5は、上記の効果の説明に関連する構成を含む監視装置の概要の構成を示すブロック図である。すなわち、図5に示されている監視装置は、音響信号取得部1と、画像信号取得部2と、音響イベント検知部3と、画像イベント検知部4と、写像関係算出部5と、座標変換部6とを含む。そして、図5に示されている監視装置は、図1に示されている監視装置と同様の効果を実現できる。なお、図5に示されている監視装置は、本実施形態の最小構成である。ただし、各構成部は、適宜、表示部7に相当する構成に情報を送信する。
 次に、ハードウェア構成について説明する。以上の説明した監視装置は、次のように構成される。例えば、監視装置の各構成部は、ハードウェア回路で構成されてもよい。また、監視装置において、各構成部は、ネットワークを介して接続した複数の装置を用いて、構成されてもよい。また、監視装置において、複数の構成部は、1つのハードウェアで構成されてもよい。また、監視装置は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。監視装置は、上記構成に加え、さらに、入出力接続回路(IOC:Input / Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現されてもよい。
 図6は、監視装置のハードウェア構成の一例を示すブロック図である。監視装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
 CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示す、音響信号取得部1と、画像信号取得部2と、音響イベント検知部3と、画像イベント検知部4と、写像関係算出部5と、座標変換部6としての各機能を実現する。CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶媒体として使用してもよい。また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記録媒体700が含むプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630に保存して、保存したプログラムを基に動作してもよい。
 ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P-ROM(Programmable-ROM)又はフラッシュROMである。
 RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D-RAM(Dynamic-RAM)である。
 内部記憶装置640は、監視装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
 ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記録媒体である。一方、RAM630は、揮発性(transitory)の記録媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記録媒体又は揮発性記録媒体を用いて動作可能である。
 IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。さらに、IOC650は、USBのような有線に限らず、無線を用いてもよい。
 入力機器660は、監視装置600の操作者からの入力指示を受け取る機器である。入力機器660は、音響信号取得部1及び/又は画像信号取得部2として動作してもよい。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
 表示機器670は、監視装置600の操作者に情報を表示する機器である。表示機器670は、表示部7として動作してもよい。表示機器670は、例えば、液晶ディスプレイである。
 NIC680は、ネットワークを介した図示しない外部の装置とのデータのやり取りを中継する。NIC680は、音響信号取得部1及び/又は画像信号取得部2として動作してもよい。NIC680は、例えば、LAN(Local Area Network)カードである。さらに、NIC680は、有線に限らず、無線を用いてもよい。
 このように構成された監視装置600は、図1に示されている監視装置と同様の効果を得ることができる。その理由は、監視装置600のCPU610が、プログラムに基づいて図1に示されている監視装置と同様の機能を実現できるためである。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)カメラが取得した画像信号とマイクが取得した音響信号の両方で同時に検知されたイベントの発生位置に基づいて、前記発生位置間の写像関係を算出する写像関係算出部を備えたことを特徴とする監視装置。
 (付記2)カメラが取得した前記画像信号からイベントの発生時刻と位置を検知する画像イベント検知部と、マイクが取得した前記音響信号からイベントの発生時刻と位置を検知する音響イベント検知部と、前記画像信号によるイベント発生時刻と前記音響信号によるイベント発生時刻の差が閾値以下の場合に同時とみなし、前記画像信号によるイベント発生位置と前記音響信号によるイベント発生位置の間の写像関係を算出する写像関係算出部を備える付記1に記載の監視装置。
 (付記3)前記画像イベント検知部は、前記画像信号によるイベントを事前に定義したキャリブレーション対象イベントと検知対象イベントに分類し、前記音響イベント検知部は、前記音響信号によるイベントを事前に定義した前記キャリブレーション対象イベントと検知対象イベントに分類し、前記画像信号によるイベント発生時刻と前記音響信号によるイベント発生時刻が同時とみなされた前記キャリブレーション対象イベントの発生位置から、前記キャリブレーション対象イベントの発生位置間の写像関係を算出する写像関係算出部と、前記写像関係に基づいて前記音響イベント検知部で算出した検知対象イベントの位置を座標変換する座標変換部を備える付記2に記載の監視装置。
 (付記4)前記写像関係算出部は、前記写像関係の変化が閾値以上の場合に前記カメラと前記マイクの方向関係が変化したと判断する付記3に記載の監視装置。
 (付記5)前記写像関係算出部は、前記写像関係として、前記キャリブレーション対象イベントの発生位置間の写像変換行列を、前記写像変換行列の変換誤差が閾値以下のイベントであるInlierの数が最大となるように算出する付記3に記載の監視装置。
 (付記6)前記写像関係算出部は、前記写像関係として、前記キャリブレーション対象イベントの発生位置間の写像変換行列と、写像変換誤差の期待値と信頼度を算出する付記3に記載の監視装置。
 (付記7)前記写像関係算出部は、前記写像変換誤差の期待値として、前記音響イベント検知部で算出した前記キャリブレーション対象イベントの位置が部分領域に含まれるイベントのうち、Inlierの前記写像変換誤差の標準偏差の定数倍を算出する付記6に記載の監視装置。
 (付記8)前記写像関係算出部は、前記信頼度として、前記音響イベント検知部で算出した前記キャリブレーション対象イベントの位置が部分領域に含まれるイベントのうち、前記Inlierの変換誤差の総和の逆数又は、前記部分領域に含まれる前記キャリブレーション対象イベントに対する前記Inlierの割合に基づいて算出する付記6に記載の監視装置。
 (付記9)前記座標変換部は、前記写像関係算出部で算出した前記写像変換誤差の期待値から、前記画像イベント検知部で算出した前記検知対象イベントの位置を含む部分領域における前記写像変換誤差の期待値を算出する付記5から7に記載の監視装置。
 (付記10)前記画像イベント検知部で算出した検知対象イベントの位置と、前記座標変換部で算出した座標変換された検知対象イベントの位置と、前記写像関係算出部で算出した前記信頼度と、前記座標変換部で算出した前記検知対象イベントの位置を含む部分領域における前記写像変換誤差の期待値と、前記写像関係算出部で前記カメラと前記マイクの方向関係が変化したと判断した場合にアラームの、いずれか又は全てを表示する表示部を備える付記3から9に記載の監視装置。
 この出願は、2016年 3月30日に出願された日本出願特願2016-067021を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1  音響信号取得部
 2  画像信号取得部
 3  音響イベント検知部
 4  画像イベント検知部
 5  写像関係算出部
 6  座標変換部
 7  表示部
 600  監視装置
 610  CPU
 620  ROM
 630  RAM
 640  内部記憶装置
 650  IOC
 660  入力機器
 670  表示機器
 680  NIC
 700  記録媒体

Claims (6)

  1.  音響信号を取得する音響信号取得手段と、
     取得した前記音響信号から音響イベントの発生方向を算出する音響イベント検知手段と、
     画像信号を取得する画像信号取得手段と、
     取得した前記画像信号から画像イベントの発生方向を算出する画像イベント検知手段と、
     算出した前記音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した前記画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する写像関係算出手段と、
     算出した前記写像関係と算出した前記音響イベントのうちの検知対象イベントの発生方向とを用いて前記画像イベントのうちの検知対象イベントの発生方向を推定する座標変換手段と
     を備える監視装置。
  2.  前記写像関係算出手段は、
     前記写像関係の変化が閾値以上の場合に前記画像信号取得手段と前記音響信号取得手段の方向関係が変化したと判断する
     請求項1に記載した監視装置。
  3.  前記写像関係算出手段は、
     算出した前記音響イベントのうちのキャリブレーション対象イベントの発生方向と算出した前記画像イベントのうちのキャリブレーション対象イベントの発生方向との間の写像変換行列と、写像変換誤差の期待値と信頼度とを算出する、
     請求項1又は2に記載した監視装置。
  4.  前記画像信号を表示させる表示手段をさらに備え、
     前記表示手段は、
     前記画像イベント検知手段で算出した前記画像イベントのうちの検知対象イベントの位置と、前記座標変換手段で推定した前記画像イベントのうちの検知対象イベントの発生方向と、前記写像変換誤差の期待値と、前記信頼度とのいずれか又は全てを表示する、
     請求項3に記載した監視装置。
  5.  音響信号を取得し、
     取得した前記音響信号から音響イベントの発生方向を算出し、
     画像信号を取得し、
     取得した前記画像信号から画像イベントの発生方向を算出し、
     算出した前記音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した前記画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出し、
     算出した前記写像関係と算出した前記音響イベントのうちの検知対象イベントの発生方向とを用いて前記画像イベントのうちの検知対象イベントの発生方向を推定する、
     監視方法。
  6.  音響信号を取得する処理と、
     取得した前記音響信号から音響イベントの発生方向を算出する手段と、
     画像信号を取得する処理と、
     取得した前記画像信号から画像イベントの発生方向を算出する処理と、
     算出した前記音響イベントのうちのキャリブレーション対象イベントの発生方向と、算出した前記画像イベントのうちのキャリブレーション対象イベントの発生方向とに基づいて、写像関係を算出する処理と、
     算出した前記写像関係と算出した前記音響イベントのうちの検知対象イベントの発生方向とを用いて前記画像イベントのうちの検知対象イベントの発生方向を推定する処理と、
     をコンピュータに実行させる監視プログラムをコンピュータ読み取り可能に記録する記録媒体。
PCT/JP2017/011316 2016-03-30 2017-03-22 監視装置、監視方法、及び記録媒体 WO2017170007A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018509106A JP6841277B2 (ja) 2016-03-30 2017-03-22 監視装置、監視方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016067021 2016-03-30
JP2016-067021 2016-03-30

Publications (1)

Publication Number Publication Date
WO2017170007A1 true WO2017170007A1 (ja) 2017-10-05

Family

ID=59965251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/011316 WO2017170007A1 (ja) 2016-03-30 2017-03-22 監視装置、監視方法、及び記録媒体

Country Status (2)

Country Link
JP (1) JP6841277B2 (ja)
WO (1) WO2017170007A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174216A (ja) * 2004-12-17 2006-06-29 Matsushita Electric Ind Co Ltd 映像監視システム及びその校正方法
JP2006339741A (ja) * 2005-05-31 2006-12-14 Matsushita Electric Ind Co Ltd 監視装置および監視方法
WO2014125835A1 (ja) * 2013-02-15 2014-08-21 パナソニック株式会社 指向性制御システム、キャリブレーション方法、水平偏差角算出方法及び指向性制御方法
JP2014175996A (ja) * 2013-03-12 2014-09-22 Oki Electric Ind Co Ltd パラメータ推定装置、パラメータ推定プログラム、機器決定システム及び機器決定プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006174216A (ja) * 2004-12-17 2006-06-29 Matsushita Electric Ind Co Ltd 映像監視システム及びその校正方法
JP2006339741A (ja) * 2005-05-31 2006-12-14 Matsushita Electric Ind Co Ltd 監視装置および監視方法
WO2014125835A1 (ja) * 2013-02-15 2014-08-21 パナソニック株式会社 指向性制御システム、キャリブレーション方法、水平偏差角算出方法及び指向性制御方法
JP2014175996A (ja) * 2013-03-12 2014-09-22 Oki Electric Ind Co Ltd パラメータ推定装置、パラメータ推定プログラム、機器決定システム及び機器決定プログラム

Also Published As

Publication number Publication date
JP6841277B2 (ja) 2021-03-10
JPWO2017170007A1 (ja) 2019-02-28

Similar Documents

Publication Publication Date Title
CN107223332B (zh) 基于声学相机的音频视觉场景分析
JP7021053B2 (ja) 監視システム、プログラム、及び記憶媒体
KR20160066927A (ko) 컴퓨터 보조 진단 지원 장치 및 방법
JP7014295B2 (ja) 異常検出装置、異常検出方法及びプログラム
WO2022012276A1 (zh) 一种温度校准方法、装置、设备及存储介质
JP2015041164A (ja) 画像処理装置、画像処理方法およびプログラム
JP2008100073A (ja) 対象体の大きさを測定するための超音波診断装置及び方法
JP6729577B2 (ja) 信号検知装置、信号検知方法およびプログラム
EP3633606A1 (en) Information processing device, information processing method, and program
US20190178814A1 (en) State assessing device, state assessing method, and storage medium for storing program
JP2019074478A (ja) 識別装置、識別方法およびプログラム
JP2020106970A (ja) 人検出装置および人検出方法
CN111723597B (zh) 跟踪算法的精度检测方法、装置、计算机设备和存储介质
CN112669382B (zh) 一种基于图像的距离确定方法及装置
WO2017170007A1 (ja) 監視装置、監視方法、及び記録媒体
KR101155610B1 (ko) 음원 위치 표시 장치 및 그 방법
JP6888793B2 (ja) 異常監視方法および異常監視装置
US20210304417A1 (en) Observation device and observation method
JP2019046453A (ja) ニューラルネットワークの中間情報分析装置、最適化装置及び特徴可視化装置
JP2019046278A (ja) 情報処理装置、制御方法、コンピュータプログラム、記憶媒体、及びモデル作成装置
JP7334457B2 (ja) 異常検知システム、異常検知装置、異常検知方法およびプログラム
KR20130065022A (ko) 이미지 왜곡 보정을 통한 음장 표시 방법
KR101480418B1 (ko) 환경맵 보간 장치 및 방법
Jung et al. A novel visual representation method for multi-dimensional sound scene analysis in source localization problem
JP7431372B1 (ja) 異常検知装置および異常検知方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018509106

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17774548

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17774548

Country of ref document: EP

Kind code of ref document: A1