WO2020059447A1 - 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置 - Google Patents

音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置 Download PDF

Info

Publication number
WO2020059447A1
WO2020059447A1 PCT/JP2019/033600 JP2019033600W WO2020059447A1 WO 2020059447 A1 WO2020059447 A1 WO 2020059447A1 JP 2019033600 W JP2019033600 W JP 2019033600W WO 2020059447 A1 WO2020059447 A1 WO 2020059447A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
sound
observation target
audio signal
area
Prior art date
Application number
PCT/JP2019/033600
Other languages
English (en)
French (fr)
Inventor
真彦 宮田
祐樹 杉原
小林 潤
智大 島田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2020548222A priority Critical patent/JP6979536B2/ja
Publication of WO2020059447A1 publication Critical patent/WO2020059447A1/ja
Priority to JP2021185733A priority patent/JP7303862B2/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to an audio signal processing device, an audio signal processing method, an audio signal processing program, an audio signal processing system, and an imaging device, and in particular, to an audio signal processing device that processes audio signals from a plurality of sound collection units, an audio signal
  • the present invention relates to a processing method, an audio signal processing program, an audio signal processing system, and an imaging device.
  • the present invention has been made in view of such circumstances, and provides an audio signal processing apparatus, an audio signal processing method, an audio signal processing program, an audio signal processing system, an audio signal processing system, and a photographing apparatus capable of appropriately recognizing audio output from an observation target.
  • the purpose is to do.
  • An audio signal acquisition unit that acquires audio signals from a plurality of sound collection units that are discretely arranged in a first area, and a video that acquires a video signal from an imaging unit that photographs the first area from a fixed position.
  • a positional relationship calculating unit that calculates a positional relationship between the observation target and each sound collecting unit; and a sound emitted from the observation target reaching each sound collecting unit based on a calculation result of the positional relationship calculating unit.
  • a voice arrival time calculation unit that calculates time
  • a voice enhancement processing unit that synchronizes voice signals from the sound collection units based on a calculation result of the voice arrival time calculation unit, and superimposes and superimposes the audio signals. Audio signal processing device.
  • the observation target can be displayed even when an obstacle is present in the first area. Able to properly recognize the uttered voice.
  • the audio signal processing device according to (1), wherein the signal is recorded with a delay.
  • the video signal is recorded according to the delay of the audio signal.
  • video and audio can be recorded without any shift.
  • the sound emphasis processing unit synchronizes the sound signals from the sound collecting units based on the sound signals collected by the sound collecting unit farthest from the observation target, and superimposes and superimposes the sound signals.
  • the audio signal processing device according to 1) or 2).
  • the sound signals from the sound collecting units are synchronized based on the sound signals collected by the sound collecting unit farthest from the observation target.
  • a second area setting unit for setting a second area within a range of a radius R centered on the observation target, wherein the positional relationship calculation unit determines a position between the observation target and each sound collection unit in the second area; The relationship is calculated, the sound arrival time calculation unit calculates the arrival time until the sound emitted from the observation target in the second area reaches each sound collection unit, and the sound enhancement processing unit focuses on the observation target.
  • (1) or (2) based on the audio signal virtually collected at the position of the radius R where the audio signals from the respective sound collection units in the second area are synchronized, and superimposed and enhanced. ) Audio signal processing device.
  • a virtual observation area (second area) is set, and the emphasis processing is performed. Thereby, the processing can be simplified.
  • the audio signal processing device further including a tracking unit that tracks the movement of the observation target, wherein the second area setting unit causes the second area to follow the movement of the observation target.
  • the second area is set following the movement of the observation target.
  • the second area follows the movement of the observation target with a delay.
  • sound can be collected without causing a change in frequency of the sound such as the Doppler effect.
  • the audio signal processing device according to any one of (4) to (6), further including a second area size adjustment unit that adjusts a size of the second area.
  • the size of the second area can be adjusted.
  • a correction information storage unit storing correction information of the arrival time of the sound to each sound collection unit, and a sound calculated by the sound arrival time calculation unit based on the correction information stored in the correction information storage unit.
  • a voice arrival time correction unit that corrects the arrival time of the audio signal.
  • the voice emphasis processing unit simultaneously outputs the audio signals from the sound collection units based on the information on the arrival time corrected by the voice arrival time correction unit.
  • the arrival time of the sound calculated based on the positional relationship is corrected based on the correction information.
  • an accurate time according to the actual situation can be obtained.
  • the correction information is set based on the actually measured values.
  • the correction information storage unit stores correction information for each frequency, and the sound arrival time correction unit is calculated by the sound arrival time calculation unit based on the correction information corresponding to the frequency of the sound emitted by the observation target.
  • the audio signal processing device according to (8) or (9), which corrects the arrival time of the audio.
  • the correction information for each frequency is prepared.
  • the positional relationship calculation unit specifies the position of the observation target in the first area based on information obtained from the imaging unit, and calculates the positional relationship between the observation target and each sound collection unit. ) To (10).
  • the positional relationship between the observation target and each sound collection unit is calculated by specifying the position of the observation target in the first area based on the information obtained from the imaging unit.
  • the positional relationship calculation unit obtains the direction and distance of the observation target with respect to the imaging unit based on the information obtained from the imaging unit, and based on the obtained information on the direction and distance of the observation target with respect to the imaging unit,
  • the audio signal processing apparatus according to (11), wherein the position of the observation target in one area is specified, and the positional relationship between the observation target and each sound collection unit is calculated.
  • the position of the observation target is specified by obtaining the direction and distance of the observation target with respect to the imaging unit based on information obtained from the imaging unit.
  • the sound collection units are arranged at intervals wider than the size of the observation target.
  • the sound collection units are arranged at intervals wider than the resolution of the position that can be calculated by the positional relationship calculation unit.
  • the sound collecting units are arranged at intervals at which the sound from the observation target is collected by at least three sound collecting units.
  • the observation target can be displayed even when an obstacle is present in the first area. Able to properly recognize the uttered voice.
  • the video signal is recorded according to the delay of the audio signal.
  • video and audio can be recorded without any shift.
  • the observation target can be displayed even when an obstacle is present in the first area. Able to properly recognize the uttered voice.
  • the video signal is recorded according to the delay of the audio signal.
  • video and audio can be recorded without any shift.
  • An observation target setting unit that sets an observation target, a positional relationship calculation unit that calculates a positional relationship between the observation target and each sound collection unit, and a sound emitted from the observation target based on a calculation result of the positional relationship calculation unit. Based on the calculation results of the sound arrival time calculation unit and the sound arrival time calculation unit that calculates the arrival time until reaching each sound collection unit, the sound signals from each sound collection unit are synchronized and superimposed and emphasized.
  • Audio signal processing unit comprising: System.
  • the observation target can be displayed even when an obstacle is present in the first area. Able to properly recognize the uttered voice.
  • the video signal is recorded according to the delay of the audio signal.
  • video and audio can be recorded without any shift.
  • (22) a photographing unit, a display unit that displays a video represented by a video signal output from the photographing unit, and an observation target setting unit that accepts designation of a position in the video displayed on the display unit and sets an observation target
  • An audio signal acquisition unit that acquires audio signals from a plurality of sound collection units discretely arranged in the first area; and information obtained from the imaging unit when the first area is imaged from a fixed position. Based on the position of the observation target in the first area, and calculates a positional relationship between the observation target and each of the sound collection units.
  • Speech enhancement processing unit that performs enhancement processing together
  • a storage unit, imaging apparatus comprising: a recording controller for controlling recording of the video and audio signals to the memory unit.
  • the observation target can be displayed even when an obstacle is present in the first area. Able to properly recognize the uttered voice.
  • FIG. 2 is a block diagram showing a schematic configuration of hardware of the video / audio signal processing device.
  • Block diagram of functions of the video / audio signal processing device Diagram showing an example of the observation target selection screen
  • Conceptual diagram of audio signal emphasis processing Flow chart showing the operation procedure of the video and audio signal processing device when observing
  • Flow chart showing the operation procedure of the video and audio signal processing device when observing 4 is a flowchart showing an operation procedure of the video / audio signal processing device when playing back a recorded video.
  • FIG. 9 is a block diagram illustrating functions of the video / audio signal processing device according to the third embodiment; 4 is a flowchart illustrating an operation procedure of the video and audio signal processing device when an object is observed by performing audio enhancement processing. 4 is a flowchart illustrating an operation procedure of the video and audio signal processing device when an object is observed by performing audio enhancement processing.
  • FIG. 14 is a block diagram of functions of a video and audio signal processing device according to a fourth embodiment.
  • FIG. 13 is a block diagram of functions of a video and audio signal processing device according to a fifth embodiment.
  • FIG. 1 is a schematic configuration diagram of an observation system to which the present invention is applied.
  • the observation system 1 is configured as a system for photographing and observing an observation target with a camera 10 in a predetermined observation target area (first area), and a camera 10 for photographing the observation target and a sound in the observation target area.
  • the observation system 1 is an example of an audio signal processing system.
  • FIG. 2 is a plan view showing an example of a layout of a camera and a plurality of microphones.
  • the camera 10 is installed at a fixed position via the remote control head 14.
  • the remote control head 14 pans and tilts the camera 10 by remote control.
  • the camera 10 is a video camera, forms an image through the lens 12 on an image sensor, and outputs the image as a video signal. In the present embodiment, a digital video signal is output.
  • the camera 10 has general video camera functions such as AE (Automatic Exposure), AF (Auto Focus), and AWB (Auto White Balance).
  • the camera 10 has an optical zoom function.
  • the camera 10 is an example of a photographing unit. As will be described later, the camera 10 and the remote control platform 14 are remotely controlled by the video / audio signal processing device 100.
  • the microphone Mij is discretely arranged in the observation target area Z1 indicated by a broken line in FIG.
  • a plurality of microphones Mij discretely in the observation target area Z1
  • sound in the observation target area Z1 can be collected uniformly.
  • a plurality of microphones Mij are arranged at regular intervals in the front-back direction (y-axis direction in FIG. 2) and the left-right direction (x-axis direction in FIG. 2) in the rectangular observation target area Z1.
  • Each microphone Mij is configured by an omnidirectional (omnidirectional) microphone.
  • the microphone Mij is an example of a sound collection unit. The position of each microphone Mij is fixed.
  • each microphone Mij with respect to the camera 10 is also fixed, and the positional relationship can be obtained in advance.
  • the positional relationship between the camera 10 and each microphone Mij is specified, for example, by spatial coordinates with the camera 10 as the origin. This relationship is known.
  • FIG. 3 is a block diagram showing a schematic configuration of hardware of the video / audio signal processing device.
  • the video / audio signal processing device 100 is an example of an audio processing device.
  • the video / audio signal processing device 100 is configured by a computer such as a personal computer.
  • the computer constituting the video / audio signal processing apparatus 100 includes a computer main body 110, a display 112 as a display unit, a speaker 114 as an audio output unit, a keyboard 116 and a mouse 118 as operation units, and the like.
  • the computer body 110 is used as a CPU (Central Processing Unit) 120, an IPL (Initial Program Loader), a ROM (Read Only Memory) 122 for storing various programs and various data, and a work area for the CPU 120.
  • RAM Random Access Memory
  • VRAM Video Random Access Memory
  • image memory image memory
  • HDD Hard Disk Drive
  • DVD-ROM Digital Versatile
  • various programs and various data are stored in the HDD 128.
  • the computer body 110 is connected to a display 112, a video output interface (interface $, $ I / F) 132 for outputting a video signal to the display 112, a speaker 114 is connected, and a voice for outputting an audio signal to the speaker 114.
  • An output interface 134, a keyboard interface 136 to which a keyboard 116 is connected and an operation signal from the keyboard 116 is input, and a mouse interface 138 to which a mouse 118 is connected and an operation signal from the mouse 118 are input are provided. .
  • the computer main body 110 is connected to a plurality of microphones Mij, is connected to an audio input interface 140 to which audio signals from each microphone Mij are input, and is connected to the camera 10, and is an image to which a video signal is input from the camera 10.
  • An input interface 142 and a camera communication interface 144 to which the camera 10 is connected and communicates with the camera 10 are provided.
  • the audio input interface 140 includes a plurality of terminals (not shown) for connecting the microphones Mij.
  • the audio input interface 140 includes an analog-to-digital converter (not shown) that converts an analog audio signal input from each microphone Mij via a terminal into a digital audio signal.
  • the voice input interface 140 is an example of a voice signal acquisition unit.
  • the video input interface 142 has a terminal for connecting the camera 10. As described above, the camera 10 outputs a digital video signal. Therefore, a digital video signal is input to the video input interface 142.
  • the video input interface 142 is an example of a video signal acquisition unit.
  • the camera communication interface 144 is connected to the camera 10 and communicates with the camera 10.
  • the video / audio signal processing device 100 communicates with the camera 10 via the camera communication interface 144, and transmits a control signal to the camera 10. For example, control signals such as zoom, focus, panning, and tilting are transmitted.
  • the video / audio signal processing device 100 communicates with the camera 10 via the camera communication interface 144 and receives setting information from the camera 10. For example, information on the set focal length, information on the subject distance based on the position of the focus lens, information on setting the aperture, and the like are acquired.
  • FIG. 4 is a block diagram of functions of the video and audio signal processing device.
  • the video / audio signal processing device 100 includes a display control unit 110A, an observation target setting unit 110B, a positional relationship calculation unit 110C, an audio arrival time calculation unit 110D, an audio enhancement processing unit 110E, an audio output control unit 110F, a recording control unit 110G, It has functions such as a control unit 110H and a camera control unit 110I. These functions are realized by the computer main body 110 constituting the video / audio signal processing device 100 executing a predetermined control program (audio signal processing program).
  • the display control unit 110 ⁇ / b> A causes the display 112 to display an image represented by the image signal acquired from the camera 10 via the image input interface 142. As a result, the image captured by the camera 10 is displayed on the display 112.
  • the observation target setting unit 110B accepts designation of a position in the image displayed on the display 112 and sets the observation target. Designation of the position is performed by the keyboard 116 and the mouse 118 which are operation units.
  • FIG. 5 is a diagram illustrating an example of an observation target selection screen. As shown in the figure, a cursor C is displayed on the image captured by the camera 10, and the position of the cursor C is moved by operating the keyboard 116 or the mouse 118 to select the observation target Oj. In the example shown in FIG. 5, the cursor C is displayed in a rectangular frame, but the shape of the cursor C is not limited to this.
  • the positional relationship calculation unit 110C calculates the positional relationship between the observation target and each microphone Mij. At this time, the positional relationship calculation unit 110C specifies the position of the observation target with respect to the camera 10, and calculates the positional relationship between the observation target and each microphone Mij. As described above, the positional relationship between the camera 10 and each microphone Mij is known. Therefore, if the position of the observation target with respect to the camera 10 is known, the positional relationship between the observation target and each microphone Mij can also be obtained.
  • the position of the observation target Oj with respect to the camera 10 is calculated based on information obtained from the camera 10.
  • the direction of the observation target Oj with respect to the camera 10 and the distance from the camera 10 to the observation target Oj are determined based on the information obtained from the camera 10, and the camera is determined based on the obtained information on the direction and the distance.
  • the position of the observation target Oj with respect to 10 is specified.
  • the direction of the observation target Oj with respect to the camera 10 is calculated based on pan and tilt setting information and information on the position of the observation target Oj in the screen.
  • the position of the observation target Oj in the screen is obtained by calculating the position of the observation target Oj with respect to the center of the screen from the image. That is, the direction of the photographing optical axis is acquired from the pan and tilt setting information, and the direction of the observation target Oj is calculated from the position of the observation target Oj with respect to the photographing optical axis.
  • the distance from the camera 10 to the observation target is obtained from information on the subject distance when the observation target Oj is focused. Information on the subject distance is acquired from the camera 10. The camera 10 obtains the subject distance from the position of the focus lens.
  • the position of the observation target Oj with respect to the camera 10 is specified by spatial coordinates with the camera 10 as the origin. As described above, the position of each microphone Mij with respect to the camera 10 is also specified by the spatial coordinates with the camera 10 as the origin. Therefore, if the position of the observation target Oj is specified on the spatial coordinates, the positional relationship between the observation target Oj and each microphone Mij is also specified.
  • the information on the positional relationship of each microphone Mij with respect to the camera 10 is stored in the HDD 128 in advance.
  • the sound arrival time calculation unit 110D calculates a time (a time until a sound emitted from the observation target reaches each microphone Mij based on the positional relationship between the observation target Oj and each microphone Mij calculated by the positional relationship calculation unit 110C. Arrival time).
  • FIG. 6 is a conceptual diagram of calculating the arrival time of a sound to each microphone.
  • the voice enhancement processing unit 110E performs voice enhancement processing based on the calculation result of the voice arrival time Tij to each microphone Mij by the voice arrival time calculation unit 110D. Specifically, based on the arrival time Tij of the sound to each microphone Mij, the sound signals from each microphone Mij are synchronized, overlapped, and emphasized. Hereinafter, this emphasis processing will be described.
  • FIG. 7 is a conceptual diagram of the audio signal emphasizing process.
  • the two microphones M1 and M2 have different distances D1 and D2 from the sound source SS.
  • the two microphones M1 and M2 have a difference in the arrival time of the sound from the sound source SS by the distance difference (D1-D2).
  • the sound from the sound source SS is delayed by the arrival time difference ⁇ from the microphone M1 that is far from the sound source SS and reaches the microphone M2 that is short from the sound source SS.
  • a signal of one microphone M2 (a microphone to which sound arrives faster) is delayed so as to compensate for this delay, and the delayed signal is delayed by another microphone M1 (a sound arrives with delay).
  • the signals are synchronized by delay, the phases of both signals are made to match, and the signals are added.
  • the target signal is emphasized.
  • unnecessary signals are suppressed.
  • the audio signal is synchronized and the phase is matched with the microphone furthest from the sound source, that is, the microphone having the slowest arrival time of the sound from the sound source.
  • the audio output control unit 110F causes the speaker 114 to output the audio signal emphasized by the audio emphasis processing unit 110E.
  • the recording control unit 110G records the video signal input from the camera 10 and the audio signal input from the microphone Mij on the HDD 128 based on a recording instruction from the operation unit.
  • the recording process of the video signal and the audio signal performed by the recording control unit 110G differs depending on whether the audio signal is emphasized or not.
  • the audio signal from each microphone Mij is individually recorded in association with the video signal. Therefore, in this case, audio signals are recorded by the number of microphones Mij.
  • the audio signal is enhanced, the audio signal after the enhancement processing is recorded in association with the video signal.
  • the reproduction control unit 110H performs a reproduction process of a video signal and an audio signal recorded in the HDD 128 based on a reproduction instruction from the operation unit. That is, the video signal and the audio signal are read from the HDD 128 and output from the display 112 and the speaker 114.
  • the reproduction control unit 110H receives a selection of a video signal to be reproduced from the operation unit and performs a reproduction process. When a plurality of audio signals are recorded in association with the selected video signal, a selection of an audio signal desired to be reproduced is further accepted and a reproduction process is performed.
  • the camera control unit 110I controls the camera 10 based on an input from the operation unit. For example, a zoom instruction is received from the operation unit to cause the camera 10 to zoom, a focus area is selected from the operation unit to focus on the selected area, and a panning or tilting instruction is received from the operation unit. And panning or tilting the camera 10.
  • a zoom instruction is received from the operation unit to cause the camera 10 to zoom
  • a focus area is selected from the operation unit to focus on the selected area
  • a panning or tilting instruction is received from the operation unit. And panning or tilting the camera 10.
  • a focus area is set for the selected observation target, and the camera 10 is focused.
  • a video signal output from the camera 10 is captured, and the video captured by the camera 10 is displayed on the display 112 (step S10).
  • the user observes the image displayed on the display 112 and observes the inside of the observation target area.
  • the user operates the operation unit (keyboard 116 and mouse 118) as needed to remotely control the camera 10.
  • the video / audio signal processing device 100 determines whether or not there is an instruction to enhance the sound of the observation target based on the input from the operation unit (step S11).
  • the video and audio signal processing device 100 determines whether or not there is an instruction to record video and audio based on the input from the operation unit (step S12).
  • a recording process of a video signal and an audio signal is performed (step S13).
  • an audio signal is individually captured from each microphone Mij in the observation target area, and is recorded on the HDD 128 in association with a video signal. Recording is continued until the user instructs the end of the recording. Alternatively, the recording is continuously performed until a predetermined recording time is reached.
  • the video / audio signal processing device 100 determines whether or not to end the recording based on the input from the operation unit and the elapsed time from the start of the recording (step S14).
  • step S15 When the recording is completed, it is determined whether or not there is an instruction to end the observation based on the input from the operation unit (step S15). When it is determined in step S12 that there is no recording instruction, it is determined whether there is an instruction to end observation (step S15).
  • step S11 If it is determined that there is no instruction to end observation, the process returns to step S11, and it is determined again whether or not there is an instruction to emphasize the sound of the observation target based on the input from the operation unit (step S11). On the other hand, if it is determined that there is an instruction to end observation, the process ends.
  • step S11 If it is determined in step S11 that there is an instruction to emphasize the voice of the observation target, a process of setting the observation target is performed as shown in FIG. 9 (step S20).
  • the setting of the observation target is performed by accepting the designation of the position in the image displayed on the display 112.
  • the positional relationship between the observation target and each microphone Mij is calculated (step S21).
  • the positional relationship between the observation target and each microphone Mij is calculated based on information obtained from the camera 10. Specifically, first, the direction of the observation target with respect to the camera 10 and the distance from the camera 10 to the observation target are obtained based on the information obtained from the camera 10. Next, the position of the observation target with respect to the camera 10 is specified based on the obtained information on the direction and the distance. Since the positional relationship between the camera 10 and each microphone Mij is known, the positional relationship between the observation target and each microphone Mij is specified by specifying the position of the observation target with respect to the camera 10. More specifically, the positional relationship between the observation target and each microphone Mij on the spatial coordinates is specified.
  • the arrival time of the sound to each microphone Mij is calculated based on the information on the calculated positional relationship between the observation target and each microphone Mij (step S22).
  • step S23 based on the calculated information on the arrival time of the sound to each microphone Mij, the sound is emphasized (step S23).
  • the audio signals of the microphones Mij are synchronized with the microphone having the slowest arrival time, and the phases of the audio signals of the microphones Mij are matched. Thereafter, the audio signals of the microphones Mij are superimposed. Thereby, the sound from the observation target is emphasized, and other sounds (noise and the like) are suppressed.
  • the emphasized sound is output from the speaker 114.
  • the user observeer
  • the video and audio signal processing device 100 determines whether or not there is an instruction to record video and audio based on the input from the operation unit (step S24).
  • a recording process of a video signal and an audio signal is performed (step S25).
  • the video / audio signal processing device 100 records the emphasized audio signal in the HDD 128 in association with the video signal. Recording is continued until the user instructs the end of the recording. Alternatively, the recording is continuously performed until a predetermined recording time is reached.
  • the video / audio signal processing device 100 determines whether or not to end the recording based on the input from the operation unit and the elapsed time from the start of the recording (step S26).
  • step S27 When the recording is completed, it is determined whether or not there is an instruction to end the observation based on the input from the operation unit (step S27). When it is determined in step S24 that there is no recording instruction, it is determined whether there is an instruction to end observation (step S27).
  • step S11 If it is determined that there is no instruction to end the observation, as shown in FIG. 8, the process returns to step S11, and it is determined again whether or not there is an instruction to enhance the voice of the observation target based on the input from the operation unit (step S11). ). On the other hand, if it is determined that there is an instruction to end observation, the process ends.
  • the video and audio signal processing device 100 of the present embodiment it is possible to emphasize and listen to the sound of the observation target as necessary and record the sound. Since the microphone Mij that collects the sound of the observation target is discretely installed at a plurality of places in the observation target area, the sound can be captured no matter where the observation target exists, and it is necessary. You can emphasize and listen accordingly.
  • FIG. 10 is a flowchart illustrating an operation procedure of the video and audio signal processing device when reproducing a recorded video.
  • a process of accepting selection of a video to be reproduced is performed (step S30).
  • the selection of the video to be reproduced is performed by, for example, displaying a list of videos recorded on the HDD 128 on the display 112 and allowing the user to select one from the list.
  • step S31 it is determined whether or not a plurality of sounds are recorded in association with the selected video. If it is determined that a plurality of sounds are recorded in association with each other, a process of accepting selection of a sound to be reproduced is performed (step S32). The selection of the audio to be reproduced is performed by, for example, displaying a list of associated audios on the display 112 and allowing the user to select one from the list, in the same manner as the selection of the video. After the selection, a reproduction process is performed (step S33). If it is determined in step S31 that a plurality of sounds are not recorded in association with each other, the reproduction process is performed as it is (step S33).
  • the reproduction process is performed by reading the video signal of the selected video from the HDD 128 and outputting the video signal to the display 112.
  • audio is performed by reading an audio signal of interest from the HDD 128 and outputting it from the speaker 114.
  • step S34 it is determined whether or not there is an instruction to end the reproduction based on the instruction from the operation unit. If it is determined that there is no instruction to end the reproduction, the process returns to step S30, and processing for accepting selection of a video to be reproduced is performed (step S30). On the other hand, if it is determined that there is an instruction to end the reproduction, the process ends.
  • the video and audio signal processing device 100 when emphasizing and recording audio, records the video in synchronization with the audio so that there is no deviation between the video and the audio.
  • FIG. 11 is a block diagram of functions related to a recording process in a case where voice is emphasized and recorded.
  • the recording control unit 110G acquires the emphasized audio signal from the audio enhancement processing unit 110E, and records the acquired audio signal on the HDD 128. This audio signal is delayed from the video signal by the emphasis processing. The recording control unit 110G delays the video signal in accordance with the audio signal delayed by the emphasis processing, and records the video signal on the HDD 128.
  • the recording control unit 110G obtains information on the arrival time of the sound to each microphone Mij from the sound arrival time calculation unit 110D, and obtains the delay amount of the sound signal with respect to the video signal. That is, the audio enhancement processing unit 110E synchronizes the audio signal with the microphone having the slowest sound arrival time, so that if the sound arrival time at the microphone with the slowest sound arrival time is known, the video The amount of delay of the audio signal with respect to the signal is known.
  • the recording control unit 110G delays the video signal by an amount corresponding to the delay of the audio signal, and records the video signal on the HDD 128. As a result, even if the emphasis processing is performed, a video signal and an audio signal without any shift can be recorded in the HDD 128.
  • the video and audio signal processing device 100 When performing the enhancement processing, the video and audio signal processing device 100 according to the present embodiment performs the enhancement processing based on a virtually set observation position (virtual observation position).
  • FIG. 12 is a conceptual diagram of a virtual observation position.
  • the virtual observation position IP is set on the circumference of a circle having a radius R centered on the observation target Oj. Assuming that an area inside a circle having a radius R constituting the virtual observation position IP is a virtual observation area Z2, the emphasis processing is performed on the microphones in the virtual observation area Z2.
  • four microphones M11, M12, M21, and M22 are microphones in the virtual observation area Z2.
  • the positional relationship between the microphones M11, M12, M21, and M22 in the virtual observation area Z2 and the observation target Oj is calculated, and the arrival time of the sound to each of the microphones M11, M12, M21, and M22 is calculated and emphasized. Perform processing.
  • FIG. 13 is a conceptual diagram of enhancement processing using a microphone in a virtual observation area.
  • the arrival time differences ⁇ 11, ⁇ 12, ⁇ 21, ⁇ 22 of the sound from the virtual observation position IP are obtained, and based on the obtained arrival time differences ⁇ 11, ⁇ 12, ⁇ 21, ⁇ 22, the microphones M11, M12, M21, Synchronize the audio signal from M22.
  • FIG. 14 is a block diagram of functions of the video and audio signal processing device according to the third embodiment.
  • the video and audio signal processing device 100 according to the third embodiment further has a function of a virtual observation area setting unit 110J.
  • the virtual observation area setting unit 110J sets a virtual observation area based on the position of the observation target set by the observation target setting unit 110B.
  • the virtual observation area is set in a range of a radius R based on the observation target. R is a predetermined value.
  • the virtual observation area is an example of a second area, and the virtual observation area setting unit 110J is an example of a second area setting unit.
  • the outer periphery of the virtual observation area is a virtual observation position.
  • the information on the virtual observation area set by the virtual observation area setting unit 110J is added to the positional relationship calculation unit 110C, the voice arrival time calculation unit 110D, and the voice enhancement processing unit 110E.
  • the positional relationship calculation unit 110C calculates the positional relationship between the observation target and each microphone Mij for the microphone Mij in the virtual observation area.
  • the sound arrival time calculation unit 110D calculates the time (arrival time) until the sound emitted from the observation target reaches each microphone Mij for the microphone Mij in the virtual observation area.
  • the voice enhancement processing unit 110E performs voice enhancement processing on the microphone Mij in the virtual observation area. Specifically, based on the arrival time of the sound at each microphone Mij and the arrival time of the sound at the virtual observation position (known), the sound from each microphone Mij is targeted for the microphone Mij in the virtual observation area. The signals are synchronized, superimposed and enhanced. Synchronization is performed based on the virtual observation position.
  • FIGS. 15 and 16 are flowcharts showing the operation procedure of the video and audio signal processing apparatus when observing a target by performing audio enhancement processing.
  • step S40 it is determined whether or not the setting of the virtual observation position is turned off. On / off of the setting of the virtual observation position is performed, for example, on an operation environment setting screen.
  • step S40 If it is determined in step S40 that the setting of the virtual observation position is turned off, the emphasis processing is performed without setting the virtual observation position. That is, the enhancement processing is performed on the signals from all the microphones Mij in the observation target area.
  • the observation target is set (step S41).
  • the positional relationship between the observation target and each microphone Mij is calculated for all microphones Mij in the observation target area (step S42).
  • the arrival time of the sound to each microphone Mij in the observation target area is calculated (step S43).
  • the audio signal from each microphone Mij in the observation target area is emphasized (step S44). Thereby, the sound from the observation target is emphasized, and other sounds are suppressed.
  • the video and audio signal processing device 100 determines whether or not there is an instruction to record video and audio based on the input from the operation unit (step S45). If it is determined that there is a recording instruction, a recording process of a video signal and an audio signal is performed (step S46). The video / audio signal processing device 100 records the emphasized audio signal in the HDD 128 in association with the video signal. Recording is continued until the user instructs the end of the recording. Alternatively, the recording is continuously performed until a predetermined recording time is reached. The video / audio signal processing device 100 determines whether or not to end the recording based on the input from the operation unit and the elapsed time from the start of the recording (step S47).
  • step S48 it is determined whether or not there is an instruction to end the observation based on the input from the operation unit.
  • step S24 it is determined whether there is an instruction to end observation. If it is determined that there is no instruction to end the observation, as shown in FIG. 8, the process returns to step S11, and it is determined again whether or not there is an instruction to enhance the voice of the observation target based on the input from the operation unit (step S11). ). On the other hand, if it is determined that there is an instruction to end observation, the process ends.
  • step S40 If it is determined in step S40 that the setting of the virtual observation position is turned on, the virtual observation position is set and the emphasis process is performed.
  • the observation target is set (step S50).
  • a virtual observation area is set (step S51).
  • the virtual observation area is set within a range of a radius R centered on the observation target.
  • a positional relationship between the observation target and each microphone Mij is calculated for the microphone Mij in the virtual observation area (step S52).
  • the arrival time of the sound to each microphone Mij in the virtual observation area is calculated based on the calculated information on the positional relationship between the observation target and each microphone Mij (step S53).
  • the sound from each microphone Mij within the virtual observation area is calculated.
  • the signal is emphasized (step S54). Thereby, the sound from the observation target is emphasized, and other sounds are suppressed. Thereafter, the video and audio signal processing device 100 determines whether or not there is an instruction to record video and audio based on the input from the operation unit (step S55). If it is determined that there is a recording instruction, a recording process of the video signal and the audio signal is performed (step S56). The video / audio signal processing device 100 records the emphasized audio signal in the HDD 128 in association with the video signal. Recording is continued until the user instructs the end of the recording. Alternatively, the recording is continuously performed until a predetermined recording time is reached.
  • the video / audio signal processing device 100 determines whether or not to end the recording based on the input from the operation unit and the elapsed time from the start of the recording (step S57). When the recording is completed, it is determined whether or not there is an instruction to end the observation based on the input from the operation unit (step S58). When it is determined in step S24 that there is no recording instruction, it is determined whether there is an instruction to end observation (step S58). If it is determined that there is no instruction to end the observation, the process returns to step S11 as shown in FIG. 8, and again determines whether or not there is an instruction to emphasize the voice of the observation target based on the input from the operation unit (step S11). ). On the other hand, if it is determined that there is an instruction to end observation, the process ends.
  • the virtual observation position is set, and the emphasis processing is performed based on the virtual observation position, so that the processing can be simplified. In addition, this can reduce the processing load. Furthermore, since the amount of delay of the sound due to the emphasis processing is always constant, the processing for matching with the video can be easily performed.
  • the virtual observation position is set at the position of the radius R centered on the observation target, but the value of the radius R may be set freely by the user. This makes it possible to appropriately perform voice emphasis processing according to the situation.
  • the value of the radius R is set, for example, on an operation environment setting screen. Alternatively, an input window of the radius R is displayed on the display 112 together with the image from the camera 10 so that the value of the radius R can be input at an appropriate time. By setting the value of the radius R, a virtual observation position is set and a virtual observation area is set.
  • the means for setting the value of the radius R is an example of a second area size adjustment unit.
  • the video and audio signal processing device 100 causes the virtual observation area to follow the movement of the observation target when the observation target moves.
  • FIG. 17 is a conceptual diagram of following a virtual observation area.
  • the virtual observation area Z2 also follows the movement of the observation target Oj from the initial position indicated by the solid line to the one-dot broken line via the position indicated by the broken line. Move to the position indicated by.
  • FIG. 18 is a block diagram of functions of the video and audio signal processing device according to the fourth embodiment.
  • the video and audio signal processing device 100 further has a function of a tracking unit 110K that tracks the movement of the observation target.
  • the tracking unit 110K analyzes the image acquired from the camera 10, tracks the movement of the observation target set by the observation target setting unit 110B, and detects the position.
  • a known method is used for tracking by image analysis. For example, the movement of the observation target is tracked by grasping the shape of the observation target from the video and extracting the shape from a subsequent image.
  • the virtual observation area setting unit 110J sets a virtual observation area based on the position of the observation target detected by the tracking unit 110K. Therefore, when the observation target moves, a new virtual observation area is set. Thus, the virtual observation area moves following the movement of the observation target.
  • the positional relationship calculation unit 110C calculates the positional relationship between the observation target and each microphone Mij for the microphone Mij in the virtual observation area set by the virtual observation area setting unit 110J.
  • the sound arrival time calculation unit 110D is a time (arrival time) until a sound emitted from the observation target reaches each microphone Mij for the microphone Mij in the virtual observation area set by the virtual observation area setting unit 110J. Is calculated.
  • the voice enhancement processing unit 110E performs voice enhancement processing on the microphone Mij in the virtual observation area set by the virtual observation area setting unit 110J. Specifically, based on the arrival time of the sound at each microphone Mij and the arrival time of the sound at the virtual observation position (known), the sound from each microphone Mij is targeted for the microphone Mij in the virtual observation area. The signals are synchronized, superimposed and enhanced. Synchronization is performed based on the virtual observation position.
  • the virtual observation area can follow the movement of the observation target. Therefore, even when the observation target moves, the voice emphasis processing using the virtual observation position can be performed.
  • the virtual observation area follows the movement of the observation target
  • the virtual observation area is followed by delaying by the time when the sound reaches the position of the radius R set as the virtual observation position. For example, assuming that the time at which the sound reaches the position of the radius R is TR seconds, the virtual observation area is moved TR seconds after the movement of the observation target. Therefore, for example, in the example shown in FIG. 17, when the observation target Oj at the position P1 moves to the position P2 after TR seconds, the virtual observation area is set to a range of the radius R centered on the position P1.
  • the virtual observation area is set to a range of a radius R centered on the position P2. In this way, by delaying the movement of the virtual observation area with respect to the movement of the observation target, even when the observation target is moving, sound can be collected without generating a frequency change of the sound such as the Doppler effect. .
  • the arrival time of the sound at each microphone Mij is obtained by calculation based on the positional relationship between the observation target and each microphone. However, if there is an obstacle between the observation target and the microphone, a deviation occurs between the calculated value (theoretical value) and the actually measured value.
  • the video / audio signal processing apparatus 100 corrects the audio arrival time calculated by the audio arrival time calculation unit 110D, and compensates for the difference between the calculated value and the measured value.
  • FIG. 19 is a block diagram of functions of the video and audio signal processing device according to the fifth embodiment.
  • the video and audio signal processing device 100 further has a function of an audio arrival time correction unit 110L that corrects the audio arrival time calculated by the audio arrival time calculation unit 110D. .
  • the voice arrival time correction unit 110L corrects the voice arrival time (calculated value) to each microphone Mij calculated by the voice arrival time calculation unit 110D based on correction information prepared in advance.
  • the correction information is prepared as a difference from the actually measured value, and is obtained for each position in the observation target area.
  • FIG. 20 is a conceptual diagram showing an example of acquisition of correction information.
  • the observation target area Z1 is divided into a plurality of sections A (xn, yn), and the arrival time of the actual sound to each microphone Mij is measured for each section A (xn, yn).
  • the difference between the actually obtained sound arrival time (actually measured value) and the calculated sound arrival time (calculated value) is acquired as correction information.
  • the correction information is obtained for each microphone Mij for each of the divided areas A (xn, yn).
  • the obtained correction information is stored in the HDD 128.
  • the HDD 128 is an example of a correction information storage unit.
  • the enhancement processing is performed based on the information on the audio arrival time at each of the microphones Mij after correction.
  • the positional relationship between the observation target and each microphone Mij is calculated in the positional relationship calculation unit 110C.
  • the sound arrival time calculation unit 110D calculates the arrival time of the sound to each microphone Mij.
  • Information on the calculated sound arrival time (calculated value) to each microphone Mij is added to the sound arrival time correction unit 110L.
  • the voice arrival time correction unit 110L corrects the voice arrival time (calculated value) to each microphone Mij using the correction information stored in the HDD 128. Specifically, first, correction information for each microphone Mij is obtained from the HDD 128 based on the position of the observation target.
  • the section A (xn, yn) where the observation target exists is specified, and the correction information prepared for the section A (xn, yn) is acquired.
  • the sound arrival time (calculated value) to each microphone Mij is corrected based on the obtained correction information.
  • the information on the corrected sound arrival time is added to the sound enhancement processing unit 110E.
  • the voice emphasis processing section 110E performs emphasis processing based on the information of the voice arrival time to each microphone Mij after the correction.
  • the arrival time of the sound to each microphone Mij calculated by the calculation is corrected based on the arrival time of the actual sound. Even when there is an object, the sound from the observation target can be appropriately enhanced.
  • the sound arrival time of the virtual observation position is also corrected.
  • the actual sound arrival time at each microphone Mij also depends on the frequency of the sound emitted by the observation target. Therefore, it is preferable that the correction information be prepared for each frequency.
  • the audible band is divided into a plurality of bands, correction information is prepared for each divided band, and stored in the HDD 128.
  • the frequency of the sound emitted from the observation target is specified, the correction information suitable for the frequency is acquired, and the sound arrival time is corrected.
  • the form of photographing by the photographing unit may be any form that photographs the inside of the observation target area from a substantially fixed position. Therefore, for example, a mode in which the user performs hand-held shooting from a certain position may be adopted. Further, the form of photographing may be a form in which the photographing is performed while looking down from above the observation target area. Further, a mode in which a plurality of photographing units photograph a plurality of places may be used.
  • the sound collection unit only needs to be able to specify a position in the observation target area. Therefore, an arbitrary arrangement form can be adopted, and the arrangement can be made in a wide range in the observation target area. In addition, it is preferable to consider the following points at the time of arrangement.
  • the sound from the observation target is arranged in a positional relationship where the sound is collected by at least three sound collecting units. This is because the emphasis processing is performed by superimposing sounds.
  • the positional relationship between the observation target and each microphone is calculated based on information obtained from the camera (imaging unit).
  • the observation target and each microphone are calculated.
  • the method for calculating the positional relationship with the above is not limited to this.
  • means for detecting the position of the observation target may be provided to calculate the positional relationship between the observation target and each microphone (sound collection unit).
  • the distance between the imaging unit and the observation target is determined by using a distance meter, a TOF camera (TOF: Time). Measurement may be performed using a distance measuring means such as Of Flight).
  • the configuration can be simplified by calculating the positional relationship between the observation target and each microphone (sound collecting unit) based on information obtained from the camera (imaging unit).
  • the position of each sound collecting unit only needs to be obtained in advance, and the measuring method is not particularly limited.
  • the measurement may be performed based on information from the camera.
  • the method by which the video / audio signal processing device (audio processing device) acquires an audio signal from each microphone (sound collecting unit) is not particularly limited. It may be wired or wireless. Alternatively, the information may be acquired via a network.
  • The same applies to a method of acquiring a video signal from a camera (photographing unit). It may be wired or wireless. Moreover, you may acquire via a network.
  • a photographing lens and an image sensor provided in a camera function as a photographing unit
  • a display functions as a display unit
  • an image storage memory provided in the camera (photographing device) functions as a storage unit.
  • the function of the audio processing device can be realized using various processors.
  • the various processors include, for example, a CPU (Central Processing Unit) which is a general-purpose processor that executes software (program) to realize various functions.
  • the above-mentioned various processors include a programmable logic device (Programmable) which is a processor capable of changing a circuit configuration after manufacturing such as a GPU (Graphics Processing Unit) and an FPGA (Field Programmable Gate Array) which are processors specialized in image processing.
  • Logic Device PLD
  • the above-mentioned various processors include a dedicated electric circuit which is a processor having a circuit configuration designed specifically for executing a specific process such as an ASIC (Application Specific Integrated Circuit).
  • each unit may be realized by one processor, or may be realized by a plurality of same or different processors (for example, a plurality of FPGAs, a combination of a CPU and an FPGA, or a combination of a CPU and a GPU). Further, a plurality of functions may be realized by one processor. As an example in which a plurality of functions are configured by one processor, first, one processor is configured by a combination of one or more CPUs and software, as typified by a computer such as an image processing apparatus main body or a server. There is a form in which this processor is realized as a plurality of functions.
  • SoC system-on-chip
  • a processor that realizes the functions of the entire system with one integrated circuit (IC) chip
  • various functions are configured by using one or more of the above various processors as a hardware structure.
  • the hardware structure of these various processors is more specifically an electric circuit (circuitry) combining circuit elements such as semiconductor elements.
  • These electric circuits may be electric circuits that realize the above-described functions using a logical sum, a logical product, a logical negation, an exclusive logical sum, and a logical operation in which these are combined.
  • the processor or the electric circuit executes the software (program)
  • the processor (computer) readable code of the software to be executed is stored in a non-transitory recording medium such as a ROM (Read Only Memory) and the processor is executed.
  • the software stored in the non-transitory recording medium includes a program for executing input, analysis, display control, and the like of an image.
  • the code may be recorded on a non-temporary recording medium such as a magneto-optical recording device or a semiconductor memory instead of the ROM.
  • a random access memory (RAM) is used as a temporary storage area.
  • data stored in an unillustrated EEPROM Electrically Erasable and Programmable Read Only Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

観察対象が出す音声を適切に認識できる音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置を提供する。観察対象エリア内を定位置から撮影するカメラ(10)からの映像をディスプレイ(112)に表示する。ディスプレイ(112)に表示された映像内で位置の指定を受け付けて、観察対象を設定する。設定された観察対象と観察対象エリア内に離散的に配置された複数のマイクロフォン(Mij)との位置関係を算出する。算出結果に基づいて、観察対象から発せられる音声が各マイクロフォン(Mij)に到達するまでの到達時間を算出する。算出結果に基づいて、各マイクロフォン(Mij)からの音声信号を同時化し、重ね合わせて強調処理して、スピーカ(114)から出力する。

Description

音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置
 本発明は、音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置に係り、特に、複数の集音部からの音声信号を処理する音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置に関する。
 定位置に設置したカメラを使用して対象を観察するシステムにおいて、対象がどのような音を出しているのかを知りたいと考えるユーザは多い。この場合、カメラと共にマイクロフォンを設置して撮影が行われる。しかし、複数の音源が存在する場合、マイクロフォンで集音した音声から対象の音のみ認識するのは難しい。
 この課題に対して、従来、マイクロフォンアレイを使用したシステムが知られている(たとえば、特許文献1~3等)。マクロフォンアレイを使用したシステムでは、マイクロフォンアレイから取得される音声信号を処理することで指向性を制御する。
特開2008-271157号公報 特開2016-39407号公報 特開2018-23137号公報
 しかしながら、マクロフォンアレイを使用したシステムでは、方向に関する選択性しか制御できないため、たとえば、観察対象エリアが広範囲にわたる場合などには、目的とする対象の音声を適切に認識できない場合がある。また、障害物が存在する場合などにも、目的とする対象の音声を適切に認識できない場合がある。
 本発明は、このような事情に鑑みてなされたもので、観察対象が出す音声を適切に認識できる音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置を提供することを目的とする。
 上記課題を解決するための手段は、次のとおりである。
 (1)第1エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、第1エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、を備えた音声信号処理装置。
 本態様によれば、第1エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第1エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。
 (2)記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を更に備え、記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、上記(1)の音声信号処理装置。
 本態様によれば、音声信号の遅延に合わせて、映像信号が記録される。これにより、ずれなく映像と音声を記録できる。
 (3)音声強調処理部は、観察対象から最も離れた集音部で集音される音声信号を基準に、各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記(1)又は(2)の音声信号処理装置。
 本態様によれば、観察対象から最も離れた集音部で集音される音声信号を基準に、各集音部からの音声信号が同時化される。
 (4)観察対象を中心とする半径Rの範囲に第2エリアを設定する第2エリア設定部を更に備え、位置関係算出部は、第2エリア内で観察対象と各集音部との位置関係を算出し、音声到達時間算出部は、第2エリア内で観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出し、音声強調処理部は、観察対象を中心とする半径Rの位置で仮想的に集音される音声信号を基準に、第2エリア内の各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記(1)又は(2)の音声信号処理装置。
 本態様によれば、仮想的な観察エリア(第2エリア)が設定されて、強調処理が行われる。これにより、処理を簡素化できる。
 (5)観察対象の移動を追跡する追跡部を更に備え、第2エリア設定部は、第2エリアを観察対象の移動に追従させる、上記(4)の音声信号処理装置。
 本態様によれば、観察対象の移動に追従して、第2エリアが設定される。
 (6)第2エリア設定部は、半径Rの位置に音声が到達する時間分遅延させて、第2エリアを観察対象の移動に追従させる、上記(5)の音声信号処理装置。
 本態様によれば、観察対象の移動に対して、第2エリアが遅れて追従する。これにより、観察対象が移動している場合でも、ドップラー効果などの音の周波数変化を発生させずに音を収集できる。
 (7)第2エリアのサイズを調整する第2エリアサイズ調整部を更に備えた、上記(4)から(6)のいずれか一の音声信号処理装置。
 本態様によれば、第2エリアのサイズを調整できる。
 (8)各集音部への音声の到達時間の補正情報が記憶された補正情報記憶部と、補正情報記憶部に記憶された補正情報に基づいて、音声到達時間算出部で算出される音声の到達時間を補正する音声到達時間補正部と、を更に備え、音声強調処理部は、音声到達時間補正部による補正後の到達時間の情報に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する、上記(1)から(7)のいずれか一の音声信号処理装置。
 本態様によれば、位置関係に基づいて算出された音声の到達時間が、補正情報に基づいて補正される。これにより、実際の状況に則した正確な時間を求めることができる。
 (9)補正情報は、第1エリア内の各位置で発生させた音声の各集音部への到達時間の実測値に基づいて設定される、上記(8)の音声信号処理装置。
 本態様によれば、実測値に基づいて、補正情報が設定される。
 (10)補正情報記憶部には、周波数ごとの補正情報が記憶され、音声到達時間補正部は、観察対象が発する音声の周波数に応じた補正情報に基づいて、音声到達時間算出部で算出される音声の到達時間を補正する、上記(8)又は(9)の音声信号処理装置。
 本態様によれば、周波数ごとの補正情報が用意される。
 (11)位置関係算出部は、撮影部から得られる情報に基づいて、第1エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する、上記(1)から(10)のいずれか一の音声信号処理装置。
 本態様によれば、撮影部から得られる情報に基づいて、第1エリア内における観察対象の位置を特定することにより、観察対象と各集音部との位置関係が算出される。
 (12) 位置関係算出部は、撮影部から得られる情報に基づいて、撮影部に対する観察対象の方向及び距離を求め、得られた撮影部に対する観察対象の方向及び距離の情報に基づいて、第1エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する、上記(11)の音声信号処理装置。
 本態様によれば、撮影部から得られる情報に基づいて、撮影部に対する観察対象の方向及び距離を求めることにより、観察対象の位置が特定される。
 (13)観察対象の大きさよりも広い間隔で集音部が配置される、上記(1)から(12)のいずれか一の音声信号処理装置。
 本態様によれば、観察対象の大きさよりも広い間隔で集音部が配置される。
 (14)位置関係算出部で算出可能な位置の分解能よりも広い間隔で集音部が配置される、上記(1)から(12)のいずれか一の音声信号処理装置。
 本態様によれば、位置関係算出部で算出可能な位置の分解能よりも広い間隔で集音部が配置される。
 (15)観察対象からの音声が少なくとも3つの集音部で集音される間隔で集音部が配置される、上記(1)から(12)のいずれか一の音声信号処理装置。
 本態様によれば、観察対象からの音声が少なくとも3つの集音部で集音される間隔で集音部が配置される。
 (16)第1エリア内に離散的に配置された複数の集音部から音声信号を取得するステップと、第1エリア内を定位置から撮影する撮影部から映像信号を取得するステップと、撮影部で撮影された映像を表示部に表示するステップと、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定するステップと、観察対象と各集音部との位置関係を算出するステップと、位置関係の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出するステップと、音声の到達時間の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理するステップと、を含む音声信号処理方法。
 本態様によれば、第1エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第1エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。
 (17)強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録するステップを更に含む、上記(16)の音声信号処理方法。
 本態様によれば、音声信号の遅延に合わせて、映像信号が記録される。これにより、ずれなく映像と音声を記録できる。
 (18)第1エリア内に離散的に配置された複数の集音部から音声信号を取得する機能と、第1エリア内を定位置から撮影する撮影部から映像信号を取得する機能と、撮影部で撮影された映像を表示部に表示する機能と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する機能と、観察対象と各集音部との位置関係を算出する機能と、位置関係の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する機能と、音声の到達時間の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する機能と、をコンピュータに実現させる音声信号処理プログラム。
 本態様によれば、第1エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第1エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。
 (19)強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録する機能を更に含む、上記(18)の音声信号処理プログラム。
 本態様によれば、音声信号の遅延に合わせて、映像信号が記録される。これにより、ずれなく映像と音声を記録できる。
 (20)第1エリア内に離散的に配置された複数の集音部と、各集音部から音声信号を取得する音声信号取得部と、第1エリア内を定位置から撮影する撮影部と、撮影部から映像信号を取得する映像信号取得部と、映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、を備えた音声信号処理システム。
 本態様によれば、第1エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第1エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。
 (21)記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を更に備え、記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、上記(20)の音声信号処理システム。
 本態様によれば、音声信号の遅延に合わせて、映像信号が記録される。これにより、ずれなく映像と音声を記録できる。
 (22)撮影部と、撮影部から出力される映像信号が表わす映像を表示する表示部と、表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、第1エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、定位置から第1エリア内を撮影した場合に、撮影部から得られる情報に基づいて、第1エリア内における観察対象の位置を特定し、観察対象と各集音部との位置関係を算出する位置関係算出部と、位置関係算出部の算出結果に基づいて、観察対象から発せられる音声が各集音部に到達するまでの到達時間を算出する音声到達時間算出部と、音声到達時間算出部の算出結果に基づいて、各集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、記憶部と、記憶部への映像信号及び音声信号の記録を制御する記録制御部と、を備えた撮影装置。
 本態様によれば、第1エリア内に離散的に配置された複数の集音部からの音声信号を処理することにより、第1エリア内に障害物が存在する場合などにも、観察対象が発する音声を適切に認識できる。
 本発明によれば、観察対象が出す音声を適切に認識できる。
本発明が適用された観察システムの概略構成図 カメラ及び複数のマイクロフォンのレイアウトの一例を示す平面図 映像音声信号処理装置のハードウェアの概略構成を示すブロック図 映像音声信号処理装置が有する機能のブロック図 観察対象の選択画面の一例を示す図 各マイクロフォンへの音声の到達時間の算出の概念図 音声信号の強調処理の概念図 観察する場合の映像音声信号処理装置の動作手順を示すフローチャート 観察する場合の映像音声信号処理装置の動作手順を示すフローチャート 記録済みの映像を再生する場合の映像音声信号処理装置の動作手順を示すフローチャート 音声を強調処理して記録する場合の記録処理に係わる機能のブロック図 仮想観察位置の概念図 仮想観察エリア内のマイクロフォンを用いた強調処理の概念図 第3の実施の形態の映像音声信号処理装置が有する機能のブロック図 音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャート 音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャート 仮想観察エリアの追従の概念図 第4の実施の形態の映像音声信号処理装置が有する機能のブロック図 第5の実施の形態の映像音声信号処理装置が有する機能のブロック図 補正情報の取得の一例を示す概念図
 以下、添付図面に従って本発明を実施するための好ましい形態について詳説する。
 [第1の実施の形態]
 [構成]
 図1は、本発明が適用された観察システムの概略構成図である。
 この観察システム1は、所定の観察対象エリア(第1エリア)において、観察対象をカメラ10で撮影して観察するシステムとして構成され、観察対象を撮影するカメラ10と、観察対象エリア内の音声を集音する複数のマイクロフォンMij(i=1、2、3、j=1、2、3、4、5)と、カメラ10からの映像信号及び複数のマイクロフォンMijからの音声信号を処理する映像音声信号処理装置100と、を備える。観察システム1は、音声信号処理システムの一例である。
 図2は、カメラ及び複数のマイクロフォンのレイアウトの一例を示す平面図である。
 カメラ10は、リモコン雲台14を介して、定位置に設置される。リモコン雲台14は、遠隔操作により、カメラ10をパンニング及びチルティングさせる。カメラ10は、ビデオカメラであり、レンズ12を通した映像を撮像素子に結像させ、映像信号として出力する。本実施の形態では、デジタルの映像信号を出力する。カメラ10は、AE(Automatic Exposure;自動露出)、AF(Auto Focus;自動焦点合せ)、AWB(Auto white balance;オートホワイトバランス)等の一般的なビデオカメラの機能を有する。また、カメラ10は、光学式のズーム機能を有する。カメラ10は、撮影部の一例である。後述するように、カメラ10及びリモコン雲台14は、映像音声信号処理装置100によって遠隔操作される。
 マイクロフォンMijは、図2に破線で示す観察対象エリアZ1内に離散的に配置される。複数のマイクロフォンMijを観察対象エリアZ1内に離散的に配置することにより、観察対象エリアZ1内の音声を満遍なく集音できる。図2に示す例では、矩形の観察対象エリアZ1内に複数のマイクロフォンMijを、前後方向(図2においてy軸方向)及び左右方向(図2においてx軸方向)に一定の間隔で配置している。各マイクロフォンMijは、無指向性(全指向性)のマイクロフォンで構成される。マイクロフォンMijは、集音部の一例である。なお、各マイクロフォンMijの位置は固定である。したがって、カメラ10に対する各マイクロフォンMijの位置も固定であり、その位置関係は、事前に求めることができる。カメラ10と各マイクロフォンMijとの位置関係は、たとえば、カメラ10を原点とする空間座標によって特定される。この関係は既知である。
 図3は、映像音声信号処理装置のハードウェアの概略構成を示すブロック図である。
 映像音声信号処理装置100は、音声処理装置の一例である。映像音声信号処理装置100は、パーソナルコンピュータ等のコンピュータで構成される。この映像音声信号処理装置100を構成するコンピュータは、コンピュータ本体110と、表示部としてのディスプレイ112、音声出力部としてのスピーカ114、並びに、操作部としてのキーボード116及びマウス118等を備える。
 コンピュータ本体110は、CPU(Central Processing Unit;中央処理装置)120、IPL(Initial Program Loader)の他、各種プログラム及び各種データを記憶するROM(Read Only Memory)122、CPU120のワークエリアとして使用されるRAM(Random Access Memory)124、ディスプレイ112に表示する画像データを記憶するVRAM(Video Random Access Memory;画像メモリ)126、記憶部としてのHDD(Hard Disk Drive)128、DVD-ROM(DVD:Digital Versatile Disc)等の光学ディスクの読み出しを行う光学ドライブ130を備える。OS(Operating System)の他、各種プログラム及び各種データは、HDD128に記憶される。
 また、コンピュータ本体110は、ディスプレイ112が接続されて、ディスプレイ112に映像信号を出力する映像出力インターフェイス(interface , I/F)132、スピーカ114が接続されて、スピーカ114に音声信号を出力する音声出力インターフェイス134、キーボード116が接続されて、キーボード116からの操作信号が入力されるキーボードインターフェイス136、及び、マウス118が接続されて、マウス118からの操作信号が入力されるマウスインターフェイス138等を備える。
 更に、コンピュータ本体110は、複数のマイクロフォンMijが接続されて、各マイクロフォンMijからの音声信号が入力される音声入力インターフェイス140、カメラ10が接続されて、カメラ10からの映像信号が入力される映像入力インターフェイス142、及び、カメラ10が接続されて、カメラ10と通信するカメラ通信インターフェイス144等を備える。
 音声入力インターフェイス140は、各マイクロフォンMijを接続する複数の端子(不図示)を備える。また、音声入力インターフェイス140は、端子を介して各マイクロフォンMijから入力されるアナログの音声信号をデジタルの音声信号に変換するアナログデジタルコンバータ(不図示)を含む。音声入力インターフェイス140は、音声信号取得部の一例である。
 映像入力インターフェイス142は、カメラ10を接続する端子を備える。上記のように、カメラ10はデジタルの映像信号を出力する。したがって、映像入力インターフェイス142には、デジタルの映像信号が入力される。映像入力インターフェイス142は、映像信号取得部の一例である。
 カメラ通信インターフェイス144は、カメラ10と接続されて、カメラ10との間で相互に通信する。映像音声信号処理装置100は、このカメラ通信インターフェイス144を介してカメラ10と通信し、カメラ10に制御信号を送信する。たとえば、ズーム、フォーカス、パンニング及びチルティング等の制御信号を送信する。また、映像音声信号処理装置100は、このカメラ通信インターフェイス144を介してカメラ10と通信し、カメラ10から設定情報を受信する。たとえば、設定されている焦点距離の情報、フォーカスレンズの位置に基づく被写体距離の情報、絞りの設定情報等を取得する。
 図4は、映像音声信号処理装置が有する機能のブロック図である。
 映像音声信号処理装置100は、表示制御部110A、観察対象設定部110B、位置関係算出部110C、音声到達時間算出部110D、音声強調処理部110E、音声出力制御部110F、記録制御部110G、再生制御部110H及びカメラ制御部110I等の機能を有する。これらの機能は、映像音声信号処理装置100を構成するコンピュータ本体110が、所定の制御プログラム(音声信号処理プログラム)を実行することにより実現される。
 表示制御部110Aは、映像入力インターフェイス142を介してカメラ10から取得される映像信号が表わす映像をディスプレイ112に表示させる。これにより、カメラ10で捉えた映像がディスプレイ112に表示される。
 観察対象設定部110Bは、ディスプレイ112に表示された映像内で位置の指定を受け付けて、観察対象を設定する。位置の指定は、操作部であるキーボード116及びマウス118によって行われる。図5は、観察対象の選択画面の一例を示す図である。同図に示すように、カメラ10で撮影された映像に重ねてカーソルCを表示し、そのカーソルCの位置をキーボード116又はマウス118の操作で移動させて、観察対象Ojを選択する。なお、図5に示す例では、カーソルCを矩形の枠で表示しているが、カーソルCの形状は、これに限定されるものではない。
 位置関係算出部110Cは、観察対象と各マイクロフォンMijとの位置関係を算出する。この際、位置関係算出部110Cは、カメラ10に対する観察対象の位置を特定して、観察対象と各マイクロフォンMijの位置関係を算出する。上記のように、カメラ10と各マイクロフォンMijとの位置関係は既知である。したがって、カメラ10に対する観察対象の位置が分かれば、観察対象と各マイクロフォンMijとの位置関係も求めることができる。
 カメラ10に対する観察対象Ojの位置は、カメラ10から得られる情報に基づいて算出される。本実施の形態では、カメラ10から得られる情報に基づいて、カメラ10に対する観察対象Ojの方向及びカメラ10から観察対象Ojまでの距離を求め、得られた方向と距離の情報に基づいて、カメラ10に対する観察対象Ojの位置を特定する。
 カメラ10に対する観察対象Ojの方向は、パン及びチルトの設定情報と、画面内における観察対象Ojの位置の情報とに基づいて算出される。画面内における観察対象Ojの位置は、画面の中心に対する観察対象Ojの位置を画像から算出して取得する。すなわち、撮影光軸の向きをパン及びチルトの設定情報から取得し、撮影光軸に対する観察対象Ojの位置から観察対象Ojの方向を算出する。
 カメラ10から観察対象までの距離は、観察対象Ojに焦点を合わせた際の被写体距離の情報から取得する。被写体距離の情報は、カメラ10から取得する。カメラ10は、フォーカスレンズの位置から被写体距離を求める。
 カメラ10に対する観察対象Ojの位置は、カメラ10を原点とする空間座標によって特定される。上記のように、カメラ10に対する各マイクロフォンMijの位置もカメラ10を原点とする空間座標によって特定される。したがって、当該空間座標上で観察対象Ojの位置が特定されれば、観察対象Ojと各マイクロフォンMijとの位置関係も特定される。なお、カメラ10に対する各マイクロフォンMijの位置関係の情報は、あらかじめHDD128に記憶される。
 音声到達時間算出部110Dは、位置関係算出部110Cで算出された観察対象Ojと各マイクロフォンMijとの位置関係に基づいて、観察対象から発せられる音声が、各マイクロフォンMijに到達するまでの時間(到達時間)を算出する。
 図6は、各マイクロフォンへの音声の到達時間の算出の概念図である。
 同図に示すように、観察対象Ojと各マイクロフォンMijとの間の距離Dij(i=1、2、3、j=1、2、3、4、5)を個別に求め、各マイクロフォンMijへの音声の到達時間Tij(i=1、2、3、j=1、2、3、4、5)を個別に算出する。
 音声強調処理部110Eは、音声到達時間算出部110Dによる各マイクロフォンMijへの音声の到達時間Tijの算出結果に基づいて、音声の強調処理を行う。具体的には、各マイクロフォンMijへの音声の到達時間Tijに基づいて、各マイクロフォンMijからの音声信号を同時化し、重ね合わせて強調処理する。以下、この強調処理について説明する。
 図7は、音声信号の強調処理の概念図である。
 ここでは、説明を簡単にするため、2つのマイクロフォンからの音声信号を処理する場合を例に説明する。
 2つのマイクロフォンM1、M2は、音源SSからの距離D1、D2が異なる。この場合、2つのマイクロフォンM1、M2は、距離の差(D1-D2)の分だけ、音源SSからの音の到達時間に差が生じる。具体的には、音源SSからの距離が遠いマイクロフォンM1は、音源SSからの距離が近いマイクロフォンM2に対して、到達時間差δだけ、音源SSからの音が遅延して到達する。強調処理では、この遅延を補償するように、一方のマイクロフォンM2(音が速く到達する方のマイクロフォン)の信号を遅延させ、その遅延させた信号を他方のマイクロフォンM1(音が遅延して到達するマイクロフォン)の信号に加算する。すなわち、遅延により同時化し、双方の信号の位相を一致させて、加算する。位相が一致した信号を加算することにより、目的の信号が強調される。その一方で不要な信号が抑制される。このように強調処理することにより、目的の音声、すなわち、観察対象から発する音声を強調でき、その他の音声(ノイズ等)を抑制できる。
 3以上のマイクロフォンが備えられている場合は、音源から最も離れたマイクロフォン、すなわち、音源からの音声の到達時間が最も遅いマイクロフォンに合わせて、音声信号を同時化し、位相を一致させる。
 音声出力制御部110Fは、音声強調処理部110Eで強調処理された音声信号をスピーカ114から出力させる。
 記録制御部110Gは、操作部からの記録指示に基づいて、カメラ10から入力された映像信号、及び、マイクロフォンMijから入力された音声信号をHDD128に記録する。なお、記録制御部110Gが行う映像信号及び音声信号の記録処理は、音声信号を強調処理する場合としない場合とで異なる。音声信号を強調処理しない場合、各マイクロフォンMijからの音声信号を映像信号に関連付けて個別に記録する。したがって、この場合、マイクロフォンMijの数だけ音声信号が記録される。一方、音声信号を強調処理する場合、強調処理後の音声信号が映像信号に関連付けられて記録される。
 再生制御部110Hは、操作部からの再生指示に基づいて、HDD128に記録された映像信号及び音声信号の再生処理を行う。すなわち、HDD128から映像信号及び音声信号を読み出し、ディスプレイ112及びスピーカ114から出力させる。再生制御部110Hは、操作部から再生を希望する映像信号の選択を受け付けて再生処理を行う。選択された映像信号に複数の音声信号が関連付けられて記録されている場合は、更に、再生を希望する音声信号の選択を受け付けて再生処理を行う。
 カメラ制御部110Iは、操作部からの入力に基づいて、カメラ10を制御する。たとえば、操作部からズームの指示を受け付けて、カメラ10をズームさせたり、操作部からフォーカスエリアの選択を受け付けて、選択されたエリアに焦点を合わさせたり、操作部からパンニング又はチルティングの指示を受け付けて、カメラ10をパンニング又はチルティングさせたりする。なお、観察対象が選択された場合には、選択された観察対象にフォーカスエリアが設定され、カメラ10の焦点が合わせられる。
 [観察する場合の動作(音声信号処理方法)]
 図8及び図9は、観察する場合の映像音声信号処理装置の動作手順を示すフローチャートである。
 図8に示すように、まず、カメラ10から出力される映像信号を取り込み、カメラ10で捉えた映像をディスプレイ112に表示させる(ステップS10)。ユーザ(観察者)は、このディスプレイ112に表示される映像を見て、観察対象エリア内を観察する。ユーザは、必要に応じて操作部(キーボード116及びマウス118)を操作し、カメラ10を遠隔操作する。
 映像音声信号処理装置100は、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する(ステップS11)。
 観察対象の音声を強調させる指示なし、と判定すると、映像音声信号処理装置100は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する(ステップS12)。
 記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う(ステップS13)。この場合、観察対象エリア内の各マイクロフォンMijから個別に音声信号を取り込み、映像信号に関連付けて、HDD128に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置100は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する(ステップS14)。
 記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する(ステップS15)。ステップS12において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する(ステップS15)。
 観察の終了の指示なし、と判定すると、ステップS11に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する(ステップS11)。一方、観察終了の指示あり、と判定すると、処理を終了する。
 ステップS11において、観察対象の音声を強調させる指示あり、と判定すると、図9に示すように、観察対象を設定する処理を行う(ステップS20)。観察対象の設定は、ディスプレイ112に表示された映像内で位置の指定を受け付けることにより行われる。
 観察対象が設定されると、観察対象と各マイクロフォンMijとの位置関係を算出する(ステップS21)。上記のように、観察対象と各マイクロフォンMijとの位置関係は、カメラ10から得られる情報に基づいて算出する。具体的には、まず、カメラ10から得られる情報に基づいて、カメラ10に対する観察対象の方向及びカメラ10から観察対象までの距離を求める。次に、求めた方向と距離の情報に基づいて、カメラ10に対する観察対象の位置を特定する。カメラ10と各マイクロフォンMijとの位置関係は既知なので、カメラ10に対する観察対象の位置が特定されることにより、観察対象と各マイクロフォンMijとの位置関係が特定される。より具体的には、空間座標上での観察対象と各マイクロフォンMijとの位置関係が特定される。
 次に、算出された観察対象と各マイクロフォンMijとの位置関係の情報に基づいて、各マイクロフォンMijへの音の到達時間を算出する(ステップS22)。
 次に、算出された各マイクロフォンMijへの音の到達時間の情報に基づいて、音声の強調処理を行う(ステップS23)。上記のように、音声の強調処理は、まず、到達時間が最も遅いマイクロフォンに合わせて、各マイクロフォンMijの音声信号を同時化し、各マイクロフォンMijの音声信号の位相を一致させる。その後、各マイクロフォンMijの音声信号を重ね合わせる。これにより、観察対象からの音声が強調され、その他の音声(ノイズ等)が抑制される。
 強調処理された音声は、スピーカ114から出力される。ユーザ(観察者)は、このスピーカ114から出力される音声を聞くことで、観察対象が出す音を聞くことができる。この後、映像音声信号処理装置100は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する(ステップS24)。
 記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う(ステップS25)。映像音声信号処理装置100は、強調処理された音声信号を映像信号に関連付けて、HDD128に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置100は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する(ステップS26)。
 記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する(ステップS27)。ステップS24において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する(ステップS27)。
 観察の終了の指示なし、と判定すると、図8に示すように、ステップS11に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する(ステップS11)。一方、観察終了の指示あり、と判定すると、処理を終了する。
 このように、本実施の形態の映像音声信号処理装置100によれば、必要に応じて観察対象の音声を強調して聞くことができ、また、記録することができる。観察対象の音声を集音するマイクロフォンMijは、観察対象エリア内の複数箇所に離散して設置されるため、観察対象がどこに存在していても、その音声を捉えることができ、かつ、必要に応じて強調して聞くことができる。
 [記録済みの映像を再生する場合]
 図10は、記録済みの映像を再生する場合の映像音声信号処理装置の動作手順を示すフローチャートである。
 まず、再生する映像の選択を受け付ける処理を行う(ステップS30)。再生する映像の選択は、たとえば、HDD128に記録されている映像の一覧をディスプレイ112に表示し、その中から1つをユーザに選択させることにより行う。
 再生する映像が選択されると、選択された映像に複数の音声が関連付けて記録されているか否かを判定する(ステップS31)。複数の音声が関連付けられて記録されていると判定すると、再生する音声の選択を受け付ける処理を行う(ステップS32)。再生する音声の選択は、映像の選択と同様に、たとえば、関連付けられている音声の一覧をディスプレイ112に表示し、その中から1つをユーザに選択させることにより行う。選択後、再生処理を行う(ステップS33)。また、ステップS31において、複数の音声が関連付けられて記録されていないと判定した場合は、そのまま再生処理を行う(ステップS33)。
 再生処理は、映像については、選択された映像の映像信号をHDD128から読み出し、ディスプレイ112に出力させることにより行われる。また、音声については、対象の音声信号をHDD128から読み出し、スピーカ114から出力させることにより行われる。
 この後、操作部からの指示に基づいて、再生終了の指示の有無を判定する(ステップS34)。再生終了の指示なし、と判定すると、ステップS30に戻り、再生する映像の選択を受け付ける処理を行う(ステップS30)。一方、再生終了の指示あり、と判定すると、処理を終了する。
 [第2の実施の形態]
 音声の強調処理を行うと、映像と音声にズレが生じ得る。具体的には、映像に対して音声が遅延する事態が生じ得る。このため、本実施の形態の映像音声信号処理装置100は、音声を強調処理して記録する場合に、映像と音声にずれが生じないように、映像を音声に合わせて記録する。
 図11は、音声を強調処理して記録する場合の記録処理に係わる機能のブロック図である。
 記録制御部110Gは、音声強調処理部110Eから強調処理された音声信号を取得し、HDD128に記録する。この音声信号は、強調処理により、映像信号から遅延する。記録制御部110Gは、強調処理により遅延する音声信号に合わせて、映像信号を遅延させて、HDD128に記録する。
 記録制御部110Gは、音声到達時間算出部110Dから各マイクロフォンMijへの音声の到達時間の情報を取得して、映像信号に対する音声信号の遅延量を求める。すなわち、音声強調処理部110Eでは、音声の到達時間が最も遅いマイクロフォンに合わせて、音声信号の同時化が行われるので、音声の到達時間が最も遅いマイクロフォンへの音声の到達時間が分かれば、映像信号に対する音声信号の遅延量が分かる。
 記録制御部110Gは、音声信号が遅延する分だけ、映像信号を遅延させて、HDD128に記録する。これにより、強調処理した場合であっても、ずれのない映像信号及び音声信号をHDD128に記録できる。
 [第3の実施の形態]
 [概要]
 本実施の形態の映像音声信号処理装置100は、強調処理を行う際に、仮想的に設定した観察位置(仮想観察位置)を基準に強調処理を行う。
 図12は、仮想観察位置の概念図である。
 同図に示すように、仮想観察位置IPは、観察対象Ojを中心とする半径Rの円の円周上に設定される。この仮想観察位置IPを構成する半径Rの円の内側のエリアを仮想観察エリアZ2とすると、強調処理は、その仮想観察エリアZ2内のマイクロフォンを対象に行われる。図12に示す例では、4つのマイクロフォンM11、M12、M21、M22が仮想観察エリアZ2内のマイクロフォンである。この仮想観察エリアZ2内のマイクロフォンM11、M12、M21、M22を対象に観察対象Ojとの位置関係を算出し、各マイクロフォンM11、M12、M21、M22への音声の到達時間を算出して、強調処理を行う。
 図13は、仮想観察エリア内のマイクロフォンを用いた強調処理の概念図である。
 観察対象と各マイクロフォンM11、M12、M21、M22との位置関係から、観察対象と各マイクロフォンM11、M12、M21、M22と間の距離D11、D12、D21、D22を求め、各マイクロフォンM11、M12、M21、M22への音声の到達時間を算出する。そして、仮想観察位置IPを基準に各マイクロフォンM11、M12、M21、M22からの音声信号を同時化し、重ね合わせる。これにより、音源である観察対象の音声が強調される。同時化の際には、仮想観察位置IPとの音声の到達時間差δ11、δ12、δ21、δ22を求め、求めた到達時間差δ11、δ12、δ21、δ22に基づいて、各マイクロフォンM11、M12、M21、M22からの音声信号を同時化する。
 このように、仮想観察位置を設定することで、音源から最も離れたマイクロフォンを特定する必要がなくなり、同時化の際の処理を簡素化できる。
 [構成]
 図14は、第3の実施の形態の映像音声信号処理装置が有する機能のブロック図である。
 同図に示すように、第3の実施の形態の映像音声信号処理装置100は、仮想観察エリア設定部110Jの機能を更に有する。
 仮想観察エリア設定部110Jは、観察対象設定部110Bで設定された観察対象の位置を基準に仮想観察エリアを設定する。仮想観察エリアは、観察対象を基準として、半径Rの範囲に設定される。Rは、あらかじめ定められた値である。仮想観察エリアは、第2エリアの一例であり、仮想観察エリア設定部110Jは、第2エリア設定部の一例である。仮想観察エリアの外周が、仮想観察位置とされる。
 仮想観察エリア設定部110Jで設定される仮想観察エリアの情報は、位置関係算出部110C、音声到達時間算出部110D及び音声強調処理部110Eに加えられる。
 位置関係算出部110Cは、仮想観察エリア内のマイクロフォンMijを対象に、観察対象と各マイクロフォンMijとの位置関係を算出する。
 音声到達時間算出部110Dは、仮想観察エリア内のマイクロフォンMijを対象に、観察対象から発せられる音声が、各マイクロフォンMijに到達するまでの時間(到達時間)を算出する。
 音声強調処理部110Eは、仮想観察エリア内のマイクロフォンMijを対象に、音声の強調処理を行う。具体的には、仮想観察エリア内のマイクロフォンMijを対象に、各マイクロフォンMijへの音声の到達時間、及び、仮想観察位置への音声の到達時間(既知)に基づいて、各マイクロフォンMijからの音声信号を同時化し、重ね合わせて強調処理する。同時化は、仮想観察位置を基準にして行う。
 [作用]
 以下、本実施の形態の映像処理装置で対象を観察する場合について説明する。なお、音声の強調処理をしない場合の動作については、上記第1の実施の形態と同じなので、ここでは、音声の強調処理を行う場合についてのみ説明する。
 図15及び図16は、音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順を示すフローチャートである。
 図15に示すように、まず、仮想観察位置の設定がオフされているか否かを判定する(ステップS40)。仮想観察位置の設定のオン、オフは、たとえば、動作環境の設定画面で行う。
 ステップS40において、仮想観察位置の設定がオフされている、と判定すると、仮想観察位置の設定を行わずに、強調処理を行う。すなわち、観察対象エリア内のすべてのマイクロフォンMijからの信号を対象に強調処理を行う。
 まず、観察対象の設定を行う(ステップS41)。観察対象が設定されると、次に、観察対象エリア内のすべてのマイクロフォンMijを対象に、観察対象と各マイクロフォンMijとの位置関係を算出する(ステップS42)。次に、算出された観察対象と各マイクロフォンMijとの位置関係の情報に基づいて、観察対象エリア内の各マイクロフォンMijへの音の到達時間を算出する(ステップS43)。次に、算出された各マイクロフォンMijへの音の到達時間の情報に基づいて、観察対象エリア内の各マイクロフォンMijからの音声信号を強調処理する(ステップS44)。これにより、観察対象からの音声が強調され、その他の音声が抑制される。この後、映像音声信号処理装置100は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する(ステップS45)。記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う(ステップS46)。映像音声信号処理装置100は、強調処理された音声信号を映像信号に関連付けて、HDD128に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置100は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する(ステップS47)。記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する(ステップS48)。ステップS24において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する(ステップS48)。観察の終了の指示なし、と判定すると、図8に示すように、ステップS11に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する(ステップS11)。一方、観察終了の指示あり、と判定すると、処理を終了する。
 ステップS40において、仮想観察位置の設定がオンされている、と判定すると、仮想観察位置を設定して、強調処理を行う。
 図16に示すように、まず、観察対象の設定を行う(ステップS50)。次に、仮想観察エリアを設定する(ステップS51)。仮想観察エリアは、観察対象を中心とする半径Rの範囲に設定する。次に、仮想観察エリア内のマイクロフォンMijを対象に、観察対象と各マイクロフォンMijとの位置関係を算出する(ステップS52)。次に、算出された観察対象と各マイクロフォンMijとの位置関係の情報に基づいて、仮想観察エリア内の各マイクロフォンMijへの音の到達時間を算出する(ステップS53)。次に、算出された仮想観察エリア内の各マイクロフォンMijへの音の到達時間及び仮想観察位置への音の到達時間(既知)の情報に基づいて、仮想観察エリア内の各マイクロフォンMijからの音声信号を強調処理する(ステップS54)。これにより、観察対象からの音声が強調され、その他の音声が抑制される。この後、映像音声信号処理装置100は、操作部からの入力に基づいて、映像及び音声の記録の指示の有無を判定する(ステップS55)。記録の指示あり、と判定すると、映像信号及び音声信号の記録処理を行う(ステップS56)。映像音声信号処理装置100は、強調処理された音声信号を映像信号に関連付けて、HDD128に記録する。記録は、ユーザから記録の終了が指示されるまで継続して行われる。あるいは、あらかじめ定められた記録時間に達するまで継続して行われる。映像音声信号処理装置100は、操作部からの入力、及び、記録開始からの経過時間に基づいて、記録終了の可否を判定する(ステップS57)。記録が終了すると、操作部からの入力に基づいて、観察の終了の指示の有無を判定する(ステップS58)。ステップS24において、記録の指示なし、と判定した場合も、観察の終了の指示の有無を判定する(ステップS58)。観察の終了の指示なし、と判定すると、図8に示すように、ステップS11に戻り、再度、操作部からの入力に基づいて、観察対象の音声の強調させる指示の有無を判定する(ステップS11)。一方、観察終了の指示あり、と判定すると、処理を終了する。
 このように、本実施の形態の映像音声信号処理装置100によれば、仮想観察位置を設定し、その仮想観察位置を基準にして、強調処理を行うので、処理を簡素化できる。また、これにより、処理の負荷を軽減できる。更に、強調処理によって音声が遅延する量は、常に一定となるので、映像と合わせる処理も容易にできる。
 [変形例]
 上記実施の形態では、観察対象を中心とする半径Rの位置に仮想観察位置を設定しているが、この半径Rの値をユーザが自由に設定できるようにしてもよい。これにより、状況に応じて、適切に音声の強調処理を行うことができる。
 半径Rの値の設定は、たとえば、動作環境の設定画面で行う。あるいは、ディスプレイ112にカメラ10からの映像と共に半径Rの入力ウインドウを表示し、適時、半径Rの値を入力できるように構成する。この半径Rの値を設定することにより、仮想観察位置が設定され、かつ、仮想観察エリアが設定される。この半径Rの値を設定する手段は、第2エリアサイズ調整部の一例である。
 [第4の実施の形態]
 本実施の形態の映像音声信号処理装置100は、観察対象が移動する場合に、仮想観察エリアを観察対象の移動に追従させる。
 図17は、仮想観察エリアの追従の概念図である。
 観察対象Ojが、初期位置P1から位置P2を経て位置P3に移動する場合、仮想観察エリアZ2も、観察対象Ojの移動に追従して、実線で示す初期位置から破線で示す位置を経て一点破線で示す位置に移動する。
 図18は、第4の実施の形態の映像音声信号処理装置が有する機能のブロック図である。
 同図に示すように、第4の実施の形態の映像音声信号処理装置100は、観察対象の移動を追跡する追跡部110Kの機能を更に有する。
 追跡部110Kは、カメラ10から取得される映像を解析して、観察対象設定部110Bで設定された観察対象の移動を追跡し、その位置を検出する。画像解析による追跡には、公知の手法が採用される。たとえば、映像から観察対象の形状を把握し、後に続く画像からその形状を抽出することによって、観察対象の移動を追跡する。
 仮想観察エリア設定部110Jは、追跡部110Kで検出される観察対象の位置に基づいて、仮想観察エリアを設定する。したがって、観察対象が移動した場合には、新たに仮想観察エリアを設定する。これにより、観察対象の移動に追従して、仮想観察エリアが移動する。
 位置関係算出部110Cは、仮想観察エリア設定部110Jで設定された仮想観察エリア内のマイクロフォンMijを対象に、観察対象と各マイクロフォンMijとの位置関係を算出する。
 音声到達時間算出部110Dは、仮想観察エリア設定部110Jで設定された仮想観察エリア内のマイクロフォンMijを対象に、観察対象から発せられる音声が、各マイクロフォンMijに到達するまでの時間(到達時間)を算出する。
 音声強調処理部110Eは、仮想観察エリア設定部110Jで設定された仮想観察エリア内のマイクロフォンMijを対象に、音声の強調処理を行う。具体的には、仮想観察エリア内のマイクロフォンMijを対象に、各マイクロフォンMijへの音声の到達時間、及び、仮想観察位置への音声の到達時間(既知)に基づいて、各マイクロフォンMijからの音声信号を同時化し、重ね合わせて強調処理する。同時化は、仮想観察位置を基準にして行う。
 このように、本実施の形態の映像音声信号処理装置100によれば、観察対象が移動する場合に、仮想観察エリアを観察対象の移動に追従させることができる。これにより、観察対象が移動する場合であっても、仮想観察位置を用いた音声の強調処理を行うことができる。
 [変形例]
 上記の例では、画面内で観察対象の移動を追跡する場合を例に説明したが、カメラ10がパンニング及び/又はチルティングの機能を備えている場合には、観察対象を追尾しながら、観察対象の移動を追跡してもよい。
 また、仮想観察エリアを観察対象の移動に追従させる場合には、観察対象の移動に対して、一定の遅れをもって追従させることがより好ましい。具体的には、仮想観察位置として設定される半径Rの位置に音声が到達する時間分遅延させて、仮想観察エリアを追従させる。たとえば、半径Rの位置に音声が到達する時間をTR秒とすると、観察対象の移動からTR秒後に仮想観察エリアを移動させる。したがって、たとえば、図17に示す例において、位置P1にいた観察対象OjがTR秒後に位置P2に移動した場合、仮想観察エリアは、位置P1を中心とする半径Rの範囲に設定される。また、位置P2にいた観察対象OjがTR秒後に位置P3に移動した場合、仮想観察エリアは、位置P2を中心とする半径Rの範囲に設定される。このように、観察対象の移動に対して、仮想観察エリアの移動を遅延させることにより、観察対象が移動している場合でも、ドップラー効果などの音の周波数変化を発生させずに音を収集できる。
 [第5の実施の形態]
 上記のように、各マイクロフォンMijへの音の到達時間は、観察対象と各マイクロフォンとの位置関係に基づいて、計算により求められる。しかし、観察対象とマイクロフォンとの間に障害物が存在すると、計算値(理論値)と実測値との間にずれが生じる。本実施の形態の映像音声信号処理装置100は、音声到達時間算出部110Dで算出される音声到達時間を補正し、計算値と実測値とのずれを補償する。
 [構成]
 図19は、第5の実施の形態の映像音声信号処理装置が有する機能のブロック図である。
 同図に示すように、第5の実施の形態の映像音声信号処理装置100は、音声到達時間算出部110Dで算出される音声の到達時間を補正する音声到達時間補正部110Lの機能を更に有する。
 音声到達時間補正部110Lは、あらかじめ用意された補正情報に基づいて、音声到達時間算出部110Dで算出される各マイクロフォンMijへの音声到達時間(計算値)を補正する。補正情報は、実測値との差分として用意され、観察対象エリア内の位置ごとに求められる。
 図20は、補正情報の取得の一例を示す概念図である。
 同図に示すように、観察対象エリアZ1を複数の区域A(xn,yn)に分割し、各マイクロフォンMijへの実際の音の到達時間を区域A(xn,yn)ごとに計測する。実際に得られた音の到達時間(実測値)と、計算により求めた音の到達時間(計算値)との差分を補正情報として取得する。
 補正情報は、分割した各区域A(xn,yn)について、マイクロフォンMijごとに求められる。求めた補正情報は、HDD128に格納される。HDD128は、補正情報記憶部の一例である。
 [作用]
 本実施の形態の映像音声信号処理装置100において、音声を強調処理する場合、補正後の各マイクロフォンMijへの音声到達時間の情報に基づいて、強調処理が行われる。
 まず、位置関係算出部110Cにおいて、観察対象と各マイクロフォンMijとの位置関係が算出される。次に、算出された観察対象と各マイクロフォンMijとの位置関係の情報に基づいて、音声到達時間算出部110Dで各マイクロフォンMijへの音の到達時間が算出される。算出された各マイクロフォンMijへの音声到達時間(計算値)の情報は、音声到達時間補正部110Lに加えられる。音声到達時間補正部110Lは、HDD128に格納された補正情報を用いて、各マイクロフォンMijへの音声到達時間(計算値)を補正する。具体的には、まず、観察対象の位置に基づいて、HDD128から各マイクロフォンMijに対する補正情報を取得する。すなわち、観察対象が存在する区域A(xn,yn)を特定し、その区域A(xn,yn)の用意された補正情報を取得する。次に、取得した補正情報に基づいて、各マイクロフォンMijへの音声到達時間(計算値)を補正する。補正された音声到達時間の情報は、音声強調処理部110Eに加えられる。音声強調処理部110Eは、補正後の各マイクロフォンMijへの音声到達時間の情報に基づいて、強調処理を行う。
 このように、本実施の形態の映像音声信号処理装置100では、計算により求められる各マイクロフォンMijへの音の到達時間を実際の音の到達時間に基づいて補正するので、観察対象エリア内に障害物が存在する場合などでも、観察対象からの音声を適切に強調処理できる。
 なお、仮想観察位置を設定して強調処理する場合には、仮想観察位置についても、その音声到達時間を補正することが好ましい。
 [変形例]
 各マイクロフォンMijへの実際の音声到達時間は、観察対象が出す音の周波数によっても変わる。したがって、補正情報は、周波数ごとに用意することが好ましい。たとえば、可聴帯域内で複数の帯域に分割し、分割した帯域ごとに補正情報を用意して、HDD128に格納する。補正の際には、観察対象が発する音声の周波数を特定し、その周波数に適合する補正情報を取得して、音声到達時間を補正する。
 [その他の実施の形態]
 [撮影部の変形例]
 撮影部による撮影形態は、観察対象エリア内を実質的に一定位置から撮影する形態であればよい。したがって、たとえば、ユーザが一定位置から手持ちで撮影する形態であってもよい。また、撮影の形態は、観察対象エリアの上方から俯瞰して撮影する形態であってもよい。また、複数の撮影部によって、複数箇所から撮影する形態であってもよい。
 [集音部の変形例]
 集音部は、観察対象エリア内での位置が特定できればよい。したがって、任意の配置形態を採用でき、観察対象エリア内に広範囲に配置できる。なお、配置の際には、次の点を考慮することが好ましい。
 第1に、観察対象の大きさよりも広い間隔で配置する。空気を伝搬せずに、音が集音されるのを避けるためである。
 第2に、観察対象との位置関係を算出する際の位置の分解能よりも広い間隔で配置する。たとえば、上記実施の形態のように、カメラ10で撮影された映像から観察対象の位置を特定して、各マイクロフォン(集音部)との位置関係を算出する場合、映像から算出可能な位置の分解のよりも広い間隔で各マイクロフォン(集音部)を配置する。 配置された集音部間どの位置に観察対象が存在するのかを切り分けできるようにするためである。
 第3に、観察対象からの音声が、少なくとも3つの集音部で集音される位置関係で配置する。音の重ね合わせにより強調処理を行うためである。
 [観察対象と各集音部との位置関係の算出方法の変形例]
 上記実施の形態では、カメラ(撮影部)から得られる情報に基づいて、観察対象と各マイクロフォン(集音部)との位置関係を算出する構成としているが、観察対象と各マイクロフォン(集音部)との位置関係を算出する方法は、これに限定されるものではない。別途、観察対象の位置を検出する手段を設けて、観察対象と各マイクロフォン(集音部)との位置関係を算出してもよい。
 また、撮影部から得られる情報に基づいて、観察対象と各集音部との位置関係を算出する場合、撮影部と観察対象との間の距離は、測距計、TOFカメラ(TOF:Time Of Flight)等の測距手段を用いて計測してもよい。
 なお、上記実施の形態のように、カメラ(撮影部)から得られる情報に基づいて、観察対象と各マイクロフォン(集音部)との位置関係を算出することにより、構成を簡素化できる。
 また、各集音部の位置については、事前に求められていればよく、その計測手法については、特に限定されない。カメラからの情報に基づいて、計測してもよい。
 [各集音部からの音声信号の取得方法及び撮影部からの映像信号の取得方法の変形例]
 映像音声信号処理装置(音声処理装置)が、各マイクロフォン(集音部)から音声信号を取得する方法については、特に限定されない。有線であってもよいし、また、無線であってもよい。また、ネットワークを介して取得する形態であってもよい。
 カメラから(撮影部)から映像信号を取得する方法についても同様である。有線であってもよいし、また、無線であってもよい。また、ネットワークを介して取得してもよい。
 [映像音声信号処理装置の機能を備えた撮影装置]
 上記実施の形態では、映像音声信号処理装置が、カメラから取得した映像信号及びマイクロフォンから取得した音声信号を処理する例で説明したが、映像音声信号処理装置の機能をカメラ(撮影装置)に搭載してもよい。この場合、カメラ(撮影装置)に備えられたコンピュータが、所定のプログラムを実行することにより、観察対象設定部、音声信号取得部、位置関係算出部、音声到達時間算出部、音声強調処理部、記録制御部等の機能を実現する。また、カメラ(撮影装置)に備えられた撮影レンズ及び撮像素子が撮影部として機能し、ディスプレイが表示部として機能する。また、カメラ(撮影装置)に備えられた画像記憶用のメモリが、記憶部として機能する。
 [音声処理装置の機能]
 音声処理装置の機能は、各種のプロセッサ(processor)を用いて実現できる。各種のプロセッサには、例えばソフトウェア(プログラム)を実行して各種の機能を実現する汎用的なプロセッサであるCPU(Central Processing Unit)が含まれる。また、上記各種のプロセッサには、画像処理に特化したプロセッサであるGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)も含まれる。更に、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路なども上記各種のプロセッサに含まれる。
 各部の機能は1つのプロセッサにより実現されてもよいし、同種又は異種の複数のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ、又はCPUとGPUの組み合わせ)で実現されてもよい。また、複数の機能を1つのプロセッサで実現してもよい。複数の機能を1つのプロセッサで構成する例としては、第1に、画像処理装置本体、サーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の機能として実現する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、システム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の機能は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。更に、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。これらの電気回路は、論理和、論理積、論理否定、排他的論理和、及びこれらを組み合わせた論理演算を用いて上記の機能を実現する電気回路であってもよい。
 上記のプロセッサあるいは電気回路がソフトウェア(プログラム)を実行する際は、実行するソフトウェアのプロセッサ(コンピュータ)読み取り可能なコードをROM(Read Only Memory)等の非一時的記録媒体に記憶しておき、プロセッサがそのソフトウェアを参照する。非一時的記録媒体に記憶しておくソフトウェアは、画像の入力、解析、表示制御等を実行するためのプログラムを含む。ROMではなく各種光磁気記録装置、半導体メモリ等の非一時的記録媒体にコードを記録してもよい。ソフトウェアを用いた処理の際には例えばRAM(Random Access Memory)が一時的記憶領域として用いられ、また例えば不図示のEEPROM(Electronically Erasable and Programmable Read Only Memory)に記憶されたデータを参照することもできる。
1 観察システム
10 カメラ
12 レンズ
14 リモコン雲台
100 映像音声信号処理装置
110 コンピュータ本体
110A 表示制御部
110B 観察対象設定部
110C 位置関係算出部
110D 音声到達時間算出部
110E 音声強調処理部
110F 音声出力制御部
110G 記録制御部
110H 再生制御部
110I カメラ制御部
110J 仮想観察エリア設定部
110K 追跡部
110L 音声到達時間補正部
112 ディスプレイ
114 スピーカ
116 キーボード
118 マウス
120 CPU
128 HDD
130 光学ドライブ
134 音声出力インターフェイス
136 キーボードインターフェイス
138 マウスインターフェイス
140 音声入力インターフェイス
142 映像入力インターフェイス
144 カメラ通信インターフェイス
C カーソル
IP 仮想観察位置
Mij マイクロフォン
Oj 観察対象
SS 音源
Z1 観察対象エリア
Z2 仮想観察エリア
S10~S27 観察する場合の映像音声信号処理装置の動作手順
S30~S34 記録済みの映像を再生する場合の映像音声信号処理装置の動作手順
S40~S58 音声の強調処理を行って対象を観察する場合の映像音声信号処理装置の動作手順

Claims (24)

  1.  第1エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、
     前記第1エリア内を定位置から撮影する撮影部から映像信号を取得する映像信号取得部と、
     前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
     前記観察対象と各前記集音部との位置関係を算出する位置関係算出部と、
     前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
     前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
     を備えた音声信号処理装置。
  2.  記憶部と、
     前記記憶部への映像信号及び音声信号の記録を制御する記録制御部と、
     を更に備え、
     前記記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、
     請求項1に記載の音声信号処理装置。
  3.  前記音声強調処理部は、前記観察対象から最も離れた前記集音部で集音される音声信号を基準に、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
     請求項1又は2に記載の音声信号処理装置。
  4.  前記観察対象を中心とする半径Rの範囲に第2エリアを設定する第2エリア設定部を更に備え、
     前記位置関係算出部は、前記第2エリア内で前記観察対象と各前記集音部との位置関係を算出し、
     前記音声到達時間算出部は、前記第2エリア内で前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出し、
     前記音声強調処理部は、前記観察対象を中心とする半径Rの位置で仮想的に集音される音声信号を基準に、前記第2エリア内の各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
     請求項1又は2に記載の音声信号処理装置。
  5.  前記観察対象の移動を追跡する追跡部を更に備え、
     前記第2エリア設定部は、前記第2エリアを前記観察対象の移動に追従させる、
     請求項4に記載の音声信号処理装置。
  6.  前記第2エリア設定部は、半径Rの位置に音声が到達する時間分遅延させて、前記第2エリアを前記観察対象の移動に追従させる、
     請求項5に記載の音声信号処理装置。
  7.  前記第2エリアのサイズを調整する第2エリアサイズ調整部を更に備えた、
     請求項4から6のいずれか1項に記載の音声信号処理装置。
  8.  各前記集音部への音声の到達時間の補正情報が記憶された補正情報記憶部と、
     前記補正情報記憶部に記憶された補正情報に基づいて、前記音声到達時間算出部で算出される音声の到達時間を補正する音声到達時間補正部と、
     を更に備え、
     前記音声強調処理部は、前記音声到達時間補正部による補正後の到達時間の情報に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する、
     請求項1から7のいずれか1項に記載の音声信号処理装置。
  9.  前記補正情報は、前記第1エリア内の各位置で発生させた音声の各前記集音部への到達時間の実測値に基づいて設定される、
     請求項8に記載の音声信号処理装置。
  10.  前記補正情報記憶部には、周波数ごとの前記補正情報が記憶され、
     前記音声到達時間補正部は、前記観察対象が発する音声の周波数に応じた前記補正情報に基づいて、前記音声到達時間算出部で算出される音声の到達時間を補正する、
     請求項8又は9に記載の音声信号処理装置。
  11.  前記位置関係算出部は、前記撮影部から得られる情報に基づいて、前記第1エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する、
     請求項1から10のいずれか1項に記載の音声信号処理装置。
  12.  前記位置関係算出部は、前記撮影部から得られる情報に基づいて、前記撮影部に対する前記観察対象の方向及び距離を求め、得られた前記撮影部に対する前記観察対象の方向及び距離の情報に基づいて、前記第1エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する、
     請求項11に記載の音声信号処理装置。
  13.  前記観察対象の大きさよりも広い間隔で前記集音部が配置される、
     請求項1から12のいずれか1項に記載の音声信号処理装置。
  14.  前記位置関係算出部で算出可能な位置の分解能よりも広い間隔で前記集音部が配置される、
     請求項1から12のいずれか1項に記載の音声信号処理装置。
  15.  前記観察対象からの音声が少なくとも3つの前記集音部で集音される間隔で前記集音部が配置される、
     請求項1から12のいずれか1項に記載の音声信号処理装置。
  16.  第1エリア内に離散的に配置された複数の集音部から音声信号を取得するステップと、
     前記第1エリア内を定位置から撮影する撮影部から映像信号を取得するステップと、
     前記撮影部で撮影された映像を表示部に表示するステップと、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定するステップと、
     前記観察対象と各前記集音部との位置関係を算出するステップと、
     位置関係の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出するステップと、
     音声の到達時間の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理するステップと、
     を含む音声信号処理方法。
  17.  強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録するステップを更に含む、
     請求項16に記載の音声信号処理方法。
  18.  第1エリア内に離散的に配置された複数の集音部から音声信号を取得する機能と、
     前記第1エリア内を定位置から撮影する撮影部から映像信号を取得する機能と、
     前記撮影部で撮影された映像を表示部に表示する機能と、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する機能と、
     前記観察対象と各前記集音部との位置関係を算出する機能と、
     位置関係の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する機能と、
     音声の到達時間の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する機能と、
     をコンピュータに実現させる音声信号処理プログラム。
  19.  強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録する機能を更に含む、
     請求項18に記載の音声信号処理プログラム。
  20.  第1エリア内に離散的に配置された複数の集音部と、
     各前記集音部から音声信号を取得する音声信号取得部と、
     前記第1エリア内を定位置から撮影する撮影部と、
     前記撮影部から映像信号を取得する映像信号取得部と、
     前記映像信号取得部で取得された映像信号が表わす映像を表示する表示部と、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
     前記観察対象と各前記集音部との位置関係を算出する位置関係算出部と、
     前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
     前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
     を備えた音声信号処理システム。
  21.  記憶部と、
     前記記憶部への映像信号及び音声信号の記録を制御する記録制御部と、
     を更に備え、
     前記記録制御部は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記録する、
     請求項20に記載の音声信号処理システム。
  22.  撮影部と、
     前記撮影部から出力される映像信号が表わす映像を表示する表示部と、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する観察対象設定部と、
     第1エリア内に離散的に配置された複数の集音部から音声信号を取得する音声信号取得部と、
     定位置から前記第1エリア内を撮影した場合に、前記撮影部から得られる情報に基づいて、前記第1エリア内における前記観察対象の位置を特定し、前記観察対象と各前記集音部との位置関係を算出する位置関係算出部と、
     前記位置関係算出部の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する音声到達時間算出部と、
     前記音声到達時間算出部の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する音声強調処理部と、
     記憶部と、
     前記記憶部への映像信号及び音声信号の記録を制御する記録制御部と、
     を備えた撮影装置。
  23.  非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に、
     第1エリア内に離散的に配置された複数の集音部から音声信号を取得する機能と、
     前記第1エリア内を定位置から撮影する撮影部から映像信号を取得する機能と、
     前記撮影部で撮影された映像を表示部に表示する機能と、
     前記表示部に表示された映像内で位置の指定を受け付けて、観察対象を設定する機能と、
     前記観察対象と各前記集音部との位置関係を算出する機能と、
     位置関係の算出結果に基づいて、前記観察対象から発せられる音声が各前記集音部に到達するまでの到達時間を算出する機能と、
     音声の到達時間の算出結果に基づいて、各前記集音部からの音声信号を同時化し、重ね合わせて強調処理する機能と、
     を含む音声信号処理機能をコンピュータに実行させる記録媒体。
  24.  前記音声信号処理機能は、強調処理により遅延して取得される音声信号に合わせて映像信号を遅延させて記憶部に記録する機能を更に含む、
     請求項23に記載の記録媒体。
PCT/JP2019/033600 2018-09-18 2019-08-28 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置 WO2020059447A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020548222A JP6979536B2 (ja) 2018-09-18 2019-08-28 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置
JP2021185733A JP7303862B2 (ja) 2018-09-18 2021-11-15 映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018173992 2018-09-18
JP2018-173992 2018-09-18

Publications (1)

Publication Number Publication Date
WO2020059447A1 true WO2020059447A1 (ja) 2020-03-26

Family

ID=69888787

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/033600 WO2020059447A1 (ja) 2018-09-18 2019-08-28 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、音声信号処理システム及び撮影装置

Country Status (2)

Country Link
JP (2) JP6979536B2 (ja)
WO (1) WO2020059447A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022161146A1 (zh) * 2021-01-29 2022-08-04 华为技术有限公司 视频录制方法及电子设备
JP2022135110A (ja) * 2021-03-04 2022-09-15 沖電気工業株式会社 収音装置、収音プログラム、及び収音方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JP2010062961A (ja) * 2008-09-05 2010-03-18 Hitachi Ltd 監視システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5762782B2 (ja) * 2011-03-24 2015-08-12 オリンパス株式会社 記録装置、記録方法、およびプログラム
JP6012342B2 (ja) * 2012-09-03 2016-10-25 キヤノン株式会社 再生装置、再生装置の制御方法
JP6410769B2 (ja) * 2016-07-28 2018-10-24 キヤノン株式会社 情報処理システム及びその制御方法、コンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JP2010062961A (ja) * 2008-09-05 2010-03-18 Hitachi Ltd 監視システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022161146A1 (zh) * 2021-01-29 2022-08-04 华为技术有限公司 视频录制方法及电子设备
JP2022135110A (ja) * 2021-03-04 2022-09-15 沖電気工業株式会社 収音装置、収音プログラム、及び収音方法
JP7259878B2 (ja) 2021-03-04 2023-04-18 沖電気工業株式会社 収音装置、収音プログラム、及び収音方法

Also Published As

Publication number Publication date
JPWO2020059447A1 (ja) 2021-08-30
JP7303862B2 (ja) 2023-07-05
JP2022010300A (ja) 2022-01-14
JP6979536B2 (ja) 2021-12-15

Similar Documents

Publication Publication Date Title
CN102577433B (zh) 基于听众位置的音量调整
JP7303862B2 (ja) 映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システム
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
EP2508945A1 (en) Directional sound capturing
EP3226579B1 (en) Information-processing device, information-processing system, control method, and program
JP6012342B2 (ja) 再生装置、再生装置の制御方法
JP5597956B2 (ja) 音声データ合成装置
CN105282651B (zh) 用于在舞台上布置舞台元件的技术
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP2008072541A (ja) オーディオ装置
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
US20170215005A1 (en) Audio refocusing methods and electronic devices utilizing the same
KR20090022718A (ko) 음향처리장치 및 음향처리방법
JP2011041096A (ja) 携帯端末、並びにこれに用いる集音制御方法及びプログラム
KR20200020590A (ko) 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법
US10547961B2 (en) Signal processing apparatus, signal processing method, and storage medium
WO2020166324A1 (ja) 情報処理装置および方法、並びにプログラム
JP2007129511A (ja) 音声出力装置および方法、プログラム、並びに記録媒体
TWI584652B (zh) 定位系統、預定位元方法以及即時定位方法
JP2018019295A (ja) 情報処理システム及びその制御方法、コンピュータプログラム
US9992532B1 (en) Hand-held electronic apparatus, audio video broadcasting apparatus and broadcasting method thereof
JP2004180197A (ja) 情報処理装置、情報処理方法および記録媒体
JP2022108638A (ja) 信号処理装置及び信号処理システム
JPH10191498A (ja) 音信号処理装置
JP2016163181A5 (ja) 信号処理装置、信号処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19861836

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020548222

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19861836

Country of ref document: EP

Kind code of ref document: A1