WO2018042770A1 - 撮像制御装置、撮像装置および撮像制御方法 - Google Patents

撮像制御装置、撮像装置および撮像制御方法 Download PDF

Info

Publication number
WO2018042770A1
WO2018042770A1 PCT/JP2017/018461 JP2017018461W WO2018042770A1 WO 2018042770 A1 WO2018042770 A1 WO 2018042770A1 JP 2017018461 W JP2017018461 W JP 2017018461W WO 2018042770 A1 WO2018042770 A1 WO 2018042770A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
audio signal
display area
imaging
localization
Prior art date
Application number
PCT/JP2017/018461
Other languages
English (en)
French (fr)
Inventor
小曽根 卓義
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to US16/325,102 priority Critical patent/US11405542B2/en
Publication of WO2018042770A1 publication Critical patent/WO2018042770A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • G06T3/047
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6812Motion detection based on additional sensors, e.g. acceleration sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/683Vibration or motion blur correction performed by a processor, e.g. controlling the readout of an image memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • the present technology relates to an imaging control device, an imaging device, and an imaging control method.
  • the present invention relates to an imaging control apparatus, an imaging apparatus, and an imaging control method that output an image signal in a partial area of the imaging area.
  • an imaging apparatus that includes a microphone for collecting sound, improves the convenience by capturing a moving image, acquiring sound, and adding it to the moving image.
  • a system has been proposed in which a plurality of microphones are arranged around a subject such as a person, and an imaging device is panned to photograph a speaker of the subject (for example, Patent Document 1). reference.).
  • an audio signal for localizing a sound image to a speaker is generated and output by mixing audio signals collected by a plurality of microphones.
  • the above-described conventional technology a mechanism for rotating the imaging device for panning is required. Further, it is necessary to arrange a plurality of microphones around the subject. For this reason, the above-described conventional technique has a problem that the system configuration is complicated.
  • the present technology has been created in view of such a situation, and an object thereof is to simplify the configuration of an imaging apparatus that outputs an image signal and an audio signal in a part of an imaging region.
  • a first aspect of the present technology is a display region which is a region used for display in a frame configured by an image signal output from an image sensor.
  • a display area updating unit that updates the position in the frame according to the movement of the imaging device in which the imaging element is arranged, and a localization audio signal that is an audio signal that localizes a sound image in the updated display area.
  • An imaging control device and an imaging control method including a localization audio signal generation unit that is generated based on an audio signal output from the audio signal. This brings about the effect
  • the localization audio signal generation unit may generate the localization audio signal by mixing audio signals output from the plurality of microphones. This brings about the effect that a plurality of audio signals are mixed to generate a localization audio signal.
  • the image processing apparatus may further include a correction unit that corrects distortion of the image signal in the corrected display area. As a result, the image signal whose distortion is corrected is output.
  • the imaging device may output the image signal captured through a fisheye lens, and the correction unit may correct distortion of the image signal by the fisheye lens.
  • amended is brought about.
  • the first aspect may further include a motion detection unit that detects the motion of the imaging device, and the display region update unit may display the display region according to the motion of the imaging device detected by the motion detection unit. May be updated. This brings about the effect that the motion detector detects the motion of the imaging device.
  • the motion detection unit may detect the motion of the imaging device based on an output from a sensor that detects the motion of the imaging device. This brings about the effect that the movement of the image sensor is detected by the output from the sensor.
  • the motion detection unit may detect the motion of the imaging device based on a motion vector generated from an image signal output from the imaging device. This brings about the effect that the motion of the imaging device is detected by the motion vector.
  • the image sensor has a position in the frame of a display area which is an area used for display among frames configured by the image sensor and an image signal output from the image sensor.
  • a display area updating unit that updates in accordance with the movement of the arranged imaging device, and a localization audio signal that is an audio signal that localizes a sound image in the updated display area is generated based on audio signals output from a plurality of microphones And a localization audio signal generation unit.
  • the present technology it is possible to achieve an excellent effect of simplifying the configuration of the imaging device that outputs the image signal and the audio signal in a part of the imaging region.
  • the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.
  • FIG. 1 is a diagram illustrating a configuration example of an imaging device 10 according to an embodiment of the present technology.
  • the imaging apparatus 10 includes a fisheye lens 11, an imaging element 12, a gyro sensor 13, an operation input unit 14, a microphone # 1 (15), a microphone # 2 (16), a microphone # 3 (17),
  • the imaging control unit 100 and the storage 18 are provided.
  • the fisheye lens 11 forms an image on the image sensor 12.
  • the fish-eye lens 11 is a projection type lens that is not a central projection type, and is a lens that forms an image with a wide viewing angle.
  • the image pickup device 12 picks up an image formed by the fisheye lens 11. Since imaging is performed via the fisheye lens 11, the captured image is a wide viewing angle image.
  • the imaging element 12 outputs a frame that is an image signal for one screen to the imaging control unit 100.
  • the gyro sensor 13 detects an angular velocity on a predetermined axis of the imaging device 10 when the imaging device 10 moves.
  • the gyro sensor 13 outputs the detected angular velocity to the imaging control unit 100.
  • Microphones # 1 (15) to # 3 (17) collect sound from a subject such as a person, convert the sound into an audio signal, and output the sound signal to the imaging control unit 100.
  • the microphones # 1 (15) to # 3 (17) are arranged at positions separated from each other. Thereby, the output audio signal becomes a signal having a different phase, and the sound field can be three-dimensionalized.
  • microphones having directivity can be used as the microphones # 1 (15) to # 3 (17) and can be arranged in different sound collection ranges. Details of the arrangement of the microphones # 1 (15) to # 3 (17) will be described later.
  • the imaging control unit 100 controls the entire imaging apparatus 10.
  • the imaging control unit 100 selects an image signal of a display area that is an area used for display from the frames output from the imaging element 12, and outputs the image signal to the storage 18.
  • the image captured by the image sensor 12 is a wide viewing angle image.
  • the imaging control unit 100 sets a display area for the wide viewing angle image and outputs only the image signal of this area. Thereby, it is possible to omit the processing of the image signal in the region other than the display region, and it is possible to simplify the processing and reduce the power consumption of the imaging apparatus 10. Further, the file size of the image signal when held in the storage 18 to be described later can be reduced.
  • the imaging control unit 100 updates the position of the display area in the frame in accordance with the movement of the imaging device 10 detected by the gyro sensor 13 described above. Further, the imaging control unit 100 performs processing on the audio signal output from the microphones # 1 (15) to # 3 (17), and outputs the processed signal to the storage 18 together with the image signal of the display area. As this processing, the imaging control unit 100 performs processing for generating an audio signal for localizing a sound image in the display area from the audio signals output from the microphones # 1 (15) to # 3 (17). By adding this audio signal to the image signal, the displayed screen and the sound image can be matched. Details of the configuration of the imaging control unit 100 will be described later.
  • the imaging control unit 100 is an example of an imaging control apparatus described in the claims.
  • the storage 18 holds an image signal and an audio signal output from the imaging control unit 100.
  • the operation input unit 14 receives input of a display area by a user such as a photographer.
  • the operation input unit 14 outputs the received display area to the imaging control unit 100.
  • a display device with a touch panel can be used as the operation input unit 14. On this display device, an image of a frame imaged by the image sensor 12 is displayed, and the photographer can select a display area while viewing the display on the display device and input the image using the touch panel.
  • the configuration of the imaging device 10 is not limited to this example.
  • a central projection type wide-angle lens can be used instead of the fisheye lens 11.
  • the motion of the imaging device 10 can be detected using a sensor that detects acceleration instead of the gyro sensor 13.
  • the image signal and the audio signal from the imaging control unit 100 can be output to the outside of the imaging apparatus 10 by wire or wirelessly.
  • FIG. 2 is a diagram illustrating a configuration example of the imaging control unit 100 according to the first embodiment of the present technology.
  • the imaging control unit 100 includes a display area selection unit 101, a camera shake detection unit 102, a display area update unit 103, a frame memory 104, an image signal selection unit 105, a distortion correction unit 106, and an audio signal processing unit. 107, a localization audio signal generation unit 108, and a synthesis unit 109.
  • the frame memory 104 holds the image signal output from the image sensor 12.
  • the frame memory 104 holds one frame of image signal.
  • the display area selection unit 101 selects a display area.
  • the display area selection unit 101 outputs the coordinates of the selected display area to the display area update unit 103.
  • a display area for example, a display area output from the operation input unit 14 can be selected.
  • a display area set in advance in the imaging control unit 100 can be selected.
  • an area having a predetermined size at the center of the frame can be employed.
  • a person who is talking can be specified by performing voice recognition, and an area including the person can be used as a display area. Details of the frame and the display area will be described later.
  • the camera shake detection unit 102 detects the movement of the imaging device 10.
  • the camera shake detection unit 102 detects the movement of the imaging device 10 based on the angular velocity detected by the gyro sensor 13.
  • the detected movement of the imaging device 10 is output to the display area update unit 103.
  • the camera shake detection unit 102 is an example of a motion detection unit described in the claims.
  • the display area update unit 103 updates the position of the display area selected by the display area selection unit 101.
  • the display area update unit 103 updates the position of the display area in the frame according to the movement of the imaging device 10 detected by the camera shake detection unit 102. For example, when the imaging apparatus 10 moves upward due to camera shake or the like, the image captured by the imaging element 12 also moves upward. In this case, the position of the display area in the frame is updated downward. By updating the position of the display area in the frame so as to cancel the movement of the imaging device 10, it is possible to improve the image quality by reducing the influence of camera shake and the like. When the position of the imaging device 10 changes greatly, the display area update unit 103 can also update by changing the shape in addition to the position of the display area.
  • the display area update unit 103 outputs the updated coordinates of the display area to the image signal selection unit 105 and the localization audio signal generation unit 108.
  • the image signal selection unit 105 selects the image signal held in the frame memory 104 and outputs it to the distortion correction unit 106.
  • the image signal selection unit 105 selects an image signal based on the display area output from the display area update unit 103. Specifically, the image signal is selected by reading out the image signal included in the display area from among the image signals held in the frame memory 104.
  • the distortion correction unit 106 corrects distortion of the image signal selected by the image signal selection unit 105.
  • the distortion correction unit 106 outputs the corrected image signal to the synthesis unit 109.
  • the imaging element 12 performs imaging through the fisheye lens 11. For this reason, the image signal output from the image sensor 12 is distorted. Therefore, the distortion correction unit 106 corrects the distortion of the image signal.
  • a known method for example, fisheye distortion correction can be used.
  • the audio signal processing unit 107 processes the audio signal output from the microphones # 1 (15) to # 3 (17).
  • the processing of the audio signal corresponds to, for example, analog-digital conversion that converts an analog audio signal into a digital audio signal.
  • the audio signal processing unit 107 outputs each processed audio signal to the localization audio signal generation unit 108.
  • the localization audio signal generation unit 108 generates a localization audio signal from the audio signal output from the audio signal processing unit 107.
  • the localization audio signal is an audio signal that localizes a sound image in the display area.
  • the display area and the sound image coincide. That is, the user of the imaging device 10 can feel the direction and distance of the sound with respect to the sound source in the display area. Thereby, a sense of reality can be improved.
  • the localization audio signal generation unit 108 generates a localization audio signal based on the display area output from the display area update unit 103.
  • the localization audio signal generation unit 108 in FIG. 11 generates a stereo localization audio signal composed of two audio signals of the right channel and the left channel, and outputs the stereo audio signal to the synthesis unit 109. Details of the localization sound signal generation in the localization sound signal generation unit 108 will be described later. Note that the configuration of the localization audio signal generation unit 108 is not limited to this example. For example, the localization audio signal generation unit 108 can also generate a monaural localization audio signal. In addition, the localization audio signal generation unit 108 can also generate localization audio signals of four channels of right front, right rear, left front, and left rear.
  • the synthesizing unit 109 synthesizes the image signal output from the distortion correction unit 106 and the localization audio signal output from the localization audio signal generation unit 108.
  • the combining unit 109 outputs the combined image signal and audio signal to the storage 18.
  • the synthesizing unit 109 performs processing on the image signal and audio signal before synthesis. Specifically, the synthesis unit 109 can perform image processing such as gamma correction on the image signal output from the distortion correction unit 106. Thereafter, the combining unit 109 compresses and encodes the image signal. For this encoding, for example, H.C. H.264 can be employed.
  • the synthesizing unit 109 compresses and encodes the right channel and left channel audio signals, which are the localization audio signals output from the localization audio signal generation unit 108.
  • AAC Advanced Audio Coding
  • the synthesizer 109 synthesizes the encoded image signal and audio signal to form a moving image file, and outputs it to the storage 18.
  • FIG. 3 is a diagram illustrating an example of a display area in the embodiment of the present technology.
  • “a” represents an image (frame) imaged by the image sensor 12. Since it is imaged through the fisheye lens 11, it is a wide viewing angle image.
  • An area 401 in FIG. 7 represents a display area.
  • B in the figure is an image obtained by performing distortion correction on the image signal in the display area. Thus, convenience can be improved by performing distortion correction.
  • FIG. 4 is a schematic diagram illustrating an example of the imaging device 10 according to the embodiment of the present technology.
  • the figure shows the appearance of the image pickup apparatus 10, where a in the figure represents a front view of the image pickup apparatus 10, and b in the figure represents a top view of the image pickup apparatus 10.
  • the fisheye lens 11 is disposed in front of the imaging device 10, and the imaging element 12 is disposed behind the fisheye lens 11 (not shown). In the figure, a protective cover 19 is disposed outside the fisheye lens 11.
  • Microphones # 1 (15) to # 3 (17) are arranged below the fisheye lens 11.
  • the microphone # 2 (16) is arranged in the same manner as the fisheye lens 11.
  • Microphones # 1 (15) and # 3 (17) are arranged on surfaces inclined by 45 ° with respect to the front surface. As a result, the audio signals output from the microphones # 1 (15) to # 3 (17) have different phases.
  • the arrangement of microphones # 1 (15) to # 3 (17) is not limited to this example.
  • microphones # 1 (15) to # 3 (17) can be arranged on the upper surface or the lower surface of the imaging device 10. In this case, these microphones can be arranged at the positions of the vertices constituting the triangle.
  • FIG. 5 is a diagram illustrating a relationship between the display area and the microphone according to the embodiment of the present technology.
  • the figure shows the relationship between the display area and the microphones # 1 (15) to # 3 (17) when the position of the display area in the frame is changed.
  • the display areas 402 to 404 are assumed when display areas are selected on the left front, front, and right front of the imaging apparatus 10, respectively.
  • the localization audio signal generation unit 108 generates an audio signal for localizing a sound image in these display areas.
  • This generation can be performed by a known method. For example, it can be performed by mixing audio signals output from the microphones # 1 (15) to # 3 (17). This mixing can be performed based on the following equation, for example.
  • Localized audio signal A x M1 + B x M2 + C x M3
  • M1 to M3 represent audio signals output from the microphones # 1 (15) to # 3 (17), respectively.
  • A, B, and C represent mixing coefficients.
  • the localization audio signal generation unit 108 amplifies the audio signal output from the microphones # 1 (15) to # 3 (17). The gain at this time corresponds to the above-described mixing coefficient. By performing this mixing on the right channel and the left channel, the localization audio signal generator 108 generates a localization audio signal.
  • FIG. 6 is a diagram illustrating an example of the gain of the audio signal according to the embodiment of the present technology. This figure shows an example of the values of A, B, and C corresponding to each display area described in FIG. 5 for each channel. In this manner, the localization audio signal can be generated by adjusting and mixing the gain of the audio signal according to the position of the display area.
  • FIG. 7 is a diagram illustrating an example of a localization position in the embodiment of the present technology. This figure shows the relationship between the display area and the localization position.
  • a represents the case where the display area 405 is selected at the center of the frame
  • b in the figure represents the case where the display area 407 is selected at the upper right of the frame.
  • virtual speakers 411 and 412 for outputting sound based on the localization sound signal are arranged.
  • the sound image is localized between these speakers.
  • the speakers 411 and 412 correspond to the right channel and the left channel, respectively, and the localization audio signal generation unit 108 generates an audio signal corresponding to the audio output from these speakers.
  • areas 406 and 408 represented by dotted lines represent image signal areas when distortion is corrected by the distortion correction unit 106. In this way, the localization position can be a position obtained by dividing the display area into two in the vertical direction.
  • FIG. 8 is a diagram illustrating an example of a processing procedure of imaging control processing according to the embodiment of the present technology.
  • the imaging control unit 100 acquires an image signal and an audio signal (step S901). Specifically, the imaging control unit 100 causes the frame memory 104 to hold a frame output from the imaging element 12. At the same time, the imaging control unit 100 acquires audio signals output from the speakers # 1 (15) to # 3 (17).
  • the imaging control unit 100 determines whether there is an input of a display area from the operation input unit 14 (step S902). When there is an input of a display area (step S902: Yes), the imaging control unit 100 selects the input display area (step S904), and the process proceeds to step S905. On the other hand, when there is no input of a display area (step S902: No), the imaging control unit 100 selects a preset display area (step S903), and the process proceeds to step S905.
  • step S905 the imaging control unit 100 determines whether the movement of the imaging device 10 has been detected (step S905).
  • step S905: Yes the imaging control unit 100 updates the display area according to the detected movement of the imaging device 12 (step S906), and the process proceeds to step S907. To do.
  • step S905: No the imaging control unit 100 skips the process of step S906 and proceeds to the process of step S907.
  • step S907 the imaging control unit 100 selects an image signal in the display area (step S907). This can be done by reading out the image signal included in the display area from the image signal held in the frame memory 104. Next, the imaging control unit 100 performs distortion correction on the selected image signal (step S908). Next, the imaging control unit 100 generates a localization audio signal that is an audio signal that localizes the sound image in the display area (step S909). Finally, the imaging control unit 100 synthesizes the corrected image signal and localization sound signal (step S911) and outputs the synthesized signal to the storage 18. Thereafter, the imaging control unit 100 ends the imaging control process.
  • the position in the frame is updated according to the movement of the imaging device 10, and the sound image is localized in the updated display area.
  • the structure of the imaging device 10 can be simplified.
  • Second Embodiment> In the first embodiment described above, the movement of the imaging device 10 is detected by the gyro sensor 13, but the movement of the imaging device 10 may be detected from the image signal output from the imaging element 12.
  • the second embodiment of the present technology is different from the first embodiment in that a motion vector is generated from an image signal output from the image sensor 12 and a motion of the imaging device 10 is detected.
  • FIG. 9 is a diagram illustrating a configuration example of the imaging control unit 100 according to the second embodiment of the present technology.
  • the imaging control unit 100 in the figure is different from the imaging control unit 100 described in FIG. 2 in that a motion vector generation unit 112 is provided instead of the camera shake detection unit 102.
  • the motion vector generation unit 112 generates a motion vector from the frame output from the image sensor 12.
  • the motion vector is information indicating the relative positional relationship of images between a plurality of time-series frames.
  • the motion vector generation unit 112 generates a motion vector from the image motion in a plurality of frames and outputs the motion vector to the display area update unit 103.
  • a known method can be used to generate the motion vector.
  • the motion vector generation unit 112 is an example of a motion detection unit described in the claims.
  • the display area update unit 103 in the figure detects the motion of the image sensor 12 based on the motion vector output from the motion vector generation unit 112.
  • the imaging device 10 according to the second embodiment of the present technology can omit the gyro sensor described in FIG.
  • imaging device 10 Other configurations of the imaging device 10 are the same as those of the imaging device 10 described in the first embodiment of the present technology, and thus the description thereof is omitted.
  • the gyro sensor 13 can be omitted by generating a motion vector and detecting the motion of the imaging device 10, and the configuration of the imaging device 10 can be reduced. Further simplification can be achieved.
  • the range in which the sound image can be localized is limited to a range of 180 ° in front of the imaging device 10
  • a configuration in which two microphones are arranged may be employed.
  • the microphone # 2 (16) may be omitted, and the microphone # 1 (15) and the microphone # 3 (17) may be disposed in parallel with the surface on which the fisheye lens 11 is disposed. it can. Thereby, the structure of the imaging device 10 can be simplified.
  • the position of the display area in the frame is updated according to the movement of the imaging device 10, and updated after the audio signals output from the plurality of microphones arranged in the imaging device 10.
  • a sound signal for localizing the sound image in the display area is generated and output.
  • the processing procedure described in the above embodiment may be regarded as a method having a series of these procedures, and a program for causing a computer to execute these series of procedures or a recording medium storing the program. You may catch it.
  • a recording medium for example, a CD (Compact Disc), an MD (MiniDisc), a DVD (Digital Versatile Disc), a memory card, a Blu-ray disc (Blu-ray (registered trademark) Disc), or the like can be used.
  • this technique can also take the following structures.
  • An area update unit ;
  • An imaging control apparatus comprising: a localization audio signal generation unit that generates a localization audio signal, which is an audio signal that localizes a sound image in the updated display area, based on audio signals output from a plurality of microphones.
  • the imaging control apparatus further including a correction unit that corrects distortion of an image signal in the corrected display area.
  • the imaging device outputs the image signal captured through a fisheye lens, The imaging control device according to (3), wherein the correction unit corrects distortion of an image signal caused by the fisheye lens.
  • (5) further comprising a motion detector for detecting the motion of the imaging device;
  • the imaging control device according to any one of (1) to (4), wherein the display region updating unit updates the display region in accordance with the movement of the imaging device detected by the motion detection unit.
  • the motion detection unit detects a motion of the imaging device based on an output from a sensor that detects a motion of the imaging device.
  • the imaging control device wherein the motion detection unit detects a motion of the imaging device based on a motion vector generated from an image signal output from the imaging device.
  • an image sensor Display area update for updating the position in the frame of the display area, which is the area used for display, of the frame constituted by the image signal output from the image sensor in accordance with the movement of the image pickup apparatus in which the image sensor is arranged
  • An imaging apparatus comprising: a localization audio signal generation unit that generates a localization audio signal, which is an audio signal that localizes a sound image in the updated display area, based on audio signals output from a plurality of microphones.
  • An imaging control method comprising: a localization audio signal generation procedure for generating a localization audio signal, which is an audio signal for localization of a sound image in the updated display area, based on audio signals output from a plurality of microphones.

Abstract

撮像領域の一部の領域における画像信号および音声信号の出力を行う撮像装置の構成を簡略化する。 撮像制御装置は、表示領域更新部と定位音声信号生成部とを具備する。表示領域更新部は、撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域のフレームにおける位置をその撮像素子が配置された撮像装置の動きに応じて更新する。定位音声信号生成部は、更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する。

Description

撮像制御装置、撮像装置および撮像制御方法
 本技術は、撮像制御装置、撮像装置および撮像制御方法に関する。詳しくは、撮像領域の一部の領域における画像信号を出力する撮像制御装置、撮像装置および撮像制御方法に関する。
 従来、集音のためのマイクを備え、動画を撮影するとともに音声を取得して動画に付加することにより、利便性を向上させる撮像装置が使用されている。例えば、テレビ会議用カメラシステム等において複数のマイクを人物等の被写体の周囲に配置し、撮像装置をパンニングさせて被写体のうちの発言者を撮影するシステムが提案されている(例えば、特許文献1参照。)。このシステムにおいては、複数のマイクにより集音された音声信号を混合することにより音像を発言者に定位させる音声信号が生成され、出力される。
特開2007-143052号公報
 上述の従来技術では、パンニングのための撮像装置を回転させる機構が必要になる。また、被写体の周囲に複数のマイクを配置する必要が生じる。このため、上述の従来技術では、システムの構成が複雑になるという問題がある。
 本技術はこのような状況に鑑みて生み出されたものであり、撮像領域の一部の領域における画像信号および音声信号の出力を行う撮像装置の構成を簡略化することを目的とする。
 本技術は、上述の問題点を解消するためになされたものであり、その第1の側面は、撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の上記フレームにおける位置を上記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、上記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部とを具備する撮像制御装置および撮像制御方法である。これにより、撮像装置の動きに応じて更新された表示領域に音像を定位させる音声信号が生成されるという作用をもたらす。
 また、この第1の側面において、上記定位音声信号生成部は、上記複数のマイクから出力された音声信号を混合することにより上記定位音声信号を生成してもよい。これにより、複数の音声信号が混合されて定位音声信号が生成されるという作用をもたらす。
 また、この第1の側面において、上記補正された表示領域における画像信号の歪みを補正する補正部をさらに具備してもよい。これにより、歪みが補正された画像信号が出力されるという作用をもたらす。
 また、この第1の側面において、上記撮像素子は、魚眼レンズを介して撮像した上記画像信号を出力し、上記補正部は、上記魚眼レンズによる画像信号の歪みを補正してもよい。これにより、魚眼レンズによる歪みが補正されるという作用をもたらす。
 また、この第1の側面において、上記撮像装置の動きを検出する動き検出部をさらに具備し、上記表示領域更新部は、上記動き検出部により検出された撮像装置の動きに応じて上記表示領域を更新してもよい。これにより、動き検出部により撮像装置の動きが検出されるという作用をもたらす。
 また、この第1の側面において、上記動き検出部は、上記撮像装置の動きを検出するセンサからの出力に基づいて上記撮像装置の動きを検出してもよい。これにより、センサからの出力により撮像素子の動きが検出されるという作用をもたらす。
 また、この第1の側面において、上記動き検出部は、上記撮像素子から出力された画像信号から生成される動きベクトルに基づいて上記撮像装置の動きを検出してもよい。これにより、動きベクトルにより撮像装置の動きが検出されるという作用をもたらす。
 また、本技術の第2の側面は、撮像素子と、上記撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の上記フレームにおける位置を上記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、上記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部とを具備する撮像装置である。これにより、撮像装置の動きに応じて更新された表示領域に音像を定位させる音声信号が生成されるという作用をもたらす。
 本技術によれば、撮像領域の一部の領域における画像信号および音声信号の出力を行う撮像装置の構成を簡略化するという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の実施の形態における撮像装置10の構成例を示す図である。 本技術の第1の実施の形態における撮像制御部100の構成例を示す図である。 本技術の実施の形態における表示領域の一例を示す図である。 本技術の実施の形態における撮像装置10の一例を示す模式図である。 本技術の実施の形態における表示領域とマイクとの関係を示す図である。 本技術の実施の形態における音声信号の利得の一例を示す図である。 本技術の実施の形態における定位位置の一例を示す図である。 本技術の形態における撮像制御処理の処理手順の一例を示す図である。 本技術の第2の実施の形態における撮像制御部100の構成例を示す図である。
 以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
 1.第1の実施の形態(センサにより撮像装置の動きを検出する場合の例)
 2.第2の実施の形態(動きベクトルにより撮像装置の動きを検出する場合の例)
 3.変形例
 <1.第1の実施の形態>
 [撮像装置の構成]
 図1は、本技術の実施の形態における撮像装置10の構成例を示す図である。この撮像装置10は、魚眼レンズ11と、撮像素子12と、ジャイロセンサ13と、操作入力部14と、マイク#1(15)と、マイク#2(16)と、マイク#3(17)と、撮像制御部100と、ストレージ18とを備える。
 魚眼レンズ11は、画像を撮像素子12に結像するものである。この魚眼レンズ11は、中心射影方式でない射影方式のレンズであり、広視野角の画像の結像を行うレンズである。
 撮像素子12は、魚眼レンズ11により結像された画像の撮像を行うものである。魚眼レンズ11を介して撮像を行うため、撮像された画像は広視野角画像となる。この撮像素子12は、1画面分の画像信号であるフレームを撮像制御部100に対して出力する。
 ジャイロセンサ13は、撮像装置10が動いた際の撮像装置10の所定の軸における角速度を検出するものである。このジャイロセンサ13は、検出した角速度を撮像制御部100に対して出力する。
 マイク#1(15)乃至#3(17)は、人物等の被写体からの音を集音して音声信号に変換し、撮像制御部100に対して出力するものである。このマイク#1(15)乃至#3(17)は、それぞれ離れた位置に配置される。これにより、出力される音声信号は、それぞれ異なる位相の信号となり、音場を立体化することができる。また、マイク#1(15)乃至#3(17)として指向性を有するマイクを使用し、それぞれ異なる集音範囲に配置することもできる。マイク#1(15)乃至#3(17)の配置の詳細については後述する。
 撮像制御部100は、撮像装置10の全体を制御するものである。この撮像制御部100は、撮像素子12から出力されたフレームのうち表示に使用する領域である表示領域の画像信号を選択し、ストレージ18に対して出力する。上述のように、撮像素子12により撮像される画像は広視野角画像となる。撮像制御部100は、この広視野角画像に対して表示領域を設定し、この領域の画像信号のみを出力する。これにより、表示領域以外の領域の画像信号の処理を省略することができ、処理の簡略化および撮像装置10の低消費電力化が可能となる。また、後述するストレージ18に保持する際の画像信号のファイルサイズを小さくすることができる。
 また、撮像制御部100は、上述のジャイロセンサ13により検出された撮像装置10の動きに応じて表示領域のフレームにおける位置を更新する。また、撮像制御部100は、マイク#1(15)乃至#3(17)から出力された音声信号に対して処理を行い表示領域の画像信号とともにストレージ18に対して出力する。この処理として、撮像制御部100は、マイク#1(15)乃至#3(17)から出力された音声信号から表示領域に音像を定位させる音声信号の生成処理を行う。この音声信号を画像信号に付加することにより、表示される画面と音像とを一致させることができる。撮像制御部100の構成の詳細については後述する。なお、撮像制御部100は、特許請求の範囲に記載の撮像制御装置の一例である。
 ストレージ18は、撮像制御部100から出力された画像信号および音声信号を保持するものである。
 操作入力部14は、撮影者等のユーザによる表示領域の入力を受け付けるものである。この操作入力部14は、受け付けた表示領域を撮像制御部100に対して出力する。操作入力部14として、例えば、タッチパネル付の表示装置を使用することができる。この表示装置には撮像素子12により撮像されたフレームの画像が表示され、撮影者は表示装置の表示を見ながら表示領域を選択してタッチパネルにより入力することができる。
 なお、撮像装置10の構成は、この例に限定されない。例えば、魚眼レンズ11の代わりに中心射影方式の広角レンズを使用することもできる。また、ジャイロセンサ13の代わりに加速度を検出するセンサを使用して撮像装置10の動きを検出することもできる。また、撮像制御部100からの画像信号および音声信号を有線または無線により撮像装置10の外部に対して出力することもできる。
 [撮像制御部の構成]
 図2は、本技術の第1の実施の形態における撮像制御部100の構成例を示す図である。この撮像制御部100は、表示領域選択部101と、手ブレ検出部102と、表示領域更新部103と、フレームメモリ104と、画像信号選択部105と、歪補正部106と、音声信号処理部107と、定位音声信号生成部108と、合成部109とを備える。
 フレームメモリ104は、撮像素子12から出力された画像信号を保持するものである。このフレームメモリ104は、1フレームの画像信号を保持する。
 表示領域選択部101は、表示領域を選択するものである。この表示領域選択部101は、選択した表示領域の座標を表示領域更新部103に対して出力する。この表示領域として、例えば、操作入力部14から出力された表示領域を選択することができる。また、例えば、撮像制御部100において予め設定された表示領域を選択することもできる。予め設定された表示領域として、例えば、フレーム中央部の所定の大きさの領域を採用することができる。また、例えば、音声認識を行うことにより会話している人物を特定し、この人物を含む領域を表示領域にすることもできる。フレームおよび表示領域の詳細については後述する。
 手ブレ検出部102は、撮像装置10の動きを検出するものである。この手ブレ検出部102は、ジャイロセンサ13により検出された角速度に基づいて撮像装置10の動きを検出する。検出した撮像装置10の動きは、表示領域更新部103に対して出力される。なお、手ブレ検出部102は、特許請求の範囲に記載の動き検出部の一例である。
 表示領域更新部103は、表示領域選択部101により選択された表示領域の位置を更新するものである。この表示領域更新部103は、手ブレ検出部102により検出された撮像装置10の動きに応じて表示領域のフレームにおける位置を更新する。手ブレ等により撮像装置10が、例えば、上方向に動いた場合には、撮像素子12により撮像される画像も上方向に移動したものとなる。この場合には、表示領域のフレームにおける位置を下方向に更新する。撮像装置10の動きを相殺するように表示領域のフレームにおける位置を更新することにより、手ブレ等による影響を低減して画質を向上させることができる。なお、撮像装置10の位置が大きく変化した場合には、表示領域更新部103は、表示領域の位置に加えて形状を変更して更新することもできる。表示領域更新部103は、更新した表示領域の座標を画像信号選択部105および定位音声信号生成部108に対して出力する。
 画像信号選択部105は、フレームメモリ104に保持された画像信号を選択し、歪補正部106に対して出力するものである。この画像信号選択部105は、表示領域更新部103から出力された表示領域に基づいて画像信号を選択する。具体的には、フレームメモリ104に保持された画像信号のうち表示領域に含まれる画像信号の読出しを行うことにより、画像信号の選択を行う。
 歪補正部106は、画像信号選択部105により選択された画像信号の歪みを補正するものである。この歪補正部106は、補正後の画像信号を合成部109に対して出力する。前述のように、撮像素子12は、魚眼レンズ11を介して撮像を行う。このため、撮像素子12から出力される画像信号は歪んだものとなる。そこで、歪補正部106により、この画像信号の歪みを補正する。歪みの補正には、公知の方法、例えば、魚眼歪補正を使用することができる。
 音声信号処理部107は、マイク#1(15)乃至#3(17)から出力された音声信号を処理するものである。この音声信号の処理には、例えば、アナログの音声信号をデジタルの音声信号に変換するアナログデジタル変換が該当する。音声信号処理部107は、処理後のそれぞれの音声信号を定位音声信号生成部108に対して出力する。
 定位音声信号生成部108は、音声信号処理部107から出力された音声信号から定位音声信号を生成するものである。ここで定位音声信号とは、表示領域に音像を定位させる音声信号である。この定位音声信号を使用することにより、表示領域と音像とが一致する。すなわち撮像装置10のユーザは、表示領域の音源に対して音の方向および距離を感じ取ることができる。これにより、臨場感を向上させることができる。この定位音声信号生成部108は、表示領域更新部103から出力された表示領域に基づいて定位音声信号を生成する。表示領域更新部103により位置が更新された表示領域に基づいて定位音声信号が生成されるため、手ブレ等により撮像装置10が動いた場合であっても、表示領域と音像とを一致させることができる。同図の定位音声信号生成部108は、右チャンネルおよび左チャンネルの2つの音声信号からなるステレオ形式の定位音声信号を生成し、合成部109に対して出力する。定位音声信号生成部108における定位音声信号の生成の詳細については、後述する。なお、定位音声信号生成部108の構成は、この例に限定されない。例えば、定位音声信号生成部108は、モノラル形式の定位音声信号を生成することもできる。また、定位音声信号生成部108は、右前、右後、左前および左後の4つのチャンネルの定位音声信号を生成することもできる。
 合成部109は、歪補正部106から出力された画像信号と定位音声信号生成部108から出力された定位音声信号とを合成するものである。この合成部109は、合成後の画像信号および音声信号をストレージ18に対して出力する。また、合成部109は、合成前の画像信号および音声信号に対して処理を行う。具体的には、合成部109は、歪補正部106から出力された画像信号に対して、例えば、ガンマ補正等の画像処理を行うことができる。その後、合成部109は、画像信号の圧縮および符号化を行う。この符号化には、例えば、コーデックとしてH.264を採用することができる。一方、合成部109は、定位音声信号生成部108から出力された定位音声信号である右チャンネルおよび左チャンネルの音声信号の圧縮および符号化を行う。この符号化には、例えば、コーデックとしてAAC(Advanced Audio Coding)を採用することができる。合成部109は、符号化された画像信号および音声信号を合成して動画ファイルを構成し、ストレージ18に対して出力する。
 [撮像制御部の構成]
 図3は、本技術の実施の形態における表示領域の一例を示す図である。同図におけるaは、撮像素子12により撮像される画像(フレーム)を表したものである。魚眼レンズ11を介して撮像されるため広視野角画像となっている。同図におけるaの領域401は、表示領域を表している。同図におけるbは、この表示領域の画像信号に対して歪補正を行った画像である。このように、歪補正を行うことにより、利便性を向上させることができる。
 [撮像装置の外観]
 図4は、本技術の実施の形態における撮像装置10の一例を示す模式図である。同図は、撮像装置10の外観を表したものであり、同図におけるaは撮像装置10の正面図を表し、同図におけるbは撮像装置10の上面図を表したものである。
 魚眼レンズ11は撮像装置10の正面に配置され、この魚眼レンズ11の背後に撮像素子12が配置される(不図示)。なお、同図においては、魚眼レンズ11の外側に保護カバー19が配置される。
 マイク#1(15)乃至#3(17)は魚眼レンズ11の下部に配置される。マイク#2(16)は、魚眼レンズ11と同様に正面に配置される。マイク#1(15)および#3(17)は、それぞれ正面に対して45°傾いた面に配置される。これにより、マイク#1(15)乃至#3(17)により出力される音声信号はそれぞれ異なる位相の信号となる。なお、マイク#1(15)乃至#3(17)の配置は、この例に限定されない。例えば、マイク#1(15)乃至#3(17)を撮像装置10の上面または下面に配置することもできる。この場合には、三角形を構成する頂点の位置にこれらのマイクを配置することができる。
 [定位音声信号の生成]
 図5は、本技術の実施の形態における表示領域とマイクとの関係を示す図である。同図は、表示領域のフレームにおける位置が変化した場合の表示領域とマイク#1(15)乃至#3(17)との関係を表したものである。表示領域402乃至404は、それぞれ撮像装置10の左前方、正面および右前方に表示領域が選択された場合を想定したものである。このように、表示領域が大きく変化した場合であっても、これらの表示領域に音像を定位させる音声信号が定位音声信号生成部108により生成される。
 この生成は、公知の方法により行うことができる。例えば、マイク#1(15)乃至#3(17)から出力された音声信号を混合することにより行うことができる。この混合は、例えば、次式に基づいて行うことができる。
  定位音声信号 = A×M1+B×M2+C×M3
ここで、M1乃至M3は、それぞれマイク#1(15)乃至#3(17)から出力される音声信号を表す。また、A、BおよびCは、混合係数を表す。定位音声信号生成部108は、マイク#1(15)乃至#3(17)から出力される音声信号に対して増幅を行う。この際の利得が上述の混合係数に該当する。この混合を右チャンネルおよび左チャンネルに対して行うことにより、定位音声信号生成部108は、定位音声信号を生成する。
 図6は、本技術の実施の形態における音声信号の利得の一例を示す図である。同図は、図5において説明した各表示領域に対応するA、BおよびCの値の例をチャンネル毎に表したものである。このように、表示領域の位置に応じて音声信号の利得を調整して混合することにより、定位音声信号を生成することができる。
 [定位位置]
 図7は、本技術の実施の形態における定位位置の一例を示す図である。同図は、表示領域と定位位置との関係を表したものである。同図におけるaはフレームの中央部に表示領域405が選択された場合を表し、同図におけるbはフレームの右上に表示領域407が選択された場合を表している。また、同図においては、定位音声信号に基づく音声を出力する仮想的なスピーカ411および412を配置している。この場合、音像は、これらのスピーカの間に定位することとなる。スピーカ411および412はそれぞれ右チャンネルおよび左チャンネルに対応しており、定位音声信号生成部108はこれらのスピーカから出力される音声に対応する音声信号を生成することとなる。なお、同図において点線により表された領域406および408は、歪補正部106により歪みが補正された場合の画像信号の領域を表したものである。このように、定位位置は、表示領域を垂直方向に2分した位置にすることができる。
 [撮像制御処理]
 図8は、本技術の実施の形態における撮像制御処理の処理手順の一例を示す図である。まず、撮像制御部100は、画像信号および音声信号を取得する(ステップS901)。具体的には、撮像制御部100は、撮像素子12から出力されたフレームをフレームメモリ104に保持させる。同時に、撮像制御部100は、スピーカ#1(15)乃至#3(17)から出力された音声信号の取得を行う。次に、撮像制御部100は、操作入力部14からの表示領域の入力があるか否かを判断する(ステップS902)。表示領域の入力がある場合には(ステップS902:Yes)、撮像制御部100は、入力された表示領域を選択し(ステップS904)、ステップS905の処理に移行する。一方、表示領域の入力がない場合には(ステップS902:No)、撮像制御部100は、予め設定された表示領域を選択し(ステップS903)、ステップS905の処理に移行する。
 ステップS905において、撮像制御部100は、撮像装置10の動きを検出したか否かを判断する(ステップS905)。撮像装置10の動きを検出した場合には(ステップS905:Yes)、撮像制御部100は、検出した撮像素子12の動きに応じて表示領域を更新し(ステップS906)、ステップS907の処理に移行する。一方、撮像装置10の動きを検出しなかった場合には(ステップS905:No)、撮像制御部100は、ステップS906の処理をスキップしてステップS907の処理に移行する。
 ステップS907において、撮像制御部100は、表示領域の画像信号を選択する(ステップS907)。これは、フレームメモリ104に保持された画像信号から表示領域に含まれる画像信号を読み出すことにより行うことができる。次に、撮像制御部100は、選択された画像信号の歪補正を行う(ステップS908)。次に、撮像制御部100は、表示領域に音像を定位させる音声信号である定位音声信号を生成する(ステップS909)。最後に、撮像制御部100は、補正された画像信号および定位音声信号の合成を行い(ステップS911)、ストレージ18に対して出力する。その後、撮像制御部100は、撮像制御処理を終了する。
 このように、本技術の第1の実施の形態では、撮像装置10の動きに応じてフレームにおける位置が更新され、更新後の表示領域に音像を定位させる。これにより、撮像装置10の構成を簡略化することができる。
 <2.第2の実施の形態>
 上述の第1の実施の形態では、ジャイロセンサ13により撮像装置10の動きを検出していたが、撮像素子12から出力された画像信号から撮像装置10の動きを検出してもよい。本技術の第2の実施の形態では、撮像素子12から出力された画像信号から動きベクトルを生成して撮像装置10の動きを検出する点において、第1の実施の形態と異なる。
 [撮像制御部の構成]
 図9は、本技術の第2の実施の形態における撮像制御部100の構成例を示す図である。同図の撮像制御部100は、手ブレ検出部102の代わりに動きベクトル生成部112を備える点で、図2において説明した撮像制御部100と異なる。
 動きベクトル生成部112は、撮像素子12から出力されたフレームから動きベクトルを生成するものである。ここで、動きベクトルとは、時系列の複数のフレームの間における画像の相対的位置関係を示す情報である。手ブレ等により撮像装置10が動いた場合には、この動きとは逆の方向に画像が動いたフレームが撮像素子12から出力される。動きベクトル生成部112は、複数のフレームにおける画像の動きから動きベクトルを生成し、表示領域更新部103に対して出力する。動きベクトルの生成には、公知の方法を使用することができる。なお、動きベクトル生成部112は、特許請求の範囲に記載の動き検出部の一例である。
 同図の表示領域更新部103は、動きベクトル生成部112により出力された動きベクトルに基づいて撮像素子12の動きを検出する。
 また、本技術の第2の実施の形態における撮像装置10は、図1において説明したジャイロセンサを省略することができる。
 これ以外の撮像装置10の構成は本技術の第1の実施の形態において説明した撮像装置10と同様であるため、説明を省略する。
 このように、本技術の第2の実施の形態によれば、動きベクトルを生成して撮像装置10の動きを検出することにより、ジャイロセンサ13を省略することができ、撮像装置10の構成をさらに簡略化することができる。
 <3.変形例>
 上述の実施の形態では、3つのマイク(マイク#1(15)乃至#3(17))を使用していたが、4つのマイクを使用してもよい。例えば、図4において説明した撮像装置10の魚眼レンズ11の上方に4つ目のマイクを配置する構成にすることができる。これにより、フレームの上方または下方に表示領域が選択された場合においても、定位音声信号を生成することができる。
 また、音像の定位可能な範囲を撮像装置10の前方180°の範囲に限定する場合には、2つのマイクを配置する構成にすることもできる。例えば、図4において説明した撮像装置10において、マイク#2(16)を省略し、マイク#1(15)およびマイク#3(17)を魚眼レンズ11が配置された面と平行に配置することができる。これにより、撮像装置10の構成を簡略化することができる。
 上述のように、本技術の実施の形態では、撮像装置10の動きに応じてフレームにおける表示領域の位置が更新され、撮像装置10に配置された複数のマイクから出力された音声信号から更新後の表示領域に音像を定位させる音声信号を生成して出力する。これにより、撮像装置10の構成を簡略化することができる。
 なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
 また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disc)、メモリカード、ブルーレイディスク(Blu-ray(登録商標)Disc)等を用いることができる。
 なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。
 なお、本技術は以下のような構成もとることができる。
(1)撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、
 前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部と
を具備する撮像制御装置。
(2)前記定位音声信号生成部は、前記複数のマイクから出力された音声信号を混合することにより前記定位音声信号を生成する前記(1)に記載の撮像制御装置。
(3)前記補正された表示領域における画像信号の歪みを補正する補正部をさらに具備する前記(1)または(2)に記載の撮像制御装置。
(4)前記撮像素子は、魚眼レンズを介して撮像した前記画像信号を出力し、
 前記補正部は、前記魚眼レンズによる画像信号の歪みを補正する
前記(3)に記載の撮像制御装置。
(5)前記撮像装置の動きを検出する動き検出部をさらに具備し、
 前記表示領域更新部は、前記動き検出部により検出された撮像装置の動きに応じて前記表示領域を更新する
前記(1)から(4)のいずれかに記載の撮像制御装置。
(6)前記動き検出部は、前記撮像装置の動きを検出するセンサからの出力に基づいて前記撮像装置の動きを検出する前記(5)に記載の撮像制御装置。
(7)前記動き検出部は、前記撮像素子から出力された画像信号から生成される動きベクトルに基づいて前記撮像装置の動きを検出する前記(5)に記載の撮像制御装置。
(8)撮像素子と、
 前記撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、
 前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部と
を具備する撮像装置。
(9)撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新手順と、
 前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成手順と
を具備する撮像制御方法。
 10 撮像装置
 11 魚眼レンズ
 12 撮像素子
 13 ジャイロセンサ
 14 操作入力部
 15~17 マイク
 18 ストレージ
 19 保護カバー
 100 撮像制御部
 101 表示領域選択部
 102 手ブレ検出部
 103 表示領域更新部
 104 フレームメモリ
 105 画像信号選択部
 106 歪補正部
 107 音声信号処理部
 108 定位音声信号生成部
 109 合成部
 112 動きベクトル生成部

Claims (9)

  1.  撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、
     前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部と
    を具備する撮像制御装置。
  2.  前記定位音声信号生成部は、前記複数のマイクから出力された音声信号を混合することにより前記定位音声信号を生成する請求項1記載の撮像制御装置。
  3.  前記補正された表示領域における画像信号の歪みを補正する補正部をさらに具備する請求項1記載の撮像制御装置。
  4.  前記撮像素子は、魚眼レンズを介して撮像した前記画像信号を出力し、
     前記補正部は、前記魚眼レンズによる画像信号の歪みを補正する
    請求項3記載の撮像制御装置。
  5.  前記撮像装置の動きを検出する動き検出部をさらに具備し、
     前記表示領域更新部は、前記動き検出部により検出された撮像装置の動きに応じて前記表示領域を更新する
    請求項1記載の撮像制御装置。
  6.  前記動き検出部は、前記撮像装置の動きを検出するセンサからの出力に基づいて前記撮像装置の動きを検出する請求項5記載の撮像制御装置。
  7.  前記動き検出部は、前記撮像素子から出力された画像信号から生成される動きベクトルに基づいて前記撮像装置の動きを検出する請求項5記載の撮像制御装置。
  8.  撮像素子と、
     前記撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新部と、
     前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成部と
    を具備する撮像装置。
  9.  撮像素子から出力される画像信号により構成されるフレームのうち表示に使用する領域である表示領域の前記フレームにおける位置を前記撮像素子が配置された撮像装置の動きに応じて更新する表示領域更新手順と、
     前記更新された表示領域に音像を定位させる音声信号である定位音声信号を複数のマイクから出力された音声信号に基づいて生成する定位音声信号生成手順と
    を具備する撮像制御方法。
PCT/JP2017/018461 2016-09-01 2017-05-17 撮像制御装置、撮像装置および撮像制御方法 WO2018042770A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/325,102 US11405542B2 (en) 2016-09-01 2017-05-17 Image pickup control device, image pickup device, and image pickup control method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016171049A JP2018037944A (ja) 2016-09-01 2016-09-01 撮像制御装置、撮像装置および撮像制御方法
JP2016-171049 2016-09-01

Publications (1)

Publication Number Publication Date
WO2018042770A1 true WO2018042770A1 (ja) 2018-03-08

Family

ID=61300468

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/018461 WO2018042770A1 (ja) 2016-09-01 2017-05-17 撮像制御装置、撮像装置および撮像制御方法

Country Status (3)

Country Link
US (1) US11405542B2 (ja)
JP (1) JP2018037944A (ja)
WO (1) WO2018042770A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191419A (ja) * 1995-01-10 1996-07-23 Yamaha Corp 頭部装着型表示システム
JPH08307753A (ja) * 1995-05-09 1996-11-22 Minolta Co Ltd カメラと表示装置から成る映像システム及び表示装置
JP2007143052A (ja) * 2005-11-22 2007-06-07 Canon Inc 記録装置及び再生装置
JP2012119803A (ja) * 2010-11-30 2012-06-21 Canon Inc 超広角映像の記録及び再生装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005252626A (ja) * 2004-03-03 2005-09-15 Canon Inc 撮像装置および画像処理方法
JP2005252625A (ja) * 2004-03-03 2005-09-15 Canon Inc 撮像装置および画像処理方法
US8730322B2 (en) * 2004-07-30 2014-05-20 Eyesee360, Inc. Telepresence using panoramic imaging and directional sound and motion
JP2007295335A (ja) * 2006-04-26 2007-11-08 Opt Kk カメラ装置および画像記録再生方法
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
JP4557035B2 (ja) * 2008-04-03 2010-10-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び記録媒体
RU2542586C2 (ru) * 2009-11-24 2015-02-20 Нокиа Корпорейшн Устройство для обработки звуковых сигналов
EP3217653B1 (en) * 2009-12-24 2023-12-27 Nokia Technologies Oy An apparatus
JP5577793B2 (ja) * 2010-03-30 2014-08-27 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP2012178807A (ja) * 2011-02-28 2012-09-13 Sanyo Electric Co Ltd 撮像装置
JP5992210B2 (ja) * 2012-06-01 2016-09-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
WO2014068779A1 (ja) * 2012-11-05 2014-05-08 株式会社モルフォ 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
WO2016004258A1 (en) * 2014-07-03 2016-01-07 Gopro, Inc. Automatic generation of video and directional audio from spherical content
US10909384B2 (en) * 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
WO2017020150A1 (zh) * 2015-07-31 2017-02-09 深圳市大疆创新科技有限公司 一种图像处理方法、装置及摄像机
GB201603675D0 (en) * 2016-03-03 2016-04-20 Centricam Technologies Ltd A method,system and device for generating associated audio and visual signals in a wide angle image system
JP6274251B2 (ja) * 2016-05-17 2018-02-07 株式会社Jvcケンウッド 画像データ発生装置及び画像データ発生方法
KR20180017591A (ko) * 2016-08-10 2018-02-21 삼성전자주식회사 카메라 장치, 디스플레이 장치 및 그 장치에서 움직임을 보정하는 방법
KR102598082B1 (ko) * 2016-10-28 2023-11-03 삼성전자주식회사 영상 표시 장치, 모바일 장치 및 그 동작방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191419A (ja) * 1995-01-10 1996-07-23 Yamaha Corp 頭部装着型表示システム
JPH08307753A (ja) * 1995-05-09 1996-11-22 Minolta Co Ltd カメラと表示装置から成る映像システム及び表示装置
JP2007143052A (ja) * 2005-11-22 2007-06-07 Canon Inc 記録装置及び再生装置
JP2012119803A (ja) * 2010-11-30 2012-06-21 Canon Inc 超広角映像の記録及び再生装置

Also Published As

Publication number Publication date
US11405542B2 (en) 2022-08-02
JP2018037944A (ja) 2018-03-08
US20210289137A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
JP5801026B2 (ja) 画像音響処理装置及び撮像装置
JP4629388B2 (ja) 音響生成方法、音響生成装置、音響再生方法及び音響再生装置
JP6289121B2 (ja) 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP5288214B2 (ja) データ処理装置、データ処理方法、及びプログラム
KR101753715B1 (ko) 촬영장치 및 이를 이용한 촬영방법
JP2011071962A (ja) 撮像装置及び再生装置
JP5577931B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2006314078A (ja) 撮像装置、音声記録装置および音声記録方法
JP2009156888A (ja) 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
US20120218377A1 (en) Image sensing device
JP7196399B2 (ja) 音響装置、音響システム、方法およびプログラム
US10873824B2 (en) Apparatus, system, and method of processing data, and recording medium
US11342001B2 (en) Audio and video processing
US20020071661A1 (en) Audio and video reproduction apparatus
JP2023027280A (ja) 音響装置、撮像装置、音響システム、方法およびプログラム
JP2014123917A (ja) 画像処理装置、画像処理方法及びプログラム
JP5143172B2 (ja) 撮像装置及び画像再生装置
WO2018042770A1 (ja) 撮像制御装置、撮像装置および撮像制御方法
JP5949398B2 (ja) 映像音声記録再生装置
JP2011120165A (ja) 撮像装置
JP6186627B2 (ja) マルチメディア装置およびプログラム
WO2021181966A1 (ja) 画像処理装置、画像処理方法、プログラム
JP2017216496A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2011155580A (ja) 撮像装置
JP2019169762A (ja) 情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17845781

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17845781

Country of ref document: EP

Kind code of ref document: A1