WO2021161733A1 - 撮影装置、撮影システム、撮影処理方法 - Google Patents

撮影装置、撮影システム、撮影処理方法 Download PDF

Info

Publication number
WO2021161733A1
WO2021161733A1 PCT/JP2021/001583 JP2021001583W WO2021161733A1 WO 2021161733 A1 WO2021161733 A1 WO 2021161733A1 JP 2021001583 W JP2021001583 W JP 2021001583W WO 2021161733 A1 WO2021161733 A1 WO 2021161733A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
unit
acquisition unit
acquisition units
calculation unit
Prior art date
Application number
PCT/JP2021/001583
Other languages
English (en)
French (fr)
Inventor
開士 村上
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021161733A1 publication Critical patent/WO2021161733A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads

Definitions

  • This technology relates to a shooting device, a shooting system, and a shooting processing method.
  • each of a plurality of microphones provided in a photographing device is generally arranged at a predetermined angle.
  • the audio signals obtained from each of the plurality of microphones are used to generate directional stereo sound. As a result, realistic sound can be reproduced.
  • the photographing device may be rotated by approximately 90 degrees so that the left side of the photographing device is arranged on the upper side, and the image may be photographed in the so-called vertical direction.
  • stereo sound having directivity in the vertical direction is generated. Therefore, there is a problem that stereo sound having a horizontal directivity pattern matching the image is not reproduced at the time of reproduction.
  • a voice recording / playback device that processes voice signals input from a plurality of omnidirectional microphone elements, records them on a recording medium, and reproduces the voice signals.
  • a voice characterized by having a device direction detecting means for detecting a usage direction of a recording / reproducing device and selecting a microphone element to be used from the plurality of microphone elements according to a detection result of the device direction detecting means.
  • a recording / playback device "is disclosed. In Patent Document 1, it is described that a voice recording / reproducing device selects a microphone element to be used according to the device direction.
  • the audio signal processing method may be performed depending on whether the left side of the photographing device is arranged on the upper side or the left side of the photographing device is arranged on the lower side. Is different.
  • the audio signal is appropriately processed at the time of shooting so that the direction of the reproduced sound is smoothly reproduced when the shooting device is shot while slowly or rapidly changing from the normal direction to the vertical direction, for example. It is preferable to do so.
  • the main purpose of this technology is to provide a photographing device, a photographing system, and a photographing processing method that process an audio signal corresponding to the inclination of the image to be photographed.
  • the present technology is a calculation unit that generates a plurality of stereo audio signals using the audio signals obtained by each of the plurality of audio acquisition units, and associates the attitude information obtained by the attitude acquisition unit with the stereo audio signals in chronological order.
  • a photographing device provided with at least.
  • the posture information may include information regarding the posture of the photographing apparatus.
  • the calculation unit selects a combination consisting of two or more of the audio acquisition units from the plurality of audio acquisition units, and generates a stereo audio signal using the audio signal obtained by the selected audio acquisition unit. You may.
  • the calculation unit may calculate the directivity pattern of the stereo audio signal to be reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the calculation unit may calculate the amplification factor of the stereo audio signal to be reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the calculation unit may select a voice reproduction unit in which the stereo audio signal is reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the voice acquisition unit may be a monaural microphone.
  • the photographing device includes at least three of the voice acquisition units, and of the three voice acquisition units, at least two of the voice acquisition units and at least one of the voice acquisition units are arranged so as to face each other. You may be.
  • the photographing device includes at least four of the voice acquisition units, and of the four voice acquisition units, at least three of the voice acquisition units and at least one of the voice acquisition units are arranged so as to face each other.
  • the attitude acquisition unit may be an angular velocity sensor and / or an acceleration sensor.
  • the present technology generates a plurality of stereo audio signals using the audio signals obtained from each of the plurality of audio acquisition units, and the attitude information obtained by the attitude acquisition unit and the stereo audio signals are time-series.
  • a shooting system having at least a calculation unit associated with.
  • the present technology generates a plurality of stereo audio signals using the audio signals obtained by each of the plurality of audio acquisition units, and the posture information obtained by the posture acquisition unit and the stereo audio signal are generated in chronological order.
  • a shooting processing method including at least associating.
  • substantially parallel means not only completely parallel, but also substantially parallel, that is, including a difference of, for example, about several percent.
  • substantially parallel means not only completely parallel, but also substantially parallel, that is, including a difference of, for example, about several percent.
  • each figure is a schematic view and is not necessarily exactly illustrated.
  • FIG. 1 is a configuration diagram of a photographing apparatus according to an embodiment of the present technology.
  • the photographing apparatus according to an embodiment of the present technology can be applied to, for example, a digital video camera.
  • the photographing device 1 can include a plurality of voice acquisition units 11a to 11c, a posture acquisition unit 12, a calculation unit 13, a control unit 14, and a memory 15.
  • Each of the plurality of voice acquisition units 11a to 11c obtains a voice signal which is digital data by AD-converting the voice obtained from the outside of the photographing device 1.
  • Each of the plurality of voice acquisition units 11a to 11c can be realized by using, for example, an omnidirectional monaural microphone or the like.
  • the posture acquisition unit 12 obtains posture information including information on the posture of the photographing device 1.
  • the attitude acquisition unit 12 can be realized by using, for example, an angular velocity sensor, an acceleration sensor, an inertial sensor (IMU: Inertial Measurement Unit), or the like. It is preferable that the posture acquisition unit 12 has the bias error removed in advance. However, if this bias error is not removed, for example, the calculation unit 13 may estimate this bias error.
  • the calculation unit 13 can generate a plurality of stereo audio signals by using the audio signals obtained by each of the plurality of audio acquisition units 11a to 11c. Then, the calculation unit 13 can associate the stereo audio signal with the posture information in a time series.
  • the calculation unit 13 can be realized by using, for example, a microcomputer or the like.
  • the control unit 14 can control the processing of the calculation unit 13 and the like.
  • the control unit 14 can be realized by using, for example, a microcomputer or the like.
  • the memory 15 can record data processed by, for example, a calculation unit 13.
  • the photographing device 1 may include an audio delay unit.
  • the audio delay unit can synchronize the output timings of the video signal and the audio signal.
  • the photographing device 1 can include at least three audio acquisition units. Further, each of the plurality of voice acquisition units is arranged at an appropriate position. More specifically, of the three voice acquisition units, at least two of the voice acquisition units and at least one of the voice acquisition units are arranged so as to face each other.
  • FIG. 2 is a schematic view of a photographing apparatus according to an embodiment of the present technology.
  • the photographing device 1 includes a first sound acquisition unit 11a, a second sound acquisition unit 11b, a third sound acquisition unit 11c, a photographing lens 16, and a housing 17.
  • the first voice acquisition unit 11a and the second voice acquisition unit 11b are arranged on the upper surface side of the housing 17.
  • the third voice acquisition unit 11c is arranged on the lower surface side of the housing 17.
  • the first voice acquisition unit 11a, the second voice acquisition unit 11b, and the third voice acquisition unit 11c are arranged so as to face each other.
  • each of the plurality of voice acquisition units 11a to 11c By arranging each of the plurality of voice acquisition units 11a to 11c in this way, an appropriate voice signal can be obtained. A detailed description will be described later.
  • the respective arrangement positions of the plurality of voice acquisition units 11a to 11c are not limited to this.
  • one sound acquisition unit may be arranged on the upper surface side of the photographing device 1, and two sound acquisition units may be arranged on the lower surface side of the photographing device 1.
  • the voice acquisition units 11a to 11c may be arranged on the left side or the right side.
  • the sound acquisition units 11a to 11c may be arranged on the photographing lens 16.
  • FIG. 3 is a flowchart showing an example of processing of the arithmetic unit according to the embodiment of the present technology.
  • the calculation unit 13 selects a combination consisting of two or more voice acquisition units from the plurality of voice acquisition units (S11). For example, in order to generate a stereo audio signal having a horizontal directivity pattern, the arithmetic unit 13 uses the posture information to obtain an audio acquisition unit arranged on the right side and an audio acquisition unit arranged on the left side. And select a combination consisting of.
  • the calculation unit 13 obtains the voice signal obtained by the selected voice acquisition unit (S12).
  • the audio signal can be recorded, for example, in the memory 15.
  • the calculation unit 13 uses the audio signal to generate a plurality of stereo audio signals for each combination (S13).
  • Each of the plurality of stereo audio signals has a directional pattern.
  • the stereo audio signal can be recorded in the memory 15.
  • the photographing device 1 shoots in a normal direction.
  • the first sound acquisition unit 11a and the second sound acquisition unit 11b are arranged on the upper surface side of the photographing device 1
  • the third sound acquisition unit 11c is the photographing device. This is a case of taking a picture while being arranged on the lower surface side of 1.
  • the calculation unit 13 can generate a stereo audio signal having a horizontal directivity pattern by using the audio signal obtained by the first audio acquisition unit 11a and the audio signal obtained by the second audio acquisition unit 11b. ..
  • the arithmetic unit 13 uses the audio signal obtained by the first audio acquisition unit 11a and the audio signal obtained by the third audio acquisition unit 11c to form a stereo having a directivity pattern in the vertical direction (gravity direction). Can generate audio signals.
  • the arithmetic unit 13 uses the audio signal obtained by the second audio acquisition unit 11b and the audio signal obtained by the third audio acquisition unit 11c to generate a stereo audio signal having a vertical directivity pattern. It may be generated.
  • the calculation unit 13 can generate a plurality of stereo audio signals having a significant directivity pattern as an audible sensation. As a result, the direction of the sound can be accurately reproduced during reproduction regardless of the inclination of the photographing device 1.
  • the plurality of stereo audio signals may have all directivity patterns, or may have only specific directivity patterns.
  • the generated stereo audio signal may be recorded in the memory 15 or may be recorded in an external computer device or the like.
  • the photographing device 1 shoots in portrait orientation.
  • the case of shooting in a normal orientation is, for example, a case where the shooting device 1 is rotated by approximately 90 degrees so that the left side of the shooting device 1 is arranged on the upper side or the lower side.
  • each of the plurality of audio acquisition units 11a to 11c is arranged on the right side surface or the left side surface of the photographing device 1.
  • the calculation unit 13 can generate a stereo audio signal having a directivity pattern in the vertical direction by using the audio signal obtained by the first audio acquisition unit 11a and the audio signal obtained by the second audio acquisition unit 11b. ..
  • the arithmetic unit 13 uses the audio signal obtained by the first audio acquisition unit 11a and the audio signal obtained by the third audio acquisition unit 11c to generate a stereo audio signal having a horizontal directivity pattern. can.
  • the arithmetic unit 13 uses the audio signal obtained by the second audio acquisition unit 11b and the audio signal obtained by the third audio acquisition unit 11c to generate a stereo audio signal having a directivity pattern in the horizontal direction. It may be generated.
  • the calculation unit 13 can generate a plurality of stereo audio signals.
  • FIG. 4 is a flowchart showing an example of processing of the arithmetic unit according to the embodiment of the present technology.
  • the calculation unit 13 refers to the posture information of the photographing device 1 (S21).
  • the calculation unit 13 determines whether or not the rotation angle of the photographing device 1 is larger than ⁇ 45 degrees and smaller than 45 degrees (S22).
  • the rotation angle when the left side of the photographing device 1 is rotated so as to come to the lower side is positive.
  • the calculation unit 13 estimates that the photographing device 1 is in the normal orientation (S23).
  • the calculation unit 13 determines whether or not the rotation angle of the photographing device 1 is ⁇ 45 degrees or less (S24). ). When the rotation angle of the photographing device 1 is ⁇ 45 degrees or less (S24: Yes), the calculation unit 13 estimates that the photographing device 1 is rotated so that the left side is on the upper side (S25).
  • the calculation unit 13 causes the right side of the photographing device 1 to come to the upper side. It is presumed to be rotated vertically (S26).
  • the determination condition of the calculation unit 13 is not limited to the above.
  • the calculation unit 13 may estimate that the photographing device 1 is in an oblique direction when the rotation angle of the photographing device 1 is larger than 30 degrees and smaller than 60 degrees.
  • the calculation unit 13 may classify the rotation angle of the photographing device 1 into a plurality of patterns. For example, when the rotation angle of the photographing device 1 is 0 degrees or more and less than 30 degrees, the calculation unit 13 can classify this rotation angle into the pattern A. Similarly, when the rotation angle of the photographing device 1 is 30 degrees or more and less than 60 degrees, the calculation unit 13 can classify this rotation angle into the pattern B. When the rotation angle of the photographing device 1 is 60 degrees or more and 90 degrees or less, the calculation unit 13 can classify this rotation angle into the pattern C.
  • the calculation unit 13 associates the stereo audio signal with the posture information obtained by the posture acquisition unit 12 in chronological order (S14). For example, the calculation unit 13 associates the attitude information of the pattern A with the stereo audio signal corresponding to the attitude information of the pattern A in a time series on a one-to-one basis.
  • the posture information is acquired as metadata on the same time scale as the stereo audio signal. That is, the calculation unit 13 can generate time-series posture information that can be synchronized with the stereo audio signal.
  • the calculation unit 13 can reproduce stereo sound having any directivity pattern corresponding to the posture information at the time of reproducing the video.
  • the calculation unit 13 may refer to the arrangement information of the voice acquisition units 11a to 11c in the photographing device 1 in addition to the time-series posture information.
  • the memory 15 included in the photographing device 1 can store the arrangement information of the voice acquisition units 11a to 11c. Examples of this arrangement information include the distance between the voice acquisition units and the angle between the straight lines connecting the voice acquisition units.
  • FIG. 5 is a flowchart showing an example of processing of the arithmetic unit according to the embodiment of the present technology.
  • the calculation unit 13 first refers to the coordinate information of each of the plurality of voice acquisition units 11a to 11c (S31). This coordinate information may be recorded in, for example, a memory 15 included in the photographing device 1.
  • the calculation unit 13 derives the distance between the voice acquisition units based on the coordinate information (S32).
  • FIG. 6 is an explanatory diagram showing an arrangement relationship of voice acquisition units according to an embodiment of the present technology.
  • FIG. 6 shows the arrangement relationship of the voice acquisition unit when viewed in the Y-axis direction in FIG.
  • the calculation unit 13 can calculate, for example, the distance between the first voice acquisition unit 11a and the second voice acquisition unit 11b based on the coordinate information. Further, the calculation unit 13 can calculate the distance between the central P1 of the first voice acquisition unit 11a and the second voice acquisition unit 11b and the third voice acquisition unit 11c.
  • the calculation unit 13 generates a stereo audio signal having an appropriate directivity pattern by using the information regarding the interval and the audio signal obtained by the audio acquisition unit (S33).
  • the calculation unit 13 can generate a more realistic stereo audio signal by referring to the arrangement information of the audio acquisition units 11a to 11c in addition to the time-series posture information.
  • FIG. 7 is a flowchart showing an example of processing of the arithmetic unit according to the embodiment of the present technology.
  • the calculation unit 13 first instructs the reproduction of the video (S41).
  • the calculation unit 13 refers to the time at the time of recording in the reproduced video (S42).
  • the calculation unit 13 refers to the time-series posture information (S43).
  • the posture information at that time is referred to based on the time at the time of recording.
  • the time-series attitude information is recorded in, for example, the memory 15.
  • the calculation unit 13 selects a stereo audio signal having an appropriate directivity pattern from a plurality of stereo audio signals based on the time at the time of recording and the time-series attitude information (S44).
  • the calculation unit 13 instructs the reproduction of the selected stereo audio signal (S45).
  • the calculation unit 13 uses the audio signal obtained by the first audio acquisition unit 11a and the second audio acquisition unit 11b based on the time-series attitude information.
  • a stereo audio signal having a directional pattern in the vertical direction, which is generated by using the audio signal obtained in the above, can be selected.
  • the calculation unit 13 has a horizontal directivity pattern generated by using the voice signal obtained by the first voice acquisition unit 11a and the voice signal obtained by the third voice acquisition unit 11c. You can select a stereo audio signal. As a result, the calculation unit 13 can match the direction of the reproduced sound with the video.
  • the calculation unit 13 may calculate an appropriate amplification factor (gain) of the stereo audio signal based on the time-series posture information. This will be described with reference to FIG. FIG. 8 is a flowchart showing an example of processing of the arithmetic unit according to the embodiment of the present technology.
  • the calculation unit 13 calculates an appropriate amplification factor of each of the plurality of stereo audio signals after selecting a plurality of stereo audio signals having an appropriate directivity pattern (S44) (S46). .. For example, after selecting two stereo audio signals, the arithmetic unit 13 can increase the amplification factor of one stereo audio signal and decrease the amplification factor of the other stereo audio signal.
  • each of the plurality of stereo audio signals is crossfaded.
  • Crossfade is to gradually increase the amplification factor of one stereo audio signal while gradually increasing the amplification factor of the other stereo audio signal.
  • the arithmetic unit 13 may select an appropriate audio reproduction unit based on the time-series posture information.
  • This audio reproduction unit can be realized by using, for example, a speaker or the like.
  • FIG. 9 is a schematic view for explaining the arrangement position of the audio reproduction unit according to the embodiment of the present technology.
  • the reproduction device 2 includes a display 22 and four audio reproduction units 21a to 21d.
  • the reproduction device 2 can be realized by using, for example, a tablet, a smartphone, or the like.
  • the number of audio reproduction units is not limited to four.
  • FIG. 9A shows that the playback device 2 is arranged vertically.
  • the first audio reproduction unit 21a is arranged on the left side of the reproduction device 2.
  • the second audio reproduction unit 21b is arranged on the upper side of the reproduction device 2.
  • the third audio reproduction unit 21c is arranged on the right side of the reproduction device 2.
  • a fourth audio reproduction unit 21d is arranged on the lower side of the reproduction device 2.
  • the playback device 2 reproduces a horizontally long image shot by the shooting device 1 in a normal orientation.
  • the calculation unit 13 is arranged on the right side and the first sound reproduction unit 21a arranged on the left side based on the time-series attitude information.
  • the third audio reproduction unit 21c and the third audio reproduction unit 21c can be selected.
  • the first audio reproduction unit 21a can reproduce, for example, the stereo audio of the left channel.
  • the third audio reproduction unit 21c can reproduce, for example, the stereo audio of the right channel.
  • FIG. 9B shows that the reproduction device 2 is arranged vertically as in FIG. 9A.
  • the arrangement relationship of the plurality of audio reproduction units 21a to 21d is the same as in FIG. 9A.
  • the playback device 2 reproduces a vertically long image taken by the shooting device 1 in portrait orientation.
  • the calculation unit 13 has a first sound reproduction unit 21a arranged on the left side and a third sound reproduction unit 21a arranged on the right side, as in FIG. 9A.
  • the audio reproduction unit 21c of the above can be selected.
  • FIG. 9C shows that the reproduction device 2 is arranged horizontally.
  • the first audio reproduction unit 21a is arranged on the lower side of the reproduction device 2.
  • the second audio reproduction unit 21b is arranged on the left side of the reproduction device 2.
  • the third audio reproduction unit 21c is arranged on the upper side of the reproduction device 2.
  • the fourth audio reproduction unit 21d is arranged on the right side of the reproduction device 2.
  • the playback device 2 reproduces a horizontally long image shot by the shooting device 1 in a normal orientation.
  • the calculation unit 13 is arranged on the right side and the second sound reproduction unit 21b arranged on the left side based on the time-series attitude information.
  • the fourth audio reproduction unit 21d can be selected.
  • the second audio reproduction unit 21b can reproduce, for example, the stereo audio of the left channel.
  • the fourth audio reproduction unit 21d can reproduce, for example, the stereo audio of the right channel.
  • FIG. 9D shows that the reproduction device 2 is arranged horizontally as in FIG. 9C.
  • the arrangement relationship of the plurality of audio reproduction units 21a to 21d is the same as in FIG. 9C.
  • the playback device 2 reproduces a vertically long image taken by the shooting device 1 in portrait orientation.
  • the calculation unit 13 has a second sound reproduction unit 21b arranged on the left side and a fourth sound reproduction unit 21b arranged on the right side, as in FIG. 9C.
  • the audio reproduction unit 21d and the above can be selected.
  • Data for selecting the audio reproduction unit can be recorded in, for example, the memory 15 included in the photographing device 1.
  • the calculation unit 13 can match the directions of the video and audio to be reproduced based on the time-series posture information, but the video and audio to be reproduced without referring to the time-series posture information. It is not necessary to match the direction of.
  • calculation unit 13 may match the directions of the video and audio to be reproduced based on the posture information of the playback device 2.
  • the calculation unit 13 may refer to the arrangement information of the voice acquisition units 11a to 11c in addition to the time-series posture information. As a result, the calculation unit 13 can select a stereo audio signal having an appropriate directivity pattern from, for example, a plurality of stereo audio signals. The calculation unit 13 may calculate an appropriate amplification factor (gain) of the stereo audio signal based on the arrangement information of the audio acquisition units 11a to 11c. The calculation unit 13 may select an appropriate voice reproduction unit based on the arrangement information of the voice acquisition units 11a to 11c.
  • gain amplification factor
  • the stereo audio signal is decoded by a decoder (not shown) or the like, converted from a digital signal to an analog signal by a DA converter (not shown), and becomes stereo audio. This stereo sound is reproduced from the sound reproduction unit.
  • FIG. 10 is a schematic view of a photographing apparatus according to an embodiment of the present technology.
  • the photographing device 1 can include at least four audio acquisition units. Further, each of the plurality of voice acquisition units is arranged at an appropriate position. More specifically, of the four voice acquisition units, at least three of the voice acquisition units and at least one of the voice acquisition units are arranged so as to face each other.
  • the photographing device 1 includes a first audio acquisition unit 11a, a second audio acquisition unit 11b, a third audio acquisition unit 11c, and a fourth audio acquisition unit 11d.
  • the first audio acquisition unit 11a, the second audio acquisition unit 11b, and the fourth audio acquisition unit 11d are arranged on the upper surface side of the photographing device 1.
  • the third sound acquisition unit 11c is arranged on the lower surface side of the photographing device 1.
  • the first voice acquisition unit 11a, the second voice acquisition unit 11b, the fourth voice acquisition unit 11d, and the third voice acquisition unit 11c are arranged so as to face each other.
  • each of the plurality of voice acquisition units 11a to 11d By arranging each of the plurality of voice acquisition units 11a to 11d in this way, an appropriate voice signal can be obtained.
  • the respective placement positions of the plurality of voice acquisition units 11a to 11d are not limited to this.
  • one sound acquisition unit may be arranged on the upper surface side of the photographing device 1, and three sound acquisition units may be arranged on the lower surface side of the photographing device 1.
  • the voice acquisition units 11a to 11d may be arranged on the left side or the right side.
  • the sound acquisition units 11a to 11d may be arranged on the photographing lens 16.
  • the calculation unit 13 uses the voice signal obtained by the first voice acquisition unit 11a and the voice signal obtained by the second voice acquisition unit 11b, for example, using the first voice acquisition unit 11a as the left channel and the second voice acquisition unit 11a. It is possible to generate a stereo audio signal having a directional pattern in the horizontal direction when the audio acquisition unit 11b of the above is used as the right channel.
  • the calculation unit 13 uses the voice signal obtained by the first voice acquisition unit 11a and the voice signal obtained by the fourth voice acquisition unit 11d, for example, using the first voice acquisition unit 11a as the left channel and the first voice acquisition unit 11a.
  • the audio acquisition unit 11d of No. 4 is used as the right channel, a stereo audio signal having a directional pattern in the horizontal direction can be generated.
  • the calculation unit 13 uses the voice signal obtained by the second voice acquisition unit 11b and the voice signal obtained by the fourth voice acquisition unit 11d, for example, using the second voice acquisition unit 11b as the left channel and the second voice acquisition unit 11b.
  • the audio acquisition unit 11d of No. 4 is used as the right channel, a stereo audio signal having a directional pattern in the horizontal direction can be generated.
  • the calculation unit 13 may refer to the arrangement information of the voice acquisition units 11a to 11d in the photographing device 1 in addition to the time-series posture information.
  • FIG. 11 is an explanatory diagram showing an arrangement relationship of voice acquisition units according to an embodiment of the present technology.
  • FIG. 11 the arrangement relationship of the voice acquisition unit when viewed in the Z-axis direction in FIG. 10 is shown.
  • the calculation unit 13 can calculate, for example, the distance between the first voice acquisition unit 11a and the second voice acquisition unit 11b based on the coordinate information. Further, the calculation unit 13 can calculate the distance between the central P2 of the first voice acquisition unit 11a and the second voice acquisition unit 11b and the fourth voice acquisition unit 11d.
  • the photographing device 1 according to the second embodiment can generate more stereo audio signals than the photographing device 1 according to the first embodiment. Therefore, the directions of the reproduced video and audio can be matched with higher accuracy.
  • the configuration of the photographing apparatus according to the second embodiment may be the same as that of the first embodiment. Therefore, other detailed description will be omitted.
  • FIG. 12 is a configuration diagram of a photographing system according to an embodiment of the present technology.
  • the photographing system 5 includes a photographing device 1, a server 3, and a reproducing device 2.
  • the photographing device 1, the server 3, and the playback device 2 are connected via the information communication network 4.
  • the photographing device 1, the server 3, and the reproducing device 2 may not be connected via the information communication network 4.
  • the photographing device 1 can include a plurality of voice acquisition units 11a to 11c, a posture acquisition unit 12, a calculation unit 13, a control unit 14, and a memory 15.
  • the calculation unit 13 can generate a plurality of stereo audio signals by using the audio signals obtained by each of the plurality of audio acquisition units 11a to 11c. Then, the calculation unit 13 can associate the stereo audio signal with the posture information in a time series. The calculation unit 13 can generate time-series posture information that can be synchronized with the stereo audio signal.
  • the server 3 can have some or all of the functions of the photographing device 1.
  • the storage or the like provided in the server 3 may record the stereo audio signal and the time-series posture information generated by the calculation unit 13.
  • the stereo audio signal and the time-series attitude information are transmitted from the photographing device 1 to the server 3 via the information communication network 4.
  • the server 3 may include a calculation unit 13.
  • the audio signal and the posture information are transmitted from the photographing device 1 to the server 3 via the information communication network 4.
  • FIG. 13 is a hardware configuration diagram of the server 3 according to an embodiment of the present technology.
  • the server 3 may include a CPU 101, a storage 102, a RAM (Random Access Memory) 103, and a communication interface 104 as components. Each component is connected by a bus, for example, as a data transmission line.
  • a bus for example, as a data transmission line.
  • the CPU 101 is realized by, for example, a microcomputer, and controls each component of the server 3.
  • the CPU 101 can function as, for example, a calculation unit 13.
  • the arithmetic unit 13 can be realized by, for example, a program. This program can function by being read by the CPU 101.
  • the storage 102 stores control data such as programs and calculation parameters used by the CPU 101.
  • the storage 102 can be realized by using, for example, an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the storage 102 can store, for example, a stereo audio signal, time-series posture information, and the like.
  • the RAM 103 temporarily stores, for example, a program executed by the CPU 101.
  • the communication interface 104 has a function of communicating via the information communication network 4 by using communication technology such as Wi-Fi, Bluetooth (registered trademark), LTE (Long Term Evolution) and the like.
  • the communication interface 104 can transmit and receive stereo audio signals and time-series attitude information.
  • the photographing device 1 and the reproducing device 2 can also be provided with a communication interface in the same manner.
  • the program that realizes the arithmetic unit 13 and the like may be stored in another computer device or computer system of the photographing system 5.
  • the photographing system 5 can use the cloud service that provides the function of this program.
  • this cloud service include SaaS (Software as a Service), IaaS (Infrastructure as a Service), and PaaS (Platform as a Service).
  • Non-temporary computer-readable media include various types of tangible storage mediums. Examples of non-temporary computer-readable media include magnetic recording media (eg flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg magneto-optical disks), CompactDiscReadOnlyMemory (CD-ROM), CD-ROM. Includes R, CD-R / W, and semiconductor memory (eg, mask ROM, Programmable ROM (PROM), Erasable PROM (EPROM), flash ROM, Random Access Memory (RAM)).
  • the above program may be supplied to a computer by various types of temporary computer readable media (transitory computer readable medium). Examples of temporary computer-readable media include electrical, optical, and electromagnetic waves.
  • the temporary computer-readable medium can supply the above program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • the configuration of the photographing device 1 and the reproducing device 2 may be the same as that of the first embodiment. Therefore, detailed description of other configurations will be omitted.
  • the information communication network 4 is, for example, a wired network such as LAN (Local Area Network) or WAN (Wide Area Network), a wireless LAN (WLAN: Wireless Local Area Network), or a wireless WAN (WWAN: Wireless Wide Area) via a base station. It can be realized by a wireless network such as Network) or the Internet using a communication protocol such as TCP / IP (Transmission Control Protocol / Internet Protocol).
  • LAN Local Area Network
  • WAN Wide Area Network
  • TCP / IP Transmission Control Protocol / Internet Protocol
  • the configuration mentioned in the above embodiment can be selected or changed to another configuration as appropriate.
  • FIG. 14 is a flowchart showing a shooting processing method according to an embodiment of the present technology.
  • the shooting processing method according to the embodiment of the present technology includes generating a plurality of stereo audio signals using the audio signals obtained by each of the plurality of audio acquisition units (S101), and posture. At least, the posture information obtained by the acquisition unit and the stereo audio signal are associated with each other in time series (S102).
  • the techniques described in the first to third embodiments can be used. Therefore, the description will be omitted again.
  • the present technology can also have the following configuration. [1] It is provided with at least a calculation unit that generates a plurality of stereo audio signals using the audio signals obtained by each of the plurality of audio acquisition units and associates the attitude information obtained by the attitude acquisition unit with the stereo audio signals in chronological order. Shooting device. [2] The posture information includes information regarding the posture of the photographing apparatus. The photographing apparatus according to [1]. [3] The calculation unit selects a combination consisting of two or more of the audio acquisition units from the plurality of audio acquisition units, and generates a stereo audio signal using the audio signal obtained by the selected audio acquisition unit. do, The photographing apparatus according to [1] or [2].
  • the calculation unit calculates the directivity pattern of the stereo audio signal to be reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the photographing apparatus according to any one of [1] to [3].
  • the calculation unit calculates the amplification factor of the stereo audio signal to be reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the photographing apparatus according to any one of [1] to [4].
  • the calculation unit selects an audio reproduction unit in which the stereo audio signal is reproduced based on the posture information and / or the arrangement information of the audio acquisition unit.
  • the photographing apparatus according to any one of [1] to [5].
  • the voice acquisition unit is a monaural microphone.
  • the photographing apparatus according to any one of [1] to [6]. [8] It is equipped with at least three of the voice acquisition units. Of the three voice acquisition units, at least two of the voice acquisition units and at least one of the voice acquisition units are arranged so as to face each other. The photographing apparatus according to any one of [1] to [7]. [9] It is equipped with at least four of the voice acquisition units. Of the four voice acquisition units, at least three of the voice acquisition units and at least one of the voice acquisition units are arranged to face each other. The photographing apparatus according to any one of [1] to [8]. [10] The attitude acquisition unit is an angular velocity sensor and / or an acceleration sensor. The photographing apparatus according to any one of [1] to [9].
  • a calculation unit that generates a plurality of stereo audio signals using the audio signals obtained from each of the plurality of audio acquisition units and associates the attitude information obtained by the attitude acquisition unit with the stereo audio signals in chronological order. At least a shooting system.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Studio Devices (AREA)

Abstract

撮影される映像の傾きに対応した音声信号を処理する撮影装置、撮影システム、及び撮影処理方法を提供する。 本技術は、複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影装置及び撮影システムを提供する。また、本技術は、複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成することと、姿勢取得部で得られる姿勢情報と前記ステレオ音声信号とを時系列で対応づけることと、を少なくとも含む、撮影処理方法を提供する。

Description

撮影装置、撮影システム、撮影処理方法
 本技術は、撮影装置、撮影システム、及び撮影処理方法に関する。
 従来、撮影装置が備える複数のマイクロフォンのそれぞれは、所定の角度で配置されることが一般的である。複数のマイクロフォンのそれぞれで得られる音声信号を用いて、指向性を有するステレオ音声を生成する。これにより、臨場感のある音声が再生できている。
 しかし、撮影形態によっては、例えば撮影装置の左側が上側に配置されるように撮影装置を略90度回転させて、いわゆる縦向きに撮影されるときがある。このとき、鉛直方向の指向性を有するステレオ音声が生成されてしまう。そのため、再生時に、映像に合った水平方向の指向性パターンを有するステレオ音声が再生されないという問題がある。
 この問題を解決するために、例えば特許文献1では、「無指向性の複数のマイクエレメントから入力された音声信号を処理して記録媒体に記録し再生する音声記録再生装置であって、当該音声記録再生装置の使用方向を検出する装置方向検出手段を有し、前記装置方向検出手段の検出結果に応じて、前記複数のマイクエレメントのうち、使用するマイクエレメントを選択することを特徴とする音声記録再生装置」が開示されている。この特許文献1では、音声記録再生装置が、装置方向に応じて、使用するマイクエレメントを選択することが説明されている。
特開2005-176138号公報
 しかし、現在の撮影形態の多様化によって、撮影される映像の傾きに対応したあらゆる指向性パターンの音声信号を処理することが求められている。例えば、撮影装置が縦向きに配置される場合であっても、撮影装置の左側が上側に配置される場合と、撮影装置の左側が下側に配置される場合とで、音声信号の処理方法が異なる。
 また、撮影装置が例えば通常の向きから縦向きにゆっくり、あるいは急激に変化しながら撮影された場合に、再生される音声の方向がスムーズに再現されるように、撮影時に音声信号を適切に処理することが好ましい。
 そこで本技術では、撮影される映像の傾きに対応した音声信号を処理する撮影装置、撮影システム、及び撮影処理方法を提供することを主目的とする。
 本技術は、複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影装置を提供する。
 前記姿勢情報には、前記撮影装置の姿勢に関する情報が含まれていてもよい。
 前記演算部が、前記複数の音声取得部の中から、2つ以上の該音声取得部からなる組み合わせを選択し、選択された該音声取得部で得られる音声信号を用いてステレオ音声信号を生成してもよい。
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の指向性パターンを演算してもよい。
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の増幅率を演算してもよい。
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、前記ステレオ音声信号が再生される音声再生部を選択してもよい。
 前記音声取得部が、モノラルマイクロフォンであってもよい。
 前記撮影装置が、少なくとも3つの前記音声取得部を備えており、3つの前記音声取得部のうち、少なくとも2つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されていてもよい。
 前記撮影装置が、少なくとも4つの前記音声取得部を備えており、4つの前記音声取得部のうち、少なくとも3つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されていてもよい。
 前記姿勢取得部が、角速度センサ及び/又は加速度センサであってよい。
 また、本技術は、複数の音声取得部のぞれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影システムを提供する。
 また、本技術は、複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成することと、姿勢取得部で得られる姿勢情報と前記ステレオ音声信号とを時系列で対応づけることと、を少なくとも含む、撮影処理方法を提供する。
本技術の一実施形態に係る撮影装置の構成図である。 本技術の一実施形態に係る撮影装置の概略図である。 本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。 本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。 本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。 本技術の一実施形態に係る音声取得部の配置関係を示す説明図である。 本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。 本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。 本技術の一実施形態に係る音声再生部の配置位置を説明するための概略図である。 本技術の一実施形態に係る撮影装置の概略図である。 本技術の一実施形態に係る音声取得部の配置関係を示す説明図である。 本技術の一実施形態に係る撮影システムの構成図である。 本技術の一実施形態に係るサーバのハードウェア構成図である。 本技術の一実施形態に係る撮影処理方法を示すフローチャートである。
 以下、本技術を実施するための好適な形態について説明する。以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が狭く解釈されることはない。なお、特に断りがない限り、図面において、「上」とは図中の上方向又は上側を意味し、「下」とは、図中の下方向又は下側を意味し、「左」とは図中の左方向又は左側を意味し、「右」とは図中の右方向又は右側を意味する。また、図面については、同一又は同等の要素又は部材には同一の符号を付し、重複する説明は省略する。
 以下の実施の形態の説明において、略平行、略直交のような「略」を伴った表現が、用いられる場合がある。例えば、略平行とは、完全に平行であることを意味するだけでなく、実質的に平行である、すなわち、例えば数%程度の差異を含むことも意味する。他の「略」を伴った表現についても同様である。また、各図は模式図であり、必ずしも厳密に図示されたものではない。
 本技術の説明は以下の順序で行う。
 1.本技術に係る第1の実施形態(撮影装置の例1)
 (1)概要
 (2)音声取得部
 (3)演算部(撮影時)
 (4)演算部(再生時)
 2.本技術に係る第2の実施形態(撮影装置の例2)
 3.本技術に係る第3の実施形態(撮影システム)
 4.本技術に係る第4の実施形態(撮影処理方法)
[1.本技術に係る第1の実施形態(撮影装置の例1)]
[(1)概要]
 本技術の一実施形態に係る撮影装置について図1を参照しつつ説明する。図1は、本技術の一実施形態に係る撮影装置の構成図である。本技術の一実施形態に係る撮影装置は、例えばデジタルビデオカメラに適用されることができる。
 図1に示されるとおり、撮影装置1は、複数の音声取得部11a~11cと、姿勢取得部12と、演算部13と、制御部14と、メモリ15と、を備えることができる。
 複数の音声取得部11a~11cのそれぞれは、撮影装置1の外部から得られた音声をAD変換することにより、デジタルデータである音声信号を得る。複数の音声取得部11a~11cのそれぞれは、例えば無指向性のモノラルマイクロフォン等を用いることにより実現できる。
 姿勢取得部12は、撮影装置1の姿勢に関する情報を含む姿勢情報を得る。姿勢取得部12は、例えば角速度センサ、加速度センサ、又は慣性センサ(IMU:Inertial Measurement Unit)等を用いることにより実現できる。なお、この姿勢取得部12は、あらかじめバイアス誤差が取り除かれていることが好ましい。ただし、このバイアス誤差が取り除かれていない場合、例えば演算部13が、このバイアス誤差を推定してもよい。
 演算部13は、複数の音声取得部11a~11cのそれぞれで得られる音声信号を用いて、複数のステレオ音声信号を生成できる。そして、演算部13は、該ステレオ音声信号と、前記姿勢情報と、を時系列で対応づけることができる。演算部13は、例えばマイクロコンピュータ等を用いることにより実現できる。
 制御部14は、演算部13等の処理を制御できる。制御部14は、例えばマイクロコンピュータ等を用いることにより実現できる。
 メモリ15は、例えば演算部13等が処理するデータを記録できる。
 なお、図示を省略するが、撮影装置1は音声遅延部を備えていてもよい。音声遅延部は、映像信号と音声信号との出力タイミングの同期をとることができる。
[(2)音声取得部]
 撮影装置1は、少なくとも3つの音声取得部を備えることができる。また、複数の音声取得部のそれぞれは、適切な位置に配置されている。より詳しくは、前記3つの音声取得部のうち、少なくとも2つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている。
 音声取得部の配置について図2を参照しつつ説明する。図2は、本技術の一実施形態に係る撮影装置の概略図である。図2に示されるとおり、撮影装置1は、第1の音声取得部11a、第2の音声取得部11b、及び第3の音声取得部11c、撮影レンズ16、筐体17、を備えている。
 第1の音声取得部11a及び第2の音声取得部11bは、筐体17の上面側に配置されている。第3の音声取得部11cは、筐体17の下面側に配置されている。第1の音声取得部11a及び第2の音声取得部11bと、第3の音声取得部11cと、が対向して配置されている。
 複数の音声取得部11a~11cのそれぞれがこのように配置されていることにより、適切な音声信号が得られる。詳細な説明は後述する。
 なお、複数の音声取得部11a~11cのそれぞれの配置位置は、これに限られない。例えば、1つの音声取得部が撮影装置1の上面側に配置されており、2つの音声取得部が撮影装置1の下面側に配置されていてもよい。あるいは、音声取得部11a~11cが左面側又は右面側に配置されていてもよい。あるいは、音声取得部11a~11cが撮影レンズ16に配置されていてもよい。
[(3)演算部(撮影時)]
 撮影時における演算部の処理について図3を参照しつつ説明する。図3は、本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。
 図3に示されるとおり、演算部13は、前記複数の音声取得部の中から、2つ以上の該音声取得部からなる組み合わせを選択する(S11)。例えば水平方向の指向性パターンを有するステレオ音声信号を生成するために、演算部13は、前記姿勢情報を用いて、右側に配置されている音声取得部と、左側に配置されている音声取得部と、からなる組み合わせを選択する。
 次に、演算部13は、選択された音声取得部で得られる音声信号を得る(S12)。該音声信号は、例えばメモリ15に記録されることができる。
 次に、演算部13は、該音声信号を用いて、前記組み合わせごとの複数のステレオ音声信号を生成する(S13)。前記複数のステレオ音声信号のそれぞれは、指向性パターンを有している。該ステレオ音声信号は、メモリ15に記録されることができる。
 ここで、ステレオ音声信号について説明する。まず、撮影装置1が通常の向きで撮影する場合を想定する。通常の向きで撮影する場合とは、第1の音声取得部11a及び第2の音声取得部11bが、撮影装置1の上面側に配置されており、第3の音声取得部11cが、撮影装置1の下面側に配置されている状態で、撮影する場合である。
 演算部13は、第1の音声取得部11aで得られる音声信号と、第2の音声取得部11bで得られる音声信号とを用いて、水平方向の指向性パターンを有するステレオ音声信号を生成できる。
 さらに演算部13は、第1の音声取得部11aで得られる音声信号と、第3の音声取得部11cで得られる音声信号とを用いて、鉛直方向(重力方向)の指向性パターンを有するステレオ音声信号を生成できる。なお、演算部13は、第2の音声取得部11bで得られる音声信号と、第3の音声取得部11cで得られる音声信号とを用いて、鉛直方向の指向性パターンを有するステレオ音声信号を生成してもよい。
 演算部13は、聴感上の感覚として有意な指向性パターンを有する複数のステレオ音声信号を生成できる。これにより、撮影装置1がどのような傾きで撮影しても、再生時に、音声の方向を正確に再現できる。
 なお、複数のステレオ音声信号は、全ての指向性パターンを有していてもよいし、特定の指向性パターンのみを有していてもよい。
 生成されたステレオ音声信号は、メモリ15に記録されてもよいし、外部のコンピュータ装置等に記録されてもよい。
 続いて、撮影装置1が縦向きで撮影する場合を想定する。通常の向きで撮影する場合とは、例えば撮影装置1の左側が上側又は下側に配置されるように撮影装置1が略90度回転される状態で、撮影する場合である。このとき、複数の音声取得部11a~11cのそれぞれは、撮影装置1の右側面又は左側面に配置されることになる。
 演算部13は、第1の音声取得部11aで得られる音声信号と、第2の音声取得部11bで得られる音声信号とを用いて、鉛直方向の指向性パターンを有するステレオ音声信号を生成できる。
 さらに演算部13は、第1の音声取得部11aで得られる音声信号と、第3の音声取得部11cで得られる音声信号とを用いて、水平方向の指向性パターンを有するステレオ音声信号を生成できる。なお、演算部13は、第2の音声取得部11bで得られる音声信号と、第3の音声取得部11cで得られる音声信号とを用いて、水平方向の指向性パターンを有するステレオ音声信号を生成してもよい。
 撮影装置1が、通常の向きと縦向きとの中間である斜め向きで撮影する場合も同様である。複数の音声取得部11a~11cのそれぞれで得られる音声信号を用いて、演算部13は、複数のステレオ音声信号を生成できる。
 撮影装置1の向きは、姿勢取得部12で得られる姿勢情報を用いて、演算部13が推定できる。このことについて図4を参照しつつ説明する。図4は、本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。
 図4に示されるとおり、まず、演算部13は、撮影装置1の姿勢情報を参照する(S21)。
 前記通常の向きにおける回転角度を0度とするとき、演算部13は、撮影装置1の回転角度が-45度より大きくかつ45度より小さいか否かを判定する(S22)。なお、ここでは、撮影装置1の左側が下側に来るように回転するときの回転角度を正とする。
 撮影装置1の回転角度が例えば-45度より大きくかつ45度より小さいとき(S22:Yes)、演算部13は、撮影装置1が通常の向きであると推定する(S23)。
 撮影装置1の回転角度が-45度以下又は45度以上であるとき(S22:No)、演算部13は、撮影装置1の回転角度が-45度以下であるか否かを判定する(S24)。撮影装置1の回転角度が-45度以下であるとき(S24:Yes)、演算部13は、撮影装置1の左側が上側に来るように回転された縦向きであると推定する(S25)。
 撮影装置1の回転角度が-45度より大きいとき(S24:No)、すなわち撮影装置1の回転角度が45度以上であるとき、演算部13は、撮影装置1の右側が上側に来るように回転された縦向きであると推定する(S26)。
 なお、演算部13の判定条件は上記に限られない。例えば、演算部13は、撮影装置1の回転角度が30度より大きくかつ60度より小さいとき、撮影装置1が斜め向きであると推定してもよい。具体的に説明すると、演算部13は、撮影装置1の回転角度を複数のパターンに分類してもよい。例えば、撮影装置1の回転角度が0度以上30度未満である場合は、演算部13は、この回転角度をパターンAに分類することができる。同様に、撮影装置1の回転角度が30度以上60度未満である場合は、演算部13は、この回転角度をパターンBに分類することができる。撮影装置1の回転角度が60度以上90度以下である場合は、演算部13は、この回転角度をパターンCに分類することができる。
 図3の説明に戻る。演算部13は、前記ステレオ音声信号と、姿勢取得部12が得た姿勢情報と、を時系列で対応づける(S14)。演算部13は、例えば上記パターンAの姿勢情報と、上記パターンAの姿勢情報に対応するステレオ音声信号とを時系列で1対1で対応づける。前記姿勢情報は、メタデータとして、前記ステレオ音声信号と同じ時間スケールで取得される。すなわち、演算部13は、前記ステレオ音声信号と同期可能な時系列姿勢情報を生成できる。
 演算部13は、時系列姿勢情報を生成することにより、映像の再生時において、姿勢情報に対応したあらゆる指向性パターンを有するステレオ音声を再生できる。
 演算部13は、時系列姿勢情報に加えて、撮影装置1における音声取得部11a~11cの配置情報を参照してもよい。例えば撮影装置1が備えるメモリ15は、音声取得部11a~11cの配置情報を記憶できる。この配置情報の一例として、音声取得部同士の間隔や、音声取得部同士を結ぶ直線同士の角度等がある。
 演算部が配置情報を参照するときの処理について図5を参照しつつ説明する。図5は、本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。図5に示されるとおり、演算部13は、まず複数の音声取得部11a~11cのそれぞれの座標情報を参照する(S31)。この座標情報は、例えば撮影装置1が備えるメモリ15等に記録されてもよい。
 次に、演算部13は、座標情報に基づいて、音声取得部同士の間隔を導出する(S32)。
 このことについて図6を参照しつつ説明する。図6は、本技術の一実施形態に係る音声取得部の配置関係を示す説明図である。図6では、図2においてY軸方向に見たときの、音声取得部の配置関係が示されている。
 演算部13は、座標情報に基づいて、例えば第1の音声取得部11aと第2の音声取得部11bとの間隔を算出できる。さらに演算部13は、第1の音声取得部11aと第2の音声取得部11bとの中央P1と、第3の音声取得部11cとの間隔を算出できる。
 図5の説明に戻る。最後に、演算部13は、前記間隔に関する情報と、音声取得部で得られた音声信号を用いて、適切な指向性パターンを有するステレオ音声信号を生成する(S33)。
 このように、演算部13は、時系列姿勢情報に加えて、音声取得部11a~11cの配置情報を参照することにより、より臨場感のあるステレオ音声信号を生成できる。
[(4)演算部(再生時)]
 映像の再生時における演算部の処理について図7を参照しつつ説明する。図7は、本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。
 図7に示されるとおり、演算部13は、まず、映像の再生を指示する(S41)。
 次に、演算部13は、再生されている映像における、録音時の時刻を参照する(S42)。
 次に、演算部13は、時系列姿勢情報を参照する(S43)。詳しくは、録音時の時刻に基づいて、その時刻における姿勢情報を参照する。時系列姿勢情報は、例えばメモリ15に記録されている。
 次に、演算部13は、録音時の時刻と、時系列姿勢情報に基づいて、複数のステレオ音声信号の中から、適切な指向性パターンを有するステレオ音声信号を選択する(S44)。
 そして、演算部13は、選択されたステレオ音声信号の再生を指示する(S45)。
 例えば、縦向きで撮影された映像を再生するとき、前記時系列姿勢情報に基づいて、演算部13は、第1の音声取得部11aで得られた音声信号と、第2の音声取得部11bで得られた音声信号とを用いて生成された、鉛直方向の指向性パターンを有するステレオ音声信号を選択できる。さらに演算部13は、第1の音声取得部11aで得られた音声信号と、第3の音声取得部11cで得られた音声信号とを用いて生成された、水平方向の指向性パターンを有するステレオ音声信号を選択できる。これにより、演算部13は、再生される音声の方向と、映像とを一致させることができる。
 演算部13は、ステレオ音声信号を選択した後に、前記時系列姿勢情報に基づいて、ステレオ音声信号の適切な増幅率(ゲイン)を演算してもよい。このことについて図8を参照しつつ説明する。図8は、本技術の一実施形態に係る演算部の処理の一例を示すフローチャートである。
 図8に示されるとおり、演算部13は、適切な指向性パターンを有する複数のステレオ音声信号を選択した(S44)後に、複数のステレオ音声信号のそれぞれの適切な増幅率を演算する(S46)。例えば、演算部13は、2つのステレオ音声信号を選択した後に、一方のステレオ音声信号の増幅率を大きく、他方のステレオ音声信号の増幅率を小さくできる。
 例えば、撮影装置1が通常の向きから縦向きにゆっくり、あるいは急激に変化しながら撮影された映像を再生する場合を想定する。この場合、複数のステレオ音声信号のそれぞれがクロスフェードされることが好ましい。クロスフェードとは、一方のステレオ音声信号の増幅率を次第に小さくしながら、他方のステレオ音声信号の増幅率を次第に大きくすることである。前記時系列姿勢情報に基づいて、演算部13が適切にクロスフェードを行うことにより、再生される映像に合わせて、再生される音声の方向がスムーズに再現される。
 演算部13は、選択されたステレオ音声信号の再生を指示する際に、前記時系列姿勢情報に基づいて、適切な音声再生部を選択してもよい。この音声再生部は、例えばスピーカー等を用いることにより実現できる。
 このことについて図9を参照しつつ説明する。図9は、本技術の一実施形態に係る音声再生部の配置位置を説明するための概略図である。図9に示されるとおり、再生装置2は、ディスプレイ22と、4つの音声再生部21a~21dを備えている。再生装置2は、例えばタブレットあるいはスマートフォン等を用いることによって実現できる。なお、音声再生部の数は4つに限られない。
 図9Aでは、再生装置2が縦長に配置されていることが示されている。第1の音声再生部21aが、再生装置2における左側に配置されている。第2の音声再生部21bが、再生装置2における上側に配置されている。第3の音声再生部21cが、再生装置2における右側に配置されている。第4の音声再生部21dが、再生装置2における下側に配置されている。
 再生装置2は、撮影装置1が通常の向きで撮影した横長の映像を再生している。
 水平方向の指向性パターンを有するステレオ音声を表現するために、演算部13は、前記時系列姿勢情報に基づいて、左側に配置されている第1の音声再生部21aと、右側に配置されている第3の音声再生部21cと、を選択できる。第1の音声再生部21aは、例えば左チャンネルのステレオ音声を再生できる。第3の音声再生部21cは、例えば右チャンネルのステレオ音声を再生できる。
 図9Bでは、図9Aと同様に、再生装置2が縦長に配置されていることが示されている。複数の音声再生部21a~21dの配置関係は、図9Aと同様である。
 再生装置2は、撮影装置1が縦向きで撮影した縦長の映像を再生している。
 水平方向の指向性パターンを有するステレオ音声を表現するために、演算部13は、図9Aと同様に、左側に配置されている第1の音声再生部21aと、右側に配置されている第3の音声再生部21cと、を選択できる。
 図9Aと図9Bとでは、撮影時の再生装置2の向きが異なっているが、演算部13が適切な音声再生部を選択することにより、再生される映像と音声の方向とが一致している。
 図9Cでは、再生装置2が横長に配置されていることが示されている。第1の音声再生部21aが、再生装置2における下側に配置されている。第2の音声再生部21bが、再生装置2における左側に配置されている。第3の音声再生部21cが、再生装置2における上側に配置されている。第4の音声再生部21dが、再生装置2における右側に配置されている。
 再生装置2は、撮影装置1が通常の向きで撮影した横長の映像を再生している。
 水平方向の指向性パターンを有するステレオ音声を表現するために、演算部13は、前記時系列姿勢情報に基づいて、左側に配置されている第2の音声再生部21bと、右側に配置されている第4の音声再生部21dと、を選択できる。第2の音声再生部21bは、例えば左チャンネルのステレオ音声を再生できる。第4の音声再生部21dは、例えば右チャンネルのステレオ音声を再生できる。
 図9Dでは、図9Cと同様に、再生装置2が横長に配置されていることが示されている。複数の音声再生部21a~21dの配置関係は、図9Cと同様である。
 再生装置2は、撮影装置1が縦向きで撮影した縦長の映像を再生している。
 水平方向の指向性パターンを有するステレオ音声を表現するために、演算部13は、図9Cと同様に、左側に配置されている第2の音声再生部21bと、右側に配置されている第4の音声再生部21dと、を選択できる。
 図9Cと図9Dとでは、撮影時の再生装置2の向きが異なっているが、演算部13が適切な音声再生部を選択することにより、再生される映像と音声の方向とが一致している。
 このように、再生装置2の向きに関わらず、演算部13が再生される映像の向きに合わせて適切な音声再生部を選択することにより、映像と音声の方向とが一致している。
 音声再生部を選択するためのデータは、例えば撮影装置1が備えるメモリ15に記録されることができる。
 なお、演算部13は、前記時系列姿勢情報に基づいて、再生される映像と音声の方向とを一致させることができるが、前記時系列姿勢情報を参照せずに、再生される映像と音声の方向とを一致させなくてもよい。
 また、演算部13は、再生装置2の姿勢情報に基づいて、再生される映像と音声の方向とを一致させてもよい。
 さらに、演算部13は、時系列姿勢情報に加えて、音声取得部11a~11cの配置情報を参照してもよい。これにより、演算部13は、例えば複数のステレオ音声信号の中から、適切な指向性パターンを有するステレオ音声信号を選択できる。演算部13は、音声取得部11a~11cの配置情報に基づいて、ステレオ音声信号の適切な増幅率(ゲイン)を演算してもよい。演算部13は、音声取得部11a~11cの配置情報に基づいて、適切な音声再生部を選択してもよい。
 ステレオ音声信号は、デコーダ(図示省略)等によって復号化され、DAコンバータ(図示省略)によってデジタル信号からアナログ信号に変換され、ステレオ音声となる。このステレオ音声は、前記音声再生部から再生される。
[2.本技術に係る第2の実施形態(撮影装置の例2)]
 本技術の一実施形態に係る撮影装置について図10を参照しつつ説明する。図10は、本技術の一実施形態に係る撮影装置の概略図である。図10に示されるとおり、撮影装置1は、少なくとも4つの音声取得部を備えることができる。また、複数の音声取得部のそれぞれは、適切な位置に配置されている。より詳しくは、前記4つの音声取得部のうち、少なくとも3つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている。
 より詳しくは、撮影装置1は、第1の音声取得部11a、第2の音声取得部11b、第3の音声取得部11c、及び第4の音声取得部11dを備えている。第1の音声取得部11a、第2の音声取得部11b、及び第4の音声取得部11dは、撮影装置1の上面側に配置されている。第3の音声取得部11cは、撮影装置1の下面側に配置されている。第1の音声取得部11a、第2の音声取得部11b、及び第4の音声取得部11dと、第3の音声取得部11cと、が対向して配置されている。
 複数の音声取得部11a~11dのそれぞれがこのように配置されていることにより、適切な音声信号が得られる。
 なお、複数の音声取得部11a~11dのそれぞれの配置位置は、これに限られない。例えば、1つの音声取得部が撮影装置1の上面側に配置されており、3つの音声取得部が撮影装置1の下面側に配置されていてもよい。あるいは、音声取得部11a~11dが左面側又は右面側に配置されていてもよい。あるいは、音声取得部11a~11dが撮影レンズ16に配置されていてもよい。
 まず、撮影装置1が通常の向きで撮影する場合を想定する。演算部13は、第1の音声取得部11aで得られる音声信号と、第2の音声取得部11bで得られる音声信号とを用いて、例えば第1の音声取得部11aを左チャンネル、第2の音声取得部11bを右チャンネルとするときの、水平方向の指向性パターンを有するステレオ音声信号を生成できる。
 さらに演算部13は、第1の音声取得部11aで得られる音声信号と、第4の音声取得部11dで得られる音声信号とを用いて、例えば第1の音声取得部11aを左チャンネル、第4の音声取得部11dを右チャンネルとするときの、水平方向の指向性パターンを有するステレオ音声信号を生成できる。
 さらに演算部13は、第2の音声取得部11bで得られる音声信号と、第4の音声取得部11dで得られる音声信号とを用いて、例えば第2の音声取得部11bを左チャンネル、第4の音声取得部11dを右チャンネルとするときの、水平方向の指向性パターンを有するステレオ音声信号を生成できる。
 演算部13は、第1の実施形態と同様に、時系列姿勢情報に加えて、撮影装置1における音声取得部11a~11dの配置情報を参照してもよい。
 このことについて図11を参照しつつ説明する。図11は、本技術の一実施形態に係る音声取得部の配置関係を示す説明図である。図11では、図10においてZ軸方向に見たときの、音声取得部の配置関係が示されている。
 演算部13は、座標情報に基づいて、例えば第1の音声取得部11aと第2の音声取得部11bとの間隔を算出できる。さらに演算部13は、第1の音声取得部11aと第2の音声取得部11bとの中央P2と、第4の音声取得部11dとの間隔を算出できる。
 このように、第2の実施形態に係る撮影装置1は、第1の実施形態に係る撮影装置1に比べて、より多くのステレオ音声信号を生成できる。そのため、再生される映像と音声の方向をより高精度に一致させることができる。
 なお、第2の実施形態に係る撮影装置の構成については、第1の実施形態と同様であってよい。そのため、その他の詳細な説明は省略する。
[3.本技術に係る第3の実施形態(撮影システム)]
 本技術の一実施形態に係る撮影システムについて図12を参照しつつ説明する。図12は、本技術の一実施形態に係る撮影システムの構成図である。
 図12に示されるとおり、本技術の一実施形態に係る撮影システム5は、撮影装置1、サーバ3、及び再生装置2を備えている。
 撮影装置1、サーバ3、及び再生装置2は、情報通信ネットワーク4を介して接続されている。なお、撮影装置1、サーバ3、及び再生装置2は、情報通信ネットワーク4を介して接続されていなくてもよい。
 撮影装置1は、複数の音声取得部11a~11cと、姿勢取得部12と、演算部13と、制御部14と、メモリ15と、を備えることができる。
 演算部13は、複数の音声取得部11a~11cのそれぞれで得られる音声信号を用いて、複数のステレオ音声信号を生成できる。そして、演算部13は、該ステレオ音声信号と、前記姿勢情報と、を時系列で対応づけることができる。演算部13は、前記ステレオ音声信号と同期可能な時系列姿勢情報を生成できる。
 サーバ3は、撮影装置1が備える一部又は全部の機能を備えることができる。例えば、演算部13が生成するステレオ音声信号及び時系列姿勢情報を、サーバ3が備えるストレージ等が記録してもよい。この場合は、例えばステレオ音声信号及び時系列姿勢情報が、情報通信ネットワーク4を介して撮影装置1からサーバ3へ送信される。
 さらには、サーバ3が演算部13を備えていてもよい。この場合は、例えば音声信号及び姿勢情報が、情報通信ネットワーク4を介して撮影装置1からサーバ3へ送信される。
 サーバ3のハードウェア構成について図13を参照しつつ説明する。図13は、本技術の一実施形態に係るサーバ3のハードウェア構成図である。図13に示されるとおり、サーバ3は、構成要素として、CPU101、ストレージ102、RAM(Random Access Memory)103、及び通信インタフェース104を備えうる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
 CPU101は、例えばマイクロコンピュータにより実現され、サーバ3のそれぞれの構成要素を制御する。CPU101は、例えば、演算部13として機能しうる。この演算部13は、例えばプログラムにより実現されうる。このプログラムをCPU101が読み込むことによって機能しうる。
 ストレージ102は、CPU101が使用するプログラムや演算パラメータ等の制御用データ等を記憶する。ストレージ102は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)等を利用することにより実現されうる。ストレージ102は、例えばステレオ音声信号及び時系列姿勢情報等を記憶できる。
 RAM103は、例えば、CPU101により実行されるプログラム等を一時的に記憶する。
 通信インタフェース104は、例えばWi-Fi、Bluetooth(登録商標)、LTE(Long Term Evolution)等の通信技術を利用して、情報通信ネットワーク4を介して通信する機能を有する。例えば通信インタフェース104は、ステレオ音声信号及び時系列姿勢情報を送信及び受信できる。なお、撮影装置1及び再生装置2も、同様に通信インタフェースを備えることができる。
 演算部13等を実現するプログラムは、撮影システム5のほかのコンピュータ装置又はコンピュータシステムに格納されてもよい。この場合、撮影システム5は、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばSaaS(Software as a Service)、IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)等が挙げられる。
 さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。
 撮影装置1及び再生装置2の構成については、第1の実施形態と同様であってよい。そのため、その他の構成についての詳細な説明は省略する。
 情報通信ネットワーク4は、例えば、LAN(Local Area Network)又はWAN(Wide Area Network)等の有線ネットワーク、無線LAN(WLAN:Wireless Local Area Network)又は基地局を介した無線WAN(WWAN:Wireless Wide Area Network)等の無線ネットワーク、あるいはTCP/IP(Transmission Control Protocol/Internet Protocol)等の通信プロトコルを用いたインターネット等により実現できる。
 これ以外にも、本技術の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更したりできる。
[4.本技術に係る第4の実施形態(撮影処理方法)]
 本技術に係る撮影処理方法について図14を参照しつつ説明する。図14は、本技術の一実施形態に係る撮影処理方法を示すフローチャートである。図14に示されるとおり、本技術の一実施形態に係る撮影処理方法は、複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成すること(S101)と、姿勢取得部で得られる姿勢情報と前記ステレオ音声信号とを時系列で対応づけること(S102)と、を少なくとも含んでいる。
 例えば上記の演算部13が用いられることにより、複数のステレオ音声信号を生成すること(S101)と、姿勢情報とステレオ音声信号とを時系列で対応づけること(S102)と、が実現されうる。
 これにより、例えば撮影される映像の傾きに対応した音声信号を処理することができる。
 なお、撮影処理方法は、第1~第3の実施形態において説明した技術を利用することができる。よって、再度の説明を省略する。
 なお、本明細書中に記載した効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
 なお、本技術は、以下のような構成をとることもできる。
[1]
 複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影装置。
[2]
 前記姿勢情報には、前記撮影装置の姿勢に関する情報が含まれている、
 [1]に記載の撮影装置。
[3]
 前記演算部が、前記複数の音声取得部の中から、2つ以上の該音声取得部からなる組み合わせを選択し、選択された該音声取得部で得られる音声信号を用いてステレオ音声信号を生成する、
 [1]又は[2]に記載の撮影装置。
[4]
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の指向性パターンを演算する、
 [1]~[3]のいずれか一つに記載の撮影装置。
[5]
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の増幅率を演算する、
 [1]~[4]のいずれか一つに記載の撮影装置。
[6]
 前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、前記ステレオ音声信号が再生される音声再生部を選択する、
 [1]~[5]のいずれか一つに記載の撮影装置。
[7]
 前記音声取得部が、モノラルマイクロフォンである、
 [1]~[6]のいずれか一つに記載の撮影装置。
[8]
 少なくとも3つの前記音声取得部を備えており、
 3つの前記音声取得部のうち、少なくとも2つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている、
 [1]~[7]のいずれか一つに記載の撮影装置。
[9]
 少なくとも4つの前記音声取得部を備えており、
 4つの前記音声取得部のうち、少なくとも3つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている、
 [1]~[8]のいずれか一つに記載の撮影装置。
[10]
 前記姿勢取得部が、角速度センサ及び/又は加速度センサである、
 [1]~[9]のいずれか一つに記載の撮影装置。
[11]
 複数の音声取得部のぞれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影システム。
[12]
 複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成することと、
 姿勢取得部で得られる姿勢情報と前記ステレオ音声信号とを時系列で対応づけることと、を少なくとも含む、撮影処理方法。
1 撮影装置
11a 第1の音声取得部
11b 第2の音声取得部
11c 第3の音声取得部
11d 第4の音声取得部
12 姿勢取得部
13 演算部
14 制御部
15 メモリ
16 撮影レンズ
17 筐体
2 再生装置
21a 第1の音声再生部
21b 第2の音声再生部
21c 第3の音声再生部
21d 第4の音声再生部
22 ディスプレイ
3 サーバ
4 情報通信ネットワーク
5 撮影システム

Claims (12)

  1.  複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影装置。
  2.  前記姿勢情報には、前記撮影装置の姿勢に関する情報が含まれている、
     請求項1に記載の撮影装置。
  3.  前記演算部が、前記複数の音声取得部の中から、2つ以上の該音声取得部からなる組み合わせを選択し、選択された該音声取得部で得られる音声信号を用いてステレオ音声信号を生成する、
     請求項1に記載の撮影装置。
  4.  前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の指向性パターンを演算する、
     請求項1に記載の撮影装置。
  5.  前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、再生される前記ステレオ音声信号の増幅率を演算する、
     請求項1に記載の撮影装置。
  6.  前記演算部が、前記姿勢情報及び/又は前記音声取得部の配置情報に基づいて、前記ステレオ音声信号が再生される音声再生部を選択する、
     請求項1に記載の撮影装置。
  7.  前記音声取得部が、モノラルマイクロフォンである、
     請求項1に記載の撮影装置。
  8.  少なくとも3つの前記音声取得部を備えており、
     3つの前記音声取得部のうち、少なくとも2つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている、
     請求項1に記載の撮影装置。
  9.  少なくとも4つの前記音声取得部を備えており、
     4つの前記音声取得部のうち、少なくとも3つの前記音声取得部と、少なくとも1つの前記音声取得部と、が対向して配置されている、
     請求項1に記載の撮影装置。
  10.  前記姿勢取得部が、角速度センサ及び/又は加速度センサである、
     請求項1に記載の撮影装置。
  11.  複数の音声取得部のぞれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成し、姿勢取得部で得られる姿勢情報と該ステレオ音声信号とを時系列で対応づける演算部を少なくとも備える、撮影システム。
  12.  複数の音声取得部のそれぞれで得られる音声信号を用いて複数のステレオ音声信号を生成することと、
     姿勢取得部で得られる姿勢情報と前記ステレオ音声信号とを時系列で対応づけることと、を少なくとも含む、撮影処理方法。
PCT/JP2021/001583 2020-02-14 2021-01-19 撮影装置、撮影システム、撮影処理方法 WO2021161733A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020022977 2020-02-14
JP2020-022977 2020-02-14

Publications (1)

Publication Number Publication Date
WO2021161733A1 true WO2021161733A1 (ja) 2021-08-19

Family

ID=77291888

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001583 WO2021161733A1 (ja) 2020-02-14 2021-01-19 撮影装置、撮影システム、撮影処理方法

Country Status (1)

Country Link
WO (1) WO2021161733A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176063A (ja) * 2003-12-12 2005-06-30 Canon Inc 録音機能を有する撮像装置及びその録音方法
JP2006148560A (ja) * 2004-11-19 2006-06-08 Olympus Corp 電子カメラ
JP2011091658A (ja) * 2009-10-23 2011-05-06 Jvc Kenwood Holdings Inc ポータブル録音装置、録音自動調整方法、及びプログラム
JP2014502439A (ja) * 2010-10-25 2014-01-30 クゥアルコム・インコーポレイテッド 方向性高感度記録制御のためのシステム、方法、装置、及びコンピュータ可読媒体
WO2014087195A1 (en) * 2012-12-05 2014-06-12 Nokia Corporation Orientation Based Microphone Selection Apparatus
JP2017034570A (ja) * 2015-08-05 2017-02-09 キヤノン株式会社 撮像装置
WO2017056781A1 (ja) * 2015-09-30 2017-04-06 ソニー株式会社 信号処理装置、信号処理方法、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176063A (ja) * 2003-12-12 2005-06-30 Canon Inc 録音機能を有する撮像装置及びその録音方法
JP2006148560A (ja) * 2004-11-19 2006-06-08 Olympus Corp 電子カメラ
JP2011091658A (ja) * 2009-10-23 2011-05-06 Jvc Kenwood Holdings Inc ポータブル録音装置、録音自動調整方法、及びプログラム
JP2014502439A (ja) * 2010-10-25 2014-01-30 クゥアルコム・インコーポレイテッド 方向性高感度記録制御のためのシステム、方法、装置、及びコンピュータ可読媒体
WO2014087195A1 (en) * 2012-12-05 2014-06-12 Nokia Corporation Orientation Based Microphone Selection Apparatus
JP2017034570A (ja) * 2015-08-05 2017-02-09 キヤノン株式会社 撮像装置
WO2017056781A1 (ja) * 2015-09-30 2017-04-06 ソニー株式会社 信号処理装置、信号処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US11838707B2 (en) Capturing sound
US11528576B2 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
US10834517B2 (en) Audio recording and playback apparatus
KR101777639B1 (ko) 음향 재생을 위한 방법
JP2019186929A (ja) カメラ撮影制御方法、装置、インテリジェント装置および記憶媒体
US8264934B2 (en) Multitrack recording using multiple digital electronic devices
EP2871855B1 (en) Recording method and apparatus, and terminal
TWI496479B (zh) 增進多聲道之再生
RU2759012C1 (ru) Аппаратура и способ для воспроизведения аудиосигнала для проигрывания пользователю
US8767971B2 (en) Sound pickup apparatus and sound pickup method
TW201732786A (zh) 音訊同步方法及相關電子設備
WO2020138258A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN110677781B (zh) 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法
WO2021161733A1 (ja) 撮影装置、撮影システム、撮影処理方法
WO2017038543A1 (ja) 音声処理装置および方法、並びにプログラム
US20150271599A1 (en) Shared audio scene apparatus
EP3503558B1 (en) Audio content format selection
JP6511894B2 (ja) 動画像同期再生システム及び動画像同期再生方法
TWI753741B (zh) 聲源追蹤系統及其方法
JP2013187841A (ja) 電子機器及び出力制御方法並びにプログラム
CN108235192B (zh) 音频记录和回放装置
CN116546328A (zh) 一种录播设备、方法、装置及介质
JP6742535B2 (ja) 収音再生装置並びにプログラム及び記録媒体
JP5014100B2 (ja) 撮像装置
JP2016009968A (ja) 記録装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21753749

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 21753749

Country of ref document: EP

Kind code of ref document: A1