WO2023181889A1 - 撮影装置、撮影方法、およびプログラム - Google Patents

撮影装置、撮影方法、およびプログラム Download PDF

Info

Publication number
WO2023181889A1
WO2023181889A1 PCT/JP2023/008365 JP2023008365W WO2023181889A1 WO 2023181889 A1 WO2023181889 A1 WO 2023181889A1 JP 2023008365 W JP2023008365 W JP 2023008365W WO 2023181889 A1 WO2023181889 A1 WO 2023181889A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
voice
recorded
specific person
processing unit
Prior art date
Application number
PCT/JP2023/008365
Other languages
English (en)
French (fr)
Inventor
阿沙子 福塚
篤 増田
竣平 熊切
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023181889A1 publication Critical patent/WO2023181889A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Definitions

  • the present technology relates to a photographing device, a photographing method, and a program, and in particular to a photographing device, a photographing method, and a program that can easily record the voice of a specific person along with some sounds as audio data of a video. Regarding.
  • SNS Social Networking Service
  • the microphone built into a camera or other photographic device is an omnidirectional microphone. Therefore, it is difficult to record only specific sounds, such as the sounds of the person who is the subject.
  • the present technology was developed in view of this situation, and makes it possible to easily record the voice of a specific person along with some sounds as audio data of a video.
  • a photographing device includes: an audio processing unit that separates a specific person's voice and a part of sound other than the specific person's voice from recorded audio recorded when shooting a video; and a recording processing unit that records the voice of a specific person as audio data of the moving image together with the part of the sound.
  • the voice of a specific person and some sounds other than the voice of the specific person are separated from the recorded audio recorded when shooting a video, and the voice of the specific person is separated. , is recorded as audio data of the moving image together with the part of the sound.
  • FIG. 2 is a diagram illustrating an example of photographing using a photographing device according to an embodiment of the present technology.
  • FIG. 3 is a diagram illustrating an example of audio recording of a photographing device.
  • FIG. 3 is a diagram showing an example of audio recording mode. It is a figure which shows the example of a display of the setting screen of an audio recording mode.
  • FIG. 7 is a diagram showing an example of a display of a shooting screen when AF priority is set.
  • FIG. 7 is a diagram showing another display example of the shooting screen when AF priority is set.
  • FIG. 7 is a diagram illustrating an example of a display of a photographing screen when registration priority is set.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of a photographing device.
  • FIG. 3 is a diagram illustrating an example of audio recording of a photographing device.
  • FIG. 3 is a diagram showing an example of audio recording mode. It is a figure which shows the example of a display of the setting screen
  • FIG. 3 is a block diagram showing an example of a functional configuration of a control unit.
  • FIG. 3 is a diagram illustrating an example of audio separation. It is a flowchart explaining the processing of an imaging device.
  • 12 is a flowchart illustrating AF priority audio recording processing performed in step S3 of FIG. 11.
  • 12 is a flowchart illustrating registration priority audio recording processing performed in step S4 of FIG. 11.
  • FIG. 6 is a diagram illustrating a display example of an editing screen after shooting.
  • FIG. 3 is a diagram illustrating a display example of a volume setting screen.
  • FIG. 2 is a block diagram showing an example of a functional configuration of an information processing section. It is a flowchart explaining the processing of an imaging device.
  • FIG. 1 is a diagram showing an example of imaging using an imaging device 1 according to an embodiment of the present technology.
  • the photographing device 1 is a device having a video shooting function, such as a digital camera or a smartphone.
  • the microphone of the photographing device 1 is, for example, an omnidirectional microphone.
  • a person H1 who is a user of the photographing device 1 serves as a photographer, and a moving image in which a person H2 appears is being photographed.
  • the person H1 will be referred to as the photographer H1
  • the person H2 will be referred to as the subject H2.
  • the photographed audio captured by the photographing device 1 includes the audio of the subject H2 as well as the audio of the photographer H1.
  • a person H3, who is a person other than the subject is having a conversation with another person (not shown) near the subject H2.
  • environmental sounds other than the voices of the people can be heard, such as the sound of waves, the sound of the wind, and background music.
  • the recorded sounds include not only the voice of the photographer H1 and the voice of the subject H2, but also the voice of the person H3 and environmental sounds.
  • the scene that the photographer H1 wants to photograph is a scene in which the subject H2 is uttering lines while environmental sounds are being heard.
  • the sounds that the photographer H1 wants to record as sounds of such a scene are only the sounds of the subject H2 and environmental sounds.
  • the voice of a subject H2 which is a specific person specified by the photographer H1
  • the environmental sound which is a part of the sound other than the voice of the subject H2
  • the voices of persons other than the subject H2 specified by the photographer H1, such as the voice of the photographer H1 himself and the voice of the person H3, are muted (not recorded), for example, as shown in color in FIG. 2.
  • the sound of the subject H2 is recorded at a louder volume than the environmental sound.
  • the volume of the sound to be recorded is appropriately set by the photographer H1.
  • the photographer H1 can record only the voice of a specific person designated by the photographer H1 and the environmental sound as the voice of the video by taking a picture using the photographing device 1.
  • FIG. 3 is a diagram showing an example of audio recording mode.
  • the photographing device 1 is provided with two modes, AF priority and registration priority, as audio recording modes that are modes related to audio recording.
  • AF priority is a mode that records the voice of the person at the focus position.
  • AF priority is set, the sound of the person at the focus position is recorded along with the environmental sounds.
  • the photographing device 1 is a device equipped with an AF function.
  • Registration priority is a mode in which the voices of persons registered in advance in the photographing device 1 are recorded. When registration priority is set, the voices of registered people are recorded along with the environmental sounds.
  • the user selects one of these two audio recording modes and starts shooting a moving image. For example, AF priority is set as the default audio recording mode.
  • FIG. 4 is a diagram showing a display example of the audio recording mode setting screen.
  • a setting screen as shown in FIG. 4 is displayed on the display 11 of the photographing device 1. is displayed.
  • Audio recording priority setting is an item related to setting the audio recording mode.
  • the audio recording mode is set to "AF priority.”
  • the photographer can select either "AF priority” or “registration priority” as the audio recording mode by operating the "audio recording priority setting” item.
  • the display 11 is, for example, a display equipped with a touch panel.
  • “Personal voice registration” is an item selected when registering voice.
  • a voice registration screen is displayed, and a state becomes available where the voice of a specific person can be registered. In this state, the voice of a specific person, such as the subject H2, captured by the microphone is registered in the photographing device 1.
  • “Registration Priority” is set as the audio recording mode, the audio selected from the audio registered using "Personal Audio Registration” will be recorded. For example, the voices of multiple people can be registered in the photographing device 1.
  • FIG. 5 is a diagram showing a display example of a shooting screen when AF priority is set.
  • a through image of the video being captured is displayed on the shooting screen.
  • an image showing a subject H2 on a sandy beach is displayed.
  • Various information such as information regarding photography is displayed superimposed on the image of the subject H2.
  • the AF frame F1 is displayed in line with the face of the subject H2.
  • face recognition is performed on captured images, and AF control is performed to focus on one of the recognized faces.
  • the voice of the subject H2 is separated from the recorded voice based on the position information of the subject H2 specified based on the focus position and the analysis result of the mouth movements of the subject H2. be done.
  • the sound of the separated subject H2 is recorded together with the environmental sounds as the sound of a specific person.
  • level meters 31 and 32 are displayed that indicate the respective volumes of channel 1 and channel 2, which are audio channels.
  • channel 1 and channel 2 are audio channels.
  • the audio of the subject H2 is recorded as audio on channel 1
  • the environmental sound is recorded as audio on channel 2.
  • ⁇ AF priority (Manual)
  • the selection of a person whose voice is to be recorded is performed, for example, by the user selecting a specific person's face from among the faces of people displayed on the shooting screen.
  • FIG. 6 is a diagram showing another display example of the shooting screen when AF priority is set.
  • An icon 41 and an icon 42 are displayed side by side at the top of the shooting screen.
  • the icon 41 is an icon that is operated when turning on the touch AF function.
  • Touch AF is a function that allows the user to select a person's face for AF.
  • the icon 42 is an icon that is operated when turning on the touch sound collection function.
  • Touch sound collection is a function that allows the user to select the face of a person whose voice is to be recorded.
  • the audio recording target is set to the subject H2, and as shown on the right side of FIG. A recording target frame F2 is displayed in accordance with the face.
  • the recording target frame F2 represents the person whose voice is to be recorded.
  • the recording target frame F2 is displayed as a frame with a different color and shape from the AF frame F1. At this time, the AF target remains the face of the person H3.
  • the voice of the subject H2 selected by the photographer H1 is separated as the voice of a specific person and recorded together with the environmental sounds.
  • the touch sound collection function is used when the user manually selects a person different from the person being targeted for AF as a voice recording target.
  • the user can record the voice of a person different from the person being targeted by AF.
  • FIG. 7 is a diagram showing a display example of a photographing screen when registration priority is set. Descriptions that overlap with those described above will be omitted as appropriate.
  • the icon 31A of the level meter 31 indicating the volume of channel 1 is selected, as shown on the left side of FIG.
  • the channel 1 setting screen is displayed as shown in the center of FIG.
  • the icon 32A of the level meter 32 is selected, the setting screen for channel 2 is displayed.
  • the channel 1 setting screen is a screen used to select audio to be recorded as channel 1 audio.
  • the voice selection is performed by selecting one voice from among the registered voices.
  • an icon 31B is displayed next to the level meter 31.
  • the icon 31B indicates that the voice of the person (subject H2) of "registered voice 1" is recorded as the voice of channel 1.
  • an icon 32B indicating that the environmental sound is recorded as audio on channel 2 is displayed next to the level meter 32.
  • the icon 32B is displayed when "landscape" is selected using the channel 2 setting screen.
  • the user (photographer H1) can record his or her own voice, which is not included in the video being shot, as the voice of a specific person along with environmental sounds. I can do it.
  • FIG. 8 is a block diagram showing an example of the hardware configuration of the photographing device 1. As shown in FIG.
  • the photographing device 1 has a photographing section 72 , a microphone 73 , a sensor 74 , an operation section 75 , a speaker 76 , a storage section 77 , and a communication section 78 connected to the control section 71 . configured.
  • the display 11 is composed of an LCD or the like, and displays the above-mentioned screen under the control of the control unit 71.
  • the control unit 71 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the control unit 71 executes a predetermined program and controls the overall operation of the photographing device 1 according to user operations.
  • the photographing section 72 is composed of a lens, an image sensor, etc., and performs photographing under the control of the control section 71.
  • the photographing section 72 outputs data of a moving image obtained by photographing to the control section 71.
  • the microphone 73 outputs audio data such as collected audio to the control unit 71.
  • the sensor 74 is composed of a ToF sensor or the like.
  • the sensor 74 measures the distance to each position of the subject included in the shooting range and outputs sensor data to the control unit 71.
  • the operation unit 75 is composed of operation buttons, a touch panel, etc. provided on the surface of the housing of the photographing device 1.
  • the operation unit 75 outputs information representing the content of the user's operation to the control unit 71.
  • the speaker 76 outputs audio based on the audio signal supplied from the control unit 71.
  • the storage unit 77 is composed of a flash memory or a memory card inserted into a card slot provided in the casing.
  • the storage unit 77 stores various data such as moving image data and audio data supplied from the control unit 71.
  • the communication unit 78 performs wireless or wired communication with external devices.
  • the communication unit 78 transmits various data such as video data supplied from the control unit 71 to a computer, an external device, or the like.
  • FIG. 9 is a block diagram showing an example of the functional configuration of the control section 71. At least some of the functional units shown in FIG. 9 are realized by executing a predetermined program by the CPU that constitutes the control unit 71.
  • the control section 71 includes a shooting control section 111, an analysis section 112, a display control section 113, an audio recording mode setting section 114, an audio processing section 115, and a recording processing section 116.
  • Information representing the content of the user's operation is input to each section in FIG.
  • the recorded audio captured by the microphone 73 is input to the audio processing section 115.
  • the photographing control section 111 controls photographing by the photographing section 72 in FIG.
  • the photography control unit 111 analyzes a video captured by the photography unit 72 and recognizes a face appearing in the video.
  • the photographing control unit 111 has a face recognition function. Further, the photographing control unit 111 controls the focus so that the face of a predetermined person is in focus.
  • the moving image captured by the shooting control section 111 is supplied to the analysis section 112, display control section 113, and recording processing section 116. Further, information indicating the face recognition result and AF information indicating the focus position are supplied to the analysis section 112, the display control section 113, and the audio processing section 115.
  • the analysis unit 112 analyzes the mouth movements of the person appearing in the video supplied from the shooting control unit 111. For example, the timing of each person's speech in the video is analyzed as appropriate using facial recognition results. Information on the analysis result by the analysis section 112 is supplied to the audio processing section 115.
  • the display control unit 113 controls the display on the display 11.
  • the display control unit 113 causes the display 11 to display various screens such as the above-mentioned setting screen and shooting screen.
  • Information supplied from the photographing control unit 111 is used to display information such as a frame representing the face of the AF target and a frame representing the recognized face on the photographing screen.
  • the audio recording mode setting unit 114 accepts user operations and sets the audio recording mode. Information on the audio recording mode set by the audio recording mode setting section 114 is supplied to the audio processing section 115.
  • the audio recording mode setting unit 114 manages registered audio.
  • the audio recording mode setting section 114 outputs information on the registered audio selected by the user to the audio processing section 115.
  • the audio processing unit 115 When setting AF priority, the audio processing unit 115 separates the audio of the person targeted for AF from the recorded audio.
  • the person who is the AF target is specified based on the AF information supplied from the photographing control unit 111. Furthermore, the timing at which the AF target person is speaking is specified based on the analysis results supplied from the analysis unit 112. In this manner, the audio processing unit 115 performs audio separation based on the distance represented by the AF information, the timing of utterance represented by the analysis result by the analysis unit 112, and the like.
  • the audio processing unit 115 separates the audio selected by the user from the registered audio from the recorded audio.
  • the audio selected by the user to be recorded is specified based on information supplied from the audio recording mode setting section 114.
  • An inference model may be prepared in the audio processing unit 115 that takes the recorded audio as input and outputs the audio for each person, and uses that inference model to separate the audio for each person.
  • the audio processing unit 115 is prepared in advance with an inference model configured by a neural network generated by machine learning.
  • the audio processing unit 115 inputs the recorded audio into an inference model, separates the specific person's audio and environmental sounds from the recorded audio, and outputs the separated audio to the recording processing unit 116.
  • the recording processing unit 116 controls the storage unit 77 in FIG. 8 and records the captured moving image. Furthermore, the recording processing unit 116 records only the voice of a specific person and environmental sounds as the voice of the video. For example, the voice of a specific person is recorded by the recording processing unit 116 at a louder volume than the environmental sound.
  • FIG. 10 is a diagram showing an example of speech separation using the analysis results of mouth movements.
  • the audio processing unit 115 uses the AF information to determine the position of the subject H2. Identify based on.
  • the AF subject is a subject to be AFed.
  • the audio processing unit 115 analyzes the mouth movements of the subject H2, which is the AF subject, using an inference model, for example, and identifies the timing of speech.
  • an inference model that uses an image including the mouth as input and outputs the timing of speech is generated by machine learning and is prepared in advance in the audio processing unit 115.
  • the audio processing unit 115 identifies the voice of the subject H2 based on the utterance timing from the voice of the subject H2 and the voice of the person H3, which are separated using an inference model, and records the voice. Extract as target audio.
  • the audio processing unit 115 outputs the extracted audio of the subject H2 as well as the environmental sound separated using an inference model or the like to the recording processing unit 116 for recording.
  • Waveform W1 and waveform W2 shown in the lower part of FIG. 10 represent the voice of subject H2 and the voice of person H3, respectively. Further, the waveform W3 represents a waveform of audio including the audio of the subject H2 and environmental sounds, which is recorded as audio data.
  • step S1 the audio recording mode setting unit 114 accepts a user's operation and sets the audio recording mode.
  • step S2 the audio processing unit 115 determines whether the audio recording mode is AF priority.
  • AF priority audio recording processing is audio recording processing when the audio recording mode is AF priority. The AF priority audio recording process will be described later with reference to the flowchart in FIG. 12.
  • step S2 if it is determined in step S2 that the audio recording mode is not AF priority, registration priority audio recording processing is performed in step S4.
  • Registration priority audio recording processing is audio recording processing when the audio recording mode is registration priority. The registration priority audio recording process will be described later with reference to the flowchart of FIG. 13.
  • step S11 the photographing control unit 111 recognizes the face appearing in the photographed video.
  • step S12 the photographing control unit 111 performs AF control to focus on the face of a predetermined person.
  • step S13 the analysis unit 112 analyzes the mouth movements of the person shown in the video.
  • step S14 the audio processing unit 115 determines whether the default setting is set. For example, when the touch sound collection function is off, it is determined that the default setting is set.
  • step S15 the audio processing unit 115 separates the audio of the AF target person from the recorded audio based on mouth movements, etc., as described above.
  • the audio processing unit 115 also separates environmental sounds from recorded audio.
  • step S16 the recording processing unit 116 records the voice of the person targeted for AF and the environmental sound as audio data of the video.
  • step S17 the audio recording mode setting unit 114 selects the audio to be recorded. Accept. Selection of audio to be recorded is performed by selecting a person's face as described above.
  • step S18 the audio processing unit 115 separates the audio of the person to be recorded.
  • the audio to be recorded may be separated based on the analysis results of mouth movements.
  • the audio processing unit 115 also separates environmental sounds from recorded audio.
  • step S19 the recording processing unit 116 records the voice of the person to be recorded and the environmental sound as video audio data.
  • step S16 or step S19 After the audio is recorded in step S16 or step S19, the process returns to step S3 in FIG. 11 and subsequent processing is performed.
  • step S31 the audio recording mode setting unit 114 accepts audio selection performed using the setting screen as described with reference to FIG.
  • the audio processing unit 115 separates the audio for each person using the inference model.
  • the inference model used here is, for example, a model that takes as input recorded audio in which the voices of multiple people and environmental sounds are mixed, and outputs the voices of each person and environmental sounds.
  • step S33 the recording processing unit 116 records the voice of the person selected as the voice recording target and the environmental sound as audio data of the video. Thereafter, the process returns to step S4 in FIG. 11, and subsequent processing is performed.
  • the photographing device 1 is able to separate only the voice of a specific person specified by the user and the environmental sound from the recorded voice and record them as audio data of a moving image.
  • ⁇ Second embodiment (example of editing after shooting)>>> The audio separation as described above may be performed not during video shooting but during editing after shooting.
  • recorded audio data that includes a mixture of voices from multiple people and environmental sounds is recorded as audio data for the video.
  • Editing after photographing is performed on the photographing device 1, for example.
  • FIG. 14 is a diagram showing a display example of the editing screen after shooting.
  • the editing screen shown in FIG. 14 is a screen used to adjust the volume of each audio included in the recorded audio.
  • a video showing two people, person H11 and person H12 is displayed.
  • a slide bar is displayed that indicates the playback position within the entire video.
  • the voices of each registered person and environmental sounds are separated from the recorded voices.
  • the voice of a specific person is registered before editing as described above.
  • Icons 151 to 153 shown on the right side of the editing screen each represent the type of audio separated from the recorded audio.
  • the icon 151 represents a registered voice
  • the icon 152 represents an unregistered voice
  • Icon 153 represents environmental sound.
  • the user can set the volume of each audio.
  • FIG. 15 is a diagram showing a display example of the volume setting screen.
  • the information shown in A in FIG. 15 is information used to set the volume of the registered audio (the subject's audio).
  • the icon 151 is selected, the information shown in A of FIG. 15 is displayed on the editing screen.
  • the information shown in B of FIG. 15 is information used to set the volume of unregistered sounds (sounds of people other than the subject), and the information shown in C of FIG. 15 is used to set the volume of environmental sounds. This is information that can be used.
  • the icon 152 is selected, the information shown in B in FIG. 15 is displayed on the editing screen, and when the icon 153 is selected, the information shown in C in FIG. 15 is displayed on the editing screen.
  • the volume of registered voices is set as 26, and the volume of unregistered voices is set as 0 (mute). Further, the volume of the environmental sound is set to 10.
  • Each volume shown in FIG. 15 is a volume automatically set by the photographing device 1, for example. The user can manually set each volume by operating a level meter that represents the volume.
  • the user can concentrate on shooting without worrying about the recorded audio. Further, the user can freely set the volume of each audio after shooting.
  • FIG. 16 is a block diagram showing an example of the functional configuration of the information processing section 201.
  • the control unit 71 in FIG. 8 implements an information processing unit 201 that implements an editing function after shooting. At least some of the functional units shown in FIG. 16 are also realized by executing a predetermined program by the CPU that constitutes the control unit 71.
  • the information processing section 201 includes a recorded data acquisition section 211, a display control section 212, an audio processing section 213, and a recording processing section 214.
  • the recorded data acquisition unit 211 acquires data of recorded moving images and recorded audio by reading data from the storage unit 77, for example.
  • the moving image acquired by the recorded data acquisition section 211 is supplied to the display control section 212 and the recording processing section 214.
  • the recorded audio acquired by the recorded data acquisition section 211 is supplied to the audio processing section 213.
  • the display control unit 212 causes the display 11 to display an editing screen as described with reference to FIG.
  • the audio processing unit 213 has the same functions as the audio processing unit 115 in FIG. 9. That is, the audio processing unit 213 separates each person's voice and environmental sound included in the recorded audio supplied from the recorded data acquisition unit 211. The separation of voices by the voice processing unit 213 is also performed using, for example, an inference model generated by machine learning. The audio separated by the audio processing section 213 is supplied to the recording processing section 214.
  • the recording processing unit 214 causes the storage unit 77 (FIG. 8) to record only the voice of the person selected as the recording target and the environmental sound as the audio data of the video according to the volume etc. set by the user.
  • step S51 the audio processing unit 213 uses an inference model to separate the voices of each person and the environmental sounds included in the recorded audio.
  • step S52 the display control unit 212 displays the editing screen on the display 11.
  • step S53 the recording processing unit 214 receives settings for the volume of each audio according to the user's operation on the editing screen.
  • step S54 the recording processing unit 214 records only the voice of the person selected to be recorded and the environmental sound according to the volume setting.
  • the above processing continues, for example, until editing of the video after shooting is completed.
  • the photographing device 1 can adjust and record the volume of each volume according to the settings by the user.
  • Editing after photographing may be performed not on the photographing device 1 but on another device such as a PC or a smartphone.
  • the information processing unit 201 in FIG. 16 is implemented in another device such as a PC or a smartphone.
  • the speech separation is mainly performed using an inference model generated by machine learning, it may also be performed by analyzing the speech. For example, the characteristics of voices are analyzed and voices having the same characteristics are separated.
  • the series of processes described above can be executed by hardware or software.
  • a program constituting the software is installed in a computer built into dedicated hardware or a general-purpose personal computer.
  • the program to be installed is provided by being recorded on a removable medium such as an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) or semiconductor memory. It may also be provided via a wired or wireless transmission medium, such as a local area network, the Internet, or digital broadcasting. Programs can be preinstalled in ROM or storage.
  • a removable medium such as an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) or semiconductor memory. It may also be provided via a wired or wireless transmission medium, such as a local area network, the Internet, or digital broadcasting. Programs can be preinstalled in ROM or storage.
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • an audio processing unit that separates a specific person's voice and a part of sound other than the specific person's voice from recorded audio recorded when shooting a video;
  • a recording processing unit that records the voice of the specific person as audio data of the moving image together with the part of the sound.
  • the audio processing unit separates an environmental sound included in the recorded audio as the part of the sound,
  • the photographing device according to (1) wherein the recording processing unit records the voice of the specific person along with the environmental sound.
  • the imaging device according to any one of (1) to (7), wherein the audio processing unit separates the specific person's audio and the part of the audio while shooting the video to be recorded.
  • the audio processing unit separates the specific person's voice and the part of the sound from the recorded audio using an inference model generated by machine learning. Photography equipment.
  • the audio processing unit according to any one of (1) to (3), wherein the audio processing unit separates the audio of the specific person and the part of the audio after shooting the video, based on the recorded audio. Photography equipment.
  • (11) The photographing device according to (10), wherein the recording processing unit adjusts and records the respective volumes of the specific person's voice and the part of the sound according to settings by the user.
  • the imaging device according to (10) or (11), further comprising a display control unit that displays information representing the type of sound separated from the recorded audio.
  • the photographing device according to any one of (1) to (12), wherein the recording processing unit records the specific person's voice and the part of the sound as audio data on different channels.
  • the photographic device is Separate the voice of a specific person and some sounds other than the voice of the specific person from the recorded audio recorded when shooting a video, A photographing method in which the voice of the specific person is recorded as audio data of the video together with some of the sounds.

Abstract

本技術は、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにする撮影装置、撮影方法、およびプログラムに関する。 本技術の一側面の撮影装置は、動画の撮影時に収録された収録音声から、特定の人物の音声と、特定の人物の音声以外の一部の音をそれぞれ分離し、特定の人物の音声を、一部の音とともに動画の音声データとして記録する。本技術は、動画の撮影機能を有するカメラに適用することができる。

Description

撮影装置、撮影方法、およびプログラム
 本技術は、撮影装置、撮影方法、およびプログラムに関し、特に、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにした撮影装置、撮影方法、およびプログラムに関する。
 SNS(Social Networking Service)などを利用した個人による動画の配信が普及してきている。このような配信用の動画の撮影として、被写体となる人物がカメラに向かって話しかけているシーンの撮影などがよく行われる。
特開2020-187346号公報 国際公開第2021/033222号
 一般的に、カメラなどの撮影装置に内蔵されているマイク(マイクロフォン)は無指向性のマイクである。そのため、被写体となっている人物の音声などの特定の音声のみを記録することが難しい。
 単一指向性の外付けのマイクをカメラに取り付けて使用する場合、指向性の範囲に含まれる被写体の人物の音声のみを記録することはできるが、環境音を同時に記録することは難しい。被写体の人物の音声と環境音のみを記録したい場合、被写体の人物の音声と環境音とをそれぞれ別撮りする必要がある。
 本技術はこのような状況に鑑みてなされたものであり、特定の人物の音声を一部の音とともに動画の音声データとして容易に記録することができるようにするものである。
 本技術の一側面の撮影装置は、動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部とを備える。
 本技術の一側面においては、動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音がそれぞれ分離され、前記特定の人物の音声が、前記一部の音とともに前記動画の音声データとして記録される。
本技術の一実施形態に係る撮影装置を用いた撮影の例を示す図である。 撮影装置の音声記録の例を示す図である。 音声記録モードの例を示す図である。 音声記録モードの設定画面の表示例を示す図である。 AF優先設定時の撮影画面の表示例を示す図である。 AF優先設定時の撮影画面の他の表示例を示す図である。 登録優先設定時の撮影画面の表示例を示す図である。 撮影装置のハードウェア構成例を示すブロック図である。 制御部の機能構成例を示すブロック図である。 音声の分離の例を示す図である。 撮影装置の処理について説明するフローチャートである。 図11のステップS3において行われるAF優先音声記録処理について説明するフローチャートである。 図11のステップS4において行われる登録優先音声記録処理について説明するフローチャートである。 撮影後の編集画面の表示例を示す図である。 音量設定画面の表示例を示す図である。 情報処理部の機能構成例を示すブロック図である。 撮影装置の処理について説明するフローチャートである。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.第1の実施の形態(リアルタイム記録の例)
 2.第2の実施の形態(撮影後編集の例)
 3.変形例
<<第1の実施の形態(リアルタイム記録の例)>>
<本技術の概要>
 図1は、本技術の一実施形態に係る撮影装置1を用いた撮影の例を示す図である。
 撮影装置1は、デジタルカメラ、スマートフォンなどの、動画の撮影機能を有する装置である。撮影装置1のマイクは、例えば無指向性のマイクである。図1の例においては、撮影装置1のユーザである人物H1が撮影者となって、人物H2が映る動画の撮影が行われている。以下、適宜、人物H1を撮影者H1といい、人物H2を被写体H2という。
 被写体H2の撮影中、例えば撮影内容の指示のために撮影者H1は被写体H2に対して話しかける。また、被写体H2は、台詞などの発話を行う。撮影装置1により取り込まれた収録音声には、撮影者H1の音声とともに被写体H2の音声が含まれる。
 図1の例においては、被写体以外の人物である人物H3が被写体H2の近くで他の人(図示せず)と会話をしている。また、スピーカのイラストを用いて図1の右上に模式的に示すように、撮影現場では、波の音、風の音、BGMなどの、人物の音声以外の音である環境音が聞こえる。収録音声には、撮影者H1の音声と被写体H2の音声だけでなく、人物H3の音声と環境音が含まれる。
 例えば、撮影者H1が撮影したいシーンは、環境音が聞こえる中で、被写体H2が台詞を発話しているシーンである。そのようなシーンの音声として撮影者H1が記録したい音声は、被写体H2の音声と環境音のみとなる。
 撮影装置1においては、動画の撮影時に取り込まれた収録音声から、撮影者H1が指定した特定の人物である被写体H2の音声と、被写体H2の音声以外の一部の音である環境音がそれぞれ分離され、動画の音声として記録される。例えば、音声の分離と記録は、動画の撮影中にリアルタイムで行われる。撮影者H1が指定した被写体H2以外の人物の音声である、撮影者H1自身の音声や人物H3の音声は、例えば図2に色を付して示すようにミュートされる(記録されない)。
 例えば、被写体H2の音声は、環境音より大きい音量で記録される。記録対象となる音の音量が撮影者H1によって適宜設定される。
 このように、撮影者H1は、撮影装置1を用いて撮影を行うことにより、自分が指定した特定の人物の音声と環境音のみを、動画の音声として記録することができる。
<音声記録モード>
 図3は、音声記録モードの例を示す図である。
 図3に示すように、撮影装置1には、音声の記録に関するモードである音声記録モードとして、AF優先と登録優先の2つのモードが用意される。
 AF優先は、合焦位置にいる人物の音声を記録するモードである。AF優先の設定時、合焦位置にいる人物の音声が環境音とともに記録される。撮影装置1は、AF機能を搭載した装置である。
 登録優先は、撮影装置1に事前に登録された人物の音声を記録するモードである。登録優先の設定時、登録済みの人物の音声が環境音とともに記録される。
 ユーザ(撮影者H1)は、このような2つの音声記録モードの中からいずれかのモードを選択し、動画の撮影を開始することになる。例えば、AF優先がデフォルトの音声記録モードとして設定される。
 図4は、音声記録モードの設定画面の表示例を示す図である。
 撮影装置1の筐体に設けられたボタンを操作するなどして、音声記録モードの設定を行うことがユーザにより選択された場合、撮影装置1のディスプレイ11には図4に示すような設定画面が表示される。
 動画の撮影に関するタブが画面の上方に並ぶタブの中から選択された場合、図4に示すように、「音声記録優先設定」、「個人音声登録」の項目が表示される。
 「音声記録優先設定」は、音声記録モードの設定に関する項目である。図4の例においては、音声記録モードが「AF優先」に設定されている。撮影者は、「音声記録優先設定」の項目を操作することにより、音声記録モードとして、「AF優先」と「登録優先」のうちのどちらか一方のモードを選択することができる。ディスプレイ11は、例えばタッチパネルを搭載したディスプレイである。
 「個人音声登録」は、音声を登録するときに選択される項目である。「個人音声登録」の項目が選択された場合、音声の登録画面が表示され、特定の人物の音声を登録することができる状態になる。この状態のときにマイクにより取り込まれた、被写体H2などの特定の人物の音声が撮影装置1に登録される。
 音声記録モードとして「登録優先」が設定されている場合、「個人音声登録」を用いて登録された音声の中から選択された音声が記録される。例えば、複数人の音声を撮影装置1に登録することができるようになっている。
 ここで、このような設定画面を用いて設定されたそれぞれの音声記録モードを用いた撮影について説明する。
<音声記録モード:AF優先>
・AF優先(Default)
 図5は、AF優先設定時の撮影画面の表示例を示す図である。
 動画の撮影時、撮影画面には、取り込み中の動画であるスルー画像が表示される。図5の例においては、砂浜にいる被写体H2が映る画像が表示されている。撮影に関する情報などの各種の情報が、被写体H2が映る画像に重ねて表示される。
 図5に示すように、被写体H2の顔に合わせてAF枠F1が表示される。撮影装置1においては、取り込み画像を対象として顔認識が行われ、認識されたいずれかの顔に焦点を合わせるようにしてAF制御が行われる。
 後述するように、撮影装置1においては、合焦位置に基づいて特定される被写体H2の位置情報と、被写体H2の口の動きの解析結果とに基づいて、収録音声から被写体H2の音声が分離される。分離された被写体H2の音声が、特定の人物の音声として環境音とともに記録される。
 撮影画面の左下には、音声チャンネルであるチャンネル1とチャンネル2のそれぞれの音量を示すレベルメーター31,32が表示される。例えば、被写体H2の音声がチャンネル1の音声として記録され、環境音がチャンネル2の音声として記録される。
・AF優先(Manual)
 AF優先の設定時、AF対象になっている人物とは異なる人物の音声を記録することを選択できるようになっている。音声の記録対象となる人物の選択は、例えば、撮影画面に表示されている人物の顔の中から、ユーザが特定の人物の顔を選択するようにして行われる。
 図6は、AF優先設定時の撮影画面の他の表示例を示す図である。
 図6の左側においては、被写体H2とともに、被写体H2以外の人物である人物H3が映る画像が表示されている。また、人物H3の顔に合焦するようにAFの制御が行われ、人物H3の顔に合わせてAF枠F1が表示されている。
 撮影画面の上方には、アイコン41とアイコン42が並べて表示されている。アイコン41は、タッチAFの機能をONにするときに操作されるアイコンである。タッチAFは、AF対象とする人物の顔をユーザが選択できるようにする機能である。
 アイコン42は、タッチ収音の機能をONにするときに操作されるアイコンである。タッチ収音は、音声の記録対象とする人物の顔をユーザが選択できるようにする機能である。
 図6の左側に示すようにアイコン42が操作され、続けて、被写体H2の顔が選択された場合、音声の記録対象が被写体H2に設定され、図6の右側に示すように、被写体H2の顔に合わせて記録対象枠F2が表示される。記録対象枠F2は、音声の記録対象の人物がだれであるのかを表す。記録対象枠F2は、AF枠F1とは異なる色や形の枠として表示される。このとき、AF対象は人物H3の顔のままである。
 撮影装置1においては、撮影者H1により選択された被写体H2の音声が、特定の人物の音声として分離され、環境音とともに記録される。このように、タッチ収音の機能は、AF対象となっている人物とは異なる人物を音声の記録対象として手動(マニュアル)でユーザが選択するときに用いられる。AF優先のタッチ収音の機能を利用することにより、ユーザは、AF対象となっている人物とは異なる人物の音声を記録することが可能となる。
<音声記録モード:登録優先>
 図7は、登録優先設定時の撮影画面の表示例を示す図である。上述した説明と重複する説明については適宜省略する。
 記録対象の人物の音声が「個人音声登録」の機能を用いて事前に登録されている状態で、図7の左側に示すように、チャンネル1の音量を示すレベルメーター31のアイコン31Aが選択された場合、図7の中央に示すように、チャンネル1の設定画面が表示される。レベルメーター32のアイコン32Aが選択された場合も同様に、チャンネル2の設定画面が表示される。
 チャンネル1の設定画面は、チャンネル1の音声として記録する音声の選択に用いられる画面である。音声の選択は、登録済みの音声の中から1つの音声を選択するようにして行われる。
 図7の中央の例においては、「登録音声1」と「登録音声2」が登録済みの音声として表示されている。「登録音声1」が選択された場合、「登録音声1」として登録済みの音声と同じ音声がチャンネル1に記録され、「登録音声2」が選択された場合、「登録音声2」として登録済みの音声と同じ音声がチャンネル1に記録される。例えば、「登録音声1」は被写体H2の音声であり、「登録音声2」は人物H3の音声である。
 図7の例においては、「登録音声1」と「登録音声2」の他に、「風景」を選択することができるようになっている。
 図7に示すように「登録音声1」がチャンネル1の設定画面を用いて選択された場合、収録音声から分離された被写体H2の音声の記録が開始される。
 このとき、図7の右側に示すように、レベルメーター31の隣にはアイコン31Bが表示される。アイコン31Bは、「登録音声1」の人物(被写体H2)の音声がチャンネル1の音声として記録されることを表す。
 図7の右側の例においては、環境音がチャンネル2の音声として記録されることを表すアイコン32Bがレベルメーター32の隣に表示されている。アイコン32Bは、チャンネル2の設定画面を用いて「風景」が選択された場合に表示される。
 このように、音声記録モードとして登録優先を設定することによって、ユーザ(撮影者H1)は、撮影中の動画に映っていない例えば自分の音声を、特定の人物の音声として環境音とともに記録することができる。
 以上のようにして、特定の人物の音声と環境音のみを音声記録モードに応じて記録する撮影装置1の一連の動作についてはフローチャートを参照して後述する。
<撮影装置1の構成>
 図8は、撮影装置1のハードウェア構成例を示すブロック図である。
 撮影装置1は、上述したディスプレイ11の他に、撮影部72、マイク73、センサ74、操作部75、スピーカ76、記憶部77、および通信部78が制御部71に対して接続されることによって構成される。
 ディスプレイ11は、LCDなどにより構成され、制御部71による制御に従って、上述した画面を表示する。
 制御部71は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部71は、所定のプログラムを実行し、ユーザの操作に応じて撮影装置1の全体の動作を制御する。
 撮影部72は、レンズ、撮像素子などにより構成され、制御部71による制御に従って撮影を行う。撮影部72は、撮影によって得られた動画のデータを制御部71に出力する。
 マイク73は、収音した音声などの音声データを制御部71に出力する。
 センサ74は、ToFセンサなどにより構成される。センサ74は、撮影範囲に含まれる被写体の各位置までの距離を計測し、センサデータを制御部71に出力する。
 操作部75は、撮影装置1の筐体表面に設けられた操作ボタンやタッチパネルなどにより構成される。操作部75は、ユーザによる操作の内容を表す情報を制御部71に出力する。
 スピーカ76は、制御部71から供給された音声信号に基づいて音声を出力する。
 記憶部77は、フラッシュメモリや、筐体に設けられたカードスロットに挿入されたメモリカードにより構成される。記憶部77は、制御部71から供給された動画のデータや音声データなどの各種のデータを記憶する。
 通信部78は、外部の装置との間で無線や有線の通信を行う。通信部78は、制御部71から供給された動画のデータなどの各種のデータを、コンピュータや外部の装置などに送信する。
 図9は、制御部71の機能構成例を示すブロック図である。図9に示す各機能部のうちの少なくとも一部は、制御部71を構成するCPUにより所定のプログラムが実行されることによって実現される。
 制御部71は、撮影制御部111、解析部112、表示制御部113、音声記録モード設定部114、音声処理部115、および記録処理部116により構成される。ユーザの操作の内容を表す情報は、図9の各部に入力される。マイク73により取り込まれた収録音声は音声処理部115に入力される。
 撮影制御部111は、図8の撮影部72による撮影を制御する。例えば、撮影制御部111は、撮影部72により取り込まれた動画を解析し、動画に映る顔を認識する。撮影制御部111は顔認識の機能を有している。また、撮影制御部111は、所定の人物の顔に合焦するようにフォーカスを制御する。
 撮影制御部111により取り込まれた動画は、解析部112、表示制御部113、および記録処理部116に供給される。また、顔の認識結果を示す情報と、合焦位置を示す情報であるAF情報は、解析部112、表示制御部113、および音声処理部115に供給される。
 解析部112は、撮影制御部111から供給された動画に映る人物の口の動きを解析する。例えば、動画に映るそれぞれの人物の発話のタイミングなどが、適宜、顔の認識結果などを用いて解析される。解析部112による解析結果の情報は音声処理部115に供給される。
 表示制御部113は、ディスプレイ11の表示を制御する。例えば、表示制御部113は、上述した設定画面や撮影画面などの各種の画面をディスプレイ11に表示させる。撮影画面におけるAF対象の顔を表す枠や認識された顔を表す枠などの情報の表示に、撮影制御部111から供給された情報が用いられる。
 音声記録モード設定部114は、ユーザの操作を受け付け、音声記録モードを設定する。音声記録モード設定部114により設定された音声記録モードの情報は、音声処理部115に供給される。
 また、音声記録モード設定部114は、登録済みの音声を管理する。登録優先の設定時、音声記録モード設定部114は、ユーザにより選択された登録済みの音声の情報を音声処理部115に出力する。
 音声処理部115は、AF優先の設定時、AF対象の人物の音声を収録音声から分離する。AF対象の人物がだれであるのかは、撮影制御部111から供給されたAF情報に基づいて特定される。また、AF対象の人物が発話を行っているタイミングなどが、解析部112から供給された解析結果に基づいて特定される。このように、音声処理部115においては、AF情報により表される距離や解析部112による解析結果により表される発話のタイミングなどに基づいて音声の分離が行われる。
 また、音声処理部115は、登録優先の設定時、登録済みの音声の中からユーザにより選択された音声を収録音声から分離する。記録対象としてユーザにより選択された音声は、音声記録モード設定部114から供給された情報に基づいて特定される。
 収録音声を入力とし、人物毎の音声を出力とする推論モデルが音声処理部115に用意され、その推論モデルを用いて人物毎の音声が分離されるようにしてもよい。この場合、音声処理部115には、機械学習によって生成されたニューラルネットワークなどにより構成される推論モデルがあらかじめ用意される。
 音声処理部115は、収録音声を推論モデルに入力するなどして、特定の人物の音声と環境音を収録音声から分離し、記録処理部116に出力する。
 記録処理部116は、図8の記憶部77を制御し、撮影された動画を記録する。また、記録処理部116は、動画の音声として、特定の人物の音声と環境音のみを記録する。特定の人物の音声は、例えば、環境音より大きい音量で記録処理部116によって記録される。
 図10は、口の動きの解析結果を用いた音声の分離の例を示す図である。
 図10の上段に示すように、被写体H2と人物H3を被写体として撮影が行われている場合において、被写体H2がAF被写体になっているとき、音声処理部115は、被写体H2の位置をAF情報に基づいて特定する。AF被写体は、AF対象の被写体である。
 また、音声処理部115は、AF被写体である被写体H2の口の動きを例えば推論モデルを用いて解析し、発話のタイミングを特定する。この場合、例えば、口を含む画像を入力とし、発話のタイミングを出力とする推論モデルが機械学習によって生成され、音声処理部115に予め用意されている。
 音声処理部115は、図10の下段に示すように、推論モデルなどを用いて分離した被写体H2の音声と人物H3の音声の中から、被写体H2の音声を発話タイミングに基づいて特定し、記録対象の音声として抽出する。音声処理部115は、抽出した被写体H2の音声とともに、推論モデルなどを用いて分離した環境音を記録処理部116に出力し、記録させる。図10の下段に示す波形W1と波形W2は、それぞれ、被写体H2の音声と人物H3の音声を表している。また、波形W3は、音声データとして記録される、被写体H2の音声と環境音を含む音声の波形を表している。
<撮影装置1の動作>
 図11のフローチャートを参照して、以上のような構成を有する撮影装置1の処理について説明する。図11の処理は、例えば、ユーザによって音声記録モードの設定を行うことが選択されたときに開始される。
 ステップS1において、音声記録モード設定部114は、ユーザの操作を受け付け、音声記録モードを設定する。
 ステップS2において、音声処理部115は、音声記録モードがAF優先であるか否かを判定する。
 音声記録モードがAF優先であるとステップS2において判定された場合、ステップS3においてAF優先音声記録処理が行われる。AF優先音声記録処理は、音声記録モードがAF優先である場合の音声の記録処理である。AF優先音声記録処理については、図12のフローチャートを参照して後述する。
 一方、音声記録モードがAF優先ではないとステップS2において判定された場合、ステップS4において登録優先音声記録処理が行われる。登録優先音声記録処理は、音声記録モードが登録優先である場合の音声の記録処理である。登録優先音声記録処理については、図13のフローチャートを参照して後述する。
・AF優先音声記録処理
 次に、図12のフローチャートを参照して、図11のステップS3において行われるAF優先音声記録処理について説明する。
 ステップS11において、撮影制御部111は、撮影した動画に映る顔を認識する。
 ステップS12において、撮影制御部111は、所定の人物の顔に合焦するようにAF制御を行う。
 ステップS13において、解析部112は、動画に映る人物の口の動きを解析する。
 ステップS14において、音声処理部115は、Default設定であるか否かを判定する。例えば、タッチ収音の機能がオフである場合にDefault設定であると判定される。
 Default設定であるとステップS14において判定された場合、ステップS15において、音声処理部115は、AF対象の人物の音声を、上述したように口の動きなどに基づいて収録音声から分離する。また、音声処理部115は、環境音を収録音声から分離する。
 ステップS16において、記録処理部116は、AF対象の人物の音声と環境音を動画の音声データとして記録する。
 一方、タッチ収音の機能がオンとして設定されていることから、Default設定ではないとステップS14において判定された場合、ステップS17において、音声記録モード設定部114は、記録対象とする音声の選択を受け付ける。記録対象とする音声の選択は、上述したように人物の顔を選択することによって行われる。
 ステップS18において、音声処理部115は、記録対象の人物の音声を分離する。ここでも、記録対象の音声の分離が口の動きの解析結果などに基づいて行われるようにしてもよい。また、音声処理部115は、環境音を収録音声から分離する。
 ステップS19において、記録処理部116は、記録対象の人物の音声と環境音を動画の音声データとして記録する。
 ステップS16またはステップS19において音声が記録された後、図11のステップS3に戻り、それ以降の処理が行われる。
・登録優先音声記録処理
 次に、図13のフローチャートを参照して、図11のステップS4において行われる登録優先音声記録処理について説明する。
 ステップS31において、音声記録モード設定部114は、図7を参照して説明したような設定画面を用いて行われる音声の選択を受け付ける。
 ステップS32において、音声処理部115は、人物毎の音声を、推論モデルを用いて分離する。ここで用いられる推論モデルは、例えば、複数人の音声と環境音が混在する収録音声を入力とし、それぞれの人物の音声と環境音とを出力とするモデルである。
 ステップS33において、記録処理部116は、音声の記録対象として選択された人物の音声と環境音を動画の音声データとして記録する。その後、図11のステップS4に戻り、それ以降の処理が行われる。
 以上のような一連の処理が、例えば、撮影装置1を用いた動画撮影が終了するまで続けられる。以上の処理により、撮影装置1は、ユーザが指定した特定の人物の音声と環境音のみを収録音声から分離し、動画の音声データとして記録することができる。
<<第2の実施の形態(撮影後編集の例)>>
 以上のような音声の分離が、動画の撮影中ではなく、撮影後の編集時に行われるようにしてもよい。動画の撮影時には、動画の音声データとして、複数人の音声と環境音が混在する収録音声のデータが記録される。撮影後の編集は、例えば撮影装置1上で行われる。
 図14は、撮影後の編集画面の表示例を示す図である。
 図14に示す編集画面は、記録済みの収録音声に含まれるそれぞれの音声の音量の調整に用いられる画面である。
 図14の例においては、人物H11と人物H12の2人の人物が映る動画が表示されている。編集画面の下には動画全体のうちの再生位置を示すスライドバーが表示されている。
 撮影装置1においては、登録済みの人物毎の音声と環境音が収録音声から分離される。例えば、特定の人物の音声が上述したようにして編集前に登録されている。編集画面の右側に示すアイコン151乃至153は、それぞれ、収録音声から分離されたそれぞれの音声の種類を表す。
 例えば、アイコン151は登録済みの音声を表し、アイコン152は登録されていない音声を表す。アイコン153は環境音を表す。
 ユーザは、アイコン151乃至153を選択することにより、それぞれの音声の音量を設定することができる。
 図15は、音量設定画面の表示例を示す図である。
 図15のAに示す情報は、登録済みの音声(被写体の音声)の音量の設定に用いられる情報である。アイコン151が選択された場合、図15のAに示す情報が編集画面上に表示される。
 図15のBに示す情報は、登録済みではない音声(被写体以外の人物の音声)の音量の設定に用いられる情報であり、図15のCに示す情報は、環境音の音量の設定に用いられる情報である。アイコン152が選択された場合、図15のBに示す情報が編集画面上に表示され、アイコン153が選択された場合、図15のCに示す情報が編集画面上に表示される。
 図15の例においては、登録済みの音声の音量が26として設定され、登録されていない音声の音量が0(ミュート)として設定されている。また、環境音の音量が10として設定されている。図15に示すそれぞれの音量は、例えば撮影装置1により自動的に設定された音量である。ユーザは、音量を表すレベルメーターを操作することにより、それぞれの音量を手動で設定することができる。
 動画の音声として記録する音声を撮影後に編集できることにより、ユーザは、記録される音声を気にすることなく、撮影に集中することができる。また、ユーザは、それぞれの音声の音量を、撮影後に自由に設定することができる。
<撮影装置1の構成>
 図16は、情報処理部201の機能構成例を示すブロック図である。図8の制御部71においては、撮影後の編集機能を実現する情報処理部201が実現される。図16に示す各機能部のうちの少なくとも一部も、制御部71を構成するCPUにより所定のプログラムが実行されることによって実現される。
 情報処理部201は、記録データ取得部211、表示制御部212、音声処理部213、および記録処理部214により構成される。
 記録データ取得部211は、記録済みの動画と収録音声のデータを例えば記憶部77から読み出すことによって取得する。記録データ取得部211により取得された動画は、表示制御部212と記録処理部214に供給される。また、記録データ取得部211により取得された収録音声は、音声処理部213に供給される。
 表示制御部212は、図14を参照して説明したような編集画面をディスプレイ11に表示させる。
 音声処理部213は、図9の音声処理部115と同様の機能を有する。すなわち、音声処理部213は、記録データ取得部211から供給された収録音声に含まれるそれぞれの人物の音声と環境音を分離する。音声処理部213による音声の分離も、例えば機械学習によって生成された推論モデルを用いて行われる。音声処理部213によって分離された音声は、記録処理部214に供給される。
 記録処理部214は、ユーザにより設定された音量などに従って、記録対象として選択された人物の音声と環境音のみを、動画の音声データとして記憶部77(図8)に記録させる。
<撮影装置1の動作>
 図17のフローチャートを参照して、図16の情報処理部201を有する撮影装置1の処理について説明する。図17の処理は、例えば、動画の音声の編集を行うことが撮影後に選択されたときに開始される。
 ステップS51において、音声処理部213は、収録音声に含まれるそれぞれの人物の音声と環境音を、推論モデルを用いて分離する。
 ステップS52において、表示制御部212は、編集画面をディスプレイ11に表示させる。
 ステップS53において、記録処理部214は、編集画面に対するユーザの操作に応じて、それぞれの音声の音量の設定を受け付ける。
 ステップS54において、記録処理部214は、記録対象として選択された人物の音声と環境音のみを音量設定に応じて記録する。
 以上の処理が、例えば、撮影後の動画の編集が終了するまで続けられる。撮影装置1は、それぞれの音量をユーザによる設定に応じて調整して記録することができる。
<<変形例>>
 撮影後の編集が、撮影装置1上ではなく、PC、スマートフォンなどの他の装置上で行われるようにしてもよい。この場合、図16の情報処理部201は、PC、スマートフォンなどの他の装置において実現される。
 音声の記録対象となる特定の人物が1人であるものとしたが、複数人の音声が環境音とともに記録されるようにしてもよい。
 音声の分離が、主に、機械学習によって生成された推論モデルを用いて行われるものとしたが、音声を解析することによって行われるようにしてもよい。例えば、音声の特徴が解析され、同じ特徴を有する音声毎に分離される。
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなるリムーバブルメディアに記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、
 前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部と
 を備える撮影装置。
(2)
 前記音声処理部は、前記収録音声に含まれる環境音を前記一部の音として分離し、
 前記記録処理部は、前記特定の人物の音声を前記環境音とともに記録する
 前記(1)に記載の撮影装置。
(3)
 前記動画に被写体として映る顔の認識結果に基づいて、任意の人物の顔に対する合焦を制御する撮影制御部をさらに備える
 前記(1)または(2)に記載の撮影装置。
(4)
 前記音声処理部は、合焦対象の人物の音声を、前記特定の人物の音声として分離する
 前記(3)に記載の撮影装置。
(5)
 前記音声処理部は、顔が認識されている人物の中からユーザにより選択された、前記合焦対象の人物とは異なる人物の音声を、前記特定の人物の音声として分離する
 前記(4)に記載の撮影装置。
(6)
 前記音声処理部は、登録済みの人物の音声を前記収録音声から分離する
 前記(1)乃至(3)のいずれかに記載の撮影装置。
(7)
 前記記録処理部は、前記特定の人物の音声を、前記一部の音より大きい音量で記録する
 前記(1)乃至(6)のいずれかに記載の撮影装置。
(8)
 前記音声処理部は、前記特定の人物の音声と前記一部の音を、記録対象となる前記動画の撮影中に分離する
 前記(1)乃至(7)のいずれかに記載の撮影装置。
(9)
 前記音声処理部は、機械学習によって生成された推論モデルを用いて、前記特定の人物の音声と前記一部の音を前記収録音声から分離する
 前記(1)乃至(8)のいずれかに記載の撮影装置。
(10)
 前記音声処理部は、記録済みの前記収録音声に基づいて、前記特定の人物の音声と前記一部の音を前記動画の撮影後に分離する
 前記(1)乃至(3)のいずれかに記載の撮影装置。
(11)
 前記記録処理部は、前記特定の人物の音声と前記一部の音のそれぞれの音量をユーザによる設定に応じて調整して記録する
 前記(10)に記載の撮影装置。
(12)
 記録済みの前記収録音声から分離された音の種類を表す情報を表示させる表示制御部をさらに備える
 前記(10)または(11)に記載の撮影装置。
(13)
 前記記録処理部は、前記特定の人物の音声と前記一部の音をそれぞれ異なるチャンネルの音声データとして記録する
 前記(1)乃至(12)のいずれかに記載の撮影装置。
(14)
 撮影装置が、
 動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
 前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
 撮影方法。
(15)
 コンピュータに、
 動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
 前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
 処理を実行させるためのプログラム。
 1 撮影装置, 11 ディスプレイ, 111 撮影制御部, 112 解析部, 113 表示制御部, 114 音声記録モード設定部, 115 音声処理部, 116 記録処理部, 211 記録データ取得部, 212 表示制御部, 213 音声処理部, 214 記録処理部

Claims (15)

  1.  動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離する音声処理部と、
     前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する記録処理部と
     を備える撮影装置。
  2.  前記音声処理部は、前記収録音声に含まれる環境音を前記一部の音として分離し、
     前記記録処理部は、前記特定の人物の音声を前記環境音とともに記録する
     請求項1に記載の撮影装置。
  3.  前記動画に被写体として映る顔の認識結果に基づいて、任意の人物の顔に対する合焦を制御する撮影制御部をさらに備える
     請求項1に記載の撮影装置。
  4.  前記音声処理部は、合焦対象の人物の音声を、前記特定の人物の音声として分離する
     請求項3に記載の撮影装置。
  5.  前記音声処理部は、顔が認識されている人物の中からユーザにより選択された、前記合焦対象の人物とは異なる人物の音声を、前記特定の人物の音声として分離する
     請求項4に記載の撮影装置。
  6.  前記音声処理部は、登録済みの人物の音声を前記収録音声から分離する
     請求項1に記載の撮影装置。
  7.  前記記録処理部は、前記特定の人物の音声を、前記一部の音より大きい音量で記録する
     請求項1に記載の撮影装置。
  8.  前記音声処理部は、前記特定の人物の音声と前記一部の音を、記録対象となる前記動画の撮影中に分離する
     請求項1に記載の撮影装置。
  9.  前記音声処理部は、機械学習によって生成された推論モデルを用いて、前記特定の人物の音声と前記一部の音を前記収録音声から分離する
     請求項1に記載の撮影装置。
  10.  前記音声処理部は、記録済みの前記収録音声に基づいて、前記特定の人物の音声と前記一部の音を前記動画の撮影後に分離する
     請求項1に記載の撮影装置。
  11.  前記記録処理部は、前記特定の人物の音声と前記一部の音のそれぞれの音量をユーザによる設定に応じて調整して記録する
     請求項10に記載の撮影装置。
  12.  記録済みの前記収録音声から分離された音の種類を表す情報を表示させる表示制御部をさらに備える
     請求項10に記載の撮影装置。
  13.  前記記録処理部は、前記特定の人物の音声と前記一部の音をそれぞれ異なるチャンネルの音声データとして記録する
     請求項1に記載の撮影装置。
  14.  撮影装置が、
     動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
     前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
     撮影方法。
  15.  コンピュータに、
     動画の撮影時に収録された収録音声から、特定の人物の音声と、前記特定の人物の音声以外の一部の音をそれぞれ分離し、
     前記特定の人物の音声を、前記一部の音とともに前記動画の音声データとして記録する
     処理を実行させるためのプログラム。
PCT/JP2023/008365 2022-03-24 2023-03-06 撮影装置、撮影方法、およびプログラム WO2023181889A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-047950 2022-03-24
JP2022047950 2022-03-24

Publications (1)

Publication Number Publication Date
WO2023181889A1 true WO2023181889A1 (ja) 2023-09-28

Family

ID=88100719

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/008365 WO2023181889A1 (ja) 2022-03-24 2023-03-06 撮影装置、撮影方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023181889A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
WO2020022055A1 (ja) * 2018-07-24 2020-01-30 ソニー株式会社 情報処理装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009156888A (ja) * 2007-12-25 2009-07-16 Sanyo Electric Co Ltd 音声補正装置及びそれを備えた撮像装置並びに音声補正方法
JP2013106298A (ja) * 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
WO2020022055A1 (ja) * 2018-07-24 2020-01-30 ソニー株式会社 情報処理装置および方法、並びにプログラム

Similar Documents

Publication Publication Date Title
JP6984596B2 (ja) 映像音響処理装置および方法、並びにプログラム
RU2398277C2 (ru) Автоматическое извлечение лиц для использования во временной шкале записанных конференций
JP4720810B2 (ja) 画像処理装置、撮像装置、画像処理方法及び画像処理プログラム
JP5451749B2 (ja) 撮像装置、集積回路、撮像方法、プログラム及び記録媒体
US20140192997A1 (en) Sound Collection Method And Electronic Device
KR101710626B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP2008277903A (ja) 撮像装置及びフォーカス対象決定方法
JP4941895B2 (ja) 音データ付き画像記録装置及びプログラム
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2010237761A (ja) 電子機器
JP7428763B2 (ja) 情報取得システム
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP2007213282A (ja) 講演者支援装置および講演者支援方法
KR101077267B1 (ko) 얼굴인식 회의 속기 시스템 및 방법
US10447935B2 (en) Image generating apparatus, image generating method and computer readable recording medium for recording program for generating new image from images related to reference image
US9767587B2 (en) Image extracting apparatus, image extracting method and computer readable recording medium for recording program for extracting images based on reference image and time-related information
JP2009177480A (ja) 撮影装置
WO2023181889A1 (ja) 撮影装置、撮影方法、およびプログラム
JP2010081012A (ja) 撮像装置、撮像制御方法及びプログラム
JP2009239349A (ja) 撮影装置
JP2013168878A (ja) 録音機器
JP5310682B2 (ja) カラオケ装置
WO2021192991A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2018173139A1 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2008219451A (ja) 撮像装置およびその制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23774488

Country of ref document: EP

Kind code of ref document: A1